CN114186122A

CN114186122A - 一种热点话题确定方法、系统、电子设备及存储介质

Info

Publication number: CN114186122A
Application number: CN202111289933.3A
Authority: CN
Inventors: 万国
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-03-15

Abstract

本发明涉及一种热点话题确定方法、系统、电子设备及存储介质。确定方法包括：从用户交互文本数据中获取可互动文本数据，将所述可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据，并根据待聚合文本数据中话题关键词的之间的话题关系，对话题关键词分别添加话题权重值，根据话题关键词的话题权重值得到话题关键词的总权重值，根据话题关键词的总权重值来确定话题关键词中的热点话题，实现了对站内用户热议的话题数据进行聚合，以迅速确定出站内用户关注的热点，为运营人员的运营工作提供数据支持。

Description

一种热点话题确定方法、系统、电子设备及存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种热点话题确定方法、系统、电子设备及存储介质。

背景技术

视频网站每日生产的内容数据数以万千，快速聚合网站的热门数据，定位当下热点，能够快速有效的将同一话题信息进行汇总，形成热议话题。

当下视频网站的文本信息主要包括评论，弹幕，视频标题以及对应的属性信息，对于热点话题，很多用户在听闻到相应消息后，都会进一步通过搜索去确认相应的话题，现有的热点话题一般是直接展示在搜索窗口下的，对于网站来说，若是展示的话题与用户想要搜索的数据不相符时，会影响到用户对于网站的权威性产生质疑，同时也无法给与用户良好的使用体验，所以，对于网站来说，如何分析得到当下热点是亟待解决的问题。

发明内容

为了解决现有技术存在的如何从可互动文本数据中分析得到当下热点话题的问题，本发明的至少一个实施例提供了一种热点话题确定方法、系统、电子设备及存储介质。

第一方面，本发明实施例提供了一种热点话题确定方法，获取方法包括：

从可互动文本数据中获取待聚合文本数据；所述待聚合文本数据的热度值高于预设阈值；

针对每组待聚合文本数据，提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值；

将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据所述话题关键词的总权重值，确定话题关键词中的热点话题。

基于上述技术方案，本发明实施例还可以做出如下改进。

结合第一方面，在第一方面的第一种实施例中，所述从可互动文本数据中获取待聚合文本数据包括：

获取可互动文本数据的热度数据；所述热度数据包括：文本数据评论量、文本数据所属领域和文本数据存在时长中至少一种；

根据预设置的评分标准，对每组所述可互动文本数据的热度数据添加相应的评分；

针对每组所述可互动文本数据，根据所述可互动文本数据的热度数据的评分计算所述热度值；

将热度值高于预设阈值的可互动文本数据作为待聚合文本数据。

结合第一方面，在第一方面的第二种实施例中，所述提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值，包括：

获取所述待聚合文本数据中的句子成分；

根据所述句子成分，确定所述待聚合文本数据中的话题关键词；

获取所述话题关键词之间的语法关系，对具备语法关系的话题关键词配置第一话题权重值，对不具备语法关系的话题关键词配置第二话题权重值；第一话题权重值大于第二话题权重值。

结合第一方面，在第一方面的第三种实施例中，所述提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值，包括：

将所述待聚合文本数据的源数据与预设特殊符号进行对比，判断所述源数据中是否具备预设特殊符号；

若所述源数据具备预设特殊符号，则将所述待聚合文本数据中与所述预设特殊符号相对应的词语作为候选关键词；

根据所述候选关键词在所述待聚合文本数据的重复次数，判断所述待聚合文本数据是否为劣质数据；

当所述候选关键词对应的待聚合文本数据不为劣质数据时，所述候选关键词为话题关键词，并对所述话题关键词添加第三话题权重值；

当所述候选关键词对应的待聚合文本数据为劣质数据时，删除所述候选关键词。

结合第一方面，在第一方面的第四种实施例中，所述提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值，包括：

将所述待聚合文本数据输入预先建立的关系抽取模型，得到所述待聚合文本数据中的所有主语和每个主语对应的宾语；

将所述主语分别与预先建立的语法关系输入预先建立的宾语预测模型，得到预测宾语；

判断所述预测宾语与所述主语相对应的宾语是否相似；

若所述预测宾语与所述主语对应的的宾语相似，则将所述主语和所述宾语作为话题关键词，并对所述话题关键词添加第四话题权重值；

若所述预测宾语与所述主语对应的的宾语不相似，则所述主语与所述宾语没有语法关系。

结合第一方面的第四种实施例，在第一方面的第五种实施例中，所述将所述待聚合文本数据输入预先建立的关系抽取模型，得到所述待聚合文本数据中的所有主语和每个主语对应的宾语，包括：

按照预设置的文字与数字对应关系，对所述待聚合文本数据中的每个字进行编码，得到与所述待聚合文本数据中的字的顺序相同的数字序列；

将所述数字序列输入所述关系抽取模型，得到所述待聚合文本数据中的所有主语和每个主语对应的宾语。

结合第一方面或第一方面的第一、第二、第三或第四种实施例，在第一方面的第五种实施例中，所述确定方法还包括：

确定各个热点话题关联的信息接口；

根据所述热点话题对应的总权重值的大小进行排序，将各个热点话题对应的信息接口进行顺序展示。

第二方面，本发明实施例提供了一种热点话题确定系统，所述确定系统包括：

第一获取单元，用于从可互动文本数据中获取待聚合文本数据；所述待聚合文本数据的热度值高于预设阈值；

第二获取单元，用于针对每组待聚合文本数据，提取所述待聚合文本数据中的话题关键词；

权重确定单元，用于根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值；

确定单元，用于将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值；根据所述话题关键词的总权重值，确定话题关键词中的热点话题。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面中任一实施例所述的热点话题确定方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现第一方面中任一实施例所述的热点话题确定方法。

本发明的上述技术方案与现有技术相比具有如下优点：本方案通过从用户交互文本数据中获取可互动文本数据，对可互动文本数据进行分组聚合得到待聚合文本数据，并根据待聚合文本数据中话题关键词的之间的话题关系，对话题关键词分别添加话题权重值，根据话题关键词的话题权重值得到话题关键词的总权重值，根据话题关键词的总权重值来确定话题关键词中的热点话题，实现了对站内用户热议的话题数据进行聚合，以迅速确定出站内用户关注的热点，为运营人员的运营工作提供数据支持。

附图说明

图1是本发明实施例提供的一种热点话题确定方法流程示意图；

图2是本发明另一实施例提供的一种热点话题确定方法流程示意图；

图3是本发明又一实施例提供的一种热点话题确定方法流程示意图其一；

图4是本发明又一实施例提供的一种热点话题确定方法流程示意图其二；

图5是本发明又一实施例提供的一种热点话题确定方法流程示意图其三；

图6是本发明又一实施例提供的一种热点话题确定方法流程示意图其四；

图7是本发明又一实施例提供的一种热点话题确定系统结构示意图；

图8是本发明又一实施例提供的一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供的为实现本发明各个实施例的一种系统的结构示意图，包括终端，终端包括：处理器1110和存储器1130，其中，终端可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigitalAssistant，PDA)、便捷式媒体播放器(PortableMediaPlayer，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

如图1所示，本发明实施例提供了一种热点话题确定方法。参照图1所示，确定方法包括如下步骤：

S11、从用户交互文本数据中获取可互动文本数据；可互动文本数据的热度值高于预设阈值。

在本实施例中，视频网站每日生产的内容数据数以万千，快速聚合网站的热门数据，定位当下热点，能够快速有效的将同一话题信息进行汇总，形成热议话题。当下视频网站的文本信息主要包括评论，弹幕，视频标题以及对应的属性信息，其中海量的评论和弹幕具有很强的用户随意性以及要点分散性。

在本实施例中，用户交互文本数据即用户之间进行交互产生的数据，比如，弹幕、评论以及回复等信息，并从用户交互文本数据中获取可互动文本数据，比如，可以将各个用户交互文本数据的用户互动量作为热度值，具体的，比如，视频网站上的弹幕就是一种互动文本，本方案种可以将弹幕的点赞量作为热度值，由此确定可互动文本数据中的待聚合文本数据，还可以根据用户交互文本数据所涉及的对象的影响、用户的评论、回复、内容长度以及存在时长分别添加热度系数，对热度系数进行统计得到用户交互文本数据的热度值，比如，可以根据历史数据确定平均内容长度，将用户交互文本数据的内容长度除以平均内容长度，得到相应的热度系数，然后根据历史数据确定平均存在时长，将用户交互文本数据的内容长度除以平均存在时长，得到相应的热度系数，其他几个参数也可以采用相同的方式实现对于不同量纲的数据的热度评价，通过对不同参数分别进行归一化，实现确定用户交互文本数据的热度值，将热度值高于预设阈值的用户交互文本数据作为可互动文本数据。

在本实施例中，由于本方案最终需要确定话题热点，而无论是在视频网站还是在其他类型的网站中用户交互文本数据的数据数量是十分庞大的，在本步骤中，我们根据用户交互文本数据的热度值来对可互动文本数据进行筛选，得到本步骤中的可互动文本数据，可以有效的减少数据处理量，同时，还可以提高最终确定的热点话题的有效性。

S12、将可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据。

在本实施例中，实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。在本方案中，由于可互动文本数据是由人聊天输入的内容，对于客户端或者系统来说，他们并不能直接的理解内容所表达的语义，在本方案中，根据各个可互动文本数据中的实体名称对可互动文本数据进行分组，得到多组待聚合文本数据，降低各个待聚合文本数据组内的分析难度，提高处理效率。

比如，根据各个可互动文本数据中所包含的实体之间的重复度对可互动文本数据进行分组，具体的，可以按照可互动文本数据之间的实体名称重复的数量和预先设定的预设数量，来进行筛选，当两个可互动文本数据之间的实体名称一致的数量大于预设数量时，将两个可互动文本数据归为一组，还可以按照实体名称来进行分组，比如，包含同一实体名称的可互动文本数据作为同一组待聚合文本数据，当然还可以采用其他的方式对可互动文本数据按实体名称进行分组聚合，本方案对此不做特别限定。

S13、针对每组待聚合文本数据，提取待聚合文本数据中的话题关键词，并根据话题关键词的之间的话题关系，对话题关键词分别添加话题权重值。

在本实施例中，获取待聚合文本数据中的话题关键词，可以是待聚合文本数据中的主语、谓语、宾语等句子成分，也可以通过现有的语义识别模型来对待聚合文本数据进行处理，提取待聚合文本数据中的话题关键词，比如，通过文本摘要模型提取数据中的有用信息。

在本实施例中，话题关键词之间的话题关系也可以通过关系抽取或者句法分析得到，比如，关系抽取可以得到语句中不同实体之间的上下文关系，而通过句法分析可以通到话题关键词之间的句法关系，比如，含有定语后置的动宾关系，含有介宾关系的主谓动补关系等，通过上述两种方式得到待聚合文本数据中心各个话题关键词之间的上下文关系和句法关系，都可以分别对不同关系的话题关键词添加权重系数，由于待聚合文本数据中的话题关键词可能不会只出现一次，而出现的频次越高，而且话题关键词与其他话题关键词的话题关系越多，则说明话题关键词的重要性就越高，最终，通过统计各个话题关键词的话题权重值即可确定在一个待聚合文本数据中各个话题关键词的重要程度，以此延伸，即可对各个待聚合文本数据中的各个话题关键词的重要程度进行定义，以实现对用户热议的话题数据进行聚合，确定用户所关注的热点话题。

S14、将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据话题关键词的总权重值，确定话题关键词中的热点话题。

在本实施例中，可以将每组待聚合文本数据中的各个话题关键词的话题权重值进行相加，得到每个话题关键词的总权重值，将计算得到的总权重值作为判定该话题关键词的热度的依据，由此确定话题关键词中的热点话题。

在本实施例中，还可以根据每个话题关键词所属待聚合文本数据的热度值对话题关键词的话题权重值进行调整，比如，根据热度值对待聚合文本数据进行排序，当待聚合文本数据的排序为第一时，则该待聚合文本数据对应的话题关键词的话题权重值不降低，按百分之百取值，若待聚合文本数据的排序为最后时，则该待聚合文本数据对应的话题关键词的话题权重值则按排名顺序的比例进行降低，具体的，可以通过如下方式对话题关键词的话题权重值进行调整，A＝A1×(R-r+1)÷R，其中，A为调整后的话题关键词的话题权重值，A1为话题关键词的话题权重值，r为话题关键词对应的待聚合文本数据的热点值排名顺序，R为待聚合文本数据的数量；在本实施例中，通过待聚合文本数据的热点值对待聚合文本数据进行排序，并由此来对不同热点值的待聚合文本数据中的话题关键词对应的权重系数进行调整，在待聚合文本数据的数据量较大时，可以有效的减低热点值较低的待聚合文本数据中的话题关键词的话题权重值，使最终得到的话题关键词的总权重值更加贴合实际，在待聚合文本数据的数据量较少时，可以调整上述计算方式中的常数值“1”的大小，比如，提高常数值的数值，可以减少对于话题关键词的话题权重值的调整量，避免因参考的数据量较小，导致出现误判，具体的，可以参考如下解释，比如，常数值为“1”时，若R为100，排名第一的待聚合文本数据的话题关键词的权重系数不变，而排名最后的待聚合文本数据的话题关键词的权重系数只剩下百分之1，此时，若是将常数“1”改变为100，则排名第一的待聚合文本数据的话题关键词的权重系数增加一倍，而排名最后的待聚合文本数据的话题关键词的权重系数保持不变，待聚合文本数据的排名权重系数的调整则不会造成较大差距。综上，调整方式可以通过如下方式进行，A＝A1×(R-r+a)÷R，其中，A为调整后的话题关键词的话题权重值，A1为话题关键词的话题权重值，r为话题关键词对应的待聚合文本数据的热点值排名顺序，a为预设常数，R为待聚合文本数据的数量。

在本实施例中，不仅限于通过待聚合文本数据的热点值来对待聚合文本数据进行排序，实现进一步对于待聚合文本数据中话题关键词的话题权重值的调整，还可以根据待聚合文本数据的出现时长、文本长度、回复量和评论量来对待聚合文本数据中的各个话题关键词的话题权重值的调整，比如，待聚合文本数据的出现时长越长，那它的评论量和回复量也就会越多，所以，待聚合文本数据的出现时长越长，越要对该待聚合文本数据中的话题关键词的话题权重值进行缩小，具体调整方式可以参考上述实施例中的方式，同理，文本长度越长，则说明该待聚合文本数据的可读性越好，此时，文本长度越长，则越要对该待聚合文本数据中的话题关键词的话题权重值进行增大，具体调整方式也可以参考上述实施例中的方式。

在本实施例中，本方案通过从可互动文本数据中获取待聚合文本数据，并根据待聚合文本数据中话题关键词的之间的话题关系，对话题关键词分别添加话题权重值，根据话题关键词的话题权重值得到话题关键词的总权重值，根据话题关键词的总权重值来确定话题关键词中的热点话题，实现了对站内用户热议的话题数据进行聚合，以迅速确定出站内用户关注的热点，为运营人员的运营工作提供数据支持。

如图2所示，为保证可互动文本数据的热度值高于预设阈值，步骤S11中的从用户交互文本数据中获取可互动文本数据，包括如下步骤：

S21、获取用户交互文本数据的热度数据；热度数据包括：文本数据评论量、文本数据所属领域和文本数据存在时长中至少一种。

在本实施例中，随着互联网的兴起，热度一词的解释也随之发生翻天覆地的变化，关键词热度即是某一时间段内用户通过搜索引擎等渠道关注到某一人物或事件的关注度和搜索度，而用户们也热衷于通过关键词热度来阅读相关的内容，在日常生活中，互联网热词就是那些被互联网用户所广泛使用的词语，由于频繁的使用，也就导致相应的热度数据不断提高，比如，出现频率、用户的搜索量、用户的讨论量都会影响到热度，本方案中，获取用户交互文本数据对应的热度数据，即文本数据评论量、文本数据所属领域和文本数据存在时长中至少一种，当然，也可以是点赞量、回复量与其他用户交互文本数据的相关性，比如，数字货币、区块链等词语，单个使用时，并没有任何关联性，但是由于其关联使用后产生的热度，让大家在单个使用时也能联想到其关联使用所产生的效果，所以，不同词语之间的关联性也可以影响到数据的热度情况。

S22、根据预设置的评分标准，确定每条用户交互文本数据的热度数据添加相应的评分。

在本实施例中，按预设置的评分标准，对热度数据分别添加相应的评分，比如，文本数据评论量越高对应的热度越高，数据出现的时间越长，则该数据对应的热度会越低，而文本数据所属领域是用户对于一个事件的正面评论和负面评论，虽然正面评论和负面评论都会提高该数据对应的话题的热度，但是相较于负面评论，正面评论可以更加的促进话题的热度，而负面评论有可能会导致用户讨论度下降。

S23、针对每条用户交互文本数据，根据用户交互文本数据的热度数据的评分计算热度值。

在本实施例中，根据用户交互文本数据的热度数据的评分计算相应的热度值，比如，一个基于评论，回复，文本，时效的加权公式，根据对不同数据的评分对于热度的贡献度来对各个评分进行加权，以保证最终计算得到的热度值更加符合实际情况，还可以通过对不同用户交互文本数据按经验添加热度值，将用户交互文本数据的热度数据的评分作为输入，将用户交互文本数据的热度值作为输出训练热度值模型，在本方案中，直接将不同用户交互文本数据的热度数据的评分输入热度值模型中，直接得到相应的热度值。

S24、将热度值高于预设阈值的用户交互文本数据作为可互动文本数据。

在本实施例中，将热度值高于预设阈值的用户交互文本数据作为用户交互文本数据，减低干扰数据的影响，提高本方案中确定的热点话题的准确度，提高用户使用体验。

在本实施例中，在确定了热点话题后，确定各个热点话题关联的信息接口；根据热点话题对应的总权重值的大小进行排序，将各个热点话题对应的信息接口进行顺序展示。

在本实施例中，确定各个热点话题关联的信息接口，可以以列表的形式展示热点话题对应的信息接口，由于，存在多个热点话题对应同一个信息接口的情况，所以，本方案还可以将对应多个热点话题的信息接口中的热点话题的总权重值进行累加，然后对信息接口对应的热点话题的权重进行排序，确定各个信息接口的展示顺序，在本实施例中，总权重值越大的热点话题对应的信息接口的顺序越靠前。

如图3所示，本发明实施例提供了一种热点话题确定方法。参照图3所示，确定方法包括如下步骤：

S31、从用户交互文本数据中获取可互动文本数据；可互动文本数据的热度值高于预设阈值。

有关步骤S31，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S32、将可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据。

有关步骤S32，详细可参见步骤S12中的描述，本实施例在此不再赘述。

S33、获取可互动文本数据中的句子成分。

在本实施例中，句子的组成成分叫句子成分，也叫句法成分。在句子中，词与词之间有一定的组合关系，按照不同的关系，可以把句子分为不同的组成成分。句子成分由词或词组充当。

在本实施例中，可以语义角色标注工具，直接确定可互动文本数据中的实体，实体可以是主语、谓语、宾语等词语，然后通过依存分析工具，抽取以谓词为中心的事实三元组，包括直接的主谓宾，含有定语后置的动宾关系，含有介宾关系的主谓动补关系，当然还有很多其他的句子成分和句子关系，本方案在此不再列举。

S34、根据句子成分，确定可互动文本数据中的话题关键词。

在本实施例中，本步骤中的话题关键词可以是可互动文本数据的主语、谓语和宾语，而其他的表语、定语、状语等无法用以表示语句的重要性的词语可以作为备选词。

在本实施例中，还可以通过训练模型来得到句子成分中的话题关键词，具体的，可以通过大数据训练，将句子成分和对句子成分中标记的关键词输入机器学习模型中，训练得到模型确定不同句子成分最终所能得到的关键词，在本方案中，直接将句子成分输入模型中确定话题关键词。

S35、获取话题关键词之间的语法关系，对具备语法关系的话题关键词配置第一话题权重值，对不具备语法关系的话题关键词配置第二话题权重值；第一话题权重值大于第二话题权重值。

在本实施例中，针对不同话题关键词之间的语法关系对话题关键词分别添加不同的话题权重值，本方案中的语法关系可以是实体之间存在关联性，或者话题关键词之间存在句子关系，比如，具备动宾关系的两个话题关键词之间存在语法关系，具备其他句子关系的话题关键词之间也存在语法关系。

在本实施例中，当一个句子中的某个话题关键词与其他话题关键词之间不存在语法关系，则该话题关键词是一个孤立的词语，这类词语即使被判定为话题关键词，其重要性也相对较低，而一个可互动文本数据越长，则该可互动文本数据的逻辑描述就越完善，越能得到更多用户的响应，而本方案中确定数据的热度就是确定数据交互对热度的影响。

S36、将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据话题关键词的总权重值，确定话题关键词中的热点话题。

有关步骤S36，详细可参见步骤S14中的描述，本实施例在此不再赘述。

在本实施例中，通过确定可互动文本数据中的话题关键词，并根据话题关键词中的语法关系对话题关键词分别添加权重系数，以便于对可互动文本数据中不同的话题关键词的重要性进行量化。

如图4所示，本发明实施例提供了一种热点话题确定方法。参照图4所示，确定方法包括如下步骤：

S41、从用户交互文本数据中获取可互动文本数据；可互动文本数据的热度值高于预设阈值。

有关步骤S41，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S42、将可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据。

有关步骤S42，详细可参见步骤S12中的描述，本实施例在此不再赘述。

S43、将待聚合文本数据的源数据与预设特殊符号进行对比，判断源数据中是否具备预设特殊符号。

在本实施例中，获取待聚合文本数据的源数据，由于源数据是存储在存储介质中的数据，客户端或服务端需要解析源数据以获取对应数据才能在页面上显示相关内容，为了将不同的数据放置到不同的区域，都需要针对数据添加相应的预设特殊符号，以便于加载页面时，将相应的数据加载到对应的区域，预设特殊符号可以是##，【】，「」等，也可以是用户对数据进行命名的字符串，在本方案中将待聚合文本数据的源数据与预设特殊符号进行比对，当存在预设特殊符号时，说明该段源数据存在被特殊标记的数据，比如，在一段宣传广告词中需要注重强调某些词语，或者在视频的标题中需要特殊处理的词语，在其对应的源数据中，为方便系统进行识别，可以采用特殊符号进行标记，或者，将一段话进行拆分并分别进行命名以保证对不同的词语采用不同的处理方式，实现在显示上的不同效果。

S44、若源数据具备预设特殊符号，则将待聚合文本数据中与预设特殊符号相对应的词语作为候选关键词。

在本实施例中，根据源数据是否具备预设特殊符号来确定待聚合文本数据中相对应的词语作为候选关键词，以减少数据处理量，提高数据处理效率。

S45、根据候选关键词在待聚合文本数据的重复次数，判断待聚合文本数据是否为劣质数据。

在本实施例中，候选关键词在待聚合文本数据的重复次数越高，则说明该待聚合文本数据中的有效语句越少，只是用户在不断的重复某段话形成该待聚合文本数据，此时，若候选关键词在待聚合文本数据中的重复次数达到预设次数，将该待聚合文本数据判定为劣质数据，还可以判断各个候选关键词的重复次数在待聚合文本数据的所有候选关键词的数量的占比是否均小于预设比例，若存在任一候选关键词的仇富次数在待聚合文本数据的所有候选关键词的数量的占比超过预设比例，则判定待聚合文本数据为劣质数据。

在本实施例中，还可以通过判断待聚合文本数据的类型或者待聚合文本数据的内容长度来判断待聚合文本数据是否为劣质数据，比如，某些敏感类型或者不能被公众进行讨论的数据不能作为待聚合文本数据，还有饭团的粉丝们汇集所产生的数据，还有一些电视剧预告、相关采访的数据因为无法引起广泛讨论也不能作为待聚合文本数据，当然实质内容非常少的数据也无法作为待聚合文本数据，所以，本方案中，还可以获取候选关键词对应的待聚合文本数据所属的类别和内容长度，当待聚合文本数据的类别与任一预设类别相同或内容长度小于预设长度时，待聚合文本数据为劣质数据，其中与预设类别包括：黑名单类数据、饭团类数据、预告类数据等。确定待聚合文本数据所属类别，可以通过机器学习算法通过样本和样本所属的类别训练得到的模型进行识别，本方案对此不做特别限定。

S46a、当候选关键词对应的待聚合文本数据不为劣质数据时，将候选关键词作为话题关键词，配置第三话题权重值。

S46b、当候选关键词对应的待聚合文本数据为劣质数据时，删除候选关键词。

在本实施例中，确定候选关键词对应的待聚合文本数据是否为劣质数据，在待聚合文本数据为劣质数据时，删除该候选关键词，减少劣质数据对最终确定话题关键词的影响，保证筛选到的候选关键词更符合要求。

S47、将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据话题关键词的总权重值，确定话题关键词中的热点话题。

有关步骤S47，详细可参见步骤S14中的描述，本实施例在此不再赘述。

在本实施例中，对待聚合文本数据对应的源数据进行筛选，确定待聚合文本数据是否具备候选关键词，在确定了候选关键词后，进一步确定待聚合文本数据是否为劣质数据，以避免话题关键词是从劣质数据中提取到的词语，提高话题关键词的有效性。

如图5所示，本发明实施例提供了一种热点话题确定方法。参照图5所示，确定方法包括如下步骤：

S51、从用户交互文本数据中获取可互动文本数据；可互动文本数据的热度值高于预设阈值。

有关步骤S51，详细可参见步骤S11中的描述，本实施例在此不再赘述。

S52、将可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据。

有关步骤S52，详细可参见步骤S12中的描述，本实施例在此不再赘述。

S53、将待聚合文本数据输入预先建立的关系抽取模型，得到待聚合文本数据中的所有主语和每个主语对应的宾语。

在本实施例中，构建关系抽取模型，可以基于bert模式关系学习构建事件主语抽取模型，通过事件主语抽取模型从待聚合文本数据中抽取得到待聚合文本数据中的主语和各个主语对应的宾语，当然，也可以通过上述语义角色标注工具直接获取句子的主语、谓语和宾语，并进一步得到本步骤中待聚合文本数据的主语和每个主语对应的宾语。

S54、将主语分别与预先建立的语法关系输入预先建立的宾语预测模型，得到预测宾语。

在本实施例中，本步骤中预先建立的语法关系即句子中所有能出现的句子语法关系，比如，动宾关系、含有介宾关系的主谓动补关系等，将各个主语分别与预先建立的各个语法关系输入宾语预测模型中，得到预测宾语。

在本实施例中，宾语预测模型可以是通过对获取到的待聚合文本数据进行标记，标记待聚合文本数据中的主语和宾语，然后构建宾语预测模型，将主语和各个预先建立的语法关系作为宾语预测模型的输入，将标记的宾语作为宾语预测模型的输出，对宾语预测模型的参数进行训练，以是的宾语预测模型可以根据输入的主语和预先建立的语法关系输出预测宾语，每个语法关系下的预测宾语的数量可以为多个，这个可以基于数据的训练进行确定，数据量越大，最终所能得到的预测宾语的数量就越多，此时，将可能概率大于预设概率的各个预测宾语作为输出，预设概率越大，最终得到的预测宾语的数量就越少，预设概率越小，最终得到的预测宾语的数量就越多。在本实施例中，宾语预测模型通过待聚合文本数据训练得到，该宾语预测模型最终的输出结果，就是概率较高的预测宾语，即待聚合文本数据中存在量较大的宾语，若真实的宾语与预测宾语一致或者相似，则说明该待聚合文本数据中的主语和宾语是被用户们广泛评论或广泛使用的数据，进一步验证待聚合文本数据中的主语和宾语是否可以作为话题关键词。

S55、判断预测宾语与主语相对应的宾语是否相似。

在本实施例中，由于本方案中的输入是主语和预设的语法关系，所以，最终得到的预测宾语与实际情况下的宾语的区别会比较大，在本实施例中，判断预测宾语与真实的宾语是否相似，可以直接比对预测宾语与真实的宾语是否一致来判断是否相似，也可以从语法层面来判断预测宾语与真实的宾语是否相似，比如，若预测宾语与主语对应的宾语的词性一致，则认为预测宾语与真实的宾语相似，也可以判断预测宾语与主语对应的宾语所表达的含义是否一致，比如房子和房屋，若预测宾语与主语对应的宾语所表达的含义一致，则认为预测宾语与真实的宾语相似，以提高本方案的适应性。

S56a、若预测宾语与主语对应的的宾语相似，则将主语和主语对应的宾语作为话题关键词，并对话题关键词配置第四话题权重值。

S56b、若预测宾语与主语对应的的宾语不相似，则将主语和主语对应的宾语作为话题关键词，并对话题关键词配置第五话题权重值；其中，第四话题权重值大于第五话题权重值。

在本实施例中，若预测宾语与主语对应的宾语相似，则认为主语与宾语之间存在语法关系，并将该主语和宾语作为话题关键词，对话题关键词添加第四话题权重值，反之，则主语和宾语之间没有语法关系，不做其他处理。

S57、将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据话题关键词的总权重值，确定话题关键词中的热点话题。

有关步骤S57，详细可参见步骤S14中的描述，本实施例在此不再赘述。

如图6所示，在本实施例中，S53中将待聚合文本数据输入预先建立的关系抽取模型，得到待聚合文本数据中的所有主语和每个主语对应的宾语，包括如下步骤：

S61、按照预设置的文字与数字对应关系，对待聚合文本数据中的每个字进行编码，得到与待聚合文本数据中的字的顺序相同的数字序列。

在本实施例中，由于系统在训练关系抽取模型时无法直接了解文字所表达的含义，在本方案中，训练关系抽取模型时可以采用对文字进行编码的形式输入到关系抽取模型中，在输出时再将输出的数字转换为对应的文字，即可提高训练的效率。

S62、将数字序列输入关系抽取模型，得到待聚合文本数据中的所有主语和每个主语对应的宾语。

在本实施例中，通过将文字转换为对应的数字序列进行模型的训练过程，降低系统识别和比对数据的过程的耗时，提高模型的数据处理效率和训练效率，本方案中，在使用关系抽取模型时，将对应的输入转换为数字输入关系抽取模型，在最后输出时将输出的数字转换为对应的文字，即可得到待聚合文本数据中的主语和各个主语对应的宾语。

在本实施例中，通过训练得到的宾语预测模型对待聚合文本数据中的主语进行不同语法关系下的宾语预测，得到主语在不同语法关系下的预测宾语，由于宾语预测模型训练时所使用的数据是各个待聚合文本数据，所以通过宾语预测模型预测得到的宾语是待聚合文本数据中对应该主语出现频率较高的宾语，所以，本方案可以实现快速确定待聚合文本数据中出现频次较高的主语和宾语，提高本方案对于话题关键词的筛选效率。

在一个具体的实施例中，可以通过对大量的普通语句中的主语、谓语、宾语进行标记生成关系抽取模型的训练样本，进一步的，在本方案中，可以将标记后的训练样本中语句的文字转换为数字，将转换后的数字作为关系抽取模型的输入，将每个语句中的各个标记作为关系抽取模型的输出，训练得到上述关系抽取模型。

在使用关系抽取模型时，将待聚合文本数据转换为数字输入该关系抽取模型，得到关系抽取模型输出的该聚合文本数据对应的主语、谓语和宾语。

如图7所示，本发明实施例提供了一种热点话题确定系统，确定系统包括：第一获取单元11、第二获取单元12、权重确定单元13和确定单元14。

在本实施例中，第一获取单元11，用于从用户交互文本数据中获取可互动文本数据；可互动文本数据的热度值高于预设阈值。

在本实施例中，第二获取单元12，用于将可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据。

在本实施例中，权重确定单元13，用于针对每组待聚合文本数据，提取待聚合文本数据中的话题关键词，并根据话题关键词的之间的话题关系，确定每个话题关键词的话题权重值。

在本实施例中，确定单元14，用于将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据话题关键词的总权重值，确定话题关键词中的热点话题。

在本实施例中，第一获取单元11，具体用于获取用户交互文本数据的热度数据；热度数据包括：文本数据评论量、文本数据所属领域和文本数据存在时长中至少一种；根据预设置的评分标准，确定每条用户交互文本数据的热度数据对应的评分；针对每条用户交互文本数据，根据用户交互文本数据的热度数据的评分计算热度值；将热度值高于预设阈值的用户交互文本数据作为可互动文本数据。

在本实施例中，第二获取单元12，具体用于获取待聚合文本数据中的句子成分；根据句子成分，确定待聚合文本数据中的话题关键词。

在本实施例中，权重确定单元13，具体用于获取话题关键词之间的语法关系，对具备语法关系的话题关键词配置第一话题权重值，对不具备语法关系的话题关键词配置第二话题权重值；第一话题权重值大于第二话题权重值。

或者，权重确定单元13，具体用于将将待聚合文本数据的源数据与预设特殊符号进行对比，判断源数据中是否具备预设特殊符号；若源数据具备预设特殊符号，则将待聚合文本数据中与预设特殊符号相对应的词语作为候选关键词，并将候选关键词作为话题关键词，配置第三话题权重值。

在本实施例中，确定系统还包括：判断单元，用于根据候选关键词在待聚合文本数据的重复次数，判断待聚合文本数据是否为劣质数据；当候选关键词对应的待聚合文本数据不为劣质数据时，将候选关键词作为话题关键词，配置第三话题权重值；当候选关键词对应的待聚合文本数据为劣质数据时，删除候选关键词。

或者，权重确定单元13，具体用于，将待聚合文本数据输入预先建立的关系抽取模型，得到待聚合文本数据中的所有主语和每个主语对应的宾语；将主语分别与预先建立的语法关系输入预先建立的宾语预测模型，得到预测宾语；判断预测宾语与主语相对应的宾语是否相似；若预测宾语与主语对应的的宾语相似，则将主语和主语对应的宾语作为话题关键词，并对话题关键词配置第四话题权重值；若预测宾语与主语对应的的宾语不相似，则将主语和主语对应的宾语作为话题关键词，并对话题关键词配置第五话题权重值；其中，第四话题权重值大于第五话题权重值。

在本实施例中，第二获取单元12，具体用于按照预设置的文字与数字对应关系，对待聚合文本数据中的每个字进行编码，得到与待聚合文本数据中的字的顺序相同的数字序列；将数字序列输入关系抽取模型，得到待聚合文本数据中的所有主语和每个主语对应的宾语。

确定系统还包括：展示单元，用于确定各个热点话题关联的信息接口；

根据热点话题对应的总权重值的大小进行排序，将各个热点话题对应的信息接口进行顺序展示。

本发明实施例的装置的功能已经在上述的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

如图8所示，本发明实施例提供了一种电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现上述任一实施例中的热点话题确定方法。

本发明实施例提供的电子设备，处理器1110通过执行存储器1130上所存放的程序通过从用户交互文本数据中获取可互动文本数据，将可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据，并根据待聚合文本数据中话题关键词的之间的话题关系，对话题关键词分别添加话题权重值，根据话题关键词的话题权重值得到话题关键词的总权重值，根据话题关键词的总权重值来确定话题关键词中的热点话题，实现了对站内用户热议的话题数据进行聚合，以迅速确定出站内用户关注的热点，为运营人员的运营工作提供数据支持。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器1130(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器1130(non-volatilememory)，例如至少一个磁盘存储器1130。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器1110，包括中央处理器1110(CentralProcessingUnit，简称CPU)、网络处理器1110(NetworkProcessor，简称NP)等；还可以是数字信号处理器1110(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器1110执行，以实现上述任一实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种热点话题确定方法，其特征在于，确定方法包括：

从用户交互文本数据中获取可互动文本数据；所述可互动文本数据的热度值高于预设阈值；

将所述可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据；

2.根据权利要求1所述的热点话题确定方法，其特征在于，所述从用户交互文本数据中获取可互动文本数据，包括：

获取用户交互文本数据的热度数据；所述热度数据包括：文本数据评论量、文本数据所属领域和文本数据存在时长中至少一种；

根据预设置的评分标准，确定每条所述用户交互文本数据的热度数据对应的评分；

针对每条所述用户交互文本数据，根据所述用户交互文本数据的热度数据的评分计算所述热度值；

将所述热度值高于预设阈值的用户交互文本数据作为可互动文本数据。

3.根据权利要求1所述的热点话题确定方法，其特征在于，所述提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值，包括：

获取所述待聚合文本数据中的句子成分；

4.根据权利要求1所述的热点话题确定方法，其特征在于，所述提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值，包括：

若所述源数据具备预设特殊符号，则将所述待聚合文本数据中与所述预设特殊符号相对应的词语作为候选关键词，并将所述候选关键词作为所述话题关键词，配置第三话题权重值。

5.根据权利要求4所述的热点话题确定方法，其特征在于，所述将所述候选关键词作为所述话题关键词，配置第三话题权重值之前，所述方法还包括：

当所述候选关键词对应的待聚合文本数据不为劣质数据时，将所述候选关键词作为所述话题关键词，配置第三话题权重值；

6.根据权利要求1所述的热点话题确定方法，其特征在于，所述提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值，包括：

判断所述预测宾语与所述主语相对应的宾语是否相似；

若所述预测宾语与所述主语对应的的宾语相似，则将所述主语和所述主语对应的宾语作为话题关键词，并对所述话题关键词配置第四话题权重值；

若所述预测宾语与所述主语对应的的宾语不相似，则将所述主语和所述主语对应的宾语作为话题关键词，并对所述话题关键词配置第五话题权重值；

其中，第四话题权重值大于所述第五话题权重值。

7.根据权利要求6所述的热点话题确定方法，其特征在于，所述将所述待聚合文本数据输入预先建立的关系抽取模型，得到所述待聚合文本数据中的所有主语和每个主语对应的宾语，包括：

8.根据权利要求1～7中任一所述的热点话题确定方法，其特征在于，所述确定方法还包括：

确定各个热点话题关联的信息接口；

9.一种热点话题确定系统，其特征在于，所述确定系统包括：

第一获取单元，用于从用户交互文本数据中获取可互动文本数据；所述可互动文本数据的热度值高于预设阈值；

第二获取单元，用于将所述可互动文本数据按实体名称进行分组聚合，得到多组待聚合文本数据；

权重确定单元，用于针对每组待聚合文本数据，提取所述待聚合文本数据中的话题关键词，并根据所述话题关键词的之间的话题关系，确定每个所述话题关键词的话题权重值；

确定单元，用于将各个话题关键词的话题权重值进行汇总，得到每个话题关键词的总权重值，根据所述话题关键词的总权重值，确定话题关键词中的热点话题。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～8中任一所述的热点话题确定方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～8中任一所述的热点话题确定方法。