CN113342979A

CN113342979A - 热点话题识别方法、计算机设备及存储介质

Info

Publication number: CN113342979A
Application number: CN202110705267.0A
Authority: CN
Inventors: 张炜
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-03
Anticipated expiration: 2041-06-24
Also published as: CN113342979B

Abstract

本发明涉及人工智能，提供一种热点话题识别方法、计算机设备及存储介质，首先确定目标网站，从而提高目标资讯的采集效率，接着对多个历史文本进行聚类得到候选话题中心，并对候选话题中心实时在线更新得到目标话题中心，对于突发性的热点话题而言，往往表现为相关主题的文本较多，该主题下的相关文章在短时间内骤增且绝对数量较大，通过创建功率计算模型来根据目标话题中心对应的文本簇中的历史文本的数量、前后周期内新增的目标资讯的数量计算得到目标话题中心的功率以此体现目标话题中心的热门程度，最终确定目标话题中心中的热点话题。

Description

热点话题识别方法、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种热点话题识别方法、计算机设备及存储介质。

背景技术

保险代理人在面见客户的时候，会通过介绍一些保险相关的热点话题来阐述保险的重要性。

发明人在实现本发明的过程中发现，现有技术提供的热点话题自动识别系统，通过主题模型对文章标题进行表征，再运用k-means进行聚类，最后对相似多个分类进行合并处理，从而提炼相关的热点话题。然而，实际场景中会存在一些话题，持续时间不长，虽然短期内的新闻数量并不多，但该段时间内的热度特别高。现有技术只考虑每一类中相似新闻的数量，而并未考虑事件发生的时间窗口，因而无法识别突发类的热点话题，热点话题的识别准确度较差。

发明内容

鉴于以上内容，有必要提出一种热点话题识别方法、计算机设备及存储介质，能够准确的识别持续时间不长，短期内新闻数量不多，但热度特别高的突发性的热点话题。

本发明的第一方面提供一种热点话题识别方法，所述方法包括：

从目标网站中采集目标资讯，提取所述目标资讯的标题和正文，并根据所述标题和所述正文生成文本向量；

对获取的多个历史文本进行聚类得到多个文本簇，根据所述文本向量和所述多个文本簇得到多个目标话题中心；

分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量，所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量；

基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率，所述功率用于表示对应的所述目标话题中心为热点话题的概率；

根据所述功率确定所述多个目标话题中心中的热点话题。

在一个可选的实施方式中，所述对获取的多个历史文本进行聚类得到多个文本簇包括：

对所述多个历史文本进行分词处理得到多个关键词，提取每个关键词的词向量；

计算每个关键词的聚类贡献度及每个关键词的离散度；

根据所述聚类贡献度及所述离散度得到每个关键词的重要度；

比较所述重要度与预设重要度阈值，并根据比较结果确定所述关键词中的目标重要词；

调整所述目标重要词在所述历史文本中的占比；

根据调整占比后的目标重要词对应的词向量生成所述历史文本的目标文本向量；

根据所述目标文本向量对所述多个历史文本进行聚类，得到多个文本簇。

在一个可选的实施方式中，所述基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率包括：

计算所述第二数量与所述第三数量的差值数量；

使用功率计算模型根据所述第一数量、所述第二数量及所述差值数量计算所述目标话题中心的功率，所述功率计算模型为p＝m*a*v，m表示所述第一数量，a表示所述差值数量，v表示所述第二数量，p表示所述功率。

在一个可选的实施方式中，所述根据所述文本向量和所述多个文本簇得到多个目标话题中心包括：

提取每个历史文本的历史文本向量；

根据每个文本簇中的历史文本的历史文本向量计算得到均值文本向量；

确定所述均值文本向量为候选话题中心；

计算所述文本向量与所述均值文本向量的相似度；

根据所述相似度对所述候选话题中心进行更新，得到目标话题中心。

在一个可选的实施方式中，所述根据所述相似度对所述候选话题中心进行更新，得到目标话题中心包括：

将所述相似度分别与第一相似度阈值和第二相似度阈值进行比较，所述第一相似度阈值小于所述第二相似度阈值；

当所述相似度小于所述第一相似度阈值时，将所述相似度对应的文本向量作为新的候选话题中心，并添加所述新的候选话题中心至所述候选话题中心，得到目标话题中心；

当所述相似度大于所述第二相似度阈值时，根据大于所述第二相似度阈值的相似度对应的文本向量与对应的文本簇的候选话题中心计算得到目标话题中心。

在一个可选的实施方式中，所述从目标网站中采集目标资讯包括：

获取所述目标网站的网页；

提取所述网页的锚文本，并计算所述锚文本的字符长度；

判断所述字符长度是否大于预设字符长度阈值；

当所述字符长度大于所述预设字符长度阈值时，判断所述网页内容中是否包含时间信息；

当所述网页内容中包含时间信息时，则确定所述网页为目标网页；

从所述目标网页中采集目标资讯。

在一个可选的实施方式中，所述提取所述目标资讯的标题和正文包括：

对所述目标资讯进行去噪处理，并获取去噪处理后的目标资讯的html代码；

获取所述html代码中的预设第一标签和预设第二标签；

根据所述预设第一标签提取所述html中的第一文本，得到所述目标资讯的标题；

根据所述预设第一标签及所述预设第一标签提取所述html中的第二文本，得到所述目标资讯的正文。

在一个可选的实施方式中，所述方法还包括：

设置定时器；

响应于定时器到期，确定所述热点话题中的目标资讯对应的目标网站；

计算所述目标网站中所述目标资讯的数量；

根据所述数量确定所述目标网站中的热点引领网站。

本发明的第二方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述热点话题识别方法。

本发明的第三方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述热点话题识别方法。

综上所述，本发明所述的热点话题识别方法、计算机设备及存储介质，首先确定目标网站并从目标网站中采集目标资讯，能够提高目标资讯的采集效率，接着对获取的多个历史文本进行聚类得到多个文本簇，根据目标资讯的文本向量和所述多个文本簇得到多个目标话题中心，实现了对目标话题中心的实时在线更新，由于对于突发性的热点话题而言，往往表现为相关主题的文本较多，该主题下的相关文章在短时间内骤增且绝对数量较大，根据所述目标话题中心对应的文本簇中的历史文本的第一数量，所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量计算目标话题中心的功率，所述功率用于表示对应的所述目标话题中心为热点话题的概率，从而最终根据功率确定多个目标话题中心中的热点话题。本发明能够准确的识别持续时间不长，短期内新闻数量不多，但热度特别高的突发性的热点话题。

附图说明

图1是本发明实施例一提供的热点话题识别方法的流程图。

图2是本发明实施例二提供的热点话题识别装置的结构图。

图3是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例提供的热点话题识别方法由计算机设备执行，相应地，热点话题识别装置运行于计算机设备中。

图1是本发明实施例一提供的热点话题识别方法的流程图。所述热点话题识别方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，从目标网站中采集目标资讯，提取所述目标资讯的标题和正文，并根据所述标题和所述正文生成文本向量。

随着互联网技术的发展，互联网数据不断增长，出现了很多突发热点主题。突发热点主题是指发生在某个时间段被热烈讨论和研究的事件主题，例如“一带一路”、“二胎”、“AlphaGo”等具有科学研究价值或商业推广价值的主题。这些主题通常最早出现在社交媒体数据和新闻资讯等网络数据中，可以利用这些网络数据进行突发热点主题的挖掘和追踪。

计算机设备可以使用网络爬虫技术采集多个网站中的社交媒体数据或者新闻资讯，在实施过程中，为了节约采集成本，可以确定若干个目标网站，从这若干个目标网站中采集社交媒体数据或者新闻资讯。目标网站可以是指影响力较大或者网络数据量较多的网站，例如，百度，谷歌等。

在一个可选的实施例中，所述从目标网站中采集目标资讯包括：

获取所述目标网站的网页；

提取所述网页的锚文本，并计算所述锚文本的字符长度；

判断所述字符长度是否大于预设字符长度阈值；

从所述目标网页中采集目标资讯。

计算机设备可以根据网络链接关系，注册获取所述目标网站中的网页，即先获取目标网站的父网页，再获取所述父网页下的子网页，再获取所述子网页下的孙子网页。

锚文本又称锚文本链接，是链接的一种形式，和超链接类似，超链接的代码是锚文本，把关键词做一个链接，指向别的网页，这种形式的链接称为锚文本。由于新闻网页通常具有锚文本，并且新闻网页通常是以新闻标题或者新闻核心内容作为锚文本。新闻网页中通常会有新闻的发布时间，时间信息可能在新闻标题的下方或者新闻正文的下方，那么新闻网页的源代码中就带有时间信息。

每个目标网站对应多个网页，针对每一个目标网站的每一个网页，首先比较锚文本的字符长度与预设字符长度阈值，选取大于所述预设字符长度阈值的目标字符长度对应的目标锚文本，再判断所述目标锚文本对应的网页的源代码中是否包含时间信息，将包含有时间信息的目标锚文本对应的网页确定为目标网页，最后从目标网页中采集目标资讯，所述目标资讯包括新闻资讯。

该可选的实施例中，通过获取网页的锚文本的字符长度以及判断网页中是否包含时间信息，来确定目标网站中的目标网页，缩小了采集目标网站的数据范围，从而从目标网页中爬取目标资讯，能够提高目标资讯的采集效率。

计算机设备可以使用网页正文抽取工具提取所述目标资讯的标题和正文，可以使用bert模型提取所述标题的第一向量表示，使用所述bert模型提取所述正文的第二向量表示，根据所述第一向量表示和所述第二向量表示生成文本向量，便于后续根据文本向量对所述目标资讯进行分类，从而确定所述目标资讯的主题类别。

在一个可选的实施例中，所述提取所述目标资讯的标题和正文包括：

获取所述html代码中的预设第一标签和预设第二标签；

对目标资讯进行去噪处理是指对目标资讯所在的目标网页进行去噪处理，去掉与目标资讯所在的目标网页中表达内容与目标资讯不相关的内容，如广告，评论等等，从而使得目标网页中仅保留目标资讯，有助于快速且准确的提取目标资讯的标题和正文。计算机设备可以使用网页去噪工具对目标资讯所在的目标网页进行去噪处理。

所述预设第一标签可以是title标签，所述预设第二标签可以是行块标签，通过获取行块标签对应的行块与所述目标网页中标题的位置，确定目标网页的正文区域，根据所述目标网页的正文区域，确定正文区域的开始位置和结束位置，并提取所述开始位置与所述结束位置之间的文本为目标资讯的正文。

该可选的实施例中，首先对目标资讯所在的目标网页进行去噪处理，去掉目标网页中与目标资讯无关的内容，确保目标资讯的干净，有助于提高提取目标资讯的标题和正文的准确度；通过预先设置第一标签和第二标签，并结合第一标签和第二标签提取目标资讯的正文，提高了正文抽取的准确度以及正文抽取的效率。

S12，对获取的多个历史文本进行聚类得到多个文本簇，根据所述文本向量和所述多个文本簇得到多个目标话题中心。

计算机设备可以在确定目标网站之前获取多个文本，将获取的每一个文本称之为历史文本，采用聚类算法对述多个历史文本进行聚类，得到多个文本簇，每一个文本簇中包括一个或多个历史文本。所述历史文本可以是社交媒体数据或者新闻资讯。

计算每个关键词的聚类贡献度及每个关键词的离散度；

调整所述目标重要词在所述历史文本中的占比；

可以通过结巴分词工具对历史文本进行分词处理，得到多个关键词，再使用word2veb模型提取关键词的词向量。

聚类贡献度是指关键词对于文本聚类的贡献程度，聚类贡献度越大，表明对应的关键词对于文本聚类的贡献就越大，聚类贡献度越小，表明对应的关键词对于文本聚类的贡献就越小。可以通过计算多个历史文本中包含关键词的文本数量来计算关键词的聚类贡献度。包含关键词的文本数量越大，表示关键词被较多的历史文本所包含，那么该关键词对于聚类的贡献就较大，包含关键词的文本数量越小，表示关键词被较少的历史文本所包含，那么该关键词对于聚类的贡献就较小。

离散度是指关键词在历史文本中的分布程度，离散度越大，表示关键词的分布越不均匀，离散度越小，表示关键词的分布越均匀。可以通过计算关键词的方差来计算关键词的离散度。离散度越大，该关键词越有利于分类。离散度越小，该关键词越不利于分类。

根据所述聚类贡献度及所述离散度得到每个关键词的重要度可以是聚类贡献度与离散度的和值，也可以是聚类贡献度与离散度的乘积。相较于现有技术中，对文本聚类是根据文本特征的不同，将文本分为不同的簇，使得同一族的文本之间的距离尽可能的小，不同族的文本之间的距离尽可能的大。这样虽然能够简化文本的表示，然而，用少数的簇代表整个文本数据集会丢失一些细节信息。本实施例通过结合聚类贡献度及离散度来共同确定关键词的重要度，能够有效的找出目标重要词，保留重要的细节信息，即对聚类起重要贡献的关键词。此外，还能避免某些关键词虽然出现在较多的历史文本中，但由于分布较为集中，反而影响了文本的聚类效果。

将重要度与预设重要度阈值进行比较，当重要度大于预设重要度阈值时，确定重要度对应的关键词为目标重要词并保留目标重要词，当重要度小于预设重要度阈值时，确定重要度对应的关键词为非目标重要词并删除非目标重要词。将删除非目标重要词后的历史文本中的目标重要词的词向量进行组合得到文本向量。相较于现有技术中根据提取得到的词向量形成的文本特征，是一个超高维稀疏向量，不仅影响了聚类的速度，而且文本特征中存在的一些噪音特征，会降低文本的聚类效果。本实施例通过选取目标重要词，根据目标重要词生成文本向量，能够降低特征空间的维数，提高聚类效率，且由于选取的目标重要词对应的词向量为最具代表性的特征，因而排除了噪音特征对聚类的影响，提高了聚类的效果。

所述调整所述目标重要词在所述历史文本中的占比包括：计算每个历史文本中包含的目标重要词的数量；当所述数量小于预设数量阈值时，提高所述目标重要词在所述历史文本中的占比；当所述数量大于预设数量阈值时，降低所述目标重要词在所述历史文本中的占比。如果某一个历史文本中目标重要词的占比较少，非目标重要词的占比较多，那么该历史文本就会与有相同非目标重要词的历史文本聚为一类，但事实上该历史文本可能属于另一类。通过对历史文本中目标重要词的占比进行调整，能够避免目标重要此被非目标重要词所掩盖，提高目标重要此的占比，从而使得历史文本被准确分类，进一步提高了聚类的效果。

将调整占比后的目标重要词对应的词向量进行组合，即可生成所述历史文本的目标文本向量，从而根据所述目标文本向量对所述多个历史文本进行聚类，得到多个文本簇。

在一个可选的实施例中，所述根据所述文本向量和所述多个文本簇得到多个目标话题中心包括：

提取每个历史文本的历史文本向量；

确定所述均值文本向量为候选话题中心；

计算所述文本向量与所述均值文本向量的相似度；

计算机设备可以先提取历史文本的标题和正文，再使用bert模型提取所述历史文本的标题的第一向量表示，提取所述历史文本的正文的第二向量表示，根据所述历史文本的标题的第一向量表示和对应的所述历史文本的正文的第二向量表示生成历史文本向量。

针对每个文本簇，将文本簇中包括的一个或者多个历史文本的历史文本向量进行加和平均得到均值文本向量，则得到多个均值文本向量，每个文本簇对应一个均值文本向量，将所述均值文本向量确定为对应的文本簇的候选话题中心。

计算机设备每从目标网站采集到目标资讯后，则计算所述目标资讯的文本向量与每个文本簇的均值文本向量的余弦夹角或者欧式距离，得到所述文本向量与均值文本向量之间的相似度，即所述文本向量与候选话题中心之间的相似度。表明文本向量与候选话题中心之间的相似度越大，表明文本向量越有可能属于候选话题中心对应的文本簇，表明文本向量与候选话题中心之间的相似度越小，表明文本向量越不可能属于候选话题中心对应的文本簇。

在一个可选的实施例中，所述根据所述相似度对所述候选话题中心进行更新，得到目标话题中心包括：

示例性的，第一相似度阈值可以为0.3，第二相似度阈值可以为0.7。

当所述相似度小于所述第一相似度阈值时，表明所述相似度对应的文本向量不属于任何一个文本簇，因而，需要将所述相似度对应的目标资讯作为新的话题，将目标资讯的文本向量作为新的话题中心。

当所述相似度大于所述第一相似度阈值时，表明所述相似度对应的文本向量属于一个或者多个文本簇，因而，可以根据所述相似度对应的文本向量实现对候选话题中心的实时在线更新。

示例性的，假设大于所述第二相似度阈值的相似度为0.9和0.85，相似度 0.9对应第一候选话题中心，相似度0.85对应第二候选话题中心，确定第一候选话题中心对应的第一文本簇中的第一历史文本，及确定第二候选话题中心对应的第二文本簇中的第二历史文本，将相似度对应的文本向量与第一历史文本对应的历史文本向量进行计算得到第一均值文本向量，确定第一均值文本向量为目标话题中心；将相似度对应的文本向量与第二历史文本对应的历史文本向量进行计算得到第二均值文本向量，确定第二均值文本向量为目标话题中心。

S13，分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量，所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量。

其中，第一周期与第二周期为相邻的两个周期，例如，第一周期可以为上一周期，第二周期可以为当前周期。

S14，基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率。

其中，功率计算模型可以用如下公式表示：p＝m*a*v，其中，m表示所述目标话题中心对应的文本簇中的历史文本的第一数量，a表示当前周期所述目标话题中心新增的目标资讯的第二数量与上一周期所述目标话题中心新增的目标资讯的第三数量的差值数量，v表示当前周期所述目标话题中心新增的目标资讯的第二数量，p表示所述功率。

对于突发性的热点话题而言，往往表现为相关主题的文本较多，该主题下的相关文章在短时间内骤增，且绝对数量较大。为此，计算机设备通过创建功率计算模型来计算目标话题中心的功率，从而体现目标话题中心的热门程度。

在一个可选的实施例中，所述基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率包括：

计算所述第二数量与所述第三数量的差值数量；

使用功率计算模型根据所述第一数量、所述第二数量及所述差值数量计算所述目标话题中心的功率。

其中，所述当前周期可以是当天，所述上一周期可以是昨天。

所述功率用于表示对应的所述目标话题中心为热点话题的概率。功率越大，表明对应的目标话题中心为热点话题的概率越大，功率越低，表明对应的目标话题中心为热点话题的概率越小。

该可选的实施例中，通过分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量，当前周期所述目标话题中心新增的目标资讯的第二数量，上一周期所述目标话题中心新增的目标资讯的第三数量，结合所述第一数量、所述第二数量及所述第三数量来计算所述目标话题中心的功率，同时考虑了时间因素，及考虑了短时间内骤增的与目标话题中心相关的目标资讯的数量，使得计算得到的目标话题中心的热门程度更加准确，尤其是对于突发性的热点话题而言，热门程度的准确率会更高。

S15，根据所述功率确定所述多个目标话题中心中的热点话题。

计算机设备预先设置功率阈值，将每个目标话题中心对应的功率与所述功率阈值进行比较，根据比较结果确定目标话题中心是否为热点话题。当某个目标话题中心对应的功率大于或者等于所述功率阈值时，则识别所述目标话题中心为热点话题；当某个目标话题中心对应的功率小于所述功率阈值时，则识别所述目标话题中心不为热点话题。

本发明实施例所述的方法，首先确定目标网站并从目标网站中采集目标资讯，能够提高目标资讯的采集效率，接着对获取的多个历史文本进行聚类得到多个文本簇，根据目标资讯的文本向量和所述多个文本簇得到多个目标话题中心，实现了对目标话题中心的实时在线更新，由于对于突发性的热点话题而言，往往表现为相关主题的文本较多，该主题下的相关文章在短时间内骤增且绝对数量较大，通过创建功率计算模型来根据所述目标话题中心对应的文本簇中的历史文本的第一数量，所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量计算目标话题中心的功率，能够体现目标话题中心的热门程度，最终根据功率确定目标话题中心中的热点话题。本发明能够准确的识别持续时间不长，短期内新闻数量不多，但热度特别高的突发性的热点话题。

在一个可选的实施例中，计算机设备还可以根据预先训练完成的话题类别识别模型识别热点话题的话题类别，并将所述热点话题对应的目标资讯写入对应的保险话题库中。例如，将自然灾害、事故灾难、公共安全等类型事件话题作为保险相关话题，输出到保险话题库中。

在一个可选的实施例中，所述方法还包括：

设置定时器；

计算所述目标网站中所述目标资讯的数量；

根据所述数量确定所述目标网站中的热点引领网站。

通常而言，对于突发性的热点话题，其热度只会维持几天，因此，计算机设备可以设置定时器，在定时器到期时，停止对热点话题的识别，确定每个热点话题中的目标资讯分别来自于哪个目标网站。计算每一个目标网站中新增的与热点话题对应的目标资讯的数量，数量越大，表明目标网站中参与讨论的用户人数越多，目标网站的舆论越能引导用户的情绪。计算机在计算每个目标网站中新增的与热点话题对应的目标资讯的数量之后，对所述数量进行倒叙排序，并确定倒序排序后的前预设K个数量对应的目标网站作为热点引领网站。对于热点引领网站，可以重点监控，及时采取相关的舆情引导手段。

需要强调的是，为进一步保证上述功率计算模型的私密性和安全性，上述功率计算模型可存储于区块链的节点中。

图2是本发明实施例二提供的热点话题识别装置的结构图。

在一些实施例中，所述热点话题识别装置20可以包括多个由计算机程序段所组成的功能模块。所述热点话题识别装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)热点话题识别的功能。

本实施例中，所述热点话题识别装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：向量提取模块201、文本聚类模块 202、数量计算模块203、功率计算模块204、热点识别模块205及定时响应模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述向量提取模块201，用于从目标网站中采集目标资讯，提取所述目标资讯的标题和正文，并根据所述标题和所述正文生成文本向量。

随着互联网技术的发展，互联网数据不断增长，出现了很多突发热点主题。突发热点主题是指发生在某个时间段被热烈讨论和研究的事件主题。这些主题通常最早出现在社交媒体数据和新闻资讯等网络数据中，可以利用这些网络数据进行突发热点主题的挖掘和追踪。

在一个可选的实施例中，所述向量提取模块201从所述目标网站中采集目标资讯包括：

获取所述目标网站的网页；

提取所述网页的锚文本，并计算所述锚文本的字符长度；

判断所述字符长度是否大于预设字符长度阈值；

从所述目标网页中采集目标资讯。

在一个可选的实施例中，所述向量提取模块201提取所述目标资讯的标题和正文包括：

获取所述html代码中的预设第一标签和预设第二标签；

所述文本聚类模块202，用于对获取的多个历史文本进行聚类得到多个文本簇，根据所述文本向量和所述多个文本簇得到多个目标话题中心。

在一个可选的实施方式中，所述文本聚类模块202对获取的多个历史文本进行聚类得到多个文本簇包括：

计算每个关键词的聚类贡献度及每个关键词的离散度；

调整所述目标重要词在所述历史文本中的占比；

提取每个历史文本的历史文本向量；

确定所述均值文本向量为候选话题中心；

计算所述文本向量与所述均值文本向量的相似度；

所述数量计算模块203，用于分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量，所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量。

所述功率计算模块204，用于基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率。

在一个可选的实施例中，所述功率计算模块204基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率包括：

计算所述第二数量与所述第三数量的差值数量；

所述热点识别模块205，用于根据所述功率确定所述多个目标话题中心中的热点话题。

本发明实施例所述的装置，首先确定目标网站并从目标网站中采集目标资讯，能够提高目标资讯的采集效率，接着对获取的多个历史文本进行聚类得到多个文本簇，根据目标资讯的文本向量和所述多个文本簇得到多个目标话题中心，实现了对目标话题中心的实时在线更新，由于对于突发性的热点话题而言，往往表现为相关主题的文本较多，该主题下的相关文章在短时间内骤增且绝对数量较大，通过创建功率计算模型来根据所述目标话题中心对应的文本簇中的历史文本的第一数量，所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量计算目标话题中心的功率，能够体现目标话题中心的热门程度，最终根据功率确定目标话题中心中的热点话题。本发明能够准确的识别持续时间不长，短期内新闻数量不多，但热度特别高的突发性的热点话题。

在一个可选的实施例中，所述定时响应模块206，用于设置定时器；响应于定时器到期，确定所述热点话题中的目标资讯对应的目标网站；计算所述目标网站中所述目标资讯的数量；根据所述数量确定所述目标网站中的热点引领网站。

参阅图3所示，为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3 还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3 还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的热点话题识别方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(ProgrammableRead-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-OnlyMemory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory， EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的热点话题识别方法的全部或者部分步骤；或者实现热点话题识别装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31 以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3 还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种热点话题识别方法，其特征在于，所述方法包括：

根据所述功率确定所述多个目标话题中心中的热点话题。

2.如权利要求1所述的热点话题识别方法，其特征在于，所述对获取的多个历史文本进行聚类得到多个文本簇包括：

计算每个关键词的聚类贡献度及每个关键词的离散度；

调整所述目标重要词在所述历史文本中的占比；

3.如权利要求1所述的热点话题识别方法，其特征在于，所述基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率包括：

计算所述第二数量与所述第三数量的差值数量；

4.如权利要求2或3所述的热点话题识别方法，其特征在于，所述根据所述文本向量和所述多个文本簇得到多个目标话题中心包括：

提取每个历史文本的历史文本向量；

确定所述均值文本向量为候选话题中心；

计算所述文本向量与所述均值文本向量的相似度；

5.如权利要求4所述的热点话题识别方法，其特征在于，所述根据所述相似度对所述候选话题中心进行更新，得到目标话题中心包括：

6.如权利要求1至3中任意一项所述的热点话题识别方法，其特征在于，所述从目标网站中采集目标资讯包括：

获取所述目标网站的网页；

提取所述网页的锚文本，并计算所述锚文本的字符长度；

判断所述字符长度是否大于预设字符长度阈值；

从所述目标网页中采集目标资讯。

7.如权利要求1至3中任意一项所述的热点话题识别方法，其特征在于，所述提取所述目标资讯的标题和正文包括：

获取所述html代码中的预设第一标签和预设第二标签；

8.如权利要求1至3中任意一项所述的热点话题识别方法，其特征在于，所述方法还包括：

设置定时器；

计算所述目标网站中所述目标资讯的数量；

根据所述数量确定所述目标网站中的热点引领网站。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至8中任意一项所述的热点话题识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的热点话题识别方法。