CN113342979A - 热点话题识别方法、计算机设备及存储介质 - Google Patents

热点话题识别方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN113342979A
CN113342979A CN202110705267.0A CN202110705267A CN113342979A CN 113342979 A CN113342979 A CN 113342979A CN 202110705267 A CN202110705267 A CN 202110705267A CN 113342979 A CN113342979 A CN 113342979A
Authority
CN
China
Prior art keywords
target
text
topic
center
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110705267.0A
Other languages
English (en)
Other versions
CN113342979B (zh
Inventor
张炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110705267.0A priority Critical patent/CN113342979B/zh
Publication of CN113342979A publication Critical patent/CN113342979A/zh
Application granted granted Critical
Publication of CN113342979B publication Critical patent/CN113342979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能,提供一种热点话题识别方法、计算机设备及存储介质,首先确定目标网站,从而提高目标资讯的采集效率,接着对多个历史文本进行聚类得到候选话题中心,并对候选话题中心实时在线更新得到目标话题中心,对于突发性的热点话题而言,往往表现为相关主题的文本较多,该主题下的相关文章在短时间内骤增且绝对数量较大,通过创建功率计算模型来根据目标话题中心对应的文本簇中的历史文本的数量、前后周期内新增的目标资讯的数量计算得到目标话题中心的功率以此体现目标话题中心的热门程度,最终确定目标话题中心中的热点话题。

Description

热点话题识别方法、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种热点话题识别方法、计算机 设备及存储介质。
背景技术
保险代理人在面见客户的时候,会通过介绍一些保险相关的热点话题来阐 述保险的重要性。
发明人在实现本发明的过程中发现,现有技术提供的热点话题自动识别系 统,通过主题模型对文章标题进行表征,再运用k-means进行聚类,最后对相似 多个分类进行合并处理,从而提炼相关的热点话题。然而,实际场景中会存在 一些话题,持续时间不长,虽然短期内的新闻数量并不多,但该段时间内的热 度特别高。现有技术只考虑每一类中相似新闻的数量,而并未考虑事件发生的 时间窗口,因而无法识别突发类的热点话题,热点话题的识别准确度较差。
发明内容
鉴于以上内容,有必要提出一种热点话题识别方法、计算机设备及存储介 质,能够准确的识别持续时间不长,短期内新闻数量不多,但热度特别高的突 发性的热点话题。
本发明的第一方面提供一种热点话题识别方法,所述方法包括:
从目标网站中采集目标资讯,提取所述目标资讯的标题和正文,并根据所 述标题和所述正文生成文本向量;
对获取的多个历史文本进行聚类得到多个文本簇,根据所述文本向量和所 述多个文本簇得到多个目标话题中心;
分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量,所述 目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增 的目标资讯的第三数量;
基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心 的功率,所述功率用于表示对应的所述目标话题中心为热点话题的概率;
根据所述功率确定所述多个目标话题中心中的热点话题。
在一个可选的实施方式中,所述对获取的多个历史文本进行聚类得到多个 文本簇包括:
对所述多个历史文本进行分词处理得到多个关键词,提取每个关键词的词 向量;
计算每个关键词的聚类贡献度及每个关键词的离散度;
根据所述聚类贡献度及所述离散度得到每个关键词的重要度;
比较所述重要度与预设重要度阈值,并根据比较结果确定所述关键词中的 目标重要词;
调整所述目标重要词在所述历史文本中的占比;
根据调整占比后的目标重要词对应的词向量生成所述历史文本的目标文本 向量;
根据所述目标文本向量对所述多个历史文本进行聚类,得到多个文本簇。
在一个可选的实施方式中,所述基于所述第一数量、所述第二数量及所述 第三数量计算所述目标话题中心的功率包括:
计算所述第二数量与所述第三数量的差值数量;
使用功率计算模型根据所述第一数量、所述第二数量及所述差值数量计算 所述目标话题中心的功率,所述功率计算模型为p=m*a*v,m表示所述第一 数量,a表示所述差值数量,v表示所述第二数量,p表示所述功率。
在一个可选的实施方式中,所述根据所述文本向量和所述多个文本簇得到 多个目标话题中心包括:
提取每个历史文本的历史文本向量;
根据每个文本簇中的历史文本的历史文本向量计算得到均值文本向量;
确定所述均值文本向量为候选话题中心;
计算所述文本向量与所述均值文本向量的相似度;
根据所述相似度对所述候选话题中心进行更新,得到目标话题中心。
在一个可选的实施方式中,所述根据所述相似度对所述候选话题中心进行 更新,得到目标话题中心包括:
将所述相似度分别与第一相似度阈值和第二相似度阈值进行比较,所述第 一相似度阈值小于所述第二相似度阈值;
当所述相似度小于所述第一相似度阈值时,将所述相似度对应的文本向量 作为新的候选话题中心,并添加所述新的候选话题中心至所述候选话题中心, 得到目标话题中心;
当所述相似度大于所述第二相似度阈值时,根据大于所述第二相似度阈值 的相似度对应的文本向量与对应的文本簇的候选话题中心计算得到目标话题中 心。
在一个可选的实施方式中,所述从目标网站中采集目标资讯包括:
获取所述目标网站的网页;
提取所述网页的锚文本,并计算所述锚文本的字符长度;
判断所述字符长度是否大于预设字符长度阈值;
当所述字符长度大于所述预设字符长度阈值时,判断所述网页内容中是否 包含时间信息;
当所述网页内容中包含时间信息时,则确定所述网页为目标网页;
从所述目标网页中采集目标资讯。
在一个可选的实施方式中,所述提取所述目标资讯的标题和正文包括:
对所述目标资讯进行去噪处理,并获取去噪处理后的目标资讯的html代码;
获取所述html代码中的预设第一标签和预设第二标签;
根据所述预设第一标签提取所述html中的第一文本,得到所述目标资讯的 标题;
根据所述预设第一标签及所述预设第一标签提取所述html中的第二文本, 得到所述目标资讯的正文。
在一个可选的实施方式中,所述方法还包括:
设置定时器;
响应于定时器到期,确定所述热点话题中的目标资讯对应的目标网站;
计算所述目标网站中所述目标资讯的数量;
根据所述数量确定所述目标网站中的热点引领网站。
本发明的第二方面提供一种计算机设备,所述计算机设备包括处理器,所 述处理器用于执行存储器中存储的计算机程序时实现所述热点话题识别方法。
本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介 质上存储有计算机程序,所述计算机程序被处理器执行时实现所述热点话题识 别方法。
综上所述,本发明所述的热点话题识别方法、计算机设备及存储介质,首 先确定目标网站并从目标网站中采集目标资讯,能够提高目标资讯的采集效率, 接着对获取的多个历史文本进行聚类得到多个文本簇,根据目标资讯的文本向 量和所述多个文本簇得到多个目标话题中心,实现了对目标话题中心的实时在 线更新,由于对于突发性的热点话题而言,往往表现为相关主题的文本较多, 该主题下的相关文章在短时间内骤增且绝对数量较大,根据所述目标话题中心 对应的文本簇中的历史文本的第一数量,所述目标话题中心对应的第一周期内 新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量计算目标 话题中心的功率,所述功率用于表示对应的所述目标话题中心为热点话题的概率,从而最终根据功率确定多个目标话题中心中的热点话题。本发明能够准确 的识别持续时间不长,短期内新闻数量不多,但热度特别高的突发性的热点话 题。
附图说明
图1是本发明实施例一提供的热点话题识别方法的流程图。
图2是本发明实施例二提供的热点话题识别装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和 具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发 明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术 领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术 语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的热点话题识别方法由计算机设备执行,相应地,热点 话题识别装置运行于计算机设备中。
图1是本发明实施例一提供的热点话题识别方法的流程图。所述热点话题 识别方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改 变,某些可以省略。
S11,从目标网站中采集目标资讯,提取所述目标资讯的标题和正文,并根 据所述标题和所述正文生成文本向量。
随着互联网技术的发展,互联网数据不断增长,出现了很多突发热点主题。 突发热点主题是指发生在某个时间段被热烈讨论和研究的事件主题,例如“一带 一路”、“二胎”、“AlphaGo”等具有科学研究价值或商业推广价值的主题。这些主 题通常最早出现在社交媒体数据和新闻资讯等网络数据中,可以利用这些网络 数据进行突发热点主题的挖掘和追踪。
计算机设备可以使用网络爬虫技术采集多个网站中的社交媒体数据或者新 闻资讯,在实施过程中,为了节约采集成本,可以确定若干个目标网站,从这 若干个目标网站中采集社交媒体数据或者新闻资讯。目标网站可以是指影响力 较大或者网络数据量较多的网站,例如,百度,谷歌等。
在一个可选的实施例中,所述从目标网站中采集目标资讯包括:
获取所述目标网站的网页;
提取所述网页的锚文本,并计算所述锚文本的字符长度;
判断所述字符长度是否大于预设字符长度阈值;
当所述字符长度大于所述预设字符长度阈值时,判断所述网页内容中是否 包含时间信息;
当所述网页内容中包含时间信息时,则确定所述网页为目标网页;
从所述目标网页中采集目标资讯。
计算机设备可以根据网络链接关系,注册获取所述目标网站中的网页,即 先获取目标网站的父网页,再获取所述父网页下的子网页,再获取所述子网页 下的孙子网页。
锚文本又称锚文本链接,是链接的一种形式,和超链接类似,超链接的代 码是锚文本,把关键词做一个链接,指向别的网页,这种形式的链接称为锚文 本。由于新闻网页通常具有锚文本,并且新闻网页通常是以新闻标题或者新闻 核心内容作为锚文本。新闻网页中通常会有新闻的发布时间,时间信息可能在 新闻标题的下方或者新闻正文的下方,那么新闻网页的源代码中就带有时间信 息。
每个目标网站对应多个网页,针对每一个目标网站的每一个网页,首先比 较锚文本的字符长度与预设字符长度阈值,选取大于所述预设字符长度阈值的 目标字符长度对应的目标锚文本,再判断所述目标锚文本对应的网页的源代码 中是否包含时间信息,将包含有时间信息的目标锚文本对应的网页确定为目标 网页,最后从目标网页中采集目标资讯,所述目标资讯包括新闻资讯。
该可选的实施例中,通过获取网页的锚文本的字符长度以及判断网页中是 否包含时间信息,来确定目标网站中的目标网页,缩小了采集目标网站的数据 范围,从而从目标网页中爬取目标资讯,能够提高目标资讯的采集效率。
计算机设备可以使用网页正文抽取工具提取所述目标资讯的标题和正文, 可以使用bert模型提取所述标题的第一向量表示,使用所述bert模型提取所述 正文的第二向量表示,根据所述第一向量表示和所述第二向量表示生成文本向 量,便于后续根据文本向量对所述目标资讯进行分类,从而确定所述目标资讯 的主题类别。
在一个可选的实施例中,所述提取所述目标资讯的标题和正文包括:
对所述目标资讯进行去噪处理,并获取去噪处理后的目标资讯的html代码;
获取所述html代码中的预设第一标签和预设第二标签;
根据所述预设第一标签提取所述html中的第一文本,得到所述目标资讯的 标题;
根据所述预设第一标签及所述预设第一标签提取所述html中的第二文本, 得到所述目标资讯的正文。
对目标资讯进行去噪处理是指对目标资讯所在的目标网页进行去噪处理, 去掉与目标资讯所在的目标网页中表达内容与目标资讯不相关的内容,如广告, 评论等等,从而使得目标网页中仅保留目标资讯,有助于快速且准确的提取目 标资讯的标题和正文。计算机设备可以使用网页去噪工具对目标资讯所在的目 标网页进行去噪处理。
所述预设第一标签可以是title标签,所述预设第二标签可以是行块标签, 通过获取行块标签对应的行块与所述目标网页中标题的位置,确定目标网页的 正文区域,根据所述目标网页的正文区域,确定正文区域的开始位置和结束位 置,并提取所述开始位置与所述结束位置之间的文本为目标资讯的正文。
该可选的实施例中,首先对目标资讯所在的目标网页进行去噪处理,去掉 目标网页中与目标资讯无关的内容,确保目标资讯的干净,有助于提高提取目 标资讯的标题和正文的准确度;通过预先设置第一标签和第二标签,并结合第 一标签和第二标签提取目标资讯的正文,提高了正文抽取的准确度以及正文抽 取的效率。
S12,对获取的多个历史文本进行聚类得到多个文本簇,根据所述文本向量 和所述多个文本簇得到多个目标话题中心。
计算机设备可以在确定目标网站之前获取多个文本,将获取的每一个文本 称之为历史文本,采用聚类算法对述多个历史文本进行聚类,得到多个文本簇, 每一个文本簇中包括一个或多个历史文本。所述历史文本可以是社交媒体数据 或者新闻资讯。
在一个可选的实施方式中,所述对获取的多个历史文本进行聚类得到多个 文本簇包括:
对所述多个历史文本进行分词处理得到多个关键词,提取每个关键词的词 向量;
计算每个关键词的聚类贡献度及每个关键词的离散度;
根据所述聚类贡献度及所述离散度得到每个关键词的重要度;
比较所述重要度与预设重要度阈值,并根据比较结果确定所述关键词中的 目标重要词;
调整所述目标重要词在所述历史文本中的占比;
根据调整占比后的目标重要词对应的词向量生成所述历史文本的目标文本 向量;
根据所述目标文本向量对所述多个历史文本进行聚类,得到多个文本簇。
可以通过结巴分词工具对历史文本进行分词处理,得到多个关键词,再使 用word2veb模型提取关键词的词向量。
聚类贡献度是指关键词对于文本聚类的贡献程度,聚类贡献度越大,表明 对应的关键词对于文本聚类的贡献就越大,聚类贡献度越小,表明对应的关键 词对于文本聚类的贡献就越小。可以通过计算多个历史文本中包含关键词的文 本数量来计算关键词的聚类贡献度。包含关键词的文本数量越大,表示关键词 被较多的历史文本所包含,那么该关键词对于聚类的贡献就较大,包含关键词 的文本数量越小,表示关键词被较少的历史文本所包含,那么该关键词对于聚 类的贡献就较小。
离散度是指关键词在历史文本中的分布程度,离散度越大,表示关键词的 分布越不均匀,离散度越小,表示关键词的分布越均匀。可以通过计算关键词 的方差来计算关键词的离散度。离散度越大,该关键词越有利于分类。离散度 越小,该关键词越不利于分类。
根据所述聚类贡献度及所述离散度得到每个关键词的重要度可以是聚类贡 献度与离散度的和值,也可以是聚类贡献度与离散度的乘积。相较于现有技术 中,对文本聚类是根据文本特征的不同,将文本分为不同的簇,使得同一族的 文本之间的距离尽可能的小,不同族的文本之间的距离尽可能的大。这样虽然 能够简化文本的表示,然而,用少数的簇代表整个文本数据集会丢失一些细节 信息。本实施例通过结合聚类贡献度及离散度来共同确定关键词的重要度,能 够有效的找出目标重要词,保留重要的细节信息,即对聚类起重要贡献的关键 词。此外,还能避免某些关键词虽然出现在较多的历史文本中,但由于分布较 为集中,反而影响了文本的聚类效果。
将重要度与预设重要度阈值进行比较,当重要度大于预设重要度阈值时, 确定重要度对应的关键词为目标重要词并保留目标重要词,当重要度小于预设 重要度阈值时,确定重要度对应的关键词为非目标重要词并删除非目标重要词。 将删除非目标重要词后的历史文本中的目标重要词的词向量进行组合得到文本 向量。相较于现有技术中根据提取得到的词向量形成的文本特征,是一个超高 维稀疏向量,不仅影响了聚类的速度,而且文本特征中存在的一些噪音特征, 会降低文本的聚类效果。本实施例通过选取目标重要词,根据目标重要词生成 文本向量,能够降低特征空间的维数,提高聚类效率,且由于选取的目标重要 词对应的词向量为最具代表性的特征,因而排除了噪音特征对聚类的影响,提高了聚类的效果。
所述调整所述目标重要词在所述历史文本中的占比包括:计算每个历史文 本中包含的目标重要词的数量;当所述数量小于预设数量阈值时,提高所述目 标重要词在所述历史文本中的占比;当所述数量大于预设数量阈值时,降低所 述目标重要词在所述历史文本中的占比。如果某一个历史文本中目标重要词的 占比较少,非目标重要词的占比较多,那么该历史文本就会与有相同非目标重 要词的历史文本聚为一类,但事实上该历史文本可能属于另一类。通过对历史 文本中目标重要词的占比进行调整,能够避免目标重要此被非目标重要词所掩 盖,提高目标重要此的占比,从而使得历史文本被准确分类,进一步提高了聚 类的效果。
将调整占比后的目标重要词对应的词向量进行组合,即可生成所述历史文 本的目标文本向量,从而根据所述目标文本向量对所述多个历史文本进行聚类, 得到多个文本簇。
在一个可选的实施例中,所述根据所述文本向量和所述多个文本簇得到多 个目标话题中心包括:
提取每个历史文本的历史文本向量;
根据每个文本簇中的历史文本的历史文本向量计算得到均值文本向量;
确定所述均值文本向量为候选话题中心;
计算所述文本向量与所述均值文本向量的相似度;
根据所述相似度对所述候选话题中心进行更新,得到目标话题中心。
计算机设备可以先提取历史文本的标题和正文,再使用bert模型提取所述 历史文本的标题的第一向量表示,提取所述历史文本的正文的第二向量表示, 根据所述历史文本的标题的第一向量表示和对应的所述历史文本的正文的第二 向量表示生成历史文本向量。
针对每个文本簇,将文本簇中包括的一个或者多个历史文本的历史文本向 量进行加和平均得到均值文本向量,则得到多个均值文本向量,每个文本簇对 应一个均值文本向量,将所述均值文本向量确定为对应的文本簇的候选话题中 心。
计算机设备每从目标网站采集到目标资讯后,则计算所述目标资讯的文本 向量与每个文本簇的均值文本向量的余弦夹角或者欧式距离,得到所述文本向 量与均值文本向量之间的相似度,即所述文本向量与候选话题中心之间的相似 度。表明文本向量与候选话题中心之间的相似度越大,表明文本向量越有可能 属于候选话题中心对应的文本簇,表明文本向量与候选话题中心之间的相似度 越小,表明文本向量越不可能属于候选话题中心对应的文本簇。
在一个可选的实施例中,所述根据所述相似度对所述候选话题中心进行更 新,得到目标话题中心包括:
将所述相似度分别与第一相似度阈值和第二相似度阈值进行比较,所述第 一相似度阈值小于所述第二相似度阈值;
当所述相似度小于所述第一相似度阈值时,将所述相似度对应的文本向量 作为新的候选话题中心,并添加所述新的候选话题中心至所述候选话题中心, 得到目标话题中心;
当所述相似度大于所述第二相似度阈值时,根据大于所述第二相似度阈值 的相似度对应的文本向量与对应的文本簇的候选话题中心计算得到目标话题中 心。
示例性的,第一相似度阈值可以为0.3,第二相似度阈值可以为0.7。
当所述相似度小于所述第一相似度阈值时,表明所述相似度对应的文本向 量不属于任何一个文本簇,因而,需要将所述相似度对应的目标资讯作为新的 话题,将目标资讯的文本向量作为新的话题中心。
当所述相似度大于所述第一相似度阈值时,表明所述相似度对应的文本向 量属于一个或者多个文本簇,因而,可以根据所述相似度对应的文本向量实现 对候选话题中心的实时在线更新。
示例性的,假设大于所述第二相似度阈值的相似度为0.9和0.85,相似度 0.9对应第一候选话题中心,相似度0.85对应第二候选话题中心,确定第一候选 话题中心对应的第一文本簇中的第一历史文本,及确定第二候选话题中心对应 的第二文本簇中的第二历史文本,将相似度对应的文本向量与第一历史文本对 应的历史文本向量进行计算得到第一均值文本向量,确定第一均值文本向量为 目标话题中心;将相似度对应的文本向量与第二历史文本对应的历史文本向量 进行计算得到第二均值文本向量,确定第二均值文本向量为目标话题中心。
S13,分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量, 所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内 新增的目标资讯的第三数量。
其中,第一周期与第二周期为相邻的两个周期,例如,第一周期可以为上 一周期,第二周期可以为当前周期。
S14,基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题 中心的功率。
其中,功率计算模型可以用如下公式表示:p=m*a*v,其中,m表示所 述目标话题中心对应的文本簇中的历史文本的第一数量,a表示当前周期所述目 标话题中心新增的目标资讯的第二数量与上一周期所述目标话题中心新增的目 标资讯的第三数量的差值数量,v表示当前周期所述目标话题中心新增的目标资 讯的第二数量,p表示所述功率。
对于突发性的热点话题而言,往往表现为相关主题的文本较多,该主题下 的相关文章在短时间内骤增,且绝对数量较大。为此,计算机设备通过创建功 率计算模型来计算目标话题中心的功率,从而体现目标话题中心的热门程度。
在一个可选的实施例中,所述基于所述第一数量、所述第二数量及所述第 三数量计算所述目标话题中心的功率包括:
计算所述第二数量与所述第三数量的差值数量;
使用功率计算模型根据所述第一数量、所述第二数量及所述差值数量计算 所述目标话题中心的功率。
其中,所述当前周期可以是当天,所述上一周期可以是昨天。
所述功率用于表示对应的所述目标话题中心为热点话题的概率。功率越大, 表明对应的目标话题中心为热点话题的概率越大,功率越低,表明对应的目标 话题中心为热点话题的概率越小。
该可选的实施例中,通过分别获取所述目标话题中心对应的文本簇中的历 史文本的第一数量,当前周期所述目标话题中心新增的目标资讯的第二数量, 上一周期所述目标话题中心新增的目标资讯的第三数量,结合所述第一数量、 所述第二数量及所述第三数量来计算所述目标话题中心的功率,同时考虑了时 间因素,及考虑了短时间内骤增的与目标话题中心相关的目标资讯的数量,使 得计算得到的目标话题中心的热门程度更加准确,尤其是对于突发性的热点话 题而言,热门程度的准确率会更高。
S15,根据所述功率确定所述多个目标话题中心中的热点话题。
计算机设备预先设置功率阈值,将每个目标话题中心对应的功率与所述功 率阈值进行比较,根据比较结果确定目标话题中心是否为热点话题。当某个目 标话题中心对应的功率大于或者等于所述功率阈值时,则识别所述目标话题中 心为热点话题;当某个目标话题中心对应的功率小于所述功率阈值时,则识别 所述目标话题中心不为热点话题。
本发明实施例所述的方法,首先确定目标网站并从目标网站中采集目标资 讯,能够提高目标资讯的采集效率,接着对获取的多个历史文本进行聚类得到 多个文本簇,根据目标资讯的文本向量和所述多个文本簇得到多个目标话题中 心,实现了对目标话题中心的实时在线更新,由于对于突发性的热点话题而言, 往往表现为相关主题的文本较多,该主题下的相关文章在短时间内骤增且绝对 数量较大,通过创建功率计算模型来根据所述目标话题中心对应的文本簇中的 历史文本的第一数量,所述目标话题中心对应的第一周期内新增的目标资讯的 第二数量及第二周期内新增的目标资讯的第三数量计算目标话题中心的功率, 能够体现目标话题中心的热门程度,最终根据功率确定目标话题中心中的热点 话题。本发明能够准确的识别持续时间不长,短期内新闻数量不多,但热度特 别高的突发性的热点话题。
在一个可选的实施例中,计算机设备还可以根据预先训练完成的话题类别 识别模型识别热点话题的话题类别,并将所述热点话题对应的目标资讯写入对 应的保险话题库中。例如,将自然灾害、事故灾难、公共安全等类型事件话题 作为保险相关话题,输出到保险话题库中。
在一个可选的实施例中,所述方法还包括:
设置定时器;
响应于定时器到期,确定所述热点话题中的目标资讯对应的目标网站;
计算所述目标网站中所述目标资讯的数量;
根据所述数量确定所述目标网站中的热点引领网站。
通常而言,对于突发性的热点话题,其热度只会维持几天,因此,计算 机设备可以设置定时器,在定时器到期时,停止对热点话题的识别,确定每 个热点话题中的目标资讯分别来自于哪个目标网站。计算每一个目标网站中 新增的与热点话题对应的目标资讯的数量,数量越大,表明目标网站中参与 讨论的用户人数越多,目标网站的舆论越能引导用户的情绪。计算机在计算 每个目标网站中新增的与热点话题对应的目标资讯的数量之后,对所述数量 进行倒叙排序,并确定倒序排序后的前预设K个数量对应的目标网站作为热点引领网站。对于热点引领网站,可以重点监控,及时采取相关的舆情引导 手段。
需要强调的是,为进一步保证上述功率计算模型的私密性和安全性,上述 功率计算模型可存储于区块链的节点中。
图2是本发明实施例二提供的热点话题识别装置的结构图。
在一些实施例中,所述热点话题识别装置20可以包括多个由计算机程序段 所组成的功能模块。所述热点话题识别装置20中的各个程序段的计算机程序可 以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见 图1描述)热点话题识别的功能。
本实施例中,所述热点话题识别装置20根据其所执行的功能,可以被划分 为多个功能模块。所述功能模块可以包括:向量提取模块201、文本聚类模块 202、数量计算模块203、功率计算模块204、热点识别模块205及定时响应模 块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成 固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各 模块的功能将在后续的实施例中详述。
所述向量提取模块201,用于从目标网站中采集目标资讯,提取所述目标资 讯的标题和正文,并根据所述标题和所述正文生成文本向量。
随着互联网技术的发展,互联网数据不断增长,出现了很多突发热点主题。 突发热点主题是指发生在某个时间段被热烈讨论和研究的事件主题。这些主题 通常最早出现在社交媒体数据和新闻资讯等网络数据中,可以利用这些网络数 据进行突发热点主题的挖掘和追踪。
计算机设备可以使用网络爬虫技术采集多个网站中的社交媒体数据或者新 闻资讯,在实施过程中,为了节约采集成本,可以确定若干个目标网站,从这 若干个目标网站中采集社交媒体数据或者新闻资讯。目标网站可以是指影响力 较大或者网络数据量较多的网站,例如,百度,谷歌等。
在一个可选的实施例中,所述向量提取模块201从所述目标网站中采集目 标资讯包括:
获取所述目标网站的网页;
提取所述网页的锚文本,并计算所述锚文本的字符长度;
判断所述字符长度是否大于预设字符长度阈值;
当所述字符长度大于所述预设字符长度阈值时,判断所述网页内容中是否 包含时间信息;
当所述网页内容中包含时间信息时,则确定所述网页为目标网页;
从所述目标网页中采集目标资讯。
计算机设备可以根据网络链接关系,注册获取所述目标网站中的网页,即 先获取目标网站的父网页,再获取所述父网页下的子网页,再获取所述子网页 下的孙子网页。
锚文本又称锚文本链接,是链接的一种形式,和超链接类似,超链接的代 码是锚文本,把关键词做一个链接,指向别的网页,这种形式的链接称为锚文 本。由于新闻网页通常具有锚文本,并且新闻网页通常是以新闻标题或者新闻 核心内容作为锚文本。新闻网页中通常会有新闻的发布时间,时间信息可能在 新闻标题的下方或者新闻正文的下方,那么新闻网页的源代码中就带有时间信 息。
每个目标网站对应多个网页,针对每一个目标网站的每一个网页,首先比 较锚文本的字符长度与预设字符长度阈值,选取大于所述预设字符长度阈值的 目标字符长度对应的目标锚文本,再判断所述目标锚文本对应的网页的源代码 中是否包含时间信息,将包含有时间信息的目标锚文本对应的网页确定为目标 网页,最后从目标网页中采集目标资讯,所述目标资讯包括新闻资讯。
该可选的实施例中,通过获取网页的锚文本的字符长度以及判断网页中是 否包含时间信息,来确定目标网站中的目标网页,缩小了采集目标网站的数据 范围,从而从目标网页中爬取目标资讯,能够提高目标资讯的采集效率。
计算机设备可以使用网页正文抽取工具提取所述目标资讯的标题和正文, 可以使用bert模型提取所述标题的第一向量表示,使用所述bert模型提取所述 正文的第二向量表示,根据所述第一向量表示和所述第二向量表示生成文本向 量,便于后续根据文本向量对所述目标资讯进行分类,从而确定所述目标资讯 的主题类别。
在一个可选的实施例中,所述向量提取模块201提取所述目标资讯的标题 和正文包括:
对所述目标资讯进行去噪处理,并获取去噪处理后的目标资讯的html代码;
获取所述html代码中的预设第一标签和预设第二标签;
根据所述预设第一标签提取所述html中的第一文本,得到所述目标资讯的 标题;
根据所述预设第一标签及所述预设第一标签提取所述html中的第二文本, 得到所述目标资讯的正文。
对目标资讯进行去噪处理是指对目标资讯所在的目标网页进行去噪处理, 去掉与目标资讯所在的目标网页中表达内容与目标资讯不相关的内容,如广告, 评论等等,从而使得目标网页中仅保留目标资讯,有助于快速且准确的提取目 标资讯的标题和正文。计算机设备可以使用网页去噪工具对目标资讯所在的目 标网页进行去噪处理。
所述预设第一标签可以是title标签,所述预设第二标签可以是行块标签, 通过获取行块标签对应的行块与所述目标网页中标题的位置,确定目标网页的 正文区域,根据所述目标网页的正文区域,确定正文区域的开始位置和结束位 置,并提取所述开始位置与所述结束位置之间的文本为目标资讯的正文。
该可选的实施例中,首先对目标资讯所在的目标网页进行去噪处理,去掉 目标网页中与目标资讯无关的内容,确保目标资讯的干净,有助于提高提取目 标资讯的标题和正文的准确度;通过预先设置第一标签和第二标签,并结合第 一标签和第二标签提取目标资讯的正文,提高了正文抽取的准确度以及正文抽 取的效率。
所述文本聚类模块202,用于对获取的多个历史文本进行聚类得到多个文本 簇,根据所述文本向量和所述多个文本簇得到多个目标话题中心。
计算机设备可以在确定目标网站之前获取多个文本,将获取的每一个文本 称之为历史文本,采用聚类算法对述多个历史文本进行聚类,得到多个文本簇, 每一个文本簇中包括一个或多个历史文本。所述历史文本可以是社交媒体数据 或者新闻资讯。
在一个可选的实施方式中,所述文本聚类模块202对获取的多个历史文本 进行聚类得到多个文本簇包括:
对所述多个历史文本进行分词处理得到多个关键词,提取每个关键词的词 向量;
计算每个关键词的聚类贡献度及每个关键词的离散度;
根据所述聚类贡献度及所述离散度得到每个关键词的重要度;
比较所述重要度与预设重要度阈值,并根据比较结果确定所述关键词中的 目标重要词;
调整所述目标重要词在所述历史文本中的占比;
根据调整占比后的目标重要词对应的词向量生成所述历史文本的目标文本 向量;
根据所述目标文本向量对所述多个历史文本进行聚类,得到多个文本簇。
可以通过结巴分词工具对历史文本进行分词处理,得到多个关键词,再使 用word2veb模型提取关键词的词向量。
聚类贡献度是指关键词对于文本聚类的贡献程度,聚类贡献度越大,表明 对应的关键词对于文本聚类的贡献就越大,聚类贡献度越小,表明对应的关键 词对于文本聚类的贡献就越小。可以通过计算多个历史文本中包含关键词的文 本数量来计算关键词的聚类贡献度。包含关键词的文本数量越大,表示关键词 被较多的历史文本所包含,那么该关键词对于聚类的贡献就较大,包含关键词 的文本数量越小,表示关键词被较少的历史文本所包含,那么该关键词对于聚 类的贡献就较小。
离散度是指关键词在历史文本中的分布程度,离散度越大,表示关键词的 分布越不均匀,离散度越小,表示关键词的分布越均匀。可以通过计算关键词 的方差来计算关键词的离散度。离散度越大,该关键词越有利于分类。离散度 越小,该关键词越不利于分类。
根据所述聚类贡献度及所述离散度得到每个关键词的重要度可以是聚类贡 献度与离散度的和值,也可以是聚类贡献度与离散度的乘积。相较于现有技术 中,对文本聚类是根据文本特征的不同,将文本分为不同的簇,使得同一族的 文本之间的距离尽可能的小,不同族的文本之间的距离尽可能的大。这样虽然 能够简化文本的表示,然而,用少数的簇代表整个文本数据集会丢失一些细节 信息。本实施例通过结合聚类贡献度及离散度来共同确定关键词的重要度,能 够有效的找出目标重要词,保留重要的细节信息,即对聚类起重要贡献的关键 词。此外,还能避免某些关键词虽然出现在较多的历史文本中,但由于分布较 为集中,反而影响了文本的聚类效果。
将重要度与预设重要度阈值进行比较,当重要度大于预设重要度阈值时, 确定重要度对应的关键词为目标重要词并保留目标重要词,当重要度小于预设 重要度阈值时,确定重要度对应的关键词为非目标重要词并删除非目标重要词。 将删除非目标重要词后的历史文本中的目标重要词的词向量进行组合得到文本 向量。相较于现有技术中根据提取得到的词向量形成的文本特征,是一个超高 维稀疏向量,不仅影响了聚类的速度,而且文本特征中存在的一些噪音特征, 会降低文本的聚类效果。本实施例通过选取目标重要词,根据目标重要词生成 文本向量,能够降低特征空间的维数,提高聚类效率,且由于选取的目标重要 词对应的词向量为最具代表性的特征,因而排除了噪音特征对聚类的影响,提高了聚类的效果。
所述调整所述目标重要词在所述历史文本中的占比包括:计算每个历史文 本中包含的目标重要词的数量;当所述数量小于预设数量阈值时,提高所述目 标重要词在所述历史文本中的占比;当所述数量大于预设数量阈值时,降低所 述目标重要词在所述历史文本中的占比。如果某一个历史文本中目标重要词的 占比较少,非目标重要词的占比较多,那么该历史文本就会与有相同非目标重 要词的历史文本聚为一类,但事实上该历史文本可能属于另一类。通过对历史 文本中目标重要词的占比进行调整,能够避免目标重要此被非目标重要词所掩 盖,提高目标重要此的占比,从而使得历史文本被准确分类,进一步提高了聚 类的效果。
将调整占比后的目标重要词对应的词向量进行组合,即可生成所述历史文 本的目标文本向量,从而根据所述目标文本向量对所述多个历史文本进行聚类, 得到多个文本簇。
在一个可选的实施例中,所述根据所述文本向量和所述多个文本簇得到多 个目标话题中心包括:
提取每个历史文本的历史文本向量;
根据每个文本簇中的历史文本的历史文本向量计算得到均值文本向量;
确定所述均值文本向量为候选话题中心;
计算所述文本向量与所述均值文本向量的相似度;
根据所述相似度对所述候选话题中心进行更新,得到目标话题中心。
计算机设备可以先提取历史文本的标题和正文,再使用bert模型提取所述 历史文本的标题的第一向量表示,提取所述历史文本的正文的第二向量表示, 根据所述历史文本的标题的第一向量表示和对应的所述历史文本的正文的第二 向量表示生成历史文本向量。
针对每个文本簇,将文本簇中包括的一个或者多个历史文本的历史文本向 量进行加和平均得到均值文本向量,则得到多个均值文本向量,每个文本簇对 应一个均值文本向量,将所述均值文本向量确定为对应的文本簇的候选话题中 心。
计算机设备每从目标网站采集到目标资讯后,则计算所述目标资讯的文本 向量与每个文本簇的均值文本向量的余弦夹角或者欧式距离,得到所述文本向 量与均值文本向量之间的相似度,即所述文本向量与候选话题中心之间的相似 度。表明文本向量与候选话题中心之间的相似度越大,表明文本向量越有可能 属于候选话题中心对应的文本簇,表明文本向量与候选话题中心之间的相似度 越小,表明文本向量越不可能属于候选话题中心对应的文本簇。
在一个可选的实施例中,所述根据所述相似度对所述候选话题中心进行更 新,得到目标话题中心包括:
将所述相似度分别与第一相似度阈值和第二相似度阈值进行比较,所述第 一相似度阈值小于所述第二相似度阈值;
当所述相似度小于所述第一相似度阈值时,将所述相似度对应的文本向量 作为新的候选话题中心,并添加所述新的候选话题中心至所述候选话题中心, 得到目标话题中心;
当所述相似度大于所述第二相似度阈值时,根据大于所述第二相似度阈值 的相似度对应的文本向量与对应的文本簇的候选话题中心计算得到目标话题中 心。
示例性的,第一相似度阈值可以为0.3,第二相似度阈值可以为0.7。
当所述相似度小于所述第一相似度阈值时,表明所述相似度对应的文本向 量不属于任何一个文本簇,因而,需要将所述相似度对应的目标资讯作为新的 话题,将目标资讯的文本向量作为新的话题中心。
当所述相似度大于所述第一相似度阈值时,表明所述相似度对应的文本向 量属于一个或者多个文本簇,因而,可以根据所述相似度对应的文本向量实现 对候选话题中心的实时在线更新。
示例性的,假设大于所述第二相似度阈值的相似度为0.9和0.85,相似度 0.9对应第一候选话题中心,相似度0.85对应第二候选话题中心,确定第一候选 话题中心对应的第一文本簇中的第一历史文本,及确定第二候选话题中心对应 的第二文本簇中的第二历史文本,将相似度对应的文本向量与第一历史文本对 应的历史文本向量进行计算得到第一均值文本向量,确定第一均值文本向量为 目标话题中心;将相似度对应的文本向量与第二历史文本对应的历史文本向量 进行计算得到第二均值文本向量,确定第二均值文本向量为目标话题中心。
所述数量计算模块203,用于分别获取所述目标话题中心对应的文本簇中的 历史文本的第一数量,所述目标话题中心对应的第一周期内新增的目标资讯的 第二数量及第二周期内新增的目标资讯的第三数量。
其中,第一周期与第二周期为相邻的两个周期,例如,第一周期可以为上 一周期,第二周期可以为当前周期。
所述功率计算模块204,用于基于所述第一数量、所述第二数量及所述第三 数量计算所述目标话题中心的功率。
其中,功率计算模型可以用如下公式表示:p=m*a*v,其中,m表示所 述目标话题中心对应的文本簇中的历史文本的第一数量,a表示当前周期所述目 标话题中心新增的目标资讯的第二数量与上一周期所述目标话题中心新增的目 标资讯的第三数量的差值数量,v表示当前周期所述目标话题中心新增的目标资 讯的第二数量,p表示所述功率。
对于突发性的热点话题而言,往往表现为相关主题的文本较多,该主题下 的相关文章在短时间内骤增,且绝对数量较大。为此,计算机设备通过创建功 率计算模型来计算目标话题中心的功率,从而体现目标话题中心的热门程度。
在一个可选的实施例中,所述功率计算模块204基于所述第一数量、所述 第二数量及所述第三数量计算所述目标话题中心的功率包括:
计算所述第二数量与所述第三数量的差值数量;
使用功率计算模型根据所述第一数量、所述第二数量及所述差值数量计算 所述目标话题中心的功率。
其中,所述当前周期可以是当天,所述上一周期可以是昨天。
所述功率用于表示对应的所述目标话题中心为热点话题的概率。功率越大, 表明对应的目标话题中心为热点话题的概率越大,功率越低,表明对应的目标 话题中心为热点话题的概率越小。
该可选的实施例中,通过分别获取所述目标话题中心对应的文本簇中的历 史文本的第一数量,当前周期所述目标话题中心新增的目标资讯的第二数量, 上一周期所述目标话题中心新增的目标资讯的第三数量,结合所述第一数量、 所述第二数量及所述第三数量来计算所述目标话题中心的功率,同时考虑了时 间因素,及考虑了短时间内骤增的与目标话题中心相关的目标资讯的数量,使 得计算得到的目标话题中心的热门程度更加准确,尤其是对于突发性的热点话 题而言,热门程度的准确率会更高。
所述热点识别模块205,用于根据所述功率确定所述多个目标话题中心中的 热点话题。
计算机设备预先设置功率阈值,将每个目标话题中心对应的功率与所述功 率阈值进行比较,根据比较结果确定目标话题中心是否为热点话题。当某个目 标话题中心对应的功率大于或者等于所述功率阈值时,则识别所述目标话题中 心为热点话题;当某个目标话题中心对应的功率小于所述功率阈值时,则识别 所述目标话题中心不为热点话题。
本发明实施例所述的装置,首先确定目标网站并从目标网站中采集目标资 讯,能够提高目标资讯的采集效率,接着对获取的多个历史文本进行聚类得到 多个文本簇,根据目标资讯的文本向量和所述多个文本簇得到多个目标话题中 心,实现了对目标话题中心的实时在线更新,由于对于突发性的热点话题而言, 往往表现为相关主题的文本较多,该主题下的相关文章在短时间内骤增且绝对 数量较大,通过创建功率计算模型来根据所述目标话题中心对应的文本簇中的 历史文本的第一数量,所述目标话题中心对应的第一周期内新增的目标资讯的 第二数量及第二周期内新增的目标资讯的第三数量计算目标话题中心的功率, 能够体现目标话题中心的热门程度,最终根据功率确定目标话题中心中的热点 话题。本发明能够准确的识别持续时间不长,短期内新闻数量不多,但热度特 别高的突发性的热点话题。
在一个可选的实施例中,计算机设备还可以根据预先训练完成的话题类别 识别模型识别热点话题的话题类别,并将所述热点话题对应的目标资讯写入对 应的保险话题库中。例如,将自然灾害、事故灾难、公共安全等类型事件话题 作为保险相关话题,输出到保险话题库中。
在一个可选的实施例中,所述定时响应模块206,用于设置定时器;响应于 定时器到期,确定所述热点话题中的目标资讯对应的目标网站;计算所述目标 网站中所述目标资讯的数量;根据所述数量确定所述目标网站中的热点引领网 站。
通常而言,对于突发性的热点话题,其热度只会维持几天,因此,计算 机设备可以设置定时器,在定时器到期时,停止对热点话题的识别,确定每 个热点话题中的目标资讯分别来自于哪个目标网站。计算每一个目标网站中 新增的与热点话题对应的目标资讯的数量,数量越大,表明目标网站中参与 讨论的用户人数越多,目标网站的舆论越能引导用户的情绪。计算机在计算 每个目标网站中新增的与热点话题对应的目标资讯的数量之后,对所述数量 进行倒叙排序,并确定倒序排序后的前预设K个数量对应的目标网站作为热点引领网站。对于热点引领网站,可以重点监控,及时采取相关的舆情引导 手段。
需要强调的是,为进一步保证上述功率计算模型的私密性和安全性,上述 功率计算模型可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本 发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至 少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明 实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3 还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指 令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、 专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3 还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、 鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个 人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现 的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用 方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被 所述至少一个处理器32执行时实现如所述的热点话题识别方法中的全部或者部 分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程 只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除可编程只读 存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只 读存储器(One-time Programmable Read-OnlyMemory,OTPROM)、电子擦除 式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory, EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他 光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算 机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区, 其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数 据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法 等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化 的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含 了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区 块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通 过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存 储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至 少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所 述的热点话题识别方法的全部或者部分步骤;或者实现热点话题识别装置的全 部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单 个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电 路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微 处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31 以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如 电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相 连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源 还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电 路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3 还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可 读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用 以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可 以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例 如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为 模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能 模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现 本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非 限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落 在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权 利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不 排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一 个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而 并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽 管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解, 可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精 神和范围。

Claims (10)

1.一种热点话题识别方法,其特征在于,所述方法包括:
从目标网站中采集目标资讯,提取所述目标资讯的标题和正文,并根据所述标题和所述正文生成文本向量;
对获取的多个历史文本进行聚类得到多个文本簇,根据所述文本向量和所述多个文本簇得到多个目标话题中心;
分别获取所述目标话题中心对应的文本簇中的历史文本的第一数量,所述目标话题中心对应的第一周期内新增的目标资讯的第二数量及第二周期内新增的目标资讯的第三数量;
基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率,所述功率用于表示对应的所述目标话题中心为热点话题的概率;
根据所述功率确定所述多个目标话题中心中的热点话题。
2.如权利要求1所述的热点话题识别方法,其特征在于,所述对获取的多个历史文本进行聚类得到多个文本簇包括:
对所述多个历史文本进行分词处理得到多个关键词,提取每个关键词的词向量;
计算每个关键词的聚类贡献度及每个关键词的离散度;
根据所述聚类贡献度及所述离散度得到每个关键词的重要度;
比较所述重要度与预设重要度阈值,并根据比较结果确定所述关键词中的目标重要词;
调整所述目标重要词在所述历史文本中的占比;
根据调整占比后的目标重要词对应的词向量生成所述历史文本的目标文本向量;
根据所述目标文本向量对所述多个历史文本进行聚类,得到多个文本簇。
3.如权利要求1所述的热点话题识别方法,其特征在于,所述基于所述第一数量、所述第二数量及所述第三数量计算所述目标话题中心的功率包括:
计算所述第二数量与所述第三数量的差值数量;
使用功率计算模型根据所述第一数量、所述第二数量及所述差值数量计算所述目标话题中心的功率,所述功率计算模型为p=m*a*v,m表示所述第一数量,a表示所述差值数量,v表示所述第二数量,p表示所述功率。
4.如权利要求2或3所述的热点话题识别方法,其特征在于,所述根据所述文本向量和所述多个文本簇得到多个目标话题中心包括:
提取每个历史文本的历史文本向量;
根据每个文本簇中的历史文本的历史文本向量计算得到均值文本向量;
确定所述均值文本向量为候选话题中心;
计算所述文本向量与所述均值文本向量的相似度;
根据所述相似度对所述候选话题中心进行更新,得到目标话题中心。
5.如权利要求4所述的热点话题识别方法,其特征在于,所述根据所述相似度对所述候选话题中心进行更新,得到目标话题中心包括:
将所述相似度分别与第一相似度阈值和第二相似度阈值进行比较,所述第一相似度阈值小于所述第二相似度阈值;
当所述相似度小于所述第一相似度阈值时,将所述相似度对应的文本向量作为新的候选话题中心,并添加所述新的候选话题中心至所述候选话题中心,得到目标话题中心;
当所述相似度大于所述第二相似度阈值时,根据大于所述第二相似度阈值的相似度对应的文本向量与对应的文本簇的候选话题中心计算得到目标话题中心。
6.如权利要求1至3中任意一项所述的热点话题识别方法,其特征在于,所述从目标网站中采集目标资讯包括:
获取所述目标网站的网页;
提取所述网页的锚文本,并计算所述锚文本的字符长度;
判断所述字符长度是否大于预设字符长度阈值;
当所述字符长度大于所述预设字符长度阈值时,判断所述网页内容中是否包含时间信息;
当所述网页内容中包含时间信息时,则确定所述网页为目标网页;
从所述目标网页中采集目标资讯。
7.如权利要求1至3中任意一项所述的热点话题识别方法,其特征在于,所述提取所述目标资讯的标题和正文包括:
对所述目标资讯进行去噪处理,并获取去噪处理后的目标资讯的html代码;
获取所述html代码中的预设第一标签和预设第二标签;
根据所述预设第一标签提取所述html中的第一文本,得到所述目标资讯的标题;
根据所述预设第一标签及所述预设第一标签提取所述html中的第二文本,得到所述目标资讯的正文。
8.如权利要求1至3中任意一项所述的热点话题识别方法,其特征在于,所述方法还包括:
设置定时器;
响应于定时器到期,确定所述热点话题中的目标资讯对应的目标网站;
计算所述目标网站中所述目标资讯的数量;
根据所述数量确定所述目标网站中的热点引领网站。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至8中任意一项所述的热点话题识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的热点话题识别方法。
CN202110705267.0A 2021-06-24 2021-06-24 热点话题识别方法、计算机设备及存储介质 Active CN113342979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110705267.0A CN113342979B (zh) 2021-06-24 2021-06-24 热点话题识别方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110705267.0A CN113342979B (zh) 2021-06-24 2021-06-24 热点话题识别方法、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113342979A true CN113342979A (zh) 2021-09-03
CN113342979B CN113342979B (zh) 2023-12-05

Family

ID=77478542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110705267.0A Active CN113342979B (zh) 2021-06-24 2021-06-24 热点话题识别方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113342979B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896967A (zh) * 2022-06-06 2022-08-12 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛问题的处理方法、设备、存储介质
CN116842200A (zh) * 2023-03-29 2023-10-03 全景智联(武汉)科技有限公司 一种事件聚档管理方法
CN117743376A (zh) * 2024-02-19 2024-03-22 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
US20180357302A1 (en) * 2015-12-11 2018-12-13 Beijing Gridsum Technology Co., Ltd. Method and device for processing a topic
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN111104511A (zh) * 2019-11-18 2020-05-05 腾讯科技(深圳)有限公司 一种提取热点话题的方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
US20180357302A1 (en) * 2015-12-11 2018-12-13 Beijing Gridsum Technology Co., Ltd. Method and device for processing a topic
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN111104511A (zh) * 2019-11-18 2020-05-05 腾讯科技(深圳)有限公司 一种提取热点话题的方法、装置及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896967A (zh) * 2022-06-06 2022-08-12 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛问题的处理方法、设备、存储介质
CN114896967B (zh) * 2022-06-06 2024-01-19 山东浪潮爱购云链信息科技有限公司 一种采购平台中论坛问题的处理方法、设备、存储介质
CN116842200A (zh) * 2023-03-29 2023-10-03 全景智联(武汉)科技有限公司 一种事件聚档管理方法
CN117743376A (zh) * 2024-02-19 2024-03-22 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质
CN117743376B (zh) * 2024-02-19 2024-05-03 蓝色火焰科技成都有限公司 一种数字金融服务的大数据挖掘方法、装置及存储介质

Also Published As

Publication number Publication date
CN113342979B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN113342979B (zh) 热点话题识别方法、计算机设备及存储介质
US10977311B2 (en) Dynamically modifying elements of user interface based on knowledge graph
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
EP3401802A1 (en) Webpage training method and device, and search intention identification method and device
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
US8019756B2 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
Dori-Hacohen et al. Detecting controversy on the web
CN110929145B (zh) 舆情分析方法、装置、计算机装置及存储介质
CN111984793A (zh) 文本情感分类模型训练方法、装置、计算机设备及介质
CN111666415A (zh) 话题聚类方法、装置、电子设备及存储介质
CN110765754A (zh) 文本数据排版方法、装置、计算机设备及存储介质
CN112231485A (zh) 文本推荐方法、装置、计算机设备及存储介质
CN112149409A (zh) 医疗词云生成方法、装置、计算机设备及存储介质
CN110598200B (zh) 语义识别方法及装置
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN113919336A (zh) 基于深度学习的文章生成方法、装置及相关设备
CN114862520A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN115437877A (zh) 多源日志的在线解析方法、系统、电子设备及存储介质
CN111930963B (zh) 知识图谱生成方法、装置、电子设备及存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting
CN116108276A (zh) 基于人工智能的信息推荐方法、装置及相关设备
CN115729965A (zh) 信息流处理方法、装置、流服务器及存储介质
CN113051900B (zh) 同义词识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant