CN111104511B - 一种提取热点话题的方法、装置及存储介质 - Google Patents

一种提取热点话题的方法、装置及存储介质 Download PDF

Info

Publication number
CN111104511B
CN111104511B CN201911126826.1A CN201911126826A CN111104511B CN 111104511 B CN111104511 B CN 111104511B CN 201911126826 A CN201911126826 A CN 201911126826A CN 111104511 B CN111104511 B CN 111104511B
Authority
CN
China
Prior art keywords
target
cluster
candidate
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911126826.1A
Other languages
English (en)
Other versions
CN111104511A (zh
Inventor
卢珑予
俞一鹏
孙子荀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911126826.1A priority Critical patent/CN111104511B/zh
Publication of CN111104511A publication Critical patent/CN111104511A/zh
Application granted granted Critical
Publication of CN111104511B publication Critical patent/CN111104511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种提取热点话题的方法、装置及存储介质,所述方法包括:根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。本方案能够提高聚类效果以及发现更多的热词。

Description

一种提取热点话题的方法、装置及存储介质
技术领域
本申请实施例涉及大数据处理技术领域,尤其涉及一种提取热点话题的方法、装置及存储介质。
背景技术
目前,一般会收集互联网中的文本信息,然后发掘其中的热点。具体来说,先从互联网下载近期一段时间内的论坛、博客、微博等网页,从这些网页中提取文本。然后分别对每个文本进行分词,获得一个词频向量,将所有文本的词频向量组合得到一个词频矩阵。再利用聚类算法对该词频矩阵进行聚类分析,使主题相同的文本聚在一起,这样就获得了很多主题的聚类簇。最后,提取每个聚类簇的文本的摘要或者每个聚类簇的关键词作为该聚类簇的解释(即对该新闻主题的解释)。
在对现有技术的研究和实践过程中,本申请实施例的发明人发现,每天的数据都在随着时间变化且内容杂乱,而基于该词频矩阵进行聚类分析得到的聚类簇的聚类效果不佳,相应的,在基于聚类得到的聚类簇的描述时,使用抽取式摘要的方法给出的描述会比较杂乱,概括性不强,而使用关键词抽取的方法给出的描述可阅读性较差,因此,难以给出合适的热点话题的描述。
发明内容
本申请实施例提供了一种提取热点话题的方法、装置及存储介质,能够提高聚类效果以及发现更多的热词。
第一方面中,本申请实施例提供一种提取热点话题的方法,所述方法包括:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;
根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。
一种可能的设计中,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为文档频率大于文档频率阈值的词语;
将所述第一候选词语与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
一种可能的设计中,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
一种可能的设计中,所述得到多个候选簇之后,所述从所述多个候选簇中选择目标簇之前,所述方法还包括:
获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。
一种可能的设计中,所述根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语,包括:
获取第二候选词语的热度值,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。
一种可能的设计中,所述获取第二候选词语的热度值,包括:
根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;
其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。
一种可能的设计中,所述根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值,包括:
当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;
或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值。
一种可能的设计中,当所述目标簇包括至少两个文本时,或者当所述目标簇为一个句子组成的文本时,所述根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语,包括:
从所述目标簇中提取多个词语,根据所述支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;
将所述第一热点集合中的各词语进行组合,得到多个组合短语;
根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;
将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;
根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个目标组合短语中确定目标热点集合,所述目标热点集合包括至少一个候选组合短语;
将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;
从所述多个热点集合中确定所述热度短语。
一种可能的设计中,所述从所述多个热点集合中确定所述热度短语,包括:
从所述多个热点集合中确定多个目标组合短语,所述目标组合短语不属于预设停用词,且目标组合短语相互之间不存在包含关系;
确定各目标组合短语包括的词语;
分别对各目标组合短语中包括的词语的热度值进行求和平均,得到对应目标组合短语的热度值;
将热度值高于所述热度阈值的目标组合短语作为所述热度短语。
一种可能的设计中,所述将所述第一热点集合中的各词语进行组合,得到多个组合短语,包括:
按照历史词语与下一个词语之间的依赖关系确定词语重叠的短语;
将词语重叠的短语取并集,得到所述组合短语。
一种可能的设计中,所述多个热点集合中的各热点集合按照得到的先后顺序有序排列;所述从所述多个热点集合中确定多个目标组合短语,包括:
按照热点集合得到的先后顺序的逆序,依次遍历各热点集合;
若当前遍历的热点集合中存在候选组合短语,则确定所述候选组合短语为目标组合短语,所述候选组合短语中的词语均为非预设停用词或者部分为所述预设停用词;
若当前遍历的热点集合中存在与通过遍历确定的目标组合短语有交集的目标组合短语,则丢弃。
一种可能的设计中,所述根据文本得到多个聚类簇之前,所述方法还包括:
获取所述文本,所述文本包括多个文本片段;
确定所述文本中各文本片段的词频、凝聚度和自由度;
根据各文本片段的词频、凝聚度和自由度确定文本片段满足成词语条件时,过滤满足所述成词条件的文本片段中的停用词和无效字符;
根据过滤了停用词和无效字符的文本片段创建所述预设词典。
第二方面中,本申请实施例提供一种用于提取热点话题的装置,具有实现对应于上述第一方面提供的提取热点话题的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
一种可能的设计中,所述装置包括:
处理模块,用于根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;
选择模块,用于根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
所述处理模块还用于根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。
一种可能的设计中,所述处理模块在根据文本得到多个聚类簇之后,根据聚类簇之间的相似度合并得到多个候选簇之前,还用于:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为聚类簇中文档频率大于文档频率阈值的词语;
将所述第一候选词语所属的聚类簇与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
一种可能的设计中,所述处理模块具体用于:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
一种可能的设计中,所述装置还包括获取模块,所述处理模块在得到多个候选簇之后,在所述选择模块从所述多个候选簇中选择目标簇之前,还用于:
通过所述获取模块获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。
一种可能的设计中,所述处理模块具体用于:
获取第二候选词语的热度值,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。
一种可能的设计中,所述处理模块具体用于:
根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;
其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。
一种可能的设计中,所述处理模块具体用于:
当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;
或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值。
一种可能的设计中,所述处理模块具体用于:
从所述目标簇中提取多个词语,根据所述支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;
将所述第一热点集合中的各词语进行组合,得到多个组合短语;
根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;
将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;
根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个组合短语中确定目标热点集合,所述目标热点集合包括至少一个目标组合短语;
将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;
从所述多个热点集合中确定所述热度短语。
一种可能的设计中,所述处理模块具体用于:
从所述多个热点集合中确定多个目标组合短语,所述目标组合短语不属于预设停用词,且目标组合短语相互之间不存在包含关系;
确定各目标组合短语包括的词语;
分别对各目标组合短语中包括的词语的热度值进行求和平均,得到对应目标组合短语的热度值;
将热度值高于所述热度阈值的目标组合短语作为所述热度短语。
一种可能的设计中,所述处理模块具体用于:
按照历史词语与下一个词语之间的依赖关系,从所述第一热点集合中确定词语重叠的短语;
将词语重叠的短语取并集,得到所述组合短语。
一种可能的设计中,所述多个热点集合中的各热点集合按照得到的先后顺序有序排列;所述处理模块具体用于:
按照热点集合得到的先后顺序的逆序,依次遍历各热点集合;
若当前遍历的热点集合中存在候选组合短语,则确定所述候选组合短语为目标组合短语,所述候选组合短语中的词语均为非预设停用词或者部分为所述预设停用词;
若当前遍历的热点集合中存在与通过遍历确定的目标组合短语有交集的目标组合短语,则丢弃。
本申请实施例又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中的计算机程序来执行上述第一方面所述的方法。
本申请实施例又一方面提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
相较于现有技术,本申请实施例提供的方案中,根据文本得到多个聚类簇,根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语。一方面中,由于在进行初始聚类得到多个聚类簇后,进一步对聚类簇自下而上的聚类,考虑到语义的相关性和词语之间的相关性,所以能够提高聚类效果,也无需提前确定聚类簇的个数,针对文本之间的相关性自适应的变化。另一方面中,由于热度短语是基于多种聚类后得到的簇热度提取得到的,所以该热度短语可读性和概括性较高,以及能够简洁表达出热点话题描述,且更能表达一个聚类簇中各个文本的共性信息。
附图说明
图1为本申请实施例中提取热点话题的方法的一种检测框架示意图;
图2为本申请实施例中提取热点话题的方法的一种流程示意图;
图3为本申请实施例中输出热度短语的一种界面示意图;
图4是本申请实施例中分布式系统的一种结构示意图;
图5是本申请实施例中用于提取热点话题的装置的一种结构示意图;
图6是本申请实施例中执行提取热点话题的方法的计算机设备的一种结构示意图;
图7是本申请实施例中执行评估视频情感的方法的服务器的结构示意图。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例供了一种提取热点话题的方法、装置及存储介质,可用于服务器侧,服务器侧可用于构建预设词典、检测热点话题、发现热词等操作。服务器可为搜索引擎。一些实施方式中,如图1所示的提取热点话题的一种检测框架示意图,采集大量的话题文本,例如采集用户生成内容(User Generated Content,UGC)短文本,根据整段UGC短文本中某个片段的出现频率、凝聚度和自由度,如果某个片段的出现频率、凝聚度和自由度均都大于对应的阈值,那么可以认为这个片段可以成词。然后过滤掉UGC短文本中含有中文、英文、数字以外的字符的词语,并根据停用词表,去除停用词,最后通过人工筛选,得到预设词典(也可称为领域相关词典)。由于预设词典是基于出现频率、聚合度和自由度得到,所以,后续在使用预设词典提取领域相关词语时,所提取的领域相关词语都是有意义和有代表性的。
其中,凝聚度是指两个字之间的相关性(即聚合度)。凝聚度的计算方法如下:p(x),p(y)表示x,y这两个字分别出现的概率,p(x,y)表示这两个字组成的词出现的概率,假如两个字是相互独立的,那么p(x,y)=p(x)·p(y),如果这两个字的相关性越大,那么p(x,y)与p(x)·p(y)的比值就越大,代表着这两个字的相关性越大,那么成词的可能性就越大。例如,"蜘蛛"这个词,正常情况下,"蜘"字出现,"蛛"字大概率就会出现,所以"蜘"和"蛛"的凝聚度就很高,成词的可能性就越大。“方天”出现时,“画戟”大概率会出现,在一起时,则表示“方天”和“画戟”的聚合度较高,能够成词,
其中,自由度是指一个词语的信息熵(包括左信息熵或右信息熵)。例如,一个字出现在文本的多个句子中,若该字在每个句子中都有与该字左侧相邻的字(即左邻字),那么,这个字的左邻字的种类及左邻字的数量就可以代表该字的自由度。
一些实施方式中,自由度的计算方法如下:统计一个字的左邻字的种类及其数量,然后根据公式
假设一个词语一共出现了N次,其左边共出现过n个汉字,每个汉字依次出现N1,N2,……,Nn次,则满足N=N1+N2+……+Nn,因此可以计算该词语左边各个汉字出现的概率,并根据熵公式计算左信息熵。左信息熵越小则自由度越低,例如“天大圣”的左信息熵接近于0,因为“齐”字的概率几乎为1;左信息熵越大则自由度越高,表示用词搭配越混乱、越自由、越多样。因为“天大圣”的左邻熵很小,而右邻熵则相对较大,因此将一个词语左邻熵和右邻熵中较小者作为最终的自由度。又例如“求凰”这个片段,在正常情况下它左半边只能是“凤”,自由度很低,所以它不是一个很好的词语,而对于一个正常的词,例如“凤求凰”,在其左半边添加一个字,可以是“看凤求凰”、“买凤求凰”、“用凤求凰”等等,可见,一个正常的词的自由度是很高的。
右信息熵的计算方式同理,一个词语的左信息熵越高,那么它成词的可能性也就越大。
其中,停用词是指在信息检索中,对于一个给定的目的,任何一类的词语都可以被选作停用词。为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。在本申请实施例中,考虑到搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围同时还会降低搜索的效率,所以通常会把这些停用词从文本中移去,以提高搜索文本的效率和效果,进而提高提取热点话题的效率和搜索引擎的性能。
现有机制中发现热点话题的过程中,主要存在以下技术问题:
问题1:聚类方法需要提前确定聚簇个数,但是与每天变化的数据难以匹配;
问题2:UGC短文本内容杂乱,聚类效果一般;
问题3:根据从文章中抽取的关键词难以得到合适的热点话题描述;
问题4:难以提取持续很热的词语。
为解决上述技术问题,本申请实施例主要提供以下技术方案:
针对问题1、2、3:
如图1所示,将聚类分为两个阶段,第一次聚类基于句向量,不需要预先确定簇的个数,所以能够适应变化的数据。且第一次聚类使用余弦相似度衡量文本之间的相似度,其考虑了文本之间的语义信息,第二次聚类基于频繁词和领域相关词,使用Jaccard相似系数衡量簇之间的相似度,其考虑了关键词语的相似度信息,并且会对后续的频繁短语挖掘产生帮助两次聚类,因此,通过两个阶段的聚类能够提高聚类效果,也便于后期挖掘频繁短语。由于频繁短语能够更好的表达聚类簇中的各个文本的共性信息,所以能够得到更合适的热点话题描述。其中,Jaccard相似系数是指两个集合交集的大小与这两个集合并集的大小的比值,Jaccard相似系数用于比较集合之间的相似性与差异性。
针对问题4:在发现热词阶段,计算词语的热度值时,考虑某个词语在一个小时段的词频占整个时间段的比重,以及某个词语在一个小时段的词频占整个时间段和未来时段的比重,通过调节这两个比重之间的大小,能够发现热度剧增的词语和持续很热的词语,提高发现持续很热的词语的概率。
参照图2,以下介绍本申请实施例所提供的一种提取热点话题的方法,该方法可由服务器执行,也可由安装了用于提取热点话题的应用的服务器执行,本申请实施例不对此作限定。本申请实施例包括:
201、根据文本得到多个聚类簇。
其中,文本是指从多个渠道获取的文本,文本个数为多个。文本可以是历史时段内的文本。例如通过爬虫方式访问链接地址,在链接地址对应的网页中获取2天内的新闻、帖子或文章等文本信息。本申请实施例不对历史时段、获取文本的方式、对文本的预处理方式、以及获取的渠道作限定。
聚类簇是指属于同一类的词语的集合,所述聚类簇包括多个词语。一些实施方式中,根据文本得到多个聚类簇,包括:
(a)根据停用词表去除各文本中的停用词,依次读取每个去除停用词后的文本;其中,停用词是指在处理文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。在本申请实施例中,考虑到搜索无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围同时还会降低搜索的效率,所以通常会把这些停用词从文本中移去,从而提高搜索性能。
(b)将第一个文本作为第一个聚类簇,将文本进行向量化处理,得到文本向量;一些实施方式中,文本向量可以采用word2vector训练出来的词向量的求和平均值。具体来说,对聚类簇中的文本进行分词处理,然后得到多个词语,将这些词语转换成向量的形式(即词向量),再将这些词向量拼接得到词向量矩阵,然后将词向量矩阵输入语言模型进行训练,以优化词向量矩阵。
(c)当存在未遍历的文本且存在未遍历的聚类簇时,计算该文本的文本向量与聚类簇中的文本向量平均值的相似度;
可使用下述所示的余弦相似度计算公式计算文本向量与聚类簇中的文本向量平均值的相似度:
其中,cos(θ)表示文本向量与聚类簇中的文本向量平均值的相似度,A表示文本向量,B表示聚类簇中的文本向量平均值。一些实施方式中,也可以采用计算文本向量与聚类簇中的文本向量平均值的欧氏距离来计算相似度的方式,本申请实施例不对相似度的计算方式作限定。
(d)记录该文本与各个聚类簇的最大相似度,以及该最大相似度对应的聚类簇;
(e)若最大相似度大于相似度阈值,则将该文本加入所述最大相似度对应的聚类簇;若最大相似度小于或等于相似度阈值,则将该文本单独分为一个聚类簇。
可选的,可采用Single-Pass聚类方式(即基于句向量聚类得到上述多个聚类簇)进行聚类,能够提高第一次聚类的聚类效果。本申请实施例不对文本的聚类方式作限定。
一些实施方式中,为了进一步提高聚类效果,可以提取频繁词语和领域相关词语,并基于频繁词语和领域相关词语进行聚类,频繁词语和领域相关词语综合考虑语义的相关性和关键词语的相关性。具体来说,得到多个聚类簇之后,本申请实施例还包括:
(a)从所述多个聚类簇中确定第一候选词语,所述第一候选词语为文档频率大于文档频率阈值的词语;
其中,文档频率是指词语所占文本数与词语所属聚类簇中的总文本数之比。一些实施方式中,文档频率也可替换为文本支持度,本申请实施例不对此作限定,只要能够作为频繁词语的依据即可。
例如,统计聚类簇中各个词语所占的文本数,根据词语所占的文本数与聚类簇中的总文本数之比得到各词语的文档频率,将文档频率大于文档频率阈值的词语作为第一候选词语(即频繁词语)。
(b)将所述聚类簇与预设词典进行匹配,得到目标词语。
其中,所述目标词语具有话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域。
具体地,将预设词典分别与各聚类簇进行匹配,即可得到目标词语(即领域相关词语)。例如,聚类簇中各文本都描述的是与游戏相关的,那么得到的目标词语就是游戏领域相关的词语,例如,最终得到的目标词语可以为游戏相关的英雄名、技能名、虚拟物品等词语。
一些实施方式中,可采用新词发现算法将预设词典与各聚类簇进行匹配得到目标词语,同时,也可以对得到的目标词语进行人工筛选,再与第一候选词语取并集。
(c)将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
可见,本申请实施例中,将第一候选词语和目标词语(即领域相关词语与频繁词语)合并在一起,并用于后续对聚类簇进行聚类(即第二次聚类),有助于后续挖掘热度短语(即频繁短语)。
202、根据聚类簇之间的相似度合并得到多个候选簇。
一些实施方式中,考虑到单次聚类(例如基于句向量聚类得到上述多个聚类簇)的技术效果可能没那么好,本申请实施例为进一步提高聚类效果,还可以对聚类簇进行聚类。可采用循环合并的方式(也可称为自下向上的层次聚类方式)得到所述多个候选簇。具体来说,将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇后,可采用下述步骤对聚类簇进行聚类:
(1)根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
一些实施方式中,可使用第一候选词语与所述目标词语计算两个聚类簇之间的相似度来计算聚类簇之间的簇相似度。由于所述第一候选词语与所述目标词语个数均较多,且目标词语可能属于多个不同的话题领域。故为便于表述,将属于同一个并集的第一候选词语与目标词语设为一个词语集合。假设通过合并聚类簇得到了词语集合A和词语集合B,词语集合A属于聚类簇A,词语集合B属于聚类簇B。然后,计算词语集合A和词语集合B的相似度系数,词语集合A和词语集合B的相似度系数即可表示聚类簇A和聚类簇B之间的簇相似度。
具体来说,先计算词语集合A和词语集合B的交集1,然后计算词语集合A和词语集合B的并集2。再根据交集1中词语的总数除以并集2中的词语的总数计算词语集合A和词语集合B的相似度系数。
一些实施方式中,可计算词语集合A和词语集合B的Jaccard相似系数。Jaccard相似系数的一种表示方式为:
其中,J(A,B)表示词语集合A和词语集合B的Jaccard相似系数,A表示语言集合A中词语的总数,B表示语言集合B中词语的总数。
使用Jaccard相似系数衡量簇之间的相似度考虑了关键词语的相似度信息,会对后续的频繁短语挖掘产生帮助。
(2)以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
(3)根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
(4)将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
(5)计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
(6)将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
(7)将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
可选的,将所述待合并簇中簇相似度最高的至少两个聚类簇合并之前,还可以判断相似度矩阵中的最大簇相似度是否高于预设相似度阈值,若高于,则合并,得到合并簇。
可见,本实施方式中,在对文本进行第二次聚类时,是基于第一候选词语(即频繁词语)和目标词语(即领域相关词),采用循环合并的方式,每次循环时合并一组聚类簇,然后更新相似度矩阵,再基于更新的相似度矩阵继续下一轮的合并聚类簇的操作,最终得到多个候选簇。一方面,使用Jaccard相似系数衡量簇之间的相似度则考虑了关键词语的相似度信息,并且会对后续的频繁短语挖掘产生帮助。另一方面,由于参与循环合并的聚类簇是包括第一候选词语(即频繁词语)和目标词语(即领域相关词),所以本申请实施例在第二次聚类时,可以提高循环合并聚类簇的合理性,以及合并更多的聚类簇,进而进一步提高聚类效果。
203、根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇。
其中,所述目标簇为簇热度高于热度阈值的候选簇。簇热度是指一个聚类簇中各文本的文本热度之和,即该聚类簇呈现出来的综合热度。
一些实施方式中,所述得到多个候选簇之后,所述从所述多个候选簇中选择目标簇之前,所述方法还包括:
获取各候选簇中每个文本的热度数据,该热度数据可包括候选簇中每个文本的点击量、点赞数、评论数和转发数。
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度。例如,对候选簇中每个文本的点击量、点赞数、评论数和转发数进行加权求和,即可得到该文本的文本热度。
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。例如,对同一个候选簇中各文本的文本热度相加,得到该候选簇的簇热度。
假设一个聚类簇中有三篇文章,如下:
文章一:王者荣耀周年庆庆典今日正式开启,多重福利已准备就绪……
文章二:今天是王者荣耀周年庆庆典,让我们一起祝王者荣耀生日快乐吧……
文章三:今天周年庆现场真是太有意思啦,迫不及待要和大家分享……
根据点赞、评论、转发数加权求和,假设得到文章一的文本热度为1314,文章二的文本热度为1024,文章三的文本热度为520,那么这个聚类簇的热度就是1314+1024+520=2858。
获得的L1频繁短语有:“王者荣耀”、“周年庆”、“庆典”、“今天”;L2频繁短语有:“王者荣耀周年庆”、“周年庆庆典”;L3频繁短语有:“王者荣耀周年庆庆典”。由于L1中的“王者荣耀”、“周年庆”、“庆典”和L2中的“王者荣耀周年庆”、“周年庆庆典”,已经被包含在L3中的“王者荣耀周年庆庆典”中,所以最后得到的频繁短语有“今天”、“王者荣耀周年庆庆典”,而“今天”作为停用词被去掉,只剩下“王者荣耀周年庆庆典”这个短语作为热度短语。
可见,基于文本的点击量、点赞数、评论数和转发数计算簇热度,能够从多维度综合评估簇热度,因此,能够提高簇热度的准确性,也更能够反映该候选簇的真实热度,为后续提取热度短语提供更准确的依据。
204、根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出。
所述热度短语用于描述热点话题,所述热度短语包括多个用于描述热点话题的关键词语。例如,热度短语为“王者荣耀周年庆”,热度短语为“王者荣耀生日快乐”,热度短语为“王者荣耀返场皮肤”。在获得步骤203中的L1频繁短语、L2频繁短语和L3频繁短语后,由于L1中的“王者荣耀”、“周年庆”、“庆典”和L2中的“王者荣耀周年庆”、“周年庆庆典”,已经被包含在L3中的“王者荣耀周年庆庆典”中,所以最后得到的频繁短语有“今天”、“王者荣耀周年庆庆典”,而“今天”作为停用词被去掉,只剩下“王者荣耀周年庆庆典”这个短语作为热度短语。
其中,词热度可由点击量、点赞数、评论数、评分或转发数中的至少一项加权求和得到。
可选的,在本申请的一些实施例中,所述根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语,包括:
(1)、获取第二候选词语的热度值。
其中,所述第二候选词语为所述目标簇中的任一词语。
一些实施方式中,为了提高发现热度剧增的词语,以及同时发现持续很热的词语的概率,可通过均衡热度剧增或者热度持续的词的实际热度,以便提高检测热度词的概率,从而使得检测出来的热词更准确,得到的热度值更准确。为了使得将目标簇中所有文本都进行分词后得到的词语列表Wi中各短语的排列顺序更合理,可采用下述方式获取第二候选词语的热度值:
例如,可根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值。其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。本实施方式中,词频是指某一个给定的词语在聚类簇中出现的次数,用于评估一个词语对于一个聚类簇的重要程度。
一些实施方式中,第二候选词语的热度值的计算公式为:
其中,S(wi)是wi的热度值,wi为目标簇中第i个计算热度值的第二候选词语。j为时段个数,T1为第1个时段,Tj为当前的第j个时段。F(wi,Tj)为wi在时段Tj内的词频,F(wi,Tj)考虑文本的转发数。min(F(wi,T1),F(wi,T2),...F(wi,T2j))为wi在时段Tj的词频占时段(T1,T2,…,T2j)的最小词频。a是一个可调节的比重参数,0≤a≤1。
可见,通过上述的S(wi)的计算公式,能够准确的计算出各第二候选词语的热度值,进而从目标簇中发现更多且更合理的可用作热度短语的热词。
一些实施方式中,计算第二候选词语的热度值时,当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;
或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值。
可见,本申请实施例中,通过调整第一比重参数的大小,能够提高发现热度剧增的词语和持续很热的词语的概率。
为了能够更好地发现热度剧增或者热度持续这两种类别的热词,本申请实施例在S(wi)的计算公式中,式子考虑了Wi在时段Tj的词频占(T1,T2,...Tj)整个时段的比重,式子/>考虑了Wi在时段Tj的词频占(T1,T2,...T2j)这个更长的时段的最小值的比重,a是一个可调节的比重参数,0≤a≤1。
当时段Tj取较短时,容易检测出一个词语的词频持续很高的情况,也就是持续很热的词语,通过很难检测出持续很热的词语,那最终热词的检测结果就不是很准确或不全面,这时权重应该偏向于/>即减小a值。当一个时段Tj取很长时,容易漏检热度剧增的词语,如果适当加大a的值,这样就可以同时发现热度剧增的词语。
可见,本申请实施例采用上述S(wi)的计算公式后,由于S(wi)可通过比重参数a调节,所以能够更好地发现热度剧增的词语,还可以同时发现热度持续的词语,同时,检测出来的热词更准确,得到的热度值更准确。
(2)、根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值。
由于词语的热度会跟随时间发生变化,所以为提高第二候选词语的热度值的准确率,本申请实施例对第二候选词语的热度值进行修正,修正热度值能够反映第二候选词语在目标时间内的真实热度。一些实施方式中,可使用贝叶斯平均变换公式对第二候选词语的热度值进行修正:
其中,S′(wi)为对词语wi的热度值S(wi)修正后的修正热度值,S(wi)是Wi的热度值,Wi为目标簇中第i个计算热度值的第二候选词语。j为时段个数,T1为第1个时段,Tj为当前的第j个时段。F(wi,Tj)为wi在时段Tj内的词频,F(wi,Tj)考虑文本的转发数,如果Wi在一个文本中出现了k次,而该文本的转发数为n,那么可以认为这个词语Wi在该文本中共出现了k*n次。Faverage为所有词语在时段Tj内的平均词频。Saverage为所有词语在时段Tj内的平均热度。
一些实施方式中,考虑到计算词语的热度值时,词语的热度值可能会因为选择的时段变化引起词语在该时段的热度值很高或者很低,所以用该时段的热度值取表征一个词语的真实热度时是存在一些偏差的。在针对多个时段的热度值计算后,容易漏掉热度剧增的词语或者持续很热的词语。为提高发现热度剧增的词语的概率,以及持续热度较高的词语的概率,本申请实施例还对用于修正词语的热度的贝叶斯平均变换公式进行一些调整,例如通过采用步骤(1)中的S(wi)的计算公式来调整S′(wi)的计算结果。
由于S(wi)中式子考虑了Wi在时段Tj的词频占(T1,T2,...Tj)整个时段的比重,式子/>考虑了Wi在时段Tj的词频占(T1,T2,...T2j)这个更长的时段的最小值的比重,所以,为了能够更好地发现热度剧增或者热度持续这两种类别的热词,当时段Tj取较短时,通过减小a值,以将热度值的比重偏向于当一个时段Tj取很长时,容易漏检热度剧增的词语,通过加大a值,以将热度值的比重偏向于/>这样就可以有效避免漏检热度剧增的词语以及发现更多热度剧增的词语。
可见,本申请实施例采用上述基于S(wi)改进的S′(wi)的计算公式后,由于S(wi)可通过比重参数a动态调节,所以,S′(wi)也是可动态调节的,这样就反向更合理的修正第二候选词语的实际热度值,从而使得检测出来的热词更准确,得到的热度值更准确和更合理,进而能够更好地发现热度剧增的词语,还可以同时发现热度持续的词语。
(3)根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。
当所述修正热度值高于热度阈值,则可以提取所述第二候选词语为所述热度短语。
可选的,在本申请实施例的一些实施例中,当所述目标簇仅包括一个文本时,所述根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语,包括:
以标点符号对所述目标簇进行分句;
若分句得到1个句子,则从修正热度值高于支持度阈值的短语中,选择修正热度值最高的p个短语作为热度短语。例如,提取top5的目标词语(例如领域相关词语)作为该领域相关词语所属的目标簇的热点描述。
另一些实施方式中,当所述目标簇包括至少两个文本时,或者当所述目标簇为一个句子组成的文本时,所述根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语,包括下述a-e操作:
a、从所述目标簇中提取多个词语,根据所述支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合。
其中,各词语的文本比重是指某个词语所占的文本数与总文本数N之比。总文本数为所述多个词语所占文本数。
举例来说,将目标簇中所有文本都进行分词,一个文本对应一个有序的词语列表Wi(其中i=1,2,…,N,N为文本总数),然后将这些词语构成候选词语列表C1,分别统计C1中每个词语的所占文本数D1j(其中1代表是1项集,j=1,2,…,C1中词语总数),然后计算得到包含该词的文本比重R1j,如果R1j大于支持度阈值F,则认为该词语是频繁的,并将F大于R1j的词语加入到第一热点集合L1中。
b、将所述第一热点集合中的各词语进行组合,得到多个组合短语;根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合。
其中,所述第二热点集合包括至少一个组合短语。组合短语的文本比重是指组合词语所占文本数与总文本数N之比。
一些实施方式中,所述将所述第一热点集合中的各词语进行组合,得到多个组合短语,包括:
按照历史词语与下一个词语之间的依赖关系,从所述第一热点集合中确定词语重叠的短语;所述历史词语是指所述第一热点集合中用于查找下一词语的词语;
将词语重叠的短语取并集,得到所述组合短语。
例如,可采用n元组(n-gram)语言模型从所述第一热点集合中得到多个组合短语。n-gram语言模型用于做句子相似度比较,模糊查询,以及句子合理性。以第一热点集合Ln为预料库,假设Ln中包括多个n-gram短语。那么,可根据n-gram短语来组合成(n+1)-gram候选短语,然后把找到的(n+1)-gram短语添加到候选集Cn+1中,查找的范围就是热点集合Ln中的所有n-gram短语,两两进行匹配,查看是否满足左边说的重叠条件。以对于上述在热点集合Li中找重叠词语的操作为例,如果是依据tri-gram找4-gram短语(即tri-gram短语与下一个词语之间存在依赖关系,下一个词语由作为历史词语的tri-gram短语预测得到),则查找存在有两个词语重叠的两个tri-gram短语,如(w1,w2,w3)和(w2,w3,w4)两个短语的为w2,w3重叠,则将它们组合成4-gram短语(w1,w2,w3,w4);如果是依据4-gram找5-gram短语,则查找是否存在三个词语重叠的两个4-gram短语,依此类推。
以从L1中得到bi-gram短语为例。在得到上述L1后,将L1中的各个词语进行组合得到bi-gram短语,将该bi-gram短语添加到候选集C2中,再根据W统计C2中每个bi-gram短语所占文本数D2j(其中2代表第二热点集合L2,j=1,2,…,C2中短语总数),然后计算得到包含该词的文本比重R2j,如果R2j大于F,则认为该bi-gram短语是频繁的,并将F大于R2j的词语加入到第二热点集合L2中。
c、将所述第二热点集合中存在重叠的组合短语进行组合,得到多个目标组合短语;根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个组合短语中确定目标热点集合。
其中,所述目标热点集合包括至少一个目标组合短语。目标组合短语的文本比重是指目标组合短语所占的文本数与总文本数N之比。
得到上述L2后,扫描L2中是否存在有一个词语重叠的两个bi-gram短语,如(w1,w2)和(w2,w3)这两个bi-gram短语的w2重叠,那么就将它们组合成tri-gram短语(w1,w2,w3),并添加到候选集C3中,然后再根据W统计C3中每个tri-gram短语所占文本数D3j(其中3代表3项集,j=1,2,…,C3中短语总数),然后计算得到包含该词的文本比重R3j,如果R3j大于F,则认为该tri-gr am短语是频繁的,并加入到目标热点集合L3中。
d、从将所述目标热点集合中存在重叠词语的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合。
接着重复c和d中的步骤,直到找不到更长的频繁短语为止,最终可得到m个热点集合L,即L1、L2、L3…Lm
e、从所述多个热点集合中确定所述热度短语。
一些实施方式中,可通过以下步骤确定所述热度短语:
(1)从所述多个热点集合中确定多个目标组合短语。
其中,所述目标组合短语不属于预设停用词,且目标组合短语相互之间不存在包含关系。该包含关系是指目标组合短语相互之间互相不为对方的子集。
一些实施方式中,所述多个热点集合中的各热点集合按照得到的先后顺序有序排列;所述从所述多个热点集合中确定多个目标组合短语,包括:
按照热点集合得到的先后顺序的逆序,依次遍历各热点集合;
若当前遍历的热点集合中存在候选组合短语,则确定所述候选组合短语为目标组合短语;可选的,所述候选组合短语中的词语均为非预设停用词或者部分为所述预设停用词;如果当前遍历的热点集合中有的短语中的词语全部为预设停用词,则过滤掉全部为预设停用词的短语;
若当前遍历的热点集合中存在与通过遍历确定的目标组合短语有交集的目标组合短语,则丢弃。
一些实施方式中,所述候选组合短语不被包含于通过遍历确定的目标组合短语,所述候选组合短语与通过遍历确定的目标组合短语有交集也可以,只要不是包含关系即可。
一般来说,期望取较长的短语作为最后的热点描述,因为对于有重叠关系的两个短语,长的短语就已经能表达短的短语的意思。而由于确定多个热点集合时,后确定的热点集合是基于在先确定的热点集合的,所以后确定的热点集合中的短语所包含的词语个数一定大于在先确定的热点集合,那么,在先确定的热点集合要么是后确定的热点集合的子集,要么与后确定的热点集合之间存在交集,或者没有交集。故,为了提高遍历效率和减少操作,本申请实施例中,可以采用逆序遍历方式,例如从Lm开始遍历,而不是从L1开始。如果从L1开始依次遍历多个热点集合,当遍历到的目标组合短语a是数组Lall中某个目标组合短语b的子集时,可以直接将数组Lall中的目标组合短语b替换为目标组合短语a。
以逆序遍历为例,在得到m个热点集合L后,可创建空数组Lall,假设下标i最大为m,依次遍历Lm,Lm-1,Lm-2,…L2,L1,如果m个L中的目标组合短语没有被包含在Lall中的各个目标组合短语中,并且该目标组合短语不在停用词列表中,则将该目标组合短语添加到数组Lall中,从而得到包含所有目标组合短语(即频繁短语)的数组Lall。例如Lall中已经有目标组合短语(w1,w2,w3),那么(w1,w2)或者(w1,w3)或者(w2,w3)这个目标组合短语就不会被加入到Lall里面,因为(w1,w2)已经被包含在(w1,w2,w3)中。
可见,通过这种方式,能够查看目标组合短语之间是否有重叠关系,进一步提高得到更长的短语作为热点描述的概率。
(2)确定各目标组合短语包括的词语,分别对各目标组合短语中包括的词语的热度值进行求和平均,得到对应目标组合短语的热度值。
(3)将热度值高于所述热度阈值的目标组合短语作为所述热度短语。
根据第二候选词语的修正热度值,对数组Lall中的所有短语的热词值进行求和平均,得到各目标组合短语的热度值。可选择热度top3的目标组合短语作为该目标组合短语所属的目标簇的热点描述信息。
本申请实施例中,上述热度短语可保存在区块链中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营检测等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营检测模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、检测网络情况、检测节点设备健康状态等。
本申请实施例中执行评估视频情感的方法的用于提取热点话题的装置(也可称作服务器)可以是区块链系统中的节点。本申请实施例中的用于提取热点话题的装置可以是如图4所示的一种区块链系统中的节点200。
图1至图3中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图5至图7所对应的实施例,后续类似之处不再赘述。
在输出热度短语时,还可以同时标注热度短语的热度数据,例如点击量、点赞数、评论数、评分或转发数等;也可以显示热度短语对应的内容缩影,便于用户点击阅读全部内容。例如图3所示的输出热度短语的一种界面示意图,图3中,热度短语为“王者荣耀四周年限定皮肤”、“游戏社区排位赛”、“2019KPL秋季赛”,这三个热度短语的热度值分别为:56732、43320、33925。
与现有机制相比,本申请实施例中,根据文本得到多个聚类簇,根据聚类簇之间的相似度合并得到多个候选簇;根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语。一方面中,在进行初始聚类得到多个聚类簇后,考虑到语义的相关性和词语之间的相关性,进一步对聚类簇自下而上的聚类,所以能够提高聚类效果,也无需提前确定聚类簇的个数,针对文本之间的相关性自适应的变化。另一方面中,由于热度短语是基于多种聚类后得到的簇热度提取得到的,所以该热度短语可读性和概括性较高,以及能够简洁表达出热点话题描述,且更能表达一个聚类簇中各个文本的共性信息。
以上对本申请实施例中一种提取热点话题的方法进行说明,以下对执行上述提取热点话题的方法的装置、计算机设备及服务器进行介绍。
上面对本申请实施例中的一种提取热点话题的方法进行了描述,下面对本申请实施例中的装置50进行描述。
参阅图5,如图5所示的一种用于提取热点话题的装置的结构示意图,其可应用于构建预设词典、检测热点话题、发现热词等操作。本申请实施例中的装置50能够实现对应于上述图1-图3所对应的实施例中所执行的提取热点话题的方法的步骤。装置50实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述装置40可包括处理模块501、选择模块502和获取模块(图5中未标识出),所述处理模块501、所述选择模块502和所述获取模块的功能实现可参考图1-图3所对应的实施例中所执行的操作,此处不作赘述。例如,所述处理模块501可用于控制所述获取模块503的获取操作,以及控制所述选择模块502的选择目标簇的操作。
一些实施方式中,所述处理模块501可用于根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;
所述选择模块502可用于根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中选择目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
所述处理模块501还用于根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并输出,所述热度短语用于描述热点话题。
本申请实施例中,所述处理模块501根据文本得到多个聚类簇,根据聚类簇之间的相似度合并得到多个候选簇;由所述选择模块502根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语。一方面中,由于在进行初始聚类得到多个聚类簇后,进一步对聚类簇自下而上的聚类,考虑到语义的相关性和词语之间的相关性,所以能够提高聚类效果,也无需提前确定聚类簇的个数,针对文本之间的相关性自适应的变化。另一方面中,由于热度短语是基于多种聚类后得到的簇热度提取得到的,所以该热度短语可读性和概括性较高,以及能够简洁表达出热点话题描述,且更能表达一个聚类簇中各个文本的共性信息。
一些实施方式中,所述处理模块501在根据文本得到多个聚类簇之后,根据聚类簇之间的相似度合并得到多个候选簇之前,还用于:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为聚类簇中文档频率大于文档频率阈值的词语;
将所述第一候选词语所属的聚类簇与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
一些实施方式中,所述处理模块501具体用于:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
一些实施方式中,所述处理模块501在得到多个候选簇之后,在所述选择模块502从所述多个候选簇中选择目标簇之前,还用于:
通过所述获取模块503获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。
一些实施方式中,所述处理模块501具体用于:
获取第二候选词语的热度值,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
根据支持度阈值和所述目标簇中各第二候选词语的修正热度值,从所述目标簇中提取所述热度短语。
一些实施方式中,所述处理模块501具体用于:
根据所述目标词频、第一比重参数、所述目标词频占所述历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;
其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1。
一些实施方式中,所述处理模块具体用于:
当所述目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;
或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值。
一些实施方式中,所述处理模块501具体用于:
从所述目标簇中提取多个词语,根据所述支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;
将所述第一热点集合中的各词语进行组合,得到多个组合短语;
根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;
将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;
根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个目标组合短语中确定目标热点集合,所述目标热点集合包括至少一个目标组合短语;
将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;
从所述多个热点集合中确定所述热度短语。
一些实施方式中,所述处理模块501具体用于:
从所述多个热点集合中确定多个目标组合短语,所述目标组合短语不属于预设停用词,且目标组合短语相互之间不存在包含关系;
确定各目标组合短语包括的词语;
分别对各目标组合短语中包括的词语的热度值进行求和平均,得到对应目标组合短语的热度值;
将热度值高于所述热度阈值的目标组合短语作为所述热度短语。
一些实施方式中,所述处理模块501具体用于:
按照历史词语与下一个词语之间的依赖关系,从所述第一热点集合中确定词语重叠的短语;
将词语重叠的短语取并集,得到所述组合短语。
一些实施方式中,所述多个热点集合中的各热点集合按照得到的先后顺序有序排列;所述处理模块501具体用于:
按照热点集合得到的先后顺序的逆序,依次遍历各热点集合;
若当前遍历的热点集合中存在候选组合短语,则确定所述候选组合短语为目标组合短语,所述候选组合短语中的词语均为非预设停用词或者部分为所述预设停用词;
若当前遍历的热点集合中存在与通过遍历确定的目标组合短语有交集的目标组合短语,则丢弃。
上面从模块化功能实体的角度对本申请实施例中的网络认证服务器和终端设备进行了描述,下面从硬件处理的角度分别对本申请实施例中的网络认证服务器和终端设备进行描述。需要说明的是,在本申请实施例图5所示的实施例中的收发模块对应的实体设备可以为输入/输出单元,处理模块对应的实体设备可以为处理器,显示模块所对应的实体设备可以是显示屏等显示单元。图5所示的装置50可以具有如图6所示的结构,当图5所示的装置50具有如图6所示的结构时,图6中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块和收发模块相同或相似的功能,图6中的中央存储器存储处理器执行上述提取热点话题的方法时需要调用的计算机程序。
图7是本申请实施例提供的一种服务器结构示意图,该服务器720可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessing units,英文简称:CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器720上执行存储介质730中的一系列指令操作。
服务器720还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口757,和/或,一个或一个以上操作系统741,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器720的结构。例如,例如上述实施例中由图5所示的装置50所执行的步骤可以基于该图7所示的服务器结构。例如,所述处理器722通过调用存储器732中的指令,执行以下操作:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据所述目标簇中各词语的词热度从所述目标簇中提取热度短语并通过上述输入输出接口757输出,所述热度短语用于描述热点话题。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。

Claims (11)

1.一种提取热点话题的方法,其特征在于,所述方法包括:
根据文本得到多个聚类簇,所述聚类簇包括多个词语;
根据聚类簇之间的相似度合并得到多个候选簇;
根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
根据目标词频、第一比重参数、所述目标词频占历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;其中,当目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值;其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1,所述第二候选词语为所述目标簇中的任一词语;
根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;
从所述目标簇中提取多个词语,根据支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;
将所述第一热点集合中的各词语进行组合,得到多个组合短语;
根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;
将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;
根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个目标组合短语中确定目标热点集合,所述目标热点集合包括至少一个目标组合短语;
将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;
从所述多个热点集合中确定热度短语并输出,所述热度短语用于描述热点话题。
2.根据权利要求1所述的方法,其特征在于,所述根据文本得到多个聚类簇之后,所述根据聚类簇之间的相似度合并得到多个候选簇之前,所述方法还包括:
从所述多个聚类簇中确定第一候选词语,所述第一候选词语为聚类簇中文档频率大于文档频率阈值的词语;
将所述第一候选词语所属的聚类簇与预设词典进行匹配,得到目标词语,所述目标词语为话题领域的话题属性和话题特征,所述目标词语与所述第一候选词语属于相同或相似的话题领域;
将所述第一候选词语与所述目标词语取并集,并更新到对应的聚类簇。
3.根据权利要求2所述的方法,其特征在于,所述根据聚类簇之间的相似度合并得到多个候选簇,包括:
根据更新的聚类簇中的第一候选词语和目标词语,计算聚类簇间的簇相似度;
以每两个聚类簇间的簇相似度为一个元素,构建相似度矩阵;
根据所述相似度矩阵确定待合并簇,所述待合并簇是指簇相似度最高的至少两个聚类簇;
将所述待合并簇中簇相似度最高的至少两个聚类簇合并,得到合并簇;
计算所述合并簇与待选簇的相似度,所述待选为所述多个聚类簇中除已参与合并的聚类簇之外的聚类簇;
将所述相似度矩阵中本次参与合并的聚类簇间的簇相似度替换为所述合并簇与所述待选簇的相似度,以更新所述相似度矩阵;
将更新的所述相似度矩阵中簇相似度最高的至少两个聚类簇作为所述待合并簇,最终得到多个合并簇,将所述多个合并簇作为所述候选簇。
4.根据权利要求3所述的方法,其特征在于,所述得到多个候选簇之后,所述从所述多个候选簇中获得目标簇之前,所述方法还包括:
获取各候选簇中每个文本的热度数据;
根据候选簇中每个文本的热度数据,计算对应候选簇中各文本的文本热度;
根据候选簇中各文本的文本热度计算所属的候选簇的簇热度。
5.根据权利要求1所述的方法,其特征在于,所述从所述多个热点集合中确定热度短语,包括:
从所述多个热点集合中确定多个目标组合短语,所述目标组合短语不属于预设停用词,且目标组合短语相互之间不存在包含关系;
确定各目标组合短语包括的词语;
分别对各目标组合短语中包括的词语的热度值进行求和平均,得到对应目标组合短语的热度值;
将热度值高于所述热度阈值的目标组合短语作为所述热度短语。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一热点集合中的各词语进行组合,得到多个组合短语,包括:
按照历史词语与下一个词语之间的依赖关系,从所述第一热点集合中确定词语重叠的短语;
将词语重叠的短语取并集,得到所述组合短语。
7.根据权利要求5所述的方法,其特征在于,所述多个热点集合中的各热点集合按照得到的先后顺序有序排列;所述从所述多个热点集合中确定多个目标组合短语,包括:
按照热点集合得到的先后顺序的逆序,依次遍历各热点集合;
若当前遍历的热点集合中存在候选组合短语,则确定所述候选组合短语为目标组合短语,所述候选组合短语中的词语均为非预设停用词或者部分为所述预设停用词;
若当前遍历的热点集合中存在与通过遍历确定的目标组合短语有交集的目标组合短语,则丢弃。
8.根据权利要求1所述的方法,其特征在于,所述热度短语保存在区块链节点上。
9.一种用于提取热点话题的装置,其特征在于,所述装置包括:
处理模块,用于根据文本得到多个聚类簇,所述聚类簇包括多个词语;根据聚类簇之间的相似度合并得到多个候选簇;
选择模块,用于根据所述多个候选簇中各候选簇的簇热度,从所述多个候选簇中获得目标簇,所述目标簇为簇热度高于热度阈值的候选簇;
所述处理模块还用于根据目标词频、第一比重参数、所述目标词频占历史时段的比重、第二比重参数、以及所述目标词频占目标时段的比重,计算第二候选词语的热度值;其中,当目标时段的时长小于第一预设时长,且所述第二候选词语的热度值大于热度上限值时,则减小所述第一比重参数的取值;或者,当所述目标时段的时长高于第二预设时长,且所述第二候选词语的热度值小于热度下限值时,则增大所述第一比重参数的取值;其中,所述目标时段的结束时刻滞后于所述历史时段的结束时刻,所述第一比重参数与所述第二比重参数之和为1,所述第二候选词语为所述目标簇中的任一词语;根据所述第二候选词语的热度值、所述目标簇中所有词语在目标时段内的平均热度、所述目标簇中所有词语在所述目标时段内的平均词频、以及所述第二候选词语在所述目标时段内的目标词频,得到所述第二候选词语的修正热度值;从所述目标簇中提取多个词语,根据支持度阈值和所述多个词语中各词语的文本比重,从所述多个词语中确定第一热点集合;将所述第一热点集合中的各词语进行组合,得到多个组合短语;根据所述支持度阈值和每个组合短语的文本比重,从所述多个组合短语中确定第二热点集合,所述第二热点集合包括至少一个组合短语;将所述第二热点集合中存在重叠词语的组合短语进行组合,得到多个目标组合短语;根据所述支持度阈值和每个目标组合短语的文本比重,从所述多个目标组合短语中确定目标热点集合,所述目标热点集合包括至少一个目标组合短语;将所述目标热点集合中存在重叠的短语进行组合,将组合得到的短语作为所述目标组合短语,直至所述目标热点集合中的词语不变化为止,结束确定目标热点集合的操作,以得到多个热点集合;从所述多个热点集合中确定热度短语并输出,所述热度短语用于描述热点话题。
10.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器、存储器和收发器;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-8中任一项所述的方法。
CN201911126826.1A 2019-11-18 2019-11-18 一种提取热点话题的方法、装置及存储介质 Active CN111104511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911126826.1A CN111104511B (zh) 2019-11-18 2019-11-18 一种提取热点话题的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911126826.1A CN111104511B (zh) 2019-11-18 2019-11-18 一种提取热点话题的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111104511A CN111104511A (zh) 2020-05-05
CN111104511B true CN111104511B (zh) 2023-09-29

Family

ID=70420482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911126826.1A Active CN111104511B (zh) 2019-11-18 2019-11-18 一种提取热点话题的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111104511B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、系统
CN112182206B (zh) * 2020-09-01 2023-06-09 中国联合网络通信集团有限公司 文本聚类方法及装置
CN112732914A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN113064990A (zh) * 2021-01-04 2021-07-02 上海金融期货信息技术有限公司 一种基于多层次聚类的热点事件识别方法和系统
CN112926319B (zh) * 2021-02-26 2024-01-12 北京百度网讯科技有限公司 一种领域词汇的确定方法、装置、设备以及存储介质
CN112968805B (zh) * 2021-05-19 2021-08-06 新华三技术有限公司 一种告警日志处理方法及装置
CN113342979B (zh) * 2021-06-24 2023-12-05 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN115329078B (zh) * 2022-08-11 2024-03-12 北京百度网讯科技有限公司 文本数据处理方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304502A (zh) * 2018-01-17 2018-07-20 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及系统
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109960799A (zh) * 2019-03-12 2019-07-02 中南大学 一种面向短文本的优化分类方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232126B (zh) * 2019-06-14 2023-10-24 腾讯科技(深圳)有限公司 热点挖掘方法及服务器和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304502A (zh) * 2018-01-17 2018-07-20 中国科学院自动化研究所 基于海量新闻数据的快速热点检测方法及系统
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109960799A (zh) * 2019-03-12 2019-07-02 中南大学 一种面向短文本的优化分类方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统

Also Published As

Publication number Publication date
CN111104511A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104511B (zh) 一种提取热点话题的方法、装置及存储介质
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
Liu et al. Author name disambiguation for p ub m ed
CN105393263B (zh) 计算机‑人交互式学习中的特征完成
US11521713B2 (en) System and method for generating clinical trial protocol design document with selection of patient and investigator
US20190171792A1 (en) Interaction network inference from vector representation of words
Wang et al. Segmentation of multi-sentence questions: towards effective question retrieval in cqa services
Xie et al. Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Paul et al. LeSICiN: a heterogeneous graph-based approach for automatic legal statute identification from Indian legal documents
CN109408811A (zh) 一种数据处理方法及服务器
Wick et al. A unified approach for schema matching, coreference and canonicalization
Wu et al. Towards a probabilistic taxonomy of many concepts
Wu et al. A novel community answer matching approach based on phrase fusion heterogeneous information network
CN107784110A (zh) 一种索引建立方法及装置
De Boom et al. Semantics-driven event clustering in Twitter feeds
CN114386421A (zh) 相似新闻检测方法、装置、计算机设备和存储介质
Dourado et al. Bag of textual graphs (BoTG): A general graph‐based text representation model
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Xin et al. LoG: a locally-global model for entity disambiguation
WO2016009321A1 (en) System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
Cong et al. Pylon: Semantic Table Union Search in Data Lakes
US11755671B2 (en) Projecting queries into a content item embedding space
El-Hajj et al. An optimal approach for text feature selection
Dong High-dimensional similarity search for large datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant