CN109582783A - 热点话题检测方法及装置 - Google Patents
热点话题检测方法及装置 Download PDFInfo
- Publication number
- CN109582783A CN109582783A CN201811260532.3A CN201811260532A CN109582783A CN 109582783 A CN109582783 A CN 109582783A CN 201811260532 A CN201811260532 A CN 201811260532A CN 109582783 A CN109582783 A CN 109582783A
- Authority
- CN
- China
- Prior art keywords
- seq
- sentence
- target text
- feature vector
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000717 retained effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 16
- 238000013507 mapping Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,具体涉及一种热点话题检测方法。本发明的热点话题检测方法包括:基于预设实体知识库提取目标文本的关键句作为目标文本的摘要;使用LSH算法计算摘要的文档指纹;基于KNN算法对文档指纹进行聚类分析以确定目标文本的话题类别。本发明的热点话题检测方法是基于实体知识库中的实体对目标文本的句子进行评估,根据评估结果提取目标文本关键句作为摘要,通过这种方式可以使得提取出的摘要能够与具体应用场景紧密结合的同时还能保留更多的话题信息,进而保证后续文档聚类的精度,实现高质量的话题检测功能。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种热点话题检测方法及装置。
背景技术
随着互联网高速发展,在人们工作和生活中,网络已经成了最主要的信息来源,极大地满足了人们对最新信息获取的需求。然而,互联网上的信息增长太过迅速,已经出现了所谓的“信息大爆炸”。此时,对于用户来说,筛选整理各类信息会占用自己的大量时间,并且,由于互联网信息的“碎片化”现象严重,难以形成有效的知识体系,不利于信息的分析与监测。
针对上述问题,现阶段通常会通过热点话题检测方法的处理将碎片化的信息流组织成以话题为单元的文档集,这样一来,不仅有利于用户的分析理解,而且可以为进一步的精细化加工打下良好的基础。现有技术的热点话题检测方法一般从文档中直接提取文档特征,然后根据文档特征完成文档聚类,实现话题检测功能。这种方法的好处在于:计算简单,复杂度低,可以解决部分话题检测任务需求。但是,此类方法在文档特征提取过程中会出现话题关键句流失的情况,使得提取出的文档特征涵盖的话题信息较少且无法与具体的应用场景相结合,进而影响后续文档聚类的精度。
相应地,本领域需要一种新的热点话题检测方法及装置来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即现有的热点话题检测方法因提取的文档特征包含的话题信息较少且无法与具体的应用场景相结合,从而导致后续聚类精度不足的问题。本发明提供了一种热点话题检测方法,所述方法包括:基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要;使用LSH算法计算所述摘要的文档指纹;基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别;所述预设实体知识库是基于知识图谱结构构建的知识库。
在上述热点话题检测方法的优选技术方案中,“基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要”的具体步骤包括:对所述目标文本进行分割得到若干个句子;根据评分算法计算所述目标文本中每个句子的得分;将每个句子按照得分进行排序,选取排名靠前的设定数量的句子作为摘要。
在上述热点话题检测方法的优选技术方案中,“根据评分算法计算所述目标文本中每个句子的得分”的具体步骤包括:
按照下式计算句子的得分:
TE=α*fg+β*S(title,seqi)+θ*∑u∈US(seqi,sequ)-γ*∑s∈SS(seqi,seqs)
其中,α、β、γ、θ是预设的权重因子;fg是句子seqi中包含的所述实体知识库中实体的数量;seqi是所述目标文本分割后得到的句子的集合中第i个句子,也是当前待评分句子;title是所述目标文本的标题;S(title,seqi)表示句子seqi与所述目标文本的标题的相似度;集合U是预设训练集中与所述目标文本相同内容源的文本的句子的集合;sequ是所述集合U中第u个句子,S(seqi,sequ)是句子seqi与句子sequ的相似度;集合S是预设训练集中与所述目标文本不同内容源的文本的句子的集合;seqs是所述集合S中第s个句子,S(seqi,seqs)是句子seqi与句子seqs的相似度。
在上述热点话题检测方法的优选技术方案中,所述方法还包括:
按照下式分别计算所述S(seqi,sequ)和所述S(seqi,seqs):
其中,|{wk│wk∈title&wk∈seqi}|是在句子seqi和所述目标文本的标题中同时出现的单词数量;|{wk│wk∈seqi&wk∈sequ}|是在句子seqi与句子sequ中同时出现的单词数量;|{wk│wk∈seqi&wk∈seqs}|是在句子seqi与句子seqs中同时出现的单词数量;fi是句子seqi的特征向量;ft是所述目标文本的标题的特征向量;fu是句子sequ的特征向量;fs是句子seqs的特征向量;S(fi,ft)是特征向量fi与特征向量ft的相似度;S(fi,fu)是特征向量fi与特征向量fu的相似度;S(fi,fs)是特征向量fi与特征向量fs的相似度;|title|是所述目标文本的标题的单词数量;|seqi|是句子seqi的单词数量;|sequ|是句子sequ的单词数量;|seqs|是句子seqs的单词数量。
在上述热点话题检测方法的优选技术方案中,所述方法还包括:
按照下式分别计算所述S(fi,ft)、所述S(fi,fu)和所述S(fi,fs):
其中,fi·ft是特征向量fi与特征向量ft的点乘;fi·fu是特征向量fi与特征向量fu的点乘;fi·fs是特征向量fi与特征向量fs的点乘;是特征向量fi的模;是特征向量ft的模;是特征向量fu的模;是特征向量fs的模。
在上述热点话题检测方法的优选技术方案中,所述方法还包括:
根据下式分别计算特征向量fi、ft、fu和fs:
其中,E(seqi)、E(sequ)、E(seqs)和E(title)分别代表句子Seqi、sequ、seqs和所述目标文本的标题中存在的所述实体知识库中实体的集合;ek为集合E(seqi)中的第k个实体,v(ek)代表实体ek的特征向量;tk为集合E(title)中的第k个实体,v(tk)代表实体tk的特征向量;uk为集合E(sequ)中的第k个实体,v(uk)代表实体uk的特征向量;sk为集合E(seqs)中的第k个实体,v(sk)代表实体sk的特征向量。
在上述热点话题检测方法的优选技术方案中,“使用LSH算法计算所述摘要的文档指纹”的具体步骤包括:确定相似度函数及对应的哈希算法;根据所述哈希算法计算所述摘要的文档指纹。
在上述热点话题检测方法的优选技术方案中,所述相似度函数为Jaccard距离函数;相应的,所述哈希算法为min-hash函数。
在上述热点话题检测方法的优选技术方案中,“基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别”的具体步骤包括:根据所述相似度函数计算所述目标文本与预设已分类文本集合中所有文本的文档指纹相似度;统计所述文档指纹相似度小于等于所述预设相似度阈值的文本在每个话题类别下的文档票数,选出最高文档票数;判断所述最高文档票数是否大于等于预设KNN阈值:若是,认定所述目标文本属于最高文档票数对应的话题类别;若否,则认定所述目标文本属于新话题类别。
本发明还提供了一种控制装置,包括处理器和存储设备,所述存储设备适于存储多条程序,所述程序适于由所述处理器加载以执行上述任一项方案中所述的热点话题检测方法。
本发明的热点话题检测方法是基于预设实体知识库提取目标文本的关键句作为目标文本的摘要,通过LSH算法计算提取的摘要的文档指纹,并采用KNN算法对文档指纹进行聚类分析从而识别出目标文本的话题归属,实现话题检测功能。相较于现有的关键句提取方法,本发明的热点话题检测方法通过引入具有知识图谱结构的实体知识库作为先验信息以对目标文本的摘要的提取过程进行倾向性引导,从而使得提取出的摘要能够与具体应用场景紧密结合的同时还能保留更多的话题信息,进而保证后续文档聚类的精度,实现高质量的话题检测功能。
附图说明
下面参照附图描述本发明的热点话题检测方法。附图中:
图1为本发明的一种实施例的热点话题检测方法的流程示意图;
图2为本发明的一种实施例的热点话题检测方法中KNN算法对目标文本聚类分析的流程示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。例如,尽管本申请中按照特定顺序描述了本发明的方法的各个步骤,但是这些顺序并不是限制性的,在不偏离本发明的基本原理的前提下,本领域技术人员可以按照不同的顺序来执行所述步骤。
本发明的目标是在海量的互联网文本中,自动识别出各类话题,并根据话题分类情况,对各类信息进行展示。本发明中的海量互联网文本指的是互联网中已有的、可以生产、加工、传播的内容,尤其以文本内容为主。本发明中的话题,指的是互联网内容的中心主题,也就是对互联网各类事件的一个概括,广泛存在于新闻、博客、门户等网站之中。基于此目的,本发明提出了一种热点话题检测方法。下面将结合附图详细介绍本发明提供的热点话题检测方法。
参照图1,图1为本发明的一种实施例的热点话题检测方法的流程示意图。如图1所示,本发明的热点话题检测方法包括如下步骤:
步骤S101:根据现实世界中的实体类别,基于知识图谱结构构建实体知识库。
本发明的热点话题检测方法需要预先构建实体知识库,该实体知识库是根据现实世界中的实体类别,基于知识图谱结构预先构建的。具体而言,实体知识库中包含实体,该实体指的是经由人工筛选过、定义清晰、边界明确、存在大量高质量结构化描述信息的特有名词。知识图谱指的是能够表示实体之间关系的语义网络,其可以对现实世界中各类实体及其关系进行形式化的描述。知识图谱结构是使用三元组对实体关系进行表示,这样能够为知识图谱带来极大的扩展性,便于覆盖各类实体关系,也就是说,知识图谱是三元组的集合。三元组的基本形式主要为:<E1,R,E2>,其中,E1和E2分别表示实体1和实体2,R表示实体1和实体2之间的关系,在实体中,同时包含着对于实体的属性(名称、同义词等)、属性值等描述。
当以实体作为节点,实体间的关系做边,将所有的三元组以可视化的方式展示出来时,整个知识图谱将构成一个包含多种类型连边的有向图,从而可以对知识进行完整而清晰地描述。大量知识图谱被整合并按照知识体系分类组织,就形成了实体知识库。本发明的实体知识库中的每个实体对外通过唯一标识ID确定,通过属性-属性值来描述实体的内在特征,通过关系来连接两个实体,进而描述他们之间的关联。
根据实体类别信息对实体进行分类,示例性地,如下表1所示,将实体分为国家、领域、行业、公司、个人和概念6类。表1中的分类规则仅是示例性的,可以理解的是,也可按照其他预设规则对实体集进行分类,如可以将实体分为7类或者更多类。
表1实体类别
编号 | 实体类别 |
c=1 | 国家 |
c=2 | 领域 |
c=3 | 行业 |
c=4 | 公司 |
c=5 | 个人 |
c=6 | 概念 |
步骤S102:学习实体知识库中实体的特征向量。
本发明的热点话题检测方法需要预先学习实体的特征向量表示。作为一种可能的示例,可以使用TransE算法基于知识图谱结构来学习实体的特征向量表示。TransE算法的具体步骤如下:
首先,将关系R看作是一个平移向量,将三元组<E1,R,E2>看作是点在特征空间的平移关系,对于图谱中的三元组<E1,R,E2>,存在公式E1+R=E2。根据以上假设,构造损失函数如下:
L=||E1+R-E2||L1 (1)
通过最小化损失函数(1)的方式即可学习不同语义下实体向量和关系向量。通过这种方式学习到的特征向量可以保留知识图谱中的关系信息。
能够理解的是,实体的特征向量的学习方法不仅限于上述示例中TransE算法这一种,还可以为其他算法,如还可以是KG2E算法。本领域技术人员可以根据具体情况对特征向量的学习方法进行灵活的选择以便适应具体的应用场合。
步骤S103:提取目标文本的摘要。
准备已分类文本集合K,已分类文本集合K中包含若干篇文本且所有文本均具有对应的话题类别。将已分类文本集合K与目标文本组成预设语料库,根据预设语料库中每篇文本的发布者(作者、媒体)分别标识预设语料库中每篇文本的内容源,并以内容源为基础对预设语料库中的文本进行分类,从而制成训练数据集。
通过标点符号对训练数据集中的每个文本进行分割,也就是说,将目标文本和已分类文本进行分割,从而将目标文本和已分类文本划分为一个个单个的句子,然后通过句子评分算法来对目标文本中每个句子进行评分。
考虑到句子的评分会受到以下四种因素的影响:1)知识图谱中实体关键词的影响;2)同源信息影响;3)异源信息影响;4)句子与标题相似度影响。因此,对句子进行评分时需要综合考虑上述影响因素,本发明的方法会将上述四种影响因素作为权重因素引入评分公式中,并根据上述因素的影响程度引入不同的权重因子。下面将以计算句子seqi的评分为例来介绍本发明的热点话题检测方法中的句子评分算法,其中,句子seqi是目标文本分割后得到的所有句子的集合V中第i个句子。
定义句子评分公式如下:
TE=α*fg+β*S(title,seqi)+θ*∑u∈US(seqi,sequ)-γ*∑s∈SS(seqi,seqs) (2)
在上述句子评分公式中,α,β,γ,θ作为权重因子,用来调节各因素对评分结果的影响效果。seqi是目标文本分割后得到的句子的集合V中第i个句子,也是当前待评分句子;fg是句子seqi中包含的实体知识库中实体(及同义词)的数量,句子seqi中包含的实体数量越多,说明信息密度越大,关键句的可能性越大;title是目标文本的标题;S(title,Seqi)表示句子seqi与目标文本的标题的相似度;集合U是预设训练集中与目标文本相同内容源的文本的句子的集合;sequ是集合U中第u个句子,S(seqi,sequ)是句子seqi与句子sequ的相似度,如果S(seqi,sequ)过高,则说明句子seqi经常在相同内容源中出现,则句子seqi可能是宣传语或广告等信息;集合S是预设训练集中与目标文本不同内容源的文本的句子的集合;seqs是集合S中第s个句子,S(seqi,seqs)是句子seqi与句子seqs的相似度,如果S(seqi,seqs)过高,则说明句子seqi经常在其他内容源中出现,即句子seqi经常在其他媒体中出现,则句子seqi为热点内容的概率非常大。
按照下式分别计算S(title,Seqi)、S(seqi,sequ)和S(seqi,seqs):
在公式(3)、公式(4)和公式(5)中,|{wk│wk∈title&wk∈seqi}|是在句子seqi和目标文本的标题中同时出现的单词数量;|{wk│wk∈seqi&wk∈sequ}|是在句子seqi与句子sequ中同时出现的单词数量;|{wk│wk∈seqi&wk∈seqs}|是在句子seqi与句子seqs中同时出现的单词数量;fi是句子seqi的特征向量;ft是目标文本的标题的特征向量;fu是句子sequ的特征向量;fs是句子seqs的特征向量;S(fi,ft)是特征向量fi与特征向量ft的相似度;S(fi,fu)是特征向量fi与特征向量fu的相似度;S(fi,fs)是特征向量fi与特征向量fs的相似度;|seqi|是句子seqi的单词数量;|title|是目标文本的标题的单词数量;|sequ|是句子sequ的单词数量;|seqs|是句子seqs的单词数量。
可以看出,在上述句子的相似度计算公式中,通过将词语的共现信息和句子的特征向量相似度同时纳入相似度评判指标中,以便于提高评判的准确性。
按照下式分别计算公式(3)至(5)中的S(fi,ft)、S(fi,fu)和S(fi,fs):
在公式(6)至公式(8)中,fi·ft是特征向量fi与特征向量ft的点乘;fi·fu是特征向量fi与特征向量fu的点乘;fi·fs是特征向量fi与特征向量fs的点乘;是特征向量fi的模;是特征向量ft的模;是特征向量fu的模;是特征向量fs的模。其中,特征向量fi、ft、fu和fs的计算公式如下:
在公式(9)至公式(12)中,E(seqi)、E(sequ)、E(seqs)和E(title)分别代表句子seqi、sequ、seqs和目标文本的标题中存在的实体知识库中实体的集合;ek为集合E(seqi)中的第k个实体,v(ek)代表实体ek的特征向量;tk为集合E(title)中的第k个实体,v(tk)代表实体tk的特征向量;uk为集合E(sequ)中的第k个实体,v(uk)代表实体uk的特征向量;sk为集合E(seqs)中的第k个实体,v(sk)代表实体sk的特征向量。
可以看出,句子的特征向量是通过句子中所包含的实体知识库中的实体的特征向量求和而来的,这样一来,句子的特征向量便可以保留知识图谱中的实体关系信息。
将公式(2)至(12)代入公式(1)中即可计算得到句子seqi的评分。同理,采用上述评分算法对目标文本中所有句子进行评分,然后将每个句子按照得分由高到低的顺序进行排序,选取排名靠前的设定数量的句子作为摘要。摘要的句子数量需要提前预设好,本领域技术人员可以根据实际情况对摘要的句子数量进行设定。如示例性地,可以选择排名前十的句子作为目标文本的摘要。
通过上述计算过程可以看出,本发明的热点话题检测方法是通过对目标文本的每个句子进行评分,然后根据评分结果将评分排名靠前的句子作为摘要,其中,通过在句子评价算法中引入知识图谱中的实体关系信息和预设语料库中的共现信息,并且综合考虑知识图谱中实体的远监督信息,以及同源、异源信息相互间的关系,以及常用的文本评分因素,由此可以提高评分结果的准确性。根据评分结果将评分排名靠前的句子作为摘要的提取方式可以使基于评分结果提取出的摘要中能够保留更多的话题信息,进而保证了后续文档聚类的精度。本发明的热点话题检测方法通过引入实体知识库作为先验信息,以便在摘要的提取过程中起到倾向性的引导作用,从而使得提取出的摘要内容能够与具体地应用场景紧密联系,从而进一步提高了文档聚类的精度。
步骤S104:利用LSH算法计算目标文本的摘要的哈希值,并将该哈希值作为目标文本的文档指纹。
为了避免线性查找带来的过高的时间复杂度,本发明的热点话题检测方法利用LSH算法对摘要文本数据进行预处理,以实现快速最近邻查找的目的。
LSH(Locallity Sensitive Hashing)方法被称为局部敏感哈希,这是一种针对海量高位数据的快速映射方法,可以保留到局部特征,方便对数据进行最近邻查找。LSH算法的使用需要预先根据具体的相似度函数制定哈希算法,采用不同的相似性函数时,所用的哈希算法是不一样的,因此首先需要确定相似度函数。
作为一种可能的示例,使用Jaccard距离作为相似度定义,Jaccard距离越大,说明相似度越低,反之,则越高。相应地,哈希算法使用min-hash函数。
min-hash函数的具体计算过程如下:首先将已分类文本的摘要和目标文本的摘要组成一个摘要文档集合T={t1,t2,…,tj,…,tm},其中,tj为集合T中第j个摘要文档。将集合T中摘要文档中出现的所有词组成集合W={w1,w2,…,wi,…,wn},其中,wi为集合W中第i个词汇。构建m×n维的特征矩阵F,分别判断集合T中所有摘要文档中是否存在W中的所有词,若存在,则以摘要文档的序号为行,以词汇的序号为列,在特征矩阵F的对应位置记1,若不存在,则记0。如示例性地,当wi出现在tj中时,则Fij=1,否则Fij=0。通过这种方式确定特征矩阵F中的元素。
然后对这个特征矩阵F按行进行n次置换,每次置换之后,统计每一列(对应的就是每个摘要文档)第一个非0值所在的行号,这样每次统计的结果最终可以得到每个摘要文档的min-hash值(最小哈希值),将每个摘要文档的最小哈希值作为对应的文本的文档指纹,由此即可得到目标文本的文档指纹和已分类文本的文档指纹。
步骤S105:基于KNN算法对文档指纹进行聚类分析以确定目标文本的话题类别。
参照图2,图2为本发明的一种实施例的热点话题检测方法中KNN算法对目标文本聚类分析的流程示意图。如图2所示,KNN算法对目标文本聚类分析过程具体包括如下步骤:
步骤S1051:计算目标文本和已分类文本的文档指纹相似度。
如果两个文本足够相似,那么这两个文本中有很多词是共有的,换句话说,如果其中有一些文本的相似度很高,那么这些文本所对应的文档指纹相同的概率就很高。由此,可以计算两个文本的min-hash值相等的概率,进而得到jaccard距离,即目标文本和各个已分类文本的文档指纹相似度。
根据定理:两个文本的min-hash值相等的概率等于两个文本的Jaccard系数,进而可转换得出Jaccard距离。计算过程如下述公式:
在公式(13)中,J为Jaccard距离,h(A)、h(B)为文本A和文本B的min-hash值(即文档指纹);Pr[h(A)=h(B)]为文本A和文本B的min-hash值相等的概率。由此便可以计算出目标文本和已分类文本的jaccard距离,即为目标文本和每个已分类文本的文档指纹相似度。
步骤S1052:定义相似度阈值,判断目标文本和每个已分类文本的文档指纹相似度是否小于等于相似度阈值。
判断公式如下:
在公式(14)中,t为预先设定的相似度阈值,其存在意义为设定相似度衡量标准,当E=1时,认为两个文本相似;当E=0时,则认为两个文本不相似。
步骤S1053:统计文档指纹相似度小于等于相似度阈值的已分类文档的文档票数,确定目标文本的话题类别。
对于所有E=1的已分类文本,分别统计各话题下已分类文本的数量作为文档票数。选取最多文档票数的话题,将该话题的票数与预设KNN阈值进行比较。若票数大于等于KNN阈值时,则认定目标文本属于该话题;若票数小于KNN阈值时,则认定目标文本属于该话题,令其单独作为一类,最后根据分类结果更新已分类文本集合K。
如作为一种可能的示例,KNN阈值设置为3。已分类文本集合K中包括20篇已分类文本,即K={t1:c1,t2:c2,…,t20:c2},其中,E=1的已分类文本有七篇,分别为t1:c1、t2:c2、t9:c1、t11:c1、t13:c3、t15:c1和t20:c2。在这七篇已分类文本中,一共包括三种话题,即话题c1、话题c2和话题c3。其中,属于话题c1的文本一共有四篇,即文档t1、t9、t11和t15,则话题c1的文档票数为4;属于话题c2的文本有两篇,即文档t2和t20,则话题c2的文档票数为2;属于话题c3的文本有一篇,即文档t13,则话题c3的文档票数为1。此时话题c1为最高票数的话题类型,此时将话题c1对应的票数与KNN阈值进行比较,由于话题c1的文档票数大于KNN阈值,因此认定目标文本属于话题c1。最后更新已分类文本集合为K=t1:c1,t2:c2,…,t20:c2,…,t21:c1},其中t21即为已确定话题类型为c1的目标文本。
上述仅是一种示例性的描述,并不能构成对本发明不恰当的限制,可以理解的是,相似度阈值和KNN阈值的大小可以根据实际情况进行灵活设置以便适应具体的应用场合。
可以看出,本发明的热点话题检测方法是基于目标文本的摘要的文档指纹,通过相似性计算以及阈值设定,实现了各类话题下文本的聚类需求,从而完成已识别主题的内容跟踪与新主题发现等任务。
基于上述热点话题检测方法的实施例,本发明还提供了一种控制装置,包括处理器和存储设备,存储设备适于存储多条程序,程序适于由处理器加载以执行上述方法实施例所述的热点话题检测方法,如控制装置可以为计算机。可以理解的是,该控制装置具有上述热点话题检测方法所有的技术效果,在此不再赘述。
综上所述,本发明的热点话题检测方法是基于知识图谱来实现目标文本的摘要的提取,具体地,首先基于句子评价算法对目标文本中的句子进行评分,通过在句子评价算法中引入知识图谱中的实体关系信息和预设语料库中的共现信息,并且综合考虑知识图谱中实体的远监督信息,以及同源、异源信息相互间的关系,以及常用的文本评分因素,以使得评分结果的准确性大大提高;然后基于评分结果提取摘要,从而使得提取出的摘要中能够保留更多的话题信息,进而保证了后续文档聚类的精度。在获取目标文本的摘要之后,针对目标文本的摘要,先利用LSH算法生成保存局部信息的hash值,即目标文本的文档指纹,然后基于文档指纹,再利用KNN的文档聚类算法对文档指纹进行文档聚类,完成已识别主题的内容跟踪与新主题发现等任务,从而实现高质量的话题检测功能。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种热点话题检测方法,其特征在于,所述方法包括:
基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要;
使用LSH算法计算所述摘要的文档指纹;
基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别;
其中,所述预设实体知识库是基于知识图谱结构构建的知识库。
2.根据权利要求1所述的热点话题检测方法,其特征在于,“基于预设实体知识库提取目标文本的关键句作为所述目标文本的摘要”的具体步骤包括:
对所述目标文本进行分割得到若干个句子;
根据评分算法计算所述目标文本中每个句子的得分;
将每个句子按照得分进行排序,选取排名靠前的设定数量的句子作为摘要。
3.根据权利要求2所述的热点话题检测方法,其特征在于,“根据评分算法计算所述目标文本中每个句子的得分”的具体步骤包括:
按照下式计算句子的得分:
其中,α、β、γ、θ是预设的权重因子;fg是句子seqi中包含的所述实体知识库中实体的数量;seqi是所述目标文本分割后得到的句子的集合中第i个句子,也是当前待评分句子;title是所述目标文本的标题;S(title,seqi)表示句子seqi与所述目标文本的标题的相似度;集合U是预设训练集中与所述目标文本相同内容源的文本的句子的集合;sequ是所述集合U中第u个句子,S(seqi,sequ)是句子seqi与句子sequ的相似度;集合S是预设训练集中与所述目标文本不同内容源的文本的句子的集合;seqs是所述集合S中第s个句子,S(seqi,seqs)是句子seqi与句子seqs的相似度。
4.根据权利要求3所述的热点话题检测方法,其特征在于,所述方法包括:
按照下式分别计算所述S(seqi,sequ)和所述S(seqi,seqs):
其中,|{wk│wk∈title&wk∈seqi}|是在句子seqi和所述目标文本的标题中同时出现的单词数量;|{wk│wk∈seqi&wk∈sequ}|是在句子seqi与句子sequ中同时出现的单词数量;|{wk│wk∈seqi&wk∈seqs}|是在句子seqi与句子seqs中同时出现的单词数量;fi是句子seqi的特征向量;ft是所述目标文本的标题的特征向量;fu是句子sequ的特征向量;fs是句子seqs的特征向量;S(fi,ft)是特征向量fi与特征向量ft的相似度;S(fi,fu)是特征向量fi与特征向量fu的相似度;S(fi,fs)是特征向量fi与特征向量fs的相似度;|seqi|是句子seqi的单词数量;|title|是所述目标文本的标题的单词数量;|sequ|是句子sequ的单词数量;|seqs|是句子seqs的单词数量。
5.根据权利要求4所述的热点话题检测方法,其特征在于,所述方法包括:
按照下式分别计算所述S(fi,ft)、所述S(fi,fu)和所述S(fi,fs):
其中,fi·ft是特征向量fi与特征向量ft的点乘;fi·fu是特征向量fi与特征向量fu的点乘;fi·fs是特征向量fi与特征向量fs的点乘;是特征向量fi的模;是特征向量ft的模;是特征向量fu的模;是特征向量fs的模。
6.根据权利要求5所述的热点话题检测方法,其特征在于,所述方法还包括:
根据下式分别计算特征向量fi、ft、fu和fs:
其中,E(seqi)、E(sequ)、E(seqs)和E(title)分别代表句子Seqi、sequ、seqs和所述目标文本的标题中存在的所述实体知识库中实体的集合;ek为集合E(seqi)中的第k个实体,v(ek)代表实体ek的特征向量;tk为集合E(title)中的第k个实体,v(tk)代表实体tk的特征向量;uk为集合E(sequ)中的第k个实体,v(uk)代表实体uk的特征向量;sk为集合E(seqs)中的第k个实体,v(sk)代表实体sk的特征向量。
7.根据权利要求1所述的热点话题检测方法,其特征在于,“使用LSH算法计算所述摘要的文档指纹”的具体步骤包括:
确定相似度函数及对应的哈希算法;
根据所述哈希算法计算所述摘要的哈希值,将所述摘要的哈希值作为所述目标文本的文档指纹。
8.根据权利要求7所述的热点话题检测方法,其特征在于,所述相似度函数为Jaccard距离函数;
相应的,所述哈希算法为min-hash函数。
9.根据权利要求7所述的热点话题检测方法,其特征在于,“基于KNN算法对所述文档指纹进行聚类分析以确定所述目标文本的话题类别”的具体步骤包括:
根据所述相似度函数计算所述目标文本与预设已分类文本集合中所有文本的文档指纹相似度;
统计所述文档指纹相似度小于等于所述预设相似度阈值的文本在每个话题类别下的文档票数,选出最高文档票数;
判断所述最高文档票数是否大于等于预设KNN阈值:
若是,认定所述目标文本属于最高文档票数对应的话题类别;
若否,则认定所述目标文本属于新话题类别。
10.一种控制装置,包括处理器和存储设备,所述存储设备适于存储多条程序,其特征在于,所述程序适于由所述处理器加载以执行权利要求1至9中任一项所述的热点话题检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811260532.3A CN109582783B (zh) | 2018-10-26 | 2018-10-26 | 热点话题检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811260532.3A CN109582783B (zh) | 2018-10-26 | 2018-10-26 | 热点话题检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582783A true CN109582783A (zh) | 2019-04-05 |
CN109582783B CN109582783B (zh) | 2020-10-02 |
Family
ID=65920946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811260532.3A Active CN109582783B (zh) | 2018-10-26 | 2018-10-26 | 热点话题检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582783B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026965A (zh) * | 2019-12-05 | 2020-04-17 | 中国银行股份有限公司 | 基于知识图谱的热点话题追溯方法及装置 |
CN112347240A (zh) * | 2020-10-16 | 2021-02-09 | 小牛思拓(北京)科技有限公司 | 文本摘要的抽取方法、装置、可读存储介质及电子设备 |
WO2021121279A1 (en) * | 2019-12-19 | 2021-06-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Text document categorization using rules and document fingerprints |
CN116501875A (zh) * | 2023-04-28 | 2023-07-28 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
US20160328380A1 (en) * | 2014-02-22 | 2016-11-10 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
CN106682123A (zh) * | 2016-12-09 | 2017-05-17 | 北京锐安科技有限公司 | 一种获取热点事件的方法及装置 |
CN106997387A (zh) * | 2017-03-28 | 2017-08-01 | 中国科学院自动化研究所 | 基于文本‑图像匹配的多模态自动文摘方法 |
-
2018
- 2018-10-26 CN CN201811260532.3A patent/CN109582783B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615593A (zh) * | 2013-11-01 | 2015-05-13 | 北大方正集团有限公司 | 微博热点话题自动检测方法及装置 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
US20160328380A1 (en) * | 2014-02-22 | 2016-11-10 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
CN106682123A (zh) * | 2016-12-09 | 2017-05-17 | 北京锐安科技有限公司 | 一种获取热点事件的方法及装置 |
CN106997387A (zh) * | 2017-03-28 | 2017-08-01 | 中国科学院自动化研究所 | 基于文本‑图像匹配的多模态自动文摘方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026965A (zh) * | 2019-12-05 | 2020-04-17 | 中国银行股份有限公司 | 基于知识图谱的热点话题追溯方法及装置 |
CN111026965B (zh) * | 2019-12-05 | 2023-11-21 | 中国银行股份有限公司 | 基于知识图谱的热点话题追溯方法及装置 |
WO2021121279A1 (en) * | 2019-12-19 | 2021-06-24 | Beijing Didi Infinity Technology And Development Co., Ltd. | Text document categorization using rules and document fingerprints |
US11557141B2 (en) | 2019-12-19 | 2023-01-17 | Beijing Didi Infinity Technology And Development Co., Ltd. | Text document categorization using rules and document fingerprints |
CN112347240A (zh) * | 2020-10-16 | 2021-02-09 | 小牛思拓(北京)科技有限公司 | 文本摘要的抽取方法、装置、可读存储介质及电子设备 |
CN116501875A (zh) * | 2023-04-28 | 2023-07-28 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
CN116501875B (zh) * | 2023-04-28 | 2024-04-26 | 中电科大数据研究院有限公司 | 一种基于自然语言和知识图谱的文档处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109582783B (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van der Maaten et al. | Visualizing non-metric similarities in multiple maps | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN109582783A (zh) | 热点话题检测方法及装置 | |
CN108846422A (zh) | 跨社交网络的账号关联方法及系统 | |
CN106570109B (zh) | 一种通过文本分析自动生成题库知识点的方法 | |
US11989662B2 (en) | Methods and systems for base map and inference mapping | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN106156333B (zh) | 一种融合社会化信息的改进单类协同过滤方法 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
Ling et al. | Learning cross-context entity representations from text | |
CN107368542A (zh) | 一种涉密数据的涉密等级评定方法 | |
CN113673943A (zh) | 一种基于履历大数据的人员任免辅助决策方法及系统 | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
Prata et al. | Social data analysis of Brazilian's mood from Twitter | |
CN107220311A (zh) | 一种利用局部嵌入话题建模的文本表示方法 | |
Baier Fuentes et al. | A bibliometric overview of the international journal of interactive multimedia and artificial intelligence | |
Fu et al. | Learning semantic hierarchies: A continuous vector space approach | |
CN112182204A (zh) | 构建中文命名实体标注的语料库的方法、装置 | |
Wormell | Bibliometric analysis of the welfare topic | |
Pino‐Díaz et al. | Strategic knowledge maps of the techno‐scientific network (SK maps) | |
McKenzie et al. | The effect of regional variation and resolution on geosocial thematic signatures for points of interest | |
JP4534019B2 (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
CN109471927A (zh) | 一种知识库及其建立、问答方法及应用装置 | |
Deselaers et al. | The visual concept detection task in ImageCLEF 2008 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |