CN113157857B - 面向新闻的热点话题检测方法、装置及设备 - Google Patents

面向新闻的热点话题检测方法、装置及设备 Download PDF

Info

Publication number
CN113157857B
CN113157857B CN202110271853.9A CN202110271853A CN113157857B CN 113157857 B CN113157857 B CN 113157857B CN 202110271853 A CN202110271853 A CN 202110271853A CN 113157857 B CN113157857 B CN 113157857B
Authority
CN
China
Prior art keywords
topic
similarity
topics
texts
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110271853.9A
Other languages
English (en)
Other versions
CN113157857A (zh
Inventor
杨雅婷
张文博
董瑞
马博
王磊
周喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN202110271853.9A priority Critical patent/CN113157857B/zh
Publication of CN113157857A publication Critical patent/CN113157857A/zh
Application granted granted Critical
Publication of CN113157857B publication Critical patent/CN113157857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向新闻的热点话题检测方法、装置及设备,所述方法包括:针对预处理技术;将信息流划分到不同的时间窗口,通过提取标题特征和正文特征表达文本或话题;对同一时间窗口内的文本,使用凝聚层次聚类建立时间无关的话题检测模型,实现微聚类。对不同时间窗口内的话题使用单遍法建立跨时间窗口的话题检测模型,实现最终的话题聚类;最后,利用TextRank算法,通过先计算单文本的简要表达,再在单文本表达基础上进一步使用TextRank算法得到话题表达,实现对新闻自动归类,展现的目的。

Description

面向新闻的热点话题检测方法、装置及设备
技术领域
本发明涉及计算机技术中的自然语言信息处理领域,具体为一种面向新闻的热点话题检测方法、装置及设备。
背景技术
随着信息时代的到来,人们已经习惯于从互联网获取社会上的各种信息。但是互联网在极大地丰富了我们生活的同时带来了信息过载。互联网上充斥着大量的信息,这些信息中大部分不是人们真正想阅览的信息。属于同一个话题的新闻在互联网的分布上也往往比较分散。在寻找感兴趣的内容的同时,人们往往浪费了大量的时间在不感兴趣的内容上面。如何将信息有效的呈现在人们面前是当今社会的研究热点。而基话题检测系统可以自动发现互联网中热点话题,并将属于同一话题的新闻聚拢,同时可以对该话题提供简短的表达信息。该系统可以有效帮助人们快速浏览最近的热点新闻概况,同时对感兴趣的话题可以快速找到大部分该话题的相关细节信息。
目前很多中文新闻网站上都有热点新闻专栏,但是大多数网站都是通过人工来维护确保实时性和准确性。而对新闻网站来说,这种专栏还很少见,主要是因为新闻网站用户较少,人工维护代价相对较大。针对新闻的热点话题检测系统可以快速建立起相应的专栏并且可以自动地更新维护,从而以低成本的方式实现新闻网站的热点新闻专栏。
发明内容
本发明目的在于,提供一个面向新闻的热点话题检测方法、装置及设备,所述方法包括:针对预处理技术;将信息流划分到不同的时间窗口,通过提取标题特征和正文特征表达文本或话题;对同一时间窗口内的文本,使用凝聚层次聚类建立时间无关的话题检测模型,实现微聚类。对不同时间窗口内的话题使用单遍法建立跨时间窗口的话题检测模型,实现最终的话题聚类;最后,利用TextRank算法,通过先计算单文本表达,再在单文本表达基础上进一步使用 TextRank算法得到话题表达,实现对新闻自动归类的目的。
本发明所述的一种面向新闻的热点话题检测方法,所述方法包括:预处理、基于时间窗口划分的多特征热点话题检测和基于多级TextRank的话题表达,具体操作按下列步骤进行:
a.预处理:是将内容进行识别,形态切分;
b.基于时间窗口划分的多特征热点话题检测:是对同一时间段内文本通过对比文本之间的相似度,使用凝聚层次聚类进行微聚类形成话题和对不同时间段的话题,按照时间先后进行排序,采用单遍法进行进一步话题聚类;
c.基于多级TextRank的话题表达:对所有单个文本通过TextRank算法生成单文本表达,对同一个话题中所有文本,在单文本表达的基础上,进一步使用TextRank算法生成话题表达。
步骤b中对同一时间段内文本通过对比文本之间的相似度使用凝聚层次聚类进行微聚类,即:同一时间窗口内的每个文本当做一个话题,两两计算同个时间窗口话题之间的相似度,相似度采用余弦相似度进行计算,两个话题之间分别计算标题向量之间的相似度和正文向量之间的相似度,话题之间相似度为这两个特征相似度的较大值,表示为:
话题相似度=最大值(标题相似度,正文相似度);
合并相似度最大的两个话题,直至最大相似度小于阈值。
步骤b中对不同时间段的话题,按照时间先后进行排序,采用单遍法进行进一步话题聚类,即:
按照时间先后顺序,以时间窗口为单位进行排序;
按顺序依次读入每个时间窗口内的话题,并和当前有效的话题进行对比,判断是和当前话题合并,还是作为一个新的话题加入当前话题集合;
每处理一个时间窗口内话题之后,更新当前有效话题集合表示,同时将时间较长的话题移除当前有效话题集合。
步骤c中基于多级TextRank的话题表达:
对所有单个文本通过TextRank算法生成单文本表达,即:
使用所有文本数据训练word2vec词向量模型;
将所有文本中每个单词使用训练好的word2vec词向量模型将词转换成词向量,并使用句子中所有词的词向量的平均值计算句向量;
使用余弦相似度计算同一文本中两两句子之间的相似度矩阵;
利用TextRank算法迭代地计算每个节点即每个句子的分数,计算公式可表示为:
Figure RE-GDA0003122948580000021
其中wji表示句子j和句子i边的权重也就是相似度,In(Vi)表示结点Vi也就是句子i的前驱结点集合,Out(Vj)表示节点Vj的后继结点集合,d为平滑参数。
将句子分数排名较高的n个句子作为该文本的简要表达。
步骤c中基于多级TextRank的话题表达:
对同一个话题中所有文本,在单文本表达的基础上,进一步使用TextRank算法生成话题表达,即:
计算该话题中所有单文本表达句子之间的相似度;
将相似度大于阈值的句子看做为同一个句子;
进一步利用TextRank算法迭代地计算每个句子的分数;
选取排名较高的句子作为话题表达句子,并按照文本时间顺序以及句子在文本中出现的顺序,对其排序。
所述的面向新闻的热点话题检测装置,该装置包括话题检测模块和话题表达模块,其中话题检测模块用于从新闻数据流中,发现属于同一话题的新闻文本,并将属于同一话题的新闻文本归为一类;
话题表达模块:用于对所述话题检测模块得到的包含多个新闻文本的话题进行总结,提炼简要的信息。
一种电子设备,包括处理器、内部存储器、输入输出设备以及总线,所述设备可以加载和执行权利要求1-6中所述的面向新闻的热点话题检测方法。
本发明所述的面向新闻的热点话题检测方法、装置及设备,该方法中:
针对预处理,包括内容识别、形态切分;
多特征的文本话题相似度计算,同时使用标题特征和基于词对的正文特征计算文本或话题之间的相似度;
不同时间特征的聚类,对同一时间内文本,使用凝聚层次聚类;对不同时间内的文本或话题,采用单遍法聚类;
基于两级TextRank的话题,首先利用TextRank计算单文本的表达信息,然后在此基础上进一步使用TextRank计算话题表达。
本发明提供了一种话题检测装置,该装置包括:
话题检测模块:用于从新闻数据流中,发现属于同一话题的新闻文本,并将属于同一话题的新闻文本归为一类。
话题表达模块:用于对所述话题检测模块得到的包含多个新闻文本的话题进行总结,提炼简要的表达信息。
本发明提供了一种电子设备,该设备包括:
至少一个处理器、一个内部存储器、输入输出接口;
所述设备全都通过总线连接,可以互相通信,所述处理器可以执行内部存储器的所存储的文本发明的程序指令,输入输出接口可将外部信息传入内部存储器,并可以将内部存储器或处理器的信息输出到外部环境。
本公开实施例提供的技术方案是完全无监督的,因此本公开不需要其他额外的代价就可以直接实现对新闻的热点话题检测和表达功能。
应当理解,本部分所描述的内容和后文具体实施方案的示例性描述,并不能限制本发明的范围。
附图说明
图1为本发明的流程示意图;
图2为本发明检测装置的结构示意图;
图3为本发明话题检测模块的具体实现流程图;
图4为本发明话题表达模块的具体实现流程图;
图5为本发明实施例提供的面向新闻的热点话题检测设备的示意图。
具体实施方式
为了使本技术领域的相关人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细阐述。
本发明所述的一种面向新闻的热点话题检测方法,所述方法包括:预处理、基于时间窗口划分的多特征热点话题检测和基于多级TextRank的话题表达,具体操作按下列步骤进行:
a.预处理:是将内容进行识别,进行形态切分;
b.基于时间窗口划分的多特征热点话题检测:是对同一时间段内文本通过对比文本之间的相似度,使用凝聚层次聚类进行微聚类和对不同时间段的话题,按照时间先后进行排序,采用单遍法进行进一步话题聚类;
c.基于多级TextRank的话题表达:对所有单个文本通过TextRank算法生成单文本表达,对同一个话题中所有文本,在单文本表达的基础上,进一步使用TextRank算法生成话题表达。
步骤b中对同一时间段内文本通过对比文本之间的相似度使用凝聚层次聚类进行微聚类,即:同一时间窗口内的每个文本当做一个话题,两两计算同个时间窗口话题之间的相似度,相似度采用余弦相似度进行计算,两个话题之间分别计算标题向量之间的相似度和正文向量之间的相似度,话题之间相似度为这两个特征相似度的较大值,表示为:
话题相似度=最大值(标题相似度,正文相似度);
合并相似度最大的两个话题,直至最大相似度小于阈值。
步骤b中对不同时间段的话题,按照时间先后进行排序,采用单遍法进行进一步话题聚类,即:
按照时间先后顺序,以时间窗口为单位进行排序;
按顺序依次读入每个时间窗口内的话题,并和当前有效的话题进行对比,判断是和当前话题合并,还是作为一个新的话题加入当前话题集合;
每处理一个时间窗口内话题之后,更新当前有效话题集合表示,同时将时间较长的话题移除当前有效话题集合。
步骤c中基于多级TextRank的话题表达:
对所有单个文本通过TextRank算法生成单文本表达,即:
使用所有文本数据训练word2vec词向量模型;
将所有文本中每个单词使用训练好的word2vec词向量模型将词转换成词向量,并使用句子中所有词的词向量的平均值计算句向量;
使用余弦相似度计算同一文本中两两句子之间的相似度矩阵;
利用TextRank算法迭代地计算每个节点即每个句子的分数,计算公式可表示为:
Figure RE-GDA0003122948580000041
其中wji表示句子j和句子i边的权重也就是相似度,In(Vi)表示结点Vi也就是句子i的前驱结点集合,Out(Vj)表示节点Vj的后继结点集合,d为平滑参数。
将句子分数排名较高的n个句子作为该文本的简要表达。
步骤c中基于多级TextRank的话题表达:
对同一个话题中所有文本,在单文本表达的基础上,进一步使用TextRank算法生成话题表达,即:
计算该话题中所有单文本表达句子之间的相似度;
将相似度大于阈值的句子看做为同一个句子;
进一步利用TextRank算法迭代地计算每个句子的分数;
选取排名较高的句子作为话题表达句子,并按照文本时间顺序以及句子在文本中出现的顺序,对其排序。
所述的面向新闻的热点话题检测装置,该装置包括话题检测模块和话题表达模块,其中话题检测模块用于从新闻数据流中,发现属于同一话题的新闻文本,并将属于同一话题的新闻文本归为一类;
话题表达模块:用于对所述话题检测模块得到的包含多个新闻文本的话题进行总结,提炼简要的信息。
一种电子设备,包括处理器、内部存储器、输入输出设备以及总线,所述设备可以加载和执行权利要求1-6中所述的面向新闻的热点话题检测方法;
如图1所示,该方法包含以下步骤:
步骤S101:获取新闻数据流,利用预处理技术预处理所有的新闻文本;
本发明的面向提供的基于话题检测新闻的热点话题检测,需要提前对新闻文本进行预处理,话题检测与话题表达都是在预处理的基础上进行的;预处理主要包括:识别数据流中的新闻主体,删除不属于文本的噪音文本,比如URL链接、javascript脚本等和新闻无关的信息;对文本进行的断句切分;由于形态复杂的语言,包含很多语义丰富并且长度较长的单词,很多词在形态上稍有差异,但是实际上却表示相同的意思;这中情况容易词表规模较大,存在较多的稀疏词,因此在断句之后需要对单词进行形态切分,将较长的单词切分成词干、词缀的形式,然后提取词干当作单独的单词,从而降低词表规模;
步骤S103:对同一时间窗口的文本使用凝聚层次聚类,对不同时间窗口的话题使用单遍法聚类,建立话题检测模型;
话题在分布上具有明显的特性,同一话题往往出现在连续的时间段内,但是由于互联网新闻的密集性,在较短的时间内往往就存在大量的互不相关的新闻,在短间隔的时间段内,时间特征对话题检测作用有限;因此,为了提高话题检测精度,本发明在短时间间隔内使用凝聚层次聚类,优先合并内容相似度最高的文本或话题,在较长的时间间隔内使用单遍法聚类,优先考虑将时间尺度上更近的话题加入当前话题;
步骤S104:利用TextRank算法抽取单文本中的关键句子作为单文本,在单文本的基础上,进一步使用TextRank算法选取单文本中的关键句子作为话题表达;
本发明是完全无监督的算法,包括话题检测部分,因此对话题表达,本发明采用TextRank 算法无监督地对每个句子进行打分,并将分数作为衡量句子重要程度的依据,对多个文本的表达,通过将不同文本中相似度较大的句子当作同一个节点,进一步使用TextRank算法从所有单文本句子中抽取更关键的句子作为话题表达,并且按照句子在文本中出现的顺序,以及文本的时间顺序对这些句子进行排序;
如图2所示,该模块包含以下步骤:
将数据流按照固定时间间隔划分成不同的时间窗口;本实施例中以一小时的时间间隔为例,实际中,可按照数据的密集程度采用不同的时间间隔,如数据流较为密集时,以小时为单位,否则,则以天为单位;
所有文本使用预处理技术处理之后,统计每篇文本中的单词的词频(TF)信息,即每个词在该文本中出现次数,以及所有单词在数据集出现的文档数目用来计算单词的逆文档信息 (IDF);
逆文档信息(IDF)表示为:
Figure RE-GDA0003122948580000061
该项可以表示词的重要程度,词的文本数越多,该项越小,即该词越不重要,该式反映出越常见的词,越没有区分的,如汉语中的:的、好、例如、好像等等这些没有实际含义的词。
将句子中IDF值较低的项当作停用词删除;
计算每个词的TF·IDF值,计算方式为:
TF·IDF(t)=tf(t)*idf(t)
该项同时考虑词频信息以及逆文档信息,表示一个词在该文本中的重要程度,该值越大则越重要;
提取每篇文本中的标题特征:
feature_title={(t1,w1),(t2,w2),...,(tn,wn)}
其中t表示标题中的词,w为词的权重,使用该词的的TF·IDF值表示;
提取每篇文本中的正文特征:
对正文特征,使用在同一句中共现的词对表示,该词对中两个个词不分先后顺序,对文本正文所有句子,统计共现的词对,其特征可以表示为:
Figure RE-GDA0003122948580000062
其中
Figure RE-GDA0003122948580000063
为词对,这个词对中的两个词部分先后顺序,即不同顺序的两个词对看做为同一词对;wi表示该词对的权重,该权重由组成词对两个词的TF·IDF之计算,可表示为:
Figure RE-GDA0003122948580000064
与标题特征一样,该值越大,则表明该词对越重要;
本实施例使用标题特征和正文特征表示文本或话题,并使用余弦相似度计算不同文本或话题之间的相似度;
余弦相似度的计算方式可表示为:
Figure RE-GDA0003122948580000065
其中f1,f2为任意两个同类型的特征,即同为标题特征或同为正文特征,w(i,f1)为项i在f1中的权重;
因为使用余弦相似度表示话题之间相似度,所有向量在计算相似度之前都必须经过模长归一化处理;
两个文本或话题之间的相似度使用标题特征相似度和正文特征相似度的较大值表示:
话题相似度=最大值(标题相似度,正文相似度);
对同一时间窗口内的文本,使用凝聚层次聚类,具体步骤包括:
对同一时间窗口内的文本,将每个文本当作一个话题;
计算同一时间窗口所有话题对之间的相似度;
挑选相似度最大的值对应两个话题,并判断相似度是否大于阈值;
若大于阈值,则合并这两个话题,并更新所有话题相似度,继续迭代;
若小于阈值,则迭代结束,输出话题集合;
任意两个话题合并之后的特征为,合并之前的特征的并集,相同的项权值相加,不同的项直接加入话题,同时需要删除合并之后权值较低的项,从而进行降维;
对不同时间窗口内的文本或话题,使用单遍法进一步聚类,具体步骤包括:
输入所有时间窗口的话题;
将所有的时间窗口按照时间顺序排列,并依次读入;
将第一个时间窗口的话题当作当前话题集合,读入下一个时间窗口;
计算该时间窗口中每个话题和当前话题集合中所有话题的相似度;
对每个话题,挑选和当前话题集合所有话题的相似度最大值和阈值进行对比;
若大于阈值,则将该话题加入当前话题集合中对应的话题;
若小于阈值,则将该话题作为一个新的话题加入当前话题集合;
更新话题集合,包括更新对合并之后话题的特征表达,以及从当前话题集合中删除一些过时的话题从而控制当前话题集合的规模;
从当前话题集合中删除一些过时的话题,该步骤主要考虑话题内含文本个数以及话题到当前的时间距离这两个因素,后者使用话题最后活跃文本的时间和当前时间对比计算话题时间和当前时间的距离。删除当前话题集合中的一些话题,主要删除含文本数少以及距当前时间长的话题;
重新读入下一个时间窗口,直到没有新的时间窗口;
如图3所示,该模块包含以下步骤:
本发明中的话题表达模块具体包括单文本表达以及包含多个文本的话题表达;
单文本表达具体步骤为:
使用所有文本集合训练word2vec词向量模型;
对每个句子,首先使用word2vec模型将该句中所有词转换成词向量,然后,使用该句中所有向量的平均值作为表示该句的句向量;
对每篇文本,计算该文本中所有句子之间的相似度,得到相似度矩阵;
使用TextRank算法进行迭代,直到收敛;
迭代的计算过程可表示为:
Figure RE-GDA0003122948580000081
其中wji表示句子j和句子i边的权重也就是相似度,In(Vi)表示结点Vi也就是句子i的前驱结点集合,Out(Vj)表示节点Vj的后继结点集合,d为平滑参数;
计算每个句子的TR分数,并进行排序;
将排名最高的N个句子作为该文本的简要表达。
包含多个文本的话题表达具体步骤为:
输入该话题中所有文本表达的句子;
计算该话题所有文本表达句子之间的相似度;
将相似度大于阈值的句子看做为同一句子;
根据两两句子之间的相似度构建相似度矩阵;
使用TextRank算法进行进一步迭代,直到收敛;
计算每个句子的TR分数,筛选分数较高的句子;
根据,以及文本的时间顺序,以及句子在文本中出现的顺序对筛选过的表达句子进行排序,该排序结果作为最终的话题表达结果;
本发明的实施例所述的面向新闻的热点话题检测方法,将数据流按照时间间隔划分到不同的时间窗口,并提取文本的标题特征和正文特征;对同一时间窗口内的文本,使用凝聚层次聚类,得到同一时间窗口内话题微类;将时间窗口排序,按照顺序对不同时间窗口内的话题进行合并或生成新的话题,有效地完成话题检测的功能;最后使用两级TextRank算法无监督地得到每个话题的简要表达,实现了话题表达功能;
如图4所示,电子设备至少包含:处理器、内部存储器、输入输出接口以及总线。其中总线将所有部分连接起来并提供这些部分的通信功能,内部存储器可存储可以存储若干计算机可执行程序,处理器可完成内部存储器存储的计算机程序指令,输入输出接口负责该电子设备的内外信息交换。
最后需要说明的是:以上实施例仅作为对本发明的技术方案的具体说明。但是对其保护范围的限制并不限于该说明的精确步骤。本领域技术人员阅读本申请后,可以做出若干修改或等同的替换。这些修改也应该视为本发明的保护范围。

Claims (4)

1.一种面向新闻的热点话题检测方法,其特征在于,所述方法包括:预处理、基于时间窗口划分的多特征热点话题检测和基于多级TextRank的话题表达,具体操作按下列步骤进行:
a.预处理:是将内容进行识别、对复杂单词进行形态切分;
b.基于时间窗口划分的多特征热点话题检测:是对同一时间段内文本通过对比文本之间的相似度,使用凝聚层次聚类进行微聚类形成话题和对不同时间段的话题,按照时间先后进行排序,采用单遍法进行进一步话题聚类;
c.基于多级TextRank的话题表达:对所有单个文本通过TextRank算法生成单文本表达,对同一个话题中所有文本,在单文本表达的基础上,进一步使用TextRank算法生成话题表达,其中,所述基于多级TextRank的话题表达:
对所有单个文本通过TextRank算法生成单文本表达,即:
使用所有文本数据训练word2vec词向量模型;
将所有文本中每个单词使用训练好的word2vec词向量模型将词转换成词向量,并使用句子中所有词的词向量的平均值计算句向量;
使用余弦相似度计算同一文本中两两句子之间的相似度矩阵;
利用TextRank算法迭代地计算每个节点即每个句子的分数,计算公式可表示为:
Figure QLYQS_1
其中wji表示句子j和句子i边的权重也就是相似度,In(Vi)表示结点Vi也就是句子i的前驱结点集合,Out(Vj)表示节点Vj的后继结点集合,d为平滑参数;
将句子分数排名较高的n个句子作为该文本的简要表达;
所述基于多级TextRank的话题表达:
对同一个话题中所有文本,在单文本表达的基础上,进一步使用TextRank算法生成话题表达,即:
计算该话题中所有单文本表达句子之间的相似度;
将相似度大于阈值的句子看做为同一个句子;
进一步利用TextRank算法迭代地计算每个句子的分数;
选取排名较高的句子组成话题表达,并按照文本时间顺序以及句子在文本中出现的顺序,对其排序。
2.根据权利要求1所述的面向新闻的热点话题检测方法,其特征在于,步骤b中对同一时间段内文本通过对比文本之间的相似度使用凝聚层次聚类进行微聚类,即:同一时间窗口内的每个文本当做一个话题,两两计算同个时间窗口话题之间的相似度,相似度采用余弦相似度进行计算,两个话题之间分别计算标题向量之间的相似度和正文向量之间的相似度,话题之间相似度为这两个特征相似度的较大值,表示为:
话题相似度=最大值(标题相似度,正文相似度);
合并相似度最大的两个话题,直至最大相似度小于阈值。
3.根据权利要求1所述的面向新闻的热点话题检测方法,其特征在于,步骤b中对不同时间段的话题,按照时间先后进行排序,采用单遍法进行进一步话题聚类,即:
按照时间先后顺序,以时间窗口为单位进行排序;
按顺序依次读入每个时间窗口内的话题,并和当前有效的话题进行对比,判断是和当前话题合并,还是作为一个新的话题加入当前话题集合;
每处理一个时间窗口内话题之后,更新当前有效话题集合表示,同时将时间较长的话题移除当前有效话题集合。
4.一种面向新闻的热点话题检测装置,其特征在于,该装置涉及权利要求1所述方法中的装置,包括话题检测模块和话题表达模块,其中话题检测模块用于从新闻数据流中,发现属于同一话题的新闻文本,并将属于同一话题的新闻文本归为一类;
话题表达模块:用于对所述话题检测模块得到的包含多个新闻文本的话题进行总结,提炼简要的信息。
CN202110271853.9A 2021-03-13 2021-03-13 面向新闻的热点话题检测方法、装置及设备 Active CN113157857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110271853.9A CN113157857B (zh) 2021-03-13 2021-03-13 面向新闻的热点话题检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110271853.9A CN113157857B (zh) 2021-03-13 2021-03-13 面向新闻的热点话题检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113157857A CN113157857A (zh) 2021-07-23
CN113157857B true CN113157857B (zh) 2023-06-02

Family

ID=76886921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110271853.9A Active CN113157857B (zh) 2021-03-13 2021-03-13 面向新闻的热点话题检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113157857B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN107894994A (zh) * 2017-10-18 2018-04-10 北京京东尚科信息技术有限公司 一种检测热点话题类别的方法和装置
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110263169A (zh) * 2019-03-27 2019-09-20 青岛大学 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111090811A (zh) * 2019-12-24 2020-05-01 北京理工大学 一种海量新闻热点话题提取方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902525B (zh) * 2012-12-28 2016-09-21 国网新疆电力公司信息通信公司 维吾尔语词性标注方法
CN107644089B (zh) * 2017-09-26 2020-08-04 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN108268619B (zh) * 2018-01-08 2020-06-30 阿里巴巴集团控股有限公司 内容推荐方法及装置
US20190260694A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN107894994A (zh) * 2017-10-18 2018-04-10 北京京东尚科信息技术有限公司 一种检测热点话题类别的方法和装置
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN110263169A (zh) * 2019-03-27 2019-09-20 青岛大学 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
CN110134787A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种新闻话题检测方法
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111090811A (zh) * 2019-12-24 2020-05-01 北京理工大学 一种海量新闻热点话题提取方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
面向微博热点事件的话题检测及表述方法研究;周炜翔等;计算机应用研究;3565-3569,3578 *
面向汉维机器翻译的神经网络语言模型;李毓等;厦门大学学报(自然科学版);189-194 *

Also Published As

Publication number Publication date
CN113157857A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106708929B (zh) 视频节目的搜索方法和装置
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN112650910A (zh) 确定网站更新信息的方法、装置、设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
JP2009015796A (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant