CN113157857B

CN113157857B - 面向新闻的热点话题检测方法、装置及设备

Info

Publication number: CN113157857B
Application number: CN202110271853.9A
Authority: CN
Inventors: 杨雅婷; 张文博; 董瑞; 马博; 王磊; 周喜
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2021-03-13
Filing date: 2021-03-13
Publication date: 2023-06-02
Anticipated expiration: 2041-03-13
Also published as: CN113157857A

Abstract

本发明公开了一种面向新闻的热点话题检测方法、装置及设备，所述方法包括：针对预处理技术；将信息流划分到不同的时间窗口，通过提取标题特征和正文特征表达文本或话题；对同一时间窗口内的文本，使用凝聚层次聚类建立时间无关的话题检测模型，实现微聚类。对不同时间窗口内的话题使用单遍法建立跨时间窗口的话题检测模型，实现最终的话题聚类；最后，利用TextRank算法，通过先计算单文本的简要表达，再在单文本表达基础上进一步使用TextRank算法得到话题表达，实现对新闻自动归类，展现的目的。

Description

面向新闻的热点话题检测方法、装置及设备

技术领域

本发明涉及计算机技术中的自然语言信息处理领域，具体为一种面向新闻的热点话题检测方法、装置及设备。

背景技术

随着信息时代的到来，人们已经习惯于从互联网获取社会上的各种信息。但是互联网在极大地丰富了我们生活的同时带来了信息过载。互联网上充斥着大量的信息，这些信息中大部分不是人们真正想阅览的信息。属于同一个话题的新闻在互联网的分布上也往往比较分散。在寻找感兴趣的内容的同时，人们往往浪费了大量的时间在不感兴趣的内容上面。如何将信息有效的呈现在人们面前是当今社会的研究热点。而基话题检测系统可以自动发现互联网中热点话题，并将属于同一话题的新闻聚拢，同时可以对该话题提供简短的表达信息。该系统可以有效帮助人们快速浏览最近的热点新闻概况，同时对感兴趣的话题可以快速找到大部分该话题的相关细节信息。

目前很多中文新闻网站上都有热点新闻专栏，但是大多数网站都是通过人工来维护确保实时性和准确性。而对新闻网站来说，这种专栏还很少见，主要是因为新闻网站用户较少，人工维护代价相对较大。针对新闻的热点话题检测系统可以快速建立起相应的专栏并且可以自动地更新维护，从而以低成本的方式实现新闻网站的热点新闻专栏。

发明内容

本发明目的在于，提供一个面向新闻的热点话题检测方法、装置及设备，所述方法包括：针对预处理技术；将信息流划分到不同的时间窗口，通过提取标题特征和正文特征表达文本或话题；对同一时间窗口内的文本，使用凝聚层次聚类建立时间无关的话题检测模型，实现微聚类。对不同时间窗口内的话题使用单遍法建立跨时间窗口的话题检测模型，实现最终的话题聚类；最后，利用TextRank算法，通过先计算单文本表达，再在单文本表达基础上进一步使用 TextRank算法得到话题表达，实现对新闻自动归类的目的。

本发明所述的一种面向新闻的热点话题检测方法，所述方法包括：预处理、基于时间窗口划分的多特征热点话题检测和基于多级TextRank的话题表达，具体操作按下列步骤进行：

a.预处理：是将内容进行识别，形态切分；

b.基于时间窗口划分的多特征热点话题检测：是对同一时间段内文本通过对比文本之间的相似度，使用凝聚层次聚类进行微聚类形成话题和对不同时间段的话题，按照时间先后进行排序，采用单遍法进行进一步话题聚类；

c.基于多级TextRank的话题表达：对所有单个文本通过TextRank算法生成单文本表达，对同一个话题中所有文本，在单文本表达的基础上，进一步使用TextRank算法生成话题表达。

步骤b中对同一时间段内文本通过对比文本之间的相似度使用凝聚层次聚类进行微聚类，即：同一时间窗口内的每个文本当做一个话题，两两计算同个时间窗口话题之间的相似度，相似度采用余弦相似度进行计算，两个话题之间分别计算标题向量之间的相似度和正文向量之间的相似度，话题之间相似度为这两个特征相似度的较大值，表示为：

话题相似度＝最大值(标题相似度,正文相似度)；

合并相似度最大的两个话题，直至最大相似度小于阈值。

步骤b中对不同时间段的话题，按照时间先后进行排序，采用单遍法进行进一步话题聚类，即：

按照时间先后顺序，以时间窗口为单位进行排序；

按顺序依次读入每个时间窗口内的话题，并和当前有效的话题进行对比，判断是和当前话题合并，还是作为一个新的话题加入当前话题集合；

每处理一个时间窗口内话题之后，更新当前有效话题集合表示，同时将时间较长的话题移除当前有效话题集合。

步骤c中基于多级TextRank的话题表达：

对所有单个文本通过TextRank算法生成单文本表达，即：

使用所有文本数据训练word2vec词向量模型；

将所有文本中每个单词使用训练好的word2vec词向量模型将词转换成词向量，并使用句子中所有词的词向量的平均值计算句向量；

使用余弦相似度计算同一文本中两两句子之间的相似度矩阵；

利用TextRank算法迭代地计算每个节点即每个句子的分数，计算公式可表示为：

其中w_ji表示句子j和句子i边的权重也就是相似度，In(V_i)表示结点V_i也就是句子i的前驱结点集合，Out(V_j)表示节点V_j的后继结点集合，d为平滑参数。

将句子分数排名较高的n个句子作为该文本的简要表达。

步骤c中基于多级TextRank的话题表达：

对同一个话题中所有文本，在单文本表达的基础上，进一步使用TextRank算法生成话题表达，即：

计算该话题中所有单文本表达句子之间的相似度；

将相似度大于阈值的句子看做为同一个句子；

进一步利用TextRank算法迭代地计算每个句子的分数；

选取排名较高的句子作为话题表达句子，并按照文本时间顺序以及句子在文本中出现的顺序，对其排序。

所述的面向新闻的热点话题检测装置，该装置包括话题检测模块和话题表达模块，其中话题检测模块用于从新闻数据流中，发现属于同一话题的新闻文本，并将属于同一话题的新闻文本归为一类；

话题表达模块：用于对所述话题检测模块得到的包含多个新闻文本的话题进行总结，提炼简要的信息。

一种电子设备，包括处理器、内部存储器、输入输出设备以及总线，所述设备可以加载和执行权利要求1-6中所述的面向新闻的热点话题检测方法。

本发明所述的面向新闻的热点话题检测方法、装置及设备，该方法中：

针对预处理，包括内容识别、形态切分；

多特征的文本话题相似度计算，同时使用标题特征和基于词对的正文特征计算文本或话题之间的相似度；

不同时间特征的聚类，对同一时间内文本，使用凝聚层次聚类；对不同时间内的文本或话题，采用单遍法聚类；

基于两级TextRank的话题，首先利用TextRank计算单文本的表达信息，然后在此基础上进一步使用TextRank计算话题表达。

本发明提供了一种话题检测装置，该装置包括：

话题检测模块：用于从新闻数据流中，发现属于同一话题的新闻文本，并将属于同一话题的新闻文本归为一类。

话题表达模块：用于对所述话题检测模块得到的包含多个新闻文本的话题进行总结，提炼简要的表达信息。

本发明提供了一种电子设备，该设备包括：

至少一个处理器、一个内部存储器、输入输出接口；

所述设备全都通过总线连接，可以互相通信，所述处理器可以执行内部存储器的所存储的文本发明的程序指令，输入输出接口可将外部信息传入内部存储器，并可以将内部存储器或处理器的信息输出到外部环境。

本公开实施例提供的技术方案是完全无监督的，因此本公开不需要其他额外的代价就可以直接实现对新闻的热点话题检测和表达功能。

应当理解，本部分所描述的内容和后文具体实施方案的示例性描述，并不能限制本发明的范围。

附图说明

图1为本发明的流程示意图；

图2为本发明检测装置的结构示意图；

图3为本发明话题检测模块的具体实现流程图；

图4为本发明话题表达模块的具体实现流程图；

图5为本发明实施例提供的面向新闻的热点话题检测设备的示意图。

具体实施方式

为了使本技术领域的相关人员更好地理解本发明方案，下面结合附图对本发明做进一步的详细阐述。

a.预处理：是将内容进行识别，进行形态切分；

b.基于时间窗口划分的多特征热点话题检测：是对同一时间段内文本通过对比文本之间的相似度，使用凝聚层次聚类进行微聚类和对不同时间段的话题，按照时间先后进行排序，采用单遍法进行进一步话题聚类；

话题相似度＝最大值(标题相似度,正文相似度)；

合并相似度最大的两个话题，直至最大相似度小于阈值。

按照时间先后顺序，以时间窗口为单位进行排序；

步骤c中基于多级TextRank的话题表达：

对所有单个文本通过TextRank算法生成单文本表达，即：

使用所有文本数据训练word2vec词向量模型；

将句子分数排名较高的n个句子作为该文本的简要表达。

步骤c中基于多级TextRank的话题表达：

计算该话题中所有单文本表达句子之间的相似度；

将相似度大于阈值的句子看做为同一个句子；

进一步利用TextRank算法迭代地计算每个句子的分数；

一种电子设备，包括处理器、内部存储器、输入输出设备以及总线，所述设备可以加载和执行权利要求1-6中所述的面向新闻的热点话题检测方法；

如图1所示，该方法包含以下步骤：

步骤S101：获取新闻数据流，利用预处理技术预处理所有的新闻文本；

本发明的面向提供的基于话题检测新闻的热点话题检测，需要提前对新闻文本进行预处理，话题检测与话题表达都是在预处理的基础上进行的；预处理主要包括：识别数据流中的新闻主体，删除不属于文本的噪音文本，比如URL链接、javascript脚本等和新闻无关的信息；对文本进行的断句切分；由于形态复杂的语言，包含很多语义丰富并且长度较长的单词，很多词在形态上稍有差异，但是实际上却表示相同的意思；这中情况容易词表规模较大，存在较多的稀疏词，因此在断句之后需要对单词进行形态切分，将较长的单词切分成词干、词缀的形式，然后提取词干当作单独的单词，从而降低词表规模；

步骤S103：对同一时间窗口的文本使用凝聚层次聚类，对不同时间窗口的话题使用单遍法聚类，建立话题检测模型；

话题在分布上具有明显的特性，同一话题往往出现在连续的时间段内，但是由于互联网新闻的密集性，在较短的时间内往往就存在大量的互不相关的新闻，在短间隔的时间段内，时间特征对话题检测作用有限；因此，为了提高话题检测精度，本发明在短时间间隔内使用凝聚层次聚类，优先合并内容相似度最高的文本或话题，在较长的时间间隔内使用单遍法聚类，优先考虑将时间尺度上更近的话题加入当前话题；

步骤S104：利用TextRank算法抽取单文本中的关键句子作为单文本，在单文本的基础上，进一步使用TextRank算法选取单文本中的关键句子作为话题表达；

本发明是完全无监督的算法，包括话题检测部分，因此对话题表达，本发明采用TextRank 算法无监督地对每个句子进行打分，并将分数作为衡量句子重要程度的依据，对多个文本的表达，通过将不同文本中相似度较大的句子当作同一个节点，进一步使用TextRank算法从所有单文本句子中抽取更关键的句子作为话题表达，并且按照句子在文本中出现的顺序，以及文本的时间顺序对这些句子进行排序；

如图2所示，该模块包含以下步骤：

将数据流按照固定时间间隔划分成不同的时间窗口；本实施例中以一小时的时间间隔为例，实际中，可按照数据的密集程度采用不同的时间间隔，如数据流较为密集时，以小时为单位，否则，则以天为单位；

所有文本使用预处理技术处理之后，统计每篇文本中的单词的词频(TF)信息，即每个词在该文本中出现次数，以及所有单词在数据集出现的文档数目用来计算单词的逆文档信息 (IDF)；

逆文档信息(IDF)表示为：

该项可以表示词的重要程度，词的文本数越多，该项越小，即该词越不重要，该式反映出越常见的词，越没有区分的，如汉语中的：的、好、例如、好像等等这些没有实际含义的词。

将句子中IDF值较低的项当作停用词删除；

计算每个词的TF·IDF值，计算方式为：

TF·IDF(t)＝tf(t)*idf(t)

该项同时考虑词频信息以及逆文档信息，表示一个词在该文本中的重要程度，该值越大则越重要；

提取每篇文本中的标题特征：

feature_title＝{(t₁，w₁)，(t₂，w₂)，...，(t_n，w_n)}

其中t表示标题中的词，w为词的权重，使用该词的的TF·IDF值表示；

提取每篇文本中的正文特征：

对正文特征，使用在同一句中共现的词对表示，该词对中两个个词不分先后顺序，对文本正文所有句子，统计共现的词对，其特征可以表示为：

其中

为词对，这个词对中的两个词部分先后顺序，即不同顺序的两个词对看做为同一词对；w_i表示该词对的权重，该权重由组成词对两个词的TF·IDF之计算，可表示为：

与标题特征一样，该值越大，则表明该词对越重要；

本实施例使用标题特征和正文特征表示文本或话题，并使用余弦相似度计算不同文本或话题之间的相似度；

余弦相似度的计算方式可表示为：

其中f₁，f₂为任意两个同类型的特征，即同为标题特征或同为正文特征，w(i，f₁)为项i在f₁中的权重；

因为使用余弦相似度表示话题之间相似度，所有向量在计算相似度之前都必须经过模长归一化处理；

两个文本或话题之间的相似度使用标题特征相似度和正文特征相似度的较大值表示：

话题相似度＝最大值(标题相似度,正文相似度)；

对同一时间窗口内的文本，使用凝聚层次聚类，具体步骤包括：

对同一时间窗口内的文本，将每个文本当作一个话题；

计算同一时间窗口所有话题对之间的相似度；

挑选相似度最大的值对应两个话题，并判断相似度是否大于阈值；

若大于阈值，则合并这两个话题，并更新所有话题相似度，继续迭代；

若小于阈值，则迭代结束，输出话题集合；

任意两个话题合并之后的特征为，合并之前的特征的并集，相同的项权值相加，不同的项直接加入话题，同时需要删除合并之后权值较低的项，从而进行降维；

对不同时间窗口内的文本或话题，使用单遍法进一步聚类，具体步骤包括：

输入所有时间窗口的话题；

将所有的时间窗口按照时间顺序排列，并依次读入；

将第一个时间窗口的话题当作当前话题集合，读入下一个时间窗口；

计算该时间窗口中每个话题和当前话题集合中所有话题的相似度；

对每个话题，挑选和当前话题集合所有话题的相似度最大值和阈值进行对比；

若大于阈值，则将该话题加入当前话题集合中对应的话题；

若小于阈值，则将该话题作为一个新的话题加入当前话题集合；

更新话题集合，包括更新对合并之后话题的特征表达，以及从当前话题集合中删除一些过时的话题从而控制当前话题集合的规模；

从当前话题集合中删除一些过时的话题，该步骤主要考虑话题内含文本个数以及话题到当前的时间距离这两个因素，后者使用话题最后活跃文本的时间和当前时间对比计算话题时间和当前时间的距离。删除当前话题集合中的一些话题，主要删除含文本数少以及距当前时间长的话题；

重新读入下一个时间窗口，直到没有新的时间窗口；

如图3所示，该模块包含以下步骤：

本发明中的话题表达模块具体包括单文本表达以及包含多个文本的话题表达；

单文本表达具体步骤为：

使用所有文本集合训练word2vec词向量模型；

对每个句子，首先使用word2vec模型将该句中所有词转换成词向量，然后，使用该句中所有向量的平均值作为表示该句的句向量；

对每篇文本，计算该文本中所有句子之间的相似度，得到相似度矩阵；

使用TextRank算法进行迭代，直到收敛；

迭代的计算过程可表示为：

其中w_ji表示句子j和句子i边的权重也就是相似度，In(V_i)表示结点V_i也就是句子i的前驱结点集合，Out(V_j)表示节点V_j的后继结点集合，d为平滑参数；

计算每个句子的TR分数，并进行排序；

将排名最高的N个句子作为该文本的简要表达。

包含多个文本的话题表达具体步骤为：

输入该话题中所有文本表达的句子；

计算该话题所有文本表达句子之间的相似度；

将相似度大于阈值的句子看做为同一句子；

根据两两句子之间的相似度构建相似度矩阵；

使用TextRank算法进行进一步迭代，直到收敛；

计算每个句子的TR分数，筛选分数较高的句子；

根据，以及文本的时间顺序，以及句子在文本中出现的顺序对筛选过的表达句子进行排序，该排序结果作为最终的话题表达结果；

本发明的实施例所述的面向新闻的热点话题检测方法，将数据流按照时间间隔划分到不同的时间窗口，并提取文本的标题特征和正文特征；对同一时间窗口内的文本，使用凝聚层次聚类，得到同一时间窗口内话题微类；将时间窗口排序，按照顺序对不同时间窗口内的话题进行合并或生成新的话题，有效地完成话题检测的功能；最后使用两级TextRank算法无监督地得到每个话题的简要表达，实现了话题表达功能；

如图4所示，电子设备至少包含：处理器、内部存储器、输入输出接口以及总线。其中总线将所有部分连接起来并提供这些部分的通信功能，内部存储器可存储可以存储若干计算机可执行程序，处理器可完成内部存储器存储的计算机程序指令，输入输出接口负责该电子设备的内外信息交换。

最后需要说明的是：以上实施例仅作为对本发明的技术方案的具体说明。但是对其保护范围的限制并不限于该说明的精确步骤。本领域技术人员阅读本申请后，可以做出若干修改或等同的替换。这些修改也应该视为本发明的保护范围。

Claims

1.一种面向新闻的热点话题检测方法，其特征在于，所述方法包括：预处理、基于时间窗口划分的多特征热点话题检测和基于多级TextRank的话题表达，具体操作按下列步骤进行：

a.预处理：是将内容进行识别、对复杂单词进行形态切分；

c.基于多级TextRank的话题表达：对所有单个文本通过TextRank算法生成单文本表达，对同一个话题中所有文本，在单文本表达的基础上，进一步使用TextRank算法生成话题表达，其中，所述基于多级TextRank的话题表达：

对所有单个文本通过TextRank算法生成单文本表达，即：

使用所有文本数据训练word2vec词向量模型；

将句子分数排名较高的n个句子作为该文本的简要表达；

所述基于多级TextRank的话题表达：

计算该话题中所有单文本表达句子之间的相似度；

将相似度大于阈值的句子看做为同一个句子；

进一步利用TextRank算法迭代地计算每个句子的分数；

选取排名较高的句子组成话题表达，并按照文本时间顺序以及句子在文本中出现的顺序，对其排序。

2.根据权利要求1所述的面向新闻的热点话题检测方法，其特征在于，步骤b中对同一时间段内文本通过对比文本之间的相似度使用凝聚层次聚类进行微聚类，即：同一时间窗口内的每个文本当做一个话题，两两计算同个时间窗口话题之间的相似度，相似度采用余弦相似度进行计算，两个话题之间分别计算标题向量之间的相似度和正文向量之间的相似度，话题之间相似度为这两个特征相似度的较大值,表示为：

话题相似度＝最大值(标题相似度,正文相似度)；

合并相似度最大的两个话题，直至最大相似度小于阈值。

3.根据权利要求1所述的面向新闻的热点话题检测方法，其特征在于，步骤b中对不同时间段的话题，按照时间先后进行排序，采用单遍法进行进一步话题聚类，即：

按照时间先后顺序，以时间窗口为单位进行排序；

4.一种面向新闻的热点话题检测装置，其特征在于，该装置涉及权利要求1所述方法中的装置，包括话题检测模块和话题表达模块，其中话题检测模块用于从新闻数据流中，发现属于同一话题的新闻文本，并将属于同一话题的新闻文本归为一类；