CN109960756B

CN109960756B - 新闻事件信息归纳方法

Info

Publication number: CN109960756B
Application number: CN201910207437.5A
Authority: CN
Inventors: 张旭; 刘春阳; 石瑾; 张翔宇; 李建欣; 闫昊; 邰振赢
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2021-04-09
Anticipated expiration: 2039-03-19
Also published as: CN109960756A

Abstract

本发明公开了一种新闻事件信息归纳方法，包括：收集新闻素材，创建新闻库；从新闻库中获取目标事件的所有新闻文本，并进行热度分析，获取拐点新闻文本，抽取所述拐点新闻文本中的事件信息并保存；其中，获取拐点新闻文本的方法包括：统计所有新闻文本的热度值，按照新闻文本发布的时间顺序排序，构建热度值随时间变化的曲线图，取曲线图的所有极大点对应的新闻文本，即为所述拐点新闻文本，所述热度值为新闻的页面浏览量和网站独立访客量之和。本发明的方法通过选择对于目标新闻事件处于关键节点时的新闻文本——即拐点新闻文本进行摘要分析处理，准确地反映了新闻事件的发展态势。

Description

新闻事件信息归纳方法

技术领域

本发明涉及信息抽取领域，具体是新闻事件信息归纳方法。

背景技术

近几年来，随着计算机和信息技术的迅猛发展和普及应用，人们越来越依赖互联网获取关于目标新闻事件信息的收集。以往的信息抽取系统虽然可以在一定程度上帮助用户检索到大量的目标信息，但是由于身处信息量爆炸的时代所带来的桎梏，使得用户常常直接检索到的是大量的围绕目标事件的相关信息，用户还需要进一步从中筛选，才能得到有用信息；此外，事件是随着时间的变化而处于动态的发展中的，现有的信息抽取系统在搜索目标事件时，很难将关于事件的发展趋势呈现出来，这难免给用户分析目标事件的进程又带来了诸多困扰。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种新闻事件信息归纳方法。本发明通过选择对于目标新闻事件处于关键节点时的新闻文本——即拐点新闻文本进行摘要分析处理，准确地反映了新闻事件的发展态势。

为了实现根据本发明的这些目的和其它优点，提供了一种新闻事件信息归纳方法，其特征在于，包括：

收集新闻素材，创建新闻库；

从新闻库中获取目标事件的所有新闻文本，并进行热度分析，获取拐点新闻文本，抽取所述拐点新闻文本中的事件信息并保存；

其中，获取拐点新闻文本的方法包括：统计所有新闻文本的热度值，按照新闻文本发布的时间顺序排序，构建热度值随时间变化的曲线图，取曲线图的所有极大点对应的新闻文本，即为所述拐点新闻文本，所述热度值为新闻的页面浏览量和网站独立访客量之和。

优选地是，所述的新闻事件信息归纳方法中，从拐点新闻文本中抽取事件摘要，按照新闻文本发布的时间顺序排序并保存，即构成所述事件信息；

其中，所述事件摘要的抽取方法包括：

将所述拐点新闻文本进行分句处理，构建拐点新闻文本中所有句子之间的连通图；

应用文本摘要算法对连通图进行分析，获得每个句子的权重，将所有的句子依照权重大小进行排序，然后按照权重的排序从大到小选取预设数量的句子组合后保存为事件摘要；

其中，连通图的公式为：G＝(V,E)，连通图的构建方法为：将拐点新闻文本中每个句子都作为一个句子顶点，统计所有的句子顶点构成顶点集合V，如果一个句子与其他句子之间存在关系则形成边，统计所有的边构成边集合E。

优选的是，所述的新闻事件信息归纳方法中，所述事件信息还包括专业观点，所述专业观点的获取方法为：

创建观点库；

从收集的新闻素材中抽取观点素材存入观点库中；

从观点库中获取目标事件的所有观点文本；

对获取的所有观点文本进行聚类，得到观点簇集合，利用文本摘要算法分别提取每个观点簇的概要描述；

将每个观点簇中的观点文本与其相对应的概要描述保存在一起，即得所述专业观点。

优选的是，所述的新闻事件信息归纳方法中，所述观点文本包括：

评论主体、以及评述观点；

其中，评论主体包括机构与专家中的至少一项，当所述专家项目存在时，所述观点文本还包括与所述专家条目对应的职位信息；

所述观点文本的获取方法包括：

建立观点表达动词库；

将收集的新闻素材依次进行分句、分词和词性标注处理，得到标记语句；

将标记语句与观点表达动词库进行对比，判断标记语句中是否包含观点表达动词，如果标记语句中包含观点表达动词，将观点表达动词之后的内容作为评述观点，然后从标记语句的主语中抽取人名作为专家，抽取人名前的名词作为专家的职位，如果标记语句的主语不包含人名，则抽取机构实体作为机构；

保存抽取的专家、机构、职位以及评述观点，即得所述观点文本。

优选的是，所述的新闻事件信息归纳方法中，对获取的所有观点文本进行聚类包括：

将获取的所有观点文本用向量表示，构成观点文本向量库；

对于观点簇的数量预设一个范围，范围内的每个数值对应一种观点簇集合；

利用高斯混合模型按照预设范围的数值将观点文本向量库分为多个观点簇集合；

在高斯混合模型下计算每个观点簇集合的轮廓系数，选取轮廓系数最大的观点簇集合为最终的聚类结果；

其中，轮廓系数的公式为：

a(i)表示对象i到簇内其它对象的欧式距离的平均值，b(i)表示对象i到其他簇对象的平均欧式距离的最小值，对象指的是观点文本向量。

其中，将获取的所有观点文本用向量表示的方法包括：

将观点文本的评述观点进行分词处理，得到观点词语的集合，计算每个观点词语的TF-IDF值；

对集合中的观点词语按照TF-IDF值进行大小排序，按照TF-IDF值从大到小的顺序选取预设数目的词语；

对所选取的词语的词向量求平均值，将词向量的平均值作为所述观点文本的向量表示。

优选的是，所述的新闻事件信息归纳方法中，所述新闻库、观点库的创建还包括：

利用爬虫技术收集新闻素材，将收集到的新闻素材、观点素材分别存入所述新闻库、观点库后，新闻库、观点库存储在分布式索引数据库；

其中，所述分布式索引数据库具有云计算功能。

优选的是，所述的新闻事件信息归纳方法中，所述文本摘要算法为Text rank算法，所述Text rank的计算公式为：

WS是句子的权重，d是阻尼系数，一般设置为0.85，In(Vi)是指存在与句子i有关的句子集合，Out(Vj)是指存在与句子j有关的句子的集合，|Out(Vj)|是集合中元素的个数。

优选的是，所述的新闻事件信息归纳方法中，所述事件信息还包括网友评论，所述网友评论包括评论要点、情感与地域分布，所述网友评论的获取方法包括：

从新闻库中获取目标事件的所有新闻文本，从目标新闻文本中抽取评论信息，保存为评论文本；

对评论文本进行聚类分析，获得评论簇，对于评论簇中的评论进行句法依存分析，统计评论簇中的评论语句中的主谓短语和动宾短语在其所属评论簇中出现的频率，将频率最高的短语作为对评论簇的归纳，形成评论要点；

利用文本分类模型训练评论网友的情感分类模型，计算出网友评论文本中的情感倾向，并统计与所述情感倾向对应的地域。

本发明至少包括以下有益效果：

1、本发明通过选择对于目标新闻事件处于关键节点时的新闻文本——即拐点新闻文本进行摘要分析处理，准确地反映了新闻事件的发展态势。

2、本发明对专业观点与网友评论分别作了聚类以及观点摘要处理，使对于新闻事件信息的表达与反映更清晰明了。

3、本发明的新闻库与观点库储存在分布式索引数据库中，能够实时更新素材文本。

4、本发明的新闻事件信息归纳方法，不仅要对事件发展做了客观描述——即事件摘要，同时综合了社会对于该事件的评论与看法——即专业观点与网友评论。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的新闻事件信息归纳方法的其中一个技术方案中的流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供了一种新闻事件信息归纳方法，包括：

收集新闻素材，创建新闻库；

在上述技术方案中，本发明提供的新闻事件信息归纳方法主要包括创建新闻库；获取目标事件新闻文本；获取拐点新闻文本以及抽取事件信息几个部分。其中，创建新闻库利用的方案主要是现有技术，例如可以人工收集新闻素材或者通过网络爬虫技术从网页中爬取新闻素材，然后存入到新闻库中。为了便于从新闻库中获取与目标事件相关的新闻文本，可以在新闻库中安装搜索模块，这里的搜索模块具体可以由ElasticSearch浏览器来实现；在具体的一种实施例中，例如给出事件关键词“事故”，那么在搜索模块的检索中输入“事故”关键词即可，搜索模块会自动从新闻库中查询到所有的与“事故”相关的新闻文本。接下来，继续对获取的所有目标事件新闻文本进行热度分析以得到拐点新闻文本；这里的热度值定义为新闻的页面浏览量(pv)和网站独立访客量(uv)之和，根据热度值的定义计算出所有新闻文本的热度值并统计，按照新闻文本发布的时间顺序排序，构建热度值随时间变化的曲线图，找出曲线图的所有极大点对应的新闻文本，保存为拐点新闻文本，如下表1所示，表1反映的是本发明中获取拐点新闻文本的一个具体实施例所进行的过程，在这个实施例中，首先按照事件关键词从新闻库中检索出t1～t8时间段的新闻文本n1～n8，新闻文本n1～n8的热度值依次为1、3、1、2、1、4、3、1，至此依照前述的数据便可以绘制出曲线图，得到曲线图的极大值，在这个例子中，极大值分别为3、2、4，其对应的新闻文本为n2、n4、n6，由此即得拐点新闻文本。最后，抽出每一篇拐点新闻文本中的事件信息，即完成本发明的主要步骤。此外，由于热度极大值对应的新闻文本反映出了一定时间段内人们对某一事件的关注度，所以利用拐点新闻文本抽取的事件信息从一定程度上也就表达了该事件的发展趋势。进一步地，如果得到的拐点新闻文本数量过多的话，还可以按照热度值的大小筛选掉一部分拐点新闻文本，使得抽取的事件信息更加清晰明了。

表1

在另一种技术方案中，所述的新闻事件信息归纳方法中，从拐点新闻文本中抽取事件摘要，按照新闻文本发布的时间顺序排序并保存，即构成所述事件信息；

其中，所述事件摘要的抽取方法包括：

上述技术方案中，事件摘要是对于每一篇拐点新闻文本的重点概括。在获取拐点新闻文本以后，将其输入摘要处理模块进行分句处理以构成连通图，连通图的公式为：G＝(V,E)，连通图具体的构建方法为：将拐点新闻文本中每个句子都作为一个句子顶点，统计所有的句子顶点构成顶点集合V，如果一个句子与其他句子之间存在关系则形成边，统计所有的边构成边集合E。连通图构建完成以后，摘要处理模块即可通过文本摘要算法对连通图计算，获取每个句子的权重，按照权重值的排序从大到小选取预设数量的句子组合后保存为摘要信息。如下表2所示，表2中记载的是某一篇拐点新闻文本中所有句子权重值的信息，其中从句子a至句子e，权重值依次减小；在选择构成摘要的句子时，可以预设构成摘要的句子数量为3，那么排名按照排名依次选取前3即序号为a～b的句子，将这3个句子组在一份文档中，即构成一篇事件摘要。

表2

句子序号	a	b	c	d	e
						权重值排名	1	2	3	4	5

在另一种技术方案中，所述的新闻事件信息归纳方法中，所述事件信息还包括专业观点，所述专业观点的获取方法为：

创建观点库；

从收集的新闻素材中抽取观点素材存入观点库中；

从观点库中获取目标事件的所有观点文本；

上述技术方案中，与新闻库的创建类似，观点库中同样设有搜索模块，用于检索查询与目标事件相关的所有观点文本。获取所有的观点文本后，对观点文本进行聚类，得到观点簇集合，集合中的每一个观点簇都囊括了一类相似的观点文本。得到观点簇后，对每个观点簇中的观点文本进行概要提取，提取的方法为：将观点簇中的每一篇观点文本看作是一句话，而观点簇内的全部观点文本则视为一篇文章，利用文本摘要算法对其进行概要抽取，具体过程同前述某个技术方案中事件摘要抽取的方法相类似。最后，将每个观点簇中的观点文本与其相对应的概要描述保存在一起，即得所述专业观点。

在另一种技术方案中，所述的新闻事件信息归纳方法中，所述观点文本包括：

评论主体、以及评述观点；

所述观点文本的获取方法包括：

建立观点表达动词库；

上述技术方案中，观点文本获取的一个关键是观点表达动词库的建立，中文表达观点的方式有很多，可以概括为显式表达和隐式表达，显式表达通常包含主谓结构，谓语是表达观点的动词，例如：说、表示、认为等。本发明的技术方案中则以这三个词为种子词，通过词向量技术，计算这三个词的近义词，最终获取了一个包含48个词语的观点表达动词库。对于每一篇新闻素材首先进行分句处理，然后利用词法分析工具，进行分词和词性标注处理，判断句子中是否包含观点表达动词，如果包含则进一步进行句法依存分析和命名实体识别，从观点表达动词的主语中抽取人名作为专家，抽取人名前的名词作为专家的职位，若观点表达动词的主语不包含人名，则抽取机构实体作为机构，将观点表达动词之后的内容作为评述观点。需要注意的是，在新闻报道中，通常开头会介绍专家的职位，在后续报道中则省略该专家的职位，因此在同一篇新闻素材中，同一个专家的职位应当相同。

在另一种技术方案中，所述的新闻事件信息归纳方法中，对获取的所有观点文本进行聚类包括：

将获取的所有观点文本用向量表示，构成观点文本向量库；

对于观点簇的数量预设一个范围，范围内的每个数值对应一个观点簇集合；

其中，轮廓系数的公式为：

其中，将获取的所有观点文本用向量表示的方法包括：

上述技术方案中的细节，可以按照如下过程操作：首先将获取的所有观点文本用向量表示，例如观点文本1、观点文本2、观点文本3……，转换后即变为向量m、向量n、向量l……；然后预设观点簇的数量范围，例如可以预先设定观点簇的数量范围为(3～5)，这样即构成一个关于观点簇预设数量的集合{3,4,5}；利用高斯混合模型按照前述集合中的数值依次将观点文本向量库分为与其对应的多个观点簇集合，当观点簇数量预设为3时，则将观点文本向量库分为3个观点簇，这3个观点簇则构成一个观点簇集合，依次类推，观点簇数量预设为5，即将观点文本向量库分为5个观点簇，同样地，这5个观点簇构成另一个观点簇集合，所以当观点簇预设数量的集合为{3,4,5}时，说明观点簇集合的数量为3；然后在高斯混合模型下分别计算前述3个观点簇集合的轮廓系数，选取轮廓系数最大的观点簇集合为最终的聚类结果；也即是说，如果当观点簇数量为4时，轮廓系数最大，即选取此条件下的观点簇集合为最终聚类结果，那么就将所有的观点文本分为4类，得到4个不同的观点簇，由此就完成对于对获取的所有观点文本的聚类工作。

在另一种技术方案中，所述的新闻事件信息归纳方法中，所述新闻库、观点库的创建还包括：

利用爬虫技术收集新闻素材，将收集到的新闻素材、观点素材分别存入所述新闻库、观点库后，新闻库、观点库存储在分布式索引数据库。

上述技术方案中，本发明的新闻素材是通过爬虫模块从网页中实时爬取的，每爬取一篇新的新闻素材，首先提取出其中的观点素材存入观点库，然后再将新闻素材存入新闻库。进一步的设计是，新闻库、观点库存入分布式索引数据库中，分布式索引数据库不仅可以提供全文信息检索，同时可以实时更新新闻库、观点库中存入的新素材。这里所说的分布式索引数据库可以由Elastic Search构建并实现其功能。

在另一种技术方案中，所述的新闻事件信息归纳方法中，所述文本摘要算法为Text rank算法，所述Text rank的计算公式为：

在另一种技术方案中，所述的新闻事件信息归纳方法中，所述事件信息还包括网友评论，所述网友评论包括评论要点、情感与地域分布，所述网友评论的获取方法包括：

上述技术方案中，新闻文本中评论信息与时间、地点、新闻内容等其他信息处在不同的字段，当需要抽取评论信息时，先从新闻库中通过事件关键词检索获取目标事件的所有新闻文本，然后将新闻文本中评论字段对应的信息抽取出来即可。获得评论文本后，利用分词工具对评论文本进行分词以及去除停用词处理，使用Gensim工具包中lda主题模型对网友评论进行建模，得到每句评论的向量表示，再使用kmeans算法对所有评论进行聚类，获得语义相近的评论簇。对于评论簇中的评论进行句法依存分析，统计评论簇中的评论语句中的主谓短语和动宾短语在其所属评论簇中出现的频率，将频率最高的短语作为对评论簇的归纳，形成评论要点。最后使用Textcnn在公开语料集上训练一个情感分类模型，计算出评论文本中的网友情感倾向，并统计不同省份网友的情感倾向的分布。前述的情感分析模型是现有技术，我们用这个模型得到一条网友评论的情感倾向的预测——正向、负向或者中立，然后统计不同省份网友的情感倾向，得到的最终结果如：北京市95％的网友表达了积极的情感。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.新闻事件信息归纳方法，其特征在于，包括：

收集新闻素材，创建新闻库；

其中，获取拐点新闻文本的方法包括：统计所有新闻文本的热度值，按照新闻文本发布的时间顺序排序，构建热度值随时间变化的曲线图，取曲线图的所有极大点对应的新闻文本，即为所述拐点新闻文本，所述热度值为新闻的页面浏览量和网站独立访客量之和；

从拐点新闻文本中抽取事件摘要，按照新闻文本发布的时间顺序排序并保存，即构成所述事件信息；

其中，所述事件摘要的抽取方法包括：

其中，连通图的公式为：G＝(V,E)，连通图的构建方法为：将拐点新闻文本中每个句子都作为一个句子顶点，统计所有的句子顶点构成顶点集合V，如果一个句子与其他句子之间存在关系则形成边，统计所有的边构成边集合E；

所述事件信息还包括专业观点，所述专业观点的获取方法为：

创建观点库；

从收集的新闻素材中抽取观点素材存入观点库中；

从观点库中获取目标事件的所有观点文本；

将每个观点簇中的观点文本与其相对应的概要描述保存在一起，即得所述专业观点；

所述观点文本包括：评论主体、以及评述观点；

所述观点文本的获取方法包括：

建立观点表达动词库；

保存抽取的专家、机构、职位以及评述观点，即得所述观点文本；

对获取的所有观点文本进行聚类包括：

将获取的所有观点文本用向量表示，构成观点文本向量库；

其中，轮廓系数的公式为：

a(i)表示对象i到簇内其它对象的欧式距离的平均值，b(i)表示对象i到其他簇对象的平均欧式距离的最小值，对象指的是观点文本向量；

其中，将获取的所有观点文本用向量表示的方法包括：

对所选取的词语的词向量求平均值，将词向量的平均值作为所述观点文本的向量表示；

所述新闻库、观点库的创建还包括：

利用爬虫技术收集新闻素材，将收集到的新闻素材、观点素材分别存入所述新闻库、观点库后，新闻库、观点库存储在分布式索引数据库中；

所述文本摘要算法为Text rank算法，所述Text rank的计算公式为：

WS是句子的权重，d是阻尼系数，一般设置为0.85，In(Vi)是指存在与句子i有关的句子集合，Out(Vj)是指存在与句子j有关的句子的集合，|Out(Vj)|是集合中元素的个数；

所述事件信息还包括网友评论，所述网友评论包括评论要点、情感与地域分布，所述网友评论的获取方法包括：