CN114722194A

CN114722194A - 一种基于摘要生成算法的突发事件时间序列自动构建方法

Info

Publication number: CN114722194A
Application number: CN202210250569.8A
Authority: CN
Inventors: 贾海涛; 刘桐; 李家伟; 黄婧; 邢增桓; 林思远
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-07-08
Anticipated expiration: 2042-03-15
Also published as: CN114722194B

Abstract

本发明提供了一种基于摘要生成算法的突发事件时间序列自动构建的方法，将事件文档输入后，即可获得事件发生经过的详细且简洁的描述。该方法通过文本聚类、摘要生成技术以及消除冗余等自然语言处理技术，将互联网上繁杂冗长的事件报道，以简练的且有时间逻辑组织的事件序列呈现给用户，极大地减少了用户了解某一事件消耗的时间和精力。因突发事件对人类社会通常有着直接的影响，所需时间成本小的事件时序信息，也更利于传播，利于群众了解状况的同时做好相应的举措。

Description

一种基于摘要生成算法的突发事件时间序列自动构建方法

技术领域

本发明属于自然语言生成领域。

背景技术

根据定义，突发事件指的是突然发生、造成或者可能造成严重社会危害，需要采取应急处置措施予以应对的事件。突发事件符合以下一项或多项条件：对健康、生命、财产和环境构成直接威胁；已经造成生命财产损失、健康损害和环境破坏；极有可能加剧对健康、生命、财产和环境的迫害。由于突发事件对人类社会及环境造成直接的破坏性和重大影响，人民群众对突发事件抱有极大地关注度。

在当今的移动互联网时代，有助于大众及时获取有关突发事件的信息并施行相关援助等。但同时，网络上信息纷杂，大众很难系统性、逻辑性地了解某一事件，尤其是当该事件影响持续时间较长时。且互联网上大量繁杂的文字信息也会劝退许多想要利用碎片时间了解事件经过的群众。由于群众对突发事件的高度关注，网络上除了对突发事件的常规报道之外，还会滋生各种谣言诈骗信息等。互联网庞大的体量会致使许多片面了解经过的群众轻信谣言，造成恐慌或者不良甚至恶劣的舆论影响。因此，将突发事件的发展过程尽可能全面且短而精的组织起来，应用于群众碎片化场景的阅读是十分有必要的。基于此，本发明提出了一种自动构建突发事件时间序列的方法，方便用户快速了解事件的发生经过及影响。

发明内容

突发事件时间序列构建主要包含四个步骤：爬虫、文本预处理、文本聚类及去重、突发事件时间序列生成。本发明主要针对突发事件时间序列构建，提出一种基于摘要生成算法融合冗余消除的多文档摘要生成方法。方法的具体步骤如下：

步骤1首先爬取中文互联网上的突发事件新闻报道

步骤2完成文本的分词、去停用词、指代消解的预处理工作；

步骤3获取文本特征，完成文本聚类及去重工作；

步骤4对去重后的文本根据时间信息进行段落再分处理，并抽取出每个段落的时间信息；

步骤5对文本的段落进行摘要生成，并将生成结果按照时间顺序排列起来，得到候选摘要时间序列；

步骤6利用基于语义角色标注的句子相似度计算消除候选摘要时间序列中的冗余信息，得到最终的事件时间序列。

附图说明

图1为本发明的突发事件时间序列构建整体框架图

图2为本发明的指代消解算法流程图

图3为本发明的文本聚类及去重流程图

图4为本发明的突发事件时间序列生成框架图

图5为本发明的突发事件候选摘要时序生成算法流程图

图6为本发明的去除冗余摘要算法流程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明提出的突发事件时间序列构建的分别由文本预处理模块、文本聚类及去重模块以及突发事件时间发展序列生成模块共三个模块组成。具体实施方法如下：

步骤1爬虫

使用Scrapy工具，对中文突发事件报道进行爬虫操作，得到文本文档。

步骤2数据预处理

1)分词

为了使机器能更好地理解文本表达的意思，首先得将文本语句做分词处理。因为即使是同一个词在不同的语境下，其词性、意思等可能大不相同。在理解文本中每个词的确切语义后，才能更好的将整个句子以及整篇文档的内容理解清楚。因此作为自然语言处理的基础模块，分词结果的好坏对后续实验效果有着重要影响。本发明采用的是哈工大语言云平台(LTP) 分词工具，并构建相应的词典，辅助分词。

2)去停用词

而当分词后会产生一些没有实际意义，不能提供有价值信息的词，比如“的”、“啊”、“哈”、“乎”、“哔”、“在”以及各种标点符号等，他们在文中只起到了语气助词、副词、介词、连接词等作用，提供的信息特别有限。这些作用不大的词被称为停用词。虽然这些词的用处不大，然而他们中的有些词却在文档中出现的频率极高，例如“的”字。“的”在反映文本主题及主要内容上并没起到什么帮助，而出现频率极高会对真正有用的信息造成干扰。再者，在应用于检索的场景中，这些词无疑会造成不必要的时间开销和空间开销。因此，为了排除干扰，减小开销，分词后需要将停用词给去除掉。本实验利用哈工大中文停用词词库进行停用词去除工作。

3)指代消解

在人们的日常用语及书面写作中，为了不使文章阅读起来枯燥冗长且死板，会尽量规避同一词语重复使用的情况。尤其是那些文中可能会反复出现的人名、地名、时间等名词，往往通常会使用相应的代词来指代前文中已经出现过的此类名词。这种语言现象则被称为指代。

例1：“13日，4名地质调查人员进入哀牢山腹地后失联。昨日，搜救队在对失联人员简易宿营窝棚的下游方向进行地毯式搜索后，又发现一件雨衣碎片，确认是由失联人员所携带。”

如例1中的“昨日”指代的是“13日”的前一日，也就是12日。

指代能使语言使用起来更加灵活，也使得人们在写作交流时更加轻松，并且很容易就能搞清楚指代的是什么。然而这对于机器来讲却非容易的事。比如“昨日”，对于机器来讲，并不能像人类那样，在阅读例1时能够直接把“昨日”等同于“12日”。特别是当“昨日”等指代词出现在后一个段落，且所在段落没有其所指代的具体时间分词时，在后续以段落为单位生成摘要的时候将没法知晓具体日期，给事件时序的构建带来干扰。由此，需将这类指代词替换成与其含义相同的具体的词语，这个过程就被称为指代消解。

文本的时间指代消解算法流程图如图2所示。

步骤3文本聚类及去重

联网上信息纷繁芜杂，对各类事件的新闻报道更是层出不穷。因此要构建某一事件的时间逻辑序列，首先得将杂乱无序的新闻数据，根据新闻报道的内容，将报道同一事件过程的文本聚集起来，完成文本分类任务。文本聚类后，还需将每类事件中重复内容的文本删除掉。这是由于网络上充斥着各种各样的新闻媒体，针对某件事重复报道的可能性极高。

文本聚类及去重模块的设计框架如图3所示。使用TF-IDF+K-Means算法实现文档聚类，然后对聚类后各类簇，利用Doc2Vec模型实现文档向量化并计算文档相似度，实现文档去重处理。

1)文本聚类

TF-IDF是由Salon在2005年提出的，TF-IDF是一种信息检索与数据挖掘的常用加权技术，是一种统计方法，TF-IDF的方法被广泛应用来确定词的重要性^[54-57]，代表词频与逆文档频率，就是说词语的重要程度与出现的频率成正比，但同时会随着它在语料库中出现的频率反比下降。可以理解为：当在文本中大量出现一些词频高的词，如“了”“着”等词语，因为这些词语对于文本的摘要是没有实际意义的，这种方法就可以将这些停用词过滤掉，剩下一些有实际意义的词语。但剩下的词语并不表示它们就是同等重要的，它们实际上是由不同的权重值，这种方法会将在语料库中出现频率更低的词语赋予更大的权重。

TF-IDF的算法步骤如下：

首先，我们需要计算TF:

其中，count(t)表示某个词在文本中出现的次数，count(d_i)表示文本的总词数；第二步，计算IDF：

其中，num(N)表示语料库的文本总数，num(t)表示包含该词的文本数目；

最后：计算TF-IDF值

TF-IDF＝TF×IDF

TF与IDF相乘，就是每个词的TF-IDF值；TF-IDF与一个词在文本中的出现次数成正比，与包含该词的文本的数目成反比。

K-Means算法是无监督的聚类算法，由于无需标注数据集且算法思想简单，因此也是最常用的聚类算法之一。

假设总共有N个样本，要将他们分成k个类别。

1.从N个样本集中随机地选择k个样本作为初始的聚类中心。

2.计算任意样本点到k个聚类中心点的距离，并将该样本数据划分到离中心点最近的那个类中。本实验利用欧氏距离计算样本点到聚类中心的距离。公式如下：

3.如果某个类簇有新的样本点被归纳进来，则重新计算该类的聚类中心。

重复2、3步，直到k个聚类中心点位置不变或者小于设定的阈值时，则达到了稳定状态，结束迭代。

2)文本去重

Doc2vec方法是一种无监督算法，能从变长的文本(例如：句子、段落或文档)中学习得到固定长度的特征表示。Doc2vec也可以叫做Paragraph Vector、SentenceEmbeddings，它可以获得句子、段落和文档的向量表达。Doc2vec像Word2vec一样，Doc2Vec也有两个模型：分布式内存(PV-DM)和分布式词袋(DBOW)。PV-DM模型预测给定上下文和文档向量的单词出现的概率，而DBOW模型预测给定文档向量的文档中一组随机单词出现的概率。其中，在单个文档的训练中，文档向量是共享的(即在预测单词的概率时使用整个文档的语义)。

通过Doc2Vec或得文档向量后，再对文档进行相似度计算，将达到阈值及以上的文档删除。

步骤3候选摘要时间序列生成

如图4所示，为突发事件时间发展序列生成框架图。对于事件的新闻报道，大多数除了报道目前进展之外，还会回顾事件之前的发展状况。因此，对于文档中每个将要进行摘要生成的段落需得注明此段落所述事件的发生时间，如若不处理好时间信息，之后根据时间串联起整个事件经过时，将会出现时序错误的情况。为了实现将事件发展过程依据时间的先后顺序组织排列的任务，那么首先就得明确原文本中提到事件某个发展阶段的具体时间信息，尤其是当事件持续时间相对较长时。

由于生成式算法生成的语句基本都不太长，只能概括文档中最主要的内容。若将整篇文档作为整体进行摘要生成的话，将会丢失文档中除主要事件以外的其余有价值的内容。因此，秉承着多方面、多角度还原事件经过的想法，将会对每篇文档以段落为单位，融合冗余控制，利用UNILM-COPY改进算法进行摘要生成。

突发事件候选摘要时序生成算法流程图如图5所示。考虑到如果将以整篇文档为单位进行摘要生成，得到的摘要结果不足以全面地概括文本信息，通常只能提炼出文本最核心的内容，很多细节之处无法体现。为了能最大程度的抓取文本有效信息，因此，决定以文档段落为单位，利用UNILM-COPY改进算法生成摘要。这也是得益于新闻报道的段落分明，逻辑性强，每个自然段内内容统一，有助于结果生成。

除了对多文本繁杂的内容生成出有价值的简练的信息外，还需得将这些生成的信息根据时间顺序排列起来。然而在生成摘要时，秉承着生成结果尽可能简洁的原则，绝大部分时候文本中的时间信息并不会保留在生成结果中。那么不仅将每个自然段生成摘要重要，提取各自然段的时间信息也尤为重要。根据对大量的突发事件新闻报道的观察，同一篇文档内，只要提到了与文档最新所写事件进展不同的时间点，则会具体注明时间日期。一般情况下，每个时间进展分为一个自然段，但也会出现同一段内有多个日期存在以及一些段落没有具体日期的情况。对于同一段内有多个日期的情况，则将该段按照句子进行划分处理。而对于没有具体日期说明的段落，通常是先前段落的延续，所以将该段以上一段做合并处理。通过重新分段后，文档中每个自然段均会有对应的具体事件时间信息。那么在生成结果时，就能够将时间信息一并存入结果内，随后可依据时间顺序对生成摘要排序。

步骤4消除冗余信息，得到最终的突发事件时间序列

为了解决信息重复的问题，还需对产生的这些重复多余的信息进行去重处理。首先会很容易想到利用计算句子相似度的办法，从那些相似度高的句子中保留一条结果就行了。但通过上面的结果可看出，仅单纯地从计算句子相似度的方式去掉重复信息是欠妥当的。比如像句子“新西兰发布海啸预警”和“澳大利亚发布海啸预警”相似度是比较高的。但显然他们都应该被保留下来，因为这两个句子虽然做了同一项举措，但它们的施事者是不同的两个国家。我们知道对于事件来讲，施事者是至关重要的要素之一。这两个句子并不能被对方替代。将句子中的施事、受事等事件要素自动标注出来的操作，在自然语言处理中被称为语义角色标注。有了每个词汇在句子中起得角色作用，再结合相似度计算能更准确的判断该句是否能被其他句子替代。因此为避免误删掉相似度高但实则不能被当成同类项消除的句子，利用融合语义角色的句子相似度算法进行操作。冗余摘要消除算法流程图如图6所示。经过冗余信息去除后，得到最终的事件时间序列。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.突发事件时间序列构建主要包含四个步骤：爬虫、文本预处理、文本聚类及去重、突发事件时间序列生成。本发明主要针对突发事件时间序列构建，提出一种基于摘要生成算法融合冗余消除的多文档摘要生成方法。方法的具体步骤如下：

步骤1首先爬取中文互联网上的突发事件新闻报道

步骤2完成文本的分词、去停用词、指代消解的预处理工作；

步骤3获取文本特征，完成文本聚类及去重工作；

步骤6利用基于语义角色标注的句子相似度计算消除候选摘要时间序列中的冗余信息，得到最终的突发事件时间序列。

2.根据权利要求1所述的基于摘要生成算法的突发事件时间序列自动构建方法，所述步骤2中的指代消解具体指的是：在人们的日常用语及书面写作中，为了不使文章阅读起来枯燥冗长且死板，会尽量规避同一词语重复使用的情况。尤其是那些文中可能会反复出现的人名、地名、时间等名词，往往通常会使用相应的代词来指代前文中已经出现过的此类名词。这种语言现象则被称为指代。然而这对于机器来讲却非容易的事。比如“昨日”，对于机器来讲，并不能像人类那样，在阅读时能够直接把“昨日”转换成具体日期。特别是当“昨日”等指代词出现在后一个段落，且所在段落没有其所指代的具体时间分词时，在后续以段落为单位生成摘要的时候将没法知晓具体日期，给事件时序的构建带来干扰。由此，需将这类指代词替换成与其含义相同的具体的词语，这个过程就被称为指代消解。特征标点符号同义化具体为以下步骤：

2.1.对文本做分句处理；

2.2.对分好的句子做分词、去停用词、词性标注处理，得到该句的分词列表以及对应的词性标注列表

2.3.根据词性标注，得到每句时间分词有关列表

2.4.判断这些时间分词是否为汉字日期，若是则统一转化成阿拉伯数字日期，并将所有分词按照年月日拼接好，得到最终日期，存储至全文日期列表中。

2.5.判断句子分词列表中是否存在“上月”、“昨日”等时间指代词。若存在接下步骤2.6；若不存在，存入最终输出列表里处理下一句。

2.6.在全文日期列表中找到最近存储的日期作为步骤2.5中指代词指代的时间对象，并根据指代词类别做对应的日期计算，替换掉指代词，将完成消解的句子存入最终列表里。

3.根据权利要求2所述的基于摘要生成算法的突发事件时间序列自动构建方法，其特征在于，所述步骤3中进行的文本聚类及去重包括以下三个步骤：

3.1.计算TF-TDF权重实现文本向量化

3.2.利用K-means文档聚类

3.3.各类簇利用Doc2Vec去重处理。

4.根据权利要求3所述的基于摘要生成算法的突发事件时间序列自动构建方法，其特征在于，所述步骤4中的对去重后的文本根据时间信息进行段落再分处理，并抽取出每个段落的时间信息的具体步骤为：

4.1.循环处理文本中的每个段落

4.2.循环处理每段中的所有句子。判断每段各句子中是否存在时间名词，若存在，则将某句的时间名词存入时间列表中，若某段多个句子出现时间名词，则根据具体情况判断该段是否需要再分处理。

4.3.若某段所有句子处理完后，没发现时间信息，则将此段与前一段合并成一段。否则继续处理下一个段落。

4.4.循环结束后得到新的自然段划分和每段对应的时间信息。

5.根据权利要求4所述的基于摘要生成算法的突发事件时间序列自动构建方法，其特征在于，所述步骤5中的候选摘要时间序列生成包括以下具体步骤：

5.1.将重新划分后的段落列表作为输入，输入到摘要生成模型中，得到每段的生成结果；

5.2.利用每段的时间信息将生成结果排序，得到候选摘要时间序列。

6.根据权利要求5所述的基于摘要生成算法的突发事件时间序列自动构建方法，其特征在于，所述步骤6中的突发事件时间序列包括以下具体步骤：

6.1.计算候选摘要句子相似度并聚类

6.2.循环处理每个类簇。初始所有句皆为带定句，并对待定句进行语义角色标注

6.3.随机选取一条句子保留至最终确定集中

6.4.剩余待定句与确定集中的句子镜像核心角色对比

6.5.若待定句与确定集中的句子为核心角色的所有分词序列存在公共部分，转到步骤6.4，否则，将该待定句放入确定集中。

6.6.最终将确定集中的句子按照时间顺序排列起来，获得突发事件时间序列。