CN111639176B

CN111639176B - 一种基于一致性监测的实时事件摘要方法

Info

Publication number: CN111639176B
Application number: CN202010477088.1A
Authority: CN
Inventors: 林琛; 李辉; 欧阳智超
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2022-07-01
Anticipated expiration: 2040-05-29
Also published as: CN111639176A

Abstract

一种基于一致性监测的实时事件摘要方法，涉及深度学习，依次使用以下步骤：对监控的文本数据流进行分割和预处理；训练一个分层循环神经网络以检测历史与实时文本片段之间信息不一致的概率；训练一个基于深度学习抽取式摘要生成模型；训练一个基于强化学习和深度学习的生成式摘要模型；将预训练好的抽取式摘要生成模型和生成式摘要模型结合起来，训练一个端到端的神经摘要模型；通过训练好的端到端的神经摘要模型对每个分割时间段的监控文本数据进行解码，得到信息一致，内容易于理解的实时事件摘要。

Description

一种基于一致性监测的实时事件摘要方法

技术领域

本发明涉及深度学习领域，特别是指一种基于深度学习的一致性监测的实时事件摘要方法。

背景技术

互联网3.0时代，各种新闻社交平台，例如微博、头条彻底改变了人们访问信息的方式，尤其是有关时事或事件的信息。互联网允许人们自由发布各种各样的消息，并进行转发，评论，阅读，点赞等操作，形成了源源不断的文本数据流。每天世界各地成千上万的用户都在不断分享他们在周围环境中所观察到的信息。对于突发新闻事件，从自然灾害到社会政治运动，群众、各国政府和媒体机构都已经意识到要从互联网作为主要信息来源的重要性。

但是，互联网上的文本数据流会造成信息过载这一严重问题，我们很难从海量的信息中获取自己想要知道的内容，充斥着大量重复且多余的文本，用户很难掌握事件的主要梗概，了解事件的最新发展。因此，建立针对互联网各文本数据流源的实时事件摘要系统对用户来说，是非常重要且急需的。

从文本数据流中实时生成一个事件的摘要，需要面对摘要中的信息存在不一致的问题。例如，在一次地震事件中，每一次系统更新的事件摘要，应该包含最新的伤亡信息，而不是简单地把过时或者不准确的伤亡数字汇总。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于一致性监测的实时事件摘要方法，对系统监控的文本数据流，通过深度学习和强化学习的方法，自动检测信息不一致，并生成实时的易于理解的文本摘要，以此让用户了解到最新的事件信息。

本发明采用如下技术方案：

一种基于一致性监测的实时事件摘要方法，其特征在于，包括如下步骤：

1)收集文本流数据，对监控的文本数据流进行分割和预处理；

2)通过预处理后的文本数据流训练一个分层循环神经网络，以检测历史与实时文本片段之间信息不一致的概率；

3)用分割后的数据集，结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型；

4)用分割后的数据集，训练一个基于强化学习和深度学习的生成式摘要模型；

5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合，训练一个端到端的神经摘要模型；

6)在应用阶段，每隔一段系统预定时间，对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码，得到信息一致、内容易于理解的实时事件摘要。

步骤1)中，所述文本数据流按照预先用户需求的时间粒度进行分割，后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入；预处理包括过滤重复的文本，并且将表情符号，http链接和非标点符号的非法符号删除。

步骤2)中，所述分层循环神经网络包括底层模块和顶层模块；在底层模块，通过神经网络得到历史与实时文本片段之间相关和不相关的概率；在顶层模块，通过神经网络处理历史与实时文本片段之间是相关关系的文本对，以此得到历史与实时文本片段之间信息不一致的概率。

步骤2)中，训练分层循环神经网络包括如下：

2.1)构造训练集，抽取适量的文本对，使用自动标注方法将一对文本ii,jj标注为不相关和相关，再将相关的文本对进一步标注为相关且一致或相关但不一致，标注记号为R(i,j)，C(i,j)；

2.2)将训练集输入分层循环神经网络，其顶层模块输出g(i,j)，代表文本对相关且一致或文本对相关且不一致；

2.3)得到分层循环神经网络的损失函数

其中N是训练样本的数量，f(i,j)为sigmoid激活函数的输出，训练中对不相关的文本对即R(ii,jj)＝0的ii,jj进行降采样处理，以此得到分层循环神经网络的数据集。

步骤3)中，所述基于深度学习抽取式摘要生成模型建模为序列标注任务；首先获得每个文本的表示，即将句子编码为一个向量；该向量进行二分类任务：通过神经网络得到每个句子作为摘要的初始概率，再结合步骤2)的分层循环神经网络，判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率，最终得到当前时间段的文本数据流对应的抽取式摘要。

所述基于深度学习抽取式摘要生成模型训练过程如下：

3.1)构建训练集，将从文本流中抽取出来原句组合成为参考摘要；

3.2)将训练集输入抽取式摘要生成模型，得到文本的句子表示形式s_i；

3.3)对上述输出的每个句子s_i，进行平均，得到当前时间段的文本集合向量表示d，

其中，N_d代表在这个时间段中句子的个数；W_d是待训练的权重矩阵，b是待训练的偏置系数；

3.4)根据当前时间段每个句子表示形式s_j和当前时间段的文本集合向量表示d，做一个预分类，即先简单判断每个文本是否需要作为摘要，输出的是每个文本需要作为摘要的初始概率：

其中，p(t_j＝1)代表第j条文本作为摘要的概率，这里的j包含在上个时间段生成的旧摘要和新监控到的文本，s_j代表第j条文本的句子级别表示，s_～j代表的是在第j条文本前临时摘要的表示，

W_c,W_s,W_r是待训练的权重矩阵，

是上述第jj条文本的句子级别表示向量的转置，sigmoid函数σ内包含第一项代表第j个句子包含的信息，第二项代表第j个句子相对于当前时间段文本集合的显著性，第三项代表当前时间段中第j个文本和临时摘要之间的冗余度；

3.5)结合步骤2)预训练的分层循环神经网络得到的两个文本ii,jj不一致概率g(i,j)执行更新算法得到每个文本的概率β，其中第n个文本的概率表示为β_n；

3.6)得到抽取式摘要生成模型的损失函数，其为交叉熵损失函数：

其中，t_n∈{0,1}是参考摘要的标签。

所述更新算法具体为：

3.5.1)循环遍历当前时间段的新文本句子集合，一条新的文本j循环遍历所有旧摘要句子，对于每一个旧摘要文本ii，进行信息不一致比较：

3.5.2)如果不一致概率g(i,j)≥0.5，则令旧摘要文本β_i＝γ_i*(1-g(i,j))，并且这条旧摘要文本i将从旧摘要集合中移出，不再与其他新文本进行比较；并令新文本β_j＝γ_j*g(i,j)*P(t_j＝1|s_j,d,s_～old)，其中，γ_j代表新文本jj作为摘要的初始概率，P(t_j＝1|s_j,d,s_～old)代表根据当前的旧摘要集合s_～old，判断这条新文本是否需要填入摘要的概率；将新的文本jj填入旧摘要文本i的位置，继续遍历；这个新文本j会替换旧摘要集合的其中一条摘要，再跟后续的新文本进行判断；

3.5.3)如果不一致率g(i,j)<0.5，则不操作继续遍历下一条旧摘要；

3.5.4)遍历结束后，如果新文本j的概率都未更新过，则将文本的初始概率γ_j赋值给它的最终概率β_j＝γ_j。

所述步骤4)中，所述基于强化学习和深度学习的生成式摘要模型包括编码器和解码器；编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分；解码器通过一个单向长短期记忆网络和注意力机制，逐词生成摘要；生成式摘要模型的总损失函数为：L_abstractor＝L_mix+L_cov，其中L_mix为混合损失函数，L_cov为覆盖机制的损失函数。

所述端到端的神经摘要模型中，损失函数为：

L_total＝ε₁L_extractor+ε₂L_abstractor+ε₃L_attnInc

其中，ε₁，ε₂，ε₃都是超参数，代表每个组件的损失函数占总损失函数的权重，L_attnInc为注意力值不一致的损失函数。

在测试阶段，通过训练好的端到端的神经摘要模型对测试集进行解码，得到信息一致，内容易于理解的实时事件摘要。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明的方法对系统监控的文本数据流，通过深度学习和强化学习的方法，自动检测信息不一致，并生成实时的易于理解的文本摘要，以此让用户了解到最新的事件信息。其中的摘要内容简洁，清晰，易于理解，推文之间不存在不一致的信息。

附图说明

图1是本发明实施例的流程图。

图2是本发明方法提出的分层循环神经网络。

图3是本发明方法提出的基于深度学习抽取式摘要生成模型。

图4是本发明方法提出的基于强化学习和深度学习的生成式摘要模型。

图5是本发明方法提出的推文实时事件摘要框架。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

本发明的核心思想在于，提出一个基于一致性监测的实时事件摘要框架。该框架将基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合在一起，并辅以一个分层循环神经网络来检测信息不一致。如图5所示，Extractor代表的是基于深度学习抽取式摘要生成模型，HID代表的是检测信息不一致的分层循环神经网络，Abstracter代表的是基于强化学习和深度学习的生成式摘要模型。

图1给出一种基于一致性监测的实时事件摘要系统的流程图。步骤1)由系统监控的文本数据流源进行数据收集，步骤2)-步骤4)分别训练检测信息不一致的分层循环神经网络，基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型。步骤2)-步骤4)训练的是三个独立的模型，是作为预训练步骤。在步骤5)中，把预训练的这三个模型结合起来，进一步优化一个端到端的实时事件摘要框架EA模型。最后，在步骤6)中，使用训练好的参数进行实际输出。具体包括如下：

1)收集文本流数据，对监控的文本数据流进行分割和预处理。具体的，文本数据流按照预先用户需求的时间粒度进行分割，后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入；预处理包括过滤重复的文本，并且将表情符号，http链接和非标点符号的非法符号删除。

以从推特上收集推文数据为例，使用Twitter API的关键词匹配，输入事件关键词“Euro2012”，“Hurricane Sandy”…，得到21个推文事件对应的连续推文集合，以此作为实验中使用的系统监控的文本数据流。

接着对监控的文本数据流进行分割和预处理：数据集中包含不同类型的推文，包括回复和转发。并且数据集是多语言的，包括英语，日语等。在预处理中，首先过滤非英语推文。使用Bloom过滤算法过滤重复的推文。并且将表情符号表达，http链接和提及(@某人)从推文中删除。经过这样的数据过滤后，将每个事件的文本集按3000个文本进行分割，每个事件使用5个时间段对应的文本集合作为需要去得到摘要的数据集，并遣派5名人工志愿者合作攥写每个事件的每个时间段对应的参考摘要。

因为深度学习的内存限制，特别是在抽取器结合分层不一致检测模型时，需判断历史与实时文本片段之间是否存在不一致信息。为加快训练速度，使用十种信息搜索引擎如BM25,PL2,TF_IDF等模型对每个时间段的3000个文本进行计算，得到文本中有关事件的关键词权重；接着由十个信息搜索引擎得到的结果进行平均，获得每个文本的平均相关性权重。再根据每个文本对应的评论数、阅读数、点赞数、转发数计算每条文本的平均可信性权重，将两种权重平均后，按最终的平均权重从大到小排序，抽出每个时间段中的前100个平均权重最大的文本，作为抽取式摘要生成模型和生成式摘要模型的输入数据集。

2)通过预处理后的文本数据流训练一个分层循环神经网络，以检测历史与实时文本片段之间信息不一致的概率。分层循环神经网络包括底层模块和顶层模块；在底层模块，通过神经网络得到历史与实时文本片段之间相关和不相关的概率；在顶层模块，通过神经网络处理历史与实时文本片段之间是相关关系的文本对，以此得到历史与实时文本片段之间信息不一致的概率。

具体的，训练分层循环神经网络包括如下：

2.1)构造训练集，抽取适量的文本对，使用自动标注方法将一对文本ii,jj标注为不相关和相关，再将相关的文本对进一步标注为相关且一致或相关但不一致，标注记号为

R(i,j)，C(i,j)。

a执行文本分词和归一化，停用词去除，命名实体识别，并且将文本中所有的数字用特殊标记“[数字]”来代替，命名实体也用特殊标记例如“[地点],[组织],[人物]”来代替。在这些处理后，文本被转换为符号序列。接着，抽取一对文本的最长公共子序列。举个例子：文本1的内容是“××地震死亡人数升至××.”，经过预处理后，得到对应的文本1符号序列的内容是“[地点]地震死亡人数升至[数字]”，符号序列长度7，文本2的内容是“××地震死亡至少××.”，对应的符号序列是“[地点]地震死亡至少[数字]”，长度5，由此得到文本1和文本2的最长公共子序列是“[地点]地震死亡[数字]”，长度为4。

b假设|LCS(i,j)|是文本i和文本j的最长公共子序列长度，o_i是文本i的符号序列长度，o_j是文本j的符号序列长度。如果文本i和文本j的最长公共子序列的比例很小，即

将文本i和文本j的关系标注为不相关，即R(i,j)＝0。如果文本i和文本j最长公共子序列的比例很大并且一些特殊标记为不一样的值，即

并且“[地点],[组织],[人物],[数字]”至少一个不同，将文本i和文本j的关系标注为相关但不一致，即R(i,j)＝1，C(i,j)＝1。对于其它文本对，标注为相关，即

C(i,j)＝0。

2.2)将训练集输入分层循环神经网络，其顶层模块输出g(i,j)，代表文本对相关且一致或文本对相关且不一致。

输入的每个训练样本都包含序列对

其中

是文本ii的序列，

代表在文本i中的第N_i个词对应的独热向量。所谓的独热向量指的是用一个向量来表示词

其中有且仅有一个分量为1。如附图2所示，对于序列i和序列j，执行相同的以下操作：经过嵌入层，得到词向量和词对应的词性标注的嵌入向量，将它们连接在一起作为底层模块的嵌入层输出。以序列i为例，嵌入层得到

其中e_i,t＝e(x_i,t)，e(x_i,t)代表该序列i中第t个词的嵌入向量。在底层模块中，将嵌入层的输出作为双层双向门控循环单元的输入，双向门控循环单元包括一个前向门控循环单元用来处理文本从第一个词到最后一个词的序列状态，一个后向门控循环单元用来处理文本从最后一个词到第一个词的序列状态。一个双向门控循环单元将依次进行以下操作。

首先，一个前向门控循环单元都会根据前一个隐藏状态来更新下一个隐藏状态

其中，r_i,t、z_i,t分别被定义为重置门和更新门，

为候选输出状态，

为实际输出状态，b_r,b_z,b_h是偏置向量，W_r,W_z,W_h和U_r,U_z,U_h是权重矩阵，e_i,t是在t时刻记忆单元的输入。其次，一个后向门控循环单元得到的第t个词的隐藏状态为h_i,t ^b，

最后将这两个隐藏状态连接在一起，即

作为文本i的第t个词在第一个双向门控循环单元层上的输出。接着将第一个双向门控循环单元层的输出，即每个词对应的隐藏状态h_i,t作为第二个双向门控循环单元层的输入，将第二个双向门控循环单元层的输出作为一个带有tanh激活函数的全连接层的输入，得到文本的句子表示形式。

第i个文本表示为s_i，第j个文本表示为s_j，通过将两个向量相减将其融合起来，得到s＝s_i-s_j，最后，用一个sigmoid激活函数输出f(i,j)。

如果f>0.5，则说明这对文本对是相关的，将底层模块中第二层双向门控循环单元的输出流动到顶层模块，作为顶层模块全连接层的输入。经过一个带tanh激活函数的全连接层，一个将文本对向量进行相减的融合层以及一个带sigmoid激活函数的输出层，在输出层输出g，代表文本对相关且一致和相关但不一致。即：

s′＝s′_i-s′_j

其中，W_U是待训练的权重矩阵，

是上述得到的第N_i个词对应的隐藏状态，b_U是待训练的偏置系数。

2.3)得到分层循环神经网络的损失函数

表1给出四条推文：

表1：分层循环神经网络的例子

ID	推文
		1	Death toll from earthquake in××rises to××.
2	Death toll from××earthquake reaches at least××.
		3	More than××Australians in××safe.
4	A week after quake,rescuers find××survivors.

通过层循环神经网络，当判断ID为1和ID为2的文本对关系时，在层循环神经网络的底层模块，会输出大于0.5的值，表示这两个文本之间信息是相关的；将这两个文本继续流动到顶层模块进行判断，会继续输出大于0.5的值，表示这两个文本之间信息是相关但不一致。当判断ID为3和ID为4的文本对关系时，在层循环神经网络的底层模块，会输出大于0.5的值，表示这两个文本之间信息是相关的；将这两个文本继续流动到顶层模块进行判断，会继续输出小于0.5的值，表示这两个文本之间信息是相关且一致。当判断ID为1和ID为3的文本对关系时，在层循环神经网络的底层模块，会输出小于0.5的值，表示这两个文本之间信息是不相关的。

将本发明方法与各种现有的方法进行比较。比较方法为(1)doc2vec+LR：基于doc2vec的推文嵌入的Logistic回归分类器。(2)doc2vec+SVM：基于doc2vec的推文嵌入的支持向量机分类器。(3)doc2vec+MLP：基于doc2vec的推文嵌入的多层感知机分类器。(4)Bi-GRU：具有单个双向门控循环单元层的神经网络(相当于层循环神经网络的底部模块只检测不一致v.s.其他)。在表2中给出系统的分层不一致模型和其他分类器的比较，实验结果证明层循环神经网络(HID-all)可以较好的判别出文本对之间的不一致关系：

表2：分层循环神经网络与其他分类器比较

	准确率	精确率	召回率	F1值	AUC
						doc2vec+LR	0.311	0.311	0.311	0.475	0.5
doc2vec+SVM	0.506	0.382	0.506	0.544	0.627
						doc2vec+MLP	0.484	0.373	0.484	0.538	0.616
Bi-GRU	0.850	0.751	0.764	0.757	0.826
						HID-all	0.859	0.766	0.779	0.772	0.837

3)用分割后的数据集，结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型,目的是从文本数据流原句中，抽出一些有代表性的句子，作为当前文本数据流的摘要。基于深度学习抽取式摘要生成模型建模为序列标注任务；首先获得每个文本的表示，即将句子编码为一个向量；该向量进行二分类任务：通过神经网络得到每个句子作为摘要的初始概率，再结合步骤2)的分层循环神经网络，判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率，最终得到当前时间段的文本数据流对应的抽取式摘要。具体如下：

3.1)构建训练集，将从文本流中抽取出来原句组合成为参考摘要。先在每个文本和标准摘要之间计算一个ROUGE-L召回率。将其得分按从大到小的顺序，对文本进行排序。ROUGE-L召回率ROUGE-LR的计算公式如下：

其中，LCS(X,Y)指的是文本X和标准摘要Y之间的最长公共子序列，m是标准摘要Y的长度。

在排序后的文本集合后，逐句抽取出来判断是否作为摘要。新抽取出的文本和之前抽取出的文本集合需要做一个简单的显式不一致判断，即判断新抽取出来的文本ii和之前的抽取出来的文本集合中每一个文本jj的公共最长子序列(LCS)，如果LCS的长度大于比较的两个文本之间较大长度的文本长度的一半，即|LCS(i,j)|/max(o_i,o_j)≥0.5，则这对文本对之间存在不一致信息。首先抽取ROUGE-L召回率最大的句子，接着按顺序抽取其他句子，如果新抽取出的句子加上之前抽取出作为摘要的文本集合的ROUGE-LR会增加，并且新抽取出的文本和之前抽取出作为摘要的文本集合的每一句都没有不一致，就把这个新句子加入到要作为摘要的文本集合中去，否则不加入。

遍历完全部文本后结束，得到抽取式摘要生成模型的参考摘要，其中被加入参考摘要的句子n标记t_n＝1，否则t_n＝0。

3.2)将训练集输入抽取式摘要生成模型，得到文本的句子表示形式s_i。

把一个时间段的文本集合看成一个整体作为处理。当前时间段的文本包含在上个时间段生成的旧摘要和新监控到的文本。在抽取式摘要生成模型的底层，输入是一个时间段的每个文本

每个词都可以用独热编码表示。通过嵌入层，每个文本中的每个词都可以使用词嵌入向量来表示

将嵌入层的输出作为双层双向门控循环单元的输入，双向门控循环单元包括一个前向门控循环单元用来处理文本从第一个词到最后一个词的序列状态，一个后向门控循环单元用来处理文本从最后一个词到第一个词的序列状态。一个双向门控循环单元将依次进行以下操作。首先，一个前向门控循环单元都会根据前一个隐藏状态来更新下一个隐藏状态

其中，r_i,t，z_i,t分别被定义为重置门和更新门，

为候选输出状态，

最后将这两个隐藏状态连接在一起，即

其中，N_d代表在这个时间段中句子的个数，W_d是待训练的权重矩阵，b是待训练的偏置系数。

其中，p(t_j＝1)代表第j条文本作为摘要的概率，这里的jj包含在上个时间段生成的旧摘要和新监控到的文本，s_j代表第j条文本的句子级别表示，s_～j代表的是在第j条文本前临时摘要的表示，

W_c,W_s,W_r是待训练的权重矩阵，

是上述第jj条文本的句子级别表示向量的转置，sigmoid函数σ内包含第一项代表第j个句子包含的信息，第二项代表第j个句子相对于当前时间段文本集合的显著性，第三项代表当前时间段中第j个文本和临时摘要之间的冗余度。

3.5)结合步骤2)预训练的分层循环神经网络得到的两个文本ii,jj不一致概率g(i,j)执行更新算法得到每个文本的概率β。

更新算法具体为：

3.5.2)如果不一致概率g(i,j)≥0.5，则令旧摘要文本β_i＝γ_i*(1-g(i,j))，并且这条旧摘要i将从旧摘要集合中移出，不再与其他新文本进行比较；并令新文本β_j＝γ_j*g(i,j)*P(t_j＝1|s_j,d,s_～old)，其中，γ_j代表新文本jj作为摘要的初始概率，P(t_j＝1|s_j,d,s_～old)代表根据当前的旧摘要集合s_～old，判断这条新文本是否需要填入摘要的概率；将新的文本jj填入旧摘要文本i的位置，继续遍历；这个新文本j会替换旧摘要集合的其中一条摘要，再跟后续的新文本进行判断；

其中，t_n∈{0,1}是参考摘要的标签，β_n是第n个句子的得分。

4)用分割后的数据集，训练一个基于强化学习和深度学习的生成式摘要模型,目的是对文本数据流原句进行改写、重新拼接组合成新的文本作为当前文本数据流的摘要。该生成式摘要模型包括编码器和解码器；编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分；解码器通过一个单向长短期记忆网络和注意力机制，逐词生成摘要；生成式摘要模型的总损失函数为：L_abstractor＝L_mix+L_cov，其中L_mix为混合损失函数，L_cov为覆盖机制的损失函数。

具体的，生成式摘要模型对应的标准摘要是预先设定的。

把一个时间段的文本集合看成一个整体作为处理。在生成式摘要模型的底层，输入是一个时间段的所有文本的词w＝{w₀,w₁,…,w_i,…}，每个词都可以用独热编码表示。通过嵌入层，每个文本中的每个词都可以使用词嵌入向量来表示(e₀,e₁,…e_i,…)。将嵌入层的输出作为编码器中双向长短期记忆网络的输入，双向长短期记忆网络包括一个前向长短期记忆网络用来处理文本从第一个词到最后一个词的序列状态，一个后向长短期记忆网络用来处理文本从最后一个词到第一个词的序列状态。一个双向长短期记忆网络将依次进行以下操作。

首先，一个前向长短期记忆网络都会根据前一个隐藏状态来更新下一个隐藏状态

其中，f_t，i_t，o_t分别被定义为遗忘门，输入门和输出门，

为候选状态值，

是实际状态值，

为实际输出状态，b_f,b_i,b_c,b_o是偏置向量，W_f,W_i,W_c,W_o是权重矩阵，e_t是在t时刻记忆单元的输入。

其次，一个后向长短期记忆网络得到的第t个词的隐藏状态为

最后将这两个隐藏状态连接在一起，即

在编码阶段，定义e_ti为在解码阶段的t时刻，编码器的第i个词的隐藏状态

的注意力得分，e_ti具体计算见下文。对在过去的解码阶段中获得较高注意力得分的输入序列进行惩罚，定义新的在解码阶段的t时刻，编码器的第i个词的隐藏状态

的注意力得分：

最后，计算输入中的归一化注意力得分

并使用这些权重获得输入的全局上下文向量

为防止解码器生成重复短语，引入了一个内在解码注意机制。对每一个解码阶段t，计算一个新的解码全局上下文向量

在第一个解码阶段，因为生成的序列是空序列，所以设

为空向量。对于t>1时：

其中，

代表解码阶段第t时刻和第t′时刻之间的注意力得分，

是经过内在解码注意机制后，解码阶段t时刻和t′时刻之间新的注意力得分，

是待训练的权重系数。

为了生成摘要中的词，解码器使用了复制-生成机制，即摘要中的词可以从词汇表中生成，也可以从输入序列中的词复制到摘要中。定义一个二项值u_t，当它的值为1时，代表在解码阶段第t个时刻，是从词汇表中生成摘要；当它的值为0时，代表是从输入序列中复制词到摘要中。因此，可以得到定义在解码阶段第t个时刻，从词汇表中选择y_t作为当前生成摘要中的第t个词的概率：

其中，W_gen和b_gen是可训练参数，

是解码器第t个词的隐藏状态。

另一方面，可以定义在解码阶段的第t个时刻，从输入序列复制以生成摘要的概率：

并且定义

其中，W_u和b_u是可训练参数。

最后，可以得到在解码阶段第t个时刻，输出的词y_t的概率：

注意，如果y_t不是词汇表内的词，则P(y_t|u_t＝1)为0；类似的，如果y_t没有出现在编码器的输入序列中，则P(y_t|u_t＝0)为0。

使用自关键策略梯度训练算法。定义强化学习的损失函数：

其中，y^s代表在每个解码阶段，从

概率分布中采样出第s个样本；

是通过每个解码阶段，用贪心搜索得到最大化的概率分布作为基线输出，强化学习在训练时希望r(y^s)比

越大越好，r(·)＝ROUGE-LF是一个奖惩函数，使用的是ROUGE-LF-score，x是输入的文本数据。

其中，LCS(X,Y)指的是文本X和标准摘要Y之间的最长公共子序列，m是标准摘要Y的长度，n是文本X的长度。最后定义一个混合损失函数：

L_mix＝δL_rl+(1-δ)L_ml

其中，δ是一个超参数，由系统应用者预先设定。L_ml是最大似然损失。

代表在解码阶段第t个时刻对应的标准摘要的词。

提出一个覆盖机制，作用也是能避免生成式摘要模型在同一个位置重复生成相同的词。在解码阶段第t个时刻，计算每个单词的全局覆盖向量

代表到当前t时刻为止，每个单词各自累加起来获得的注意力得分和。这个全局覆盖向量也会影响e_ti的计算，应将e_ti的计算公式更新为

其中，

是编码器的第i个词的隐藏状态、W_d是待训练的权重矩阵，

是上述得到的全局上下文向量，b_attn是可训练的偏置系数。

定义覆盖机制的损失函数：

将覆盖机制的损失函数和生成式摘要模型的混合损失函数加权求和得到生成式摘要模型的总损失函数。

L_abstractor＝L_mix+L_cov。

5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合，训练一个端到端的神经摘要模型。

其中，抽取式摘要生成模型可以得到每个文本句子作为当前文本数据流摘要的概率，生成式摘要模型可以得到每个词作为解码阶段输出摘要里的词的概率。用文本句子作为摘要的概率来调整解码阶段输出摘要的词的概率,使抽取式摘要生成模型抽取的句子有利于提高生成式摘要模型逐词生成的性能。

假设抽取式摘要生成模型和生成式摘要模型的输入都是词序列w＝{w₁,w₂,…,w_i,…}，其中i是词的索引。词向量也可以被表示为句子序列s＝{s₁,s₂,…,s_j,…}，其中j是句子的索引，每一个句子是长度不定的词序列。定义一个映射函数m(·)可以将第i个单词投影到对应的第j个句子中。抽取式摘要生成模型输出的每个文本句子作为摘要的概率为β＝{β₁,β₂,…,β_j,…}，生成式摘要模型在解码阶段第t个时刻，生成的每个词的概率为α＝{α₁,α₂,…,α_i,…}。通过结合β和α，提出一个更新后的词注意力值：

这确保了仅当单词级别的

和相应的句子级别的β_m(i)的注意力值都较大时，更新的单词注意值

才会大。通过这种调整机制，可以使较小注意力值的句子中的单词产生得尽可能少。因此，定义注意力值不一致的损失函数：

其中，K代表前K个大的注意力值的词，T代表当前时间段摘要中词的个数。

这样使抽取式摘要生成模型抽取的文本句子有利于去提高生成式摘要模型逐词生成的性能，以此训练一个端到端的神经摘要模型，损失函数为：

L_total＝ε₁L_extractor+ε₂L_abstractor+ε₃L_attnInc

其中，ε₁，ε₂，ε₃都是超参数，代表每个组件的损失函数占总损失函数的权重，由系统使用人员设定。

6)在应用阶段，每隔一段系统预定时间，对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码，得到信息一致、内容易于理解的实时事件摘要。即测试阶段，通过训练好的端到端的神经摘要模型对测试集进行解码，得到信息一致，内容易于理解的实时事件摘要。

将本发明方法与各种现有的方法进行比较。比较方法为(1)Simplex：将实时汇总问题建模为多个整数规划问题，并通过改进的单纯形更新方法求解松弛线性规划形式。为了减少昂贵的不一致检测的存储和计算成本，在单纯形更新算法中嵌入了一种新颖的快速不一致检测策略。(2)MSWD：提出具有动态伪相关反馈的语言模型以获得相关推文，然后通过图优化生成推文的故事情节。(3)MSSF：一种基于隐藏在文本单元相似性属性中的子模态的多文档摘要的抽象方法。(4)SNMF：基于对称非负矩阵分解的摘要。(5)Sumblr：基于增量聚类的在线推文摘要。(6)Unified model：结合了抽取式摘要和生成式摘要的优势的统一模型。一个简单的抽取式摘要模型可以获得具有较高ROUGE分数的句子级别的注意力系数，而一个更复杂的生成式摘要模型则可以获得单词级别的注意力系数以生成更易读的段落。(7)Single abstracter：本发明方法中使用到的生成式摘要模型，但未使用Glove预训练的推特词嵌入。

表3给出本发明的EA模型与其他现有的模型，通过比较摘要框架生成的摘要和人工攥写的参考摘要之间的ROUGE得分，ROUGE得分越高，代表摘要框架生成的摘要越好。从表3得出该系统提出的EA模型的ROUGE指标是最高的。

表3：各个摘要框架ROUGE得分对比

并且，从一些可读性自动评估指标发现，EA模型的可读性相比其他也是较好的，也比较接近人工参考摘要的指标。需要注意的是因为MSSF是生成式摘要方法，生成的每个句子都非常短，往往只有5-7个词组成一个句子，所以造成可读性指标会高，但是他包含的信息量非常少，故不作比较。表4给出了各个摘要框架的可读性自动评估指标比较，得分越高代表可读性越好：

表4：可读性自动评估指标

想让本发明的方法生成的摘要中，推文之间的不一致信息尽可能少，因此通过不一致的自动评估以及人工评估来验证本发明系统摘要框架生成的摘要是否能达到不一致率小的效果。不一致率自动评估用到了构建分层循环神经网络的文本对标签构建的方法，即通过LCS显式的判断文本对之间的关系。测试集共有5个实时事件，即有25个时间段，平均不一致率的计算公式：

其中，T＝25；inconsistentTweet代表当前时间段里，不一致的文本句子数量；N_t代表当前时间段里，文本的总数量。

表5：各摘要框架不一致自动评估的结果

表6给出了派遣5名人工志愿者，对2个测试推文事件集，即共10个时间段各个摘要框架生成的摘要进行人工的不一致评估，得到各摘要框架的不一致人工评估结果如表6：

表6：各摘要框架不一致自动评估的结果

方法	平均不一致率
		Simplex	0.043
MWDS	0.02
		Sumblr	0.8
SNMF	0.15
		MSSF	0.27
Single abstracter	0.227
		Unified model	0.24
EA model(Ours)	0.11

由表5和表6可以发现，本发明方法的EA模型生成的摘要中，推文之间的不一致率是相对较小的，并且结合表3，也发现本发明方法的EA模型生成的摘要中，ROUGE得分相对较高，证明摘要的内容更加具体，可以让用户了解事件的整个过程发展。

最后，给出测试阶段一个实时推文事件生成摘要的例子。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于一致性监测的实时事件摘要方法，其特征在于，包括如下步骤：

2)通过预处理后的文本数据流训练一个分层循环神经网络，以检测历史与实时文本片段之间信息不一致的概率；所述分层循环神经网络包括底层模块和顶层模块；在底层模块，通过神经网络得到历史与实时文本片段之间相关和不相关的概率；在顶层模块，通过神经网络处理历史与实时文本片段之间是相关关系的文本对，以此得到历史与实时文本片段之间信息不一致的概率；训练分层循环神经网络包括如下：

2.1)构造训练集，抽取适量的文本对，使用自动标注方法将一对文本i,j标注为不相关和相关，再将相关的文本对进一步标注为相关且一致或相关但不一致，标注记号为R(i,j)，C(i,j)；

2.3)得到分层循环神经网络的损失函数

其中N是训练样本的数量，f(i,j)为sigmoid激活函数的输出，训练中对不相关的文本对即R(i,j)＝0的i,j进行降采样处理，以此得到分层循环神经网络的数据集；

3)用分割后的数据集，结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型，所述基于深度学习抽取式摘要生成模型建模为序列标注任务；首先获得每个文本的表示，即将句子编码为一个向量；该向量进行二分类任务：通过神经网络得到每个句子作为摘要的初始概率，再结合步骤2)的分层循环神经网络，判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率，最终得到当前时间段的文本数据流对应的抽取式摘要，并得到抽取式摘要生成模型的损失函数，其为交叉熵损失函数L_extractor；

4)用分割后的数据集，训练一个基于强化学习和深度学习的生成式摘要模型，所述基于强化学习和深度学习的生成式摘要模型包括编码器和解码器；编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分；解码器通过一个单向长短期记忆网络和注意力机制，逐词生成摘要；生成式摘要模型的总损失函数为：L_abstractor＝L_mix+L_cov，其中L_mix为混合损失函数，L_cov为覆盖机制的损失函数；

5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合，训练一个端到端的神经摘要模型，所述端到端的神经摘要模型中，损失函数为：

L_total＝ε₁L_extractor+ε₂L_abstractor+ε₃L_attnInc

其中，ε₁，ε₂，ε₃都是超参数，代表每个组件的损失函数占总损失函数的权重，

L_attnInc为注意力值不一致的损失函数；

2.如权利要求1所述的一种基于一致性监测的实时事件摘要方法，其特征在于，步骤1)中，所述文本数据流按照预先用户需求的时间粒度进行分割，后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入；预处理包括过滤重复的文本，并且将表情符号，http链接和非标点符号的非法符号删除。

3.如权利要求1所述的一种基于一致性监测的实时事件摘要方法，其特征在于，所述基于深度学习抽取式摘要生成模型训练过程如下：

W_c,r_s,W_r是待训练的权重矩阵，

是上述第j条文本的句子级别表示向量的转置，sigmoid函数σ内包含第一项代表第j个句子包含的信息，第二项代表第j个句子相对于当前时间段文本集合的显著性，第三项代表当前时间段中第j个文本和临时摘要之间的冗余度；

3.5)结合步骤2)预训练的分层循环神经网络得到的两个文本i,j不一致概率g(i,j)执行更新算法得到每个文本的概率β，其中第n个文本的概率表示为β_n；

其中，t_n∈{0,1}是参考摘要的标签。

4.如权利要求3所述的一种基于一致性监测的实时事件摘要方法，其特征在于，所述更新算法具体为：

3.5.1)循环遍历当前时间段的新文本句子集合，一条新的文本j循环遍历所有旧摘要句子，对于每一个旧摘要文本i，进行信息不一致比较：

3.5.2)如果不一致概率g(i,j)≥0.5，则令旧摘要文本β_i＝γ_i*(1-g(i,j))，并且这条旧摘要文本i将从旧摘要集合中移出，不再与其他新文本进行比较；并令新文本β_j＝γ_j*g(i,j)*P(t_j＝1|s_j,d,s_～old)，其中，γ_j代表新文本j作为摘要的初始概率，P(t_j＝1|s_j,d,s_～old)代表根据当前的旧摘要集合s_～old，判断这条新文本是否需要填入摘要的概率；将新的文本j填入旧摘要文本i的位置，继续遍历；这个新文本j会替换旧摘要集合的其中一条摘要，再跟后续的新文本进行判断；

5.如权利要求1所述的一种基于一致性监测的实时事件摘要方法，其特征在于，在测试阶段，通过训练好的端到端的神经摘要模型对测试集进行解码，得到信息一致，内容易于理解的实时事件摘要。