CN111639176A - 一种基于一致性监测的实时事件摘要方法 - Google Patents

一种基于一致性监测的实时事件摘要方法 Download PDF

Info

Publication number
CN111639176A
CN111639176A CN202010477088.1A CN202010477088A CN111639176A CN 111639176 A CN111639176 A CN 111639176A CN 202010477088 A CN202010477088 A CN 202010477088A CN 111639176 A CN111639176 A CN 111639176A
Authority
CN
China
Prior art keywords
text
abstract
sentence
real
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010477088.1A
Other languages
English (en)
Other versions
CN111639176B (zh
Inventor
林琛
李辉
欧阳智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010477088.1A priority Critical patent/CN111639176B/zh
Publication of CN111639176A publication Critical patent/CN111639176A/zh
Application granted granted Critical
Publication of CN111639176B publication Critical patent/CN111639176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于一致性监测的实时事件摘要方法,涉及深度学习,依次使用以下步骤:对监控的文本数据流进行分割和预处理;训练一个分层循环神经网络以检测历史与实时文本片段之间信息不一致的概率;训练一个基于深度学习抽取式摘要生成模型;训练一个基于强化学习和深度学习的生成式摘要模型;将预训练好的抽取式摘要生成模型和生成式摘要模型结合起来,训练一个端到端的神经摘要模型;通过训练好的端到端的神经摘要模型对每个分割时间段的监控文本数据进行解码,得到信息一致,内容易于理解的实时事件摘要。

Description

一种基于一致性监测的实时事件摘要方法
技术领域
本发明涉及深度学习领域,特别是指一种基于深度学习的一致性监测的实时事件摘要方法。
背景技术
互联网3.0时代,各种新闻社交平台,例如微博、头条彻底改变了人们访问信息的方式,尤其是有关时事或事件的信息。互联网允许人们自由发布各种各样的消息,并进行转发,评论,阅读,点赞等操作,形成了源源不断的文本数据流。每天世界各地成千上万的用户都在不断分享他们在周围环境中所观察到的信息。对于突发新闻事件,从自然灾害到社会政治运动,群众、各国政府和媒体机构都已经意识到要从互联网作为主要信息来源的重要性。
但是,互联网上的文本数据流会造成信息过载这一严重问题,我们很难从海量的信息中获取自己想要知道的内容,充斥着大量重复且多余的文本,用户很难掌握事件的主要梗概,了解事件的最新发展。因此,建立针对互联网各文本数据流源的实时事件摘要系统对用户来说,是非常重要且急需的。
从文本数据流中实时生成一个事件的摘要,需要面对摘要中的信息存在不一致的问题。例如,在一次地震事件中,每一次系统更新的事件摘要,应该包含最新的伤亡信息,而不是简单地把过时或者不准确的伤亡数字汇总。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于一致性监测的实时事件摘要方法,对系统监控的文本数据流,通过深度学习和强化学习的方法,自动检测信息不一致,并生成实时的易于理解的文本摘要,以此让用户了解到最新的事件信息。
本发明采用如下技术方案:
一种基于一致性监测的实时事件摘要方法,其特征在于,包括如下步骤:
1)收集文本流数据,对监控的文本数据流进行分割和预处理;
2)通过预处理后的文本数据流训练一个分层循环神经网络,以检测历史与实时文本片段之间信息不一致的概率;
3)用分割后的数据集,结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型;
4)用分割后的数据集,训练一个基于强化学习和深度学习的生成式摘要模型;
5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合,训练一个端到端的神经摘要模型;
6)在应用阶段,每隔一段系统预定时间,对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码,得到信息一致、内容易于理解的实时事件摘要。
步骤1)中,所述文本数据流按照预先用户需求的时间粒度进行分割,后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入;预处理包括过滤重复的文本,并且将表情符号,http链接和非标点符号的非法符号删除。
步骤2)中,所述分层循环神经网络包括底层模块和顶层模块;在底层模块,通过神经网络得到历史与实时文本片段之间相关和不相关的概率;在顶层模块,通过神经网络处理历史与实时文本片段之间是相关关系的文本对,以此得到历史与实时文本片段之间信息不一致的概率。
步骤2)中,训练分层循环神经网络包括如下:
2.1)构造训练集,抽取适量的文本对,使用自动标注方法将一对文本i,j标注为不相关和相关,再将相关的文本对进一步标注为相关且一致或相关但不一致,标注记号为R(i,j),C(i,j);
2.2)将训练集输入分层循环神经网络,其顶层模块输出g(i,j),代表文本对相关且一致或文本对相关且不一致;
2.3)得到分层循环神经网络的损失函数
Figure BDA0002516172110000021
其中N是训练样本的数量,f(i,j)为sigmoid激活函数的输出,训练中对不相关的文本对即R(i,j)=0的i,j进行降采样处理,以此得到分层循环神经网络的数据集。
步骤3)中,所述基于深度学习抽取式摘要生成模型建模为序列标注任务;首先获得每个文本的表示,即将句子编码为一个向量;该向量进行二分类任务:通过神经网络得到每个句子作为摘要的初始概率,再结合步骤2)的分层循环神经网络,判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率,最终得到当前时间段的文本数据流对应的抽取式摘要。
所述基于深度学习抽取式摘要生成模型训练过程如下:
3.1)构建训练集,将从文本流中抽取出来原句组合成为参考摘要;
3.2)将训练集输入抽取式摘要生成模型,得到文本的句子表示形式si
3.3)对上述输出的每个句子si,进行平均,得到当前时间段的文本集合向量表示d,
Figure BDA0002516172110000031
其中,Nd代表在这个时间段中句子的个数;Wd是待训练的权重矩阵,b是待训练的偏置系数。
3.4)根据当前时间段每个句子表示形式sj和当前时间段的文本集合向量表示d,做一个预分类,即先简单判断每个文本是否需要作为摘要,输出的是每个文本需要作为摘要的初始概率:
Figure BDA0002516172110000032
其中,p(tj=1)代表第j条文本作为摘要的概率,这里的j包含在上个时间段生成的旧摘要和新监控到的文本,sj代表第j条文本的句子级别表示,s~j代表的是在第j条文本前临时摘要的表示,
Figure BDA0002516172110000033
Wc,Ws,Wr是待训练的权重矩阵,
Figure BDA0002516172110000034
是上述第j条文本的句子级别表示向量的转置,sigmoid函数σ内包含第一项代表第j个句子包含的信息,第二项代表第j个句子相对于当前时间段文本集合的显著性,第三项代表当前时间段中第j个文本和临时摘要之间的冗余度,γj是每个句子的初始得分。
3.5)结合步骤2)预训练的分层循环神经网络得到的两个句子i,j不一致概率g(i,j)执行更新算法得到每个句子的得分β,其中第n个句子的得分表示为βn
3.6)得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数:
Figure BDA0002516172110000035
其中,tn∈{0,1}是参考摘要的标签。
所述更新算法具体为:
3.5.1)循环遍历当前时间段的新文本句子集合,一条新的文本j循环遍历所有旧摘要句子,对于每一个旧摘要文本i,进行信息不一致比较:
3.5.2)如果不一致概率g(i,j)≥0.5,则令旧摘要文本βi=γi*(1-g(i,j)),并且这条旧摘要i将从旧摘要集合中移出,不再与其他新文本进行比较;并令新文本βj=γj*g(i,j)*P(tj=1|sj,d,s~old),其中,γ(j)代表新文本j作为摘要的初始概率,P(tj=1|sj,d,s~old)代表根据当前的旧摘要集合s~old,判断这条新文本句子是否需要填入摘要的概率;将新的文本句子j填入旧摘要i的位置,继续遍历;这个新文本句子j会替换旧摘要集合的其中一条摘要,再跟后续的新文本句子进行判断;
3.5.3)如果不一致率g(i,j)<0.5,则不操作继续遍历下一条旧摘要;
3.5.4)遍历结束后,如果新文本j的得分都未更新过,则将文本的初始概率γ(j)赋值给它的最终概率βj=γj
所述步骤4)中,所述基于强化学习和深度学习的生成式摘要模型包括编码器和解码器;编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分;解码器通过一个单向长短期记忆网络和注意力机制,逐词生成摘要;生成式摘要模型的总损失函数为:Labstractor=Lmix+Lcov,其中Lmix为混合损失函数,Lcov为覆盖机制的损失函数。
所述端到端的神经摘要模型中,损失函数为:
Ltotal=ε1Lextractor2Labstractor3LattnInc
其中,ε1,ε2,ε3都是超参数,代表每个组件的损失函数占总损失函数的权重,LattnInc为注意力值不一致的损失函数。
在测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
在测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明的方法对系统监控的文本数据流,通过深度学习和强化学习的方法,自动检测信息不一致,并生成实时的易于理解的文本摘要,以此让用户了解到最新的事件信息。其中的摘要内容简洁,清晰,易于理解,推文之间不存在不一致的信息。
附图说明
图1是本发明实施例的流程图。
图2是本发明方法提出的分层循环神经网络。
图3是本发明方法提出的基于深度学习抽取式摘要生成模型。
图4是本发明方法提出的基于强化学习和深度学习的生成式摘要模型。
图5是本发明方法提出的推文实时事件摘要框架。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明的核心思想在于,提出一个基于一致性监测的实时事件摘要框架。该框架将基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合在一起,并辅以一个分层循环神经网络来检测信息不一致。如图5所示,Extractor代表的是基于深度学习抽取式摘要生成模型,HID代表的是检测信息不一致的分层循环神经网络,Abstracter代表的是基于强化学习和深度学习的生成式摘要模型。
图1给出一种基于一致性监测的实时事件摘要系统的流程图。步骤1)由系统监控的文本数据流源进行数据收集,步骤2)-步骤4)分别训练检测信息不一致的分层循环神经网络,基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型。步骤2)-步骤4)训练的是三个独立的模型,是作为预训练步骤。在步骤5)中,把预训练的这三个模型结合起来,进一步优化一个端到端的实时事件摘要框架EA模型。最后,在步骤6)中,使用训练好的参数进行实际输出。具体包括如下:
1)收集文本流数据,对监控的文本数据流进行分割和预处理。具体的,文本数据流按照预先用户需求的时间粒度进行分割,后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入;预处理包括过滤重复的文本,并且将表情符号,http链接和非标点符号的非法符号删除。
以从推特上收集推文数据为例,使用Twitter API的关键词匹配,输入事件关键词“Euro 2012”,“Hurricane Sandy”,“Obama Romney”,“Superbowl”,“Boston Marathonbombing”,“Ebola outbreak”,“Gaza under attack”,“Hong Kong protests”,“Indyref”,“Ottawa shooting”,“St Patricks Day”,“Sydney siege”,“Charlie Hebdo shooting”,“Germanwings plane crash”,“Paris Attacks”,“Refugees Welcome”,“Brexit”,“Brussels airport”,“Cyprus hijacked plane”,“Lahore blast”,得到21个推文事件对应的连续推文集合,以此作为实验中使用的系统监控的文本数据流。收集到的文本数据流格式如下:
{"id":"323898587723489280","date":"2013-04-15 20:40:15","text":"Ourthoughts and prayers are with the victims,runners,spectators and rescueworkers at the Boston Marathon.#PrayforBoston","verified":"false","following":"false","statuses_count":"42794","listed_count":"2","retweet_count":"207","favourites_count":"9476"}
{"id":"323898585802502148","date":"2013-04-15 20:40:15","text":"Takeone second out of your day pray for the city of Boston.This is absolutelyterrible.",″verified″:″false″,″following″:″false″,″statuses_count″:″13628″,″listed_count″:″3″,″retweet_count″:″0″,″favourites_count″:″20554″}
接着对监控的文本数据流进行分割和预处理:数据集中包含不同类型的推文,包括回复和转发。并且数据集是多语言的,包括英语,日语等。在预处理中,首先过滤非英语推文。使用Bloom过滤算法过滤重复的推文。并且将表情符号表达,http链接和提及(@某人)从推文中删除。经过这样的数据过滤后,将每个事件的文本集按3000个文本进行分割,每个事件使用5个时间段对应的文本集合作为需要去得到摘要的数据集,并遣派5名人工志愿者合作攥写每个事件的每个时间段对应的参考摘要。
因为深度学习的内存限制,特别是在抽取器结合分层不一致检测模型时,需判断历史与实时文本片段之间是否存在不一致信息。为加快训练速度,使用十种信息搜索引擎如BM25,PL2,TF_IDF等模型对每个时间段的3000个文本进行计算,得到文本中有关事件的关键词权重;接着由十个信息搜索引擎得到的结果进行平均,获得每个文本的平均相关性权重。再根据每个文本对应的评论数、阅读数、点赞数、转发数计算每条文本的平均可信性权重,将两种权重平均后,按最终的平均权重从大到小排序,抽出每个时间段中的前100个平均权重最大的文本,作为抽取式摘要生成模型和生成式摘要模型的输入数据集。
2)通过预处理后的文本数据流训练一个分层循环神经网络,以检测历史与实时文本片段之间信息不一致的概率。分层循环神经网络包括底层模块和顶层模块;在底层模块,通过神经网络得到历史与实时文本片段之间相关和不相关的概率;在顶层模块,通过神经网络处理历史与实时文本片段之间是相关关系的文本对,以此得到历史与实时文本片段之间信息不一致的概率。
具体的,训练分层循环神经网络包括如下:
2.1)构造训练集,抽取适量的文本对,使用自动标注方法将一对文本i,j标注为不相关和相关,再将相关的文本对进一步标注为相关且一致或相关但不一致,标注记号为R(i,j),C(i,j)。
a执行文本分词和归一化,停用词去除,命名实体识别,并且将文本中所有的数字用特殊标记“[数字]”来代替,命名实体也用特殊标记例如“[地点],[组织],[人物]”来代替。在这些处理后,文本被转换为符号序列。接着,抽取一对文本的最长公共子序列。举个例子:文本1的内容是“尼泊尔地震死亡人数升至449.”,经过预处理后,得到对应的文本1符号序列的内容是“[地点]地震死亡人数升至[数字]”,符号序列长度7,文本2的内容是“尼泊尔地震死亡至少688.”,对应的符号序列是“[地点]地震死亡至少[数字]”,长度5,由此得到文本1和文本2的最长公共子序列是“[地点]地震死亡[数字]”,长度为4。
b假设|LCS(i,j)|是文本i和文本j的最长公共子序列长度,oi是文本i的符号序列长度,oj是文本j的符号序列长度。如果文本i和文本j的最长公共子序列的比例很小,即
Figure BDA0002516172110000071
将文本i和文本j的关系标注为不相关,即R(i,j)=0。如果文本i和文本j最长公共子序列的比例很大并且一些特殊标记为不一样的值,即
Figure BDA0002516172110000072
并且“[地点],[组织],[人物],[数字]”至少一个不同,将文本i和文本j的关系标注为相关但不一致,即R(i,j)=1,C(i,j)=1。对于其它文本对,标注为相关,即
Figure BDA0002516172110000073
Figure BDA0002516172110000074
C(i,j)=0。
2.2)将训练集输入分层循环神经网络,其顶层模块输出g(i,j),代表文本对相关且一致或文本对相关且不一致。
输入的每个训练样本都包含序列对
Figure BDA0002516172110000075
其中
Figure BDA0002516172110000076
是文本i的序列,
Figure BDA0002516172110000077
代表在文本i中的第Ni个词对应的独热向量。所谓的独热向量指的是用一个向量来表示词
Figure BDA0002516172110000078
其中有且仅有一个分量为1。如附图2所示,对于序列i和序列j,执行相同的以下操作:经过嵌入层,得到词向量和词对应的词性标注的嵌入向量,将它们连接在一起作为底层模块的嵌入层输出。以序列i为例,嵌入层得到
Figure BDA0002516172110000079
其中ei,t=e(xi,t),e(xi,t)代表该序列i中第t个词的嵌入向量。在底层模块中,将嵌入层的输出作为双层双向门控循环单元的输入,双向门控循环单元包括一个前向门控循环单元用来处理文本从第一个词到最后一个词的序列状态,一个后向门控循环单元用来处理文本从最后一个词到第一个词的序列状态。一个双向门控循环单元将依次进行以下操作。
首先,一个前向门控循环单元都会根据前一个隐藏状态来更新下一个隐藏状态
Figure BDA00025161721100000717
Figure BDA00025161721100000711
Figure BDA00025161721100000712
Figure BDA00025161721100000713
Figure BDA00025161721100000714
其中,ri,t、zi,t分别被定义为重置门和更新门,
Figure BDA00025161721100000715
为候选输出状态,
Figure BDA00025161721100000716
为实际输出状态,br,bz,bh是偏置向量,Wr,Wz,Wh和Ur,Uz,Uh是权重矩阵,ei,t是在t时刻记忆单元的输入。其次,一个后向门控循环单元得到的第t个词的隐藏状态为hi,t b
Figure BDA0002516172110000081
Figure BDA0002516172110000082
Figure BDA0002516172110000083
Figure BDA0002516172110000084
最后将这两个隐藏状态连接在一起,即
Figure BDA0002516172110000085
作为文本i的第t个词在第一个双向门控循环单元层上的输出。接着将第一个双向门控循环单元层的输出,即每个词对应的隐藏状态hi,t作为第二个双向门控循环单元层的输入,将第二个双向门控循环单元层的输出作为一个带有tanh激活函数的全连接层的输入,得到文本的句子表示形式。
Figure BDA0002516172110000086
第i个文本表示为si,第j个文本表示为sj,通过将两个向量相减将其融合起来,得到s=si-sj,最后,用一个sigmoid激活函数输出f(i,j)。
Figure BDA0002516172110000087
如果f>0.5,则说明这对文本对是相关的,将底层模块中第二层双向门控循环单元的输出流动到顶层模块,作为顶层模块全连接层的输入。经过一个带tanh激活函数的全连接层,一个将文本对向量进行相减的融合层以及一个带sigmoid激活函数的输出层,在输出层输出g,代表文本对相关且一致和相关但不一致。即:
Figure BDA0002516172110000088
s′=s′i-s′j
Figure BDA0002516172110000089
其中,WU是待训练的权重矩阵,
Figure BDA00025161721100000810
是上述得到的第Ni个词对应的隐藏状态,bU是待训练的偏置系数。
2.3)得到分层循环神经网络的损失函数
Figure BDA0002516172110000091
其中N是训练样本的数量,f(i,j)为sigmoid激活函数的输出,训练中对不相关的文本对即R(i,j)=0的i,j进行降采样处理,以此得到分层循环神经网络的数据集。
表1给出四条推文:
表1:分层循环神经网络的例子
ID 推文
1 Death toll from earthquake in Nepal rises to449.
2 Death toll from Nepal earthquake reaches at least 688.
3 More than 200 Australians in Nepal safe.
4 A week after quake,rescuers find 3 survivors.
通过层循环神经网络,当判断ID为1和ID为2的文本对关系时,在层循环神经网络的底层模块,会输出大于0.5的值,表示这两个文本之间信息是相关的;将这两个文本继续流动到顶层模块进行判断,会继续输出大于0.5的值,表示这两个文本之间信息是相关但不一致。当判断ID为3和ID为4的文本对关系时,在层循环神经网络的底层模块,会输出大于0.5的值,表示这两个文本之间信息是相关的;将这两个文本继续流动到顶层模块进行判断,会继续输出小于0.5的值,表示这两个文本之间信息是相关且一致。当判断ID为1和ID为3的文本对关系时,在层循环神经网络的底层模块,会输出小于0.5的值,表示这两个文本之间信息是不相关的。
将本发明方法与各种现有的方法进行比较。比较方法为(1)doc2vec+LR:基于doc2vec的推文嵌入的Logistic回归分类器。(2)doc2vec+SVM:基于doc2vec的推文嵌入的支持向量机分类器。(3)doc2vec+MLP:基于doc2vec的推文嵌入的多层感知机分类器。(4)Bi-GRU:具有单个双向门控循环单元层的神经网络(相当于层循环神经网络的底部模块只检测不一致v.s.其他)。在表2中给出系统的分层不一致模型和其他分类器的比较,实验结果证明层循环神经网络(HID-all)可以较好的判别出文本对之间的不一致关系:
表2:分层循环神经网络与其他分类器比较
Figure BDA0002516172110000092
Figure BDA0002516172110000101
3)用分割后的数据集,结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型,目的是从文本数据流原句中,抽出一些有代表性的句子,作为当前文本数据流的摘要。基于深度学习抽取式摘要生成模型建模为序列标注任务;首先获得每个文本的表示,即将句子编码为一个向量;该向量进行二分类任务:通过神经网络得到每个句子作为摘要的初始概率,再结合步骤2)的分层循环神经网络,判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率,最终得到当前时间段的文本数据流对应的抽取式摘要。具体如下:
3.1)构建训练集,将从文本流中抽取出来原句组合成为参考摘要。先在每个文本和标准摘要之间计算一个ROUGE-L召回率。将其得分按从大到小的顺序,对文本进行排序。ROUGE-L召回率ROUGE-LR的计算公式如下:
Figure BDA0002516172110000102
其中,LCS(X,Y)指的是文本X和标准摘要Y之间的最长公共子序列,m是标准摘要Y的长度。
在排序后的文本集合后,逐句抽取出来判断是否作为摘要。新抽取出的文本和之前抽取出的文本集合需要做一个简单的显式不一致判断,即判断新抽取出来的文本i和之前的抽取出来的文本集合中每一个文本j的公共最长子序列(LCS),如果LCS的长度大于比较的两个文本之间较大长度的文本长度的一半,即|LCS(i,j)|/max(oi,oj)≥0.5,则这对文本对之间存在不一致信息。首先抽取ROUGE-L召回率最大的句子,接着按顺序抽取其他句子,如果新抽取出的句子加上之前抽取出作为摘要的文本集合的ROUGE-LR会增加,并且新抽取出的文本和之前抽取出作为摘要的文本集合的每一句都没有不一致,就把这个新句子加入到要作为摘要的文本集合中去,否则不加入。
遍历完全部文本后结束,得到抽取式摘要生成模型的参考摘要,其中被加入参考摘要的句子n标记tn=1,否则tn=0。
3.2)将训练集输入抽取式摘要生成模型,得到文本的句子表示形式si
把一个时间段的文本集合看成一个整体作为处理。当前时间段的文本包含在上个时间段生成的旧摘要和新监控到的文本。在抽取式摘要生成模型的底层,输入是一个时间段的每个文本
Figure BDA0002516172110000111
每个词都可以用独热编码表示。通过嵌入层,每个文本中的每个词都可以使用词嵌入向量来表示
Figure BDA0002516172110000112
将嵌入层的输出作为双层双向门控循环单元的输入,双向门控循环单元包括一个前向门控循环单元用来处理文本从第一个词到最后一个词的序列状态,一个后向门控循环单元用来处理文本从最后一个词到第一个词的序列状态。一个双向门控循环单元将依次进行以下操作。首先,一个前向门控循环单元都会根据前一个隐藏状态来更新下一个隐藏状态
Figure BDA0002516172110000113
Figure BDA0002516172110000114
Figure BDA0002516172110000115
Figure BDA0002516172110000116
Figure BDA0002516172110000117
其中,ri,t,zi,t分别被定义为重置门和更新门,
Figure BDA0002516172110000118
为候选输出状态,
Figure BDA0002516172110000119
为实际输出状态,br,bz,bh是偏置向量,Wr,Wz,Wh和Ur,Uz,Uh是权重矩阵,ei,t是在t时刻记忆单元的输入。其次,一个后向门控循环单元得到的第t个词的隐藏状态为hi,t b
Figure BDA00025161721100001110
Figure BDA00025161721100001111
Figure BDA00025161721100001112
Figure BDA00025161721100001113
最后将这两个隐藏状态连接在一起,即
Figure BDA00025161721100001114
作为文本i的第t个词在第一个双向门控循环单元层上的输出。接着将第一个双向门控循环单元层的输出,即每个词对应的隐藏状态hi,t作为第二个双向门控循环单元层的输入,将第二个双向门控循环单元层的输出作为一个带有tanh激活函数的全连接层的输入,得到文本的句子表示形式。
Figure BDA0002516172110000121
3.3)对上述输出的每个句子si,进行平均,得到当前时间段的文本集合向量表示d,
Figure BDA0002516172110000122
其中,Nd代表在这个时间段中句子的个数,Wd是待训练的权重矩阵,b是待训练的偏置系数。
3.4)根据当前时间段每个句子表示形式sj和当前时间段的文本集合向量表示d,做一个预分类,即先简单判断每个文本是否需要作为摘要,输出的是每个文本需要作为摘要的初始概率:
Figure BDA0002516172110000123
其中,p(tj=1)代表第j条文本作为摘要的概率,这里的j包含在上个时间段生成的旧摘要和新监控到的文本,sj代表第j条文本的句子级别表示,s~j代表的是在第j条文本前临时摘要的表示,
Figure BDA0002516172110000124
Wc,Ws,Wr是待训练的权重矩阵,
Figure BDA0002516172110000125
是上述第j条文本的句子级别表示向量的转置,sigmoid函数σ内包含第一项代表第j个句子包含的信息,第二项代表第j个句子相对于当前时间段文本集合的显著性,第三项代表当前时间段中第j个文本和临时摘要之间的冗余度,γj是每个句子的初始得分。
3.5)结合步骤2)预训练的分层循环神经网络得到的两个句子i,j不一致概率g(i,j)执行更新算法得到每个句子的得分β。
更新算法具体为:
3.5.1)循环遍历当前时间段的新文本句子集合,一条新的文本j循环遍历所有旧摘要句子,对于每一个旧摘要文本i,进行信息不一致比较:
3.5.2)如果不一致概率g(i,j)≥0.5,则令旧摘要文本βi=γi*(1-g(i,j)),并且这条旧摘要i将从旧摘要集合中移出,不再与其他新文本进行比较;并令新文本βj=γj*g(i,j)*P(tj=1|sj,d,s~old),其中,γ(j)代表新文本j作为摘要的初始概率,P(tj=1|sj,d,s~old)代表根据当前的旧摘要集合s~old,判断这条新文本句子是否需要填入摘要的概率;将新的文本句子j填入旧摘要i的位置,继续遍历;这个新文本句子j会替换旧摘要集合的其中一条摘要,再跟后续的新文本句子进行判断;
3.5.3)如果不一致率g(i,j)<0.5,则不操作继续遍历下一条旧摘要;
3.5.4)遍历结束后,如果新文本j的得分都未更新过,则将文本的初始概率γ(j)赋值给它的最终概率βj=γj
3.6)得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数:
Figure BDA0002516172110000131
其中,tn∈{0,1}是参考摘要的标签,βn是第n个句子的得分。
4)用分割后的数据集,训练一个基于强化学习和深度学习的生成式摘要模型,目的是对文本数据流原句进行改写、重新拼接组合成新的文本作为当前文本数据流的摘要。该生成式摘要模型包括编码器和解码器;编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分;解码器通过一个单向长短期记忆网络和注意力机制,逐词生成摘要;生成式摘要模型的总损失函数为:Labstractor=Lmix+Lcov,其中Lmix为混合损失函数,Lcov为覆盖机制的损失函数。
具体的,生成式摘要模型对应的标准摘要是预先设定的。
把一个时间段的文本集合看成一个整体作为处理。在生成式摘要模型的底层,输入是一个时间段的所有文本的词w=(w0,w1,…,wi,…},每个词都可以用独热编码表示。通过嵌入层,每个文本中的每个词都可以使用词嵌入向量来表示(e0,e1,…ei,…)。将嵌入层的输出作为编码器中双向长短期记忆网络的输入,双向长短期记忆网络包括一个前向长短期记忆网络用来处理文本从第一个词到最后一个词的序列状态,一个后向长短期记忆网络用来处理文本从最后一个词到第一个词的序列状态。一个双向长短期记忆网络将依次进行以下操作。
首先,一个前向长短期记忆网络都会根据前一个隐藏状态来更新下一个隐藏状态
Figure BDA0002516172110000132
Figure BDA0002516172110000133
Figure BDA0002516172110000134
Figure BDA0002516172110000135
Figure BDA0002516172110000136
Figure BDA0002516172110000137
Figure BDA0002516172110000138
其中,ft,it,ot分别被定义为遗忘门,输入门和输出门,
Figure BDA0002516172110000139
为候选状态值,
Figure BDA00025161721100001310
是实际状态值,
Figure BDA0002516172110000141
为实际输出状态,bf,bi,bc,bo是偏置向量,Wf,Wi,Wc,Wo是权重矩阵,et是在t时刻记忆单元的输入。
其次,一个后向长短期记忆网络得到的第t个词的隐藏状态为
Figure BDA0002516172110000142
Figure BDA0002516172110000143
Figure BDA0002516172110000144
Figure BDA0002516172110000145
Figure BDA0002516172110000146
Figure BDA0002516172110000147
Figure BDA0002516172110000148
最后将这两个隐藏状态连接在一起,即
Figure BDA0002516172110000149
在编码阶段,定义eti为在解码阶段的t时刻,编码器的第i个词的隐藏状态
Figure BDA00025161721100001421
的注意力得分,eti具体计算见下文。对在过去的解码阶段中获得较高注意力得分的输入序列进行惩罚,定义新的在解码阶段的t时刻,编码器的第i个词的隐藏状态
Figure BDA00025161721100001422
的注意力得分:
Figure BDA00025161721100001412
最后,计算输入中的归一化注意力得分
Figure BDA00025161721100001413
并使用这些权重获得输入的全局上下文向量
Figure BDA00025161721100001414
Figure BDA00025161721100001415
Figure BDA00025161721100001416
为防止解码器生成重复短语,引入了一个内在解码注意机制。对每一个解码阶段t,计算一个新的解码全局上下文向量
Figure BDA00025161721100001417
在第一个解码阶段,因为生成的序列是空序列,所以设
Figure BDA00025161721100001423
为空向量。对于t>1时:
Figure BDA00025161721100001419
Figure BDA00025161721100001420
Figure BDA0002516172110000151
其中,
Figure BDA0002516172110000152
代表解码阶段第t时刻和第t′时刻之间的注意力得分,
Figure BDA0002516172110000153
是经过内在解码注意机制后,解码阶段t时刻和t′时刻之间新的注意力得分,
Figure BDA0002516172110000154
是待训练的权重系数。
为了生成摘要中的词,解码器使用了复制-生成机制,即摘要中的词可以从词汇表中生成,也可以从输入序列中的词复制到摘要中。定义一个二项值ut,当它的值为1时,代表在解码阶段第t个时刻,是从词汇表中生成摘要;当它的值为0时,代表是从输入序列中复制词到摘要中。因此,可以得到定义在解码阶段第t个时刻,从词汇表中选择yt作为当前生成摘要中的第t个词的概率:
Figure BDA0002516172110000155
其中,Wgen和bgen是可训练参数,
Figure BDA0002516172110000156
是解码器第t个词的隐藏状态。
另一方面,可以定义在解码阶段的第t个时刻,从输入序列复制以生成摘要的概率:
Figure BDA0002516172110000157
并且定义
Figure BDA0002516172110000158
其中,Wu和bu是可训练参数。
最后,可以得到在解码阶段第t个时刻,输出的词yt的概率:
P(yt|y1,…,yt-1)=P(ut=1|y1,…,yt-1)P(yt|ut=1)+P(ut=0|y1,…,yt-1)P(yt|ut=0)
注意,如果yt不是词汇表内的词,则P(yt|ut=1)为0;类似的,如果yt没有出现在编码器的输入序列中,则P(yt|ut=0)为0。
使用自关键策略梯度训练算法。定义强化学习的损失函数:
Figure BDA0002516172110000159
其中,ys代表在每个解码阶段,从
Figure BDA00025161721100001510
概率分布中采样出第s个样本;
Figure BDA00025161721100001511
是通过每个解码阶段,用贪心搜索得到最大化的概率分布作为基线输出,强化学习在训练时希望r(ys)比
Figure BDA00025161721100001512
越大越好,r(·)=ROUGE-LF是一个奖惩函数,使用的是ROUGE-LF-score,x是输入的文本数据。
Figure BDA00025161721100001513
Figure BDA00025161721100001514
Figure BDA0002516172110000161
其中,LCS(X,Y)指的是文本X和标准摘要Y之间的最长公共子序列,m是标准摘要Y的长度,n是文本X的长度。最后定义一个混合损失函数:
Lmix=δLrl+(1-δ)Lml
其中,δ是一个超参数,由系统应用者预先设定。Lml是最大似然损失。
Figure BDA0002516172110000162
Figure BDA0002516172110000168
代表在解码阶段第t个时刻对应的标准摘要的词。
提出一个覆盖机制,作用也是能避免生成式摘要模型在同一个位置重复生成相同的词。在解码阶段第t个时刻,计算每个单词的全局覆盖向量
Figure BDA0002516172110000163
代表到当前t时刻为止,每个单词各自累加起来获得的注意力得分和。这个全局覆盖向量也会影响eti的计算,应将eti的计算公式更新为
Figure BDA0002516172110000164
其中,
Figure BDA0002516172110000165
是编码器的第i个词的隐藏状态、Wd是待训练的权重矩阵,
Figure BDA0002516172110000166
是上述得到的全局上下文向量,battn是可训练的偏置系数。
定义覆盖机制的损失函数:
Figure BDA0002516172110000167
7)将覆盖机制的损失函数和生成式摘要模型的混合损失函数加权求和得到生成式摘要模型的总损失函数。
Labstractor=Lmix+Lcov
5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合,训练一个端到端的神经摘要模型。
其中,抽取式摘要生成模型可以得到每个文本句子作为当前文本数据流摘要的概率,生成式摘要模型可以得到每个词作为解码阶段输出摘要里的词的概率。用文本句子作为摘要的概率来调整解码阶段输出摘要的词的概率,使抽取式摘要生成模型抽取的句子有利于提高生成式摘要模型逐词生成的性能。
假设抽取式摘要生成模型和生成式摘要模型的输入都是词序列w={w1,w2,…,wi,…},其中i是词的索引。词向量也可以被表示为句子序列s={s1,s2,…,sj,…},其中j是句子的索引,每一个句子是长度不定的词序列。定义一个映射函数m(·)可以将第i个单词投影到对应的第j个句子中。抽取式摘要生成模型输出的每个文本句子作为摘要的概率为β={β1,β2,…,βj,…},生成式摘要模型在解码阶段第t个时刻,生成的每个词的概率为α=(α1,α2,…,αi,…}。通过结合β和α,提出一个更新后的词注意力值:
Figure BDA0002516172110000171
这确保了仅当单词级别的
Figure BDA0002516172110000172
和相应的句子级别的βm(i)的注意力值都较大时,更新的单词注意值
Figure BDA0002516172110000173
才会大。通过这种调整机制,可以使较小注意力值的句子中的单词产生得尽可能少。因此,定义注意力值不一致的损失函数:
Figure BDA0002516172110000174
其中,K代表前K个大的注意力值的词,T代表当前时间段摘要中词的个数。
这样使抽取式摘要生成模型抽取的文本句子有利于去提高生成式摘要模型逐词生成的性能,以此训练一个端到端的神经摘要模型,损失函数为:
Ltotal=ε1Lextractor2Labstractor3LattnInc
其中,ε1,ε2,ε3都是超参数,代表每个组件的损失函数占总损失函数的权重,由系统使用人员设定。
6)在应用阶段,每隔一段系统预定时间,对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码,得到信息一致、内容易于理解的实时事件摘要。即测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
将本发明方法与各种现有的方法进行比较。比较方法为(1)Simplex:将实时汇总问题建模为多个整数规划问题,并通过改进的单纯形更新方法求解松弛线性规划形式。为了减少昂贵的不一致检测的存储和计算成本,在单纯形更新算法中嵌入了一种新颖的快速不一致检测策略。(2)MSWD:提出具有动态伪相关反馈的语言模型以获得相关推文,然后通过图优化生成推文的故事情节。(3)MSSF:一种基于隐藏在文本单元相似性属性中的子模态的多文档摘要的抽象方法。(4)SNMF:基于对称非负矩阵分解的摘要。(5)Sumblr:基于增量聚类的在线推文摘要。(6)Unified model:结合了抽取式摘要和生成式摘要的优势的统一模型。一个简单的抽取式摘要模型可以获得具有较高ROUGE分数的句子级别的注意力系数,而一个更复杂的生成式摘要模型则可以获得单词级别的注意力系数以生成更易读的段落。(7)Single abstracter:本发明方法中使用到的生成式摘要模型,但未使用Glove预训练的推特词嵌入。
表3给出本发明的FA模型与其他现有的模型,通过比较摘要框架生成的摘要和人工攥写的参考摘要之间的ROUGE得分,ROUGE得分越高,代表摘要框架生成的摘要越好。从表3得出该系统提出的EA模型的ROUGE指标是最高的。
表3:各个摘要框架ROUGE得分对比
Figure BDA0002516172110000181
并且,从一些可读性自动评估指标发现,EA模型的可读性相比其他也是较好的,也比较接近人工参考摘要的指标。需要注意的是因为MSSF是生成式摘要方法,生成的每个句子都非常短,往往只有5-7个词组成一个句子,所以造成可读性指标会高,但是他包含的信息量非常少,故不作比较。表4给出了各个摘要框架的可读性自动评估指标比较,得分越高代表可读性越好:
表4:可读性自动评估指标
Figure BDA0002516172110000182
Figure BDA0002516172110000191
想让本发明的方法生成的摘要中,推文之间的不一致信息尽可能少,因此通过不一致的自动评估以及人工评估来验证本发明系统摘要框架生成的摘要是否能达到不一致率小的效果。不一致率自动评估用到了构建分层循环神经网络的文本对标签构建的方法,即通过LCS显式的判断文本对之间的关系。测试集共有5个实时事件,即有25个时间段,平均不一致率的计算公式:
Figure BDA0002516172110000192
其中,T=25;inconsistentTweet代表当前时间段里,不一致的文本句子数量;Nt代表当前时间段里,文本的总数量。
表5:各摘要框架不一致自动评估的结果
方法 平均不一致率
Simplex 0.01
Mwds 0.02
Sumblr 0.98
Snmf 0.17
Mssf 0.89
Single abstracter 0.48
Unified model 0.18
EA model(Ours) 0.13
表6给出了派遣5名人工志愿者,对2个测试推文事件集,即共10个时间段各个摘要框架生成的摘要进行人工的不一致评估,得到各摘要框架的不一致人工评估结果如表6:
表6:各摘要框架不一致自动评估的结果
Figure BDA0002516172110000193
Figure BDA0002516172110000201
由表5和表6可以发现,本发明方法的EA模型生成的摘要中,推文之间的不一致率是相对较小的,并且结合表3,也发现本发明方法的EA模型生成的摘要中,ROUGE得分相对较高,证明摘要的内容更加具体,可以让用户了解事件的整个过程发展。
最后,给出测试阶段一个实时推文事件生成摘要的例子,表7包含本发明的系统生成的摘要和其他模型生成的摘要之间的对比,带下划线的表示是冗余信息,蓝色代表是不相关信息,斜体代表的是不一致信息,粗体代表的是事件的最新信息:
表7通过不同摘要框架输出的实时摘要对比
Figure BDA0002516172110000202
Figure BDA0002516172110000211
Figure BDA0002516172110000221
Figure BDA0002516172110000231
Figure BDA0002516172110000241
Figure BDA0002516172110000251
Figure BDA0002516172110000261
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (10)

1.一种基于一致性监测的实时事件摘要方法,其特征在于,包括如下步骤:
1)收集文本流数据,对监控的文本数据流进行分割和预处理;
2)通过预处理后的文本数据流训练一个分层循环神经网络,以检测历史与实时文本片段之间信息不一致的概率;
3)用分割后的数据集,结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型;
4)用分割后的数据集,训练一个基于强化学习和深度学习的生成式摘要模型;
5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合,训练一个端到端的神经摘要模型;
6)在应用阶段,每隔一段系统预定时间,对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码,得到信息一致、内容易于理解的实时事件摘要。
2.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,步骤1)中,所述文本数据流按照预先用户需求的时间粒度进行分割,后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入;预处理包括过滤重复的文本,并且将表情符号,http链接和非标点符号的非法符号删除。
3.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,步骤2)中,所述分层循环神经网络包括底层模块和顶层模块;在底层模块,通过神经网络得到历史与实时文本片段之间相关和不相关的概率;在顶层模块,通过神经网络处理历史与实时文本片段之间是相关关系的文本对,以此得到历史与实时文本片段之间信息不一致的概率。
4.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,步骤2)中,训练分层循环神经网络包括如下:
2.1)构造训练集,抽取适量的文本对,使用自动标注方法将一对文本i,j标注为不相关和相关,再将相关的文本对进一步标注为相关且一致或相关但不一致,标注记号为R(i,j),C(i,j);
2.2)将训练集输入分层循环神经网络,其顶层模块输出g(i,j),代表文本对相关且一致或文本对相关且不一致;
2.3)得到分层循环神经网络的损失函数
Figure FDA0002516172100000011
其中N是训练样本的数量,f(i,j)为sigmoid激活函数的输出,训练中对不相关的文本对即R(i,j)=0的i,j进行降采样处理,以此得到分层循环神经网络的数据集。
5.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,步骤3)中,所述基于深度学习抽取式摘要生成模型建模为序列标注任务;首先获得每个文本的表示,即将句子编码为一个向量;该向量进行二分类任务:通过神经网络得到每个句子作为摘要的初始概率,再结合步骤2)的分层循环神经网络,判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率,最终得到当前时间段的文本数据流对应的抽取式摘要。
6.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,所述基于深度学习抽取式摘要生成模型训练过程如下:
3.1)构建训练集,将从文本流中抽取出来原句组合成为参考摘要;
3.2)将训练集输入抽取式摘要生成模型,得到文本的句子表示形式si
3.3)对上述输出的每个句子si,进行平均,得到当前时间段的文本集合向量表示d,
Figure FDA0002516172100000021
其中,Nd代表在这个时间段中句子的个数;Wd是待训练的权重矩阵,b是待训练的偏置系数。
3.4)根据当前时间段每个句子表示形式sj和当前时间段的文本集合向量表示d,做一个预分类,即先简单判断每个文本是否需要作为摘要,输出的是每个文本需要作为摘要的初始概率:
Figure FDA0002516172100000022
其中,p(tj=1)代表第j条文本作为摘要的概率,这里的j包含在上个时间段生成的旧摘要和新监控到的文本,sj代表第j条文本的句子级别表示,s~j代表的是在第j条文本前临时摘要的表示,
Figure FDA0002516172100000023
Wc,Ws,Wr是待训练的权重矩阵,
Figure FDA0002516172100000024
是上述第j条文本的句子级别表示向量的转置,sigmoid函数σ内包含第一项代表第j个句子包含的信息,第二项代表第j个句子相对于当前时间段文本集合的显著性,第三项代表当前时间段中第j个文本和临时摘要之间的冗余度,γj是每个句子的初始得分。
3.5)结合步骤2)预训练的分层循环神经网络得到的两个句子i,j不一致概率g(i,j)执行更新算法得到每个句子的得分β,其中第n个句子的得分表示为βn
3.6)得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数:
Figure FDA0002516172100000031
其中,tn∈{0,1}是参考摘要的标签。
7.如权利要求6所述的一种基于一致性监测的实时事件摘要方法,其特征在于,所述更新算法具体为:
3.5.1)循环遍历当前时间段的新文本句子集合,一条新的文本j循环遍历所有旧摘要句子,对于每一个旧摘要文本i,进行信息不一致比较:
3.5.2)如果不一致概率g(i,j)≥0.5,则令旧摘要文本βi=γi*(1-g(i,j)),并且这条旧摘要i将从旧摘要集合中移出,不再与其他新文本进行比较;并令新文本βj=γj*g(i,j)*P(tj=1|sj,d,s~old),其中,γ(j)代表新文本j作为摘要的初始概率,P(tj=1|sj,d,s~old)代表根据当前的旧摘要集合s~old,判断这条新文本句子是否需要填入摘要的概率;将新的文本句子j填入旧摘要i的位置,继续遍历;这个新文本句子j会替换旧摘要集合的其中一条摘要,再跟后续的新文本句子进行判断;
3.5.3)如果不一致率g(i,j)<0.5,则不操作继续遍历下一条旧摘要;
3.5.4)遍历结束后,如果新文本j的得分都未更新过,则将文本的初始概率γ(j)赋值给它的最终概率βj=γj
8.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,所述步骤4)中,所述基于强化学习和深度学习的生成式摘要模型包括编码器和解码器;编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分;解码器通过一个单向长短期记忆网络和注意力机制,逐词生成摘要;生成式摘要模型的总损失函数为:Labstractor=Lmix+Lcov,其中Lmix为混合损失函数,Lcov为覆盖机制的损失函数。
9.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,所述端到端的神经摘要模型中,损失函数为:
Ltotal=ε1Lextractor2Labstractor3LattnInc
其中,ε1,ε2,ε3都是超参数,代表每个组件的损失函数占总损失函数的权重,LattnInc为注意力值不一致的损失函数。
10.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,在测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
CN202010477088.1A 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法 Active CN111639176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477088.1A CN111639176B (zh) 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477088.1A CN111639176B (zh) 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法

Publications (2)

Publication Number Publication Date
CN111639176A true CN111639176A (zh) 2020-09-08
CN111639176B CN111639176B (zh) 2022-07-01

Family

ID=72331569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477088.1A Active CN111639176B (zh) 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法

Country Status (1)

Country Link
CN (1) CN111639176B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112232489A (zh) * 2020-10-26 2021-01-15 南京明德产业互联网研究院有限公司 一种门控循环网络的方法和装置及链路预测的方法和装置
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质
CN113849634A (zh) * 2021-03-01 2021-12-28 天翼智慧家庭科技有限公司 用于提升深度模型推荐方案可解释性的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508371A (zh) * 2018-11-07 2019-03-22 中山大学 一种结合集束搜索间隔最大化约束的文本摘要生成方法
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质
US20190258671A1 (en) * 2016-10-28 2019-08-22 Vilynx, Inc. Video Tagging System and Method
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258671A1 (en) * 2016-10-28 2019-08-22 Vilynx, Inc. Video Tagging System and Method
CN109508371A (zh) * 2018-11-07 2019-03-22 中山大学 一种结合集束搜索间隔最大化约束的文本摘要生成方法
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN LINGTING 等: "Realtime event summarization from tweets with inconsistency detection", 《CONCEPTUAL MODELING》 *
汪辉: "微博事件摘要生成及演化分析技术研究与应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148863A (zh) * 2020-10-15 2020-12-29 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112232489A (zh) * 2020-10-26 2021-01-15 南京明德产业互联网研究院有限公司 一种门控循环网络的方法和装置及链路预测的方法和装置
CN113849634A (zh) * 2021-03-01 2021-12-28 天翼智慧家庭科技有限公司 用于提升深度模型推荐方案可解释性的方法
CN113849634B (zh) * 2021-03-01 2024-04-16 天翼视联科技有限公司 用于提升深度模型推荐方案可解释性的方法
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111639176B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
Zheng et al. Characterization inference based on joint-optimization of multi-layer semantics and deep fusion matching network
Ray et al. An ensemble-based hotel recommender system using sentiment analysis and aspect categorization of hotel reviews
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN111639176B (zh) 一种基于一致性监测的实时事件摘要方法
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN108319686A (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
Srikanth et al. Sentiment analysis on COVID-19 twitter data streams using deep belief neural networks
Guo et al. Deep semantic-based feature envy identification
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN114155477B (zh) 一种基于平均教师模型的半监督视频段落定位方法
Wei et al. Sentiment classification of tourism reviews based on visual and textual multifeature fusion
Tareq et al. Data-augmentation for bangla-english code-mixed sentiment analysis: Enhancing cross linguistic contextual understanding
Nam et al. A survey on multimodal bidirectional machine learning translation of image and natural language processing
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
Putra et al. Sentence boundary disambiguation for Indonesian language
Zhang et al. Hierarchical attention networks for grid text classification
Attri et al. Enhancement of Fake Reviews Classification Using Deep Learning Hybrid Models
CN113361259A (zh) 一种服务流程抽取方法
Zhang Exploration of Cross-Modal Text Generation Methods in Smart Justice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant