CN111639176B - 一种基于一致性监测的实时事件摘要方法 - Google Patents

一种基于一致性监测的实时事件摘要方法 Download PDF

Info

Publication number
CN111639176B
CN111639176B CN202010477088.1A CN202010477088A CN111639176B CN 111639176 B CN111639176 B CN 111639176B CN 202010477088 A CN202010477088 A CN 202010477088A CN 111639176 B CN111639176 B CN 111639176B
Authority
CN
China
Prior art keywords
text
abstract
probability
real
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010477088.1A
Other languages
English (en)
Other versions
CN111639176A (zh
Inventor
林琛
李辉
欧阳智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010477088.1A priority Critical patent/CN111639176B/zh
Publication of CN111639176A publication Critical patent/CN111639176A/zh
Application granted granted Critical
Publication of CN111639176B publication Critical patent/CN111639176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种基于一致性监测的实时事件摘要方法,涉及深度学习,依次使用以下步骤:对监控的文本数据流进行分割和预处理;训练一个分层循环神经网络以检测历史与实时文本片段之间信息不一致的概率;训练一个基于深度学习抽取式摘要生成模型;训练一个基于强化学习和深度学习的生成式摘要模型;将预训练好的抽取式摘要生成模型和生成式摘要模型结合起来,训练一个端到端的神经摘要模型;通过训练好的端到端的神经摘要模型对每个分割时间段的监控文本数据进行解码,得到信息一致,内容易于理解的实时事件摘要。

Description

一种基于一致性监测的实时事件摘要方法
技术领域
本发明涉及深度学习领域,特别是指一种基于深度学习的一致性监测的实时事件摘要方法。
背景技术
互联网3.0时代,各种新闻社交平台,例如微博、头条彻底改变了人们访问信息的方式,尤其是有关时事或事件的信息。互联网允许人们自由发布各种各样的消息,并进行转发,评论,阅读,点赞等操作,形成了源源不断的文本数据流。每天世界各地成千上万的用户都在不断分享他们在周围环境中所观察到的信息。对于突发新闻事件,从自然灾害到社会政治运动,群众、各国政府和媒体机构都已经意识到要从互联网作为主要信息来源的重要性。
但是,互联网上的文本数据流会造成信息过载这一严重问题,我们很难从海量的信息中获取自己想要知道的内容,充斥着大量重复且多余的文本,用户很难掌握事件的主要梗概,了解事件的最新发展。因此,建立针对互联网各文本数据流源的实时事件摘要系统对用户来说,是非常重要且急需的。
从文本数据流中实时生成一个事件的摘要,需要面对摘要中的信息存在不一致的问题。例如,在一次地震事件中,每一次系统更新的事件摘要,应该包含最新的伤亡信息,而不是简单地把过时或者不准确的伤亡数字汇总。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于一致性监测的实时事件摘要方法,对系统监控的文本数据流,通过深度学习和强化学习的方法,自动检测信息不一致,并生成实时的易于理解的文本摘要,以此让用户了解到最新的事件信息。
本发明采用如下技术方案:
一种基于一致性监测的实时事件摘要方法,其特征在于,包括如下步骤:
1)收集文本流数据,对监控的文本数据流进行分割和预处理;
2)通过预处理后的文本数据流训练一个分层循环神经网络,以检测历史与实时文本片段之间信息不一致的概率;
3)用分割后的数据集,结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型;
4)用分割后的数据集,训练一个基于强化学习和深度学习的生成式摘要模型;
5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合,训练一个端到端的神经摘要模型;
6)在应用阶段,每隔一段系统预定时间,对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码,得到信息一致、内容易于理解的实时事件摘要。
步骤1)中,所述文本数据流按照预先用户需求的时间粒度进行分割,后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入;预处理包括过滤重复的文本,并且将表情符号,http链接和非标点符号的非法符号删除。
步骤2)中,所述分层循环神经网络包括底层模块和顶层模块;在底层模块,通过神经网络得到历史与实时文本片段之间相关和不相关的概率;在顶层模块,通过神经网络处理历史与实时文本片段之间是相关关系的文本对,以此得到历史与实时文本片段之间信息不一致的概率。
步骤2)中,训练分层循环神经网络包括如下:
2.1)构造训练集,抽取适量的文本对,使用自动标注方法将一对文本ii,jj标注为不相关和相关,再将相关的文本对进一步标注为相关且一致或相关但不一致,标注记号为R(i,j),C(i,j);
2.2)将训练集输入分层循环神经网络,其顶层模块输出g(i,j),代表文本对相关且一致或文本对相关且不一致;
2.3)得到分层循环神经网络的损失函数
Figure GDA0003643077430000021
其中N是训练样本的数量,f(i,j)为sigmoid激活函数的输出,训练中对不相关的文本对即R(ii,jj)=0的ii,jj进行降采样处理,以此得到分层循环神经网络的数据集。
步骤3)中,所述基于深度学习抽取式摘要生成模型建模为序列标注任务;首先获得每个文本的表示,即将句子编码为一个向量;该向量进行二分类任务:通过神经网络得到每个句子作为摘要的初始概率,再结合步骤2)的分层循环神经网络,判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率,最终得到当前时间段的文本数据流对应的抽取式摘要。
所述基于深度学习抽取式摘要生成模型训练过程如下:
3.1)构建训练集,将从文本流中抽取出来原句组合成为参考摘要;
3.2)将训练集输入抽取式摘要生成模型,得到文本的句子表示形式si
3.3)对上述输出的每个句子si,进行平均,得到当前时间段的文本集合向量表示d,
Figure GDA0003643077430000031
其中,Nd代表在这个时间段中句子的个数;Wd是待训练的权重矩阵,b是待训练的偏置系数;
3.4)根据当前时间段每个句子表示形式sj和当前时间段的文本集合向量表示d,做一个预分类,即先简单判断每个文本是否需要作为摘要,输出的是每个文本需要作为摘要的初始概率:
Figure GDA0003643077430000032
其中,p(tj=1)代表第j条文本作为摘要的概率,这里的j包含在上个时间段生成的旧摘要和新监控到的文本,sj代表第j条文本的句子级别表示,s~j代表的是在第j条文本前临时摘要的表示,
Figure GDA0003643077430000033
Wc,Ws,Wr是待训练的权重矩阵,
Figure GDA0003643077430000034
是上述第jj条文本的句子级别表示向量的转置,sigmoid函数σ内包含第一项代表第j个句子包含的信息,第二项代表第j个句子相对于当前时间段文本集合的显著性,第三项代表当前时间段中第j个文本和临时摘要之间的冗余度;
3.5)结合步骤2)预训练的分层循环神经网络得到的两个文本ii,jj不一致概率g(i,j)执行更新算法得到每个文本的概率β,其中第n个文本的概率表示为βn
3.6)得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数:
Figure GDA0003643077430000035
其中,tn∈{0,1}是参考摘要的标签。
所述更新算法具体为:
3.5.1)循环遍历当前时间段的新文本句子集合,一条新的文本j循环遍历所有旧摘要句子,对于每一个旧摘要文本ii,进行信息不一致比较:
3.5.2)如果不一致概率g(i,j)≥0.5,则令旧摘要文本βi=γi*(1-g(i,j)),并且这条旧摘要文本i将从旧摘要集合中移出,不再与其他新文本进行比较;并令新文本βj=γj*g(i,j)*P(tj=1|sj,d,s~old),其中,γj代表新文本jj作为摘要的初始概率,P(tj=1|sj,d,s~old)代表根据当前的旧摘要集合s~old,判断这条新文本是否需要填入摘要的概率;将新的文本jj填入旧摘要文本i的位置,继续遍历;这个新文本j会替换旧摘要集合的其中一条摘要,再跟后续的新文本进行判断;
3.5.3)如果不一致率g(i,j)<0.5,则不操作继续遍历下一条旧摘要;
3.5.4)遍历结束后,如果新文本j的概率都未更新过,则将文本的初始概率γj赋值给它的最终概率βj=γj
所述步骤4)中,所述基于强化学习和深度学习的生成式摘要模型包括编码器和解码器;编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分;解码器通过一个单向长短期记忆网络和注意力机制,逐词生成摘要;生成式摘要模型的总损失函数为:Labstractor=Lmix+Lcov,其中Lmix为混合损失函数,Lcov为覆盖机制的损失函数。
所述端到端的神经摘要模型中,损失函数为:
Ltotal=ε1Lextractor2Labstractor3LattnInc
其中,ε1,ε2,ε3都是超参数,代表每个组件的损失函数占总损失函数的权重,LattnInc为注意力值不一致的损失函数。
在测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明的方法对系统监控的文本数据流,通过深度学习和强化学习的方法,自动检测信息不一致,并生成实时的易于理解的文本摘要,以此让用户了解到最新的事件信息。其中的摘要内容简洁,清晰,易于理解,推文之间不存在不一致的信息。
附图说明
图1是本发明实施例的流程图。
图2是本发明方法提出的分层循环神经网络。
图3是本发明方法提出的基于深度学习抽取式摘要生成模型。
图4是本发明方法提出的基于强化学习和深度学习的生成式摘要模型。
图5是本发明方法提出的推文实时事件摘要框架。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
本发明的核心思想在于,提出一个基于一致性监测的实时事件摘要框架。该框架将基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合在一起,并辅以一个分层循环神经网络来检测信息不一致。如图5所示,Extractor代表的是基于深度学习抽取式摘要生成模型,HID代表的是检测信息不一致的分层循环神经网络,Abstracter代表的是基于强化学习和深度学习的生成式摘要模型。
图1给出一种基于一致性监测的实时事件摘要系统的流程图。步骤1)由系统监控的文本数据流源进行数据收集,步骤2)-步骤4)分别训练检测信息不一致的分层循环神经网络,基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型。步骤2)-步骤4)训练的是三个独立的模型,是作为预训练步骤。在步骤5)中,把预训练的这三个模型结合起来,进一步优化一个端到端的实时事件摘要框架EA模型。最后,在步骤6)中,使用训练好的参数进行实际输出。具体包括如下:
1)收集文本流数据,对监控的文本数据流进行分割和预处理。具体的,文本数据流按照预先用户需求的时间粒度进行分割,后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入;预处理包括过滤重复的文本,并且将表情符号,http链接和非标点符号的非法符号删除。
以从推特上收集推文数据为例,使用Twitter API的关键词匹配,输入事件关键词“Euro2012”,“Hurricane Sandy”…,得到21个推文事件对应的连续推文集合,以此作为实验中使用的系统监控的文本数据流。
接着对监控的文本数据流进行分割和预处理:数据集中包含不同类型的推文,包括回复和转发。并且数据集是多语言的,包括英语,日语等。在预处理中,首先过滤非英语推文。使用Bloom过滤算法过滤重复的推文。并且将表情符号表达,http链接和提及(@某人)从推文中删除。经过这样的数据过滤后,将每个事件的文本集按3000个文本进行分割,每个事件使用5个时间段对应的文本集合作为需要去得到摘要的数据集,并遣派5名人工志愿者合作攥写每个事件的每个时间段对应的参考摘要。
因为深度学习的内存限制,特别是在抽取器结合分层不一致检测模型时,需判断历史与实时文本片段之间是否存在不一致信息。为加快训练速度,使用十种信息搜索引擎如BM25,PL2,TF_IDF等模型对每个时间段的3000个文本进行计算,得到文本中有关事件的关键词权重;接着由十个信息搜索引擎得到的结果进行平均,获得每个文本的平均相关性权重。再根据每个文本对应的评论数、阅读数、点赞数、转发数计算每条文本的平均可信性权重,将两种权重平均后,按最终的平均权重从大到小排序,抽出每个时间段中的前100个平均权重最大的文本,作为抽取式摘要生成模型和生成式摘要模型的输入数据集。
2)通过预处理后的文本数据流训练一个分层循环神经网络,以检测历史与实时文本片段之间信息不一致的概率。分层循环神经网络包括底层模块和顶层模块;在底层模块,通过神经网络得到历史与实时文本片段之间相关和不相关的概率;在顶层模块,通过神经网络处理历史与实时文本片段之间是相关关系的文本对,以此得到历史与实时文本片段之间信息不一致的概率。
具体的,训练分层循环神经网络包括如下:
2.1)构造训练集,抽取适量的文本对,使用自动标注方法将一对文本ii,jj标注为不相关和相关,再将相关的文本对进一步标注为相关且一致或相关但不一致,标注记号为
R(i,j),C(i,j)。
a执行文本分词和归一化,停用词去除,命名实体识别,并且将文本中所有的数字用特殊标记“[数字]”来代替,命名实体也用特殊标记例如“[地点],[组织],[人物]”来代替。在这些处理后,文本被转换为符号序列。接着,抽取一对文本的最长公共子序列。举个例子:文本1的内容是“××地震死亡人数升至××.”,经过预处理后,得到对应的文本1符号序列的内容是“[地点]地震死亡人数升至[数字]”,符号序列长度7,文本2的内容是“××地震死亡至少××.”,对应的符号序列是“[地点]地震死亡至少[数字]”,长度5,由此得到文本1和文本2的最长公共子序列是“[地点]地震死亡[数字]”,长度为4。
b假设|LCS(i,j)|是文本i和文本j的最长公共子序列长度,oi是文本i的符号序列长度,oj是文本j的符号序列长度。如果文本i和文本j的最长公共子序列的比例很小,即
Figure GDA0003643077430000061
将文本i和文本j的关系标注为不相关,即R(i,j)=0。如果文本i和文本j最长公共子序列的比例很大并且一些特殊标记为不一样的值,即
Figure GDA0003643077430000062
并且“[地点],[组织],[人物],[数字]”至少一个不同,将文本i和文本j的关系标注为相关但不一致,即R(i,j)=1,C(i,j)=1。对于其它文本对,标注为相关,即
Figure GDA0003643077430000063
Figure GDA0003643077430000064
C(i,j)=0。
2.2)将训练集输入分层循环神经网络,其顶层模块输出g(i,j),代表文本对相关且一致或文本对相关且不一致。
输入的每个训练样本都包含序列对
Figure GDA0003643077430000065
其中
Figure GDA0003643077430000066
是文本ii的序列,
Figure GDA0003643077430000067
代表在文本i中的第Ni个词对应的独热向量。所谓的独热向量指的是用一个向量来表示词
Figure GDA0003643077430000068
其中有且仅有一个分量为1。如附图2所示,对于序列i和序列j,执行相同的以下操作:经过嵌入层,得到词向量和词对应的词性标注的嵌入向量,将它们连接在一起作为底层模块的嵌入层输出。以序列i为例,嵌入层得到
Figure GDA0003643077430000071
其中ei,t=e(xi,t),e(xi,t)代表该序列i中第t个词的嵌入向量。在底层模块中,将嵌入层的输出作为双层双向门控循环单元的输入,双向门控循环单元包括一个前向门控循环单元用来处理文本从第一个词到最后一个词的序列状态,一个后向门控循环单元用来处理文本从最后一个词到第一个词的序列状态。一个双向门控循环单元将依次进行以下操作。
首先,一个前向门控循环单元都会根据前一个隐藏状态来更新下一个隐藏状态
Figure GDA0003643077430000072
Figure GDA0003643077430000073
Figure GDA0003643077430000074
Figure GDA0003643077430000075
Figure GDA0003643077430000076
其中,ri,t、zi,t分别被定义为重置门和更新门,
Figure GDA0003643077430000077
为候选输出状态,
Figure GDA0003643077430000078
为实际输出状态,br,bz,bh是偏置向量,Wr,Wz,Wh和Ur,Uz,Uh是权重矩阵,ei,t是在t时刻记忆单元的输入。其次,一个后向门控循环单元得到的第t个词的隐藏状态为hi,t b
Figure GDA0003643077430000079
Figure GDA00036430774300000710
Figure GDA00036430774300000711
Figure GDA00036430774300000712
最后将这两个隐藏状态连接在一起,即
Figure GDA00036430774300000713
作为文本i的第t个词在第一个双向门控循环单元层上的输出。接着将第一个双向门控循环单元层的输出,即每个词对应的隐藏状态hi,t作为第二个双向门控循环单元层的输入,将第二个双向门控循环单元层的输出作为一个带有tanh激活函数的全连接层的输入,得到文本的句子表示形式。
Figure GDA00036430774300000714
第i个文本表示为si,第j个文本表示为sj,通过将两个向量相减将其融合起来,得到s=si-sj,最后,用一个sigmoid激活函数输出f(i,j)。
Figure GDA0003643077430000081
如果f>0.5,则说明这对文本对是相关的,将底层模块中第二层双向门控循环单元的输出流动到顶层模块,作为顶层模块全连接层的输入。经过一个带tanh激活函数的全连接层,一个将文本对向量进行相减的融合层以及一个带sigmoid激活函数的输出层,在输出层输出g,代表文本对相关且一致和相关但不一致。即:
Figure GDA0003643077430000082
s′=s′i-s′j
Figure GDA0003643077430000083
其中,WU是待训练的权重矩阵,
Figure GDA0003643077430000084
是上述得到的第Ni个词对应的隐藏状态,bU是待训练的偏置系数。
2.3)得到分层循环神经网络的损失函数
Figure GDA0003643077430000085
其中N是训练样本的数量,f(i,j)为sigmoid激活函数的输出,训练中对不相关的文本对即R(ii,jj)=0的ii,jj进行降采样处理,以此得到分层循环神经网络的数据集。
表1给出四条推文:
表1:分层循环神经网络的例子
ID 推文
1 Death toll from earthquake in××rises to××.
2 Death toll from××earthquake reaches at least××.
3 More than××Australians in××safe.
4 A week after quake,rescuers find××survivors.
通过层循环神经网络,当判断ID为1和ID为2的文本对关系时,在层循环神经网络的底层模块,会输出大于0.5的值,表示这两个文本之间信息是相关的;将这两个文本继续流动到顶层模块进行判断,会继续输出大于0.5的值,表示这两个文本之间信息是相关但不一致。当判断ID为3和ID为4的文本对关系时,在层循环神经网络的底层模块,会输出大于0.5的值,表示这两个文本之间信息是相关的;将这两个文本继续流动到顶层模块进行判断,会继续输出小于0.5的值,表示这两个文本之间信息是相关且一致。当判断ID为1和ID为3的文本对关系时,在层循环神经网络的底层模块,会输出小于0.5的值,表示这两个文本之间信息是不相关的。
将本发明方法与各种现有的方法进行比较。比较方法为(1)doc2vec+LR:基于doc2vec的推文嵌入的Logistic回归分类器。(2)doc2vec+SVM:基于doc2vec的推文嵌入的支持向量机分类器。(3)doc2vec+MLP:基于doc2vec的推文嵌入的多层感知机分类器。(4)Bi-GRU:具有单个双向门控循环单元层的神经网络(相当于层循环神经网络的底部模块只检测不一致v.s.其他)。在表2中给出系统的分层不一致模型和其他分类器的比较,实验结果证明层循环神经网络(HID-all)可以较好的判别出文本对之间的不一致关系:
表2:分层循环神经网络与其他分类器比较
准确率 精确率 召回率 F1值 AUC
doc2vec+LR 0.311 0.311 0.311 0.475 0.5
doc2vec+SVM 0.506 0.382 0.506 0.544 0.627
doc2vec+MLP 0.484 0.373 0.484 0.538 0.616
Bi-GRU 0.850 0.751 0.764 0.757 0.826
HID-all 0.859 0.766 0.779 0.772 0.837
3)用分割后的数据集,结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型,目的是从文本数据流原句中,抽出一些有代表性的句子,作为当前文本数据流的摘要。基于深度学习抽取式摘要生成模型建模为序列标注任务;首先获得每个文本的表示,即将句子编码为一个向量;该向量进行二分类任务:通过神经网络得到每个句子作为摘要的初始概率,再结合步骤2)的分层循环神经网络,判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率,最终得到当前时间段的文本数据流对应的抽取式摘要。具体如下:
3.1)构建训练集,将从文本流中抽取出来原句组合成为参考摘要。先在每个文本和标准摘要之间计算一个ROUGE-L召回率。将其得分按从大到小的顺序,对文本进行排序。ROUGE-L召回率ROUGE-LR的计算公式如下:
Figure GDA0003643077430000101
其中,LCS(X,Y)指的是文本X和标准摘要Y之间的最长公共子序列,m是标准摘要Y的长度。
在排序后的文本集合后,逐句抽取出来判断是否作为摘要。新抽取出的文本和之前抽取出的文本集合需要做一个简单的显式不一致判断,即判断新抽取出来的文本ii和之前的抽取出来的文本集合中每一个文本jj的公共最长子序列(LCS),如果LCS的长度大于比较的两个文本之间较大长度的文本长度的一半,即|LCS(i,j)|/max(oi,oj)≥0.5,则这对文本对之间存在不一致信息。首先抽取ROUGE-L召回率最大的句子,接着按顺序抽取其他句子,如果新抽取出的句子加上之前抽取出作为摘要的文本集合的ROUGE-LR会增加,并且新抽取出的文本和之前抽取出作为摘要的文本集合的每一句都没有不一致,就把这个新句子加入到要作为摘要的文本集合中去,否则不加入。
遍历完全部文本后结束,得到抽取式摘要生成模型的参考摘要,其中被加入参考摘要的句子n标记tn=1,否则tn=0。
3.2)将训练集输入抽取式摘要生成模型,得到文本的句子表示形式si
把一个时间段的文本集合看成一个整体作为处理。当前时间段的文本包含在上个时间段生成的旧摘要和新监控到的文本。在抽取式摘要生成模型的底层,输入是一个时间段的每个文本
Figure GDA0003643077430000102
每个词都可以用独热编码表示。通过嵌入层,每个文本中的每个词都可以使用词嵌入向量来表示
Figure GDA0003643077430000103
将嵌入层的输出作为双层双向门控循环单元的输入,双向门控循环单元包括一个前向门控循环单元用来处理文本从第一个词到最后一个词的序列状态,一个后向门控循环单元用来处理文本从最后一个词到第一个词的序列状态。一个双向门控循环单元将依次进行以下操作。首先,一个前向门控循环单元都会根据前一个隐藏状态来更新下一个隐藏状态
Figure GDA0003643077430000104
Figure GDA0003643077430000105
Figure GDA0003643077430000106
Figure GDA0003643077430000107
Figure GDA0003643077430000108
其中,ri,t,zi,t分别被定义为重置门和更新门,
Figure GDA0003643077430000111
为候选输出状态,
Figure GDA0003643077430000112
为实际输出状态,br,bz,bh是偏置向量,Wr,Wz,Wh和Ur,Uz,Uh是权重矩阵,ei,t是在t时刻记忆单元的输入。其次,一个后向门控循环单元得到的第t个词的隐藏状态为hi,t b
Figure GDA0003643077430000113
Figure GDA0003643077430000114
Figure GDA0003643077430000115
Figure GDA0003643077430000116
最后将这两个隐藏状态连接在一起,即
Figure GDA0003643077430000117
作为文本i的第t个词在第一个双向门控循环单元层上的输出。接着将第一个双向门控循环单元层的输出,即每个词对应的隐藏状态hi,t作为第二个双向门控循环单元层的输入,将第二个双向门控循环单元层的输出作为一个带有tanh激活函数的全连接层的输入,得到文本的句子表示形式。
Figure GDA0003643077430000118
3.3)对上述输出的每个句子si,进行平均,得到当前时间段的文本集合向量表示d,
Figure GDA0003643077430000119
其中,Nd代表在这个时间段中句子的个数,Wd是待训练的权重矩阵,b是待训练的偏置系数。
3.4)根据当前时间段每个句子表示形式sj和当前时间段的文本集合向量表示d,做一个预分类,即先简单判断每个文本是否需要作为摘要,输出的是每个文本需要作为摘要的初始概率:
Figure GDA00036430774300001110
其中,p(tj=1)代表第j条文本作为摘要的概率,这里的jj包含在上个时间段生成的旧摘要和新监控到的文本,sj代表第j条文本的句子级别表示,s~j代表的是在第j条文本前临时摘要的表示,
Figure GDA00036430774300001111
Wc,Ws,Wr是待训练的权重矩阵,
Figure GDA00036430774300001112
是上述第jj条文本的句子级别表示向量的转置,sigmoid函数σ内包含第一项代表第j个句子包含的信息,第二项代表第j个句子相对于当前时间段文本集合的显著性,第三项代表当前时间段中第j个文本和临时摘要之间的冗余度。
3.5)结合步骤2)预训练的分层循环神经网络得到的两个文本ii,jj不一致概率g(i,j)执行更新算法得到每个文本的概率β。
更新算法具体为:
3.5.1)循环遍历当前时间段的新文本句子集合,一条新的文本j循环遍历所有旧摘要句子,对于每一个旧摘要文本ii,进行信息不一致比较:
3.5.2)如果不一致概率g(i,j)≥0.5,则令旧摘要文本βi=γi*(1-g(i,j)),并且这条旧摘要i将从旧摘要集合中移出,不再与其他新文本进行比较;并令新文本βj=γj*g(i,j)*P(tj=1|sj,d,s~old),其中,γj代表新文本jj作为摘要的初始概率,P(tj=1|sj,d,s~old)代表根据当前的旧摘要集合s~old,判断这条新文本是否需要填入摘要的概率;将新的文本jj填入旧摘要文本i的位置,继续遍历;这个新文本j会替换旧摘要集合的其中一条摘要,再跟后续的新文本进行判断;
3.5.3)如果不一致率g(i,j)<0.5,则不操作继续遍历下一条旧摘要;
3.5.4)遍历结束后,如果新文本j的概率都未更新过,则将文本的初始概率γj赋值给它的最终概率βj=γj
3.6)得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数:
Figure GDA0003643077430000121
其中,tn∈{0,1}是参考摘要的标签,βn是第n个句子的得分。
4)用分割后的数据集,训练一个基于强化学习和深度学习的生成式摘要模型,目的是对文本数据流原句进行改写、重新拼接组合成新的文本作为当前文本数据流的摘要。该生成式摘要模型包括编码器和解码器;编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分;解码器通过一个单向长短期记忆网络和注意力机制,逐词生成摘要;生成式摘要模型的总损失函数为:Labstractor=Lmix+Lcov,其中Lmix为混合损失函数,Lcov为覆盖机制的损失函数。
具体的,生成式摘要模型对应的标准摘要是预先设定的。
把一个时间段的文本集合看成一个整体作为处理。在生成式摘要模型的底层,输入是一个时间段的所有文本的词w={w0,w1,…,wi,…},每个词都可以用独热编码表示。通过嵌入层,每个文本中的每个词都可以使用词嵌入向量来表示(e0,e1,…ei,…)。将嵌入层的输出作为编码器中双向长短期记忆网络的输入,双向长短期记忆网络包括一个前向长短期记忆网络用来处理文本从第一个词到最后一个词的序列状态,一个后向长短期记忆网络用来处理文本从最后一个词到第一个词的序列状态。一个双向长短期记忆网络将依次进行以下操作。
首先,一个前向长短期记忆网络都会根据前一个隐藏状态来更新下一个隐藏状态
Figure GDA0003643077430000131
Figure GDA0003643077430000132
Figure GDA0003643077430000133
Figure GDA0003643077430000134
Figure GDA0003643077430000135
Figure GDA0003643077430000136
Figure GDA0003643077430000137
其中,ft,it,ot分别被定义为遗忘门,输入门和输出门,
Figure GDA0003643077430000138
为候选状态值,
Figure GDA0003643077430000139
是实际状态值,
Figure GDA00036430774300001310
为实际输出状态,bf,bi,bc,bo是偏置向量,Wf,Wi,Wc,Wo是权重矩阵,et是在t时刻记忆单元的输入。
其次,一个后向长短期记忆网络得到的第t个词的隐藏状态为
Figure GDA00036430774300001311
Figure GDA00036430774300001312
Figure GDA00036430774300001313
Figure GDA00036430774300001314
Figure GDA00036430774300001315
Figure GDA00036430774300001316
Figure GDA00036430774300001317
最后将这两个隐藏状态连接在一起,即
Figure GDA00036430774300001318
在编码阶段,定义eti为在解码阶段的t时刻,编码器的第i个词的隐藏状态
Figure GDA00036430774300001319
的注意力得分,eti具体计算见下文。对在过去的解码阶段中获得较高注意力得分的输入序列进行惩罚,定义新的在解码阶段的t时刻,编码器的第i个词的隐藏状态
Figure GDA00036430774300001320
的注意力得分:
Figure GDA0003643077430000141
最后,计算输入中的归一化注意力得分
Figure GDA0003643077430000142
并使用这些权重获得输入的全局上下文向量
Figure GDA0003643077430000143
Figure GDA0003643077430000144
Figure GDA0003643077430000145
为防止解码器生成重复短语,引入了一个内在解码注意机制。对每一个解码阶段t,计算一个新的解码全局上下文向量
Figure GDA0003643077430000146
在第一个解码阶段,因为生成的序列是空序列,所以设
Figure GDA0003643077430000147
为空向量。对于t>1时:
Figure GDA0003643077430000148
Figure GDA0003643077430000149
Figure GDA00036430774300001410
其中,
Figure GDA00036430774300001411
代表解码阶段第t时刻和第t′时刻之间的注意力得分,
Figure GDA00036430774300001412
是经过内在解码注意机制后,解码阶段t时刻和t′时刻之间新的注意力得分,
Figure GDA00036430774300001413
是待训练的权重系数。
为了生成摘要中的词,解码器使用了复制-生成机制,即摘要中的词可以从词汇表中生成,也可以从输入序列中的词复制到摘要中。定义一个二项值ut,当它的值为1时,代表在解码阶段第t个时刻,是从词汇表中生成摘要;当它的值为0时,代表是从输入序列中复制词到摘要中。因此,可以得到定义在解码阶段第t个时刻,从词汇表中选择yt作为当前生成摘要中的第t个词的概率:
Figure GDA00036430774300001414
其中,Wgen和bgen是可训练参数,
Figure GDA00036430774300001415
是解码器第t个词的隐藏状态。
另一方面,可以定义在解码阶段的第t个时刻,从输入序列复制以生成摘要的概率:
Figure GDA00036430774300001416
并且定义
Figure GDA00036430774300001417
其中,Wu和bu是可训练参数。
最后,可以得到在解码阶段第t个时刻,输出的词yt的概率:
P(yt|y1,…,yt-1)=P(ut=1|y1,…,yt-1)P(yt|ut=1)+P(ut=0|y1,…,yt-1)P(yt|ut=0)
注意,如果yt不是词汇表内的词,则P(yt|ut=1)为0;类似的,如果yt没有出现在编码器的输入序列中,则P(yt|ut=0)为0。
使用自关键策略梯度训练算法。定义强化学习的损失函数:
Figure GDA0003643077430000151
其中,ys代表在每个解码阶段,从
Figure GDA0003643077430000152
概率分布中采样出第s个样本;
Figure GDA0003643077430000153
是通过每个解码阶段,用贪心搜索得到最大化的概率分布作为基线输出,强化学习在训练时希望r(ys)比
Figure GDA0003643077430000154
越大越好,r(·)=ROUGE-LF是一个奖惩函数,使用的是ROUGE-LF-score,x是输入的文本数据。
Figure GDA0003643077430000155
Figure GDA0003643077430000156
Figure GDA0003643077430000157
其中,LCS(X,Y)指的是文本X和标准摘要Y之间的最长公共子序列,m是标准摘要Y的长度,n是文本X的长度。最后定义一个混合损失函数:
Lmix=δLrl+(1-δ)Lml
其中,δ是一个超参数,由系统应用者预先设定。Lml是最大似然损失。
Figure GDA0003643077430000158
Figure GDA0003643077430000159
代表在解码阶段第t个时刻对应的标准摘要的词。
提出一个覆盖机制,作用也是能避免生成式摘要模型在同一个位置重复生成相同的词。在解码阶段第t个时刻,计算每个单词的全局覆盖向量
Figure GDA00036430774300001510
代表到当前t时刻为止,每个单词各自累加起来获得的注意力得分和。这个全局覆盖向量也会影响eti的计算,应将eti的计算公式更新为
Figure GDA00036430774300001511
其中,
Figure GDA00036430774300001512
是编码器的第i个词的隐藏状态、Wd是待训练的权重矩阵,
Figure GDA00036430774300001513
是上述得到的全局上下文向量,battn是可训练的偏置系数。
定义覆盖机制的损失函数:
Figure GDA00036430774300001514
将覆盖机制的损失函数和生成式摘要模型的混合损失函数加权求和得到生成式摘要模型的总损失函数。
Labstractor=Lmix+Lcov
5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合,训练一个端到端的神经摘要模型。
其中,抽取式摘要生成模型可以得到每个文本句子作为当前文本数据流摘要的概率,生成式摘要模型可以得到每个词作为解码阶段输出摘要里的词的概率。用文本句子作为摘要的概率来调整解码阶段输出摘要的词的概率,使抽取式摘要生成模型抽取的句子有利于提高生成式摘要模型逐词生成的性能。
假设抽取式摘要生成模型和生成式摘要模型的输入都是词序列w={w1,w2,…,wi,…},其中i是词的索引。词向量也可以被表示为句子序列s={s1,s2,…,sj,…},其中j是句子的索引,每一个句子是长度不定的词序列。定义一个映射函数m(·)可以将第i个单词投影到对应的第j个句子中。抽取式摘要生成模型输出的每个文本句子作为摘要的概率为β={β12,…,βj,…},生成式摘要模型在解码阶段第t个时刻,生成的每个词的概率为α={α12,…,αi,…}。通过结合β和α,提出一个更新后的词注意力值:
Figure GDA0003643077430000161
这确保了仅当单词级别的
Figure GDA0003643077430000162
和相应的句子级别的βm(i)的注意力值都较大时,更新的单词注意值
Figure GDA0003643077430000163
才会大。通过这种调整机制,可以使较小注意力值的句子中的单词产生得尽可能少。因此,定义注意力值不一致的损失函数:
Figure GDA0003643077430000164
其中,K代表前K个大的注意力值的词,T代表当前时间段摘要中词的个数。
这样使抽取式摘要生成模型抽取的文本句子有利于去提高生成式摘要模型逐词生成的性能,以此训练一个端到端的神经摘要模型,损失函数为:
Ltotal=ε1Lextractor2Labstractor3LattnInc
其中,ε1,ε2,ε3都是超参数,代表每个组件的损失函数占总损失函数的权重,由系统使用人员设定。
6)在应用阶段,每隔一段系统预定时间,对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码,得到信息一致、内容易于理解的实时事件摘要。即测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
将本发明方法与各种现有的方法进行比较。比较方法为(1)Simplex:将实时汇总问题建模为多个整数规划问题,并通过改进的单纯形更新方法求解松弛线性规划形式。为了减少昂贵的不一致检测的存储和计算成本,在单纯形更新算法中嵌入了一种新颖的快速不一致检测策略。(2)MSWD:提出具有动态伪相关反馈的语言模型以获得相关推文,然后通过图优化生成推文的故事情节。(3)MSSF:一种基于隐藏在文本单元相似性属性中的子模态的多文档摘要的抽象方法。(4)SNMF:基于对称非负矩阵分解的摘要。(5)Sumblr:基于增量聚类的在线推文摘要。(6)Unified model:结合了抽取式摘要和生成式摘要的优势的统一模型。一个简单的抽取式摘要模型可以获得具有较高ROUGE分数的句子级别的注意力系数,而一个更复杂的生成式摘要模型则可以获得单词级别的注意力系数以生成更易读的段落。(7)Single abstracter:本发明方法中使用到的生成式摘要模型,但未使用Glove预训练的推特词嵌入。
表3给出本发明的EA模型与其他现有的模型,通过比较摘要框架生成的摘要和人工攥写的参考摘要之间的ROUGE得分,ROUGE得分越高,代表摘要框架生成的摘要越好。从表3得出该系统提出的EA模型的ROUGE指标是最高的。
表3:各个摘要框架ROUGE得分对比
Figure GDA0003643077430000171
并且,从一些可读性自动评估指标发现,EA模型的可读性相比其他也是较好的,也比较接近人工参考摘要的指标。需要注意的是因为MSSF是生成式摘要方法,生成的每个句子都非常短,往往只有5-7个词组成一个句子,所以造成可读性指标会高,但是他包含的信息量非常少,故不作比较。表4给出了各个摘要框架的可读性自动评估指标比较,得分越高代表可读性越好:
表4:可读性自动评估指标
Figure GDA0003643077430000181
想让本发明的方法生成的摘要中,推文之间的不一致信息尽可能少,因此通过不一致的自动评估以及人工评估来验证本发明系统摘要框架生成的摘要是否能达到不一致率小的效果。不一致率自动评估用到了构建分层循环神经网络的文本对标签构建的方法,即通过LCS显式的判断文本对之间的关系。测试集共有5个实时事件,即有25个时间段,平均不一致率的计算公式:
Figure GDA0003643077430000182
其中,T=25;inconsistentTweet代表当前时间段里,不一致的文本句子数量;Nt代表当前时间段里,文本的总数量。
表5:各摘要框架不一致自动评估的结果
Figure GDA0003643077430000183
Figure GDA0003643077430000191
表6给出了派遣5名人工志愿者,对2个测试推文事件集,即共10个时间段各个摘要框架生成的摘要进行人工的不一致评估,得到各摘要框架的不一致人工评估结果如表6:
表6:各摘要框架不一致自动评估的结果
方法 平均不一致率
Simplex 0.043
MWDS 0.02
Sumblr 0.8
SNMF 0.15
MSSF 0.27
Single abstracter 0.227
Unified model 0.24
EA model(Ours) 0.11
由表5和表6可以发现,本发明方法的EA模型生成的摘要中,推文之间的不一致率是相对较小的,并且结合表3,也发现本发明方法的EA模型生成的摘要中,ROUGE得分相对较高,证明摘要的内容更加具体,可以让用户了解事件的整个过程发展。
最后,给出测试阶段一个实时推文事件生成摘要的例子。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (5)

1.一种基于一致性监测的实时事件摘要方法,其特征在于,包括如下步骤:
1)收集文本流数据,对监控的文本数据流进行分割和预处理;
2)通过预处理后的文本数据流训练一个分层循环神经网络,以检测历史与实时文本片段之间信息不一致的概率;所述分层循环神经网络包括底层模块和顶层模块;在底层模块,通过神经网络得到历史与实时文本片段之间相关和不相关的概率;在顶层模块,通过神经网络处理历史与实时文本片段之间是相关关系的文本对,以此得到历史与实时文本片段之间信息不一致的概率;训练分层循环神经网络包括如下:
2.1)构造训练集,抽取适量的文本对,使用自动标注方法将一对文本i,j标注为不相关和相关,再将相关的文本对进一步标注为相关且一致或相关但不一致,标注记号为R(i,j),C(i,j);
2.2)将训练集输入分层循环神经网络,其顶层模块输出g(i,j),代表文本对相关且一致或文本对相关且不一致;
2.3)得到分层循环神经网络的损失函数
Figure FDA0003627906870000011
其中N是训练样本的数量,f(i,j)为sigmoid激活函数的输出,训练中对不相关的文本对即R(i,j)=0的i,j进行降采样处理,以此得到分层循环神经网络的数据集;
3)用分割后的数据集,结合分层循环神经网络训练一个基于深度学习抽取式摘要生成模型,所述基于深度学习抽取式摘要生成模型建模为序列标注任务;首先获得每个文本的表示,即将句子编码为一个向量;该向量进行二分类任务:通过神经网络得到每个句子作为摘要的初始概率,再结合步骤2)的分层循环神经网络,判断每两个句子间信息不一致的概率以此调整每个句子作为摘要的概率,最终得到当前时间段的文本数据流对应的抽取式摘要,并得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数Lextractor
4)用分割后的数据集,训练一个基于强化学习和深度学习的生成式摘要模型,所述基于强化学习和深度学习的生成式摘要模型包括编码器和解码器;编码器通过一个双向长短期记忆网络和注意力机制对输入的文本集合进行编码并得到每个文本中每个词对应当前解码阶段的注意力得分;解码器通过一个单向长短期记忆网络和注意力机制,逐词生成摘要;生成式摘要模型的总损失函数为:Labstractor=Lmix+Lcov,其中Lmix为混合损失函数,Lcov为覆盖机制的损失函数;
5)将预训练好的基于深度学习抽取式摘要生成模型和基于强化学习和深度学习的生成式摘要模型结合,训练一个端到端的神经摘要模型,所述端到端的神经摘要模型中,损失函数为:
Ltotal=ε1Lextractor2Labstractor3LattnInc
其中,ε1,ε2,ε3都是超参数,代表每个组件的损失函数占总损失函数的权重,
LattnInc为注意力值不一致的损失函数;
6)在应用阶段,每隔一段系统预定时间,对监控的文本数据流通过训练好的端到端的神经摘要模型进行解码,得到信息一致、内容易于理解的实时事件摘要。
2.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,步骤1)中,所述文本数据流按照预先用户需求的时间粒度进行分割,后续步骤中的训练过程和系统输出都以一个时间段内的所有文本为输入;预处理包括过滤重复的文本,并且将表情符号,http链接和非标点符号的非法符号删除。
3.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,所述基于深度学习抽取式摘要生成模型训练过程如下:
3.1)构建训练集,将从文本流中抽取出来原句组合成为参考摘要;
3.2)将训练集输入抽取式摘要生成模型,得到文本的句子表示形式si
3.3)对上述输出的每个句子si,进行平均,得到当前时间段的文本集合向量表示d,
Figure FDA0003627906870000021
其中,Nd代表在这个时间段中句子的个数;Wd是待训练的权重矩阵,b是待训练的偏置系数;
3.4)根据当前时间段每个句子表示形式sj和当前时间段的文本集合向量表示d,做一个预分类,即先简单判断每个文本是否需要作为摘要,输出的是每个文本需要作为摘要的初始概率:
Figure FDA0003627906870000022
其中,p(tj=1)代表第j条文本作为摘要的概率,这里的j包含在上个时间段生成的旧摘要和新监控到的文本,sj代表第j条文本的句子级别表示,s~j代表的是在第j条文本前临时摘要的表示,
Figure FDA0003627906870000023
Wc,rs,Wr是待训练的权重矩阵,
Figure FDA0003627906870000024
是上述第j条文本的句子级别表示向量的转置,sigmoid函数σ内包含第一项代表第j个句子包含的信息,第二项代表第j个句子相对于当前时间段文本集合的显著性,第三项代表当前时间段中第j个文本和临时摘要之间的冗余度;
3.5)结合步骤2)预训练的分层循环神经网络得到的两个文本i,j不一致概率g(i,j)执行更新算法得到每个文本的概率β,其中第n个文本的概率表示为βn
3.6)得到抽取式摘要生成模型的损失函数,其为交叉熵损失函数:
Figure FDA0003627906870000031
其中,tn∈{0,1}是参考摘要的标签。
4.如权利要求3所述的一种基于一致性监测的实时事件摘要方法,其特征在于,所述更新算法具体为:
3.5.1)循环遍历当前时间段的新文本句子集合,一条新的文本j循环遍历所有旧摘要句子,对于每一个旧摘要文本i,进行信息不一致比较:
3.5.2)如果不一致概率g(i,j)≥0.5,则令旧摘要文本βi=γi*(1-g(i,j)),并且这条旧摘要文本i将从旧摘要集合中移出,不再与其他新文本进行比较;并令新文本βj=γj*g(i,j)*P(tj=1|sj,d,s~old),其中,γj代表新文本j作为摘要的初始概率,P(tj=1|sj,d,s~old)代表根据当前的旧摘要集合s~old,判断这条新文本是否需要填入摘要的概率;将新的文本j填入旧摘要文本i的位置,继续遍历;这个新文本j会替换旧摘要集合的其中一条摘要,再跟后续的新文本进行判断;
3.5.3)如果不一致率g(i,j)<0.5,则不操作继续遍历下一条旧摘要;
3.5.4)遍历结束后,如果新文本j的概率都未更新过,则将文本的初始概率γj赋值给它的最终概率βj=γj
5.如权利要求1所述的一种基于一致性监测的实时事件摘要方法,其特征在于,在测试阶段,通过训练好的端到端的神经摘要模型对测试集进行解码,得到信息一致,内容易于理解的实时事件摘要。
CN202010477088.1A 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法 Active CN111639176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477088.1A CN111639176B (zh) 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477088.1A CN111639176B (zh) 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法

Publications (2)

Publication Number Publication Date
CN111639176A CN111639176A (zh) 2020-09-08
CN111639176B true CN111639176B (zh) 2022-07-01

Family

ID=72331569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477088.1A Active CN111639176B (zh) 2020-05-29 2020-05-29 一种基于一致性监测的实时事件摘要方法

Country Status (1)

Country Link
CN (1) CN111639176B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148863B (zh) * 2020-10-15 2022-07-01 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112232489A (zh) * 2020-10-26 2021-01-15 南京明德产业互联网研究院有限公司 一种门控循环网络的方法和装置及链路预测的方法和装置
CN113849634B (zh) * 2021-03-01 2024-04-16 天翼视联科技有限公司 用于提升深度模型推荐方案可解释性的方法
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508371A (zh) * 2018-11-07 2019-03-22 中山大学 一种结合集束搜索间隔最大化约束的文本摘要生成方法
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018081751A1 (en) * 2016-10-28 2018-05-03 Vilynx, Inc. Video tagging system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508371A (zh) * 2018-11-07 2019-03-22 中山大学 一种结合集束搜索间隔最大化约束的文本摘要生成方法
CN109800350A (zh) * 2018-12-21 2019-05-24 中国电子科技集团公司信息科学研究院 一种个性化新闻推荐方法及系统、存储介质
CN110377693A (zh) * 2019-06-06 2019-10-25 新华智云科技有限公司 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Realtime event summarization from tweets with inconsistency detection;Lin Lingting 等;《Conceptual Modeling》;20181022;555–570 *
微博事件摘要生成及演化分析技术研究与应用;汪辉;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180815;I138-957 *

Also Published As

Publication number Publication date
CN111639176A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
Zheng et al. Characterization inference based on joint-optimization of multi-layer semantics and deep fusion matching network
CN111639176B (zh) 一种基于一致性监测的实时事件摘要方法
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109635280A (zh) 一种基于标注的事件抽取方法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
US20240114158A1 (en) Hierarchical Video Encoders
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Guo et al. Deep semantic-based feature envy identification
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114155477B (zh) 一种基于平均教师模型的半监督视频段落定位方法
CN114003726B (zh) 一种基于子空间嵌入的学术论文差异性分析方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
Basri et al. A deep learning based sentiment analysis on bang-lish disclosure
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN113239277A (zh) 一种基于用户评论的概率矩阵分解推荐方法
Zhang Exploration of Cross-Modal Text Generation Methods in Smart Justice
Zhang et al. Sentiment Analysis of Chinese Product Reviews Based on BERT Word Vector and Hierarchical Bidirectional LSTM
Mandal et al. Bengali Query Processing System for Disease Detection using LSTM and GRU
AU2021106572A4 (en) A recommendation system and method for e-commerce using machine learning
Li et al. A semi-supervised paraphrase identification model based on multi-granularity interaction reasoning
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN115175006B (zh) 基于层级模块化的视频描述方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant