CN111966820B - 一种生成式摘要模型构建、提取生成式摘要方法及系统 - Google Patents

一种生成式摘要模型构建、提取生成式摘要方法及系统 Download PDF

Info

Publication number
CN111966820B
CN111966820B CN202010714359.0A CN202010714359A CN111966820B CN 111966820 B CN111966820 B CN 111966820B CN 202010714359 A CN202010714359 A CN 202010714359A CN 111966820 B CN111966820 B CN 111966820B
Authority
CN
China
Prior art keywords
sentence
vector
word
text
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010714359.0A
Other languages
English (en)
Other versions
CN111966820A (zh
Inventor
蔡晓妍
石锴乐
杨黎斌
戴航
刘森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010714359.0A priority Critical patent/CN111966820B/zh
Publication of CN111966820A publication Critical patent/CN111966820A/zh
Application granted granted Critical
Publication of CN111966820B publication Critical patent/CN111966820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种生成式摘要模型构建、提取生成式摘要方法及系统,通过在传统的编码解码网络结合HITS注意力的重要性排序方法和分层解码算法等,并HITS注意力的重要性排序方法来迭代学习文档向量,每次解码会将上一时刻输出的生成句子向量与得分较高且未被参考过的已排序原文对应句子再次进行计算,直至得到收敛时刻得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,最后利用解码生成算法得到生成摘要文本。以此能够学习更多文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果,整体自动化程度高,不需要进行人工干预。

Description

一种生成式摘要模型构建、提取生成式摘要方法及系统
技术领域
本发明涉及生成式摘要提取技术领域,具体涉及一种生成式摘要模型构建、提取生成式摘要方法及系统。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。对于自动文摘系统,随着信息的快速增长,篇章级文本在篇幅和数量上的显著增长给网络信息地利用带来了新的挑战,为了更好地利用有效信息,各种信息抽取技术便由此产生。通过对文本的有效信息进行自动抽取,以此大幅提高信息的利用率。文章摘要的目的在于使用计算机从大量文本中提取关键信息,对于存在于互联网中篇幅量大,语义复杂的文本来说,这一技术更是十分重要。面对如今快速增长的数据信息,尤其对于信息获取的质量要求极高的科学研究领域,对设计一个可以自动生成高质量文本摘要的系统的需求是十分巨大的。
生成式摘要的自动生成是自然语言处理的一个重要的开放问题,传统的基于编码器-解码器(encoder-decoder)模型的生成式摘要方法存在重复和语义无关的问题。最近的研究将传统的注意力或基于图的注意力应用到编码器-解码器模型中来解决这个问题,基于假设原始文档中的所有句子都是无法区分的,然而集合中不同的词通常不是同等重要的,重要句子中的词被认为比普通句子中的词更突出。现有的方法不同程度上面临着信息冗余,不易获取显著信息,信息重复等问题。
发明内容
本发明的目的在于提供一种生成式摘要模型构建、提取生成式摘要方法及系统,结合KL散度和分层解码算法等,能够学习更多原文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果。
为达到上述技术效果,本发明采取的技术方案为:
一种生成式摘要模型构建方法,包括以下步骤:
S1,获取多段文本,获得文本数据集;每段文本包括多个句子,每段文本的每个句子包括多个词;
获取每段文本对应的摘要,获得摘要文本集;每段摘要文本包括多个句子,每段摘要文本的每个句子包括多个词;
S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;
每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;
S3,将输入数据输入并训练编码-解码神经网络,以获得生成式摘要模型;
编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;
词编码网络包括双向GRU编码器,用于将训练集输入词编码网络,得到所有文本中每段文本的句子向量集;
句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;
解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;
其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU句子层解码器的输出端连接解码生成模块的输入端;
其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法。
优选的,重要性排序方法包括:
步骤A,获得句子向量集和词向量集,构建双向图G,双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;
步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m
其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];
步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;
p=eigenvector(LLT); (1)
其中eigenvector表示矩阵的主特征向量。
优选的,S3的训练步骤具体包括:
S31,词向量集通过S3词编码网络,得到句子向量集;
S32,将S31得到的句子向量集输入S3句子编码网络,得到文档向量;
S33,将词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;
S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。
优选的,S33具体包括:
S331,将词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi 1];
其中i表示第i个句子向量,Pi 1表示第1时刻第i个句子向量的句子得分;
S332,将S331得到的P1通过式(1)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第2时刻句子重要性排序;
αi’=μβi’; (2)
其中,μ是权衡分散机制和KL散度的权重,
Figure BDA0002594947360000041
βi’是第1时刻分散机制的基础值,/>
Figure BDA0002594947360000042
表示第1时刻的第i个句子的句子得分,/>
Figure BDA0002594947360000043
表示第1时刻第k个句子的句子得分;
S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;
S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pi t];
其中,Pi t表示第t时刻第i个句子向量的句子得分;
S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;
αi=μβi+(1-μ)γi·1; (3)
其中
Figure BDA0002594947360000051
Figure BDA0002594947360000052
其中,μ是权衡分散机制和KL散度的权重,βi是分散机制的基础值,γi是KL散度基础值,
Figure BDA0002594947360000053
表示t时刻的第i个句子的句子得分,/>
Figure BDA0002594947360000054
表示t-1时刻的第i个句子的句子得分,/>
Figure BDA0002594947360000055
表示t时刻第k个句子的句子得分,/>
Figure BDA0002594947360000056
表示t-1时刻第k个句子的句子得分;
S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与文档向量计算得到解码网络第t时刻输出的生成句子向量;
S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;
S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集。
优选的,μ的取值为0≤μ≤1。
优选的,μ=0.8。
优选的,S3解码生成算法为分层beamsearch算法。
一种提取生成式摘要方法,包括以下步骤:
S81,获取互联网上的文本数据信息,并对其进行嵌入表示,获得样本集;
S82,将S81得到的样本集输入生成式摘要模型中,最终得到生成摘要文本;
其中,生成式摘要模型为本发明公开的生成式摘要模型构建方法构建得到的生成式摘要模型。
一种提取生成式摘要系统,包括文本数据采集及预处理模块和提取生成式摘要模块;
文本数据采集及预处理模块,用于获取互联网上的文本数据信息并进行嵌入表示操作,获得样本集;
提取生成式摘要模块,用于执行本发明公开的提取生成式摘要方法。
由于采用上述技术方案,具有以下有益效果:
(1)本发明的方法构建的生成式摘要模型,能够学习更多原文本里的显著信息,降低结果中的冗余重复,维持生成结果的流畅度,产生出高质量的生成式摘要结果。
(2)本发明的方法构建的生成式摘要模型,结合句子在文本中的多向作用,掌握对输入文本的句子间以及词间的关系,让模型容易去学习总结出文档的突出信息。
(3)本发明的提取生成式摘要方法及系统自动化程度高,生成式摘要模型经训练后不需要进行人工干预。
附图说明
图1为本发明提取生成式摘要方法的流程示意图;
图2为图1中编码-解码神经网络网络结构示意图;
以下结合说明书附图和具体实施方式对本发明做具体说明。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明的基于编码-解码神经网络的文本摘要生成系统及方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余不做赘述。
以下对本发明涉及的定义或概念内涵做以说明:
GRU编码器:GRU编码器主要由更新门和重置门构成,更新门用来控制前一个时刻的信息被带入到当前时刻状态的程度;重置门用于控制忽略前一时刻的状态信息的程度。GRU通过门函数保留重要特征。
GRU解码器:GRU解码器主要由更新门和重置门构成,更新门用来控制前一个时刻的信息被带入到当前时刻状态的程度;重置门用于控制忽略前一时刻的状态信息的程度。GRU通过门函数保留重要特征。
嵌入表示:由于文本无法交由计算机直接进行处理,需要找到文本的特征表示。我们通过查表索引的方式找到每个词对应的特征向量,也即是将高维空间的词嵌入到一个连续的低维向量空间中的方式,也叫词嵌入。获得的词的特征表示,就是词的嵌入表示。
KL散度:KL散度(Kullback-LeiblerDivergence)被用来量化两个概率分布之间的差异,又叫做相对熵。
分层beamsearch算法:分层beamsearch算法是解码时在词层和句子层进行分层计算,同时句子层筛选出的得分较高且未被参考过的文本对应句子,再按文本对应句子内容的相关性对参考句子重新排序,然后基于对照机制协助词层解码,计算词语得分。可参见文献:Jiwei Tan,Xiaojun Wan and Jianguo Xiao.2017.Abstractive documentsummarization with a graph-based attentional neural model.In Proceedings ofthe 55th Annual Meeting of the Association for Computational Linguistics,pages 1171-1181,Vancouver,Canada.
隐藏状态:即为hidden state,在RNN网络(循环神经网络)中,它具有一种“记忆”能力,在每次计算时,能够记得之前节点的相关信息,更新当前状态。可对序列形数据提取特征,然后再转换为输出。
实施例1
在本实施例中公开了一种生成式摘要模型构建方法,包括以下步骤:
方法按照以下步骤执行:
S1,获取多段文本,获得文本数据集;每段文本包括多个句子,每段文本的每个句子包括多个词;获取每段文本对应的摘要,获得摘要文本集;每段摘要文本包括多个句子,每段摘要文本的每个句子包括多个词;其中每段文本包括30个句子;
由于本专利所提出模型的强大的并行能力,可以处理较长的文本。经过简单的数据预处理之后,本专利所提出模型也能迁移到中文文本摘要任务中,并且具有优秀的摘要能力。
在本实施例中,文本为:
[when photo grapherjohanbavman became a father……
how his native sweden is said to be the most generous nation on earthfor parental leave.he immersed himself in fatherhood--twice over…..
he used his photography to documentthe real-life experience of otherfathers taking full advantage of sweden’s extraordinary program,which allowsmothers and fathers to take long,long leaves from their careers so they cancare for their newborns.
………
the remaining 90days are paid at a flat-rate benefit of 20euros aday,or$22.
but there’s a catch.
fathers have to share that leave with mothers.
so to promote both parents to raise their children,sweden hasmandated that 60of the 480days be“daddy months”….
the more days that parents share the leave equally,they get a bonusthat could total up to 1,500euros,or$1,649.
the idea is for both parents to share the joys……….
he did find and photograph,…..]
S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;
每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;
在嵌入表示时,具体包括:
S21,清除文本数据集中与其对应的摘要无关的内容,比如html标签等;
S22,对清理后的文本数据信息二元组表示,分词处理,统计词频,替换数字信息,去除停用词,标记实体信息;
S23,保留40000个高词频的词语,其它词语用<OOV>标签代替;然后利用正则表达式对文本中的数字信息用‘#’代替。神经网络的输入格式是低维度的向量格式,利用预训练过的Glove模型初始化词向量表示,得到训练集。
在本实施例中,与文本对应的摘要文本为:
[johanbavman photographed fathers in sweden,which has generousparental leave.sweden's policies encourage fathers to take just as much leaveas mothers.]
S3,将输入数据并训练编码-解码神经网络,以获得生成式摘要模型;
编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;
词编码网络包括双向GRU编码器,用于将训练集输入词编码网络,得到所有文本中每段文本的句子向量集;
句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;
解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;
其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU句子层解码器的输出端连接解码生成模块的输入端;
其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法。
具体的,重要性排序方法包括:
步骤A,获得句子向量集和词向量集,构建双向图G,双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;
步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m
其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];
步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;
p=eigenvector(LLT); (1)
其中eigenvector表示矩阵的主特征向量。
具体的,S3的训练步骤具体包括:
S31,词向量集通过S3词编码网络,得到句子向量集;
S31具体包括:
S311,词编码网络对词向量集中每个句子中的每个词正向顺序编码,获得每个句子中每个词的第一词隐藏状态;
S312,词编码网络对词向量集中每个句子中的每个词反向顺序编码,获得每个句子中每个词的第二词隐藏状态;
S313,将S311得到的每个句子中每个词的第一词隐藏状态和S312得到的每个句子中每个词的第二词隐藏状态拼接得到词向量集中的每个句子中每个词的词隐藏状态
Figure BDA0002594947360000111
S314,再将S313获得的每个句子中首词的词隐藏状态和每个句子中尾词的词隐藏状态拼接得到句子向量集;
S32,将S31得到的句子向量集输入S3句子编码网络,得到文档向量;
S32具体包括:
S321,句子编码网络对句子向量集正向顺序编码,获得句子向量集的第一句子隐藏状态;
S322,句子编码网络对句子向量集反向顺序编码,获得句子向量集的第二句子隐藏状态;
S323,将S321得到的句子向量集的第一句子隐藏状态和S322得到的句子向量集的第二句子隐藏状态拼接得到训练集中的每个句子的句子隐藏状态
Figure BDA0002594947360000124
S324,再将S323获得的首句的句子隐藏状态和尾句的句子隐藏状态拼接得到文档向量;
S33,将词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;
S33具体包括:
S331,将词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi 1];
其中i表示第i个句子向量,Pi 1表示第1时刻第i个句子向量的句子得分;
S332,将S331得到的P1通过式(2)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第1时刻句子重要性排序;
αi’=μβi’; (2)
其中,μ是权衡分散机制和KL散度的权重,
Figure BDA0002594947360000121
βi’是第1时刻分散机制的基础值,/>
Figure BDA0002594947360000122
表示第1时刻的第i个句子的句子得分,/>
Figure BDA0002594947360000123
表示第1时刻第k个句子的句子得分;
S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;
S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pi t];
其中,Pi t表示第t时刻第i个句子向量的句子得分;
S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;
αi=μβi+(1-μ)γi·1; (3)
其中
Figure BDA0002594947360000131
Figure BDA0002594947360000132
其中,μ是权衡分散机制和KL散度的权重,βi是分散机制的基础值,γi是KL散度基础值,
Figure BDA0002594947360000133
表示t时刻的第i个句子的句子得分,/>
Figure BDA0002594947360000134
表示t-1时刻的第i个句子的句子得分,/>
Figure BDA0002594947360000135
表示t时刻第k个句子的句子得分,/>
Figure BDA0002594947360000136
表示t-1时刻第k个句子的句子得分;
S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与文档向量计算得到解码网络第t时刻输出的生成句子向量;
其中,的取值为0≤μ≤1,且μ优选0.8;
S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;
根据所述重要性排序方法中的式(1)得出句子得分矩阵Pt为式(4),判断句子得分矩阵Pt是否收敛;
Figure BDA0002594947360000137
其中Lt表示由t-1时刻输出的生成句子向量加入t时刻的句子向量集和词向量集构建双向图G,得到的所有句子向量和所有词向量的关系矩阵;
S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集。
S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。
在本实施例中,生成摘要文本为:
[Our Method:johanbayman photographed the experience of fathers insweden which is generous for parental leave.sweden allows both parents totake long leaves and fathers should share the leave with mothers.and rewardsparents for the more days they take the leave equally to raise theirchildren.]
具体的,解码生成算法具体为分层beamsearch算法;
分层beamsearch算法是解码时在词层和句子层进行分层计算,同时句子层筛选出的得分较高且未被参考过的文本对应句子,再按文本对应句子内容的相关性对参考句子重新排序,然后基于对照机制协助词层解码,计算词得分,其中的对照机制是为了增加生成摘要与原文重叠度以便贴合原文内容且使得结果更加流畅。
实施例2
本实施例提供了一种提取生成式摘要方法,包括以下步骤:
S81,获取互联网上的文本数据信息,并对其进行嵌入表示,获得样本集;
S82,将S81得到的样本集输入生成式摘要模型中,最终得到生成摘要文本;
其中,生成式摘要模型为本发明公开的生成式摘要模型构建方法构建得到的生成式摘要模型。
实施例3
本实施例还提供了一种提取生成式摘要系统,包括文本数据采集及预处理模块和提取生成式摘要模块;
文本数据采集及预处理模块,用于获取互联网上的文本数据信息并进行嵌入表示操作,获得样本集;
提取生成式摘要模块,用于执行本发明公开的提取生成式摘要方法。
对比例
我们评价我们的模型是CNN/Daily Mail数据集,我们使用Hermann等人做的标准划分集。也就是说,CNN的训练、验证和测试集数量为90,266/1,220/1,093,DailyMail为196,961/12,148/10,397。
结果:我们使用ROUGE[1]评价生成摘要的性能好坏;
我们将本发明公开的摘要提取方法与下面的文档摘要方法进行比较,以说明我们的方法的性能,Lead3常用的基线,一般通过选择前三句话作为摘要;
表1显示了不同的摘要方法在CNN/Daily Mail数据集上的性能,表的上半部分报告了抽取式方法的性能,表的下半部分将我们的方法与相关的生成式方法进行了比较;我们的方法在CNN/Daily Mail数据集上获得了18.13ROUGE-2F1的得分,与三个无监督基线(即lead3,lexrank,wordHITS)相比,我们的方法在一定程度上表现得更好。我们的方法也可以与三种最先进的基于神经网络的抽取式方法相媲美,即REFRESH、NEUSUM和SUMO。我们的方法在ROUGE-1、ROUGE-2和ROUGE-L F1分数上也优于PGN和AOA这两种生成式的摘要方法,这是因为PGN在传统的注意力机制中只考虑复制和覆盖机制,AOA考虑如何优化上面的注意机制,而我们的方法集成了词层信息和句子层信息在传统的注意机制中,并添加KL-散度和对照机制,提高摘要生成的性能。
Figure BDA0002594947360000161
表1不同方法在CNN/Daily Mail测试集上的性能(结果标*的是从对应文章提取的)
此外,我们在表2中展示了文档及其参考摘要的一个例子(加粗的词是参考摘要中包含的显著部分),在表3中展示了使用对比的三种方法生成的摘要(蓝色的词是显著信息,红色的词是冗余)。发现LEAD3的流利性较好并不奇怪,因为LEAD3生成的摘要在原始文档中包含三个连续的句子。由AOA生成的摘要包含了一些重复的信息,并没有得到很多显著的信息。
这表明,通过整合对照机制,我们的方法可以产生内容重叠较少的摘要,因为它重新估计剩余句子的显著性,考虑到它们的内容和之前选择的句子;我们的模型也较多的获取到了显著信息,保持了较好的流畅度。
Figure BDA0002594947360000162
Figure BDA0002594947360000171
表2文档及其摘要的示例
Figure BDA0002594947360000172
表3三种方法产生的结果
本申请是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (6)

1.一种生成式摘要模型构建方法,其特征在于,包括以下步骤:
S1,获取多段文本,获得文本数据集;所述的每段文本包括多个句子,所述每段文本的每个句子包括多个词;
获取每段文本对应的摘要,获得摘要文本集;所述的每段摘要文本包括多个句子,所述每段摘要文本的每个句子包括多个词;
S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,所述训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;
所述每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;
S3,将所述的输入数据输入并训练编码-解码神经网络,以获得生成式摘要模型;
所述的编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;
所述的词编码网络包括双向GRU编码器,用于将所述训练集输入词编码网络,得到所有文本中每段文本的句子向量集;
所述的句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;
所述的解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;
其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU 句子层解码器的输出端连接解码生成模块的输入端;
其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法;
S3所述的重要性排序方法包括:
步骤A,获得句子向量集和词向量集,构建双向图G,所述的双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;
步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m
其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];
步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;
P=eigenvector(LLT); (1)
其中eigenvector表示矩阵的主特征向量;
所述S3的训练步骤具体包括:
S31,所述词向量集通过S3所述的词编码网络,得到句子向量集;
S32,将S31得到的句子向量集输入S3所述的句子编码网络,得到文档向量;
S33,将所述词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;
所述的S33具体包括:
S331,将所述词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi 1];
其中,i表示第i个句子向量,Pi 1表示第1时刻第i个句子向量的句子得分;
S332,将S331得到的P1通过式(2)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第1时刻句子重要性排序;
αi’=μβi’; (2)
其中,μ是权衡分散机制和KL散度的权重,
Figure FDA0003993143600000031
βi’是第1时刻分散机制的基础值,
Figure FDA0003993143600000032
表示第1时刻的第i个句子的句子得分,
Figure FDA0003993143600000033
表示第1时刻第k个句子的句子得分;
S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;
S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pi t];
其中,Pi t表示第t时刻第i个句子向量的句子得分;
S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;
αi=μβi+(1-μ)γi·1; (3)
其中
Figure FDA0003993143600000034
Figure FDA0003993143600000035
其中,μ是权衡分散机制和KL散度的权重,βi是分散机制的基础值,γi是KL散度基础值,
Figure FDA0003993143600000036
表示t时刻的第i个句子的句子得分,
Figure FDA0003993143600000037
表示t-1时刻的第i个句子的句子得分,
Figure FDA0003993143600000041
表示t时刻第k个句子的句子得分,
Figure FDA0003993143600000042
表示t-1时刻第k个句子的句子得分;
S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与所述文档向量计算得到解码网络第t时刻输出的生成句子向量;
S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;
S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集;
S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。
2.如权利要求1所述的生成式摘要模型构建方法,其特征在于,所述μ的取值为0≤μ≤1。
3.如权利要求1所述的生成式摘要模型构建方法,其特征在于,所述μ=0.8。
4.如权利要求1所述的生成式摘要模型构建方法,其特征在于,S3所述的解码生成算法为分层beamsearch算法。
5.一种提取生成式摘要方法,其特征在于,包括以下步骤:
S81,获取互联网上的文本数据信息,并对其进行嵌入表示,获得样本集;
S82,将S81得到的样本集输入生成式摘要模型中,最终得到生成摘要文本;
其中,所述的生成式摘要模型为权利要求1-4任一所述的生成式摘要模型构建方法构建得到的生成式摘要模型。
6.一种提取生成式摘要系统,其特征在于,包括文本数据采集及预处理模块和提取生成式摘要模块;
所述的文本数据采集及预处理模块,用于获取互联网上的文本数据信息并进行嵌入表示操作,获得样本集;
所述的提取生成式摘要模块,用于执行权利要求5所述的提取生成式摘要方法。
CN202010714359.0A 2020-07-21 2020-07-21 一种生成式摘要模型构建、提取生成式摘要方法及系统 Active CN111966820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010714359.0A CN111966820B (zh) 2020-07-21 2020-07-21 一种生成式摘要模型构建、提取生成式摘要方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010714359.0A CN111966820B (zh) 2020-07-21 2020-07-21 一种生成式摘要模型构建、提取生成式摘要方法及系统

Publications (2)

Publication Number Publication Date
CN111966820A CN111966820A (zh) 2020-11-20
CN111966820B true CN111966820B (zh) 2023-03-24

Family

ID=73362544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010714359.0A Active CN111966820B (zh) 2020-07-21 2020-07-21 一种生成式摘要模型构建、提取生成式摘要方法及系统

Country Status (1)

Country Link
CN (1) CN111966820B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784035A (zh) * 2020-12-31 2021-05-11 山西三友和智慧信息技术股份有限公司 一种多篇文档重点信息提取方法
CN113626582B (zh) * 2021-07-08 2023-07-28 中国人民解放军战略支援部队信息工程大学 基于内容选择和融合的两阶段摘要生成方法及系统
CN113704457B (zh) * 2021-07-23 2024-03-01 北京搜狗科技发展有限公司 摘要的生成方法、装置及存储介质
CN113626584A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN117951291B (zh) * 2024-03-26 2024-05-31 西南石油大学 一种基于引导机制的二阶段局部生成式摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189470B2 (en) * 2012-05-31 2015-11-17 Hewlett-Packard Development Company, L.P. Generation of explanatory summaries
CN108280112B (zh) * 2017-06-22 2021-05-28 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
US11087089B2 (en) * 2018-10-05 2021-08-10 Sap Se Aspect-driven multi-document summarization
CN109977220B (zh) * 2019-04-09 2024-01-30 中通服公众信息产业股份有限公司 一种基于关键句和关键字的反向生成摘要的方法
CN110119444B (zh) * 2019-04-23 2023-06-30 中电科大数据研究院有限公司 一种抽取式与生成式相结合的公文摘要生成模型
CN110348016B (zh) * 2019-07-15 2022-06-14 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110472238B (zh) * 2019-07-25 2022-11-18 昆明理工大学 基于层级交互注意力的文本摘要方法
CN110909152B (zh) * 2019-10-21 2021-07-09 昆明理工大学 一种融合主题信息的司法舆情文本摘要方法
CN111061862B (zh) * 2019-12-16 2020-12-15 湖南大学 一种基于注意力机制生成摘要的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Novel NLP Application to Automatically Generate Text Extraction Concepts from Textual Descriptions;Imran Ahsan 等;《ACM》;20190419;第55-58页 *
基于子词单元的深度学习摘要生成方法;陈雪雯;《计算机应用与软件》;20200312(第03期);第202-208页 *

Also Published As

Publication number Publication date
CN111966820A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111966820B (zh) 一种生成式摘要模型构建、提取生成式摘要方法及系统
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及系统
Zhu et al. Hierarchical attention flow for multiple-choice reading comprehension
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN112818691A (zh) 命名实体识别模型训练方法及装置
CN109508400A (zh) 图文摘要生成方法
CN108090049A (zh) 基于句子向量的多文档摘要自动提取方法及系统
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
CN107798624A (zh) 一种软件问答社区中的技术标签推荐方法
CN111859935A (zh) 基于文献的癌症相关生物医学事件数据库构建方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN111710428B (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN110347819A (zh) 一种基于正负样本对抗训练的文本摘要生成方法
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
CN114528898A (zh) 基于自然语言命令的场景图修改
CN111708904A (zh) 一种基于主题适应与原型编码的少样本视觉故事叙述方法
Puscasiu et al. Automated image captioning
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
Li et al. Abstractive text summarization with multi-head attention
CN115758758A (zh) 基于相似性特征约束的逆合成预测方法、介质及设备
CN111401003A (zh) 一种外部知识增强的幽默文本生成方法
CN113641854B (zh) 一种将文字转化为视频的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant