CN113673241B - 一种基于范例学习的文本摘要生成框架系统及方法 - Google Patents
一种基于范例学习的文本摘要生成框架系统及方法 Download PDFInfo
- Publication number
- CN113673241B CN113673241B CN202110885791.0A CN202110885791A CN113673241B CN 113673241 B CN113673241 B CN 113673241B CN 202110885791 A CN202110885791 A CN 202110885791A CN 113673241 B CN113673241 B CN 113673241B
- Authority
- CN
- China
- Prior art keywords
- abstract
- text
- source document
- score
- abstracts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000010845 search algorithm Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 20
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000007476 Maximum Likelihood Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 3
- 101150041570 TOP1 gene Proteins 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于范例学习的文本摘要生成框架及方法,允许在摘要生成的过程中参考一些写作范例,框架包括检索和生成两个阶段,检索阶段,给定一个文本,使用对比学习去数据库中检索一些范例,假定越好的摘要在语义空间应该和原文离得更近,检索器的模型使用了孪生网络的结构;生成阶段,提出了一种结合范例进行摘要生成的方法,可以方便的加在目前所有主流的条件生成模型上,为了更好的学习范例,将待生成的摘要和范例摘要按照句子对齐;通过训练好的模型进行预测,即解码阶段,使用集束搜索算法并鼓励那些和范例更相似的束。
Description
技术领域
本发明涉及深度学习和自然语言处理,尤其是涉及一种基于范例学习的文本摘要生成框 架及方法。
背景技术
自动文本摘要(Automatic Text Summarization)任务是自然语言处理(NLP)中的一类基 础任务,自动文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。按照输出类 型可分为抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive)。抽取式摘要从 源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许 生成新的词语、短语来组成摘要。
主流的抽取式摘要模型主要以句子为单位进行抽取,该方法的优点是事实一致性,缺点 是输出离散的句子,不具备通顺和流畅性,与人工写的摘要相差甚远。生成式摘要的主流框 架是序列到序列模型由一个编码器和解码器组成,编码器用于编码输入的文档,解码器用于生成摘要。生成方法最明显的优点是语句连贯,缺点是可能会生成出一些无关或原文不相符 的信息。
目前自动摘要系统都是仅仅依赖于文档本身,受人类写摘要的影响,我们往往需要一些 写好的范例,给予我们写作风格和样式上的指导。尤其对于一些正式的使用场景,如学术论 文、法案条文等,摘要的生成除了要提取文章的关键部分外,写作风格也尤其重要。
发明内容
为解决现有技术的不足,实现提取文章关键部分作为摘要的同时,也能获取文章写作风 格的目的,本发明采用如下的技术方案:
一种基于范例学习的文本摘要生成方法,包括如下步骤:
S1,为待生成摘要的源文档,检索出一组用于参考的范例摘要;
S2,基于序列到序列框架,使用最大似然损失进行训练,包括如下步骤:
S21,将源文档和范例摘要合并成一个序列;源文档和每个范例摘要的前后,分别设有[CLS] 和[SEP]标识符,用于标识源文档、范例的开始与结束;
S22,通过极大似然估计,使用前t-1个标准摘要的真值词来预测第t个词,极大似然估 计训练的损失函数:
其中P()表示第t步解码在词表上的概率分布,表示第t步解码输出的隐向量,W表 示词表大小*隐向量维度的可学习矩阵,X表示源文档,E表示范例摘要,yt表示摘要中的第 t个词,y<t表示第t步解码之前已经生成的词,n表示句子长度;
S3,基于训练好的序列到序列框架,预测摘要,包括如下步骤:
S31,将源文档和范例摘要合并成一个序列;
S32,通过极大似然估计,使用前t-1个预测词来预测第t个词,得到对数似然得分:
对数似然得分越大越好,在训练阶段是要优化损失函数,这个值越小越好,因此有一个 负号;
S33,在解码阶段,每次解码器预测一个词的概率分布,但是仅仅保留top1的那个词是 不够的,因此生成文本时采用集束搜索算法(Beam Search),每次预测保留一组词(topk), 接着往下预测,形成的不同路径作为候选范例摘要,即束,将第k个束的对数似然得分MLEk, 加入文本摘要评价指标ROUGE奖励分(ROUGE Credit),鼓励在集束搜索的过程中,模型尽 量选择那些和范例比较相似的束(摘要),在集束搜索中,每生成n个词后,根据解码端对编 码端所有范例摘要的注意力得分,选取被关注最多的范例摘要,并增大与所述关注最多的范 例摘要相似的束的束得分;所述注意力得分,在深度学习模型中,会把所有的词转成一个向量,解码器输出的隐向量和编码器端的向量点乘,根据点乘的结果,便可知道目前解码器在 关注源文档中的哪个词,在生成过程中,希望去关注那些和当前词关系较大的词,如果不使 用注意力机制,效果会非常差,因此,所有的序列生成模型都会带有对编码器的注意力,对 源文档的注意力是一个分布,根据分布可以得到注意力得分;
S34,选择得分最高的候选摘要作为最终的摘要。
进一步地,所述S33中,被关注最多的范例摘要exemplar1,计算第k个束和exemplar1的 文本摘要评价指标ROUGE的得分rougek,文本摘要评价指标ROUGE奖励分:
Creditk=rougek*g(t)
其中为一个与解码步数t有关的函数,ls为超参数,当解码步数t大于ls, 开始使用奖励分,最终的束得分为ROUGE Credit加上该束平均的对数似然得分MLEk:
scorek=MLEk+Creditk
其中n表示句子长度,yi表示摘要中的第i个词,y<i表示第i步之前已经生成的词,X表示源文档,E表示范例摘要。
进一步地,所述S1中,首先经过了粗粒度的过滤,将源文档中抽取的抽取式摘要,与训 练集摘要计算文本摘要评价指标ROUGE,根据文本摘要评价指标的得分高低,选取一组训 练集摘要,与源文档进行相似度比较,训练检索相似范例摘要的能力,在预测阶段,选取相似度最高的一组范例摘要。
进一步地,从保留的前100个训练集摘要中,划分前8%作为正样本和其余的负样本,所 述相似度比较,采用基于多头的余弦相似度计算,使用多个头减轻过拟合现象,每一个头都 计算一次相似度,第k个头的相似度计算为:
其中分别为正、负样本的得分,X表示源文档,Y表示候选的训练集摘要, i表示第i个负样本,j表示第j个正样本,/>表示源文档X的隐向量,/>表示正/负样本 的隐向量,对比学习损失函数将所有头相加:
其中H表示头的数量,|C+|、|C-|分别表示正、负样本集的大小,τ表示一个温度参数, exp()表示期望函数,在预测阶段根据所有头的投票,选择相似度高的范例摘要。
进一步地,根据文本摘要评价指标的高低,选取一组候选训练集摘要,再将候选训练集 摘要,根据文本摘要评价指标的高低,划分正、负样本。
进一步地,所述S2中,为了更好的模仿范例的写法,我们引入对齐机制,通过标签嵌入, 使范例摘要的第i句话和目标摘要的第i句话具有相同的标签Gi,在解码端自动学习的过程中, 注意编码端带有相同标签的词,从而将范例摘要中的句子和目标摘要中的句子对齐。
进一步地,所述S2中,通过标签嵌入,为源文档的句子添加标签G0,在解码器的每一步 输入也加入标签G0,以防解码器过度关注范例而忽略了对源文档的学习。
一种基于范例学习的文本摘要生成框架,包括:摘要检索器和摘要生成器,所述摘要检 索器,为待生成摘要的源文档,检索出一组用于参考的范例摘要,所述摘要生成器,包括编 码器和解码器;
所述编码器,将源文档与范例摘要合并成一个序列;
所述解码器,通过极大似然估计,生成摘要,在训练阶段,使用前t-1个标准摘要的真值 词来预测第t个词,极大似然估计训练的损失函数:
其中P()表示第t步解码在词表上的概率分布,表示第t步解码输出的隐向量,W表 示词表大小*隐向量维度的可学习矩阵,X表示源文档,E表示范例摘要,yt表示摘要中的第 t个词,y<t表示第t步解码之前已经生成的词,n表示句子长度;
预测阶段,使用前t-1个预测词来预测第t个词,得到对数似然得分:
对数似然得分越大越好,在训练阶段是要优化损失函数,这个值越小越好,因此有一个 负号;每次解码器预测一个词的概率分布,但是仅仅保留top1的那个词是不够的,因此生成 文本时采用集束搜索算法,每次预测保留一组词(topk),接着往下预测,形成的不同路径作 为候选范例摘要,即束,将第k个束的对数似然得分MLEk,加入文本摘要评价指标ROUGE 奖励分,鼓励在集束搜索的过程中,模型尽量选择那些和范例比较相似的束(摘要),解码器 对编码器有一个注意力机制,在集束搜索中,每生成n个词后,根据根据解码器对所有范例摘 要的注意力得分,选取被关注最多的范例摘要,并增大与所述关注最多的范例摘要相似的束 的束得分;选择得分最高的候选摘要作为最终的摘要。
进一步地,所述摘要检索器包括预训练模型、多层感知机和相似度计算单元;
所述预训练模型,采用RoBERTa,是很深的模型,训练很慢,获取源文档及范例摘要, 将其分成多个头,并输出源文档和范例摘要的隐向量;
所述多层感知机,是轻量的,获取预训练模型的输出,输出源文档和范例摘要基于多个 头的隐向量;
所述相似度计算单元,在训练阶段,计算源文档与训练集范例摘要的隐向量的余弦相似 度,训练检索相似范例摘要的能力,在预测阶段,取相似度最高的一组范例摘要。
进一步地,所述摘要生成器,在训练阶段,为了更好的模仿范例的写法,我们引入了对 齐机制,将通过标签嵌入模型,使范例摘要中的句子和目标摘要中的句子对齐。
本发明的优势和有益效果在于:
本发明在提取文章关键部分作为摘要的同时,也能获取文章写作风格;采用集束搜索算 法,每次预测保留一组词,接着往下预测,形成的不同路径作为候选范例摘要,即束,将第 k个束的对数似然得分加入文本摘要评价指标ROUGE奖励分,鼓励在集束搜索的过程中, 模型尽量选择那些和范例比较相似的束(摘要);采用基于多头的余弦相似度计算,使用多个 头减轻过拟合现象;为了更好的模仿范例的写法,引入对齐机制,通过标签嵌入,将范例摘要中的句子和目标摘要中的句子对齐;通过标签嵌入,为源文档的句子添加标签,在解码器 的每一步输入也加入标签,以防解码器过度关注范例而忽略了对源文档的学习。
附图说明
图1是本发明中检索器的示意图。
图2是本发明中基于范例学习的摘要模型。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具 体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明提出了一个新的基于范例学习的生成式框架,摘要生成分为两阶段,首先使用一 个检索模型,为待生成摘要的文章检索出一些可供参考的范例摘要,与之前的工作不同,检 索器并不使用信息抽取的平台和技术,而是使用对比进行训练的。此外本发明提出了一个新的利用这些范例的自动摘要模型,具体如下:
一种基于范例学习的文本摘要生成框架,包括自动检索器和摘要生成模型。
自动检索器,采用对比学习中的InfoNCE误差函数进行训练。检索的数据库为训练集。 在进行对比学习之前,首先经过了粗粒度的过滤:使用一个简单的抽取式摘要模型,先对源 文档抽取一个抽取式摘要,然后用这个摘要和数据库中的摘要,计算文本摘要的评价指标 ROUGE并保留前100个(数据库中的训练集摘要)。这100个样本中和源文档的标准摘要最 相似的前8%作为正样本,其余为负样本。受多头注意力的启发,在计算相似度使用余弦相似 度,在计算得分的时候,我们采用了多头相似度计算。具体来说,每一个头都计算一次相似度,第k个头的相似度计算为:
其中分别为正、负样本的得分,X表示源文档输入,Y表示候选摘要输入, i表示第i个负样本,j表示第j个正样本,/>表示源文档输入X的隐向量,/>表示正/ 负候选摘要样本的隐向量,如图1所示,隐向量由模型根据输入的文本产生,最终的对比学 习损失函数将所有头相加:
其中H表示头的数量,|C+|、|C-|分别表示正、负样本候选集的大小,τ表示一个温度参 数,exp()表示期望函数。在预测阶段根据所有头的投票选择范例。
摘要生成模型,基于主流的序列到序列框架使用最大似然损失进行训练。生成模型包括 一个编码器和一个解码器。编码器负责编码输入的文本,解码器负责生成摘要。
在生成之前,使用上文中训练好的检索器为每篇文章抽取k个范例,基于抽取出来这些范 例构建摘要生成模型。将源文档以及它的参考范例一并输入到模型中,具体地将源文档和范 例合并成一个序列,源文档和每个范例的前后依次有一个[CLS]和[SEP]的标识符,用于标识 源文档、范例的开始与结束。为了更好的模仿范例的写法,我们引入了对齐机制,我们认为 范例摘要中的句子和目标摘要中的句子是一一对齐的,生成第i句话的时候,我们希望模型关 注那些范例中的第i句话。对齐方式是加入标签嵌入(Tag Embedding),第i句话具有标签Gi, 目标摘要和范例摘要中第i句话具有相同的标签嵌入,源文档被加上特殊的标签嵌入G0,在解 码器的每一步输入也加入这个标签。
在训练阶段,我们是一个单词一个单词的来生成,比如生成“Someone waselected”,我 们首先生成“Someone”这个字再把“Someone”作为输入去预测“was”,然后以“Someone was”作为输入去预测“elected”,因此在生成第t个字符时需要之前已经生成好的t-1个字符 作为解码器的输入。我们的摘要模型使用极大似然估计(MLE)为损失函数,以teacher-forcing 的方式得到训练,在训练时,使用前t-1个step的Ground Truth来输出第t个step的值。例如 想生成一句话:“<S>Someone was elected president</S>”,在训练时:
当前步数 | 解码器输入 | 解码器输出 |
Step 0 | <S> | Someone |
Step 1 | <S>Someone | was |
Step 2 | <S>Someone was | elected |
Step 3 | <S>Someone was elected | president |
… | … | … |
令表示解码器第t步输出的隐向量,我们在该步得到在词表上的概率分布为:
训练误差函数使用极大似然估计(MLE),
其中W是词表大小*隐向量维度的可学习矩阵,n表示句子长度,yt表示摘要中的第t个 词,y<t表示第t步之前已经生成的词,X表示源文档,E表示范例。
在预测阶段,文档的标准摘要ground truth是未知的,因此在生成阶段每个模型第T个 step的输入并不是之前T-1个step的Ground Truth,而是模型所预测的词。对于MLE算法训 练的模型,在解码阶段,每次解码器预测一个词的概率分布,但是仅仅保留top1的那个词是 不够的,因此生成文本时采用集束搜索算法(Beam Search),允许每次保留top k个词接着往 下去生成,每个束可以看成是一个路径,即候选摘要,除原本的对数似然打分外,加入了 ROUGE奖励分(ROUGE Credit),鼓励在集束搜索(Beam Search)的过程中,模型尽量选 择那些和范例比较相似的束(摘要)。在集束搜索中每生成n个词后,我们选取被解码器关注 最多的范例,并增大和这个范例相似的束的得分。假定目前被关注最多的范例是exemplar1, 我们计算每个束和这个范例的ROUGE得分,记第k个束的得分为rougek,那么这个束的 ROUGE Credit:
Creditk=rougek*g(t)
其中g(t)为一个和解码步数t有关的函数,我们设计ls为超参数,当 解码步数大于ls我们开始使用这个奖励分,最终的束得分为ROUGE Credit加上该束平均的对 数似然得分:
scorek=MLEk+Creditk
其中n表示句子长度,yt表示摘要中的第t个词,y<t表示第t步之前已经生成的词,X表示源文档,E表示范例。最终选择得分最高的候选摘要作为最终的摘要。
对于任意一篇文档,我们从训练集中首先找一些正样本(和它的摘要相似度高的为正样 本)和负样本(和它的摘要相似度低的为负样本),进行对比学习训练。如图1所示,我们为 每个输入的最前面都插入一个特殊标记<s>,我们的检索器由共享的预训练模型RoBERTa和 多层感知机构成。预训练RoBERTa的输入为文本,输出为文本的隐向量。我们取特殊标记<s>的对应的隐向量作为文档表示。多层感知机层接受RoBERTa的输出并作为输入,输出最终的隐向量。相似度的计算使用两个隐向量的余弦相似度,类似于多头注意力,我们使用多个头 减轻过拟合现象,训练误差函数使用InfoNCE。在预测阶段,直接根据相似度,取相似度最 高的top N作为范例摘要。
由检索器取得范例后,我们基于范例学习的摘要模型,如图2所示,编码器-解码器可替 换为任意主流的序列到序列模型,我们将源文档和范例合并成一个序列,源文档和每个范例 的前后依次有一个[CLS]和[SEP]的标识符。范例摘要中的第i句话和目标摘要的第i句话拥有相 同的标签嵌入Gi,解码器端以[BOS]、[EOS]标识生成的开始和结束,[SEP]表示一个句子生成 完毕。另外,为了区分源文档和范例,我们给源文档加上特殊的标签嵌入G0,在解码器的每 一步输入也加入这个标签,以防解码器过度关注范例而忽略了对源文档的学习。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发 明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的 技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于范例学习的文本摘要生成方法,其特征在于包括如下步骤:
S1,为待生成摘要的源文档,检索出一组用于参考的范例摘要;
S2,基于序列到序列框架,使用最大似然损失进行训练,包括如下步骤:
S21,将源文档和范例摘要合并成一个序列;
S22,通过极大似然估计,使用前t-1个标准摘要的真值词来预测第t个词,极大似然估计训练的损失函数:
其中P()表示第t步解码在词表上的概率分布,表示第t步解码输出的隐向量,W表示词表大小*隐向量维度的可学习矩阵,X表示源文档,E表示范例摘要,yt表示摘要中的第t个词,y<t表示第t步解码之前已经生成的词,n表示句子长度;
S3,基于训练好的序列到序列框架,预测摘要,包括如下步骤:
S31,将源文档和范例摘要合并成一个序列;
S32,通过极大似然估计,使用前t-1个预测词来预测第t个词,得到对数似然得分:
S33,采用集束搜索算法,每次预测保留一组词,接着往下预测,形成的不同路径作为候选范例摘要,即束,将第k个束的对数似然得分MLEk,加入文本摘要评价指标奖励分,在集束搜索中,每生成n个词后,根据解码端对编码端范例摘要的注意力得分,选取被关注最多的范例摘要,并增大与所述关注最多的范例摘要相似的束的束得分;
S34,选择得分最高的候选摘要作为最终的摘要。
2.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S33中,被关注最多的范例摘要exemplar1,计算第k个束和exemplar1的文本摘要评价指标的得分rougek,文本摘要评价指标奖励分:
Creditk=rougek*g(t)
其中为一个与解码步数t有关的函数,ls为超参数,当解码步数t大于ls,开始使用奖励分,最终的束得分:
scorek=MLEk+Creditk
其中n表示句子长度,yi表示摘要中的第i个词,y<i表示第i步之前已经生成的词,X表示源文档,E表示范例摘要。
3.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S1中,将源文档中抽取的抽取式摘要,与训练集摘要计算文本摘要评价指标,根据文本摘要评价指标的得分高低,选取一组训练集摘要,与源文档进行相似度比较,训练检索相似范例摘要的能力,在预测阶段,选取相似度最高的一组范例摘要。
4.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于从训练集摘要中,划分出正样本和负样本,所述相似度比较,采用基于多头的余弦相似度计算:
其中分别为正、负样本的得分,X表示源文档,Y表示训练集摘要,i表示第i个负样本,j表示第j个正样本,/>表示源文档X的隐向量,/>表示正/负样本的隐向量,对比学习损失函数将所有头相加:
其中H表示头的数量,|C+|、|C-|分别表示正、负样本集的大小,τ表示一个温度参数,exp()表示期望函数,在预测阶段根据所有头的投票,选择相似度高的范例摘要。
5.根据权利要求2所述的一种基于范例学习的文本摘要生成方法,其特征在于根据文本摘要评价指标的高低,选取一组候选训练集摘要,再将候选训练集摘要,根据文本摘要评价指标的高低,划分正、负样本。
6.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S2中,引入对齐机制,通过标签嵌入,使范例摘要的第i句话和目标摘要的第i句话具有相同的标签Gi,在解码端训练过程中,注意编码端带有相同标签的词。
7.根据权利要求6所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S2中,通过标签嵌入,为源文档的句子添加标签G0,在解码的每一步输入也加入标签G0。
8.一种基于范例学习的文本摘要生成框架系统,包括:摘要检索器和摘要生成器,其特征在于所述摘要检索器,为待生成摘要的源文档,检索出一组用于参考的范例摘要,所述摘要生成器,包括编码器和解码器;
所述编码器,将源文档与范例摘要合并成一个序列;
所述解码器,通过极大似然估计,生成摘要,在训练阶段,使用前t-1个标准摘要的真值词来预测第t个词,极大似然估计训练的损失函数:
其中P()表示第t步解码在词表上的概率分布,表示第t步解码输出的隐向量,W表示词表大小*隐向量维度的可学习矩阵,X表示源文档,E表示范例摘要,yt表示摘要中的第t个词,y<t表示第t步解码之前已经生成的词,n表示句子长度;
预测阶段,使用前t-1个预测词来预测第t个词,得到对数似然得分:
采用集束搜索算法,每次预测保留一组词,接着往下预测,形成的不同路径作为候选范例摘要,即束,将第k个束的对数似然得分MLEk,加入文本摘要评价指标奖励分,解码器对编码器有一个注意力机制,在集束搜索中,每生成n个词后,根据根据解码器对所有范例摘要的注意力得分,选取被关注最多的范例摘要,并增大与所述关注最多的范例摘要相似的束的束得分;选择得分最高的候选摘要作为最终的摘要。
9.根据权利要求8所述的一种基于范例学习的文本摘要生成框架系统,其特征在于所述摘要检索器包括预训练模型、多层感知机和相似度计算单元;
所述预训练模型,获取源文档及范例摘要,将其分成多个头,并输出;
所述多层感知机,获取预训练模型的输出,输出源文档和范例摘要基于多个头的隐向量;
所述相似度计算单元,在训练阶段,计算源文档与训练集范例摘要的隐向量的相似度,训练检索相似范例摘要的能力,在预测阶段,取相似度最高的一组范例摘要。
10.根据权利要求8所述的一种基于范例学习的文本摘要生成框架系统,其特征在于所述摘要生成器,在训练阶段,通过标签嵌入模型,使范例摘要中的句子和目标摘要中的句子对齐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110885791.0A CN113673241B (zh) | 2021-08-03 | 2021-08-03 | 一种基于范例学习的文本摘要生成框架系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110885791.0A CN113673241B (zh) | 2021-08-03 | 2021-08-03 | 一种基于范例学习的文本摘要生成框架系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673241A CN113673241A (zh) | 2021-11-19 |
CN113673241B true CN113673241B (zh) | 2024-04-09 |
Family
ID=78541219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110885791.0A Active CN113673241B (zh) | 2021-08-03 | 2021-08-03 | 一种基于范例学习的文本摘要生成框架系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673241B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115718870A (zh) * | 2022-09-08 | 2023-02-28 | 中国电信股份有限公司 | 检测方法、装置、设备及存储介质 |
CN116432605B (zh) * | 2023-06-14 | 2023-09-22 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CA3059026A1 (en) * | 2018-10-19 | 2020-04-19 | Tata Consultancy Services Limited | Systems and methods for conversational based ticket logging |
WO2020227970A1 (en) * | 2019-05-15 | 2020-11-19 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for generating abstractive text summarization |
US10902191B1 (en) * | 2019-08-05 | 2021-01-26 | International Business Machines Corporation | Natural language processing techniques for generating a document summary |
CN112417853A (zh) * | 2020-12-15 | 2021-02-26 | 北京信息科技大学 | 中文专利摘要改写方法 |
JP2021051709A (ja) * | 2019-09-20 | 2021-04-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピュータ読み取り可能な記録媒体 |
CN113127631A (zh) * | 2021-04-23 | 2021-07-16 | 重庆邮电大学 | 基于多头自注意力机制和指针网络的文本摘要方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474709B2 (en) * | 2017-04-14 | 2019-11-12 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
US20190287012A1 (en) * | 2018-03-16 | 2019-09-19 | Microsoft Technology Licensing, Llc | Encoder-decoder network with intercommunicating encoder agents |
US11748613B2 (en) * | 2019-05-10 | 2023-09-05 | Baidu Usa Llc | Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning |
-
2021
- 2021-08-03 CN CN202110885791.0A patent/CN113673241B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CA3059026A1 (en) * | 2018-10-19 | 2020-04-19 | Tata Consultancy Services Limited | Systems and methods for conversational based ticket logging |
WO2020227970A1 (en) * | 2019-05-15 | 2020-11-19 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for generating abstractive text summarization |
US10902191B1 (en) * | 2019-08-05 | 2021-01-26 | International Business Machines Corporation | Natural language processing techniques for generating a document summary |
JP2021051709A (ja) * | 2019-09-20 | 2021-04-01 | 株式会社Nttドコモ | テキスト処理装置、方法、デバイス及びコンピュータ読み取り可能な記録媒体 |
CN112417853A (zh) * | 2020-12-15 | 2021-02-26 | 北京信息科技大学 | 中文专利摘要改写方法 |
CN113127631A (zh) * | 2021-04-23 | 2021-07-16 | 重庆邮电大学 | 基于多头自注意力机制和指针网络的文本摘要方法 |
Non-Patent Citations (1)
Title |
---|
基于子词单元的深度学习摘要生成方法;陈雪雯;;计算机应用与软件;20200312(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673241A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bakhtin et al. | Real or fake? learning to discriminate machine from human generated text | |
CN108829801B (zh) | 一种基于文档级别注意力机制的事件触发词抽取方法 | |
CN110134771B (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN108733837B (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN113673241B (zh) | 一种基于范例学习的文本摘要生成框架系统及方法 | |
Shini et al. | Recurrent neural network based text summarization techniques by word sequence generation | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
Gan et al. | Unsupervised learning of sentence representations using convolutional neural networks | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114780723B (zh) | 基于向导网络文本分类的画像生成方法、系统和介质 | |
Szűcs et al. | Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder | |
Huo et al. | TERG: topic-aware emotional response generation for chatbot | |
CN116881457A (zh) | 一种基于知识对比增强提示的小样本文本分类方法 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN117851567A (zh) | 一种基于领域适应的零样本表格检索方法 | |
CN116860959A (zh) | 结合局部主题和层次结构信息的抽取式摘要方法及系统 | |
Fei et al. | GFMRC: A machine reading comprehension model for named entity recognition | |
CN116521886A (zh) | 基于深度学习的教育领域学科知识图谱的构建方法和装置 | |
Li et al. | Diverter-guider recurrent network for diverse poems generation from image | |
Agun et al. | Document embedding approach for efficient authorship attribution | |
Dadas | Training effective neural sentence encoders from automatically mined paraphrases | |
CN113535886A (zh) | 信息处理方法、装置和设备 | |
Fu et al. | Hierarchical neural network: Integrate divide-and-conquer and unified approach for argument unit recognition and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |