CN110442705B - 一种基于概念指针网络的摘要自动生成方法 - Google Patents

一种基于概念指针网络的摘要自动生成方法 Download PDF

Info

Publication number
CN110442705B
CN110442705B CN201910327653.3A CN201910327653A CN110442705B CN 110442705 B CN110442705 B CN 110442705B CN 201910327653 A CN201910327653 A CN 201910327653A CN 110442705 B CN110442705 B CN 110442705B
Authority
CN
China
Prior art keywords
representing
sequence
word
concept
hidden state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910327653.3A
Other languages
English (en)
Other versions
CN110442705A (zh
Inventor
高扬
王文博
周宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910327653.3A priority Critical patent/CN110442705B/zh
Publication of CN110442705A publication Critical patent/CN110442705A/zh
Application granted granted Critical
Publication of CN110442705B publication Critical patent/CN110442705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于概念指针网络的摘要自动生成方法,属于自然语言处理技术领域。本方法在指针网络的基础上,提出一个概念指针网络,首先找到输入文本单词的多个概念。然后,根据当前输入文本语义信息、文本单词信息和概念信息,选择最合适的概念,并给予这些概念合适的输出概率。最后,将概念指针网络添加到编码‑解码加注意力模型中,并结合pointer‑generator机制,在交叉熵训练模型的基础上,分别使用强化学习和远程监督方式优化模型,最终生成摘要。本方法在概念这一抽象层次上更深层次的表示了文档内容,利用远程监督策略训练模型,使摘要生成模型具有更强的适应性和泛化能力,构建了高质量的摘要生成方式。

Description

一种基于概念指针网络的摘要自动生成方法
技术领域
本发明涉及一种基于概念指针网络的摘要自动生成方法,属于自然语言处理技术领域。
背景技术
随着社会的发展和进步,互联网上的信息迅速增长,迅速增长的信息量给人们带来了信息的多样性,但同时也使得人们不得不花费大量的时间理解并寻找有用信息,这种信息爆炸问题已经成为当今社会一个十分严峻的问题。如果有一种方法,能够从长文本中提取关键信息,那么这将帮助人们在短时间内了解大量的信息,方便而快捷。自动摘要任务是一种从文本中提取关键信息的任务,摘要生成可以由人工完成,但会消耗大量的人力物力,且面对海量的信息,人工也无法在短时间内完成所有的摘要生成任务。若使用机器自动生成文本摘要,则可大大提高生成效率。因此,用机器学习模型生成摘要任务,越来越受到关注。
自动摘要是自然语言领域的一个重要课题,它的目的是将一段长文本浓缩成一段包含原文本中心思想的短文本。输出的短文本要在减少文字长度的同时尽可能保留长文本的核心内容。文本摘要根据输入文本的长短,可以细分为单文档摘要和多文档摘要,前者是后者的基础,但后者并不是前者的简单叠加,而是采用一些算法进行融合;根据提取摘要的方法,可以细分为抽取式摘要和生成式摘要,抽取式摘要是假设一篇文章的核心思想可以由文章中的一些关键性的语句来描述,用一些算法从原文本中抽取几个句子,进行排列组合,从而获得最终的摘要结果;生成式摘要是在理解原文本的基础上,从更广阔的的词典空间中选择词汇生成最终的摘要。相比于抽取式摘要,生成式摘要更体现智能、更灵活、更有前景,但同时也更具有挑战性。
随着深度学习的研究发展,尤其是当编码器-解码器框架和注意力机制被提出后,生成式摘要在生成的摘要质量和流畅度方面都有了很大的提高。目前生成式摘要任务,主要基于深度神经网络结构来实现,结合编码器-解码器框架和注意力机制几乎成为了生成式摘要模型的基本标准。研究者们在此基础上也做了大量的改进和优化,利用覆盖机制,可以避免模型解码时两个时间步的注意力分布具有相似性,从而大大减少了摘要重复词的数量。利用句法树解析功能获得输入文本实体间的关系,能够让模型获得更多的语义信息。利用机器翻译中的价值网络能够解决束搜索中的短视问题,使得自动摘要模型在使用束搜索中可以选择价值更高的单词组成摘要。利用生成式摘要与抽取式摘要的结合,可以很好的克服抽取式摘要模型生成的摘要语句不通顺和生成式摘要模型生成的摘要内容不准确的不足。针对不同问题的优化使得生成式模型输出的摘要更加简练,而且更具有表达力。不断的优化也使得摘要生成的方式越来越接近人类的思维。但是,生成式摘要依然存在着所生成的摘要抽象性不足问题、未登录词等诸多问题,需要研究者们解决。
生成式摘要技术是一个不断发展的技术,指针网络和强化学习逐渐成为了当前摘要任务研究的热点。指针网络能够直接选择输入文本中的某些词作为输出摘要的一部分,但是其不能增加摘要的抽象性。
概念指针网络能够根据输入文本的语义选择每个单词最符合当前语义的概念,并给予一定的输出概率,能够使模型具有输出更抽象信息的能力,并且通过将概念指针网络与强化学习进行融合,能够大大增强模型输出摘要的质量。
发明内容
本发明的目的是为了解决自动摘要任务中生成摘要的抽象性不足问题,提出一种基于概念指针网络的摘要自动生成方法。
本方法在指针网络的基础上,提出一个概念指针网络,首先找到输入文本单词的多个概念。然后,根据当前输入文本语义信息、文本单词信息和概念信息,选择最合适的概念,并给予这些概念合适的输出概率。最后,将概念指针网络添加到编码-解码加注意力模型中,并结合pointer-generator机制,在交叉熵训练模型的基础上,分别使用强化学习和远程监督方式优化模型,最终生成摘要。
有益效果
本发明方法,对比现有技术,具有如下有益效果:
1.利用概念指针网络,根据语义选择相应的概念,在概念这一抽象层次上更深层次的表示了文档内容;
2.利用远程监督策略训练模型,使摘要生成模型具有更强的适应性和泛化能力;
3.结合概念指针网络和pointer-gengrator机制,使用远程监督策略和强化学习,一起构建了高质量的摘要生成模型。
附图说明
图1为本发明方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下根据附图及实施例对本发明所述的摘要生成方法进一步详细说明。
一种基于概念指针网络的摘要自动生成方法,包括以下步骤:
首先,进行相关定义,具体如下:
定义1:文本序列,文本序列是有序的单词构成的文档;
定义2:输入词表和输出词表,由不同的单词组成的序列;
定义3:词向量和词向量序列,词向量是利用向量表示单词语义的一种方式,将文本序列中有序的单词利用词向量表示的结果为词向量序列,记为x,x=[x1,x2,...,xn];
定义4:摘要,较短的文字概括文档的主要内容;
定义5:编码器,对文档内容进行压缩,用一个固定状态向量S来表示文档内容,编码器是神经网络构成,如LSTM等;
定义6:解码器,将固定状态向量S通过解码器得到源文档或者目标序列,解码器是由神经网络构成,如LSTM等;
定义7:隐藏状态和隐藏状态序列,表示神经网络中间层某一时刻的状态,用一个向量表示,隐藏状态所构成的序列称为隐藏状态序列;
步骤一、根据文本序列中的单词,找到对应的k个概念词
Figure BDA0002036720980000031
以及Ci中每个概念出现的概率
Figure BDA0002036720980000032
步骤二、初始化词向量,利用文本序列中的单词顺序排列词向量,得到词向量序列X,并将X作为模型输入;
步骤三、利用多层编码器学习隐藏状态序列h,其中,编码器采用多层双向LSTM模型,双向LSTM模型包括前向LSTM和反向LSTM;
具体地,步骤三包括如下步骤:
步骤3.1、将词向量序列X,顺序输入到前向LSTM中,得到前向隐藏状态序列。
具体地,步骤3.1包括如下步骤:
步骤3.1.1、计算前向LSTM当前时刻的遗忘门,来决定丢弃何种信息,通过公式(1)计算:
Figure BDA0002036720980000041
其中,
Figure BDA0002036720980000042
表示t时刻前向LSTM的遗忘门,
Figure BDA0002036720980000043
表示参数,
Figure BDA0002036720980000044
表示t-1时刻前向LSTM的隐藏状态,xt表示t时刻输入的词向量,σ表示sigmoid函数;
步骤3.1.2、计算前向LSTM当前时刻的输入门,来决定加入何种新的信息,通过公式(2)计算:
Figure BDA0002036720980000045
其中,
Figure BDA0002036720980000046
表示t时刻前向LSTM的输入门,
Figure BDA0002036720980000047
表示参数,
Figure BDA0002036720980000048
表示t-1时刻前向LSTM的隐藏状态,xt表示t时刻输入的词向量,σ表示sigmoid函数;
步骤3.1.3、计算前向LSTM当前时刻更新的信息,通过公式(3)计算:
Figure BDA0002036720980000049
其中,
Figure BDA00020367209800000410
表示t时刻前向LSTM更新的信息,
Figure BDA00020367209800000411
表示参数,tanh表示双曲正切函数,
Figure BDA00020367209800000412
表示t-1时刻前向LSTM的隐藏状态,xt表示t时刻输入的词向量;
步骤3.1.4、计算前向LSTM当前时刻的信息,将上一时刻的信息和当前时刻的更新的信息相加得到,通过公式(4)计算:
Figure BDA00020367209800000413
其中,
Figure BDA00020367209800000414
表示t时刻前向LSTM的信息,
Figure BDA00020367209800000415
表示t-1时刻前向LSTM的信息,*表示叉乘,
Figure BDA00020367209800000416
表示t时刻前向LSTM的遗忘门,
Figure BDA00020367209800000417
表示t时刻前向LSTM的输入门,
Figure BDA00020367209800000418
表示t时刻前向LSTM更新的信息;
步骤3.1.5、计算前向LSTM当前时刻的输出门,来控制输入信息,通过公式(5)计算:
Figure BDA00020367209800000419
其中,
Figure BDA0002036720980000051
表示t时刻前向LSTM的输出门,Wo、bo表示参数,
Figure BDA0002036720980000052
表示t-1时刻前向LSTM的隐藏状态,xt表示t时刻输入的词向量,σ表示sigmoid函数;
步骤3.1.6、计算前向LSTM当前时刻隐藏状态,通过公式(6)计算:
Figure BDA0002036720980000053
其中,
Figure BDA0002036720980000054
表示t时刻前向LSTM隐藏状态,
Figure BDA0002036720980000055
表示t时刻前向LSTM的输出门,*表示叉乘,
Figure BDA0002036720980000056
表示t时刻前向LSTM的信息,tanh表示双曲正切函数;
步骤3.1.7、计算第n层前向LSTM当前时刻隐藏状态。相对于传统编码器采用一层双向LSTM,本发明采用了多层双向LSTM,将前一层的隐藏状态和上一时刻的隐藏状态,作为下一层的输入,通过公式(7)计算:
Figure BDA0002036720980000057
其中,
Figure BDA0002036720980000058
表示第n层前向LSTM在t时刻的隐藏状态,
Figure BDA0002036720980000059
表示第n-1层前向LSTM在t时刻的隐藏状态,
Figure BDA00020367209800000510
表示第n层前向LSTM在t-1时刻的隐藏状态,f表示前馈神经网络函数;
由此得到前向隐藏状态序列
Figure BDA00020367209800000511
步骤3.2、将词向量序列X,倒序输入到反向LSTM中,得到前反向隐藏状态序列。
具体地,步骤3.2包括如下步骤:
步骤3.2.1、计算反向LSTM当前时刻的遗忘门,来决定丢弃何种信息,通过公式(8)计算:
Figure BDA00020367209800000512
其中,
Figure BDA00020367209800000513
表示t时刻反向LSTM的遗忘门,
Figure BDA00020367209800000514
表示参数,
Figure BDA00020367209800000515
表示t-1时刻反向LSTM的隐藏状态,xt表示t时刻输入的词向量,σ表示sigmoid函数;
步骤3.2.2、计算反向LSTM当前时刻的输入门,来决定加入何种新的信息,通过公式(9)计算:
Figure BDA00020367209800000516
其中,
Figure BDA00020367209800000517
表示t时刻反向LSTM的输入门,
Figure BDA00020367209800000518
表示参数,
Figure BDA00020367209800000519
表示t-1时刻反向LSTM的隐藏状态,xt表示t时刻输入的词向量,σ表示sigmoid函数;
步骤3.2.3、计算反向LSTM当前时刻更新的信息,通过公式(10)计算:
Figure BDA00020367209800000520
其中,
Figure BDA00020367209800000521
表示t时刻反向LSTM更新的信息,
Figure BDA00020367209800000522
表示参数,tanh表示双曲正切函数,tanh表示双曲正切函数,
Figure BDA0002036720980000061
表示t-1时刻反向LSTM的隐藏状态,xt表示t时刻输入的词向量;
步骤3.2.4、计算反向LSTM当前时刻的信息,将上一时刻的信息和当前时刻的更新的信息相加得到,通过公式(11)计算:
Figure BDA0002036720980000062
其中,
Figure BDA0002036720980000063
表示t时刻反向LSTM的信息,
Figure BDA0002036720980000064
表示t-1时刻反向LSTM的信息,*表示叉乘,
Figure BDA0002036720980000065
表示t时刻反向LSTM的遗忘门,
Figure BDA0002036720980000066
表示t时刻反向LSTM的输入门,
Figure BDA0002036720980000067
表示t时刻反向LSTM更新的信息;
步骤3.2.5、计算反向LSTM当前时刻的输出门,用于控制输入信息,通过公式(12)计算:
Figure BDA0002036720980000068
其中,
Figure BDA0002036720980000069
表示t时刻反向LSTM的输出门,
Figure BDA00020367209800000610
表示参数,
Figure BDA00020367209800000611
表示t-1时刻反向LSTM的隐藏状态,xt表示t时刻输入的词向量,σ表示sigmoid函数;
步骤3.2.6、计算反向LSTM当前时刻隐藏状态,通过公式(13)计算:
Figure BDA00020367209800000612
其中,
Figure BDA00020367209800000613
表示t时刻反向LSTM隐藏状态,
Figure BDA00020367209800000614
表示t时刻反向LSTM的输出门,tanh表示双曲正切函数,
Figure BDA00020367209800000615
表示t时刻反向LSTM的信息;
步骤3.2.7、计算第n层反向LSTM当前时刻隐藏状态。相对于传统编码器采用一层双向LSTM,本发明采用了多层双向LSTM,将前一层的隐藏状态和上一时刻的隐藏状态,作为下一层的输入。通过公式(14)计算:
Figure BDA00020367209800000616
其中,
Figure BDA00020367209800000617
表示第n层反向LSTM在t时刻的隐藏状态,
Figure BDA00020367209800000618
表示第n-1层反向LSTM在t时刻的隐藏状态,
Figure BDA00020367209800000619
表示第n层反向LSTM在t-1时刻的隐藏状态,f表示前馈神经网络函数;
由此得到反向隐藏状态序列
Figure BDA00020367209800000620
步骤3.3、计算最终隐藏状态序列h,通过前向隐藏状态序列和反向隐藏状态序列连接得到,通过公式(15)得到:
Figure BDA00020367209800000621
由此得到隐藏状态序列h=[h1,h2,...,hn],该序列包含了输入文本序列前后所有的上下文信息;
步骤四、利用步骤一得到的概念词向量序列C,和步骤三得到的隐藏状态序列h,综合上下文信息,结合注意力机制和pointer-generator机制,进行解码器操作,计算t时刻预测单词yi
具体地,步骤四包括如下步骤:
步骤4.1、计算解码器第t时刻的隐藏状态st,通过公式(16)计算:
Figure BDA0002036720980000071
其中,st-1表示解码器t-1时刻的隐藏状态,yt-1表示t-1时刻预测单词的词向量,
Figure BDA0002036720980000072
表示t时刻的上下文信息,g表示前馈神经网络函数;
步骤4.2、利用注意力机制,计算t时刻上下文信息
Figure BDA0002036720980000073
通过公式(17)计算:
Figure BDA0002036720980000074
其中,vT、Wh、Ws、battn表示参数,softmax表示归一化函数,tanh表示双曲正切函数,st表示解码器第t时刻的隐藏状态,hi表示文本序列的第i个单词经过编码器后的隐藏状态信息,
Figure BDA0002036720980000075
表示文本序列中第i个单词的未归一化后的注意力概率,et表示文本序列的未归一化后的注意力分布,at表示文本序列的归一化后的注意力分布,
Figure BDA0002036720980000076
表示文本序列中第i个单词归一化后的注意力分布;
步骤4.3、利用解码器隐藏状态st、上下文信息
Figure BDA0002036720980000077
和输出词表,预测单词yi,预测条件概率如公式(18):
Figure BDA0002036720980000078
其中,
Figure BDA0002036720980000079
表示t时刻上下文信息,st表示t时刻解码器隐藏状态,g表示前馈神经网络函数,pvocab为输出词表中单词的输出概率;
步骤4.4、利用编码器隐藏状态信息h、t时刻上下文信息
Figure BDA00020367209800000710
概念词向量序列C得到每个概念的输出概率,通过公式(19)计算:
Figure BDA00020367209800000711
其中,
Figure BDA00020367209800000712
表示文本序列的第i个单词的第j个概念的输出概率,Wh'表示参数,hi表示文本序列的第i个单词经过编码器后的隐藏状态信息、
Figure BDA00020367209800000713
表示t时刻上下文信息、
Figure BDA00020367209800000714
表示文本序列的第i个单词的第j个概念的词向量;
步骤4.5、从概念输出概率序列Pi c中,选择概率最大的概念及其概率,通过公式(20)计算:
Figure BDA0002036720980000081
其中,
Figure BDA0002036720980000082
为概念的输出概率;
步骤4.6、找到
Figure BDA0002036720980000083
对应的概念词在p(C)中的概率,记为
Figure BDA0002036720980000084
利用
Figure BDA0002036720980000085
进一步修正
Figure BDA0002036720980000086
得到该概念词在当前语义下的输出概率,通过公式(21)计算:
Figure BDA0002036720980000087
其中,γ表示参数,
Figure BDA0002036720980000088
表示概念词在当前语义下的输出概率,
Figure BDA0002036720980000089
为概念的输出概率;
步骤4.7、利用t时刻上下文信息
Figure BDA00020367209800000810
解码器t时刻隐藏信息st和t-1时刻预测的单词yt-1,得到选择概率pgen,即预测单词来自输出词表的概率,通过公式(22)计算:
Figure BDA00020367209800000811
其中,pgen表示选择概率,W1、W2、W3、bgen表示参数,σ表示sigmoid函数;
步骤4.8、利用选择概率pgen、输出词表中单词的输出概率pvocab、注意力分布at和概念最大输出概率
Figure BDA00020367209800000812
预测最终的输出单词yi,通过公式(23)计算:
Figure BDA00020367209800000813
其中,
Figure BDA00020367209800000814
表示文本序列的第i个单词在t时刻的注意力信息,pfinal表示单词的输出信息,包括词表单词、文本序列、文本序列对应的概念词。
通过公式(23)的pfinal获取t时刻输出概率最高的n个单词,然后通过束搜索算法,将这些单词与之前t-1时刻的单词进行组合生成一部分摘要(不是完整的,可以理解为只有摘要前面的一部分),不断重复这个过程,生成最终的摘要。
至此,完成了一种基于概念指针网络的摘要生成方法。
此外,本发明在通过交叉熵训练生成模型之后,还可以进一步采取强化学习训练或远程监督训练,进一步优化模型;
具体地址,采取强化学习训练优化模型的方法为:
经过以LMLE为目标函数进行训练后,更换目标函数,进行强化学习训练,新的目标函数如公式(25):
Figure BDA0002036720980000091
Lfinal=λLRL+(1-λ)LMLE (25)
其中,
Figure BDA0002036720980000092
表示在每一个时间步使用贪婪算法得到的摘要的ROUGE值,r(ys)表示在每一个时间步随机选择得到的摘要ROUGE值,
Figure BDA0002036720980000093
表示在每一个时间步随机选择得到的摘要序列,λ表示超参数,LMLE表示交叉熵损失函数,x表示词向量序列;
采取远程监督训练优化模型的方法为:
经过以LMLE为目标函数进行训练后,更换目标函数,采用远程监督训练,新的目标函数如公式(26):
Figure BDA0002036720980000094
其中,δ表示超参数,N表示测试预料的个数,DKL表示计算KL散度,y*表示参考摘要,
Figure BDA0002036720980000095
表示测试语料中的文章,LMLE表示交叉熵损失函数。
在使用交叉熵损失函数训练模型的基础上,分别使用强化学习或远程监督方式继续优化模型,使模型能够生成更加抽象层次的摘要。
实施例
本实施例叙述了本发明的具体实施过程,如图1所示。
从图1可以看出,本发明方法流程如下:
步骤A、预处理;具体到本实施例是对语料进行分词,去停用词的处理;
其中,分词操作利用PTB分词器进行分词处理,利用nltk工具进行去停用词的操作。
步骤B、初始化概念词向量和输入文本词向量,大小为128维,其中某个概念词的词向量为[8.9154e-05,6.2667e-05,6.4418e-05,...,7.1736e-05,-2.4704e-05,1.2438e-04],输入文本中某个词的词向量为[2.0672e-04,1.1223e-04,6.8911e-05,...,7.5825e-06,-7.2777e-06,9.8726e-05]
步骤C、用多层编码器学习文档内容表示;将词向量序列输入到多层编码器中,首先计算第一层前向编码器的隐藏状态
Figure BDA0002036720980000098
Figure BDA0002036720980000099
维度大小为256维;计算第一层反向编码器的隐藏状态
Figure BDA00020367209800000910
Figure BDA00020367209800000911
维度大小为256维;第二层编码器输入为
Figure BDA0002036720980000101
Figure BDA0002036720980000102
的拼接;最终得到第n层前向编码器的隐藏状态
Figure BDA0002036720980000103
Figure BDA0002036720980000104
第n层反向编码器的隐藏状态
Figure BDA00020367209800001011
Figure BDA0002036720980000105
Figure BDA0002036720980000106
Figure BDA0002036720980000107
拼接可得最终的第n层的隐藏状态,该隐藏状态包含了文档的内容;
步骤D、根据上下文信息、编码器隐藏信息和概念信息从多个概念中选择最符合当前语义的概念;计算上下文信息
Figure BDA0002036720980000108
Figure BDA0002036720980000109
维度为512维,多层的编码器隐藏信息和概念词向量信息已经在步骤C中得到。根据这三部分内容得到输入文本中每个单词对应概念的概率分布,从中选择合适的概念,结合概念词本身出现的概率和模型生成的概率,获得最终的输出概率;
步骤E、根据概念指针网络、pointer-generator和解码器生成摘要;
其中,概念指针网络中概念词及其输出概率在步骤D中已经得到;
pointer-generator中输入文本中各个词的输出概率用该时间步的注意力分布计算,计算第t时间步的注意力分布at=[0.0077,0.0096,0.0117,...,0.0038,0.0019,0.0008];
计算解码器t时间步的隐藏状态st=[-3.6357e-03,-4.0810e-03,9.7077e-03,...,5.4117e-04,-2.4939e-04,1.3467e-02],结合上下文信息
Figure BDA00020367209800001010
根据目标函数得到词表的输出概率分布;
最终,结合这三部分的输出概率分布预测单词,完成摘要生成任务。
以上对本发明“一种基于概念指针网络的摘要生成方法”进行了详细的说明,但本发明的具体实施形式并不局限于此。实施例说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (3)

1.一种基于概念指针网络的摘要自动生成方法,其特征在于,包括以下步骤:
首先,进行相关定义,具体如下:
定义1:文本序列,文本序列是有序的单词构成的文档;
定义2:输入词表和输出词表,由不同的单词组成的序列;
定义3:词向量和词向量序列,词向量是利用向量表示单词语义的一种方式,将文本序列中有序的单词利用词向量表示的结果为词向量序列,记为x,x=[x1,x2,...,xn];
定义4:摘要,较短的文字概括文档的主要内容;
定义5:编码器,对文档内容进行压缩,用一个固定状态向量S来表示文档内容,编码器是神经网络构成;
定义6:解码器,将固定状态向量S通过解码器得到源文档或者目标序列,解码器是由神经网络构成;
定义7:隐藏状态和隐藏状态序列,表示神经网络中间层某一时刻的状态,用一个向量表示,隐藏状态所构成的序列称为隐藏状态序列;
步骤一、根据文本序列中的单词,找到对应的k个概念词
Figure FDA0003204594050000011
以及Ci中每个概念出现的概率
Figure FDA0003204594050000012
步骤二、初始化词向量,利用文本序列中的单词顺序排列词向量,得到词向量序列X,并将X作为模型输入;
步骤三、利用多层编码器学习隐藏状态序列h,其中,编码器采用多层双向LSTM模型,双向LSTM模型包括前向LSTM和反向LSTM;
具体地,步骤三包括如下步骤:
步骤3.1、将词向量序列X,顺序输入到前向LSTM中,得到前向隐藏状态序列;
步骤3.2、将词向量序列X,倒序输入到反向LSTM中,得到前反向隐藏状态序列;
步骤3.3、计算最终隐藏状态序列h,通过前向隐藏状态序列和反向隐藏状态序列连接得到,通过公式(15)得到:
Figure FDA0003204594050000013
其中,
Figure FDA0003204594050000014
表示t时刻前向LSTM隐藏状态,
Figure FDA0003204594050000015
表示t时刻反向LSTM隐藏状态;
由此得到隐藏状态序列h=[h1,h2,...,hn],该序列包含了输入文本序列前后所有的上下文信息;
步骤四、利用步骤一得到的概念词向量序列C,和步骤三得到的隐藏状态序列h,综合上下文信息,结合注意力机制和pointer-generator机制,进行解码器操作,计算t时刻输出概率最高的n个预测单词yi;然后通过束搜索算法,将这些单词与之前t-1时刻的单词进行组合生成一部分摘要不断重复这个过程,生成最终的摘要;
步骤四包括以下步骤:
步骤4.1、计算解码器第t时刻的隐藏状态st,通过公式(16)计算:
Figure FDA0003204594050000021
其中,st-1表示解码器t-1时刻的隐藏状态,yt-1表示t-1时刻预测单词的词向量,
Figure FDA0003204594050000022
表示t时刻的上下文信息,g表示前馈神经网络函数;
步骤4.2、利用注意力机制,计算t时刻上下文信息
Figure FDA0003204594050000023
通过公式(17)计算:
Figure FDA0003204594050000024
其中,vT、Wh、Ws、battn表示参数,softmax表示归一化函数,tanh表示双曲正切函数,st表示解码器第t时刻的隐藏状态,hi表示文本序列的第i个单词经过编码器后的隐藏状态信息,
Figure FDA0003204594050000025
表示文本序列中第i个单词的未归一化后的注意力概率,et表示文本序列的未归一化后的注意力分布,at表示文本序列的归一化后的注意力分布,
Figure FDA0003204594050000026
表示文本序列中第i个单词归一化后的注意力分布;
步骤4.3、利用解码器隐藏状态st、上下文信息
Figure FDA0003204594050000027
和输出词表,预测单词yi,预测条件概率如公式(18):
Figure FDA0003204594050000028
其中,
Figure FDA0003204594050000029
表示t时刻上下文信息,st表示t时刻解码器隐藏状态,g表示前馈神经网络函数,pvocab为输出词表中单词的输出概率;
步骤4.4、利用编码器隐藏状态信息h、t时刻上下文信息
Figure FDA00032045940500000210
概念词向量序列C得到每个概念的输出概率,通过公式(19)计算:
Figure FDA00032045940500000211
其中,
Figure FDA0003204594050000031
表示文本序列的第i个单词的第j个概念的输出概率,Wh'表示参数,hi表示文本序列的第i个单词经过编码器后的隐藏状态信息、
Figure FDA0003204594050000032
表示t时刻上下文信息、
Figure FDA0003204594050000033
表示文本序列的第i个单词的第j个概念的词向量;
步骤4.5、从概念输出概率序列Pi c中,选择概率最大的概念及其概率,通过公式(20)计算:
Figure FDA0003204594050000034
其中,
Figure FDA0003204594050000035
为概念的输出概率;
步骤4.6、找到
Figure FDA0003204594050000036
对应的概念词在p(C)中的概率,记为
Figure FDA0003204594050000037
利用
Figure FDA0003204594050000038
进一步修正
Figure FDA0003204594050000039
得到该概念词在当前语义下的输出概率,通过公式(21)计算:
Figure FDA00032045940500000310
其中,γ表示参数,
Figure FDA00032045940500000311
表示概念词在当前语义下的输出概率,
Figure FDA00032045940500000312
为概念的输出概率;
步骤4.7、利用t时刻上下文信息
Figure FDA00032045940500000313
解码器t时刻隐藏信息st和t-1时刻预测的单词yt-1,得到选择概率pgen,即预测单词来自输出词表的概率,通过公式(22)计算:
Figure FDA00032045940500000314
其中,pgen表示选择概率,W1、W2、W3、bgen表示参数,σ表示sigmoid函数;
步骤4.8、利用选择概率pgen、输出词表中单词的输出概率pvocab、注意力分布at和概念最大输出概率
Figure FDA00032045940500000315
预测最终的输出单词yi,通过公式(23)计算:
Figure FDA00032045940500000316
其中,
Figure FDA00032045940500000317
表示文本序列的第i个单词在t时刻的注意力信息,pfinal表示单词的输出信息,包括词表单词、文本序列、文本序列对应的概念词。
2.如权利要求1所述的一种基于概念指针网络的摘要自动生成方法,其特征在于:
在通过交叉熵训练生成模型之后,采取强化学习训练进一步优化模型:
经过以LMLE为目标函数进行训练后,更换目标函数,进行强化学习训练,新的目标函数如公式(25):
Figure FDA00032045940500000318
Lfinal=λLRL+(1-λ)LMLE (25)
其中,
Figure FDA0003204594050000041
表示在每一个时间步使用贪婪算法得到的摘要的ROUGE值,r(ys)表示在每一个时间步随机选择得到的摘要ROUGE值,
Figure FDA0003204594050000042
表示在每一个时间步随机选择得到的摘要序列,λ表示超参数,LMLE表示交叉熵损失函数,x表示词向量序列。
3.如权利要求1所述的一种基于概念指针网络的摘要自动生成方法,其特征在于,
在通过交叉熵训练生成模型之后,采取远程监督训练进一步优化模型:
经过以LMLE为目标函数进行训练后,更换目标函数,采用远程监督训练,新的目标函数如公式(26):
Figure FDA0003204594050000043
其中,δ表示超参数,N表示测试预料的个数,DKL表示计算KL散度,y*表示参考摘要,
Figure FDA0003204594050000044
表示测试语料中的文章,LMLE表示交叉熵损失函数。
CN201910327653.3A 2019-04-23 2019-04-23 一种基于概念指针网络的摘要自动生成方法 Active CN110442705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910327653.3A CN110442705B (zh) 2019-04-23 2019-04-23 一种基于概念指针网络的摘要自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910327653.3A CN110442705B (zh) 2019-04-23 2019-04-23 一种基于概念指针网络的摘要自动生成方法

Publications (2)

Publication Number Publication Date
CN110442705A CN110442705A (zh) 2019-11-12
CN110442705B true CN110442705B (zh) 2021-10-12

Family

ID=68428285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910327653.3A Active CN110442705B (zh) 2019-04-23 2019-04-23 一种基于概念指针网络的摘要自动生成方法

Country Status (1)

Country Link
CN (1) CN110442705B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860942A (zh) * 2019-11-27 2021-05-28 北京达佳互联信息技术有限公司 视频评论的获取方法及、装置、电子设备及存储介质
CN111310485B (zh) * 2020-03-12 2022-06-21 南京大学 机器翻译方法、装置及存储介质
CN111444715B (zh) * 2020-03-24 2022-12-02 腾讯科技(深圳)有限公司 实体关系识别方法、装置、计算机设备和存储介质
CN111488726B (zh) * 2020-03-31 2023-05-23 成都数之联科技股份有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111563146B (zh) * 2020-04-02 2023-05-23 华南理工大学 一种基于推理的难度可控问题生成方法
CN111552801B (zh) * 2020-04-20 2022-09-30 大连理工大学 基于语义对齐的神经网络自动摘要模型
CN112214608B (zh) * 2020-09-21 2024-02-13 清华大学 基于知识推理的文本生成方法、介质、装置和计算设备
CN112395892B (zh) * 2020-12-03 2022-03-18 内蒙古工业大学 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法
CN113111646A (zh) * 2021-03-02 2021-07-13 重庆邮电大学 一种文本摘要模型生成及文本摘要识别方法
CN113127631B (zh) * 2021-04-23 2022-07-01 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113190675A (zh) * 2021-05-12 2021-07-30 平安国际智慧城市科技股份有限公司 文本摘要生成方法、装置、计算机设备和存储介质
CN115169227B (zh) * 2022-07-04 2023-07-07 四川大学 设计概念生成网络构建方法及概念方案自动生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5797008A (en) * 1996-08-09 1998-08-18 Digital Equipment Corporation Memory storing an integrated index of database records
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109376234A (zh) * 2018-10-10 2019-02-22 北京京东金融科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5797008A (en) * 1996-08-09 1998-08-18 Digital Equipment Corporation Memory storing an integrated index of database records
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109376234A (zh) * 2018-10-10 2019-02-22 北京京东金融科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Conceptual Multi-Layer Neural Network Model for Headline Generation;Yidi Guo 等;《Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data》;20171231;第355-367页 *
Get To The Point Summarization with Pointer-Generator Networks;Abigail See等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170101;第1-20页 *

Also Published As

Publication number Publication date
CN110442705A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110442705B (zh) 一种基于概念指针网络的摘要自动生成方法
CN108984524A (zh) 一种基于变分神经网络主题模型的标题生成方法
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN107832310A (zh) 基于seq2seq模型的结构化论点生成方法及系统
KR102352251B1 (ko) 자질 선별을 통한 고성능 기계독해 방법
Deng et al. Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN112001166A (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN112000772A (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN114091478A (zh) 基于有监督对比学习与回复生成辅助的对话情感识别方法
CN110083702A (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114385802A (zh) 一种融合主题预测和情感推理的共情对话生成方法
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN114677631B (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
Huang et al. Speech emotion analysis based on vision transformer
Chen et al. Eliciting knowledge from language models with automatically generated continuous prompts
CN115438156B (zh) 一种多任务学习的答案选择和问题分类的方法及系统
Inan et al. Improved learning through augmenting the loss
Pengfei et al. A universality-individuality integration model for dialog act classification
Gupta et al. Comparative Analysis of Multi-Model and Uni-Model Approaches using Time Distributed Bidirectional LSTM for Multidata Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant