CN108984524A - 一种基于变分神经网络主题模型的标题生成方法 - Google Patents

一种基于变分神经网络主题模型的标题生成方法 Download PDF

Info

Publication number
CN108984524A
CN108984524A CN201810730317.9A CN201810730317A CN108984524A CN 108984524 A CN108984524 A CN 108984524A CN 201810730317 A CN201810730317 A CN 201810730317A CN 108984524 A CN108984524 A CN 108984524A
Authority
CN
China
Prior art keywords
moment
indicate
lstm
vector
hidden state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810730317.9A
Other languages
English (en)
Inventor
高扬
黄河燕
郭迪
郭一迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810730317.9A priority Critical patent/CN108984524A/zh
Publication of CN108984524A publication Critical patent/CN108984524A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于变分神经网络主题模型的标题生成方法,属于自然语言处理技术领域。本方法通过变分自编码器自动学习文档主题隐分布向量,将文档主题隐分布向量和多层神经网络学习的文档表示向量利用注意力机制结合起来,从而在主题和全局层面上表示文档全面、深层的语义,构建高质量的标题生成模型。本方法利用多层编码器学习到了文档更全面的信息,提高了标题生成模型的概括全文主要思想的效果;利用VAE学习的主题隐分布向量,在主题这一抽象层次上更深层的表示了文档内容;利用注意力机制将主题隐分布向量和多层编码器学习的文档信息,将深层的语义表示和上下文信息有机的结合在一起构建了高质量的标题生成模型。

Description

一种基于变分神经网络主题模型的标题生成方法
技术领域
本发明涉及一种基于变分神经网络主题模型的标题生成方法,属于自然语言处理技术领域。
背景技术
如今,人们每天通过各种渠道获取大量的信息,而这些信息中只有很少部分对于人们来说是有用信息。如果有机器学习模型以压缩形式消化大量信息,理解文档并提取其中的有用信息,从而对长文本自动生成精确标题,那将给人们节约大量的阅读时间。标题生成,顾名思义,旨在大量的信息数据中生成标题,其中尤以从长文本中生成标题为主要难点,特别是当文本的长度大大增加时。标题生成是自然语言处理领域中一项重要的任务,有助于机器真正理解文本内容。最近几年,受益于深度神经网络的发展,标题生成任务受到了广泛的关注。
随着近几年来深度神经网络的快速发展,很多问题也都开始通过神经网络模型来解决,而其中的大多数难题都取得了不错的效果,例如,机器翻译、语音识别等。传统的标题生成大多采用规则或者统计的方法来进行实现,这种方法虽然简单易实现,但是并没有深层次的理解源文档的含义,当遇到较复杂的语义时生成的结果可能千差万别。标题生成本质上是序列生成的问题,基于序列模型对于解决序列生成问题有较好的提升。因此,当前主流的标题生成都是运用深度神经网络技术实现。
经典的基于神经网络的标题生成模型包含一个前馈神经网络语言模型和一个基于注意力机制的编码器,但是神经网络语言模型没有准确的表示文档内容。近两年来,伴随着变分自编码器的兴起,研究热点也渐渐开始转移到变分自编码器和生成模型的结合上。利用离散变分编码器进行推理的深度生成模型,并将该模型用于句子压缩任务。但是由于表示能力有限,该模型没有考虑到序列之间的长期依赖关系。
发明内容
本发明的目的是为了解决现有方法缺少更多的文本信息表示的缺陷,提出一种基于变分神经网络主题模型的标题生成方法。
本发明的核心思想为:通过变分自编码器自动学习文档主题隐分布向量,将文档主题隐分布向量和多层神经网络学习的文档表示向量利用注意力机制结合起来,从而在主题和全局层面上表示文档全面、深层的语义,构建高质量的标题生成模型。
为实现上述目的,本发明所述一种基于变分神经网络主题模型的标题生成方法,包括以下步骤:
步骤一、进行相关定义,具体如下:
定义1:文档向量,利用向量表示文档的语义内容;
定义2:文本序列,文档由单词构成,文本序列是有序的单词构成的文档;
定义3:词向量和词向量序列,词向量是利用向量表示单词语义的一种方式,文本序列中有序的单词利用词向量表示的结果是词向量序列,记为X,X=[x1,x2,…,xn],n为正整数;
定义4:标题,简短的文字概括文档的主要内容;
定义5:编码器,对文档内容进行压缩,用一个固定的状态向量S表示文档内容,编码器由神经网络构成;
定义6:解码器,将固定状态向量S通过解码器得到源文档或者目标序列,解码器由神经网络构成;
定义7:隐藏状态和隐藏状态序列,表示神经网络中间层某一时刻的状态,用一个向量表示,隐藏状态所构成的序列称为隐藏状态序列;
定义8:主题隐分布向量z,表示文档的主题语义,将文档的内容编码到主题隐分布向量z,在抽象主题层面表示文档的内容;
步骤二、学习文档向量。用变分自编码器学习文档的主题隐分布向量。
步骤二的具体实现过程如下:
步骤2.1利用PV算法学习文档向量;
其中,PV是paragraph vector的简称,PV算法是一个无监督的框架,该框架可以学习文字片段的分布式向量;
其中,文字片段以句子、段落以及文档为主,且长度可变;
PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛;句向量和词向量均通过随机梯度下降和反向传播训练得来;
步骤2.2利用变分自编码器学习主题隐分布向量z。
步骤三、利用word2vec算法学习词向量。按照文本序列中的单词顺序依次排列其对应词向量,得到词向量序列,记为X。
步骤四、利用多层编码器,计算前向隐藏状态序列、后向隐藏状态序列和隐藏状态序列。其中,编码器采用多层双向LSTM模型(Long Short-Term Memory,长短期记忆网络模型),双向LSTM模型包括前向LSTM和反向LSTM,多层编码器中前一层的输入作为后一层的输出,最后输出隐藏状态序列h。
步骤四的具体实现过程如下:
步骤4.1将m赋值为1,m表示多层编码器中的网络第m层;
步骤4.2将步骤三输出的词向量序列顺序输入前向LSTM中,获得前向隐藏状态序列。
步骤4.3将步骤三输出的词向量序列倒序输入反向LSTM中,获得反向隐藏状态序列。
步骤4.4判断m是否等于M,若不相等,则m加1,跳转执行步骤4.2;若相等,则跳入执行步骤4.5;
其中,M是多层编码器的层数;
步骤4.5计算隐藏状态序列,记为h,具体通过前向隐藏状态序列和反向隐藏状态序列连接得到,通过下述公式计算:
其中,表示第m层前向LSTM t时刻隐藏状态,表示第m层反向LSTM t时刻隐藏状态,表示向量的拼接;
步骤五、利用步骤二输出的主题隐分布向量和步骤四输出的隐藏状态序列,综合考虑主题信息和上下文信息,引入注意力机制,进行解码器操作,输出标题。
步骤五的具体实现过程如下:
步骤5.1计算解码器隐藏状态,记为s,通过下述公式计算:
si=g(si-1,yi-1,ci)
1≤i≤k
s=[s1,s2,…,sk]
其中,si表示解码器第i时刻隐藏状态,si-1表示解码器第i-1时刻隐藏状态,yi-1表示i-1时刻预测单词,ci表示i时刻上下文信息向量,s0为零向量,y0为空,k表示标题长度,g表示前馈神经网路函数;
步骤5.2利用注意力机制计算上下文信息向量,记为c,具体通过步骤5.1输出的解码器隐藏状态和步骤四隐藏状态序列求得,通过下述公式计算;
eij=f(si-1,hj)
1≤i≤k
c=[c1,c,…,ck]
其中,hj表示隐藏状态序列的第j个元素,exp表示以e为底的指数函数,eij表示si-1和hj的相似度,αij表示i时刻j元素的权重,ci表示i时刻上下文信息向量;
步骤5.3通过步骤5.1输出的解码器隐藏状态和步骤5.2输出的上下文信息向量预测标题y,预测条件概率的目标函数如下述公式:
p(yi|{y1,…,yi-1},θ)=g(si,ci)
1≤i≤k
y=[y1,y,…,yk]
其中,θ表示模型参数,g表示前馈神经网路函数,yi表示标题中第i个时刻的单词;
目标函数p(yi|{y1,…,yi-1},θ)=g(si,ci)通过Sampled Softmax算法和BeamSearch算法进行求解,Sampled Softmax处理词表大小加快收敛速度,利用Beam Search算法从得到的一系列词向量中选择得分最高的标题。
至此,从步骤一到步骤五,完成了具有全面信息表达的标题生成模型,完成了一种基于变分神经网络主题模型的标题生成方法。
有益效果
本发明所述的一种基于变分神经网络主题模型的标题生成方法,对比现有技术,具有如下有益效果:
1.利用多层编码器学习到了文档更全面的信息,提高了标题生成模型的概括全文主要思想的效果;
2.利用VAE学习的主题隐分布向量,在主题这一抽象层次上更深层的表示了文档内容;
3.利用注意力机制将主题隐分布向量和多层编码器学习的文档信息,将深层的语义表示和上下文信息有机的结合在一起构建了高质量的标题生成模型。
附图说明
图1为本发明一种基于变分神经网络主题模型的标题生成方法的流程图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下根据附图及实施例对本发明所述方法进一步详细说明。
一种基于变分神经网络主题模型的标题生成方法,包括以下步骤:
步骤一、进行相关定义,具体如下:
定义1:文档向量,利用向量表示文档的语义内容;
定义2:文本序列,文档由单词构成,文本序列是有序的单词构成的文档;
定义3:词向量和词向量序列,词向量是利用向量表示单词语义的一种方式,文本序列中有序的单词利用词向量表示的结果是词向量序列,记为X,X=[x1,x2,…,xn],n为正整数;
定义4:标题,简短的文字概括文档的主要内容;
定义5:编码器,对文档内容进行压缩,用一个固定的状态向量S表示文档内容,编码器由神经网络构成;
定义6:解码器,将固定状态向量S通过解码器得到源文档或者目标序列,解码器由神经网络构成;
定义7:隐藏状态和隐藏状态序列,表示神经网络中间层某一时刻的状态,用一个向量表示,隐藏状态所构成的序列称为隐藏状态序列;
定义8:主题隐分布向量z,表示文档的主题语义,将文档的内容编码到主题隐分布向量z,在抽象主题层面表示文档的内容;
步骤二、学习文档向量。用变分自编码器学习文档的主题隐分布向量。
步骤二的具体实现过程如下:
步骤2.1利用PV算法学习文档向量;
其中,PV是paragraph vector的简称,PV算法是一个无监督的框架,该框架可以学习文字片段的分布式向量;
其中,文字片段以句子、段落以及文档为主,且长度可变;
PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛;句向量和词向量均通过随机梯度下降和反向传播训练得来;
步骤2.2利用变分自编码器学习主题隐分布向量z,具体实现过程如下:
步骤2.2.1利用变分自编码器,即VAE,将文档向量Xs输入到VAE的编码器中,该编码器利用循环神将网络构成,即RNN,得到初始化的主题隐分布向量z0
步骤2.2.2将初始化的主题隐分布向量z0输入到VAE的解码器中,该解码器也是利用RNN构成,得到文档向量Xe
步骤2.2.3利用重调参数的方法使得|Xs-Xe|最小化,从而学习到主题隐分布向量z;
其中,重调参数是由于原有的采样操作是不可导的,致使模型无法通过反向传播的梯度下降算法进行训练,因此需要运用重调参数的技巧,具体是通过标准正太分布N(0;1)上采样得到∈,然后令z=σ⊙∈+μ,因此z就近似的服从均值为μ、方差为σ的高斯分布,并且从编码器生成隐变量z只涉及线性变换,可以使用反向传播的梯度下降算法对参数进行训练。
步骤三、利用word2vec算法学习词向量。按照文本序列中的单词顺序依次排列其对应词向量,得到词向量序列,记为X。
步骤四、利用多层编码器,计算前向隐藏状态序列、后向隐藏状态序列和隐藏状态序列。其中,编码器采用多层双向LSTM模型,双向LSTM模型包括前向LSTM和反向LSTM,多层编码器中前一层的输入作为后一层的输出,最后输出隐藏状态序列h。
步骤四包括如下子步骤:
步骤4.1将m赋值为1,m表示多层编码器中的网络第m层;
步骤4.2将步骤三输出的词向量序列顺序输入前向LSTM中,获得前向隐藏状态序列,具体实现过程如下:
步骤4.2.1计算前向LSTM当前时刻的遗忘门,用于控制遗忘信息,通过公式(1)计算;
其中,表示t时刻前向LSTM的遗忘门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,n表示词向量序列X的长度,是零向量,σ表示Sigmoid函数;
步骤4.2.2计算前向LSTM当前时刻输入门,来控制当前时刻需要添加的新信息,通过公式(2)计算;
其中,表示t时刻前向LSTM的输入门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,σ表示Sigmoid函数;
步骤4.2.3计算前向LSTM当前时刻更新的信息,通过公式(3)计算;
其中,表示前向LSTM t时刻更新的信息,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,tanh表示双曲正切函数;
步骤4.2.4计算前向LSTM当前时刻的信息,将上一时刻的信息和当前时刻更新的信息相加得到,通过公式(4)计算;
其中,表示前向LSTM t时刻的信息,表示t时刻前向LSTM的遗忘门,表示前向LSTM在t-1时刻的信息,表示t时刻前向LSTM的输入门,表示前向LSTM在t时刻更新的信息,表示向量的叉乘;
步骤4.2.5计算前向LSTM当前时刻输出门,用于控制输入信息,通过公式(5)计算;
其中,表示t时刻前向LSTM的输出门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,σ表示Sigmoid函数;
步骤4.2.6计算前向LSTM当前时刻隐藏状态,通过公式(6)计算;
其中,表示前向LSTM t时刻隐藏状态,表示t时刻前向LSTM的输出门,表示前向LSTM t时刻的信息,表示向量的叉乘;
步骤4.2.7计算第m层前向LSTM当前时刻隐藏状态,相对于传统的模型,本发明采用了多层编码器,前一层的隐藏状态和上一时刻的隐藏状态输出作为下一层的输入,通过公式(7)计算;
其中,表示第m层前向LSTM t时刻隐藏状态,表示第m-1层前向LSTM t时刻隐藏状态,表示第m层前向LSTM t-1时刻隐藏状态,为零向量f表示前馈神经网络函数;
由此得到前向隐藏状态序列
步骤4.3将步骤三输出的词向量序列倒序输入反向LSTM中,获得反向隐藏状态序列。
步骤4.3的具体实现过程如下:
步骤4.3.1计算反向LSTM当前时刻的遗忘门,来控制遗忘信息,通过公式(8)计算;
其中,表示反向LSTM在t时刻的遗忘门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,为零向量,σ表示Sigmoid函数;
步骤4.3.2计算反向LSTM当前时刻输入门,控制当前时刻需要添加的新信息,通过公式(9)计算;
其中,表示反向LSTM在t时刻输入门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,σ表示Sigmoid函数;
步骤4.3.3计算反向LSTM当前时刻更新的信息,通过公式(10)计算;
其中,表示反向LSTM在t时刻更新的信息,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,σ表示Sigmoid函数;
步骤4.3.4计算反向LSTM当前时刻的信息,将上一时刻的信息和当前时刻更新的信息相加得到,通过公式(11)计算;
其中,表示反向LSTM在t时刻的信息,表示反向LSTM t时刻的遗忘门,表示反向LSTM在t-1时刻的信息,表示反向LSTM在t时刻输入门,表示反向LSTM t时刻更新的信息,表示向量的叉乘;
步骤4.3.5计算反向LSTM当前时刻输出门,用于控制输入信息,通过公式(12)计算;
其中,表示反向LSTM在t时刻输出门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,σ表示Sigmoid函数;
步骤4.3.6计算反向LSTM当前时刻隐藏状态,通过公式(13)计算;
其中,表示反向LSTM在t时刻隐藏状态,表示反向LSTM在t时刻输出门,表示反向LSTM在t时刻的信息,表示向量的叉乘;
步骤4.3.7计算第m层反向LSTM当前时刻隐藏状态,前一层的隐藏状态和上一时刻的隐藏状态输出作为下一层的输入,通过公式(14)计算;
其中,表示第m层反向LSTM在t时刻隐藏状态,表示第m-1层反向LSTM在t时刻隐藏状态,表示第m层反向LSTM在t-1时刻隐藏状态,f表示前馈神经网络函数;
由此得到反向隐藏状态序列
步骤4.4判断m是否等于M,若不相等,则m加1,跳转执行步骤4.2;若相等,则跳入执行步骤4.5;
其中,M是多层编码器的层数;
步骤4.5计算隐藏状态序列,记为h,具体通过前向隐藏状态序列和反向隐藏状态序列连接得到,通过公式(15)计算;
其中表示第m层前向LSTM t时刻隐藏状态,表示第m层反向LSTM t时刻隐藏状态,表示向量的拼接;
步骤五、利用步骤二输出的主题隐分布向量和步骤四输出的隐藏状态序列,综合考虑主题信息和上下文信息,引入注意力机制,进行解码器操作,输出标题。
步骤五的具体实现过程如下:
步骤5.1计算解码器隐藏状态,记为s,通过公式(16)计算;
其中,si表示解码器第i时刻隐藏状态,si-1表示解码器第i-1时刻隐藏状态,yi-1表示i-1时刻预测单词,ci表示i时刻上下文信息向量,s0为零向量,y0为空,k表示标题长度,g表示前馈神经网路函数;
步骤5.2利用注意力机制计算上下文信息向量,记为c,具体通过步骤5.1输出的解码器隐藏状态和步骤四隐藏状态序列求得,通过公式(17)计算;
其中,hj表示隐藏状态序列的第j个元素,exp表示以e为底的指数函数,eij表示si-1和hj的相似度,αij表示i时刻j元素的权重,ci表示i时刻上下文信息向量;
步骤5.3通过步骤5.1输出的解码器隐藏状态和步骤5.2输出的上下文信息向量预测标题y,预测条件概率的目标函数如公式(18);
其中,θ表示模型参数,g表示前馈神经网路函数,yi表示标题中第i个时刻的单词;
目标函数(18)通过Sampled Softmax算法和Beam Search算法进行求解,SampledSoftmax处理词表大小加快收敛速度,利用Beam Search算法从得到的一系列词向量中选择得分最高的标题。
至此,从步骤一到步骤五,完成了具有全面信息表达的标题生成模型,完成了一种基于变分神经网络主题模型的标题生成方法。
实施例1
本实施例叙述了本发明的具体实施过程,如图1所示。
从图1可以看出,本发明一种基于变分神经网络主题模型的标题生成方法的流程如下:
步骤A预处理;具体到本实施例是对语料进行分词,去停用词的处理;
其中,分词操作利用PTB分词器进行分词处理,利用nltk工具进行去停用词的操作。
步骤B利用PV算法学习文档向量、利用word2vec算法学习词向量;
其中,利用PV算法学习文档向量、利用word2vec算法学习词向量是并列计算的,具体到本实施例:
利用PV算法学习文档向量;将文档输入到PV算法中,得到文档的文档向量,维度大小为256,某一个文摘候选句的句向量为[0.00150049 0.08735332 -0.105659630.04739858 0.18809512 0.280207…-0.19442209 0.17960664 0.30010329 0.064586690.12353758];
利用word2vec算法学习词向量;将文档中单词输入到word2vec算法中,得到词向量,其目标函数如公式(19):
其中,k为窗口单词,i为当前单词,T为语料库中单词大小,利用梯度下降方法学习得到128维的词向量;
步骤C利用VAE学习主题隐分布向量、利用多层编码器学习文档内容表示;
其中,利用VAE学习主题隐分布向量、利用多层编码器学习文档内容表示是并列计算的,具体到本实施例:
利用VAE学习主题隐分布向量;将文档向量Xs输入到VAE编码器中,得到随机初始化的主题隐分布向量,然后将随机初始化的主题隐分布向量输入到VAE解码器中得到新的文档向量Xe,利用本发明改进型采样算法训练使得新的文档向量Xe和文档向量Xs差值最小,由此得到256维的主题隐分布向量[0.000100,0.000311,0.123523,0.432621,0.019837,0.198732,0.000013,0.001200,0.220011,…,0.287412],该主题隐分布向量所有维度之和为1;
利用多层编码器学习文档内容表示;将词向量序列输入当多层编码器中,首先计算第一层i时刻前向编码器的隐藏状态 维度大小为256维;计算第一层i时刻后向编码器的隐藏状态 维度大小为256维;第二层编码器输入为的拼接;最终得到第m层隐藏状态hm=[0.05239938 0.06047972 0.03731104 -0.09481885 0.11225756 -0.05305173…0.34634369 0.13317417 0.55390272 0.02707447 -0.50188936];该隐藏状态包含了文档内容;
步骤D利用注意力机制和解码器生成标题;计算解码器i时刻隐藏状态,si=[0.34505907 -0.13992722 0.12594564 -0.18122815 0.07834078 0.40299857…0.46299719 -0.01971885 -0.35660235 0.04277985 -0.17501377],维度大小为256维,计算上下文信息向量ci=[0.09790395 -0.19126298 0.15230471 -0.03844783 0.016893110.05627012…-0.12065882 -0.15037556 -0.10103585 -0.09563597 0.00685059],维度大小为256维;根据目标函数预测单词,由此标题生成完成。
以上对本发明“一种基于变分神经网络主题模型的标题生成方法”进行了详细的说明,但本发明的具体实施形式并不局限于此。实施例说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (6)

1.一种基于变分神经网络主题模型的标题生成方法,其特征在于包括以下步骤:
步骤一、进行相关定义,具体如下:
定义1:文档向量,利用向量表示文档的语义内容;
定义2:文本序列,文档由单词构成,文本序列是有序的单词构成的文档;
定义3:词向量和词向量序列,词向量是利用向量表示单词语义的一种方式,文本序列中有序的单词利用词向量表示的结果是词向量序列,记为X,X=[x1,x2,…,xn],n为正整数;
定义4:标题,简短的文字概括文档的主要内容;
定义5:编码器,对文档内容进行压缩,用一个固定的状态向量S表示文档内容,编码器由神经网络构成;
定义6:解码器,将固定状态向量S通过解码器得到源文档或者目标序列,解码器由神经网络构成;
定义7:隐藏状态和隐藏状态序列,表示神经网络中间层某一时刻的状态,用一个向量表示,隐藏状态所构成的序列称为隐藏状态序列;
定义8:主题隐分布向量z,表示文档的主题语义,将文档的内容编码到主题隐分布向量z,在抽象主题层面表示文档的内容;
步骤二、用变分自编码器学习文档的主题隐分布向量,具体实现过程如下:
步骤2.1利用PV算法学习文档向量;PV算法在训练过程中,通过不断调整句向量和词向量来预测单词,直到PV算法收敛,句向量和词向量均通过随机梯度下降和反向传播训练得来;
步骤2.2利用变分自编码器学习主题隐分布向量z;
步骤三、利用word2vec算法学习词向量,按照文本序列中的单词顺序依次排列其对应词向量,得到词向量序列,记为X;
步骤四、利用多层编码器,计算前向隐藏状态序列、后向隐藏状态序列和隐藏状态序列;
其中,编码器采用多层双向LSTM模型,双向LSTM模型包括前向LSTM和反向LSTM,多层编码器中前一层的输入作为后一层的输出,最后输出隐藏状态序列h;
步骤五、利用步骤二输出的主题隐分布向量和步骤四输出的隐藏状态序列,综合考虑主题信息和上下文信息,引入注意力机制,进行解码器操作,输出标题。
2.如权利要求1所述的一种基于变分神经网络主题模型的标题生成方法,其特征在于,所述步骤二中,利用变分自编码器学习主题隐分布向量z的具体实现方法如下:
步骤2.2.1利用变分自编码器,即VAE,将文档向量Xs输入到VAE的编码器中,该编码器利用循环神将网络构成,即RNN,得到初始化的主题隐分布向量z0
步骤2.2.2将初始化的主题隐分布向量z0输入到VAE的解码器中,该解码器也是利用RNN构成,得到文档向量Xe
步骤2.2.3利用重调参数的方法使得|Xs-Xe|最小化,从而学习到主题隐分布向量z。
3.如权利要求1所述的一种基于变分神经网络主题模型的标题生成方法,其特征在于,所述步骤四的具体实现过程如下:
步骤4.1将m赋值为1,m表示多层编码器中的网络第m层;
步骤4.2将步骤三输出的词向量序列顺序输入前向LSTM中,获得前向隐藏状态序列;
步骤4.3将步骤三输出的词向量序列倒序输入反向LSTM中,获得反向隐藏状态序列;
步骤4.4判断m是否等于M,若不相等,则m加1,跳转执行步骤4.2;若相等,则跳入执行步骤4.5;
其中,M是多层编码器的层数;
步骤4.5计算隐藏状态序列,记为h,具体通过前向隐藏状态序列和反向隐藏状态序列连接得到,通过下述公式计算:
其中,表示第m层前向LSTM t时刻隐藏状态,表示第m层反向LSTM t时刻隐藏状态,表示向量的拼接。
4.如权利要求3所述的一种基于变分神经网络主题模型的标题生成方法,其特征在于,所述步骤4.2的具体实现过程如下:
步骤4.2.1计算前向LSTM当前时刻的遗忘门,用于控制遗忘信息,通过公式(1)计算;
其中,表示t时刻前向LSTM的遗忘门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,n表示词向量序列X的长度,是零向量,σ表示Sigmoid函数;
步骤4.2.2计算前向LSTM当前时刻输入门,来控制当前时刻需要添加的新信息,通过公式(2)计算;
其中,表示t时刻前向LSTM的输入门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,σ表示Sigmoid函数;
步骤4.2.3计算前向LSTM当前时刻更新的信息,通过公式(3)计算;
其中,表示前向LSTM t时刻更新的信息,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,tanh表示双曲正切函数;
步骤4.2.4计算前向LSTM当前时刻的信息,将上一时刻的信息和当前时刻更新的信息相加得到,通过公式(4)计算;
其中,表示前向LSTM t时刻的信息,表示t时刻前向LSTM的遗忘门,表示前向LSTM在t-1时刻的信息,表示t时刻前向LSTM的输入门,表示前向LSTM在t时刻更新的信息,表示向量的叉乘;
步骤4.2.5计算前向LSTM当前时刻输出门,用于控制输入信息,通过公式(5)计算;
其中,表示t时刻前向LSTM的输出门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示t-1时刻的前向LSTM的隐藏状态,σ表示Sigmoid函数;
步骤4.2.6计算前向LSTM当前时刻隐藏状态,通过公式(6)计算;
其中,表示前向LSTM t时刻隐藏状态,表示t时刻前向LSTM的输出门,表示前向LSTM t时刻的信息,表示向量的叉乘;
步骤4.2.7计算第m层前向LSTM当前时刻隐藏状态,相对于传统的模型,本发明采用了多层编码器,前一层的隐藏状态和上一时刻的隐藏状态输出作为下一层的输入,通过公式(7)计算;
其中,表示第m层前向LSTM t时刻隐藏状态,表示第m-1层前向LSTM t时刻隐藏状态,表示第m层前向LSTM t-1时刻隐藏状态,为零向量f表示前馈神经网络函数;
由此得到前向隐藏状态序列
5.如权利要求3所述的一种基于变分神经网络主题模型的标题生成方法,其特征在于,所述步骤4.3的具体实现过程如下:
步骤4.3.1计算反向LSTM当前时刻的遗忘门,来控制遗忘信息,通过公式(8)计算;
其中,表示反向LSTM在t时刻的遗忘门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,为零向量,σ表示Sigmoid函数;
步骤4.3.2计算反向LSTM当前时刻输入门,控制当前时刻需要添加的新信息,通过公式(9)计算;
其中,表示反向LSTM在t时刻输入门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,σ表示Sigmoid函数;
步骤4.3.3计算反向LSTM当前时刻更新的信息,通过公式(10)计算;
其中,表示反向LSTM在t时刻更新的信息,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,σ表示Sigmoid函数;
步骤4.3.4计算反向LSTM当前时刻的信息,将上一时刻的信息和当前时刻更新的信息相加得到,通过公式(11)计算;
其中,表示反向LSTM在t时刻的信息,表示反向LSTM t时刻的遗忘门,表示反向LSTM在t-1时刻的信息,表示反向LSTM在t时刻输入门,表示反向LSTM t时刻更新的信息,表示向量的叉乘;
步骤4.3.5计算反向LSTM当前时刻输出门,用于控制输入信息,通过公式(12)计算;
其中,表示反向LSTM在t时刻输出门,表示参数,xt表示第t时刻输入的词向量,表示参数,表示反向LSTM在t-1时刻隐藏状态,σ表示Sigmoid函数;
步骤4.3.6计算反向LSTM当前时刻隐藏状态,通过公式(13)计算;
其中,表示反向LSTM在t时刻隐藏状态,表示反向LSTM在t时刻输出门,表示反向LSTM在t时刻的信息,表示向量的叉乘;
步骤4.3.7计算第m层反向LSTM当前时刻隐藏状态,前一层的隐藏状态和上一时刻的隐藏状态输出作为下一层的输入,通过公式(14)计算;
其中,表示第m层反向LSTM在t时刻隐藏状态,表示第m-1层反向LSTM在t时刻隐藏状态,表示第m层反向LSTM在t-1时刻隐藏状态,f表示前馈神经网络函数;
由此得到反向隐藏状态序列
6.如权利要求1所述的一种基于变分神经网络主题模型的标题生成方法,其特征在于,所述步骤五的具体实现过程如下:
步骤5.1计算解码器隐藏状态,记为s,通过公式(16)计算;
其中,si表示解码器第i时刻隐藏状态,si-1表示解码器第i-1时刻隐藏状态,yi-1表示i-1时刻预测单词,ci表示i时刻上下文信息向量,s0为零向量,y0为空,k表示标题长度,g表示前馈神经网路函数;
步骤5.2利用注意力机制计算上下文信息向量,记为c,具体通过步骤5.1输出的解码器隐藏状态和步骤四隐藏状态序列求得,通过公式(17)计算;
其中,hj表示隐藏状态序列的第j个元素,exp表示以e为底的指数函数,eij表示si-1和hj的相似度,αij表示i时刻j元素的权重,ci表示i时刻上下文信息向量;
步骤5.3通过步骤5.1输出的解码器隐藏状态和步骤5.2输出的上下文信息向量预测标题y,预测条件概率的目标函数如公式(18);
其中,θ表示模型参数,g表示前馈神经网路函数,yi表示标题中第i个时刻的单词;
目标函数(18)通过Sampled Softmax算法和Beam Search算法进行求解,SampledSoftmax处理词表大小加快收敛速度,利用Beam Search算法从得到的一系列词向量中选择得分最高的标题。
CN201810730317.9A 2018-07-05 2018-07-05 一种基于变分神经网络主题模型的标题生成方法 Pending CN108984524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810730317.9A CN108984524A (zh) 2018-07-05 2018-07-05 一种基于变分神经网络主题模型的标题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810730317.9A CN108984524A (zh) 2018-07-05 2018-07-05 一种基于变分神经网络主题模型的标题生成方法

Publications (1)

Publication Number Publication Date
CN108984524A true CN108984524A (zh) 2018-12-11

Family

ID=64537184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810730317.9A Pending CN108984524A (zh) 2018-07-05 2018-07-05 一种基于变分神经网络主题模型的标题生成方法

Country Status (1)

Country Link
CN (1) CN108984524A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN109918477A (zh) * 2019-02-18 2019-06-21 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN110147892A (zh) * 2019-02-20 2019-08-20 电子科技大学 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法
CN110210549A (zh) * 2019-05-28 2019-09-06 北方民族大学 一种跨域变分对抗自编码方法
CN110377785A (zh) * 2019-06-21 2019-10-25 江苏师范大学 一种基于深度学习的徐州梆子作曲方法
CN110414012A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 一种基于人工智能的编码器构建方法及相关设备
CN110444261A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 序列标注网络训练方法、电子病历处理方法及相关装置
CN110442705A (zh) * 2019-04-23 2019-11-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110442693A (zh) * 2019-07-27 2019-11-12 中国科学院自动化研究所 基于人工智能的回复消息生成方法、装置、服务器及介质
CN110457674A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种主题指导的文本预测方法
CN110457714A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种基于时序主题模型的自然语言生成方法
CN110457483A (zh) * 2019-06-21 2019-11-15 浙江大学 一种基于神经主题模型的长文本生成方法
CN110502748A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN110532560A (zh) * 2019-08-30 2019-12-03 海南车智易通信息技术有限公司 一种生成文本标题的方法及计算设备
CN110717313A (zh) * 2019-10-12 2020-01-21 苏州意能通信息技术有限公司 一种基于标准化流的全并行化文本生成方法
CN111078865A (zh) * 2019-12-24 2020-04-28 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111241789A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 一种文本生成的方法及装置
CN111709231A (zh) * 2020-04-30 2020-09-25 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN111797196A (zh) * 2020-06-01 2020-10-20 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
EP3855339A1 (en) * 2020-01-23 2021-07-28 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for generating text based on semantic representation
CN113255344A (zh) * 2021-05-13 2021-08-13 淮阴工学院 一种融合主题信息的关键词生成方法
CN115496061A (zh) * 2022-09-30 2022-12-20 内蒙古财经大学 一种神经网络标题生成模型

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868178A (zh) * 2016-03-28 2016-08-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868178A (zh) * 2016-03-28 2016-08-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIDI GUO 等: "Conceptual Multi-layer Neural Network Model for Headline Generation", 《CHINESE COMPUTATIONAL LINGUISTICS AND NATURAL LANGUAGE PROCESSING BASED ON NATURALLY ANNOTATED BIG DATA》 *
孙凌 等: "基于变分自动编码器的动态主题模型", 《河北工业科技》 *

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886388B (zh) * 2019-01-09 2024-03-22 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
CN109918477A (zh) * 2019-02-18 2019-06-21 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN109918477B (zh) * 2019-02-18 2021-02-12 华南理工大学 一种基于变分自编码器的分布式检索资源库选择方法
CN110147892A (zh) * 2019-02-20 2019-08-20 电子科技大学 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法
CN109918510B (zh) * 2019-03-26 2022-10-28 中国科学技术大学 跨领域关键词提取方法
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN110442705A (zh) * 2019-04-23 2019-11-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110442705B (zh) * 2019-04-23 2021-10-12 北京理工大学 一种基于概念指针网络的摘要自动生成方法
CN110210549A (zh) * 2019-05-28 2019-09-06 北方民族大学 一种跨域变分对抗自编码方法
CN110210549B (zh) * 2019-05-28 2022-03-29 北方民族大学 一种跨域变分对抗自编码方法
CN110377785A (zh) * 2019-06-21 2019-10-25 江苏师范大学 一种基于深度学习的徐州梆子作曲方法
CN110377785B (zh) * 2019-06-21 2023-10-03 江苏师范大学 一种基于深度学习的徐州梆子作曲方法
CN110457483A (zh) * 2019-06-21 2019-11-15 浙江大学 一种基于神经主题模型的长文本生成方法
CN110457674A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种主题指导的文本预测方法
CN110457714A (zh) * 2019-06-25 2019-11-15 西安电子科技大学 一种基于时序主题模型的自然语言生成方法
CN110457714B (zh) * 2019-06-25 2021-04-06 西安电子科技大学 一种基于时序主题模型的自然语言生成方法
CN110444261A (zh) * 2019-07-11 2019-11-12 新华三大数据技术有限公司 序列标注网络训练方法、电子病历处理方法及相关装置
CN110502748A (zh) * 2019-07-19 2019-11-26 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN110502748B (zh) * 2019-07-19 2024-02-02 平安科技(深圳)有限公司 文本主题抽取方法、装置及计算机可读存储介质
CN110442693A (zh) * 2019-07-27 2019-11-12 中国科学院自动化研究所 基于人工智能的回复消息生成方法、装置、服务器及介质
CN110442693B (zh) * 2019-07-27 2022-02-22 中国科学院自动化研究所 基于人工智能的回复消息生成方法、装置、服务器及介质
CN110414012A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 一种基于人工智能的编码器构建方法及相关设备
CN110414012B (zh) * 2019-07-29 2022-12-09 腾讯科技(深圳)有限公司 一种基于人工智能的编码器构建方法及相关设备
CN110532560A (zh) * 2019-08-30 2019-12-03 海南车智易通信息技术有限公司 一种生成文本标题的方法及计算设备
CN110717313A (zh) * 2019-10-12 2020-01-21 苏州意能通信息技术有限公司 一种基于标准化流的全并行化文本生成方法
CN111078865B (zh) * 2019-12-24 2023-02-21 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111078865A (zh) * 2019-12-24 2020-04-28 北京百度网讯科技有限公司 文本标题生成方法和装置
CN111241789A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 一种文本生成的方法及装置
US11461549B2 (en) 2020-01-23 2022-10-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating text based on semantic representation, and medium
EP3855339A1 (en) * 2020-01-23 2021-07-28 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for generating text based on semantic representation
CN111709231A (zh) * 2020-04-30 2020-09-25 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN111709231B (zh) * 2020-04-30 2022-11-18 昆明理工大学 一种基于自注意变分自编码的类案推荐方法
CN111797196B (zh) * 2020-06-01 2021-11-02 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111797196A (zh) * 2020-06-01 2020-10-20 武汉大学 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111898337B (zh) * 2020-07-13 2024-01-26 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN113255344A (zh) * 2021-05-13 2021-08-13 淮阴工学院 一种融合主题信息的关键词生成方法
CN113255344B (zh) * 2021-05-13 2024-05-17 淮阴工学院 一种融合主题信息的关键词生成方法
CN115496061A (zh) * 2022-09-30 2022-12-20 内蒙古财经大学 一种神经网络标题生成模型

Similar Documents

Publication Publication Date Title
CN108984524A (zh) 一种基于变分神经网络主题模型的标题生成方法
CN109597997B (zh) 基于评论实体、方面级情感分类方法和装置及其模型训练
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN106126507B (zh) 一种基于字符编码的深度神经翻译方法及系统
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
Jang et al. Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及系统
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110188175A (zh) 一种基于BiLSTM-CRF模型的问答对抽取方法、系统及存储介质
CN110297889B (zh) 一种基于特征融合的企业情感倾向分析方法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN112256876A (zh) 基于多记忆注意力网络的方面级情感分类模型
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115935975A (zh) 一种情感可控的新闻评论生成方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
Kim et al. Cross-modal distillation with audio–text fusion for fine-grained emotion classification using BERT and Wav2vec 2.0
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181211