CN108984524A

CN108984524A - 一种基于变分神经网络主题模型的标题生成方法

Info

Publication number: CN108984524A
Application number: CN201810730317.9A
Authority: CN
Inventors: 高扬; 黄河燕; 郭迪; 郭一迪
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2018-12-11

Abstract

本发明公开了一种基于变分神经网络主题模型的标题生成方法，属于自然语言处理技术领域。本方法通过变分自编码器自动学习文档主题隐分布向量，将文档主题隐分布向量和多层神经网络学习的文档表示向量利用注意力机制结合起来，从而在主题和全局层面上表示文档全面、深层的语义，构建高质量的标题生成模型。本方法利用多层编码器学习到了文档更全面的信息，提高了标题生成模型的概括全文主要思想的效果；利用VAE学习的主题隐分布向量，在主题这一抽象层次上更深层的表示了文档内容；利用注意力机制将主题隐分布向量和多层编码器学习的文档信息，将深层的语义表示和上下文信息有机的结合在一起构建了高质量的标题生成模型。

Description

一种基于变分神经网络主题模型的标题生成方法

技术领域

本发明涉及一种基于变分神经网络主题模型的标题生成方法，属于自然语言处理技术领域。

背景技术

如今，人们每天通过各种渠道获取大量的信息，而这些信息中只有很少部分对于人们来说是有用信息。如果有机器学习模型以压缩形式消化大量信息，理解文档并提取其中的有用信息，从而对长文本自动生成精确标题，那将给人们节约大量的阅读时间。标题生成，顾名思义，旨在大量的信息数据中生成标题，其中尤以从长文本中生成标题为主要难点，特别是当文本的长度大大增加时。标题生成是自然语言处理领域中一项重要的任务，有助于机器真正理解文本内容。最近几年，受益于深度神经网络的发展，标题生成任务受到了广泛的关注。

随着近几年来深度神经网络的快速发展，很多问题也都开始通过神经网络模型来解决，而其中的大多数难题都取得了不错的效果，例如，机器翻译、语音识别等。传统的标题生成大多采用规则或者统计的方法来进行实现，这种方法虽然简单易实现，但是并没有深层次的理解源文档的含义，当遇到较复杂的语义时生成的结果可能千差万别。标题生成本质上是序列生成的问题，基于序列模型对于解决序列生成问题有较好的提升。因此，当前主流的标题生成都是运用深度神经网络技术实现。

经典的基于神经网络的标题生成模型包含一个前馈神经网络语言模型和一个基于注意力机制的编码器，但是神经网络语言模型没有准确的表示文档内容。近两年来，伴随着变分自编码器的兴起，研究热点也渐渐开始转移到变分自编码器和生成模型的结合上。利用离散变分编码器进行推理的深度生成模型，并将该模型用于句子压缩任务。但是由于表示能力有限，该模型没有考虑到序列之间的长期依赖关系。

发明内容

本发明的目的是为了解决现有方法缺少更多的文本信息表示的缺陷，提出一种基于变分神经网络主题模型的标题生成方法。

本发明的核心思想为：通过变分自编码器自动学习文档主题隐分布向量，将文档主题隐分布向量和多层神经网络学习的文档表示向量利用注意力机制结合起来，从而在主题和全局层面上表示文档全面、深层的语义，构建高质量的标题生成模型。

为实现上述目的，本发明所述一种基于变分神经网络主题模型的标题生成方法，包括以下步骤：

步骤一、进行相关定义，具体如下：

定义1：文档向量，利用向量表示文档的语义内容；

定义2：文本序列，文档由单词构成，文本序列是有序的单词构成的文档；

定义3：词向量和词向量序列，词向量是利用向量表示单词语义的一种方式，文本序列中有序的单词利用词向量表示的结果是词向量序列，记为X，X＝[x₁,x₂,…,x_n]，n为正整数；

定义4：标题，简短的文字概括文档的主要内容；

定义5：编码器，对文档内容进行压缩，用一个固定的状态向量S表示文档内容，编码器由神经网络构成；

定义6：解码器，将固定状态向量S通过解码器得到源文档或者目标序列，解码器由神经网络构成；

定义7：隐藏状态和隐藏状态序列，表示神经网络中间层某一时刻的状态，用一个向量表示，隐藏状态所构成的序列称为隐藏状态序列；

定义8：主题隐分布向量z，表示文档的主题语义，将文档的内容编码到主题隐分布向量z，在抽象主题层面表示文档的内容；

步骤二、学习文档向量。用变分自编码器学习文档的主题隐分布向量。

步骤二的具体实现过程如下：

步骤2.1利用PV算法学习文档向量；

其中，PV是paragraph vector的简称，PV算法是一个无监督的框架，该框架可以学习文字片段的分布式向量；

其中，文字片段以句子、段落以及文档为主，且长度可变；

PV算法在训练过程中，通过不断调整句向量和词向量来预测单词，直到PV算法收敛；句向量和词向量均通过随机梯度下降和反向传播训练得来；

步骤2.2利用变分自编码器学习主题隐分布向量z。

步骤三、利用word2vec算法学习词向量。按照文本序列中的单词顺序依次排列其对应词向量，得到词向量序列，记为X。

步骤四、利用多层编码器，计算前向隐藏状态序列、后向隐藏状态序列和隐藏状态序列。其中，编码器采用多层双向LSTM模型(Long Short-Term Memory，长短期记忆网络模型)，双向LSTM模型包括前向LSTM和反向LSTM，多层编码器中前一层的输入作为后一层的输出，最后输出隐藏状态序列h。

步骤四的具体实现过程如下：

步骤4.1将m赋值为1，m表示多层编码器中的网络第m层；

步骤4.2将步骤三输出的词向量序列顺序输入前向LSTM中，获得前向隐藏状态序列。

步骤4.3将步骤三输出的词向量序列倒序输入反向LSTM中，获得反向隐藏状态序列。

步骤4.4判断m是否等于M，若不相等，则m加1，跳转执行步骤4.2；若相等，则跳入执行步骤4.5；

其中，M是多层编码器的层数；

步骤4.5计算隐藏状态序列，记为h,具体通过前向隐藏状态序列和反向隐藏状态序列连接得到，通过下述公式计算：

其中，表示第m层前向LSTM t时刻隐藏状态，表示第m层反向LSTM t时刻隐藏状态，表示向量的拼接；

步骤五、利用步骤二输出的主题隐分布向量和步骤四输出的隐藏状态序列，综合考虑主题信息和上下文信息，引入注意力机制，进行解码器操作，输出标题。

步骤五的具体实现过程如下：

步骤5.1计算解码器隐藏状态，记为s，通过下述公式计算：

s_i＝g(s_i-1,y_i-1,c_i)

1≤i≤k

s＝[s₁,s₂,…,s_k]

其中，s_i表示解码器第i时刻隐藏状态，s_i-1表示解码器第i-1时刻隐藏状态，y_i-1表示i-1时刻预测单词，c_i表示i时刻上下文信息向量，s₀为零向量，y₀为空，k表示标题长度，g表示前馈神经网路函数；

步骤5.2利用注意力机制计算上下文信息向量,记为c，具体通过步骤5.1输出的解码器隐藏状态和步骤四隐藏状态序列求得，通过下述公式计算；

e_ij＝f(s_i-1,h_j)

1≤i≤k

c＝[c₁,c,…,c_k]

其中，h_j表示隐藏状态序列的第j个元素，exp表示以e为底的指数函数，e_ij表示s_i-1和h_j的相似度，α_ij表示i时刻j元素的权重，c_i表示i时刻上下文信息向量；

步骤5.3通过步骤5.1输出的解码器隐藏状态和步骤5.2输出的上下文信息向量预测标题y，预测条件概率的目标函数如下述公式：

p(y_i|{y₁,…,y_i-1},θ)＝g(s_i,c_i)

1≤i≤k

y＝[y₁,y,…,y_k]

其中，θ表示模型参数，g表示前馈神经网路函数,y_i表示标题中第i个时刻的单词；

目标函数p(y_i|{y₁,…,y_i-1},θ)＝g(s_i,c_i)通过Sampled Softmax算法和BeamSearch算法进行求解，Sampled Softmax处理词表大小加快收敛速度，利用Beam Search算法从得到的一系列词向量中选择得分最高的标题。

至此，从步骤一到步骤五，完成了具有全面信息表达的标题生成模型，完成了一种基于变分神经网络主题模型的标题生成方法。

有益效果

本发明所述的一种基于变分神经网络主题模型的标题生成方法，对比现有技术，具有如下有益效果：

1.利用多层编码器学习到了文档更全面的信息，提高了标题生成模型的概括全文主要思想的效果；

2.利用VAE学习的主题隐分布向量，在主题这一抽象层次上更深层的表示了文档内容；

3.利用注意力机制将主题隐分布向量和多层编码器学习的文档信息，将深层的语义表示和上下文信息有机的结合在一起构建了高质量的标题生成模型。

附图说明

图1为本发明一种基于变分神经网络主题模型的标题生成方法的流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下根据附图及实施例对本发明所述方法进一步详细说明。

一种基于变分神经网络主题模型的标题生成方法，包括以下步骤：

步骤一、进行相关定义，具体如下：

定义1：文档向量，利用向量表示文档的语义内容；

定义4：标题，简短的文字概括文档的主要内容；

步骤二的具体实现过程如下：

步骤2.1利用PV算法学习文档向量；

其中，文字片段以句子、段落以及文档为主，且长度可变；

步骤2.2利用变分自编码器学习主题隐分布向量z，具体实现过程如下：

步骤2.2.1利用变分自编码器，即VAE，将文档向量X_s输入到VAE的编码器中，该编码器利用循环神将网络构成，即RNN，得到初始化的主题隐分布向量z₀；

步骤2.2.2将初始化的主题隐分布向量z₀输入到VAE的解码器中，该解码器也是利用RNN构成，得到文档向量X_e；

步骤2.2.3利用重调参数的方法使得|X_s-X_e|最小化，从而学习到主题隐分布向量z；

其中，重调参数是由于原有的采样操作是不可导的，致使模型无法通过反向传播的梯度下降算法进行训练，因此需要运用重调参数的技巧，具体是通过标准正太分布N(0；1)上采样得到∈，然后令z＝σ⊙∈+μ，因此z就近似的服从均值为μ、方差为σ的高斯分布，并且从编码器生成隐变量z只涉及线性变换，可以使用反向传播的梯度下降算法对参数进行训练。

步骤四、利用多层编码器，计算前向隐藏状态序列、后向隐藏状态序列和隐藏状态序列。其中，编码器采用多层双向LSTM模型，双向LSTM模型包括前向LSTM和反向LSTM，多层编码器中前一层的输入作为后一层的输出，最后输出隐藏状态序列h。

步骤四包括如下子步骤：

步骤4.1将m赋值为1，m表示多层编码器中的网络第m层；

步骤4.2将步骤三输出的词向量序列顺序输入前向LSTM中，获得前向隐藏状态序列，具体实现过程如下：

步骤4.2.1计算前向LSTM当前时刻的遗忘门，用于控制遗忘信息，通过公式(1)计算；

其中，表示t时刻前向LSTM的遗忘门，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示t-1时刻的前向LSTM的隐藏状态，n表示词向量序列X的长度，是零向量，σ表示Sigmoid函数；

步骤4.2.2计算前向LSTM当前时刻输入门，来控制当前时刻需要添加的新信息，通过公式(2)计算；

其中，表示t时刻前向LSTM的输入门，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示t-1时刻的前向LSTM的隐藏状态，σ表示Sigmoid函数；

步骤4.2.3计算前向LSTM当前时刻更新的信息，通过公式(3)计算；

其中，表示前向LSTM t时刻更新的信息，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示t-1时刻的前向LSTM的隐藏状态，tanh表示双曲正切函数；

步骤4.2.4计算前向LSTM当前时刻的信息，将上一时刻的信息和当前时刻更新的信息相加得到，通过公式(4)计算；

其中，表示前向LSTM t时刻的信息，表示t时刻前向LSTM的遗忘门，表示前向LSTM在t-1时刻的信息，表示t时刻前向LSTM的输入门，表示前向LSTM在t时刻更新的信息，表示向量的叉乘；

步骤4.2.5计算前向LSTM当前时刻输出门，用于控制输入信息，通过公式(5)计算；

其中，表示t时刻前向LSTM的输出门，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示t-1时刻的前向LSTM的隐藏状态，σ表示Sigmoid函数；

步骤4.2.6计算前向LSTM当前时刻隐藏状态，通过公式(6)计算；

其中，表示前向LSTM t时刻隐藏状态，表示t时刻前向LSTM的输出门，表示前向LSTM t时刻的信息，表示向量的叉乘；

步骤4.2.7计算第m层前向LSTM当前时刻隐藏状态，相对于传统的模型，本发明采用了多层编码器，前一层的隐藏状态和上一时刻的隐藏状态输出作为下一层的输入,通过公式(7)计算；

其中，表示第m层前向LSTM t时刻隐藏状态，表示第m-1层前向LSTM t时刻隐藏状态，表示第m层前向LSTM t-1时刻隐藏状态，为零向量f表示前馈神经网络函数；

由此得到前向隐藏状态序列

步骤4.3的具体实现过程如下：

步骤4.3.1计算反向LSTM当前时刻的遗忘门，来控制遗忘信息，通过公式(8)计算；

其中，表示反向LSTM在t时刻的遗忘门，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示反向LSTM在t-1时刻隐藏状态，为零向量，σ表示Sigmoid函数；

步骤4.3.2计算反向LSTM当前时刻输入门，控制当前时刻需要添加的新信息，通过公式(9)计算；

其中，表示反向LSTM在t时刻输入门，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示反向LSTM在t-1时刻隐藏状态，σ表示Sigmoid函数；

步骤4.3.3计算反向LSTM当前时刻更新的信息，通过公式(10)计算；

其中，表示反向LSTM在t时刻更新的信息，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示反向LSTM在t-1时刻隐藏状态，σ表示Sigmoid函数；

步骤4.3.4计算反向LSTM当前时刻的信息，将上一时刻的信息和当前时刻更新的信息相加得到，通过公式(11)计算；

其中，表示反向LSTM在t时刻的信息，表示反向LSTM t时刻的遗忘门，表示反向LSTM在t-1时刻的信息，表示反向LSTM在t时刻输入门，表示反向LSTM t时刻更新的信息，表示向量的叉乘；

步骤4.3.5计算反向LSTM当前时刻输出门，用于控制输入信息，通过公式(12)计算；

其中，表示反向LSTM在t时刻输出门，表示参数，x_t表示第t时刻输入的词向量，表示参数，表示反向LSTM在t-1时刻隐藏状态，σ表示Sigmoid函数；

步骤4.3.6计算反向LSTM当前时刻隐藏状态，通过公式(13)计算；

其中，表示反向LSTM在t时刻隐藏状态，表示反向LSTM在t时刻输出门，表示反向LSTM在t时刻的信息，表示向量的叉乘；

步骤4.3.7计算第m层反向LSTM当前时刻隐藏状态，前一层的隐藏状态和上一时刻的隐藏状态输出作为下一层的输入,通过公式(14)计算；

其中，表示第m层反向LSTM在t时刻隐藏状态，表示第m-1层反向LSTM在t时刻隐藏状态，表示第m层反向LSTM在t-1时刻隐藏状态，f表示前馈神经网络函数；

由此得到反向隐藏状态序列

其中，M是多层编码器的层数；

步骤4.5计算隐藏状态序列，记为h,具体通过前向隐藏状态序列和反向隐藏状态序列连接得到，通过公式(15)计算；

其中表示第m层前向LSTM t时刻隐藏状态，表示第m层反向LSTM t时刻隐藏状态，表示向量的拼接；

步骤五的具体实现过程如下：

步骤5.1计算解码器隐藏状态，记为s，通过公式(16)计算；

步骤5.2利用注意力机制计算上下文信息向量,记为c，具体通过步骤5.1输出的解码器隐藏状态和步骤四隐藏状态序列求得，通过公式(17)计算；

步骤5.3通过步骤5.1输出的解码器隐藏状态和步骤5.2输出的上下文信息向量预测标题y，预测条件概率的目标函数如公式(18)；

目标函数(18)通过Sampled Softmax算法和Beam Search算法进行求解，SampledSoftmax处理词表大小加快收敛速度，利用Beam Search算法从得到的一系列词向量中选择得分最高的标题。

实施例1

本实施例叙述了本发明的具体实施过程，如图1所示。

从图1可以看出，本发明一种基于变分神经网络主题模型的标题生成方法的流程如下：

步骤A预处理；具体到本实施例是对语料进行分词，去停用词的处理；

其中，分词操作利用PTB分词器进行分词处理，利用nltk工具进行去停用词的操作。

步骤B利用PV算法学习文档向量、利用word2vec算法学习词向量；

其中，利用PV算法学习文档向量、利用word2vec算法学习词向量是并列计算的，具体到本实施例：

利用PV算法学习文档向量；将文档输入到PV算法中，得到文档的文档向量，维度大小为256，某一个文摘候选句的句向量为[0.00150049 0.08735332 -0.105659630.04739858 0.18809512 0.280207…-0.19442209 0.17960664 0.30010329 0.064586690.12353758]；

利用word2vec算法学习词向量；将文档中单词输入到word2vec算法中，得到词向量，其目标函数如公式(19)：

其中，k为窗口单词，i为当前单词，T为语料库中单词大小，利用梯度下降方法学习得到128维的词向量；

步骤C利用VAE学习主题隐分布向量、利用多层编码器学习文档内容表示；

其中，利用VAE学习主题隐分布向量、利用多层编码器学习文档内容表示是并列计算的，具体到本实施例：

利用VAE学习主题隐分布向量；将文档向量X_s输入到VAE编码器中，得到随机初始化的主题隐分布向量，然后将随机初始化的主题隐分布向量输入到VAE解码器中得到新的文档向量X_e，利用本发明改进型采样算法训练使得新的文档向量X_e和文档向量X_s差值最小，由此得到256维的主题隐分布向量[0.000100,0.000311,0.123523,0.432621,0.019837,0.198732,0.000013,0.001200,0.220011，…，0.287412]，该主题隐分布向量所有维度之和为1；

利用多层编码器学习文档内容表示；将词向量序列输入当多层编码器中，首先计算第一层i时刻前向编码器的隐藏状态维度大小为256维；计算第一层i时刻后向编码器的隐藏状态维度大小为256维；第二层编码器输入为和的拼接；最终得到第m层隐藏状态h^m＝[0.05239938 0.06047972 0.03731104 -0.09481885 0.11225756 -0.05305173…0.34634369 0.13317417 0.55390272 0.02707447 -0.50188936]；该隐藏状态包含了文档内容；

步骤D利用注意力机制和解码器生成标题；计算解码器i时刻隐藏状态，s_i＝[0.34505907 -0.13992722 0.12594564 -0.18122815 0.07834078 0.40299857…0.46299719 -0.01971885 -0.35660235 0.04277985 -0.17501377]，维度大小为256维，计算上下文信息向量c_i＝[0.09790395 -0.19126298 0.15230471 -0.03844783 0.016893110.05627012…-0.12065882 -0.15037556 -0.10103585 -0.09563597 0.00685059]，维度大小为256维；根据目标函数预测单词，由此标题生成完成。

以上对本发明“一种基于变分神经网络主题模型的标题生成方法”进行了详细的说明，但本发明的具体实施形式并不局限于此。实施例说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于变分神经网络主题模型的标题生成方法，其特征在于包括以下步骤：

步骤一、进行相关定义，具体如下：

定义1：文档向量，利用向量表示文档的语义内容；

定义4：标题，简短的文字概括文档的主要内容；

步骤二、用变分自编码器学习文档的主题隐分布向量，具体实现过程如下：

步骤2.1利用PV算法学习文档向量；PV算法在训练过程中，通过不断调整句向量和词向量来预测单词，直到PV算法收敛，句向量和词向量均通过随机梯度下降和反向传播训练得来；

步骤2.2利用变分自编码器学习主题隐分布向量z；

步骤三、利用word2vec算法学习词向量，按照文本序列中的单词顺序依次排列其对应词向量，得到词向量序列，记为X；

步骤四、利用多层编码器，计算前向隐藏状态序列、后向隐藏状态序列和隐藏状态序列；

其中，编码器采用多层双向LSTM模型，双向LSTM模型包括前向LSTM和反向LSTM，多层编码器中前一层的输入作为后一层的输出，最后输出隐藏状态序列h；

2.如权利要求1所述的一种基于变分神经网络主题模型的标题生成方法，其特征在于，所述步骤二中，利用变分自编码器学习主题隐分布向量z的具体实现方法如下：

步骤2.2.3利用重调参数的方法使得|X_s-X_e|最小化，从而学习到主题隐分布向量z。

3.如权利要求1所述的一种基于变分神经网络主题模型的标题生成方法，其特征在于，所述步骤四的具体实现过程如下：

步骤4.1将m赋值为1，m表示多层编码器中的网络第m层；

步骤4.2将步骤三输出的词向量序列顺序输入前向LSTM中，获得前向隐藏状态序列；

步骤4.3将步骤三输出的词向量序列倒序输入反向LSTM中，获得反向隐藏状态序列；

其中，M是多层编码器的层数；

其中，表示第m层前向LSTM t时刻隐藏状态，表示第m层反向LSTM t时刻隐藏状态，表示向量的拼接。

4.如权利要求3所述的一种基于变分神经网络主题模型的标题生成方法，其特征在于，所述步骤4.2的具体实现过程如下：

步骤4.2.6计算前向LSTM当前时刻隐藏状态，通过公式(6)计算；

由此得到前向隐藏状态序列

5.如权利要求3所述的一种基于变分神经网络主题模型的标题生成方法，其特征在于，所述步骤4.3的具体实现过程如下：

步骤4.3.6计算反向LSTM当前时刻隐藏状态，通过公式(13)计算；

由此得到反向隐藏状态序列

6.如权利要求1所述的一种基于变分神经网络主题模型的标题生成方法，其特征在于，所述步骤五的具体实现过程如下：

步骤5.1计算解码器隐藏状态，记为s，通过公式(16)计算；