CN109508371A

CN109508371A - 一种结合集束搜索间隔最大化约束的文本摘要生成方法

Info

Publication number: CN109508371A
Application number: CN201811321380.3A
Authority: CN
Inventors: 叶梓; 潘嵘
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-22
Anticipated expiration: 2038-11-07
Also published as: CN109508371B

Abstract

本发明创新性地提出了结合集束搜索间隔最大化约束的文本摘要生成方法，缓解了模型在训练和应用中地不一致性，使得模型的训练尽量贴近于实际的应用场景，从而使得模型输出的文本摘要更接近于技术人员想要的摘要。具体是在模型训练过程中，加入了新的约束函数来与基础的交叉熵共同组成新的优化目标，通过这一约束函数来从深层改变模型的优化方向。

Description

一种结合集束搜索间隔最大化约束的文本摘要生成方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种结合集束搜索间隔最大化约束的文本摘要生成方法。

背景技术

文本摘要技术是自然语言处理领域有长远研究历史和广泛应用的一项热门技术。文本摘要技术指的是让机器模型抽取出文本的主旨以概括其内容，最后输出对应的文本摘要，比如根据新闻内容生成新闻标题等。

传统的文本摘要技术主要分为抽取式的(Extractive)摘要技术和生成式的(Abstractive)摘要技术。抽取式的摘要技术是指模型在原文当中选择性地抽出词汇来拼接作为摘要的技术，因此摘要当中的词汇大多是来自于原文的。抽取式的摘要技术本质上是利用了机器学习当中的分类模型来选择词汇，通过分类模型来判断原文中的某个词是否应该放入摘要当中。生成式的摘要技术则与上述不同，生成式的摘要技术要求模型先理解消化输入的文本，然后根据模型的记忆来输出文本的摘要，输出的摘要与原文可能没有共同的词汇。显然生成式的文本摘要需要模型具有良好的文本概括能力来处理原文，还需要模型在概括文本之后自动地生成合情合理的摘要。

由于抽取式的摘要技术依赖于成熟有效的分类算法，所以是文本摘要技术发展初始的侧重点，相对于生成式的摘要技术也更好解决。但是近年来随着深度学习技术的广泛应用和神经网络模型的进一步发展，研究者通过结合最新的序列生成模型来优化发展了生成式的摘要技术，也使得生成式的摘要技术逐步成为了研究应用的主流。

目前最广泛常见的生成式文本摘要技术主要依赖于基于循环神经网络模型(Recurrent Neural Network)的序列处理和生成模型。文本摘要技术针对的就是文本的处理和生成，而恰恰文本是最典型的序列信息，也是序列生成模型实验中最典型的实验数据，因此将文本摘要技术与序列处理生成模型结合是非常有效合理的解决手段。

目前主流的生成式文本摘要技术所采用的模型大多是基于循环神经网络模型(Recurrent Neural Network)的序列生成模型。文本的处理和生成本质上是对序列数据的处理和生成，所以结合序列处理和生成模型来解决生成式文本摘要是大势所趋。而近年随着机器学习算法和计算机硬件的进一步发展，使得循环神经网络模型大放异彩，成为了最典型的应用最广泛的序列处理和生成模型，也成为在生成式文本摘要技术中最常使用的一类模型。这一类基于循环神经网络模型的模型可以建模序列的内容和顺序，将长度不定的文本压缩为固定长度的特征向量。同时，这一类模型也可以根据固定长度的特征序列，来生成长度不定的文本。因此通过循环神经网络模型，可以完成从文本序列到文本序列的转换，比如从原文到摘要的转换生成。

针对生成式的文本摘要任务，典型的循环神经网络模型模型采用的是编码-解码(Encode-Decode)的基础结构，同时会结合拷贝的技术，比如最常见的指针生成网络(Pointer-Generator Network)。假设输入的文本是x＝{x₀,x₁,…,x_N-1}，其中x_i是文本中的第i个词，而模型输出的摘要是y′＝{y′₀,y′₁,…,y′_M-1}，其中y′_j是输出的第j个词，则指针生成网络是输入x，输出y′的网络模型。这一类网络的主要部分如下：

1)编码器(Encoder)

模型的这一部分主要用于编码原始文本x。可以把原文当中的每一个词x_i先映射为对应的词向量(word embedding)，然后将这些词向量一个接一个地输入到编码器当中。编码器会按顺序地读取这些词向量，并且编码他们的信息最终得到一个基于原文的总体地特征向量，然后传递给解码器解码。编码器的简单结构示意图如图1。

2)解码器(Decoder)

模型的这一部分主要用于解码原始文本，生成对应的文本摘要y′。在解码器得到编码器编码地原文特征之后，解码器会解构这些特征，一个接一个词地输出对应的文本摘要，同时还会将上一个输出的词作为解码器下一步的额外输入。这样的机制对于处理原文中的某些冷门词汇特别有效。编码器的基本结构如图2。

在指针生成网络当中，解码器还会有一个组件来执行拷贝操作。通过这一组件，解码器可以在必要的时候，回溯原文挑选出一些特定的词汇，拷贝其作为下一个要输出的词。指针生成网络通过编码器和解码器的通力协作，可以处理文本x然后输出特定的文本摘要y′，是非常典型和有效的文本摘要模型，基础结构如图3。

指针生成模型对于解决生成式文本摘要任务非常有效，后续许多的文本摘要模型都沿用了这一基本结构，但是这个模型并不是完美的，由于优化目标场景和实际应用场景的差别，导致了模型训练过程和实际应用过程的不一致，这也是本发明致力于要缓解的矛盾。

训练和应用的不一致，主要是由于模型训练时主要的优化目标是交叉熵，但是模型实际应用时需要结合集束搜索算法。集束搜索算法在模型训练当中没有得到充分的考虑，会导致两个步骤的差异，从而影响模型的效果。下面会详细阐述这一差异和其带来的影响。

在指针生成模型训练过程当中，通常通过优化结果的交叉熵(Cross Entropy)来进行训练。因为在模型训练的时候，会利用到有监督的数据，即训练时使用的数据除了输入的文本x，还通常会利用上人类撰写的摘要y＝{y₀,y₁,…,y_L-1}。训练模型的目标，就是使得模型输出的摘要y′尽量接近于人类撰写的摘要y。等模型训练完成之后，就可以将模型应用到没有人类撰写摘要的数据上来自动生成摘要。在模型训练过程当中，最重要的模型优化目标就是使得输出y′接近于y，通常会利用优化交叉熵函数来完成这一目标。交叉熵函数如下：

其中L是摘要y的文本长度，p(y_k)是在编码器输出摘要的第k步生成y_k的概率。最小化交叉熵函数本质上是使得每一步输出目标词y_k的概率尽量地大，大量的实验证明这一优化目标函数能有效地训练模型，使得输出越来越接近于标准。

但是在模型实际应用的时候，除了考虑最大化输出目标词y_k的概率(通过优化交叉熵来实现)，还需要结合集束搜索技术(Beam search)来输出结果。集束搜索技术是一种提升模型输出效果的算法，假设设定集束搜索的搜索宽度为b，词汇表V＝{v₀,v₁,…,v_|v|-1}则其基本的思路如下：

1.第0步时，解码器输出词汇表当中某个词v_g的概率为P⁰(v_g)，则输出候选集可以表示为从中挑选出概率最大的前b个来构成集束

2.如果执行步数已经超过了模型的限制，或者上一步得到的集束Y^w中的每一个候选摘要都已经结束输出(即包含结束输出的标志字符)，则跳到4；否则，执行步骤3；

3.第k步时，假设上一步的集束为解码器这一步输出词汇表当中某个词v_g的概率为p^k(v_g)，则构建候选集从中挑出概率最大的前b个来构成集束跳到步骤2；

4.对于目前的集束Y^w，挑选出概率最大的一个输出作为模型生成的摘要y′，即y′∈Y^w且p(y′)≥p(y″)

由上述的算法可知，训练时候的优化目标和应用时的输出时不一致的。由于训练时训练目标只是最大化单独一个词的概率，而输出的结果则取决于整个输出句子的总体概率，不仅会跟每个词的概率有关，还可能跟词组的概率，甚至是句子的长度有关。图4的例子可以反应这样的问题，虽然这样的不一致不会导致严重的错误，但是可能使得模型的输出背离了原来的设想。

发明内容

本发明为解决现有技术提供的文本摘要生成方法由于训练时候的优化目标和应用时的输出时不一致而导致生成摘要的效果较差的技术缺陷，提供了一种结合集束搜索间隔最大化约束的文本摘要生成方法。

为实现以上发明目的，采用的技术方案是：

一种结合集束搜索间隔最大化约束的文本摘要生成方法，包括以下步骤：

S1.构建循环神经网络模型；

S2.向循环神经网络模型输入一批训练数据；

S3.设循环神经网络模型输出了前k个词，即{y₀,y₁,…,y_k-1}；接下来输出的目标是y_k，则针对词汇表V＝{v₀,v₁,…,v_|v|-1}，循环神经网络模型针对某一个词v_g计算得到输出概率p^k(v_g)；

S4.以目标词组y_ky_k+1的概率高于其他词组为目标，通过最大间隔化的优化函数对y_k进行求解；令候选词汇组为优化函数表示为：

Loss_mm＝max(O,γ+logp(r_i)-logp(y_ky_k+1))

其中p(r_i)≥p(r_j)，γ是为超参；

计算交叉熵函数

其中L为摘要y的文本长度，p(y_k)为生成y_k的概率；

定义y_k的目标函数为：

Loss＝Loss_ce+λLoss_mm

通过上式计算得到目标函数；

S5.梯度下降优化目标函数；

S6.验证循环神经网络模型效果；

S7.判断循环神经网络模型是否收敛，若否则执行步骤S2，若是则结束训练，执行步骤S8；

S8.输入一段文本；

S9.通过集束搜索，扩展下一个可能出现的词；

S10.通过步骤S9产生新的候选摘要，更新它们的概率；

S11.保留概率最大的候选摘要生成新的集束；

S12.判断集束中的候选摘要是否都输出了终止符，若是则执行步骤S14，若否则执行步骤S13；

S13.判断产生的摘要统一长度是否超出循环神经网络模型限制，若是则执行步骤S14，若否则执行步骤S8；

S14.从集束中挑选概率最大的摘要作为输出。

与现有技术相比，本发明的有益效果是：

附图说明

图1：编码器示意图，其中虚线部分为省略的部分类似结构。

图2：解码器结构示意图，虚线部分为省略的类似结构。

图3：神经循环网络的总体结构图。

图4：示例图一。

图5：训练过程中生成长度为2的词汇组的示例图。

图6：训练时候的解码器示意图。

图7：模型训练的流程图。

图8：模型的实际应用流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明提出了一种结合集束搜索间隔最大化约束的文本摘要方法，主要是指在文本摘要模型训练中加入对集束搜索结果的约束，使得目标输出的输出概率在集束搜索过程中尽可能高于其他候选输出。

对于这一类模型的训练，关键是设定好优化的目标函数，通过优化目标函数的值来训练模型。假设训练时使用的数据有输入的文本x＝{x₀,x₁,…,x_N-1}、作为输出目标的摘要y＝{y_0,y_1,…,y_(L-1)}。首先本发明需要考虑基本的交叉熵函数

其中L是摘要y的文本长度，p(y_k)是在编码器输出摘要的第k步生成y_k的概率。

除了交叉熵的函数，本发明加入对于集束搜索的约束。本发明让模型的训练过程中就开始进行集束搜索，保证目标输出y的概率始终高于其他的候选集合。为了计算上的灵活，也为了避免模型过度拟合某个输出，本发明根据实际的集束搜索策略来构建目标函数。

假设现在模型已经处理了前k个词，即{y₀,y₁,…,y_k-1}，接下来输出的目标是y_k。针对词汇表V＝{v₀,v₁,…,v_|v|-1}，模型针对某一个词v_g计算得到的输出概率为p^k(v_g)。参考集束搜索的思想，希望接下来的两个目标词y_ky_k+1的输出概率能高于其他长度为2的词汇组。由于遍历所有长度为2的词组会导致过高的复杂度，所以本发明会进行适当的剪枝，每一步只保留等同于集束搜索宽度大小b的词汇量，所以最后候选的长度为2的词汇组会有b²组，如图5所示。

本发明希望目标词组y_ky_k+1的概率高于其他词组，这种优化函数可以通过最大间隔化(Max-margin)的优化函数来解决。假设本发明的候选词汇组为

Loss_mm＝max(O,γ+logp(r_i)-logp(y_ky_k+1)),

其中p(r_i)≥p(r_j)，γ是一个超参，用于指定期望的间隔大小。这样的损失函数可以最大化目标概率和其他候选概率的间隔，从而使得本发明的目标输出能尽量在集束搜索中取得优势。

综合了上述的两种目标函数，本发明的目标函数为

Loss＝Loss_ce+λLoss_mm,

其中λ为超参，用于控制集束搜索损失对模型训练的约束力度。λ的值越大，则模型在集束约束方面的要求会更高，但是过高则不利于模型的泛化性能。如图6的解码器结构所示，本发明可以在训练过程中计算loss，然后求得对应的梯度用于更新模型参数。

有了统一的目标函数之后，本发明就可以把这一函数放入模型的训练过程当中，使得模型根据这一目标来进行收敛，最终训练得到本发明需要的文本摘要模型。通过梯度下降的方法，本发明不断地输入训练数据来训练模型，计算每一次的损失函数然后针对性地进行优化，就可以使得模型逐步收敛。模型的训练流程图如图7。

在模型完全训练好了以后，本发明就可以用模型来进行文本摘要生成，让机器可以自动地抽取出一段文字的主旨并输出。并且通过加入了本发明中提到的新的约束，模型的效果将更接近于期待。模型应用的图示如图8。

实施例2

本发明在训练过程中引入了集束搜索间隔最大化的约束，本质上是解决了模型训练和应用中的不一致性，本发明通过实验来验证了这一约束的效果。

本发明中提到的实验效果反映了本发明对比起以往的模型，在训练和应用中取得了更高的一致性。在实验中，本发明统计了模型在应用过程中的实际输出和原本的目标输出之间的距离。这里的距离可以通过实际输出和目标输出在集束搜索当中取得的分数来反映，这两种输出分数越接近，则可以侧面反映模型训练和实际应用之间的一致性越高。假设本发明的输入集合为对应的目标摘要集合为模型实际输出的摘要是其中指的是输入的一段文本，目标摘要和实际输出摘要，并且y^′j＝f(xⁱ)，f是模型输入到实际输出的映射。则本发明的实际输出和目标输出之间的距离可以通过如下公式计算：

其中s(yⁱ)和s(y^′i)代表了在技术搜索检索过程中，目标输出得到的概率和实际输出得到的概率。本发明计算了初始模型和本发明提出的新模型的结果，原始模型的差距是34.34，而加了约束之后的模型的差距则缩小到了33.15。换而言之，本发明的模型在训练和实际应用上有更好的一致性。

此外，本发明也在一些常见的评价方法上获得了一定的提升。Rouge是一种常用的用于衡量文本摘要效果的评价标准，本发明可以把模型的实际输出和目标输出结合来计算出模型的Rouge得分。本发明发现本发明提供的方法在一定程度上提升模型的准确度，比如Rouge-l和Rouge-1的得分，结果可以参照表格1。

表格1：Rouge得分对比结果

模型	Rouge-l(p)	Rouge-1(p)	Rouge-2(p)
				初始模型	0.356964	0.405973	0.254868
本发明中的模型	0.357802	0.406675	0.254838

模型的具体效果也可以参考一些具体的例子，比如参考表格2。表格2的第一列为输入的文本，第二列是人类撰写的摘要，等于是标准输出，第三列是以往的方法自动生成的摘要，第四列则是本发明自动生成的摘要。从表格中第一个例子，可以看出本发明的输出比以往的方法会更贴合目标输出，目标输出强调了“瑞士”，而本发明的输出则更加强调了本发明关注的“中国”。再比如表格中的第二个例子，以往的方法输出的结果当中缺了主语，使得“被批捕”的对象不明，而本发明中的模型则能输出正确的主语。表格的第三个例子当中，可以看出虽然由于机器生成文本摘要的方法仍不成熟，所以无论哪一种模型都缺了最后一个字。但是以往的模型主语选择错误，应该是“手机”而不是“iPhone”，而本发明的模型则选择了较为合适的主语。

表格2：本模型输入输出的一些实际样例

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种结合集束搜索间隔最大化约束的文本摘要生成方法，其特征在于：包括以下步骤：