CN111651589B

CN111651589B - 一种针对长文档的两阶段文本摘要生成方法

Info

Publication number: CN111651589B
Application number: CN202010794935.7A
Authority: CN
Inventors: 蓝雯飞; 周伟枭; 覃俊; 李子茂
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-10-30
Anticipated expiration: 2040-08-10
Also published as: CN111651589A

Abstract

本发明公开了一种针对长文档的两阶段文本摘要生成方法，对长文档进行数据预处理；切分成语句并对语句进行后处理；定义过渡文档候选语句；定义目标增益函数；利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句；对过渡文档候选语句按句子的原始顺序重排序获取过渡文档；使用编码器对过渡文档进行编码得到所述过渡文档的最终隐藏表示；解码器中使用集束搜索生成长文档摘要。本发明结合抽取式方法和生成式方法两者的优点，获得的摘要同时满足准确性高、流畅性好的特点，提高了长文档摘要的质量和可读性。

Description

一种针对长文档的两阶段文本摘要生成方法

技术领域

本发明属于自然语言处理和自然语言生成技术领域，具体涉及一种针对长文档的两阶段文本摘要生成方法。

背景技术

互联网技术的发展导致文本信息规模快速增长、数据过载问题日益严重，对蕴含重要信息的、不同语言的长文档进行“降维”处理已成为人们关心的重要问题之一。

文本摘要是自然语言处理以及自然语言生成的重要任务，其目的是使用抽取或生成的方式获取给定文档的简短版本，同时保留给定文档的显著信息。现有的文本摘要技术主要分为两种：抽取式方法和生成式方法。抽取式方法直接从给定文档中选择句子组成摘要，具体表现为对句子重要性进行打分并提取重要性较高的若干个句子。生成式方法通过重新组织给定文档的中心思想形成摘要，形式上更类似于人工撰写。

针对长文档进行摘要时，抽取式方法存在以下问题：摘要的长度限制导致抽取出的句子间距较远，严重影响句子之间的流畅性、连贯性、可读性。生成式方法存在以下问题：由于深度神经网络LSTM、GRU、Transformer对长文档编码性能较弱，导致生成的摘要准确性较低，无法很好地反应给定文档的事实细节。

发明内容

为了克服上述现有技术针对长文档摘要的不足，本发明提供一种针对长文档的两阶段文本摘要生成方法，获得的摘要同时满足准确性高、流畅性好的特点。能够解决单独使用抽取式方法或生成式方法存在的准确性低、流畅性差的缺陷。

一种针对长文档的两阶段文本摘要生成方法，包括以下步骤：

步骤1、对待获取摘要的长文档进行数据预处理；

步骤2、将预处理后的长文档切分成语句，并对语句进行后处理；

步骤3、定义过渡文档候选语句，并初始化为空集；

步骤4、定义目标增益函数；

步骤5、利用贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句；

步骤6、对过渡文档候选语句按句子的原始顺序重排序获取过渡文档；

步骤7、使用编码器对步骤6输出的过渡文档进行编码得到所述过渡文档的最终隐藏表示；

步骤8、在解码器中使用集束搜索生成长文档摘要。

如上所述的步骤4包括以下步骤：

步骤41、计算语句的向量表示；

步骤42、对向量表示计算相似度度量获得相似度矩阵；

步骤43、对过渡文档候选语句的覆盖性子方面、冗余性子方面进行建模获得目标次模函数；

步骤44、对所述语句中的每个句子分配重要性度量；

步骤45、对所述语句中的每个句子分配准确性度量；

步骤46、将重要性度量、准确性度量与步骤43中的目标次模函数进行子方面融合获得目标增益函数。

如上所述的步骤42中，相似度度量通过以下公式获得：

其中，

分别为句子

的索引，

为句子

的向量表示，

为句子

的向量表示，

为向量的模，

为句子对

之间的相似度度量，

为点乘，

为乘。

如上所述的步骤43中目标次模函数通过以下步骤获得：

步骤431、计算过渡文档候选语句与长文档的相似程度，

其中，

为所述过渡文档候选语句与所述长文档的相似程度，

分别为句子

的索引，

为所述过渡文档候选语句，

为所述长文档包含的所有句子，

为

与

的差集，

为句子对

之间的相似度度量，

为包含关系，

为求和函数，

为求最小值函数，

为阈值系数；

步骤432、计算过渡文档候选语句之间总的冗余量，

其中，

为所述过渡文档候选语句之间总的冗余量，

分别为句子

的索引，

为所述过渡文档候选语句，

为句子对

之间的相似度度量，

为求和函数，

为包含关系；

步骤433、建立目标次模函数，

其中，

为目标次模函数，

为权衡系数，

为阈值系数。

如上所述的步骤44中，重要性度量通过以下公式获得：

其中，

为句子

分配得到的重要性度量，

为句子

的索引，

为句子数量，

为以

为底的指数函数，

为包含关系。

如上所述的步骤45中，准确性度量通过以下公式获得：

其中，

为长文档，

为关键词抽取算法，

为关键词，

为关键词权重，

为

包含的关键词数量，

为遍历关键词的索引，

为句子

包含的单词集合，

为

的单词索引，

为句子

的单词总数，

为交集，

为句子

包含的关键词索引，

为句子

的准确性度量。

如上所述的步骤46中，目标增益函数

如以下公式所示：

其中，

为相似程度，

为冗余量，

为参与计算的句子，

为过渡文档候选语句，

为比例因子，

为句子

的长度惩罚项，

为权衡系数，

为句子

分配得到的重要性度量，

为位置偏置权重，

为句子

的准确性度量，

为关键词影响程度参数。

如上所述的步骤5包括以下步骤：

步骤51、在语句中每次循环选取目标增益函数最大的句子，判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值，若满足上述条件，则将目标增益函数最大的句子保留为候选句，若不满足上述条件，则继续下一轮循环；

步骤52：判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束，若大于，则不添加该候选句到过渡文档候选语句，若小于等于，则添加该候选句到过渡文档候选语句，并返回步骤51，当在预算约束已满或所述语句已被全部遍历的情况下退出循环，同时返回过渡文档候选语句。

如上所述的步骤7包括以下步骤：

步骤71、对所述过渡文档中的单词进行映射获得词典索引；

步骤72、对所述词典索引进行词嵌入操作获得词向量；使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器，在当前时刻，循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态，并将新的隐藏层状态传递到下一时刻的循环神经网络单元中，直到所述过渡文档的单词全部编码完毕，获得过渡文档的最终隐藏表示；

步骤73、编码完成后，所述过渡文档的最终隐藏表示为正向编码与反向编码的级联。

如上所述的步骤8包括以下步骤：

步骤81、使用单向长短时记忆网络或门控循环网络作为解码器，接收起始符“<bos>”的词向量获得新的解码器状态，同时覆盖度机制初始化覆盖度向量为全零向量；

步骤82、将当前时刻解码器状态与步骤73中所述最终隐藏表示以及步骤81中覆盖度向量经过前馈神经网络后使用

函数非线性化获得注意力分数，使用

函数计算所述注意力分数的概率分布获得注意力分布，计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量，同时将覆盖度向量更新为当前时刻前的注意力分布的总和；

步骤83、复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用

函数获得生成单词来源的开关

，将

与词汇表概率分布相乘，

与注意力分布相乘，并将两个相乘的结果相加得到最终词汇表概率分布；

步骤84、根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词，并将这些单词输入下一时刻解码器继续生成单词，直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要，生成完毕后，在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。

与现有技术相比，本发明至少具有以下优点：

本发明模拟人类对长文档进行摘要的过程。在第一阶段，定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数，同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子，过滤不重要的、冗余的句子获得过渡文档。在第二阶段，使用生成式方法对所述过渡文档进行编码、解码操作，最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点，获得的摘要同时满足准确性高、流畅性好的特点，提高了长文档摘要的质量和可读性。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

如图1所示，一种针对长文档的两阶段文本摘要生成方法流程图，包括以下步骤：

步骤S1：对待获取摘要的长文档进行数据预处理。

需要说明的是，待获取摘要的长文档可以是任何语种，如：中文、英文、法文、西班牙文、阿拉伯文、德文、俄文、日文等。根据不用语种进行预处理，包括去除HTML标签、去除缺损的句子等。

步骤S2：将预处理后的长文档切分成语句，并对语句进行后处理。

需要说明的是，切分成语句指的是按不同语种的标点符号对预处理后的长文档进行切分获得语句，如：中文的切分标准为标点

等，英文的切分标准为标点“.”等。后处理指的是删除句子开头的关系词、删除短语等。

步骤S3：定义过渡文档候选语句，并初始化为空集。

需要说明的是，过渡文档候选语句是指所述长文档的重要句子集合。初始化为空集，在选取到重要句子时，会添加进过渡文档候选语句。

步骤S4：定义融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。

步骤S4的具体实现步骤包括：

步骤S41：对所述语句计算向量表示获取所述语句表示的信息；

步骤S42：对所述向量表示计算相似度度量获得相似度矩阵；

步骤S43：对所述过渡文档候选语句的覆盖性、冗余性子方面进行建模获得目标次模函数；

步骤S44：对所述语句中的每个句子分配重要性度量；

步骤S45：对所述语句中的每个句子分配准确性度量；

步骤S46：将重要性度量、准确性度量与所述目标次模函数进行子方面融合获得目标增益函数。

在步骤S41中，使用TF-ISF算法或预训练词向量获得所述语句的向量表示。

在步骤S42中，使用余弦相似度作为所述语句的向量表示之间的语义相关度指标，具体表示为式1：

(式1)

其中，

分别为句子

的索引，

为句子

的向量表示，

为句子

的向量表示，

为向量的模，

为句子对

之间的相似度度量，

为点乘，

为乘。

计算语句中的所有句子对的相似度度量并建立相似度矩阵；

在步骤S43中，首先将覆盖性子方面定义为度量所述过渡文档候选语句与所述长文档的相似程度，具体建模为式2；然后将冗余性子方面定义为所述过渡文档候选语句之间需尽量避免出现冗余的成分，具体建模为式3；最后将目标次模函数定义为最大化覆盖性子方面以及最小化冗余性子方面，具体建模为式4。

(式2)

其中，

为所述过渡文档候选语句与所述长文档的相似程度，

分别为句子

的索引，

为所述过渡文档候选语句，

为所述长文档包含的所有句子，

为

与

的差集，

为句子对

之间的相似度度量，

为包含关系，

为求和函数，

为求最小值函数，

为阈值系数。

(式3)

其中，

为所述过渡文档候选语句之间总的冗余量，

分别为句子

的索引，

为所述过渡文档候选语句，

为句子对

之间的相似度度量，

为求和函数，

为包含关系。

(式4)

其中，

为目标次模函数，

为权衡系数，

为阈值系数。

在步骤S44中，对所述语句在所述长文档中的相对位置和绝对位置进行建模，给予每个句子一个重要性度量。具体建模为式5；对所有的句子的重要性度量进行归一化得到最终的各个句子对应的重要性度量。

(式5)

其中，

为句子

分配得到的重要性度量，

为句子

的索引，

为句子数量，

为以

为底的指数函数，

为包含关系，当

时，

展现出非线性下降趋势的性质。

在步骤S45中，对所述语句包含的所述长文档中的关键词权重进行建模，给予每个句子一个准确性度量，具体建模为式6：

(式6)

其中，

为所述长文档，

为关键词抽取算法，

为关键词，

为第

个关键词，

为关键词权重，

为第

个关键词对应的关键词权重，

为

包含的所有关键词数量，

为遍历关键词的索引，

为句子

包含的单词集合，

为

的单词索引，即

为句子

包含的单词集合中的第

个单词，

为句子

的单词总数，

为交集，

为句子

包含的关键词索引，

为所述关键词索引对应的关键词权重和，即句子

的准确性度量。

在步骤S46中，首先对步骤S43中所述目标次模函数制定原始目标增益函数，具体建模为式7；然后将步骤S44中重要性子方面通过乘积的方式融入到所述原始目标增益函数中，具体建模为式8；最后将步骤S45中准确性子方面通过相加的方式融入到所述原始目标增益函数中，具体建模为式9。

原始目标增益函数建模为式7：

(式7)

其中，

为原始目标增益函数，

为式2，

为式3，

为参与计算的句子，

与式2、式3中的定义相同，为所述过渡文档候选语句，

为比例因子，

为句子

的长度惩罚项，

为权衡系数。

融合重要性子方面的目标增益函数建模为式8：

(式8)

其中，

为句子

分配得到的重要性度量，

为位置偏置权重，其作用是平衡重要性与覆盖性两个子方面，防止引入的重要性度量带来过拟合问题，可根据数据集的性质进行调整。当

时，表示不引入重要性子方面，则式8衰减为式7；

融合重要性子方面、准确性子方面的目标增益函数建模为式9：

(式9)

其中，

为句子

的准确性度量，

为关键词影响程度参数，用来减小或者增大

对目标增益函数的影响。当

时，式9衰减为式8，表示不引入准确性子方面。

需要说明的是，只考虑覆盖性和冗余性子方面的目标增益函数不足以代表长文档的原始整体特征，在大量摘要数据集中，句子在长文档中的位置是常见的偏见。例如，在新闻长文档中，通常前中部的句子信息相较于后部的句子信息更为重要，需要给这些处于重要位置的句子一个重要性度量，步骤S44即为句子位置特征进行建模。

需要说明的是，在长文档中，关键词构成了句子的主体，是重要的句子选择指标，摘要撰写者倾向于关注包含关键词的句子以确保摘要的准确性。关键词和摘要都能在一定程度上反映长文档的中心思想，只是使用了单词和句子两种不同粒度的表示方式，关键词是摘要更为抽象的表示，两者之间可以互相弥补信息缺失的问题。例如，在军事类新闻长文档中，“导弹”，“战争”，“冲突”等单词具有较强的权重，需要给包含关键词的句子一个准确性度量，步骤S45即为关键词权重特征进行建模。

步骤S5：设计贪心算法依次选取使得所述目标增益函数最大的句子添加进过渡文档候选语句。

步骤S5的具体实现步骤包括：

步骤S51：在所述语句中每次循环选取目标增益函数最大的句子，判断最大目标增益函数的增量是否大于零以及对应的句子与当前过渡文档候选语句的雅卡尔指数是否小于冗余阈值，若满足上述条件，则将目标增益函数最大的句子保留为候选句，若不满足上述条件，则继续下一轮循环。

步骤S52：判断候选句添加进过渡文档候选语句后过渡文档候选语句的总长度是否大于预算约束，若大于，则不添加该候选句到过渡文档候选语句，若小于等于，则添加该候选句到过渡文档候选语句，并返回步骤S51。当在预算约束已满或所述语句已被全部遍历的情况下退出循环，同时返回过渡文档候选语句。

在步骤S51中，目标增益函数可以选择式7中定义的包含覆盖性、冗余性两个子方面的目标增益函数，也可以选择式9中定义的包含覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数。不同的目标增益函数引入不同的参数，同时获得的过渡文档候选语句也不同。例如，在一次循环中，给定句子集合

，使用融合两个子方面的目标增益函数获得的增量为

，

的增量最高，选择

进入过渡文档候选语句，但是，当使用融合四个子方面的目标增益函数时，获得的增量为

，

的增量最高，此时选择

进入过渡文档候选语句。

在步骤S52中，预算约束通常设置为400单词至500单词之间，其原因在于该长度范围内的过渡文档候选语句既能保留长文档的重要信息，也能避免神经网络编码器的“长距离依赖”问题。

步骤S6：对所述过渡文档候选语句按所述句子的原始顺序重排序获取过渡文档。

需要说明的是，过渡文档候选语句中的句子是无序的，若被生成式摘要模型的编码器直接编码，在训练期间，会导致信息的错误对齐问题，在解码期间，会导致获取的摘要前后逻辑不一致的问题。因此，需要使用步骤S6对过渡文档候选语句按所述句子的原始顺序重排序获取语句顺序正确的过渡文档。

步骤S7：使用编码器对步骤S6输出的所述过渡文档进行编码得到所述过渡文档的最终隐藏表示。

步骤S7的具体实现步骤包括：

步骤S71：对所述过渡文档中的单词进行映射获得词典索引。

步骤S72：对所述词典索引进行词嵌入操作获得词向量；使用循环神经网络中的双向长短时记忆网络或双向门控循环网络作为编码器，更好地捕捉双向语义依赖。在当前时刻，循环神经网络单元接收当前时刻输入单词的词向量和前一时刻循环神经网络单元输出的隐藏层表示生成新的隐藏层状态，并将新的隐藏层状态传递到下一时刻的循环神经网络单元中，直到所述过渡文档的单词全部编码完毕，获得过渡文档的最终隐藏表示。

步骤S73：编码完成后，所述过渡文档的最终隐藏表示为正向编码

与反向编码

的级联

。

在步骤S72中，获取词向量的训练方式与word2vec类似，长短时记忆网络在当前时刻传递隐藏层状态和细胞状态到下一时刻，门控循环网络舍弃了细胞状态，直接将隐藏层状态传递到下一时刻。

步骤S8：在带注意力机制、复制机制、覆盖度机制的解码器中使用集束搜索生成长文档摘要。

步骤S8的具体实现步骤包括：

步骤S81：使用单向长短时记忆网络或门控循环网络作为解码器，接收起始符“<bos>”的词向量获得新的解码器状态，同时覆盖度机制初始化覆盖度向量为全零向量。

步骤S82：将当前时刻解码器状态与步骤S73中所述最终隐藏表示以及步骤S81中覆盖度向量经过前馈神经网络后使用

函数非线性化获得注意力分数，使用

函数计算所述注意力分数的概率分布获得注意力分布，计算所述注意力分布与所述最终隐藏表示的乘积并求和获得上下文向量。同时将覆盖度向量更新为当前时刻前的注意力分布的总和。

步骤S83：复制机制将上下文向量、当前时刻解码器状态、当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用

函数获得生成单词来源的开关

，将

与词汇表概率分布相乘，

与注意力分布相乘，并将两个相乘的结果相加得到最终词汇表概率分布。

步骤S84：根据所述最终词汇表概率分布使用集束搜索在每一时刻输出若干个个较高概率的单词，并将这些单词输入下一时刻解码器继续生成单词，直到生成结束符“<eos>”或达到摘要限制长度停止生成摘要。生成完毕后，在若干个单词序列中选取质量最高的预测文本作为输入进两阶段模型的长文档的摘要。

本发明实施例提供的一种针对长文档的两阶段文本摘要生成方法，模拟人类对长文档进行摘要的过程。在第一阶段，定义了融合覆盖性、冗余性、重要性、准确性四个子方面的目标增益函数，同时使用带预算约束和雅卡尔指数的贪心算法在长文档中抽取出重要句子，过滤不重要的、冗余的句子获得过渡文档。在第二阶段，使用生成式方法对所述过渡文档进行编码、解码操作，最后生成摘要。本方法结合抽取式方法和生成式方法两者的优点，获得的摘要同时满足准确性高、流畅性好的特点，提高了长文档摘要的质量和可读性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。