CN109992775A

CN109992775A - 一种基于高级语义的文本摘要生成方法

Info

Publication number: CN109992775A
Application number: CN201910227914.4A
Authority: CN
Inventors: 李�昊; 蔡登�; 潘博远; 雷陈奕; 王国鑫; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-09
Anticipated expiration: 2039-03-25
Also published as: CN109992775B

Abstract

本发明公开了一种基于高级语义的文本摘要生成方法，包括：(1)将文本语料进行分词并转化为与词汇一一对应的语义标签序列；(2)在文本摘要模型上，使用双向循环网络作为编码器对词汇序列和语义标签序列进行编码，得到词汇上的抽象表征和语义上的抽象表征；(3)将词汇上的抽象表征和语义上的抽象表征进行合并；(4)将合并后的抽象表征送入解码器，分别计算词汇注意力权重和语义注意力权重，同时预测序列每一步在词表上的概率分布；(5)将注意力权重分布和词表概率分布合并，得到最终的输出概率分布，将最终的概率分布转化为可读的词汇，并串连成句进行输出。本发明可以提高模型在预测低频词以及进行无标签数据上的文本摘要的准确率。

Description

一种基于高级语义的文本摘要生成方法

技术领域

本发明属于自然语言处理领域，尤其是涉及一种基于高级语义的文本摘要生成方法。

背景技术

自然语言领域中的文本摘要是在保留原始文本大意的情况下将一段长文本通过计算机技术自动压缩为短文本的方法。该技术目前在各大媒体网站均有使用，通过该技术能够将原本较长的文本内容压缩为包含重点信息的短文本，进而节省屏幕空间，向用户展示更多的内容。在寸土寸金的媒体界面上，展示更多的内容会为厂家带来更大的流量，直接提高广告等信息的曝光率，提升用户活跃度，为厂家带来直接的利益。

早期的文本摘要技术都是基于文本规则的，这些规则通常是某种文本形式所遵循的惯例。诸如，新闻文本通常以首段概括整个新闻的内容，因此文本摘要会直接将新闻的前若干语句抽取出作为摘要内容。在格式相对固定的新闻内容上，使用该方法可以达到较好的效果。但随着自媒体时代的兴起，网络上充满着大量不同主题，不同形式的文本材料。首段已经不能准确概括文本的内容。因此该领域开始使用人工智能的方法进行自动摘要。近些年来，许多优秀的文本摘要方法纷纷涌现。比如2014年发表在Empirical Methods inNatural Language Processing上的《Learning Phrase Representations using RNNEncoder-Decoder for Statistical Machine Translation.》在第1724到第1734页提出了一种名为序列到序列(Seq2Seq)的结构；2015年发表在Empirical Methods in NaturalLanguage Processing 上的《Effective Approaches to Attention-based NeuralMachine Translation》在第1412页到第1421页公布了一种在序列到序列结构上使用的注意力机制来提高模型效果。这段时间公布的方法大部分采用序列到序列的结构框架，能够在预先设定的词表中选出合适的词语串连成句。但此类从词表中选词的方法无法生成包含生僻词的摘要文本，在处理包含人名等专有名词的文本时会有较大限制。2015年发表在Neural Information Processing Systems上的《Pointer Network》在第2692页到第2700页提出了一种名为Pointer Network的结构，允许序列模型的输出能够指向输入文本，从输入文本中挑选重要的项作为输出，而不是从固定的词表中生成。而后，在此基础上，2017年发表在Association for Computational Linguistics上的《Get To The Point:Summarization with Pointer-Generator Networks》在第1073页到第1083页公布了一种名为Pointer-Generator Network模型，使模型能够利用注意力从输入的原文中挑选重要的词汇，也可以从词表中生成单词。

低频词汇的处理是自然语言理解的一个重要问题之一。为了便于训练，自然语言模型在制作词表时会忽略低频词，将其统一替换为一个固定的符号(以下使用UNK替代，即Unknown Token)，损失了关于这些低频词汇的全部信息。人名/地名/时间等特殊词汇出现频率较低，但在语料中具有重要的语义信息。之前的工作通过复制机制能够从输入的原始语料中复制重要的词汇到输出中，但模型判断词汇重要程度的依据只有输入序列的注意力权重分布，而完全忽视了词汇本身的意义。这种方法无法较好得解决低频词汇信息损失的情况。

发明内容

本发明提供了一种基于高级语义的文本摘要生成方法，通过使用高级语义来进行摘要生成，弥补低频词被替换为UNK所造成的信息损失，提高了模型在预测低频词以及进行无标签数据上的文本摘要的准确率。

一种基于高级语义的文本摘要生成方法，包括以下步骤：

(1)使用文本分词工具对文本语料进行分词处理，将得到的词汇序列转为语义标签序列，并将词汇和语义标签分别转化为对应的词表ID；

(2)在文本摘要模型上，使用双向循环网络作为编码器对词汇序列和语义标签序列进行编码，得到词汇上的抽象表征和语义上的抽象表征；

(3)将词汇上的抽象表征和语义上的抽象表征进行合并；

(4)将合并后的抽象表征送入解码器，分别计算词汇注意力权重和语义注意力权重，同时预测序列每一步在词表上的概率分布；

(5)将注意力权重分布和词表概率分布合并，得到最终的输出概率分布，将最终的概率分布转化为可读的词汇，并串连成句进行输出。

本发明可以在给定一段长文本的的情况下，将其压缩为具有概括性的短文本。

步骤(1)中，所述文本分词工具通过预先设定的语义映射词表或者语法解析算法，将分词后的每个词汇映射为语义符号，如词性符号(Part of Speech,POS)和命名实体符号(Named Entity,NE)，从而将词汇序列转为语义标签序列。通过该步骤每个单词分别对应词汇和语义两种不同的表达方式(如：“今天天气真好”中的“今天”一词将表示为词汇文本“今天”，及其对应的语义“时间/主语”)。

在分别建立与词汇序列和语义标签序列对应的词表之前，还包括对词汇序列和语义标签序列分别进行统计，按照词频的高低排序，过滤低频词。

步骤(2)的具体过程为：

(2-1)使用随机初始化的词向量分别对词汇和语义标签对应的词表ID进行词向量嵌入；

(2-2)在文本摘要模型上，使用词汇编码器对词汇序列进行编码，使用语义编码器对语义标签序列进行编码，学习词汇和语义的高层抽象表征；

(2-3)从两个编码器中分别取出最后一步的输出结果作为后续操作的输入。

步骤(3)的具体过程为：将词汇的抽象表征与语义的抽象表征通过矩阵连接合并为一个矩阵，并进行降维：

其中，是词汇编码器前向与后向的最后一步输出，则是语义编码器前向与后向的最后一步输出，则是模型需要学习的参数。

步骤(4)的具体过程为：

(4-1)利用词汇编码器的全部输出与解码器中每一步的计算状态，计算当前步的注意力权重，并进行归一化：

a^w＝softmax(e^w)

其中，代表词汇编码器第i步的输出，s_t代表解码器第t步的计算状态，e^w,a^w分别代表归一化前后的注意力权重；v^T,W_s ^w,代表模型需要学习的参数；

(4-2)利用语义编码器的全部输出与解码器中每一步的计算状态，计算当前步的注意力权重，并进行归一化：

a^s＝softmax(e^s)

其中，代表语义编码器第i步的输出，s_t代表解码器第t步的计算状态，e^s,a^s分别代表归一化前后的注意力权重；v^T,W_s ^s,代表模型需要学习的参数；

(4-3)计算权重参数p_attn,p_gen：

上式代表p_attn,p_gen的计算方法，两者计算公式相同，但参数独立，即b_*彼此不同；

(4-4)利用解码器的输出计算词表的概率分布:

其中，代表合并后的编码器输出结果，V,b是模型需要学习的参数。

步骤(5)的具体过程为：

(5-1)将词汇注意力权重与语义注意力权重进行合并，得到指向输入序列的整体注意力权重：

其中，p_attn是衡量两个不同注意力的权重参数，分别代表语义注意力和词汇注意力权重；

(5-2)将注意力权重与词表分布概率进行合并：

其中，p_gen是衡量注意力权重和词表概率的权重参数；

(5-3)结合词表以及原始输入序列，得到最终概率对应的自然文本，并组合成句。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用额外的语义编码器处理文本的语义信息，能够减少将文本替换为UNK造成的信息损失。

2、本发明实现了端到端地解决文本摘要的问题。

3、本发明充分利用了现有自然语言的多维高级语义信息，能够更好地学习语料的特征。

附图说明

图1为本发明实施例一种基于高级语义的文本摘要生成方法的流程示意图；

图2为本发明实施例的整体结构示意图；

图3为本发明在部分数据集上的摘要实例。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于高级语义的文本摘要生成方法，包括以下步骤：

S01，参见图2中S01部分，使用文本分词工具，如CoreNLP/Jieba等，对文本语料进行分词并转化为与词汇一一对应的语义标签序列(如词性序列，命名实体序列)。由于该模型需要使用词汇的高级语义信息，因此需要首先利用CoreNLP/Jieba等文本处理工具对原始的文本数据进行处理。一方面，文本(尤其是中文)需要首先进行分词处理，语料的最小单元抽取出来；另一方面，只有在分词完毕后，才能够将文本词汇映射到其对应的语义符号上。这一过程的语义符号是具有扩展性的，最基本的词性/命名实体使用简单的映射关系即可实现，如将“今天”/“明天”等词映射为“时间”，也可以使用更为复杂的语法解析方法分析句子的结构，划分主谓宾等成分并将其加入到语义符号上。

在进行上述映射操作后，会生成一份由语义符号构成的语义数据。之后利用自然语言处理上的常规手段，对各个词汇/语义符号进行词频统计，分别构建词汇和语义词汇上的词典。受限于嵌入矩阵的大小和Softmax的运算速度限制，在构建词表时会将低频词忽略，并统一将其替换为特定的符号UNK。在构建词典完毕后，便可以将原本的文本语料转化为由整数构成的数组序列，每一个词汇或者语义符号均被一个整数ID所代表。在得到词汇与语义的ID序列后，通过预先设置的词嵌入矩阵，便可以将各个词汇/语义符号转化为浮点向量以便后续操作。

S02，参见图2中S02部分，在文本摘要模型上，输入原始词汇序列并使用一个编码器对其进行编码，得到词汇上的抽象表征；输入语义标签序列并使用一个编码器对其进行编码，得到语义上的抽象表征。通过S01的操作，模型此时拥有词汇空间与语义空间的特征向量。两者在长度上一一对应，分别代表原始语句内的每个一个最小词义单元。将两个特征向量分别输入进由循环神经网络构成的编码器中，得到输入序列上每一步(即每一个词汇)的循环神经网络的输出作为语料的高层抽象特征，用于后续步骤中计算注意力以及作为解码器的输出。

S03，参见图2中S03部分，将词汇的抽象表征与语义上的抽象表征连接为同一矩阵，并通过线性变换调整维度以便进行后续计算。步骤S02中，分别得到了词汇和语义上的高层抽象特征。为了将两者的信息进行结合，使用矩阵的连接操作将两个抽象特征合并为一个高维抽象特征，同时为了便于解码器的工作，需要对合并后的矩阵进行降维处理。

S04，参见图2中S04部分，将词汇和语义上合并后的抽象表征送入解码器中，分别计算词汇注意力权重和语义注意力权重，同时预测在序列每一步在词表上的概率分布。为了利用语义信息从输入序列中挑选出重要的词汇生成文本摘要，需要同时计算解码器每一步在输入序列上文本词汇和语义符号序列上的注意力权重，从而使用语义词汇辅助挑选被替换为UNK的低频词。两者在结构上相同，均利用解码器的每一步的状态来计算在输入序列傻瓜的注意力权重。最终得到两份注意力权重分布，分别代表文本词汇的权重和高级语义上的权重。与此同时，序列到序列模型也会生成一份在固定词表上的概率分布，以便从其中生成词汇。

S05，参见图2中S05部分，将注意力权重分布和词表概率分布合并，得到最终的输出概率分布，将最终的概率分布转化为可读的词汇，并串连成句进行输出。通过步骤S04的计算，模型此时拥有三份不同的上层输入数据：基于文本词汇的注意力权重，基于高级语义的注意力权重和词表上的概率分布。前两者成分相似，都是输入序列的某一个角度上的重要程度的衡量。因此首先将两份注意力权重进行简单的加和以便求得输入序列上最终的注意力分布。

在得到输入序列的注意力分布后，根据输入序列的原始文本，便可以与其在词表上的固定位置进行对应，若某一项词汇同时出现在词表以及输入序列上，那么便可以将对应的注意力权重和词表概率进行加和作为该词最终的概率输出。若某词仅出现在词表或者输入序列中的一项上，便将该项作为该词的最终概率输出。通过这个计算过程，便得到了所有词汇上的概率分布，从而获得最后生成的摘要文本。

为验证本发明的有效性，在CNN/DailyMail的英文语料以及微博/知乎中文语料这两个数据集上进行了对比实验。CNN/DailyMail的语料是英语新闻媒体公开的约29万篇文章构成的；微博语料是爬虫抓取的新闻语料。上述数据都是具有摘要标签的，可以用来训练或者测试。知乎语料是爬虫抓取的网络数据，不具备任何标签，仅可以用于测试摘要生成的效果。该实验使用CNN/DailyMail数据集验证模型生成摘要效果的一般性效果，使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation，一种文本摘要的评价标准)作为评价指标，以便和现有方法进行对比。同时，在中文语料上使用微博数据进行训练完毕后，在知乎语料上生成摘要文本，以便证明该方法学习文本特征的普适性。

如表1所示，本实验与现有的多个文本摘要的模型在CNN/DailyMail数据集上进行了对比。

表1

表中最上面两栏是添加了注意力机制的序列到序列模型，两者在词表大小上进行了区分，以便证实一味地扩大词表来减少UNK的影响是无效的。第三至第五栏是现有的在文本摘要领域表现较为优异的方法。后两栏是本文所设计的模型，区别在于最后一栏的实验使用了公开可用的词嵌入数据以便提高模型在表达词汇向量特征时的效果。从表中对比看出，本文所设计模型在ROUGE评价标准上达到了较高的水平，并且是在该数据集上达到了最佳的水平。

如图3所示，展示了本文所设计模型在CNN/DailyMail数据集以及知乎数据集上的部分摘要生成案例。从案例中可以看出，该模型在中英文数据集上均可以生成较为流畅的语句，并且能够学习到一些语料中常见的句式。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于高级语义的文本摘要生成方法，其特征在于，包括以下步骤：

(2)在文本摘要模型上，分别使用编码器对词汇序列和语义标签序列进行编码，得到词汇上的抽象表征和语义上的抽象表征；

(3)将词汇上的抽象表征和语义上的抽象表征进行合并；

2.根据权利要求1所述的基于高级语义的文本摘要生成方法，其特征在于，步骤(1)中，所述文本分词工具通过预先设定的语义映射词表或者语法解析算法，将词汇序列转为语义标签序列。

3.根据权利要求1所述的基于高级语义的文本摘要生成方法，其特征在于，步骤(1)中，在分别建立与词汇序列和语义标签序列对应的词表之前，还包括对词汇序列和语义标签序列分别进行统计，按照词频的高低排序，过滤低频词。

4.根据权利要求1所述的基于高级语义的文本摘要生成方法，其特征在于，步骤(2)的具体过程为：

5.根据权利要求1所述的基于高级语义的文本摘要生成方法，其特征在于，步骤(3)的具体过程为：将词汇的抽象表征与语义的抽象表征通过矩阵连接合并为一个矩阵，并进行降维：

6.根据权利要求1所述的基于高级语义的文本摘要生成方法，其特征在于，步骤(4)的具体过程为：

a^w＝softmax(e^w)

其中，代表词汇编码器第i步的输出，s_t代表解码器第t步的计算状态，e^w，a^w分别代表归一化前后的注意力权重；代表模型需要学习的参数；

a^s＝softmax(e^s)

其中，代表语义编码器第i步的输出，s_t代表解码器第t步的计算状态，e^s，a^s分别代表归一化前后的注意力权重；代表模型需要学习的参数；

(4-3)计算权重参数p_attn，p_gen：

上式代表p_attn，p_gen的计算方法，两者计算公式相同，但参数独立；

(4-4)利用解码器的输出计算词表的概率分布：

其中，代表合并后的编码器输出结果，V，b是模型需要学习的参数。

7.根据权利要求1所述的基于高级语义的文本摘要生成方法，其特征在于，步骤(5)的具体过程为：

(5-2)将注意力权重与词表分布概率进行合并：

其中，p_gen是衡量注意力权重和词表概率的权重参数；