CN109829161A

CN109829161A - 一种多语种自动摘要的方法

Info

Publication number: CN109829161A
Application number: CN201910093268.7A
Authority: CN
Inventors: 赵亚慧; 易志伟; 崔荣一; 孟先艳; 田明杰; 徐凯斌; 杨飞扬; 王琪; 黄政豪; 金国哲; 张振国; 胡荣; 王大千
Original assignee: Yanbian University
Current assignee: Yanbian University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-05-31
Anticipated expiration: 2039-01-30
Also published as: CN109829161B

Abstract

本发明涉及自然语言处理中的文本生成技术领域，具体涉及一种多语种自动摘要的方法，包括整个自动摘要系统，自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块，模型训练模块分为文本预处理模块和训练模块，单文档摘要模块分为文本预处理模块和摘要生成模块，多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块，其中，模型训练模块中的模型为seq2seq神经网络模型，训练文本由“摘要‑标题”对组成，本发明设计并实现一个多语种生成式自动摘要系统，采用双语词嵌入技术和深度学习的方法，对用户指定的文本或文本集生成一个简短摘要，帮助用户浏览原文大意，快速地找到自己最需要的信息。

Description

一种多语种自动摘要的方法

技术领域

本发明涉及自然语言处理中的文本生成技术领域，具体涉及一种多语种自动摘要的方法。

背景技术

文本摘要通常是指从单个或者多个文档中生成一段文本，该文本传达了原始文本中的主要信息，但是仅有不到原始文本一半甚至更少的篇幅。例如，对一个1500字的文本总结出150字的摘要，就可以为读者节省大量阅读时间，同时也起到信息压缩的作用。

根据摘要的生成方法，我们可以把自动摘要分为抽取式摘要(ExtractiveSummarization)和生成式摘要(Abstractive Summarization)。其中，抽取式摘要的特点是摘要中的句子是原文中的句子，又叫做“句子摘录”，而生成式摘要的特点是摘要中的句子不是原文中的句子，是重新生成的新句子。目前占据主导地位的是抽取式摘要，其对不同语言、不同领域、不同风格的文档集都表现出了良好的适应性。而生成式摘要涉及相对复杂的自然语言处理技术，实用性较差，相比抽取式摘要来说研究较少。

目前抽取式摘要主要有以下几种方法：基于统计的自动文摘、基于主题的自动文摘、基于篇章结构的自动文摘、基于机器学习的自动文摘、基于图排序方法的自动文摘。抽取式摘要的主要思想为：按照某种方法对全文中每个句子的重要性进行打分，然后从这些句子中抽取得分排名靠前的一些句子。

生成式摘要主要有以下几种方法：基于语言学知识的方法，基于框架填充信息的方法，基于深度学习的方法。

基于语言学知识的方法利用语言学知识，将句子按照组成成分切割，然后将原句子中的形容词、副词等对表征原句意义不大的词删去，保留剩下的句子主干部分。这种方法对语言学知识要求较高，实际上可以看成是一个“句子压缩”任务。在文献中，王开铸等人(1996)利用深层格关系来表示句子的意义，将一个句子的成分用8个格关系来表示：施事格，受动格，客体格，工具格，方位格，源格，目的格。类似于汉语中的主语、谓语、宾语等句子成分。然后去掉定语、状语、补语等对原句意义影响不大的部分，保留句子的主要成分，最后抽取出重要的句子形成原文的摘要。

基于框架填充的方法主要是针对某个领域，预先写好一个总体框架，然后在该领域的文章中寻找相对应的信息填入框架。例如：杨晓兰等人(1997)提出基于选择生成法的自动文摘系统，通过文本选择分析器对与文摘有关的文本部分进行分析和理解，把与文摘生成有关的概念提取出来，填入预先写好的文摘框架中。文摘生成器根据文摘框架的填充情况生成完整、简洁、可读性好的文摘。这种方法主要是在框架的引导下抽取文档中合适的信息进行填充生成最终的摘要。

深度学习是一类广泛的机器学习技术和架构，是机器学习中一种基于对数据进行表征学习的方法。目前深度学习方法已逐渐在包括自然语言处理的众多领域中被广泛应用。利用深度学习方法对文本生成摘要主要是依靠谷歌研究人员2014年在机器翻译领域提出的“序列到序列(sequence-to-sequence)”模型。该模型在机器翻译、语音识别、视频字幕等研究上取得了不错的效果。自动摘要问题同样可视为从原文本到摘要文本的映射，因此可使用序列到序列建模方法来解决，很多研究者都在”Seq2Seq”模型的基础上加以改进，得到一个效果更好的自动摘要模型。2015年，Rush等人率先提出用一个神经网络语言模型(NNLM)加上注意力机制来对句子生成摘要，将深度学习技术用到了自动摘要上。该方法用大量的“句子-摘要”对训练神经网络模型，产生的是句子级别的生成式摘要。

目前，在多语种自动摘要领域还存在以下需要解决的问题：

(1)传统的抽取式摘要抽取的句子含有大量冗余信息，并且句子之间连贯性不强，可读性较差，而生成式摘要长度较短，冗余性低，句子的概括性强；

(2)基于机器翻译的多语种自动摘要比较简单，将不同语言的文本翻译成一种语言再进行自动摘要，这种方法严重依赖于机器翻译结果的好坏，执行效率较低。

发明内容

针对现有技术的不足，本发明公开了一种多语种自动摘要的方法，采用双语词嵌入技术和深度学习的方法，对用户指定的文本或文本集生成一个简短摘要，帮助用户浏览原文大意，快速地找到自己最需要的信息。

一种多语种自动摘要的方法，包括整个自动摘要系统，所述的自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块，所述的模型训练模块分为文本预处理模块和训练模块，所述的单文档摘要模块分为文本预处理模块和摘要生成模块，所述的多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块，其中，所述的模型训练模块中的模型为seq2seq神经网络模型，所述的模型训练模块下的文本预处理模块中的文本为训练文本且由“摘要-标题”对组成；

优选的，所述的自动摘要系统面向中、朝、英三种语言的科技文献，其中，对单个文本生成一个描述该文本大致内容的自然语言摘要，摘要语言与源文本语言一致；对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要，摘要语言默认为中文；

优选的，所述的seq2seq神经网络模型采用编码端和解码端都是LSTM的结构；

优选的，所述的模型训练模块实现方法包括，

1)将中文的所有训练文本放在一起，分词后建立总的词表，并统计每一个词的词频，每一个词在词表中有一个唯一对应的id；

2)将词频过低的词舍去，并用“<unk>”来替代，构建语料库的词表；

3)将“<unk>”，“<sos>”，“<eos>”这三个词加到词表中；“<sos>”表示句子的开始，“<eos>”表示句子的结束，将摘要的末尾加上“<eos>”，标题的开头加上“<sos>”，标题的末尾加上“<eos>”；

4)将训练文本中的所有词项转换成词表中相对应的id，词表中没有出现的词用“<unk>”的id来替换，构建原始“摘要-标题”对新的表示，新的表示为“数字序列-数字序列”，并交给训练模型，其中，训练文本处理模块的输入是原始训练集，输出是该训练集由词表id构成的新的表示；

5)训练模型用数字组成的“摘要-标题”对来训练，模型的输入端是“摘要”相对应的数字序列，模型的输出端是“标题”相对应的数字序列；

优选的，所述的单文档摘要模块实现方法为，

S1：文本的预处理模块先对文本进行分词，并去除停用词，在每一句结束的时候添加“<eos>”，构造句子序列，最后将每一个词用训练阶段的词表中相对应的id来表示，其中，模块的输入是原始文本，输出是由数字表示的句子序列；

S2：摘要生成模块先对原始文本进行抽取式摘要，抽取出重要的句子；

S3：然后，摘要生成模块将重要的句子的数字序列依次输入到模型，经模型处理后生成句子的摘要，得到文本的摘要，其中，模块的输入是抽取出的重要句子的数字序列，模块的输出是文本的摘要；

优选的，所述的多文档摘要模块实现方法为，

a1：在文本预处理模块中，先对文本进行分词，然后在每一个句子结束的时候添加“<eos>”，分词结束后，将一个句子中每一个词的词向量进行加和，其中，模块的输入是文本，输出是文本中句子的向量；

a2：在多语种句子聚类模块中，给定一个相似度阈值，对文本集中所有句子向量进行凝聚层次聚类，让语义上相近的多语种句子聚类到一起，其中，模块的输入是文本集中所有句子向量集合，输出是文本集中的句子聚类；

a3：在摘要生成模块中，首先从多语种句子聚类中抽出“代表性”句子，对这个句子生成摘要，并用此摘要代表这个聚类的主旨，对有中文句子的聚类使用中文句子的摘要代表这个聚类的主旨，对没有中文句子的聚类，根据该聚类中的朝文或者英文句子的词项，在多语种向量空间中找到与其最接近的中文词项，并给出这些中文的关键词项来代表这个聚类的主旨；

a4：摘要生成模块再对文本集中各个聚类的摘要进行筛选，最终生成文本集的摘要，其中，模块的输入是每个子文本集的句子聚类，输出是子文本集的摘要。

有益效果：本发明设计并实现一个多语种生成式自动摘要系统，采用双语词嵌入技术和深度学习的方法，将不同语言下的词向量映射到同一个空间中，使得语义上相似的词在该空间下分布式接近的，这样就避开了机器翻译技术，将多语种自动摘要就转换为“单语种”自动摘要，并对用户指定的文本或文本集生成一个简短摘要，帮助用户浏览原文大意，快速地找到自己最需要的信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：本发明整体系统框图；

图2：本发明单文档摘要模块实现框图；

图3：本发明多文档摘要模块实现框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本自动摘要系统面向中、朝、英三种语言的科技文献，其中，对单个文本生成一个描述该文本大致内容的自然语言摘要，摘要语言与源文本语言一致；对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要，摘要语言默认为中文。

如图1所示，一种多语种自动摘要的方法模型训练模块的具体实现过程为：

1、首先是模型训练模块，模型训练模块分为训练文本处理模块和训练模型部分，其中，训练文本是由大量的“摘要-标题”对组成；

2、对于中文来说，首先要将中文的所有训练文本放在一起，分词后建立总的词表，并统计每一个词的词频，这样，每一个词在词表中有一个唯一对应的id，为了限制词表的大小，需要将词频过低的词舍去，并用“<unk>”来替代，这样，语料库的词表就构建完成；

3、然后将“<unk>”，“<sos>”，“<eos>”这三个词加到词表中，其中，“<sos>”表示句子的开始，“<eos>”表示句子的结束，并将摘要的末尾加上“<eos>”，标题的开头加上“<sos>”，标题的末尾加上“<eos>”；

4、最后将训练文本中的所有词项转换成词表中相对应的id，词表中没有出现的词用“<unk>”的id来替换，用这样的方法来构建原始“摘要-标题”对新的表示(“数字序列-数字序列”)，交给下一步的训练模型，其中，训练文本处理模块的输入是原始训练集，输出是该训练集由词表id构成的新的表示；

5、训练模型的时候全部是数字组成的“摘要-标题”对来训练，其中，模型的输入端是“摘要”相对应的数字序列，模型的输出端是“标题”相对应的数字序列。

其中，所述的模型训练模块中的模型为seq2seq神经网络模型，采用编码端和解码端都是LSTM的结构，LSTM是RNN(recurrent neural networks)的一种变体，是深度学习中用于处理时序数据的常用技术，LSTM通过设计精巧的网络结构来缓解梯度消失问题，其数学上的形式化表示如下:

在公式中，“:＝”表示“定义为”

sigm代表sigmoid激活函数sigm(z):＝1/(1+exp(-z))；

tanh代表tanh激活函数：

Wxi代表权重矩阵，是通过学习可以修改的；

表示输入门:i_t控制当前词x_t的信息融入记忆单元c_t，在理解一句话时，当前词x_t可能对整句话的意思很重要，也可能并不重要。输入门的目的就是判断当前词x_t对全局的重要性，当i_t开关打开的时候，网络将不考虑当前输入x_t；

表示遗忘门:f_t控制上一时刻记忆单元c_t-1的信息融入记忆单元c_t。在理解一句话时，当前词x_t可能继续延续上文的意思继续描述，也可能从当前词x_t开始描述新的内容，与上文无关。和输入门i_t相反，f_t不对当前词x_t的重要性作判断，而判断的是上一时刻的记忆单元c_t-1对计算当前记忆单元c_t的重要性，当f_t开关打开的时候，网络将不考虑上一时刻的记忆单元c_t-1；

表示输出门:输出门的目的是从记忆单元c_t产生隐层单元h_t，并不是c_t中的全部信息都和隐层单元h_t有关，c_t可能包含了很多对h_t无用的信息，因此，o_t的作用就是判断c_t中哪些部分是对h_t有用的，哪些部分是无用的；

表示记忆单元：c_t综合了当前词x_t和前一时刻记忆单元c_t-1的信息。这和ResNet中的残差逼近思想十分相似，通过从c_t-1到c_t的”短路连接”，梯度得已有效地反向传播，当f_t处于闭合状态时，c_t的梯度可以直接传递到c_t-1，不受参数W的影响，这是LSTM能有效地缓解梯度消失现象的关键所在；

表示t时刻隐层的输出；

符号表示hadamard乘积，是对两个向量进行element-wise乘法，即对应元素相乘；

其中，用训练集中所有的“摘要-标题”对的数字序列来训练这个神经网络模型，训练模块的输入是“摘要-标题”对相对应的数字序列，训练的结果是得到一个可以产生摘要的神经网络模型，对于英文和朝文来说，用同样的方法分别训练，得到三个神经网络模型。

如图2所示，一种多语种自动摘要的方法单文档摘要模块实现过程为：

S1：文本的预处理模块主要是先对文本进行分词，接着和训练阶段的预处理方式一样，在每一句结束的时候添加“<eos>”，构造句子序列，最后将每一个词用训练阶段的词表中相对应的id来表示，其中，模块的输入是原始文本，输出是由数字表示的句子序列；

S2：摘要生成模块主要分为两个部分：首先对原始文本进行抽取式摘要，抽取出重要的句子，抽取法采用TextRank算法：

TextRank算法的公式为：

WS(V_i)：代表句子V_i的得分；

d：阻尼系数，确保每一个句子至少有1-d的分数；

In(V_i)：表示推荐句子V_i的句子；

Out(V_j)：表示句子V_j推荐的句子；

句子之间的推荐，指的是两个句子之间相似度不为0，他们互相推荐；

w_ji：表示句子V_i和V_j之间的相似度；

两个句子之间的相似度计算公式为

S_i和S_j分别代表句子i和句子j；

t_k代表句子中的词项；

分子表示句子i和句子j中，相同词项的个数；

|S_i|和|S_j|分别表示句子i和句子j中词项的个数；

S3：然后将重要的句子的数字序列依次输入到模型，经模型处理后生成句子的摘要，得到文本的摘要，其中，模块的输入是抽取出的重要句子的数字序列，模块的输出是文本的摘要。

如图3所示，一种多语种自动摘要的方法单文档摘要模块实现过程为，

a1：在文本预处理模块中，先对文本进行分词，然后在每一个句子结束的时候添加“<eos>”，与单文档摘要模块中的文本预处理不同的是，在分词结束后，利用多语种词向量来构造每一个句子的句向量，构造句向量的方法是将这个句子中的所有单词的词向量相加，其中，模块的输入是文本，输出是文本中句子的向量；

本发明设计并实现一个多语种生成式自动摘要系统，采用双语词嵌入技术和深度学习的方法，对用户指定的文本或文本集生成一个简短摘要，帮助用户浏览原文大意，快速地找到自己最需要的信息。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多语种自动摘要的方法，其特征在于：包括整个自动摘要系统，所述的自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块，所述的模型训练模块分为文本预处理模块和训练模块，所述的单文档摘要模块分为文本预处理模块和摘要生成模块，所述的多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块，其中，所述的模型训练模块中的模型为seq2seq神经网络模型，所述的模型训练模块下的文本预处理模块中的文本为训练文本且由“摘要-标题”对组成。

2.根据权利要求1所述的多语种自动摘要的方法，其特征在于：所述的自动摘要系统面向中、朝、英三种语言的科技文献，其中，对单个文本生成一个描述该文本大致内容的自然语言摘要，摘要语言与源文本语言一致；对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要，摘要语言默认为中文。

3.根据权利要求1所述的多语种自动摘要的方法，其特征在于：所述的seq2seq神经网络模型采用编码端和解码端都是LSTM的结构。

4.根据权利要求1所述的多语种自动摘要的方法，其特征在于：所述的模型训练模块实现方法包括，

3)将“<unk>”，“<sos>”，“<eos>”这三个词加到词表中；“<sos>”表示句子的开始，“<eos>”表示句子的结束，将摘要的末尾加上“<eos>”，将标题的开头加上“<sos>”，标题的末尾加上“<eos>”；

5)训练模型用数字组成的“摘要-标题”对来训练，模型的输入端是“摘要”相对应的数字序列，模型的输出端是“标题”相对应的数字序列。

5.根据权利要求4所述的多语种自动摘要的方法，其特征在于：所述的单文档摘要模块实现方法为，

S3：然后，摘要生成模块将重要的句子的数字序列依次输入到模型，经模型处理后生成句子的摘要，得到文本的摘要，其中，模块的输入是抽取出的重要句子的数字序列，模块的输出是文本的摘要。

6.根据权利要求2所述的多语种自动摘要的方法，其特征在于：所述的多文档摘要模块实现方法为，

a1：在文本预处理模块中，先对文本进行分词，然后在每一个句子结束的时候添加“<eos>”，分词结束后，利用多语种词向量来构造每一个句子的句向量，其中，模块的输入是文本，输出是文本中句子的向量；