CN111339763B

CN111339763B - 一种基于多层级神经网络的英文邮件主题生成方法

Info

Publication number: CN111339763B
Application number: CN202010119380.6A
Authority: CN
Inventors: 吕建成; 薛明峰; 彭德中; 杨可心; 孙亚楠; 桑永胜; 贺喆南
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2022-06-28
Anticipated expiration: 2040-02-26
Also published as: CN111339763A

Abstract

本发明提供了一种基于多层级神经网络的英文邮件主题生成方法，本发明提出了基于Transformer的融合词、句、全文多级信息的多层级网络结构，从抽取到生成，逐步凝练邮件信息并生成最终结果，本发明将邮件正文输入抽取器，输出抽取的句子与全文表达，通过TextRank关键词提取器提取的关键词与抽取的句子、全文表达共同输入摘要器，输出主题。本发明提出了使用关键词、全文信息和邮件重要句信息智能生成邮件主题的方案，综合考虑了邮件的字词、句、全文三个级别的信息；本发明在主题生成任务中使用ElMo算法和拷贝技术，解决由于邮件易见词典外单词而引起的编码与输出偏差问题。

Description

一种基于多层级神经网络的英文邮件主题生成方法

技术领域

本发明属于邮件生成技术领域，尤其涉及一种基于多层级神经网络的英文邮件主题生成方法。

背景技术

邮件是人们生活工作中的一种重要交流方式，尤其在工作中，很多重要的信息都通过邮件进行通知和交流。同时，大量网站和公司利用邮件投放广告，更有甚者，少数不法分子利用邮件进行诈骗。在现实生活中，人们往往忽略邮件主题的作用，在写邮件时不添加主题或者随意填写与内容相关性不高的主题。伴随着大量垃圾邮件和无主题的邮件，人们每天需要花费大量时间阅读和处理邮件。为了解决这一问题，我们使用一种分层的深度学习方法，根据邮件正文内容智能生成相对应的邮件主题，在写和读邮件时，简练而智能地生成主题能够节省撰写和阅读时间，在邮件的分类和垃圾邮件识别等任务中，智能生成主题能够凝练邮件的内容，对邮件进行信息压缩，为后续工作提供高层次的语义信息。因此，智能地生成邮件主题有着重要的意义。

深度神经网络模拟人脑的神经元工作，利用大量的数据对数据的特征进行提取和学习，通过计算深度神经网络生成的结果与真实结果之间的偏差，来对神经网络的参数进行调整，从而达到训练神经网络的目的。目前，针对自然语言处理的问题已经有了大量的深度神经网络模型，代表性的RNN网络、Transformer等都在文本的分类、生成等任务上取得了不错的结果。目前，邮件主题生成方案中，可以发现有以下缺点：1、重要句子索引过程只考虑单词的重复，正文中同一单词出现次数可能很多，重要句子信息过于冗余。2、使用LSTM作为摘要器，对长句子处理效果不好，容易产生遗忘，导致准确率降低。3、摘要过程没有考虑邮件中除主题外的关键单词与全文信息的利用，导致部分重要信息无法捕捉。4、使用固定的word embedding方法对单词进行编码，在输入中无法处理已有词典外的新单词。邮件主题生成与文章的自动摘要具有一定的相似性，不过邮件主题更为凝练，通常为几个单词，而文章摘要则通常有几十到一百个单词，可见主题生成的任务需要对正文信息进行高度压缩。在实现方法上，有一些自动摘要方案与我们的方案具有一定的相似性，现在列出进行比较。

“SummaRuNNer:A Recurrent Neural Network based Sequence Model forExtractive Summarization of Documents”一文中使用rouge分数排序来标记重要句子，但是使用了LSTM作为摘要器。“A Unified Model for Extractive and AbstractiveSummarization using Inconsistency Loss”一文使用按rouge分数逐句加入的方法标记重要句子，但是使用了Pointer-generator network作为摘要器，只能从输入拷贝单词，生成能力较弱。“On Extractive and Abstractive Neural Document Summarization withTransformer Language Models”使用了Transformer作为摘要器，但是也存在着以上几个方案都存在的问题：邮件中易出现特定的时间、地点、人名等，而为了保证神经网络的效率与准确性，这些信息不会加入词典，以上模型使用了传统word embedding方法而无法表示词典外单词，导致大量未知节点作为输入，降低了模型性能；忽略了关键词级别和全文级别的语义信息。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于多层级神经网络的英文邮件主题生成方法解决了上述不足的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于多层级神经网络的英文邮件主题生成方法，包括以下步骤：

S1、根据获取的英文邮件数据中出现的单词顺序构建词典，并建立单词和单词索引的映射；

S2、将英文邮件的正文输入至抽取器，并利用抽取器抽取其部分句子，得到句子在英文邮件正文中的索引；

S3、根据步骤S2得到的索引以及通过Rouge分数抽取的重要句子的索引，计算得到第一偏差，并将所述第一偏差作为更新抽取器的参数；

S4、判断抽取器的参数是否收敛，若是，则进入步骤S5，否则，返回步骤S3；

S5、利用TextRank关键词提取器提取英文邮件正文中的关键词；

S6、将抽取器抽取的重要句子表达进行平均池化处理，并将经平均池化处理后的重要句子表达进行拼接，得到全文信息表达；

S7、将通过Rouge分数抽取的重要句子、邮件正文中的关键词以及全文信息表达输入至摘要器的生成端和拷贝端，并根据所述词典以及单词和单词索引的映射，利用生成和拷贝机制生成英文邮件主题；

S8、根据所述英文邮件主题与其对应的真实主题，计算得到第二偏差，并利用所述第二偏差反向更新摘要器的参数；

S9、判断摘要器的参数是否收敛，若是，则训练结束，利用摘要器生成英文邮件主题，否则，返回步骤S8。

进一步地，所述步骤S2包括以下步骤：

A1、根据英文邮件正文中的每个句子，利用ELMo算法计算得到所有单词的embedding编码表示；

A2、根据所述单词的embedding编码表示利用单词层双向LSTM，获取每个单词的隐层表示；

A3、将每个句子中单词的最后时刻隐层表示进行平均池化处理，并将单词层双向LSTM中两个方向的隐层表示进行拼接处理；

A4、将经平均池化处理后的隐层表示以及经拼接处理后的隐层表示传入句子层双向LSTM，得到句子的隐层表示；

A5、将句子层双向LSTM两个方向的句子隐层表示进行拼接处理，得到全文表达；

A6、将每个句子在句子层的最后时刻隐层表示与平均池化后的全文表达进行拼接，并将拼接后的结果传入至全连接层进行二分类处理；

A7、根据分类结果表示提取被抽取句子的索引，并进入步骤S3。

再进一步地，所述步骤A7具体为：

若分类结果表示为1，则抽取该句子的索引，得到句子在英文邮件正文中的索引，并进入步骤S3；若分类结果表示为0，则不抽取，并进入步骤S3。

再进一步地，所述步骤S3中通过Rouge分数抽取重要句子的索引，包括以下步骤：

B1、根据英文邮件正文中的每一个句子以及真实主题计算得到Rouge分数，并按照Rouge分数从高到低进行排序；

B2、检查所述Rouge分数不为0的句子数量是否超过5个，若是，则选取Rouge分数从高到低的前5句作为抽取的重要句子，并获取对应的索引，否则，选取所有Rouge分数不为0的句子作为抽取的重要句子，并获取对应的索引。

再进一步地，所述步骤S7中的利用生成和拷贝机制生成英文邮件主题包括以下步骤：

C1、将通过Rouge分数抽取的重要句子、邮件正文中的关键词以及全文信息表达输入至摘要器，利用生成和拷贝机制得到最终生成结果P_final；

C2、根据所述最终生成结果P_final将每个位置单词出现的概率进行区分，形成概率列表；

C3、从所述概率列表中找到每个位置的单词出现概率最大的单词索引，并在所述词典中找到对应索引映射的单词；

C4、将所有单词映射完毕，组成句子，并将所述组成的句子作为最终生成的英文邮件主题。

再进一步地，所述步骤C1包括以下步骤：

D1、根据摘要器生成端中Encoder-多头注意力层的输出与其拷贝端中部分主题Decoder层的输出，计算得到注意力信息Attn；

D2、将所述注意力信息Attn与上下文信息输入至全连接网络，得到生成概率P；

D3、利用摘要器的拷贝端将所述注意力信息Attn进行归一化处理，得到拷贝结果分布概率P_copy；

D4、根据摘要器中部分主题Decoder层输出的生成结果概率分布P_gene、拷贝结果分布概率P_copy以及生成概率P，计算得到最终生成结果。

再进一步地，所述步骤D4中最终生成结果P_final的表达式如下：

P_final＝(1-P)*P_copy+P*P_gene

其中，P表示生成概率，P_copy表示注意力信息Attn作为拷贝结果概率分布，P_gene表示部分主题Decoder的计算输出作为生成结果概率分布。

本发明的有益效果：

(1)本发明提供了一种基于多层级神经网络的英文邮件主题生成方法，本发明将邮件正文输入抽取器，输出抽取的句子与全文表达，通过TextRank关键词提取器提取的关键词与抽取的句子、全文表达共同输入摘要器，输出主题。本发明提出了使用关键词、全文信息和邮件重要句信息智能生成邮件主题的方案，综合考虑了邮件的字词、句、全文三个级别的信息，有效地提高了模型输出的准确率；

(2)本发明中重要句子索引采取选择适当数目Rouge分数较高的句子，使得重要句子提取更为简练准确，同时减小了模型计算量；

(3)本发明中使用Transformer作为摘要器，其能对长句子也可以进行很好的建模；

(4)本发明中在摘要器中融入邮件关键字和全文信息的高层语义表达，信息利用充分；

(5)本发明中使用ELMo算法对单词进行编码，可处理所有单词，且融合了句子上下文信息，编码更为准确，鲁棒性更强；

(6)本发明使用拷贝机制输出词典外单词，使得输出可选性与准确性更高。

附图说明

图1为本发明的方法流程图。

图2为本发明的方法流程框图。

图3为本发明中抽取器的网络结构图。

图4为本发明中摘要器的网络结构图。

图5为本发明中拷贝机制的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

如图1-2所示，本发明提供了一种基于多层级神经网络的英文邮件主题生成方法，其实现方法如下：

S2、将英文邮件的正文输入至抽取器，并利用抽取器抽取其部分句子，得到句子在英文邮件正文中的索引，其实现方法如下：

A2、根据单词的embedding编码表示利用单词层双向LSTM，获取每个单词的隐层表示；

A6、将每个句子在句子层的最后时刻隐层表示与平均池化后的全文表达进行拼接，并将拼接后的结果传入至全连接层进行二分类处理，得到分类结果表示；

A7、根据所述分类结果表示提取被抽取句子的索引，并进入步骤S3，其具体为：若分类结果表示为1，则抽取该句子的索引，得到句子在英文邮件正文中的索引，并进入步骤S3；若分类结果表示为0，则不抽取，并进入步骤S3。

本实施例中，如图2所示，图中s1-s5分别表示邮件正文中的句子，w1和w2为关键词提取器提取的关键词。在训练阶段，抽取器和摘要器分开训练，训练抽取器时，将邮件正文输入抽取器，抽取器抽取其中信息量较为丰富的部分句子，得到结果为句子在正文中的索引。将索引与通过rouge分数抽取的重要句子索引计算偏差作为抽取器的损失更新抽取器的参数，直至参数收敛。训练摘要器时，通过TextRank关键词提取器获得邮件中的几个关键词，将抽取器的句子表达进行平均池化并连接得到全文表达，将通过rouge分数抽取的重要句子、关键词和全文表达输入摘要器，摘要器逐步生成主题，将主题与对应的真实主题计算偏差作为摘要器的损失，反向更新摘要器的参数，直至参数收敛。至此，训练结束。在使用阶段，不进行图中的偏差计算与更新参数过程，输入摘要器的句子为抽取器输出的句子。即整体流程为将邮件正文输入抽取器，输出抽取的句子与全文表达，通过TextRank输出关键词并与抽取的句子、全文表达共同输入摘要器，输出主题。

本实施例中，如图3所示，图3为抽取器的网络结构图，图中双向横线表示双向LSTM结构，句子1、2、3表示一个邮件中的多个句子，w1-w6分别为句子1、2、3中的单词。将邮件每个句子通过ELMo算法获得所有单词的embedding编码表示；将单词编码表示通过单词层双向LSTM，获得每个单词的隐层表示；将句子中单词的最后时刻隐层表示平均池化，并将双向LSTM两个方向的隐层拼接并传入句子层双向LSTM，获得句子的隐层表示；将句子层双向LSTM两个方向的隐层拼接得到全文表达；将每个句子的最后时刻隐层与平均池化后的全文表达拼接并传入全连接层进行二分类，得到的结果表示该句是否被抽取。在训练过程中，全连接层输出的结果将与标记的重要句子计算偏差，损失函数使用二分类交叉熵损失函数。

S3、根据步骤S2得到的索引以及通过Rouge分数抽取的重要句子的索引，计算得到第一偏差，并将第一偏差作为更新抽取器的参数；其中,通过Rouge分数抽取重要句子的索引，包括以下步骤：

B2、检查Rouge分数不为0的句子数量是否超过5个，若是，则选取Rouge分数从高到低的前5句作为抽取的重要句子，并获取对应的索引，否则，选取所有Rouge分数不为0的句子作为抽取的重要句子，并获取对应的索引；

S5、利用TextRank关键词提取器提取英文邮件正文中的关键词；

S7、将通过Rouge分数抽取的重要句子、邮件正文中的关键词以及全文信息表达输入至摘要器的生成端和拷贝端，并根据词典以及单词和单词索引的映射，利用生成和拷贝机制生成英文邮件主题，其实现方法如下：

C1、将通过Rouge分数抽取的重要句子、邮件正文中的关键词以及全文信息表达输入至摘要器，利用生成和拷贝机制得到最终生成结果P_final，其实现方法如下：

D2、将注意力信息Attn与上下文信息输入至全连接网络，得到生成概率P；

D3、利用摘要器的拷贝端将注意力信息Attn进行归一化处理，得到拷贝结果分布概率P_copy；

D4、根据摘要器中部分主题Decoder层输出的生成结果概率分布P_gene、拷贝结果分布概率P_copy以及生成概率P，计算得到最终生成结果；

C2、根据最终生成结果P_final将每个位置单词出现的概率进行区分，形成概率列表；

C4、将所有单词映射完毕，组成句子，并将组成的句子作为最终生成的英文邮件主题；

最终生成结果P_final的表达式如下：

P_final＝(1-P)*P_copy+P*P_gene

其中，P表示生成概率，P_copy表示注意力信息Attn作为拷贝结果概率分布，P_gene表示部分主题Decoder的计算输出作为生成结果概率分布；

S8、根据英文邮件主题与其对应的真实主题，计算得到第二偏差，并利用第二偏差反向更新摘要器的参数；

本实施例中，如图4所示，摘要器是Encoder-Decoder结构，Encoder将邮件正文编码为向量表示，Decoder则生成主题，其中，融入了抽取器计算得到的全文表达和关键词通过另一个Encoder得到的关键词表达，因为关键词之间并无词序关系，所以该Encoder不使用位置编码。

本实施例中，如图5所示，拷贝机制允许摘要器从输入的邮件正文中直接拷贝单词作为当前时间步的输出，该输出可以在当前词典之外，拷贝机制在邮件中含有词典外重要名词时效果明显，而邮件中易出现特定的地点、时间、人名等，故拷贝机制非常重要。如图5所示，根据摘要器Encoder的多头注意力与部分主题计算得到的输出Output计算注意力信息Attn，再将该注意力信息与输出Output共同输入全连接网络得到生成概率P。注意力信息Attn作为拷贝结果概率分布P_copy，Decoder计算输出作为生成结果概率分布P_gene，得到最终结果概率分布P_final。

S9、判断摘要器的参数是否收敛，若是，则利用摘要器生成英文邮件主题，否则，返回步骤S8。

本发明通过以上设计，提出了基于Transformer的融合词、句、全文多级信息的多层级网络结构，从抽取到生成，逐步凝练邮件信息并生成最终结果，本发明将邮件正文输入抽取器，输出抽取的句子与全文表达，通过TextRank关键词提取器提取的关键词与抽取的句子、全文表达共同输入摘要器，最后输出主题，提高了模型输出的准确率，以及减少了模型的计算难度。

Claims

1.一种基于多层级神经网络的英文邮件主题生成方法，其特征在于，包括以下步骤：

S5、利用TextRank关键词提取器提取英文邮件正文中的关键词；

所述步骤S7中的利用生成和拷贝机制生成英文邮件主题包括以下步骤：

C1、将通过Rouge分数抽取的重要句子、邮件正文中的关键词以及全文信息表达输入至摘要器，利用生成和拷贝机制得到最终生成结果P _final；

C2、根据所述最终生成结果P _final将每个位置单词出现的概率进行区分，形成概率列表；

C4、将所有单词映射完毕，组成句子，并将所述组成的句子作为最终生成的英文邮件主题；

所述步骤C1包括以下步骤：

D3、利用摘要器的拷贝端将所述注意力信息Attn进行归一化处理，得到拷贝结果分布概率P _copy；

D4、根据摘要器中部分主题Decoder层输出的生成结果概率分布P _gene、拷贝结果分布概率P _copy以及生成概率P，计算得到最终生成结果P _final；

2.根据权利要求1所述的基于多层级神经网络的英文邮件主题生成方法，其特征在于，所述步骤S2包括以下步骤：

A7、根据所述分类结果表示提取被抽取句子的索引，并进入步骤S3。

3.根据权利要求2所述的基于多层级神经网络的英文邮件主题生成方法，其特征在于，所述步骤A7具体为：

4.根据权利要求1所述的基于多层级神经网络的英文邮件主题生成方法，其特征在于，所述步骤S3中通过Rouge分数抽取重要句子的索引，包括以下步骤：

5.根据权利要求1所述的基于多层级神经网络的英文邮件主题生成方法，其特征在于，所述步骤D4中最终生成结果P _final的表达式如下：

P _final=（1-P）*P _copy+P*P _gene

其中，P表示生成概率，P _copy表示注意力信息Attn作为拷贝结果概率分布，P _gene表示部分主题Decoder的计算输出作为生成结果概率分布。