CN113824624B

CN113824624B - 一种邮件标题生成模型的训练方法及邮件标题生成方法

Info

Publication number: CN113824624B
Application number: CN202010563523.2A
Authority: CN
Inventors: 赵露君; 周笑添; 孙常龙; 康杨杨
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2023-10-17
Anticipated expiration: 2040-06-19
Also published as: CN113824624A

Abstract

本发明提出了一种邮件标题生成模型的训练方法及邮件标题生成方法，采用正文编码器将邮件正文的词向量编码为对应时间步骤的第一隐含状态；采用附件信息编码器将邮件附件信息的词向量编码为对应时间步骤的第二隐含状态；采用多头注意力解码器对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码；获得解码后正文编码器对应的第一注意力损失，以及附件信息编码器对应的第二注意力损失；调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量和，得到训练所述标题生成模型；利用历史邮件数据对所述标题生成模型进行训练。再将用户输入的邮件内容输入标题生成模型生成邮件标题。本发明能够自动生成适合电子邮件的高质量标题。

Description

一种邮件标题生成模型的训练方法及邮件标题生成方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种邮件标题生成模型的训练方法及邮件标题生成方法及系统。

背景技术

随着互联网的不断发展，电子邮件的应用已经深入到了工作和生活中。通常情况下，邮件标题是由用户手动填写的，不能自动生成。如果用户不在邮件窗口的标题栏中填写当前邮件的邮件主题内容，则该电子邮件的邮件标题将为空白。但这样对于收件人而言，不能及时了解到邮件的类型、目的、内容等基本信息，也不便于收件人和发件人双方之后对邮件的查阅和管理。

邮件标题自动生成属于文本生成的一种，是基于用户所写的邮件内容(包括正文、附件等)来自动生成标题的文本生成任务。当用户写完正文后，自动给出可能的标题建议。

在最近几年，随着机器学习的快速发展，基于深度神经网络的序列到序列模型(也叫编码器-解码器模型)，已应用于机器翻译、自动文摘、问答等自然语言处理任务中，并且取得了很大的成就。传统的序列到序列是有很多弊端的，首先编码器将输入编码为固定大小状态向量的过程实际上是一个“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，同时，随着序列长度的增加，意味着时间维度上的序列很长，循环神经网络(RNN)模型也会出现梯度弥散。最后，基础的模型连接编码器和解码器模块的组件仅仅是一个固定大小的状态向量，这使得解码器无法直接去关注到输入信息的更多细节。因此，为了解决传统的序列到序列模型中的信息丢失问题，引入注意力机制。

序列到序列+注意力模型模拟人脑的注意力机制，通过对输入的每个部分进行编码表示，每次产生输出时，解码器都会“关注”相关的部分。在实践中，这意味着计算所有编码器隐藏状态的注意权值，然后将加权平均值作为新的上下文向量。但是传统的序列到序列+注意力模型存在以下缺点：

1、RNN无法并行化，文本过长时，所耗费时间成本太高。

2、无法控制attention时的位置，即完全由模型自己学习。

3、输出文本质量不可控。

因此，亟需一种邮件标题生成方案，能够自动生成适合电子邮件的高质量标题，以使得邮件标题自动生成的应用为用户提供良好的用户体验。

发明内容

本发明的一个目的是提供一种邮件标题生成模型的训练方法以及邮件标题生成方法，能够自动生成适合电子邮件的高质量标题，以使得邮件标题自动生成的应用为用户提供良好的用户体验。

为了达到上述目的，本发明的实施例提供了一种邮件标题生成模型的训练方法，包括：

采用带有完全基于注意力机制的多头注意力正文编码器将邮件正文的词向量编码为对应时间步骤的第一隐含状态；

采用带有完全基于注意力机制的多头注意力附件信息编码器将邮件附件信息的词向量编码为对应时间步骤的第二隐含状态；

采用带有完全基于注意力机制的多头注意力解码器对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码；

获得解码后正文编码器对应的第一注意力损失，以及附件信息编码器对应的第二注意力损失；

调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量，得到所述标题生成模型；

采集第一邮件数据，并利用所述第一邮件数据对所述标题生成模型进行训练。

进一步地，对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码，包括：接收前一步骤预测的词向量，并基于注意力机制利用第一隐含状态、第二隐含状态产生第三隐含状态。

进一步地，所述解码器使用复制机制在邮件正文和邮件附件中复制生成邮件标题的词作为所述预测的词向量。

进一步地，在获取邮件数据后，对所述邮件数据进行预处理，所述预处理包括：分词、去除特殊符号、去除噪音、去除HTML标签、去除表格中的一项或多项。

进一步地，所述附件信息包括附件名称；若不存在邮件附件，则采用一个特殊字符代替。

本发明实施例还提供了一种邮件标题生成方法，使用本发明的训练方法训练的标题生成模型为邮件生成标题。

进一步地，所述方法还包括：使用预训练语言模型对生成的邮件标题进行评估；如果评估结果低于预期，则放弃生成的邮件标题；如果评估结果高于预期，则使用生成的邮件标题。

进一步地，所述使用预训练语言模型对生成的邮件标题进行评估，包括：

使用预训练语言模型对生成的邮件标题进行打分；对得分进行几何平均后得到评估结果。

本发明实施例还提供了一种邮件标题生成系统，所述系统包括模型训练装置和标题生成装置，所述模型训练装置包括：

历史数据采集模块，获取第一邮件数据；

模型训练模块，利用所述第一邮件数据对标题生成模型进行训练；其中，所述标题生成模型包括：

正文编码器，基于注意力机制将邮件正文的词向量编码为对应时间步骤的第一隐含状态；

附件信息编码器，基于注意力机制将邮件附件的词向量编码为对应时间步骤的第二隐含状态；

解码器，基于注意力机制对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码；

注意力损失限制器，获得解码后正文编码器对应的第一注意力损失，以及附件信息编码器对应的第二注意力损失；以及，调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量和。

进一步地，所述标题生成装置包括：输入数据获取子模块，用于获取第二邮件数据；邮件标题生成子模块，用于将所述第二邮件数据输入所述标题生成模型生成邮件标题。

本发明实施例还提供了一种计算机程序产品，包括计算机程序指令，当所述指令由处理器执行时，用于实现前述的邮件标题生成模型的训练方法或邮件标题生成方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现前述的邮件标题生成模型的训练方法或邮件标题生成方法。

本发明的有益效果是：本发明提出了一种邮件标题生成方法，使用训练方法训练的标题生成模型为邮件生成标题。其中，所述邮件标题生成模型的训练方法，包括：采用带有完全基于注意力机制的多头注意力正文编码器将邮件正文的词向量编码为对应时间步骤的第一隐含状态；采用带有完全基于注意力机制的多头注意力附件信息编码器将邮件附件信息的词向量编码为对应时间步骤的第二隐含状态；采用带有完全基于注意力机制的多头注意力解码器对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码；获得解码后正文编码器对应的第一注意力损失，以及附件信息编码器对应的第二注意力损失；调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量，得到所述标题生成模型；采集第一邮件数据，并利用所述第一邮件数据对所述标题生成模型进行训练。在实际应用中，本发明使用预训练语言模型来对生成的文本进行评估，能够自动生成适合电子邮件的高质量标题，为用户提供良好的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的实施例一的方法流程图。

图2为本发明的实施例二的方法流程图。

图3为本发明的实施例三的系统的框图。

图4为本发明的标题生成模型的功能框图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于序列到序列技术的邮件标题生成方法和系统，属于基于用户所写的邮件内容(包括正文，附件等)来生成标题的文本生成任务。当用户写完正文后，本发明的系统会自动给出可能的标题建议。

标题生成属于文本生成，但是又区别于一般的文本生成。发明人经过研究发现，邮件正文由于是沟通性质，所以一般来说，用户在写邮件的时候都会首先表明来意，因此头部的信息比其他信息相对重要。同时，在应用到实际的产品中时，本发明采用一个预训练的语言模型来对生成的文本进行打分，以防止生成不可控的文本内容。

实施例一

参阅图1，本发明实施例一提供一种邮件标题生成模型的训练方法，包括：

步骤S101、采用带有完全基于注意力机制的多头注意力正文编码器将邮件正文的词向量编码为对应时间步骤的第一隐含状态。

具体地，正文编码器将输入的正文文本中每个词表示成连续的词嵌入向量，词嵌入可以是通用词嵌入资源也可以是训练语料充足的条件下预训练得到的。然后词向量x_i编码为对应时间步骤的第一隐含状态由于正文可能出现很长的情况，本发明优选N层的带有完全基于注意力机制的多头注意力编码器(Multi-head attention encoder)进行编码，便于并行化。其中多头注意力编码器的计算公式如下：

MultiHead(Q，K，V)＝Concat(head₁，…head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中，Attention()是注意力的计算函数，softmax()表示softmax函数，MultiHead()是多头注意力函数。W_i ^Q，W_i ^K，W_i ^V是可学习权重参数。当用在编码器时，Q，K，V全部一样，比如在这里Q＝K＝V＝X＝[x₁，x₂，…x_n].d_k表示向量x_i的维数。

步骤S102、采用带有完全基于注意力机制的多头注意力附件信息编码器将邮件附件信息的词向量编码为对应时间步骤的第二隐含状态。

附件信息编码器20与正文编码器10类似，附件名称文本中每个词表示成连续的词嵌入向量，然后词向量z_j编码为对应时间步骤的第二隐含状态本发明优选N层的带有完全基于注意力机制的多头注意力编码器(Multi-head attention encoder)进行编码。其中多头注意力编码器的计算公式跟正文编码器一样，区别仅在于Q＝K＝V＝Z＝[z₁，z₂，…z_l]。

优选地，附件信息为附件名称。如果不存在附件的话，可用一个特殊字符代替。

步骤S103、采用带有完全基于注意力机制的多头注意力解码器对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码。

对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码，包括：接收前一步骤预测的词向量，并基于注意力机制利用第一隐含状态、第二隐含状态产生第三隐含状态。所述解码器使用复制机制在邮件正文和邮件附件中复制生成邮件标题的词作为所述预测的词向量。

步骤S104、获得解码后正文编码器对应的第一注意力损失，以及附件信息编码器对应的第二注意力损失。

步骤S105、调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量，得到所述标题生成模型。

步骤S106、采集第一邮件数据，并利用所述第一邮件数据对所述标题生成模型进行训练。

优选地，在获取邮件数据后，对所述邮件数据进行预处理，所述预处理包括：分词、去除特殊符号、去除噪音、去除HTML标签、去除表格中的一项或多项。

实施例二

参阅图2，本发明实施例二提供一种邮件标题生成方法，所述方法包括：模型构建步骤和标题生成步骤。

其中，模型构建步骤属于训练阶段。在训练阶段，基于采集的历史邮件数据，进行数据预处理操作，并构建标题生成模型。优选地，邮件数据包括正文、附件等。

标题生成步骤属于学习阶段。在该阶段，获取用户当前撰写的邮件数据，再通过上述标题生成模型生成邮件标题。

优选地，所述方法还包括语言模型打分步骤，利用语言模型来评估生成文本的通顺性。文本生成模型生成的文本有时会出现不断重复的文本，这样的文本在应用到产品时，显然是不可用的。因此本发明收集了历史邮箱标题数据，基于这批数据预训练了语言模型。语言模型可以对生成的文本进行打分评估，当得分低于一个固定的阈值时，就表明此时生成的标题是不可用的。此时，可通过采样的方法重新生成标题。

由于语言模型输出的打分为每一个词的概率乘积，会受到文本长度的影响，因此还需要对该得分进行几何平均，来得到最终的分数。

实施例三

参阅图3，本发明实施例三提供一种邮件标题生成系统300，所述系统包括：模型训练装置301和标题生成装置302。

所述模型训练装置301包括：历史数据采集模块，用于获取第一邮件数据；模型训练模块，用于利用所述第一邮件数据对标题生成模型进行训练。

其中，所述标题生成模型如图4所示，包括：正文编码器10、附件信息编码器20、标题解码器30、复制器40和注意力损失限制器50。

正文编码器10将输入的正文文本中每个词表示成连续的词嵌入向量，词嵌入可以是通用词嵌入资源也可以是训练语料充足的条件下预训练得到的。然后词向量x_i编码为对应时间步骤的第一隐含状态由于正文可能出现很长的情况，本发明优选N层的带有完全基于注意力机制的多头注意力编码器(Multi-head attention encoder)进行编码，便于并行化。其中多头注意力编码器的计算公式如下：

MultiHead(Q，K，V)＝Concat(head₁，…head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

附件信息编码器20与正文编码器10类似，附件信息(如果有的话)通常也非常重要。优选地，附件信息为附件名称。如果不存在附件的话，可用一个特殊字符代替。同正文编码器，附件名称文本中每个词表示成连续的词嵌入向量，然后词向量z_j编码为对应时间步骤的第二隐含状态本发明优选N层的带有完全基于注意力机制的多头注意力编码器(Multi-head attention encoder)进行编码。其中多头注意力编码器的计算公式跟正文编码器10一样，区别仅在于Q＝K＝V＝Z＝[z₁，z₂，…z_l]。

标题解码器30为带有完全基于注意力机制的多头注意力解码器(Multi-headattention decoder)，用于生成邮件标题文本内容。这里使用了mask机制来使得生成文本时只是基于已经生成的词。在每一个生成步骤k，解码器接收前一步骤预测的词向量y_k-1作为当前步骤的输入，并且产生隐含状态

复制器40利用以及/>分别从正文和附件中参考内容生成当前步骤的邮件标题词向量y_k。由于标题文本中的信息很有可能是正文或者附件中出现过的内容，因此在产生标题文本时，采用了复制机制。除了从正文中进行复制，还可以从附件名称进行复制。每个步骤k，都是基于输入/>这里涉及了两个复制得分函数分别从正文和附件中参考内容，并综合考虑生成当前步骤的词y_k。两个复制得分函数的计算公式如下：

之后，根据如下概率公式来生成得到y_i：

其中是生成得分函数，上述公式出现的W和b都是可学习参数。是独热向量，只在x_i的位置是1，其余位置是0。

注意力损失限制器50对正文信息的权重向量/>和附件名称信息/>的权重向量/>进行限制，以使得注意力集中在正文头部和附件名称。在正文中，通常头部的文本会相对重要。如果有附件的话，通常附件的名称也很重要。注意力损失函数为：

其中，λ_x和λ_z是正则化参数，和/>是预先定义好的权重向量。其中σ是sigmoid函数，n是正文词的个数。

所述标题生成装置302包括：输入数据获取模块，用于获取第二邮件数据；邮件标题生成模块，用于将所述第二邮件数据输入所述标题生成模型生成邮件标题。

优选地，所述系统还包括语言模型打分模块303，用于对生成的邮件标题进行打分，得分为每一个词拼接质量的概率乘积，对该得分进行几何平均，得到最终的分数。

优选地，历史数据采集子模块的作用是给邮件标题生成模型的构建提供训练语料。输入来源来自邮箱下的邮件文本数据，包括：邮件的标题，邮件正文，以及附件(如果有的话)信息。数据可以以(邮件标题，邮件正文，附件信息)的三元组的格式存储于数据库中。

优选地，在获取邮件数据后，对所述邮件数据进行预处理。普通文本语料的预处理类似，邮件数据也需要对文本数据进行分词、去除特殊符号和噪音。此外，由于邮件是html格式，还需要去除掉大量的html标签。邮件中还可能含有表格等内容，而这部分内容与邮件标题大多没有直接关系。故也需一并去除掉。

所属领域的技术人员可以清楚的了解到，为了描述的方便和简洁，上述描述的装置、模块和单元的具体工作过程，可以参考前述方法实施例的对应过程，在此不再赘述。

本发明实施例还公开了一种计算机程序产品，包括计算机程序指令，当指令由处理器执行时，用于实现如实施例一至二的方法。

本发明实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现如实施例一至二的方法。

附图中的流程图和框图显示了根据本发明的多个实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图和框图中的每个方框可以代表一个模块、程序段或代码的一部分，包含一个或多个用于实现逻辑功能的计算机可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是，框图和流程图中的每个方框或方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明，上述实施例仅是为说明所作的举例，而并非对实施方式的限定。对于本领域技术人员来说，在上述说明的基础上，还可以做出其它不同形式的变化或变动，而这些变化或变动将是显而易见的，处于本发明的保护范围之中。

Claims

1.一种邮件标题生成模型的训练方法，其特征在于，包括：

调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量，以使得注意力集中在所述邮件正文的头部和所述邮件附件的名称，从而得到所述标题生成模型；

2.根据权利要求1所述的方法，其特征在于，对所述邮件正文词向量编码以及所述邮件附件的词向量编码进行解码，包括：接收前一步骤预测的词向量，并基于注意力机制利用第一隐含状态、第二隐含状态产生第三隐含状态。

3.根据权利要求2所述的方法，其特征在于，所述解码器使用复制机制在邮件正文和邮件附件中复制生成邮件标题的词作为所述预测的词向量。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：在获取邮件数据后，对所述邮件数据进行预处理，所述预处理包括：分词、去除特殊符号、去除噪音、去除HTML标签、去除表格中的一项或多项。

5.如权利要求1所述的方法，其特征在于，所述附件信息包括附件名称；若不存在邮件附件，则采用一个特殊字符代替。

6.一种邮件标题生成方法，其特征在于，使用如权利要求1-5任一项所述的方法训练的标题生成模型为邮件生成标题。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

使用预训练语言模型对生成的邮件标题进行评估；

如果评估结果低于预期，则放弃生成的邮件标题；

如果评估结果高于预期，则使用生成的邮件标题。

8.根据权利要求7所述的方法，其特征在于，所述使用预训练语言模型对生成的邮件标题进行评估，包括：

使用预训练语言模型对生成的邮件标题进行打分；

对得分进行几何平均后得到评估结果。

9.一种邮件标题生成系统，所述系统包括模型训练装置和标题生成装置，其特征在于，所述模型训练装置包括：

历史数据采集模块，获取第一邮件数据；

注意力损失限制器，获得解码后正文编码器对应的第一注意力损失，以及附件信息编码器对应的第二注意力损失；以及，调节所述第一注意力损失和第二注意力损失分别对应的注意力权重向量，以使得注意力集中在所述邮件正文的头部和所述邮件附件的名称。

10.根据权利要求9所述的系统，其特征在于，所述解码器接收前一步骤预测的词向量，并基于注意力机制利用第一隐含状态、第二隐含状态产生第三隐含状态，且使用复制机制在邮件正文和邮件附件中复制生成邮件标题的词作为所述预测的词向量。

11.根据权利要求9所述的系统，其特征在于，所述标题生成装置包括：输入数据获取子模块，用于获取第二邮件数据；邮件标题生成子模块，用于将所述第二邮件数据输入所述标题生成模型生成邮件标题。

12.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-5中任一项所述的邮件标题生成模型的训练方法或如权利要求6-8中任一项所述的邮件标题生成方法。