CN112182231A

CN112182231A - 基于句向量预训练模型的文本处理方法、系统及存储介质

Info

Publication number: CN112182231A
Application number: CN202011374764.9A
Authority: CN
Inventors: 姜磊; 欧阳滨滨; 陈南山
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-01-05
Anticipated expiration: 2040-12-01
Also published as: CN112182231B

Abstract

本发明涉及对话文本处理技术，具体为基于句向量预训练模型的对话文本处理方法、系统及存储介质，包括：对对话文本进行符号化处理；对符号矩阵进行词嵌入，将符号矩阵中的元素转化成对应的词向量，形成对应的词嵌入张量；对词嵌入张量中每个文本行对应的矩阵进行降维处理，形成降维矩阵；对降维矩阵进行随机掩盖，把降维矩阵中的句向量替换成掩盖向量，然后堆叠多层多头自注意力层；优化预训练模型的各个可训练参数，使被掩盖的句向量的损失值最小；使用优化后的预训练模型，构建预测模型以处理对话文本。本发明解决了现有的预训练模型不适用于长对话文本的问题；相较于非预训练模型，本发明则能大大减少所需的标注量，节约人工成本。

Description

基于句向量预训练模型的文本处理方法、系统及存储介质

技术领域

本发明属于对话文本处理技术，具体为基于句向量预训练模型的文本处理方法、系统及存储介质。

背景技术

对话文本一般由多句对话构成，对话的典型场景为客服中心的坐席为客户提供服务或进行营销的对话过程。从总字数来看，对话文本往往有数千字之多，属于长文本。从对话文本中挖掘有价值的信息越来越受到政府、企业的重视，也成为国内外一个重要的研究课题。

神经网络作为重点研究的技术，在2018年谷歌开源BERT预训练模型之后，BERT模型在许多开源数据集上都取得了SOTA（state of the art），特别是在小数据集上表现更为优异。这让业界看到了预训练模型在提升模型表现与减少人工标注上的巨大潜力。

但是现有的预训练模型都是基于字或者词的粒度的，即将字或词用向量表示。这就使得模型可以涵盖的文本长度较短，例如BERT（Bidirectional EncoderRepresentations from Transformers）模型一般只能容纳512个字，无法很好地处理长文本，影响最终应用效果。

发明内容

为了解决现有技术所存在的问题，本发明提供基于句向量预训练模型的文本处理方法、系统及存储介质，根据对话文本为由多个句子构成的长文本这一特点，将句子转化成句向量的方式，大大提升了模型可涵盖的字数，使得模型可处理的文本长度大大增加的同时又具有预训练模型所具有的优点。

根据本发明的基于句向量预训练模型的文本处理方法，包括以下步骤：

S1、对对话文本进行符号化处理，将对话文本转化成符号矩阵[j,w]，矩阵的元素为符号；其中j表示将对话文本转化成一问一答的文本行数量，w表示每个文本行分词后形成的符号数量；

S2、随机初始化一个矩阵，对符号矩阵进行词嵌入，将符号矩阵中的元素转化成对应的词向量，形成对应的词嵌入张量；

S3、对词嵌入张量中每个文本行对应的矩阵进行降维处理，形成降维矩阵D，降维矩阵由降维后的句向量构成；

S4、按照预设的掩盖几率对降维矩阵进行随机掩盖，把降维矩阵中的句向量替换成掩盖向量，生成新的矩阵；

S5、在所生成的新矩阵后堆叠多层多头自注意力层；

S6、计算步骤S4中被掩盖的句向量的损失值；

S7、优化预训练模型的各个可训练参数，使被掩盖的句向量的损失值最小；

S8、保存预训练模型；

S9、使用优化后的预训练模型，构建预测模型；所构建的预测模型包括预训练网络和用于执行下游任务的下游网络，其中预训练网络采用所保存的预训练模型；

S10、调用预测模型，对需要预测的对话文本进行处理。

根据本发明的基于句向量预训练模型的文本处理系统，包括：

符号化处理模块，用于对对话文本进行符号化处理，将对话文本转化成符号矩阵[j,w]，矩阵的元素为符号；其中j表示将对话文本转化成一问一答的文本行数量，w表示每个文本行分词后形成的符号数量；

词嵌入模块，用于随机初始化一个矩阵，对符号矩阵进行词嵌入，将符号矩阵中的元素转化成对应的词向量，形成对应的词嵌入张量；

降维处理模块，用于对词嵌入张量中每个文本行对应的矩阵进行降维处理，形成降维矩阵D，降维矩阵由降维后的句向量构成；

随机掩盖模块，按照预设的掩盖几率对降维矩阵进行随机掩盖，把降维矩阵中的句向量替换成掩盖向量，生成新的矩阵；

损失值计算模块，在所生成的新矩阵后堆叠多层多头自注意力层，取最后一层多头自注意力层的输出记为矩阵O；根据被掩盖的句向量的数量、降维矩阵D及矩阵O，计算被掩盖的句向量的损失值；

预训练模型优化模块，用于优化预训练模型的各个可训练参数，使被掩盖的句向量的损失值最小，并保存预训练模型；

预测模型构建模块，使用优化后的预训练模型，构建预测模型；所构建的预测模型包括预训练网络和用于执行下游任务的下游网络，其中预训练网络采用所保存的预训练模型；

文本处理模块，调用预测模型，对需要预测的对话文本进行处理。

本发明的存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现上述文本处理方法的步骤S1-S10。

从以上技术方案可知，本发明与现有技术相比，具有如下有益效果：

1、与非预训练模型对比，本发明采用的上下文相关的对话文本句向量模型属于预训练模型，能从海量的无标注数据中用非监督学习的方式获得大量与文本有关的信息，从而大大提高下游模型的准确性。换句话说，就是相较于非预训练模型同等标注量的情况下，本发明所采用的预训练模型准确度更高，而同等准确度的情况下，需要的标注数据量更少。

2、与现有预训练模型相比，本发明可处理的文本长度更长。本发明的句向量模型，根据对话文本为由多个句子构成的长文本这一特点，将句子用向量进行表示，大大提升了模型可涵盖的字数，使得模型可处理的文本长度大大增加的同时又具有预训练模型所具有的优点。而业界常用的模型，例如BERT等，都是将字或词用向量表示。所以本发明的预训练模型比其他预训练模型能处理更长的文本，例如BERT可以处理长度为512个字的文本，而同等配置的条件下，本发明的预训练模型则可以处理长度为512句话的文本。由于这个特点，使得本发明的预训练模型可以处理其他预训练模型不可处理的对话长文本。

3、与现有预训练模型相比，本发明的处理速度更快。假设其他预训练模型通过一些技巧解决了文本长度的问题，本发明也仍具有处理速度更快的优势。本发明将句子用向量表示，所以一批量可以处理多篇文章，而一般的预训练模型将字或词用向量表示，所以一批量只能处理多句话。很明显，本发明的预训练处理速度比一般的预训练模型快了一个数量级。

4、与现有预训练模型相比，本发明的准确度更高。一般的预训练模型将字或词进行向量化表示，所以只能关注到有限长度的范围内的上下文信息，对于范围外的上下文信息是无法关注到的，所以无法完全解决文本的多意问题（同样或者相似的段落由于其所在的上下文不同而代表的意义不同，但是这个段落的向量表示却相同）。相反的，本发明的预训练模型将句子用向量表示，对整篇文章进行建模，所以在句子向量化表示的过程中考虑了句子的上下文信息；如果上下文发生变化，本发明中句子的向量表示也会相应地发生变化，解决了现有预训练模型中所存在的多意问题；从而下游任务得到的句子的向量表示是更准确的，更容易提升下游模型的准确度。

附图说明

图1是本发明文本处理方法的流程图；

图2是本发明文本处理方法中符号化的过程示意图。

具体实施方式

下面将结合实施例及附图来进一步详细说明本发明，但本发明的实施方式不限于此。

实施例

本实施例采用来自于客服中心坐席与客户的对话语音转写文本的语料，其文本处理方法包括以下步骤：

S1、对对话文本进行符号化处理，将对话文本转化成符号矩阵[j,w]，矩阵的元素为符号；其中j表示将对话文本转化成一问一答的文本行数量，w表示每个文本行分词后形成的符号数量。

本步骤对清洗后的数据进行符号化处理。其中数据清洗过程主要是将重复数据、异常数据去除。

S11、将对话文本转化成一问一答的文本行构成的列表，转化所形成的文本行列表中包括多个文本行。

设定每个对话文本的文本行数为j，如果文本行数量超过j，那么就截取前j行文本行，忽略第j行以后的文本内容；如果文本行数量不足j，那就用特殊符号“[PAD]”进行填充。

本发明中的文本行可以看成一种特殊的“句子”。文本行指在文本上对话双方一次回应所包括的文本内容，包含一个或多个自然句，例如在对话文本中：

甲：“您好，您的账单详情已通过短信发到您的预留手机号。”

乙：“好的。已收到，谢谢。另外，我想再查一下我的积分有多少”

其中“您好，您的账单详情已通过短信发到您的预留手机号”作为一文本行；而“好的。已收到，谢谢。另外，我想再查一下我的积分有多少”，包含三个自然句，作为另一文本行。

本步骤中，认定通话对话中一方完全讲完才是一问一答的一行。例如有如下对话：

坐席：“您好，很高兴为您服务。”

客户：“您好，请帮我查一下上个月账单多少钱”

坐席：“好的，稍等。”

坐席：“您的上个月的账单50元。目前账单分期有优惠活动，您需要了解一下吗”

客户：“不用了。分期太麻烦了，我全部还。”

坐席：“好的，那还有什么可以为您服务的吗”

客户：“另外，再帮我查一下我的积分有多少了”

坐席：“好的，您的积分目前有300分。”

客户：“好的，了解了，你查得真快，赞一个。谢谢，再见。”

坐席：“再见。”

那么，将其转化成一问一答的文本行构成的列表，具体如下：

-您好，很高兴为您服务。

-您好，请帮我查一下上个月账单多少钱

-好的，稍等\n您的上个月的账单还剩50元。目前账单分期有优惠活动，您需要了解一下吗

-不用了。分期太麻烦了，我全部还。

-好的，那还有什么可以为您服务的吗

-另外，再帮我查一下我的积分有多少了

-好的，您的积分目前有300分。

-好的，了解了，你查得真快，赞一个。谢谢，再见。

-再见。

S12、对于每个文本行，按照一定的方式进行分词，形成由符号构成的列表。

设定符号列表的最大符号数量为w。如果文本行转化形成的符号列表中包含的符号数量超过w，则截取前w个符号，忽略第w个符号后的所有符号；如果包含的符号数量小于w，则用特殊符号“[PAD]”填充。

通过统计，发现大部分对话不会超过256文本行，大部分文本行不超过128字，所以本实施例设定j为256，w为128。对于不足256句话的通话文本，用w个特殊符号“[PAD]”构成的句子补足；对于不足128个符号的句子，用特殊符号“[PAD]”补足；对于未知符号，用特殊符号“[UNK]”补足；最后每个对话文本都被转化成形状为[j,w]的符号矩阵。

可见，步骤S1通过将对话文本转化成文本行列表，然后再将文本行列表转化成符号列表的步骤，即可将对话文本转化成形状为 [j,w]的符号矩阵，矩阵的元素为符号。

S2、随机初始化一个矩阵，对符号矩阵进行词嵌入，将符号矩阵中的元素转化成对应的词向量，形成对应的词嵌入张量。

具体包括：

S21、随机初始化一个矩阵，命名为E矩阵，E矩阵的形状为[v,d]，其中v为符号的种类数，d为词向量的维度。E矩阵的第x行第y列记为E_xy。显然E_xy为第x个符号对应的词向量的第y个元素。

本实施例中，符合的种类数量v为10000，设定词向量的维度d为512。

S22、利用矩阵E对步骤S1生成的符号矩阵[j,w]进行词嵌入，即将符号矩阵中的元素转化成对应的词向量，最终形成的词嵌入张量记为Eed，形状为[j,w,d]。

由于符号矩阵的元素为符号，所以本步骤进行词嵌入，形成对应的词嵌入张量。

S3、对词嵌入张量进行降维处理，对词嵌入张量中每个文本行对应的矩阵进行降维，形成降维矩阵，降维矩阵由降维后的句向量构成。

词嵌入后形成的张量Eed的形状为[j,w,d]，

表示Eed中的第x个矩阵，

表示Eed中第x个矩阵中的第y行向量，

表示Eed中第x个矩阵中的第y行中的第z列的元素。显然可以看出每个符号维度为d；每个文本行都对应一个矩阵形状为[w,d]的文本行矩阵（相应的，这个文本行矩阵的维度为w*d），例如第x个文本行就对应矩阵

；每段文本维度为j*w*d。本步骤对每个文本行对应文本行矩阵进行降维，形成降维后的句向量。降维后的句向量维度为k，其中k远小于w*d。词嵌入张量Eed经过降维后，形成降维矩阵D，矩阵D由降维后的句向量构成，且形状为[j,k]。在本发明中，降维方法步骤如下：

S31、随机初始化一个可训练的向量

，并随机初始化一个可训练的K矩阵和V矩阵；其中，向量

的维度为k，K矩阵的形状为[d,k]，V矩阵的形状为[d,k]。

S32、遍历词嵌入张量Eed，对词嵌入张量的第x个矩阵

进行如下计算，得到降维后的句向量

：

；

；

其中，

为一个向量，代表权重；上标T表示矩阵的转置；根据权重向量

对矩阵

中的行向量进行加权求和，计算出降维后的句向量

。

矩阵D与句向量

有如下关系：

即矩阵D的第一行元素为第一个句向量

，矩阵D的第二行元素为第二个句向量

，矩阵D的第x行元素

为第x个句向量

，每个句向量的维度为k。经过降维，数据的维度大大减小，使得在同等的硬件条件下，模型可处理的文本长度大大增加。

对于一般的对话文本，同一个句子中的字、词联系比较紧密，而且必然会存在大量的规律（例如语法结构）；而不同句子之间的词则相反。所以在句子的粒度上进行降维是可行的。

本实施例选用的这个降维方法和SVD、PCA相比是可学的。这个降维方法中存在可训练参数（例如K矩阵、V矩阵），可以依据基于目标任务的损失梯度进行参数优化，使得这个降维方法最后输出的矩阵D是基于目标任务进行优化过的。

本实施例的降维方案与现有其它可基于目标任务进行优化的降维方法相比也是有优势的。本实施例的降维方案受BERT模型中的多头自注意力机制启发而创新得到的，与多头自注意力机制的区别在于：对于一个句子而言多头自注意力机制输出的向量个数与句子中符号的个数相同，而本实施例为了降维而设计，只输出一个向量。多头自注意力机制与rnn、cnn相比具有参数少、运行速度快、效果好（能有效处理长距离依赖）的优点，这些优点也完全被本实施例的降维方式所继承。

S4、按照预设的掩盖几率对降维矩阵进行随机掩盖，把降维矩阵中的句向量替换成掩盖向量，生成新的矩阵；并记下所有被掩盖掉的句向量，用于后续的损失值计算。

S41、随机初始化一个可训练的掩盖向量，即为mask_vector；

S42、按照预设的掩盖几率p将降维矩阵D中的句向量替换成掩盖向量mask_vector，生成新的矩阵D_masked，几率p太大会造成模型训练与推理（推理时几率p为0）差距过大，几率太小则会减慢训练速度。本实施例中，选定随机掩盖的几率p为0.1到0.2之间是较为合理的。

S5、在步骤S4所生成的新矩阵D_masked后，堆叠多层多头自注意力层，取最后一层多头自注意力层的输出记为矩阵O。

堆叠，即在多头自注意力层后面接上多头自注意力层，其中第一层多头自注意力层是接在D_masked矩阵之后的；矩阵O的形状为[j,k]。本实施例中，堆叠3层多头自注意力层。

S6、计算被掩盖的句向量的损失值loss。

S61、记被掩盖的句向量的数量为m，假设

，则

，其中0<x<=j，

表示降维矩阵D中第x行向量，

表示矩阵O中第x行向量；对于第

个被掩盖掉的句向量

，从矩阵O中取出其对应位置的向量

；从其它文本对应的降维矩阵D中随机抽取n-1个句向量作为负样本向量，将被掩盖掉的句向量

与负样本向量拼接起来，形成矩阵

，形状为[n,k]；其中

记为正样本向量，其余的为负样本向量。

S62、根据步骤S4随机掩盖中被掩盖掉的句向量，计算被掩盖的句向量的损失值：

；

；

其中，下标1表示向量的第一个元素，上标T表示矩阵的转置，

表示第

个被掩盖的句向量的损失值。如果损失值loss越小，则说明模型对于正类与负类的区分能力越强，即模型利用上下文还原出被掩盖掉的句子（向量）的能力越强。本实施例中，选取的负样本数量为255，所以n为256。

S7、优化预训练模型的各个可训练参数，使被掩盖的句向量的损失值最小。

在每轮迭代中，用梯度下降法通过最小化损失值loss来优化模型中的各个可训练参数，直至收敛；然后保存优化后的模型，包括保存优化后的参数、模型的网络结构。

本步骤选取Adam为优化器，学习率为1e-4，通过最小化损失值loss去优化参数，直到loss收敛；

S8、保存预训练模型：将掩盖几率p调为0，用代码的形式保存预训练模型的网络结构；将预训练模型参数保存为tensorflow的模型文件。

S9、使用优化后的预训练模型，构建预测模型。

S91、搭建预测模型的网络结构

预测模型是本发明最终需要的模型，比如业务分类模型、情感分类模型等等。预训练模型并不是预测模型的必要组成成分，没有预训练模型，也能开发出预训练模型。只是通过上面步骤的处理，预训练模型已经学到了许多有益于下游任务的“知识”，基于预训练模型构建预测模型将会大大提升预测模型的准确性。在此，本实施例的预测模型是基于预训练模型构建的，所以预测模型的网络结构由两个部分组成，一部分是预训练网络结构，这部分的网络结构与被保存的预训练模型的网络结构一样；另一部分是下游任务相关的网络结构（称之为下游网络），这部分网络结构因下游任务的不同而不同。

S92、训练预测模型

（1）随机初始化下游网络；

（2）用预训练模型的参数初始化下游网络之前的网络，即预训练网络；

（3）冻结（将梯度重置为0，不更新网络）预训练网络，用梯度下降法通过最小化下游网络的损失值来优化参数，直到下游网络的损失值降到较小的值。这样做的目的是为了防止底层预训练好的网络被破坏；因为刚开始训练的时候，梯度是不稳定的，容易打乱底层预训练好的网络。

（4）衰减（将原本梯度乘上一个较小的衰减值，例如0.01，生成新的梯度，用新的梯度替代原本的梯度）预训练网络，用梯度下降法通过最小化下游网络的损失值来优化可训练参数，直到下游网络的损失值收敛。由于预训练网络的可训练参数是经过了长时间的预训练得到的，在训练时比较稳定，下游网络的可训练参数训练的时间比较少，较不稳定，所以应该通过调节梯度的大小来避免预训练模型的可训练参数被破坏。至此预测模型训练完成。

S93、保存预测模型：用代码的形式保存模型的网络结构，将参数保存为tensorflow的模型文件。

S10、调用预测模型，对需要预测的对话文本进行处理。

S101、加载模型：加载预训练模型的网络结构、用预测模型的tensorflow模型文件初始化可训练参数。

S102、数据处理：按照步骤S1的方式处理需要预测的对话文本。

S103、模型预测：将步骤S102处理好的数据输入预测模型中，得到对话文本的预测结果。

基于相同的发明构思，本实施例还提出基于句向量预训练模型的文本处理系统，包括：

文本处理模块，调用预测模型，对需要预测的对话文本进行业务分类、情感分类等处理。

此外，本实施例还提出存储介质，其上存储有计算机指令，当计算机指令被处理器执行时，实现本发明文本处理方法的步骤S1-S10，对对话文本进行业务分类、情感分类等处理。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。