CN111626063A

CN111626063A - 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统

Info

Publication number: CN111626063A
Application number: CN202010737152.5A
Authority: CN
Inventors: 徐叶琛; 赵洲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-09-04
Anticipated expiration: 2040-07-28
Also published as: CN111626063B

Abstract

本发明公开了一种基于投影梯度下降和标签平滑的文本意图识别方法及系统，涉及自然语言处理问答系统领域。包括（1）通过嵌入层获取初始向量编码；（2）在嵌入层使用投影梯度下降算法添加满足L2约束的扰动，形成对抗样本；（3）使用Transformer网络编码上下文语义信息；（4）使用标签平滑将真实意图类别进行缩放；（5）将编码器输出特征输入分类器，计算与平滑后的标签之间的交叉熵；（6）优化目标函数；（7）模型训练完毕，预测意图类别并输出。本发明模型在分类任务中，能够对输入的意图进行充分的语义向量编码；同时在文本嵌入层添加扰动形成对抗样本、对最终分类目标进行标签滑动，能显著提升模型的鲁棒性和泛化能力。

Description

一种基于投影梯度下降和标签平滑的文本意图识别方法及系统

技术领域

本发明涉及自然语言处理问答系统领域，具体涉及一种基于投影梯度下降和标签平滑的文本意图分类方法及系统。

背景技术

伴随着大量公开可利用的网上在线问答语料库，问答系统受到了来自工业界和学术界研究者的关注。问答系统通常是基于满足B端企业需求的智能化产品，可以显著提高工作效率，为客服人员减压。其最大的隐性价值是在实际场景中自动积累标准化后的数据，在挖掘客户服务价值信息中降低成本、提高效率，也可以用于未来的精准营销和产品升级。问答系统的典型应用是对某一领域的知识进行问答，也称为单轮对话或常见问题解答（FAQ），即直接根据用户的问题给出准确的答案。本发明的主要研究领域，是问答系统中最核心的技术——意图识别。基于庞大的知识库和问答语境，模型被要求能根据用户询问的内容，精准识别意图，并与知识库中的标准问匹配，返回最合理的答案。一个智能问答模型，需要能够准确理解用户意图，具备一定的上下文解析能力，并快速完成检索。

目前，主流的意图识别技术，主要包含两种方法：基于词典模板和规则的匹配，以及基于分类算法和模型的文本分类。前者一般通过维护全局词典、关键词，对问句进行模糊匹配，或正则表达解析固定句式来识别意图，人力成本高且难以穷举所有情况。后者将知识库中的问题归为具体的类别，将提取的文本特征经过上下文编码、分类器来预测意图对应的类别，往往准确率更高。2014年提出了TextCNN模型，将计算机视觉领域中流行的卷积网络引入文本分类任务。通过使用不同大小的卷积核，对经过Embedding层编码的文本特征做进一步的关键信息挖掘，提升了文本分类任务的准确率与训练速度。2018年，提出了预训练语言模型BERT，从此揭开NLP领域中的预训练+下游任务微调的两段式任务结构，大幅刷新众多NLP任务的最优结果，例如基于文本分类的意图识别、搜索推荐、机器阅读理解等。

然而，目前主流的文本分类模型，缺乏一种模型复杂度和模型泛化性能的良好权衡。传统的分类模型，例如TextCNN、TextRNN，参数量相对较少，对文本语义编码能力处于浅层理解，在分类类别较多的场景中容易出现欠拟合。而以BERT为代表的预训练模型参数量巨大（base版本的模型参数量超过3亿），有很强的特征编码能力；但是由于模型本身的复杂度较高，特别是在各个类别的训练样本较少的情况下可能出现过拟合现象。两种现象都会影响模型在测试集上的最终表现。

发明内容

为了解决在意图识别领域，现有的文本分类模型缺乏模型复杂度和模型泛化性能的良好权衡问题，参数过少容易使得语义编码能力较弱，在分类类别较多的场合下准确率较低；参数过多使得模型复杂度过高，难以适应训练样本有限的情况。本发明提供了一种基于投影梯度下降和标签平滑的文本意图识别方法及系统，使意图识别模型在分类任务中，能够对输入的意图进行充分的语义向量编码；同时在文本嵌入层添加扰动形成对抗样本、对最终分类目标进行标签滑动，能显著提升模型的鲁棒性和泛化能力。

为了实现上述目的，本发明采用了一种基于投影梯度下降和标签平滑的文本意图识别方法。

步骤1：构建预训练语言模型，包括Embedding层、12层Transformer网络和分类层。

步骤2：针对训练样本集中的样本语句，首先按字符分割进行独热编码，然后通过 Embedding层转换为固定长度的文本嵌入向量

。

步骤3：在Embedding层使用投影梯度下降算法添加满足L2约束的扰动，得到对抗样本的文本嵌入向量

。

步骤4：将对抗样本的文本嵌入向量

作为12层Transformer网络的输入，得到对抗样本的语义向量。

步骤5：使用标签平滑算法将样本语句的意图标签y进行缩放，得到平滑后的意图标签

。

步骤6：针对平滑后的意图标签

设计目标函数，采用前向传播和梯度反向传播算法对预训练语言模型进行二次训练，使用梯度下降法更新模型参数，得到训练好的语言模型。

步骤7：采用训练好的语言模型读取待识别文本语句的独热编码，输出意图识别结果。

本发明的另一目的在于提供一种用于实现上述文本意图识别方法的识别系统。

采样模块：用于读取预设的带标签的训练文本语句、或接收用户输入的不带标签的待识别文本语句，并将文本语句处理为标准格式。

文本向量嵌入模块：用于将标准格式的文本语句进行处理得到文本嵌入向量；当系统处于训练模式时，文本向量嵌入模块将原始的文本意图编码为固定大小的对抗文本嵌入向量；当系统处于识别模式时，文本向量嵌入模块将原始的文本意图编码为固定大小的原始文本嵌入向量。

编码器模块：配置有12层Transformer网络，用于学习文本内部的关键信息以及和目标类别之间的语义关联，得到文本语义向量。

标签平滑模块：在系统处于训练模式时启用，用于对预设的意图标签进行平滑处理。

分类模块：用于预测所属标签的概率分布，输出预测概率结果。

语言模型训练模块：在系统处于训练模式时启用，用于根据预设的目标函数，对文本向量嵌入模块、编码器模块、分类模块进行拟合平滑标签的训练过程，训练结束后生成模型文件。

识别模块：在系统处于识别模式时启用，用于加载语言模型训练模块输出的模型文件，得到训练好的模型，读取采样模块输出的标准格式的不带标签的待识别文本语句作为模型的输入，输出识别出的意图类别结果。

与现有技术相比，本发明具备的有益效果。

1、本发明在文本向量嵌入过程中，使用投影梯度下降算法添加了满足L2约束的扰动（PGD扰动）。传统的对抗训练方法如Fast Gradient Method直接采取梯度上升方法，很难走到约束内的最优点，而本发明通过在设置的扰动半径ε内沿着梯度上升的方向“小步走，多走几步”，每次只增加少量噪声，而且一旦走出了规定半径的扰动空间就就重新将梯度映射回“球面”，保证了扰动范围不会太大，使得模型能够平稳收敛。

2、本发明通过采用对抗文本生成策略，在训练数据不足时可以作为一种数据增强方法来扩大训练样本规模，解决了各个类别的训练样本较少的情况下可能出现的过拟合问题，也使得在数据冷启动阶段能够取得良好的泛化效果。同时，本发明的模型对于噪声样本和对抗样本（例如标注错误的训练样本）具备更强的抵御能力，从而更加准确识别用户表达的真实意图。

3、本发明在训练网络时采用的标签是平滑处理后的标签。如对于二分类任务，将网络的训练目标从“1”调整为“1-

”，

是平滑因子表示平滑程度，

取值范围一般在0.05至 0.1之间，对于干净的数据集

取值可以偏大，带有噪声的数据集

取值尽量偏小，以免平滑过度导致训练收敛减慢。标签平滑可以让同一类的训练实例聚合为紧密的分组，丢失不同类实例中的相似性信息，即缩小类内距、增大类间距，能够有效提升模型的鲁棒性。

附图说明

图1为本发明方法的整体框架设计图。

图2为本发明系统的整体流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的一种基于投影梯度下降和标签平滑的文本意图识别方法做进一步阐述和说明。

步骤2：针对训练样本集中的样本语句，首先按字符分割进行独热编码，然后通过Embedding层转换为固定长度的文本嵌入向量e。

。

步骤4：将对抗样本的文本嵌入向量

作为12层Transformer网络的输入，得到对抗样本的语义向量。

。

步骤6：针对平滑后的意图标签

如图1所示，介绍了本发明的文本意图识别方法具体实施过程。

本发明在两个阶段对语言模型进行了优化：（a）在传统序列嵌入、位置嵌入和字嵌入的基础上增加了满足L2正则化约束的对抗扰动。（b）通过最小化模型输出与平滑后标签之间的分布差异，迭代优化神经网络的参数，具体步骤分别阐述如下。

(a)文本Embedding嵌入。

以“转账要手续费吗”为例，首先对该条案例文本进行按字符分割，s=[w_0,w_1,…,w_n]，w_i表示文本语句中的第i个单词，n表示文本语句的长度；在文本描述的头尾分别加上CLS和SEP标签，并且从0开始对每个标签类进行编号，用编号代替标签的文字表达。将带有标签的案例文本首先进行独热编码，然后通过Embedding层处理，经过特征矩阵转换获取token级别的向量编码；同时针对案例文本中每一个字符的位置和序列号（图1中输入只有1个句子，序列号均为0）得到序列嵌入和位置嵌入编码；这三部分的向量对应位置求和作为文本最终的文本嵌入向量e，可以表示为：

。

对于当前的文本嵌入向量e=[x_0,x_1,…,x_N]，使用投影梯度下降算法增加L2约束下的微小扰动

，

表示额外的干扰，基本思想是往参数梯度上升的方向增加T次扰动，每次只增加少量噪声，而且一旦走出了规定半径的扰动空间就将参数重新映射回“球面”，以确保扰动不会太大，模型可以正常收敛。

具体的，扰动的约束空间满足：

其中，S表示扰动的约束空间，r为约束空间半径，R ^d为约束空间的半径取值集合，ε为预先设置的扰动半径，

表示L2范式。

在扰动空间内共进行T次扰动，其中第t+1次扰动后得到的对抗样本的文本嵌入向量表示为e _t+1，计算公式为：

其中，α为增加一小步扰动的步长，T是超参数，优选为2-4；

表示连续乘积符号；e表示训练样本集中样本语句的文本嵌入向量，e _t表示进行了t次扰动后得到的对抗样本的文本嵌入向量；

表示t次扰动时嵌入向量的偏导，

表示损失函数，

表示L对 e的偏微分， y表示训练样本集中样本语句的意图标签。将完成T次扰动后得到的e _T表示为

。

文本嵌入向量和对抗扰动特征相加后的向量，作为最终特征输入编码器做进一步语义编码，即将

作为深度编码器的输入。

(b)深度编码器和输出预测。

本发明所采用的编码器为12层基于自注意力机制的12层Transformer网络进行编码，可以解析更丰富的文本语义信息，基本步骤如下。

b1.12层Transformer网络，可以避免传统CNN网络只能捕获局部特征、RNN网络训练缓慢难以获取远距离特征等问题。Transformer内部，使用自注意力机制可以让序列中的每个token捕获与序列中其他token之间的关联；此外Transformer模块自带的残差机制和前向传播层可以避免梯度消失问题，同时增加网络的非线性变换。

所述12层Transformer网络中每一层均包括一层自注意力层和一层前向传播层，所述自注意力层的计算公式为：

其中，head _i表示自注意力层中第i个自注意力计算结果，head表示n×(head _i) 的自注意力层输出序列，

分别表示对输入序列做的矩阵变换，Z表示归一化因子，

表示调节因子。

前向传播层的计算公式为：

其中，z为一层Transformer网络的输出序列，W ₁和W ₂分别是两个隐层的参数矩阵，b ₁和b ₂是偏差项。

将上一层Transformer网络的输出序列z作为下一层Transformer网络的输入序列，经过12层相同结构的Transformer网络得到对抗样本语句的语义向量。

b2.最后一层Transformer网络隐藏层的输出特征表示为W_out ，取文本序列第一个 token，“CLS”对应的向量编码包含了整个序列的上下文信息，即“CLS”对应的编码作为整个序列的句向量特征，经过softmax激活函数归一化后送入分类器预测概率分布

。

b3.目标函数使用交叉熵。

本发明训练网络时采用的真实标签是平滑处理后的标签。对于二分类任务，它将神经网络的训练目标从“1”调整为“1-

”，

是平滑因子表示平滑程度，

取值范围一般在 0.05至0.1之间，对于干净的数据集

取值可以偏大，带有噪声的数据集

取值尽量偏小，以免平滑过度导致训练收敛减慢。标签平滑可以让同一类的训练实例聚合为紧密的分组，丢失不同类实例中的相似性信息，即缩小类内距增大类间距，因此可以有效提升模型的鲁棒性。标签的缩放公式可以表示为：

其中，K为意图标签的类别数量，y _i为第i个样本的意图标签，表示为

，y _i,k =0或1，当y _i,k =0时表示第i个样本不属于第k个意图，当y _i,k =1时表示第i个样本属于第k个意图；

是平滑后的意图标签，

，

表示第i个样本属于第k个意图的概率。

设计网络的目标函数为：

其中，N为样本总数，K为意图标签的类别数量，

表示平滑后的第i个样本属于第k个意图的概率标签,

表示第i个样本属于第k个意图的预测概率值。目标是为了最小化交叉熵损失函数。

随后，使用mini-batch梯度下降法反向传播梯度来更新网络的参数值，优化目标函数。通过使用链式法则，模型参数可以计算成：

其中，

是目标函数，a表示学习率，W _j是待更新的某个参数值，

是更新后的参数值。当满足验证集上的准确率连续2次训练不再下降的条件时，停止训练，得到训练好的意图识别模型。

本发明的另一实施例中给出了基于投影梯度下降和标签平滑的文本意图识别系统的具体实施。

图2是本发明设计的基于投影梯度下降训练的文本意图识别系统流程示意图。具体包括以下模块。

编码器模块：配置有12层Transformer网络，用于学习文本内部的关键信息以及和目标类别之间的语义关联，得到文本语义向量。12层Transformer网络中每一层均包括一层自注意力层和一层前向传播层，所述自注意力层的计算公式为：

其中，

表示自注意力层中第i个自注意力计算结果，head表示n×(head _i) 的自注意力层输出序列，

分别表示对输入序列做的矩阵变换，Z表示归一化因子，

表示调节因子。

前向传播层的计算公式为：

将上一层Transformer网络的输出序列 z作为下一层Transformer网络的输入序列，经过12层相同结构的Transformer网络得到对抗样本语句的语义向量。

标签平滑模块：在系统处于训练模式时启用，用于对预设的意图标签进行平滑处理；公式为：

是平滑后的意图标签，

，

表示第i个样本属于第k个意图的概率。

其中，文本向量嵌入模块包括：

嵌入子模块，配置有传统的嵌入层网络，用于生成原始文本嵌入向量。

扰动子模块，在系统处于训练模式时启用，用于在原始文本嵌入向量中加入额外扰动，同时将扰动范围限制在一定的约束空间内；扰动的约束空间满足：

表示L2范式。

对抗文本生成子模块，在系统处于训练模式时启用，用于计算对抗扰动特征，并将对抗扰动特征和初始的文本嵌入向量相加，生成对抗文本嵌入向量；其中第t+1次扰动后得到的对抗样本的文本嵌入向量表示为e _t+1，计算公式为：

其中，α为增加一小步扰动的步长，T是超参数，优选为2-4；

表示t次扰动时嵌入向量的偏导，

表示损失函数，

。

实施例：

为了验证本发明的实施效果，在两个大型公开数据集IFLYTEK和TNEW上进行了对比和消融实验。IFLYTEK是一个长文本分类数据集，一共包含1.7万条关于app应用描述的长文本标注数据，包含和日常生活相关的各类应用主题，共119个类别："打车":0,"导航":1,"免费WIFI":2,….,"收款":117,"其他":118，每一个类别可以视作问答系统中的一类意图。数据集分三个部分：训练集、验证集、测试集，分别有12133、2599、2600条长文本。

TNEW是短文本分类数据集，来自今日头条的新闻版块，共提取了15个类别的新闻，包括旅游，教育，金融，军事等。数据集同样分成三个部分：训练集、验证集、测试集，分别有53360、10000、10000条短文本。

所有实验中，文本词汇表均按字分割，并限制在21128个常见字符。

本发明主要在两大评判指标上进行对比，分别是：ACCURACY、F1-SCORE。总共比较了5个目前主流的预训练语言模型：XLNet，ROBERTA-wwm，ALBERTA-base，BERT-wwm，BERT-base。另外还有2个模型拆解对比，分别是预训练模型BERT加标签平滑意图分类算法，BERT加标签平滑再加上投影梯度下降扰动的意图分类算法。整体对比结果如表1-2所示。

表1 在IFLYTEK数据集上的对比实验结果及参数设置

表2 在TNEW数据集上的对比实验结果及参数设置

从表1-2可以看出，本发明提出的投影梯度下降和标签平滑的意图分类方法，在各个任务的评判指标下均获得最优效果，充分展示了本发明算法的优越性。

作为对比例的ROBERTA-wwm，ALBERTA-base，BERT-wwm均是在BERT-base模型基础上得到的，相比于BERT-base，ROBERTA-wwm模型引入了动态掩码技术，采用更大规模的训练语料和batch_size；ALBERTA-base通过跨层参数共享和嵌入层参数分解技术减少了模型的参数量；BERT-wwm在BERT-base掩码技术的基础上改进为按实体掩码，缓解了mask-token间关系丢失的问题；XLNet基于乱序语言模型的训练方式，使用了更适合长文档的Transformer-XL结构；本质上都可以视为BERT-base的升级版。在IFLYTEK数据集上BERT-base效果最优，在TNEW数据集上，ROBERTA-wwm效果最优，其整体差别不会很大。相比之下，XLNet和BERT-wwm在IFLYTEK数据集表现效果在对比例中最差，但在TNEW数据集上表现良好；同样，ALBERT-base在TNEW数据集上表现最差，但在IFLYTEK数据集表现效果中等。因此，同一模型在不同的训练集上表现效果并不一致，有些模型针对不同的评判标准（ACCURACY、F1-SCORE）也存在较大的差异。但本发明提出的BERT-LS-PGD模型，无论在数据集上还是评判标准上都体现出了优越性，说明本发明的模型的泛化能力很强。

传统的BERT模型有很强的特征编码能力，但对训练样本要求很高，在训练样本充足的情况下能够表现出优异的效果，本实施例在BERT模型的基础上进一步优化，能够扩大BERT模型的应用场景，在较少量的训练样本数据下减少过拟合现象。从最后三行消融实验对照可以看出，每增加一个模块，模型的效果就会比之前更好。表1和表2中的BERT-LS模型在BERT-base的基础上增加了标签平滑处理，在两个数据集上分别设置平滑因子的取值为0.05和0.1，让同一类的训练实例聚合为紧密的分组，丢失不同类实例中的相似性信息，在识别准确率上均比BERT-base相比有了一定的提升。BERT-LS-PGD模型在BERT-LS模型的基础上增加了满足L2约束的扰动（PGD扰动），每次扰动只增加少量噪声，而且一旦走出了规定半径的扰动空间就就重新将梯度映射回“球面”，保证了模型能够平稳收敛，解决了传统的梯度上升扰动方法很难达到最优约束点位置的缺陷，增加扰动后的模型对于噪声样本和对抗样本（例如标注错误的训练样本）具备更强的抵御能力，从而更加准确识别用户表达的真实意图，在识别准确率上均比BERT-base相比有了一定的提升。证明了本发明所使用的标签平滑模块（LS）和投影梯度下降对抗扰动模块（PGD）的有效性。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。