CN113672718A

CN113672718A - 基于特征匹配和领域自适应的对话意图识别方法及系统

Info

Publication number: CN113672718A
Application number: CN202111026278.2A
Authority: CN
Inventors: 姜兴华; 李澳; 周夏伟
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-19
Anticipated expiration: 2041-09-02
Also published as: CN113672718B

Abstract

本发明提出了一种基于特征匹配和领域自适应的对话意图识别方法及系统，属于自然语言处理、意图识别技术领域。首先获取客服领域的预训练语言模型；利用对比学习对预训练语言模型进行二次训练，作为句子特征表示模型；针对不同领域，训练领域自适应的特征转换模块；获取由对话语句和目标意图组成的意图语料库，提取对话语句的领域自适应的句子特征并构建特征语料索引库；获取待识别的询问语句对应的领域自适应的句子特征，从特征语料索引库检索与其最匹配的句子特征对应的目标意图作为识别结果。本发明只需一个基础的句子特征表示模型和多个特征转换模块，解决了复杂的智能客服意图识别问题，提高了意图识别的准确性。

Description

基于特征匹配和领域自适应的对话意图识别方法及系统

技术领域

本发明涉及属于自然语言处理、意图识别技术领域，具体涉及一种基于特征匹配和领域自适应的对话意图识别方法及系统。

背景技术

近年来，智能客服逐渐取代了传统的人工客服，智能对话系统作为最关键的前沿技术之一，一直受到学术界和工业界的高度关注。其中，对话意图识别作为智能对话系统的核心，是实现智能对话系统必不可少的模块，也是众多研究者的研究方向。

目前已有的意图识别算法主要分为基于规则的文本匹配算法和基于机器学习的深度学习算法。其中，基于规则的文本匹配算法在小样本数据上表现良好，且计算速度快，准确率较高。但是，该算法基于的字符规则需要大量人工编写，且缺乏语义理解能力，泛化性能较差，尤其对于比较复杂的意图识别问题，规则难以编写和维护。基于机器学习的深度学习算法能够通过大样本的学习，学习到很好的语义表示，但是，该算法对于小样本数据很容易过拟合，泛化性能较差，更重要的是，对于智能客服领域的千人千面需求，常规深度学习算法训练代价较大，成本较高。

众所周知，智能客服的意图识别存在两方面主要的业务特点，一方面，客服系统存在大量的客户，而不同客户的意图标签是不同的，即千人千面。另一方面，每个客户的意图训练数据量很少，无法针对每个用户去单独训练一个深度学习模型，这样成本极高且小样本数据无法克服过拟合问题。同样，基于规则的文本匹配算法不具备语义理解能力，无法解决复杂的智能客服的意图识别问题。

发明内容

为了解决上述技术问题，本发明提出了一种基于特征匹配和领域自适应的对话意图识别方法及系统，具体采用如下技术方案：

本发明的其中一个目的在于提供一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，包括以下步骤：

步骤一：获取客服领域的预训练语言模型；

步骤二：利用对比学习，构建不同领域的正样本对和负样本对，对预训练语言模型进行二次训练，作为句子特征表示模型；

步骤三：建立包含不同领域对话语句和目标意图标签的意图语料库，针对不同领域的对话语句，训练领域自适应的特征转换模块，每一个领域对应一个特征转换模块；

步骤四：将意图语料库中的对话语句作为步骤二所述的句子特征表示模型的输入，提取到句子特征，再将句子特征作为步骤三得到的相对应领域下的特征转换模块的输入，生成对应领域下的句子特征，由所述的对应领域下的句子特征和目标意图标签构建特征语料索引库；

步骤五：针对已知领域的待识别的询问语句，首先利用句子特征表示模型获取待识别询问语句的句子特征，再将得到的句子特征作为相对应领域下的特征转换模块的输入，生成对应领域下的句子特征；将生成的句子特征与特征语料索引库中的句子特征进行特征匹配，将特征语料索引库中最邻近的句子特征对应的意图标签作为意图识别结果。

本发明的第二个目的在于提供一种上述的基于特征匹配和领域自适应的对话意图识别方法的系统，包括：

预训练语言模块，其用于将语言模型在客服领域的语料库中进行预训练；

句子特征表示模块，其用于构建正样本对和负样本对，利用对比学习的方式微调预训练后的语言模型参数，实现语言模型的二次训练，生成询问语句的句子特征；

特征转换模块，其用于将句子特征表示模块生成的句子特征转换成对应领域下的句子特征；

语料索引库模块，其由对话语句的对应领域下的句子特征和目标意图标签组成，所述的对应领域下的句子特征是将已有的对话语句依次通过句子特征表示模块和特征转换模块提取得到的；

意图识别模块，其用于从语料索引库模块中检索与待识别询问语句的对应领域下的句子特征最匹配的句子特征，将检索结果对应的目标意图标签作为识别结果。

与现有技术相比，本发明的优势在于：本发明首先通过客服领域的预训练语言模型来降低训练难度，使得提取到的句子特征比较符合领域特性，再通过对比学习微调预训练语言模型的参数，保证句子特征的分布更加适合特征匹配任务，将二次训练好的语言模型作为句子特征表示模型。由于客服系统中大量的客户具有千人千面的特点，每个人的意图标签不同，不同领域下的句子对应的句子标签也可能不同。基于此，本发明提出利用LDA模型作为领域自适应的特征转换模块，使得千人千面的意图识别模型成为可能，将不同领域下客户询问语句的句子特征通过特定领域的LDA模型进行转换，得到对应领域下的句子特征，最终通过对比语料索引库中的句子特征即可获得检索到的意图结果，整个系统成本低，LDA模型参数量小，只需一个基础的句子特征表示模型和多个特征转换模块，解决了复杂的智能客服意图识别问题，提高了意图识别的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的本发明的对话意图识别方法流程图；

图2是根据一示例性实施例示出正负样本对构造过程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提出的基于特征匹配和领域自适应的对话意图识别方法，包括以下步骤：

步骤一：获取客服领域的预训练语言模型。

步骤二：利用对比学习，构建不同领域的正样本对和负样本对，对预训练语言模型进行二次训练，作为句子特征表示模型。

步骤三：建立包含不同领域对话语句和目标意图标签的意图语料库，针对不同领域的对话语句，训练领域自适应的特征转换模块，每一个领域对应一个特征转换模块。

步骤四：将意图语料库中的对话语句作为步骤二所述的句子特征表示模型的输入，提取到句子特征，再将句子特征作为步骤三得到的相对应领域下的特征转换模块的输入，生成对应领域下的句子特征，由所述的对应领域下的句子特征和目标意图标签构建特征语料索引库。

在本发明的一项具体实施中，步骤一采用的客服领域的预训练语言模型为中文BERT模型，在大量未标注的客服语料上进行掩码预训练得到，属于开源模型可直接在开源网站上获得。预训练模型可以降低训练难度，使得提取到的句子特征比较符合领域特性。

为了使得句子特征的分布更加适合特征匹配任务，本发明采用对比学习的方式对预训练语言模型的参数进行微调。

由于不同领域下的类似的句子可能属于不同的意图，通过预训练语言模型的输出结果进行意图识别的方式会因领域问题出现差错，仅通过对语言模型的训练难以在提高识别准确率上有所突破。

本发明引入的LDA模型可以有效解决该问题，建立若干个LDA模型，每一个LDA模型对应一个领域，利用对应领域下的LDA模型对语言模型输出的句子特征进行领域自适应转换，有利于提升意图识别准确性。

LDA模型的训练以对比学习的方式进行，需要构建正样本对和负样本对。首先需要获取不同领域的N个对话语句样本作为预训练语言模型的输入，得到N个句子特征；将N个句子特征中的随机一个或多个维度置为0，作为添加噪声后的N个句子特征。其中，第i个句子特征与第i个添加噪声后的句子特征构成正样本对，第i个句子特征与第j个添加噪声后的句子特征构成负样本对，j≠i。以图2为例，针对4个句子，利用预训练语言模型得到四个句子特征，对应图2中的最右侧输出，每一个句子特征分别进行自身dropout操作，假设句子特征的维度为k，将随机一个或多个维度置为0作为添加噪声后的句子特征。以第一个句子为例，将第一个句子的句子特征与添加噪声后的第一个句子特征作为一对正样本，将第一个句子的句子特征与添加噪声后的其余三个句子特征共构建得到三对负样本，对应图2中的虚线部分。

本实施例中，引入交叉熵损失，所述对比学习的训练目标函数为：

j≠i

其中，l表示训练损失值，sim(.)表示余弦相似度，τ为温度系数，N表示样本数，h_i表示第i个样本的句子特征，

表示在第i个样本的句子特征中添加噪音后的特征，

表示在第j个样本的句子特征中添加噪音后的特征，

构成正样本对，

构成负样本对。

由于客服系统中大量的客户具有千人千面的特点，每个人的意图标签不同，且不同人给出的不同的句子也可能对应一个相同的意图，不同领域的相同的句子也可能对应不同的意图。本实施例中，LDA模型作为领域自适应的特征转换模块，使得千人千面的意图识别模型成为可能，将不同领域不同客户询问语句的句子特征通过LDA模型进行转换，得到对应领域下的句子特征。

关于LDA模型，全称为Linear Discriminant Analysis，线性判别分析，属于有监督分类算法，可实现多分类任务。计算方法为：

将意图语料库中属于同一领域的p个对话语句利用步骤二训练好的句子特征表示模型提取句子特征，将句子特征和目标意图标签{(x¹,y¹),(x²,y²),…,(x^p,y^p)}作为该领域下的LDA模型的输入，yⁱ∈{y₁,y₂,…,y_C}为对应的C种意图标签。

对每一个维度为K的句子特征xⁱ进行投影变换：

其中，

表示投影变换后的第i个句子特征，维度为L，L＜K；W为K×L的投影矩阵，为待训练参数；训练时，保证投影空间中属于同一意图的句子特征靠近，而属于不同意图的句子特征远离，最大化

其中d_b为类间距离，即属于不同意图标签的句子投影后的距离，d_w为类内距离，即属于相同意图标签的句子投影后的距离。

LDA模型训练结束后，将投影变换后的句子特征作为领域自适应的句子特征，也就是该领域下的句子特征。

本发明采用基于特征匹配的方式进行意图识别，首先构建一个包含对话语句和目标意图的意图语料库，意图语料库中的数据可以是所有历史已经发生的对话和经过人工标注的意图，也可以在所有历史对话的基础上进行筛选，摒弃冗余的对话。意图语料库还可以随着时间进行更新和维护，以适应更多的热词、新词。

之后，在意图语料库的基础上进一步构建特征语料索引库，需要将意图语料库中的对话语句转换为句子特征，可以通过步骤二得到的句子特征表示模型实现，将对话语句作为句子特征表示模型的输入，生成句子特征。再将句子特征作为对应领域下的LDA模型的输入，生成领域自适应的句子特征。特征语料索引库是由领域自适应的句子特征和目标意图组成的，目标意图即意图语料库中对应语句的意图。

例如，可以将某一领域下的特征语料索引库表示为

其中，x_i表示库中的第i个领域自适应的句子特征，y_i表示对应于第i个领域自适应的句子特征的意图标签。

最后，通过特征匹配的方式，将询问语句的句子特征与特征语料索引库中的句子特征进行匹配。例如，采用近似最近邻匹配方式，相似度计算公式为：

为了便于表示，采用a表示待识别的领域自适应的句子特征，b^j表示通过ANN算法从属于该领域的特征语料索引库中召回的top N个特征中的的第j个句子特征，j∈{1,2,…,N}。将d值最小时b^j对应的意图标签作为识别结果。

与前述的基于特征匹配和领域自适应的对话意图识别方法的实施例相对应，本申请还提供了一种基于特征匹配和领域自适应的对话意图识别系统的实施例，其包括：

预训练语言模块，其用于将语言模型在客服领域的语料库中进行预训练。

句子特征表示模块，其用于构建正样本对和负样本对，利用对比学习的方式微调预训练后的语言模型参数，实现语言模型的二次训练，生成询问语句的句子特征。

特征转换模块，其用于将句子特征表示模块生成的句子特征转换成领域自适应的句子特征。

语料索引库模块，其由对话语句的句子特征和目标意图组成，所述的对话语句的句子特征是将已有的对话语句通过句子特征表示模块提取得到的。

意图识别模块，其用于从语料索引库模块中检索与待识别询问语句的句子特征最匹配的句子特征，将检索结果对应的目标意图作为识别结果输出；所述的待识别询问语句的句子特征是由特征转换模块处理得到的。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为特征转换模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

本发明提出的方案在四种公开数据集上进行意图识别任务的测试。本实验采用Accuracy评价指标，比较了目前主流的意图识别算法BERT+ANN与本发明的对比结果，如表1所示。

表1实验结果

	数据集1	数据集2	数据集3	数据集4
					数据集大小	9086	696	1341	809
意图数量	32	12	48	38
					BERT+ANN检索	88.5％	83.5％	81.1％	57.4％
本发明方法	93.1％	84.5％	86.7％	90.8％

可见，本发明的方法在每一个数据集上的实验结果均超过了主流的意图识别算法BERT。本发明在预训练语言模型的基础上通过对比学习到更好的句子匹配特征，同时使用LDA作为领域自适应的特征转换模块，使得千人千面意图识别模型成为可能。并且，在多个数据集的实验结果也表明该算法的优越性。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应属于本发明的保护范围。

Claims

1.一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，包括以下步骤：

步骤一：获取客服领域的预训练语言模型；

2.根据权利要求1所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述的预训练语言模型采用中文BERT模型。

3.根据权利要求1所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述的正样本对和负样本对的构建方式为：

获取不同领域的N个对话语句样本作为步骤一中的预训练语言模型的输入，得到N个句子特征；将N个句子特征中的随机一个或多个维度置为0，作为添加噪声后的N个句子特征；第i个句子特征与第i个添加噪声后的句子特征构成正样本对，第i个句子特征与第j个添加噪声后的句子特征构成负样本对，j≠i。

4.根据权利要求3所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述对比学习的训练目标函数为：

其中，L表示训练损失值，sim(.)表示余弦相似度，τ为温度系数，h_i表示第i个样本的句子特征，

表示在第i个样本的句子特征中添加噪音后的特征，

表示在第j个样本的句子特征中添加噪音后的特征，

构成正样本对，

构成负样本对。

5.根据权利要求1所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述的特征转换模块采用LDA模型。

6.根据权利要求5所述的一种基于特征匹配和领域自适应的对话意图识别方法，其特征在于，所述的LDA模型的计算方法为：

将意图语料库中属于同一领域的p个对话语句利用步骤二训练好的句子特征表示模型提取句子特征，将句子特征和目标意图标签{(x¹,y¹),(x²,y²),…,(x^p,y^p)}作为该领域下的LDA模型的输入；

对每一个维度为K的句子特征xⁱ进行投影变换：

其中，

表示投影变换后的第i个句子特征，维度为L，L＜K；W为K×L的投影矩阵；训练时，保证投影空间中属于同一意图的句子特征靠近，而属于不同意图的句子特征远离。

7.一种基于权利要求1所述的基于特征匹配和领域自适应的对话意图识别方法的系统，其特征在于，包括：

句子特征表示模块，其用于构建正样本对和负样本对，利用对比学习的方式微调预训练后的语言模型参数，实现语言模型的二次训练，生成询问语句的句子特征；特征转换模块，其用于将句子特征表示模块生成的句子特征转换成对应领域下的句子特征；