CN111625641A

CN111625641A - 一种基于多维度语义交互表征模型的对话意图识别方法及系统

Info

Publication number: CN111625641A
Application number: CN202010752264.8A
Authority: CN
Inventors: 邹剑云; 赵洲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-09-04
Anticipated expiration: 2040-07-30
Also published as: CN111625641B

Abstract

本发明公开了一种基于多维度语义交互表征模型的对话意图识别方法及系统，属于自然语言处理对话系统领域。包括：（1）组建对话知识库，知识库包括通用常识性的对话数据以及业务场景下用户的语句和相应语句所属的意图；（2）将对话知识库中对话信息进行基于预训练语言模型的特征提取，得到语义向量；（3）获取当前对话信息的语义向量；（4）结合知识库中对话语句和当前对话语句的语义向量，构建交互注意力机制和卷积神经网络，计算得到置信度；（5）将置信度进行筛选，得到意图识别结果或判定为未命中知识库中的意图。本发明解决了传统预训练语言模型在语义信息层面没有侧重，导致区分度不够、对于敏感信息忽视等问题，识别准确率更高。

Description

一种基于多维度语义交互表征模型的对话意图识别方法及系统

技术领域

本发明涉及自然语言处理对话系统领域，尤其是涉及一种基于多维度语义交互表征模型的对话意图识别方法及系统。

背景技术

近年来，基于人工智能的智能客服逐渐取代传统的人工客服，智能对话系统作为这其中的最关键的一项前沿技术之一，一直深受广大学术界和工业界研究人员的关注。其中，作为智能对话系统核心的对话意图识别，是实现智能对话系统必不可少的模块，所以也是众多研究人员的研究方向。

目前意图识别的方法主要分为基于传统语言规则模版的匹配方法和基于机器学习和深度神经网络模型的方法。基于传统语言规则模版的匹配方法在小样本数据上表现良好，且匹配速度快，准确率较高。但是其问题在于两点，一、由于规则需要大量的人工编写，且受限于语言字符的关系，对于一些语句不同但语义相同的问题，其准确率会急剧下降，泛化性很差；二、在一些比较复杂的意图识别问题上，语言规则并不能很好的区别细微的语义差别，故在大样本的数据上会出现瓶颈，即无法通过优化使之能有效辨别语义信息，导致词不达意，答非所问的情况。

基于机器学习和深度神经网络模型的方法，优势在于能够通过模型掌握其语义信息，在大样本数据上表现尚可。但其问题也存在于两点，一、深度神经网络模型由于其参数量巨大，具有很强的拟合能力，但需要极大规模的文本数据进行训练，在小样本的数据集上会过拟合，泛化性能低；二、单一的机器学习和深度神经网络模型在分别对不同的语句进行意图判断时，只根据当前语句的含义进行理解，而非对不同语句的不同之处进行学习，即语句之间的交互信息表示不足。

2018年谷歌提出了运用Transformer提取语义信息的预训练语言模型，通过对大量语料的无监督学习，掌握通用的语言规则和单词含义，并将模型参数共享，解决了上文所说的需要极大规模的文本数据进行训练的问题，即解决了在样本量小的情况下，模型过拟合的问题。但是依然存在如下问题，只根据当前语句的含义进行理解，而非对不同语句的不同之处进行学习，即语句之间的交互信息表示不足，对于不同语句中的细微变化但是意思完全相反的情况不能够产生有效的处理。在对话意图识别中，语句细微的变化可能正是两个完全不同的意图。例如“我对这个产品很感兴趣，你仔细说下，我想听听”和“我对这个产品不感兴趣，你不用说了，我不想听”。在该模型下，提取了“这个产品”，“感兴趣”，“说”，“听”，“我”，“你”等特征后，两句话的相似度就会相当高，会导致意图识别出错。一个好的对话系统应该对于是非判断的问题是十分敏感的，该模型等价提取了语义特征后，不能够将主题含义着重突显，容易造成对话系统的回应答非所问。

发明内容

为了解决现有的对话系统对于相似语句的不同语义判断准确度不高的缺陷，本发明提供了一种基于多维度语义交互表征模型的对话意图识别方法及系统，本系统可以充分理解用户当前对话所表达的含义以及意图，并结合知识库信息，充分比对当前对话是否命中知识库内容，根据多维度的语义交互表征模型形成置信度，进而选择合适当前语境的意图。解决了传统预训练语言模型在语义信息层面没有侧重，导致区分度不够、对于敏感信息忽视等问题。

为了实现上述目的，本发明采用的一种基于多维度语义交互表征模型的对话意图识别方法，包括以下步骤。

步骤1：组建对话知识库，包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签。

步骤2：构建多维度语义交互表征模型，包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层。

采用多维度语义交互表征模型提取对话语句的语义向量，具体过程为：获取待识别的当前对话语句，并将当前对话语句作为对话语句输入层的输入，经预训练语言模型处理后得到第一对话语句的语义向量；获取对话知识库中的任一对话语句作为对话语句输入层的输入，经预训练语言模型处理后得到第二对话语句的语义向量；将两条语义向量进行交互注意力层的计算，得到二维信息交互矩阵；所述的二维信息交互矩阵再依次经过卷积、池化和平铺处理，最后经softmax函数计算得到置信度。

步骤3：重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量的过程，将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度，选取对话知识库中置信度最高的前

个对话语句，然后将

个对话语句中对应意图标签数量最多的意图作为待定的识别结果。

步骤4：设定多维度语义交互表征模型中置信度输出层的输出阈值，若待定的识别结果对应的对话语句的置信度高于输出阈值，则将待定的识别结果作为最终的识别结果输出；否则，采用兜底回复策略。

本发明的另一目的在于提供了一种用于实现上述基于多维度语义交互表征模型的对话意图识别方法的系统。

包括：

用户输入模块，用于接收用户输入的对话语句，并将输入的对话语句处理为标准格式。

对话知识库模块，用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签。

预训练语言模型处理模块，用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量。

交互注意力模块，用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入，计算得到二维信息交互矩阵。

卷积神经网络模块，配置有卷积神经网络模型，包括输入层、卷积层、池化层、置信度输出层；用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵，提取二维信息交互矩阵的特征，并计算得到置信度。

兜底回复模块：存储有兜底回复语句，当接收到启动信号后，输出兜底回复语句。

意图选择模块，用于根据置信度和设定好的输出阈值对意图进行选择，首先选取对话知识库中置信度最高的前

个对话语句，然后将

个对话语句中对应意图标签数量最多的意图作为待定的识别结果，若待定的识别结果对应的对话语句的置信度高于输出阈值，则将待定的识别结果作为最终的识别结果输出；否则，启动兜底回复模块。

与现有技术相比，本发明具备以下有益效果。

1、本发明提出的多维度语义交互表征模型，通过将预训练语言模型的语义向量通过深度神经网络进行交互计算，获取待识别的对话语句与知识库中的任一对话语句之间的交互信息，有效学习句与句交互中的重点信息，减少了无关的信息。相比于现有技术中仅仅分析单句语义的单一分类模型，本发明通过语义信息在交互过程中得到的不同权重值，加强了相似语句的不同语义之间辨别能力，有效避免了传统的方法在语义上没有侧重以及在是非问题上极易混淆等问题，使得对话意图识别系统变得更加精准，鲁棒性更强。

2、本发明结合了预训练语言模型的优势，有大规模预训练语料训练的基础，故无需大量的业务标注数据，并通过语义向量交互后的多维度语义矩阵进行预测，能够解决由于样本数据不平衡导致的长尾问题以及由于样本数据较少导致的冷启动问题，本系统的适用范围更广。

附图说明

图1为本发明方法的模型框架设计图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

一种基于多维度语义交互表征模型的对话意图识别方法，如图1所示。

个对话语句，然后将

在本发明的一个具体实施中对对话知识库的构建进行了介绍。

所述的对话知识库应该包括通用常识和业务场景两部分内容。首先需要根据业务场景和业务流程定制知识库，知识库的每条信息包括对话语句

和相应语句所属的意图

，由于业务场景下也会出现常识性的对话，所以每个定制的知识库需要加入通用意图，例如打招呼，日常闲聊等。本发明结合了预训练语言模型的优势，由于预训练语言模型有大规模预训练语料训练的基础，能够很好提供语义理解，故无需大量的业务标注数据。

在本发明的一个具体实施中对多维度语义交互表征模型进行了介绍。

多维度语义交互表征模型基于预训练语言模型输出的语义向量，并在模型结构加入了句与句之间的交互，通过深度神经网络对语义向量进行交互计算，获取待识别的对话语句与知识库中的任一对话语句之间的交互信息，学习句与句交互中的重点信息，使得在语义理解上有侧重。

具体的，预训练语言模型包含一个巨大的字典，且按字级别建立字典，故无需将对话语句分词，按照字表剔除乱码即可。本发明中使用自训练的预训练语言模型，通过大规模的无标注新闻文本，训练通用模型；再在特定行业/领域进行微调，根据客户所处的行业，例如金融、教育、科技、医疗等，通过在相关领域文本上的微调，能够将行业专业词汇进行充分理解，增强在特定领域的语义理解能力。

在预训练语言模型提取语义向量的过程中，首先将待处理的对话语句进行独热编码，对于长度为n的输入句子s=[

,...,

]，其中

对应的独热编码为

，即长度为词表长度L，第

个位置上为1，其余位置为0的向量。然后通过Embedding层转换为固定长度的向量表示。

所述Embedding层的计算公式为：

其中，

表示待处理的对话语句中第i个字对应的独热编码向量，

为

的矩阵，

表示Embedding层输出的向量，

为矩阵e中的第i个元素。

将向量

作为第一层Transformer网络的输入序列，每一层Transformer网络均包括一层自注意力层和一层前向传播层。

所述自注意力层的计算公式为：

其中，

表示自注意力层中第

个自注意力计算结果，

表示

的自注意力层输出序列，

分别表示对输入序列做的矩阵变换，

表示归一化因子，

表示调节因子，起调节作用，使得内积的值不至于太大。

前向传播层的计算公式为：

其中，

为一层Transformer网络的输出序列，

和

分别是两个隐层的参数矩阵，

和

是偏差项。

将上一层Transformer网络的输出序列

作为下一层Transformer网络的输入序列，经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。

如图1所示，获取待识别的当前对话语句a，并将当前对话语句a作为对话语句输入层的输入，经预训练语言模型处理后得到第一对话语句的语义向量

；获取对话知识库中的任一对话语句q作为对话语句输入层的输入，经预训练语言模型处理后得到第二对话语句的语义向量

。

在通过深度神经网络对语义向量进行交互计算的过程中，结合预训练语言模型输出的语义向量

和

，通过交互注意力机制和卷积神经网络依次计算得到置信度。

其中，交互注意力层的计算公式为：

其中，

和

分别表示对话知识库中的任一对话语句和当前对话语句的语义向量（即在上述中描述的

和

），

表示转置，

表示知识库中的任一对话语句和当前对话语句的信息交互矩阵。

卷积神经网络中的卷积层的计算公式为：

其中，

表示卷积层采用的卷积核的大小，这里使用正方形的卷积核，即长宽均为

。

代表第

个卷积核的常数项，

代表第

个卷积核的位置为

上的一阶参数项，

使用ReLU激活函数，

表示由第

个卷积核运算得到的卷积矩阵，

为在卷积矩阵

中的第i行第j列上的元素。

使用ReLU激活函数。

卷积神经网络中的卷积层池化层的计算公式为：

其中，

表示池化大小的参数，

分别为知识库中对话语句的长度和当前对话语句的长度，

为卷积矩阵

经池化层运算后得到的池化矩阵，

为在池化矩阵

中的第i行第j列上的元素。

经过池化、平铺操作后，得到最终特征向量

，经过

函数得到知识库中的对话语句

和用户输入的对话语句

的相关性置信度。

在本发明的一个具体实施中对意图筛选过程进行了介绍。

将得到的置信度进行筛选，选取最佳的前

个语句，再从

个语句中选择得票最多的意图；若得到的置信度小于规定的阈值，则判定为无命中，采用兜底回复。

知识库中所有的意图语句

都会与用户输入的对话信息

形成置信度，将这些置信度按照从高到低的顺序进行排序，选取前

个置信度最高的语句，根据其所属的意图进行投票，选择得票最多的意图，如果有相同票数的意图，选择平均置信度最高的意图。如果最终选择的意图的平均置信度过低，小于规定的阈值，则判定为无命中任何意图，采用兜底回复，防止误答，错误识别等情况。

本发明所提出的基于多维度语义交互表征的模型，具备了预训练语言模型语义理解能力强，泛化性强等所有优点，并有效避免了在对话意图识别时预训练语言模型不能精确判断两句话语义差别的缺点。在实际业务应用中，本发明提出的模型较通用预训练语言模型效果更好，识别准确率有较大提升。特别是在一些是非语句的判断上，例如“我对这个产品很感兴趣，你仔细说下，我想听听”和“我对这个产品不感兴趣，你不用说了，我不想听”。在该模型下，提取了“这个产品”，“感兴趣”，“说”，“听”，“我”，“你”等特征后，两句话的相似度就会相当高，通用的预训练语言模型根据语义判断相关性为95%，会将两句话归为同一意图（语义），此时运用通用预训练语言模型会导致意图识别错误。在日常的对话中，这两句话的侧重点应该在于情感判断，运用本发明提出的多维度语义交互表征模型判断相关性为81%，此时与命中意图的置信度阈值相比，低于命中意图的平均置信度，故将两句话划分为不同意图，因此，该模型可以有效提升意图识别的准确率。

本发明还构建了一种基于多维度语义交互表征的对话意图识别系统。

包括：

卷积神经网络模块，配置有卷积神经网络模型，包括输入层、卷积层、池化层、置信度输出层；用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵，提取二维信息交互矩阵的特征，并计算得到置信度；所述的卷积神经网络模型可采用CNN卷积网络模型。

兜底回复模块：存储有兜底回复语句，当接收到启动信号后，输出兜底回复语句，例如“这方面我还不懂，您可以再说一遍吗”。

个对话语句，然后将

其中，预训练语言模型处理模块包括：

独热编码子模块：用于将待处理的对话语句进行独热编码。

Embedding子模块，用于将独热编码的对话语句转换为固定长度的向量表示，公式为：

其中，

表示待处理的对话语句中第i个字对应的独热编码向量，

为

的矩阵，

表示 Embedding子模块输出的向量，

为矩阵e中的第i个元素。

12层Transformer网络子模块，每一层Transformer网络均包括一层自注意力层和一层前向传播层，用于对Embedding子模块输出的向量提取语义特征。

第一层Transformer网络的计算过程具体为：

自注意力层的计算公式为：

其中，

表示自注意力层中第

个自注意力计算结果，

表示

的自注意力层输出序列，

分别表示对输入序列做的矩阵变换，

表示归一化因子，

表示调节因子。

前向传播层的计算公式为：

其中，

为一层Transformer网络的输出序列，

和

分别是两个隐层的参数矩阵，

和

是偏差项。

将上一层Transformer网络的输出序列

其中，交互注意力模块的计算公式为：

其中，

和

分别表示对话知识库中的任一对话语句和当前对话语句的语义向量，

表示转置，

其中，卷积神经网络模块的计算公式为：

首先通过卷积层计算卷积矩阵：

其中，

表示卷积层采用的卷积核的大小，

代表第

个卷积核的常数项，

代表第

个卷积核的位置为

上的一阶参数项，

使用ReLU激活函数，

表示由第

个卷积核运算得到的卷积矩阵，

为在卷积矩阵

中的第i行第j列上的元素。

再通过池化层计算池化矩阵：

其中，

表示池化大小的参数，

分别为知识库中对话语句的长度和当前对话语句的长度，

为卷积矩阵

经池化层运算后得到的池化矩阵，

为在池化矩阵

中的第i行第j列上的元素。

最后将池化矩阵平铺和拼接，使用softmax函数计算得到置信度，通过置信度输出层输出计算结果。

实施例

本发明在一个公开数据集LCQMC和一个真实业务数据集上进行了对比实验。LCQMC是哈工大发表的一个中文问答匹配数据集，该数据集被广泛应用在一些中文语义匹配的评测中。LCQMC更多的关注在intent matching（意图匹配）而不是paraphrase（短语）方面。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题，然后通过Wassersteindistance进行初步筛选，最后人工进行标注。数据集一共有260068对标注结果，分为三部分，238766训练集、8802验证集和12500测试集。

真实业务数据集选择了保险行业条款，整理了不同相关咨询问题，共86个不同的咨询问题，每条咨询扩写了5句相似问法，共430条语料。随机抽取350条作为训练集，40条作为验证集，40条作为测试集。

本发明主要在两大评判指标上进行对比，分别是：ACCURACY、F1-SCORE。总共比较了5个目前主流的意图分类算法：CBOW，CNN，BiLSTM，BiMPM，BERT（预训练模型）。整体对比结果如表1所示：

表1 本发明与现有技术的实施效果对比

从表1可以看出，本发明提出的一种基于多维度语义交互表征模型的对话意图识别方法，由于在模型结构加入了句与句之间的交互，能够有效学习句与句交互中的重点信息，减少了无关信息的作用，从而使语义信息在交互的学习过程中得到不同的权重，解决了传统预训练语言模型在语义信息层面没有侧重，导致区分度不够，对于敏感信息忽视等问题，在哈工大LCQMC匹配数据集以及真实的保险业务数据上均取得了准确率和F1值的最优效果，充分展示了本发明算法的优越性。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于多维度语义交互表征模型的对话意图识别方法，其特征在于，包括以下步骤：

步骤1：组建对话知识库，包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签；

步骤2：构建多维度语义交互表征模型，包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层；

采用多维度语义交互表征模型提取对话语句的语义向量，具体过程为：获取待识别的当前对话语句，并将当前对话语句作为对话语句输入层的输入，经预训练语言模型处理后得到第一对话语句的语义向量；获取对话知识库中的任一对话语句作为对话语句输入层的输入，经预训练语言模型处理后得到第二对话语句的语义向量；将两条语义向量进行交互注意力层的计算，得到二维信息交互矩阵；所述的二维信息交互矩阵再依次经过卷积、池化和平铺处理，最后经softmax函数计算得到置信度；

个对话语句，然后将

个对话语句中对应意图标签数量最多的意图作为待定的识别结果；

2.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法，其特征在于，步骤2所述的预训练语言模型包括Embedding层和12层Transformer网络结构，预训练语言模型的运算步骤具体为：

2.1）首先将待处理的对话语句进行独热编码，然后通过Embedding层转换为固定长度的向量表示，所述Embedding层的计算公式为：

其中，

表示待处理的对话语句中第i个字对应的独热编码向量，

为预设的转换矩阵，

表示Embedding层输出的向量，

为矩阵e中的第i个元素；

2.2）将向量

作为第一层Transformer网络的输入序列，每一层Transformer网络均包括一层自注意力层和一层前向传播层，所述自注意力层的计算公式为：

其中，

表示自注意力层中第

个自注意力计算结果，

表示

的自注意力层输出序列，

分别表示对输入序列做的矩阵变换，

表示归一化因子，

表示调节因子；

前向传播层的计算公式为：

其中，

为一层Transformer网络的输出序列，

和

分别是两个隐层的参数矩阵，

和

是偏差项；

2.3）将上一层Transformer网络的输出序列

3.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法，其特征在于，步骤2所述的交互注意力层的计算公式为：

其中，

和

表示转置，

4.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法，其特征在于，步骤2所述的卷积层的计算公式为：

其中，

表示卷积层采用的卷积核的大小，

代表第

个卷积核的常数项，

代表第

个卷积核的位置为

上的一阶参数项，

使用ReLU激活函数，

表示由第

个卷积核运算得到的卷积矩阵，

为在卷积矩阵

中的第i行第j列上的元素，

表示激活函数。

5.根据权利要求4所述的一种基于多维度语义交互表征模型的对话意图识别方法，其特征在于，步骤2所述的池化层的计算公式为：

其中，

表示池化大小的参数，

分别为知识库中对话语句的长度和当前对话语句的长度，

为卷积矩阵

经池化层运算后得到的池化矩阵，

为在池化矩阵

中的第i行第j列上的元素。

6.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法，其特征在于，步骤3所述的将

个对话语句中对应意图标签数量最多的意图作为待定的识别结果，若存在标签数量相同的意图，则选择平均置信度最高的意图作为待定的识别结果。

7.一种基于权利要求1所述对话意图识别方法的识别系统，其特征在于，包括：

用户输入模块，用于接收用户输入的对话语句，并将输入的对话语句处理为标准格式；

对话知识库模块，用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签；

预训练语言模型处理模块，用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量；

交互注意力模块，用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入，计算得到二维信息交互矩阵；

卷积神经网络模块，配置有卷积神经网络模型，包括输入层、卷积层、池化层、置信度输出层；用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵，提取二维信息交互矩阵的特征，并计算得到置信度；

兜底回复模块：存储有兜底回复语句，当接收到启动信号后，输出兜底回复语句；

个对话语句，然后将个对话语句中对应意图标签数量最多的意图作为待定的识别结果，若待定的识别结果对应的对话语句的置信度高于输出阈值，则将待定的识别结果作为最终的识别结果输出；否则，启动兜底回复模块。

8.根据权利要求7所述的识别系统，其特征在于，所述的预训练语言模型处理模块包括：

独热编码子模块：用于将待处理的对话语句进行独热编码；

Embedding子模块，用于将独热编码的对话语句转换为固定长度的向量表示；

12层Transformer网络子模块，每一层Transformer网络均包括一层自注意力层和一层前向传播层，用于对Embedding子模块输出的向量提取语义特征；将上一层Transformer网络的输出序列作为下一层Transformer网络的输入序列，经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。

9.根据权利要求7所述的识别系统，其特征在于，所述的交互注意力模块将对话知识库中的任一对话语句进行转置，然后与当前对话语句的语义向量相乘，得到知识库中的任一对话语句和当前对话语句的信息交互矩阵。

10.根据权利要求7所述的识别系统，其特征在于，所述的卷积神经网络模块的计算方式为：首先通过卷积层计算卷积矩阵，再通过池化层计算池化矩阵，最后将池化矩阵平铺和拼接，使用softmax函数计算得到置信度，通过置信度输出层输出计算结果。