CN113076758B

CN113076758B - 一种面向任务型对话的多域请求式意图识别方法

Info

Publication number: CN113076758B
Application number: CN202110296459.0A
Authority: CN
Inventors: 谢洪途; 林奕全; 王国倩
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2023-03-14
Anticipated expiration: 2041-03-19
Also published as: CN113076758A

Abstract

本发明提供一种面向任务型对话的多域请求式意图识别方法，该方法通过将请求式意图识别任务建模为配对排序任务，使用简单的双编码器框架及基于多层级相似度的困难负样本挖掘策略，有效提升了该场景下的识别效率及准确率。实验结果表明，本发明提出的方法相较基线(Baseline)检索模型于DSTC9‑Track1测试集上，识别效率及可见域Top1/Top5准确率有较大提升。此外，该方法兼容基于语义空间的域自适应(Domain Adaption)技术，便于后续对小样本场景的扩展使用。

Description

一种面向任务型对话的多域请求式意图识别方法

技术领域

本发明涉及对话意图识别和信息检索领域，更具体地，涉及一种面向任务型对话的多域请求式意图识别方法。

背景技术

对话意图识别又称对话状态跟踪，是任务型对话系统关键模块，旨在理解当前对话的用户意图从而辅助系统回复生成。在任务型对话中，对话状态通常定义为当前激活的用户意图槽值(Slot-Values)。用户意图插槽又可分为信息槽(Informable Slot)和请求槽(Requestable Slot)，信息槽用于记录用户要求的属性条件用于实体搜索，而请求槽记录了用户对指定实体的附加信息请求，用于调用API链接外部知识库(Knowledge Base，KB)。为在任务型对话中更高效地链接外部知识库，本发明更关注请求式意图，即(是否请求，请求域，请求实体)的三元组的识别任务。

此前对话意图识别的相关工作(Hung Le等)通常建模为多分类任务，不适用于资源受限(Low Resource)的场景。对此，Chien-Sheng Wu等提出基于指针网络(PointerNetwork)进行跨域的迁移学习(Transfer Learning)，但由于其没有利用特征空间的语义信息进行迁移，于小样本(Few-Shot)场景下的迁移学习能力仍有待提升。因而，如何学习有效的对话意图语义表征成为小样本迁移的关键。

度量学习(Metric learning)是一种高效的表征学习方法，其通过神经网络将输入样本对映射到特征空间，并利用三元组损失函数(Triplet Loss)或对比损失函数(Contrastive Loss)拉近特征空间中的相似样本并拉开相异样本，从而得到高可辨的样本表征。度量学习因高效、高可辨表征的学习能力，广泛用于人脸识别、行人重识别等计算机视觉及小样本学习领域(LukaszKaiser等)。在自然语言领域，DanielGillick等、VladimirKarpukhin等和TianchengZhao等的工作也分别将其用于实体链接(Entity Link，EL)、文档检索和对话生成等任务。

请求式意图识别中也涉及请求实体的检测，因而DanielGillick等将度量学习用于实体链接的工作与本发明的应用场景最为近似。实体链接是将文本中的提及(Mention)链接到知识库中的实体的自然语言理解技术，其通常分为候选实体生成——消歧(Candidate Entity Generation-Entity Disambiguation，CEG-ED)两阶段实现。DanielGillick等根据CEG需要人工构建的别名字典生成、易漏检实体的缺点，选择跳过CEG阶段，基于度量学习技术直接根据提及的上下文进行实体检索。

本发明受DanielGillick等的工作启发，将双编码器(Bi-Encoder)及在线困难负样本挖掘(Online Hard Negative Mining)的度量学习框架应用于多域请求式意图识别，在提升其性能的同时，该方法也兼容基于语义空间的域自适应(Domain Adaption)技术。需要指出DanielGillick等实体检索的工作与请求实体识别存在下述差异：一，自然语言理解程度不同，两者均需从存在共指(Coreference)的文本进行实体抽取，但实体链接的输出的是请求实体的子集，因而需要更强的上下文化编码器(Contextualized Encoder)提取文本特征；二，实体链接任务需要数据集预先提供提及块(Mention Span)标注或通过启发式方法提取，如别名字典模糊匹配(Chao-HongTan等)，且实体链接任务中存在较多难分辨的实体，需通过额外的实体描述进行实体消歧。

发明内容

本发明提供一种准确率较好的面向任务型对话的多域请求式意图识别方法。

为了达到上述技术效果，本发明的技术方案如下：

一种面向任务型对话的多域请求式意图识别方法，包括以下步骤：

S1：获取对话数据，从对话数据中获取实体ID集合E＝{1,2,…,C}和对话历史U＝{u₁,u₂,…,u_t}，并对对话历史进行分词；

S2：随机采样一批步骤S1已分词的对话历史，与实体ID构成样本对，通过双编码器模型分别对对话历史及实体ID进行特征提取，得到正样本i对应的查询表征及实体ID的码本表征分别为q_i＝E(U_i)∈R^d和Z＝{z₁,z₂,…,z_C}∈R^|E|×d；

S3：通过步骤S2得到的批样本对的高维表征，根据实体级层级标签计算样本对重要性，并进行实体级表征三元组的挖掘：

Triples_i,local＝{(q_i,z_i,q_i,1 ^-),(q_i,z_i,q_i,2 ^-),…,(q_i,z_i,q_i,M ^-)}

其中，q_i为正样本i对应的查询表征，q_i,M ^-为样本i的第M个负样本对应的查询表征，z_i为正样本i锚定的码本表征，最后计算实体级局部损失函数

S4：通过步骤S2得到的批样本对的高维表征，根据域级层级标签计算样本对重要性，并进行域级表征三元组的挖掘：

Triples_global＝{(q₁，z₁，q₁ ^-)，(q₂，z₂，q₂ ^-)，…，(q_N，z_N，q_N ^-)}

其中，q_N ^-为度量空间中与z_N相似度最高的异域样本表征，最后计算域级全局损失函数

S5：计算总损失函数，

其中，β、γ为可调参数，

为码本损失函数，用于对码本嵌入进行更新，最后，通过总损失函数优化双编码器模型，重复步骤S2-S5直至达到设定的最大迭代次数；

S6：停止迭代双编码器模型，并用于请求式意图识别。

进一步地，步骤S2中的输入对话历史U＝{u₁,u₂,…,u_t}包含多轮交互，每轮交互由用户及发言者的对话语句构成，待识别的意图即为实体ID集合E＝{1,2,…,C}；

步骤S3-S4中，对于由输入对话历史和实体ID中构成的样本对，定义度量相似度为两者于度量空间的L2距离，查询表征在度量空间与相应的码本表征进行最近邻匹配：

sim(q_i，q_j)＝||q_i-q_j||₂

其中，q_i，q_j为样本对(i,j)对应的查询表征，z_e为实体e∈E对应的码本表征；步骤S2的过程为：

实体ID通过码本嵌入矩阵映射为高维表征z_c＝E_e(c)∈R^d，对于正样本i，其对话历史通过Transformer映射为对应的查询表征q_i＝E(U_i)∈R^d；

给定对于样本对(i,j)及相应的层级标签l_local＝(isRequestable,domainID,entityID)，用于标注的多层级的相似度函数f：

其中|l|表示标签的层级，l_i,k表示样本i的第k层标签信息，l_j,k表示样本j的第k层标签信息，isRequestable表示是否请求，domainID表示域ID，entityID表示实体ID；

对于批样本集合B＝{1,2,…,N}，样本对(i,j)的标注相似度排序由函数f定义的距离空间下的降序排列给出，而度量相似度排序由sim函数给出。

进一步地，步骤S3中，给定样本对(i,j)，根据实体级层级标签l_local＝(isRequestable,domainID,entityID)，可计算多层级相似度及样本对重要性：

其中，D_ij＝relativePos_ij为逆序对于度量排序与标定排序的相对位置差，反应了样本对(i,j)的逆序程度；在线训练时，每个样本都有局部与全局两个尺度且固定大小的三元组缓冲区，对于样本对定义其重要性并进行排序，样本对依据其重要性大小依次存入三元组缓冲区；所述步骤S3通过局部缓冲区中的三元组计算实体级局部损失函数：

其中，α为最大间隔，sg(·)为梯度截断算子，(q_i,z_i,q_i,m ^-)∈Triples_i,local。

进一步地，所述步骤S4通过全局缓冲区中的三元组计算域级全局损失函数：

α为最大间隔，sg(·)为梯度截断算子，(q_i,z_i,q_i ^-)∈Triples_global。

进一步地，所述步骤S5通过码本损失函数对码本嵌入进行更新：

其中q_i为样本i于度量空间中的查询表征，z_i为其对应的码本表征。

其中，所有输入对话历史均通过步骤S1进行分词处理；步骤S1中，对输入的对话进行WordPiece分词。

进一步地，步骤S6的过程是，输入对话历史和实体ID通过步骤S2-S5训练好的模型，分别映射为查询表征和码表征，通过最近邻算法进行码本匹配。

与现有技术相比，本发明技术方案的有益效果是：

本发明将一种简单的双编码器框架和基于配对法的困难负样本在线挖掘策略用于请求式意图识别，该方法通过将请求式意图识别任务建模为配对排序任务，有效提升了该场景下的识别效率及准确率。实验结果表明，本发明提出的方法相较基线(Baseline)检索模型于DSTC9-Track1测试集上，识别效率及可见域Top1/Top5准确率有较大提升。此外，该方法兼容基于语义空间的域自适应(Domain Adaption)技术，便于后续对小样本场景的扩展使用。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

方法流程如图1所示，一种面向任务型对话的多域请求式意图识别方法，包括以下步骤：

设待匹配的实体ID集合为E＝{1,2,…,C}，作为查询的对话历史为U＝{u₁,u₂,…,u_t}。为应用度量学习的方法，定义码本嵌入矩阵(Embedding Matrix)为Z＝{z₁,z₂,…,z_C}∈R^|E|×d，其中d为嵌入维度，z_C代表第C个实体对应的码本表征。实体ID通过码本嵌入矩阵映射为高维表征。对于正样本i，其对话历史通过Transformer映射为对应的查询表征q_i＝E(U_i)∈R^d。上述定义码本表征和查询表征共享同一度量空间。

对于样本对(i,j)，定义相似度为两者于度量空间的L2距离，

sim(q_i，q_j)＝||q_i-q_j||₂

其中，q_i，q_j为(i,j)于度量空间中的表征。查询表征通过以下最近邻算法进行码本匹配，

记z_i为样本i对应的码本表征，

对于批样本集合B＝{1,2,…,N}，样本对(i,j)的标注相似度排序(Ground-TruthRanking)由函数f定义的距离空间下的降序排列给出，而度量相似度排序(Learned Metricranking)由上述定义的sim函数给出。根据以上定义，本发明通过度量学习的方法使度量排序逼近给定的标注排序。本发明的具体内容如下：

第一步：获取对话数据，从对话数据中获取实体ID集合E＝{1,2,…,C}和对话历史U＝{u₁,u₂,…,u_t}，并对对话历史进行WordPiece分词；

第二步：随机采样一批第一步已分词的对话历史，与实体ID构成样本对，通过双编码器模型分别对对话历史及实体ID进行特征提取，得到正样本i对应的查询表征及实体ID的码本表征分别为q_i＝E(U_i)∈R^d和Z＝{z₁,z₂,…,z_C}∈R^|E|×d；

第三步：通过第二步得到的批样本对的高维表征，根据实体级层级标签计算样本对重要性，并进行实体级表征三元组的挖掘：

给定样本对(i,j)，根据实体级层级标签l_local＝(isRequsestable,domainID,entityID)计算多层级相似度及样本对重要性

逆序对依据其重要性排序依次存入样本对应的三元组缓冲区。记N为批大小，M为缓冲区大小，则批内样本i对应的实体级三元组如下：

其中，q_i为正样本i对应的查询表征，q_i,M ^-为样本i的第M个负样本对应的查询表征，z_i为正样本i锚定的码本表征。

对应的实体级局部损失函数可由下式算得：

where(q_i,z_i,q_i,m ^-)∈Triples_i,local

其中，α为最大间隔，sg(·)为梯度截断算子；

第四步：通过第二步得到的批样本对的高维表征，根据域级层级标签计算样本对重要性，并进行域级表征三元组的挖掘：

给定域级层级标签为(isRequestable,domainID)，样本i对应的三元组如下，

Triples_global＝{(q_i,q_i ^-),(q₂,q₂ ^-),…,(q_N,q_N ^-)}，

其中，q_N ^-为度量空间中与z_N相似度最高的异域样本表征。

类似的，对应的域级全局损失函数可由下式算得：

where(q_i,z_i,q_i ^-)∈Triples_global

第五步：计算总损失函数并优化模型，重复重复第二步到第五步直至达到设定的最大迭代次数，码本损失函数为：

总损失函数为，

其中，β、γ为可调参数。

第六步，停止迭代，将模型用于请求式意图识。即输入对话历史和实体ID通过第二步到第五步训练好的模型，分别映射为查询表征和码表征，并通过最近邻算法进行码本匹配。

发明于DSTC9-Track1测试集上的对比实验结果如下表1：

表1本发明于DSTC9-Track1测试集上的对比实验结果

实验环境：Intel Xeon E5-2678 v3s(CPU)，NVIDIA Tesla V100(GPU)，在实验中基线检索模型使用单核CPU而本发明则使用单卡GPU进行推理。

实验参数：训练参数方面，损失函数α＝1，β＝γ＝1，批大小N＝128，使用5e-5到0的学习率衰减及1.0最大范数梯度裁剪策略。模型方面，码本使用标准正态分布进行随机初始化，Transformer使用GPT2前两层的网络结构，分词器则使用GPT2对应的WordPiece子词模型，对话历史截断为128字。

基线检索模型：基于Chao-HongTan等提出的基线检索模型进行改进，为提高基线模型的实体检索准确率及效率，直接过滤待检索实体中的特殊符号而非使用别名字典，使用基于动态规划实现的最长公共子序列(Longest Common Sequence，LCS)而非暴力算法进行实体匹配。此外，为将此基线检索模型用于请求式意图识别，实验中对所有检出的实体按照对话轮数、模型匹配分数及实体出现的位置进行排序。

实验结果分析：对比实验结果表明，本发明提出的方法于可见域上有更高的Top-1/Top-5准确率及更快的样本推理速度，但由于使用实体ID进行检索，无法用于不可见域，于测试集上效果明显低于基线检索模型，仍需后续基于语义空间进行迁移学习或与基线检索模型进行模型融合；由于子词序列没有明显的词边界，基于WordPiece分词的对话历史和待检索实体容易丢失实体词信息，导致模糊匹配准确率明显下降。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向任务型对话的多域请求式意图识别方法，其特征在于，包括以下步骤：

其中，q_i为正样本i对应的查询表征，q_,M ^-为样本i的第M个负样本对应的查询表征，z_i为正样本i锚定的码本表征，最后计算实体级局部损失函数

Triples_global＝q₁,z₁,q₁ ^-,q₂,z₂,q₂ ^-,…,q_N,z_N,q_N ^-}}

S5：计算总损失函数，

其中，β、γ为可调参数，

S6：停止迭代双编码器模型，并用于请求式意图识别。

2.根据权利要求1所述的面向任务型对话的多域请求式意图识别方法，其特征在于，步骤S2中的输入对话历史U＝{u₁,u₂,…,u_t}包含多轮交互，每轮交互由用户及发言者的对话语句构成，待识别的意图即为实体ID集合E＝{1,2,…,C}。

3.根据权利要求1所述的面向任务型对话的多域请求式意图识别方法，其特征在于，步骤S3-S4中，对于由输入对话历史和实体ID中构成的样本对，定义度量相似度为两者于度量空间的L2距离，查询表征在度量空间与相应的码本表征进行最近邻匹配：

sim(q_i，q_j)＝||q_i-q_j||₂

其中，q_i，q_j为样本对(i,j)对应的查询表征，z_e为实体e∈E对应的码本表征。

4.根据权利要求1所述的面向任务型对话的多域请求式意图识别方法，其特征在于，步骤S2的过程为：

其中|l|表示标签的层级，l_i,k表示样本i的第k层标签信息，l_j,k表示样本j的第k层标签信，isRequestable表示是否请求，domainID表示域ID，entityID表示实体ID；

5.根据权利要求4所述的面向任务型对话的多域请求式意图识别方法，其特征在于，步骤S3中，给定样本对(i,j)，根据实体级层级标签l_local＝(isRequestable,domainID,entityID)，可计算多层级相似度及样本对重要性：

其中，D_ij为逆序对于度量排序与标定排序的相对位置差，反应了样本对(i,j)的逆序程度。

6.根据权利要求5所述的面向任务型对话的多域请求式意图识别方法，其特征在于，步骤S3中，在线训练时，每个样本都有局部与全局两个尺度且固定大小的三元组缓冲区，对于逆序样本对定义其重要性并进行排序，逆序样本对依据其重要性大小依次存入三元组缓冲区。

7.根据权利要求6所述的面向任务型对话的多域请求式意图识别方法，其特征在于，所述步骤S3通过局部缓冲区中的三元组计算实体级局部损失函数：

8.根据权利要求7所述的面向任务型对话的多域请求式意图识别方法，其特征在于，所述步骤S4通过全局缓冲区中的三元组计算域级全局损失函数：

9.根据权利要求8所述的面向任务型对话的多域请求式意图识别方法，其特征在于，所述步骤S5通过码本损失函数对码本嵌入进行更新：

10.根据权利要求1-9任一项所述的面向任务型对话的多域请求式意图识别方法，其特征在于，所有输入对话历史均通过步骤S1进行分词处理。