CN111984785A

CN111984785A - 一种基于多领域多轮问答的对话状态跟踪方法

Info

Publication number: CN111984785A
Application number: CN202010815598.5A
Authority: CN
Inventors: 于建港; 于长宏; 吴嘉琪; 肖定和; 刘嵩
Original assignee: Hainan Zhongzhixin Information Technology Co ltd
Current assignee: Hainan Zhongzhixin Information Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-24
Anticipated expiration: 2040-08-14
Also published as: CN111984785B

Abstract

本发明提供一种基于多领域多轮问答的对话状态跟踪方法，该方法包括下列步骤：S1、建立对话状态模型,并对所述对话状态模型进行编码；S2、基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断；S3、通过Slot gate Prediction模块对每一个slot type生成value值的方式进行判断；S4、基于Span Prediction模块对slot中的value值进行预测，并最终生成word。

Description

一种基于多领域多轮问答的对话状态跟踪方法

技术领域

本发明涉及人机问答技术领域，尤其涉及一种基于多领域多轮问答的对话状态跟踪方法。

背景技术

现存的多领域DST模型，如TRADE和SOM-DST都存在各自的问题。首先，多领域下各种类型的槽值是存在内在异质性的，例如restaurant-name、attraction-name等slot的值可归类为named entity。而restaurant-book people，train-book time等slot的值则都可归为number-type entity；还有一些slot如hotel-parking,hotel-internet属于布尔类型，需要的是用户判断是或否。有些模型如HyST，DS-DST等通过人工定义规则来捕捉这些异质信息，虽然有效，但是增加了模型复杂度。此外，使用carryover机制的模型，例如DSTreader和SOM-DST，它们的模型性能评价指标发生了微妙的变化，即准确率其实仅对非carryover操作的情况有意义。而MultiWOZ2.1中carryover与非carryover的样本是极不均衡的。经统计，在训练集中，对应carryover操作的slot数量有1584385个，占比95.92％；一个turn内全部slots都对应carryover操作的情况则占比33.48％。这意味着，只要slotgate将一切slot的操作都判别为carryover，就可以实现95.92％的槽位准确率和33.48％的联合准确率。这意味着SOM-DST的性能非常依赖slot gate分类的准确率。但是SOM-DST并没有在论文中展示过分类器的准确率或召回率，而它的最终性能其实存在极大的可提升空间。

发明内容

本发明的目的在于提供一种基于多领域多轮问答的对话状态跟踪方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的：本发明提供了一种基于多领域多轮问答的对话状态跟踪方法，包括下列步骤：

S1、建立对话状态模型,并对所述对话状态模型进行编码；

S2、基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断；

S3、通过Slot gate Prediction模块对每一个slot type生成value值的方式进行判断；

S4、基于Span Prediction模块对slot中的value值进行预测，并最终生成word。

优选的，所述建立对话状态模型，具体包括：

将当前回合对话话语、上一回合对话话语以及上一回合的对话状态容器内容进行拼接，从而获得对话状态模型X_t：

其中D_t表示t回合的对话话语，D_t-1表示第t-1回合的对话话语，B_t表示t回合的对话状态容器内容，其中D_t的模型为：

B_t的模型为：

其中，

表示第i个领域下的t回合的对话状态容器内容，M表示领域数量，N表示第i个领域包含的slot数量，[A]、[U]、[DOM]、[SLOT]、[CLS]、[SEP]、[EOS]都是特殊的字符，其中[A]和[U]分别后接系统和用户的话语，[DOM]和[SLOT]分别后接兴趣领域名称和slot名称。

优选的，对所述对话状态模型进行编码，具体包括：

基于Bert模型对所述对话状态模型X_t进行编码，输出隐藏状态矩阵H_t，并将矩阵H_t中对应每一个字符的隐藏状态向量记为h_t。

优选的，通过Slot gate Prediction模块对每一个字符的中的slot type生成value值的方式进行判断，具体包括：

采用Slot gate Prediction模块将对话状态模型X_t中的[SLOT]所对应的隐藏状态向量

映射为{carryover,confirm,span}上的分布；

在当前对话回合下，若某一slot type的值与上一对话回合相同，则slot type的操作方式为carryover，其slot type中的value值直接继承上一对话回合；

若某一slot type的值为yes、no、[NULL]、do not care之一，则slot type的操作方式为confirm，其slot type中的value值需要用户在yes、no、[NULL]、do not care之中进行确认；

若某一slot type的值即不与上一对话回合相同，也不属于yes、no、[NULL]、donot care之一，则将slot type的操作方式为span，使用copy机制从对话历史文本中抽取或拷贝合适的字符来作为其slot type中的value值。

优选的，基于Domain Interest Prediction模块对每个slot type中的兴趣领域进行判断，具体包括：

若目标领域所属的N个slot type的操作方式均为carryover，则将目标领域判定为carryover；否则判定为interest。

优选的，基于Domain Interest Prediction模块的判断结果对Slot gatePrediction模块的判断结果进行修正，其具体过程为：对被判断为carryover的目标领域，判定其下属的全部N个slot type的操作方式都是carryover，结束状态跟踪；

对被判断为interest的目标领域，继续对其下属的N个slot type的操作方式进行预测。

优选的，基于Span Prediction模块对slot中的value值进行预测，并最终生成word，具体包括：

构建GRU神经网络，将[CLS]对应的隐藏状态向量

经过一个线性层W后作为GRU神经网络的初始输入，将[SLOT]对应的隐藏状态向量

作为GRU神经网络的初始隐藏状态；

对于解码的每一个time step，通过输入word embedding来更新GRU神经网络的初始隐藏状态，同时将GRU神经网络的初始隐藏状态映射至词表上的分布和对话历史上的分布，其中对话历史通过隐藏状态矩阵H_t建模实现；

将在词表上的分布和对话历史H_t上的分布进行加权求和，作为最终的输出分布并生成句子。

优选的，通过Confirm Prediction模块对[“yes”,“no”,“[NULL]”,“do notcare”]四个值进行分类判决，从而显式地从所述对话历史H_t中建模出[“yes”,“no”,“[NULL]”,“do not care”]的语义信息，其具体过程包括：

对[“yes”,“no”,“[NULL]”,“do not care”]中的每一个值V_j进行编码：

将四个

中的[CLS]对应的隐藏状态向量进行拼接，构成确信矩阵C_t：

将SLOT对应的隐藏状态向量

与C_t作双线性张量积，然后通过softmax分类器得到概率分布：

取概率最大的值作为该[SLOT]最后的值。

与现有技术相比，本发明达到的有益效果如下：本发明提供的一种基于多领域多轮问答的对话状态跟踪方法，在基础的slot gate预测器上同时加入domain gate预测器的学习，增强模型对对话过程中领域转换过程的识别能力，并且在测试阶段使用domain gate预测器结果对slot gate预测器结果进行修正，增加最终的槽位操作分类的准确率；

针对四种在给定对话历史文本中没有显式的对应词的槽值类型(yes,no,[NULL],do not care)，使用一个基于双线性张量积的confirm预测器进行额外的学习。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于多领域多轮问答的对话状态跟踪方法的流程图；

图2为本发明提供的一种基于多领域多轮问答的对话状态跟踪方法的模型整体框架示意图。

具体实施方式

为了更好理解本发明技术内容，下面提供具体实施例，并结合附图对本发明做进一步的说明。

参见图1至图2，本发明第一方面提供了一种基于多领域多轮问答的对话状态跟踪方法，包括下列步骤：

S1、建立对话状态模型,并对所述对话状态模型进行编码；

作为一种示例，所述建立对话状态模型，具体包括：

B_t的模型为：

其中，

作为一种优选示例，对所述对话状态模型进行编码，具体包括：

基于Bert模型对所述对话状态模型X_t进行编码，BERT模型的编码由由单词嵌入、id嵌入、position嵌入三者的加和组成，因此本发明规定从属于D_t-1的tokens的segment id为1，其他的tokens的segment id为0，由Bert模型可输出隐藏状态矩阵H_t，并将矩阵H_t中对应每一个字符的隐藏状态向量记为h_t。

在本发明的一个优选实施例中，基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断，Domain Interest Prediction是一个{carryover,interest}上的领域判决器，其判断的具体包括：

在本发明的又一个优选实施例中，L个domain-interest-label的或运算的结果作为当前回合的label，并且可基于Domain Interest Prediction模块的判断结果对Slotgate Prediction模块的判断结果进行修正，其具体过程为：对被判断为carryover的目标领域，判定其下属的全部N个slot type的操作方式都是carryover，结束状态跟踪；

在本发明的一个优选实施例中，通过Slot gate Prediction模块对每一个字符的中的slot type生成value值的方式进行判断，Slot gate Prediction模块是一个判断某一个slot type应以何种操作方式生成value的模块，它是一个简单的三分类器，将slot的隐藏状态向量映射为{carryover,confirm,span}上的分布，按需施加以三种操作方式，其具体包括：

将对话状态模型X_t中的[SLOT]所对应的隐藏状态向量

映射为{carryover,confirm,span}上的分布；

另外，Slot gate Prediction模块以及Domain Interest Prediction模块在使用时分别独立产生结果，在分别获得两个模块的结果后，使用Domain Interest Prediction模块的预测结果对Slot gate Prediction模块的预测结果进行修正，即对于判断为carryover的，目标领域，将其下属的所有slots的操作方式均覆盖为carryover。

作为本发明的优选实施例，基于Span Prediction模块对slot中的value值进行预测，并最终生成word，具体包括：

构建GRU神经网络，将[CLS]对应的隐藏状态向量

作为GRU神经网络的初始隐藏状态：

其中映射至词表上的分布：

映射至对话历史上的分布：

将在词表上的分布和对话历史H_t上的分布进行加权求和：

其中权重是一个取值[0,1]内的标量，表示generation probability(词表注意力发挥作用的概率)，通过词表信息与对话历史信息相结合，Span Prediction模块实现了即使words没有预定义在vocabulary里，也可以生成未在词表中预定义的单词。

当GRU的某一step生成[EOS]token时，解码结束，并生成最终的输出单词。

在本发明的一个优选实施例中，通过Confirm Prediction模块对[“yes”,“no”,“[NULL]”,“do not care”]四个值进行分类判决，从而显式地从所述对话历史H_t中建模出[“yes”,“no”,“[NULL]”,“do not care”]的语义信息，其具体过程包括：

将四个

中的[CLS]对应的隐藏状态向量进行拼接，构成确信矩阵C_t：

将[SLOT]对应的隐藏状态向量

与C_t作双线性张量积，然后通过softmax分类器得到概率分布：

取概率最大的值作为该[SLOT]最后的值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，包括下列步骤：

S1、建立对话状态模型，并对所述对话状态模型进行编码；

2.根据权利要求1所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，所述建立对话状态模型，具体包括：

B_t的模型为：

其中，

3.根据权利要求2所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，对所述对话状态模型进行编码，具体包括：

4.根据权利要求3所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，通过Slot gate Prediction模块对每一个字符的中的slot type生成value值的方式进行判断，具体包括：

映射为{carryover，confirm，span}上的分布；

若某一slot type的值既不与上一对话回合相同，也不属于yes、no、[NULL]、do notcare之一，则将slot type的操作方式定为span，使用copy机制从对话历史文本中抽取或拷贝合适的字符来作为其slot type中的value值。

5.根据权利要求4所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断，具体包括：

6.根据权利要求5所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，基于Domain Interest Prediction模块的判断结果对Slot gate Prediction模块的判断结果进行修正，其具体过程为：对被判断为carryover的目标领域，判定其下属的全部N个slot type的操作方式都是carryover，结束状态跟踪；

7.根据权利要求6所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，基于Span Prediction模块对slot中的value值进行预测，并最终生成word，具体包括：

构建GRU神经网络，将[CLS]对应的隐藏状态向量

作为GRU神经网络的初始隐藏状态；

将在词表上的分布和对话历史H_t上的分布进行加权求和，作为最终的输出分布并生成word。

8.根据权利要求7所述的一种基于多领域多轮问答的对话状态跟踪方法，其特征在于，通过Confirm Prediction模块对[“yes”，“no”，“[NULL]”，“do not care”]四个值进行分类判决，从而显式地从所述对话历史H_t中建模出[“yes”，“no”，“[NULL]”，“do not care”]的语义信息，其具体过程包括：

对[“yes”，“no”，“[NULL]”，“do not care”]中的每一个值V_j进行编码：

将四个Y_t ^j中的[CLS]对应的隐藏状态向量进行拼接，构成确信矩阵C_t：

将[SLOT]对应的隐藏状态向量

与C_t作双线性张量积，然后通过softmax分类器得到概率分布：

取概率最大的值作为该[SLOT]最后的值。