CN111984785A - 一种基于多领域多轮问答的对话状态跟踪方法 - Google Patents
一种基于多领域多轮问答的对话状态跟踪方法 Download PDFInfo
- Publication number
- CN111984785A CN111984785A CN202010815598.5A CN202010815598A CN111984785A CN 111984785 A CN111984785 A CN 111984785A CN 202010815598 A CN202010815598 A CN 202010815598A CN 111984785 A CN111984785 A CN 111984785A
- Authority
- CN
- China
- Prior art keywords
- slot
- value
- dialog
- round
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于多领域多轮问答的对话状态跟踪方法,该方法包括下列步骤:S1、建立对话状态模型,并对所述对话状态模型进行编码;S2、基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断;S3、通过Slot gate Prediction模块对每一个slot type生成value值的方式进行判断;S4、基于Span Prediction模块对slot中的value值进行预测,并最终生成word。
Description
技术领域
本发明涉及人机问答技术领域,尤其涉及一种基于多领域多轮问答的对话状态跟踪方法。
背景技术
现存的多领域DST模型,如TRADE和SOM-DST都存在各自的问题。首先,多领域下各种类型的槽值是存在内在异质性的,例如restaurant-name、attraction-name等slot的值可归类为named entity。而restaurant-book people,train-book time等slot的值则都可归为number-type entity;还有一些slot如hotel-parking,hotel-internet属于布尔类型,需要的是用户判断是或否。有些模型如HyST,DS-DST等通过人工定义规则来捕捉这些异质信息,虽然有效,但是增加了模型复杂度。此外,使用carryover机制的模型,例如DSTreader和SOM-DST,它们的模型性能评价指标发生了微妙的变化,即准确率其实仅对非carryover操作的情况有意义。而MultiWOZ2.1中carryover与非carryover的样本是极不均衡的。经统计,在训练集中,对应carryover操作的slot数量有1584385个,占比95.92%;一个turn内全部slots都对应carryover操作的情况则占比33.48%。这意味着,只要slotgate将一切slot的操作都判别为carryover,就可以实现95.92%的槽位准确率和33.48%的联合准确率。这意味着SOM-DST的性能非常依赖slot gate分类的准确率。但是SOM-DST并没有在论文中展示过分类器的准确率或召回率,而它的最终性能其实存在极大的可提升空间。
发明内容
本发明的目的在于提供一种基于多领域多轮问答的对话状态跟踪方法,以解决上述背景技术中提出的问题。
本发明是通过以下技术方案实现的:本发明提供了一种基于多领域多轮问答的对话状态跟踪方法,包括下列步骤:
S1、建立对话状态模型,并对所述对话状态模型进行编码;
S2、基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断;
S3、通过Slot gate Prediction模块对每一个slot type生成value值的方式进行判断;
S4、基于Span Prediction模块对slot中的value值进行预测,并最终生成word。
优选的,所述建立对话状态模型,具体包括:
将当前回合对话话语、上一回合对话话语以及上一回合的对话状态容器内容进行拼接,从而获得对话状态模型Xt:
其中Dt表示t回合的对话话语,Dt-1表示第t-1回合的对话话语,Bt表示t回合的对话状态容器内容,其中Dt的模型为:
Bt的模型为:
其中,表示第i个领域下的t回合的对话状态容器内容,M表示领域数量,N表示第i个领域包含的slot数量,[A]、[U]、[DOM]、[SLOT]、[CLS]、[SEP]、[EOS]都是特殊的字符,其中[A]和[U]分别后接系统和用户的话语,[DOM]和[SLOT]分别后接兴趣领域名称和slot名称。
优选的,对所述对话状态模型进行编码,具体包括:
基于Bert模型对所述对话状态模型Xt进行编码,输出隐藏状态矩阵Ht,并将矩阵Ht中对应每一个字符的隐藏状态向量记为ht。
优选的,通过Slot gate Prediction模块对每一个字符的中的slot type生成value值的方式进行判断,具体包括:
在当前对话回合下,若某一slot type的值与上一对话回合相同,则slot type的操作方式为carryover,其slot type中的value值直接继承上一对话回合;
若某一slot type的值为yes、no、[NULL]、do not care之一,则slot type的操作方式为confirm,其slot type中的value值需要用户在yes、no、[NULL]、do not care之中进行确认;
若某一slot type的值即不与上一对话回合相同,也不属于yes、no、[NULL]、donot care之一,则将slot type的操作方式为span,使用copy机制从对话历史文本中抽取或拷贝合适的字符来作为其slot type中的value值。
优选的,基于Domain Interest Prediction模块对每个slot type中的兴趣领域进行判断,具体包括:
若目标领域所属的N个slot type的操作方式均为carryover,则将目标领域判定为carryover;否则判定为interest。
优选的,基于Domain Interest Prediction模块的判断结果对Slot gatePrediction模块的判断结果进行修正,其具体过程为:对被判断为carryover的目标领域,判定其下属的全部N个slot type的操作方式都是carryover,结束状态跟踪;
对被判断为interest的目标领域,继续对其下属的N个slot type的操作方式进行预测。
优选的,基于Span Prediction模块对slot中的value值进行预测,并最终生成word,具体包括:
对于解码的每一个time step,通过输入word embedding来更新GRU神经网络的初始隐藏状态,同时将GRU神经网络的初始隐藏状态映射至词表上的分布和对话历史上的分布,其中对话历史通过隐藏状态矩阵Ht建模实现;
将在词表上的分布和对话历史Ht上的分布进行加权求和,作为最终的输出分布并生成句子。
优选的,通过Confirm Prediction模块对[“yes”,“no”,“[NULL]”,“do notcare”]四个值进行分类判决,从而显式地从所述对话历史Ht中建模出[“yes”,“no”,“[NULL]”,“do not care”]的语义信息,其具体过程包括:
对[“yes”,“no”,“[NULL]”,“do not care”]中的每一个值Vj进行编码:
与现有技术相比,本发明达到的有益效果如下:本发明提供的一种基于多领域多轮问答的对话状态跟踪方法,在基础的slot gate预测器上同时加入domain gate预测器的学习,增强模型对对话过程中领域转换过程的识别能力,并且在测试阶段使用domain gate预测器结果对slot gate预测器结果进行修正,增加最终的槽位操作分类的准确率;
针对四种在给定对话历史文本中没有显式的对应词的槽值类型(yes,no,[NULL],do not care),使用一个基于双线性张量积的confirm预测器进行额外的学习。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于多领域多轮问答的对话状态跟踪方法的流程图;
图2为本发明提供的一种基于多领域多轮问答的对话状态跟踪方法的模型整体框架示意图。
具体实施方式
为了更好理解本发明技术内容,下面提供具体实施例,并结合附图对本发明做进一步的说明。
参见图1至图2,本发明第一方面提供了一种基于多领域多轮问答的对话状态跟踪方法,包括下列步骤:
S1、建立对话状态模型,并对所述对话状态模型进行编码;
S2、基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断;
S3、通过Slot gate Prediction模块对每一个slot type生成value值的方式进行判断;
S4、基于Span Prediction模块对slot中的value值进行预测,并最终生成word。
作为一种示例,所述建立对话状态模型,具体包括:
将当前回合对话话语、上一回合对话话语以及上一回合的对话状态容器内容进行拼接,从而获得对话状态模型Xt:
其中Dt表示t回合的对话话语,Dt-1表示第t-1回合的对话话语,Bt表示t回合的对话状态容器内容,其中Dt的模型为:
Bt的模型为:
其中,表示第i个领域下的t回合的对话状态容器内容,M表示领域数量,N表示第i个领域包含的slot数量,[A]、[U]、[DOM]、[SLOT]、[CLS]、[SEP]、[EOS]都是特殊的字符,其中[A]和[U]分别后接系统和用户的话语,[DOM]和[SLOT]分别后接兴趣领域名称和slot名称。
作为一种优选示例,对所述对话状态模型进行编码,具体包括:
基于Bert模型对所述对话状态模型Xt进行编码,BERT模型的编码由由单词嵌入、id嵌入、position嵌入三者的加和组成,因此本发明规定从属于Dt-1的tokens的segment id为1,其他的tokens的segment id为0,由Bert模型可输出隐藏状态矩阵Ht,并将矩阵Ht中对应每一个字符的隐藏状态向量记为ht。
在本发明的一个优选实施例中,基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断,Domain Interest Prediction是一个{carryover,interest}上的领域判决器,其判断的具体包括:
若目标领域所属的N个slot type的操作方式均为carryover,则将目标领域判定为carryover;否则判定为interest。
在本发明的又一个优选实施例中,L个domain-interest-label的或运算的结果作为当前回合的label,并且可基于Domain Interest Prediction模块的判断结果对Slotgate Prediction模块的判断结果进行修正,其具体过程为:对被判断为carryover的目标领域,判定其下属的全部N个slot type的操作方式都是carryover,结束状态跟踪;
对被判断为interest的目标领域,继续对其下属的N个slot type的操作方式进行预测。
在本发明的一个优选实施例中,通过Slot gate Prediction模块对每一个字符的中的slot type生成value值的方式进行判断,Slot gate Prediction模块是一个判断某一个slot type应以何种操作方式生成value的模块,它是一个简单的三分类器,将slot的隐藏状态向量映射为{carryover,confirm,span}上的分布,按需施加以三种操作方式,其具体包括:
在当前对话回合下,若某一slot type的值与上一对话回合相同,则slot type的操作方式为carryover,其slot type中的value值直接继承上一对话回合;
若某一slot type的值为yes、no、[NULL]、do not care之一,则slot type的操作方式为confirm,其slot type中的value值需要用户在yes、no、[NULL]、do not care之中进行确认;
若某一slot type的值即不与上一对话回合相同,也不属于yes、no、[NULL]、donot care之一,则将slot type的操作方式为span,使用copy机制从对话历史文本中抽取或拷贝合适的字符来作为其slot type中的value值。
另外,Slot gate Prediction模块以及Domain Interest Prediction模块在使用时分别独立产生结果,在分别获得两个模块的结果后,使用Domain Interest Prediction模块的预测结果对Slot gate Prediction模块的预测结果进行修正,即对于判断为carryover的,目标领域,将其下属的所有slots的操作方式均覆盖为carryover。
作为本发明的优选实施例,基于Span Prediction模块对slot中的value值进行预测,并最终生成word,具体包括:
对于解码的每一个time step,通过输入word embedding来更新GRU神经网络的初始隐藏状态,同时将GRU神经网络的初始隐藏状态映射至词表上的分布和对话历史上的分布,其中对话历史通过隐藏状态矩阵Ht建模实现;
将在词表上的分布和对话历史Ht上的分布进行加权求和:
其中权重是一个取值[0,1]内的标量,表示generation probability(词表注意力发挥作用的概率),通过词表信息与对话历史信息相结合,Span Prediction模块实现了即使words没有预定义在vocabulary里,也可以生成未在词表中预定义的单词。
当GRU的某一step生成[EOS]token时,解码结束,并生成最终的输出单词。
在本发明的一个优选实施例中,通过Confirm Prediction模块对[“yes”,“no”,“[NULL]”,“do not care”]四个值进行分类判决,从而显式地从所述对话历史Ht中建模出[“yes”,“no”,“[NULL]”,“do not care”]的语义信息,其具体过程包括:
对[“yes”,“no”,“[NULL]”,“do not care”]中的每一个值Vj进行编码:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (8)
1.一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,包括下列步骤:
S1、建立对话状态模型,并对所述对话状态模型进行编码;
S2、基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断;
S3、通过Slot gate Prediction模块对每一个slot type生成value值的方式进行判断;
S4、基于Span Prediction模块对slot中的value值进行预测,并最终生成word。
2.根据权利要求1所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,所述建立对话状态模型,具体包括:
将当前回合对话话语、上一回合对话话语以及上一回合的对话状态容器内容进行拼接,从而获得对话状态模型Xt:
其中Dt表示t回合的对话话语,Dt-1表示第t-1回合的对话话语,Bt表示t回合的对话状态容器内容,其中Dt的模型为:
Bt的模型为:
3.根据权利要求2所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,对所述对话状态模型进行编码,具体包括:
基于Bert模型对所述对话状态模型Xt进行编码,输出隐藏状态矩阵Ht,并将矩阵Ht中对应每一个字符的隐藏状态向量记为ht。
4.根据权利要求3所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,通过Slot gate Prediction模块对每一个字符的中的slot type生成value值的方式进行判断,具体包括:
在当前对话回合下,若某一slot type的值与上一对话回合相同,则slot type的操作方式为carryover,其slot type中的value值直接继承上一对话回合;
若某一slot type的值为yes、no、[NULL]、do not care之一,则slot type的操作方式为confirm,其slot type中的value值需要用户在yes、no、[NULL]、do not care之中进行确认;
若某一slot type的值既不与上一对话回合相同,也不属于yes、no、[NULL]、do notcare之一,则将slot type的操作方式定为span,使用copy机制从对话历史文本中抽取或拷贝合适的字符来作为其slot type中的value值。
5.根据权利要求4所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,基于Domain Interest Prediction模块对对话回合的兴趣领域进行判断,具体包括:
若目标领域所属的N个slot type的操作方式均为carryover,则将目标领域判定为carryover;否则判定为interest。
6.根据权利要求5所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,基于Domain Interest Prediction模块的判断结果对Slot gate Prediction模块的判断结果进行修正,其具体过程为:对被判断为carryover的目标领域,判定其下属的全部N个slot type的操作方式都是carryover,结束状态跟踪;
对被判断为interest的目标领域,继续对其下属的N个slot type的操作方式进行预测。
7.根据权利要求6所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,基于Span Prediction模块对slot中的value值进行预测,并最终生成word,具体包括:
对于解码的每一个time step,通过输入word embedding来更新GRU神经网络的初始隐藏状态,同时将GRU神经网络的初始隐藏状态映射至词表上的分布和对话历史上的分布,其中对话历史通过隐藏状态矩阵Ht建模实现;
将在词表上的分布和对话历史Ht上的分布进行加权求和,作为最终的输出分布并生成word。
8.根据权利要求7所述的一种基于多领域多轮问答的对话状态跟踪方法,其特征在于,通过Confirm Prediction模块对[“yes”,“no”,“[NULL]”,“do not care”]四个值进行分类判决,从而显式地从所述对话历史Ht中建模出[“yes”,“no”,“[NULL]”,“do not care”]的语义信息,其具体过程包括:
对[“yes”,“no”,“[NULL]”,“do not care”]中的每一个值Vj进行编码:
将四个Yt j中的[CLS]对应的隐藏状态向量进行拼接,构成确信矩阵Ct:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010815598.5A CN111984785B (zh) | 2020-08-14 | 2020-08-14 | 一种基于多领域多轮问答的对话状态跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010815598.5A CN111984785B (zh) | 2020-08-14 | 2020-08-14 | 一种基于多领域多轮问答的对话状态跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984785A true CN111984785A (zh) | 2020-11-24 |
CN111984785B CN111984785B (zh) | 2022-03-18 |
Family
ID=73434426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010815598.5A Active CN111984785B (zh) | 2020-08-14 | 2020-08-14 | 一种基于多领域多轮问答的对话状态跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984785B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110075632A (ko) * | 2009-12-28 | 2011-07-06 | 주식회사 케이티 | 다중 목적 영역의 통계적 대화 정책 추론 방법 |
CN109036380A (zh) * | 2018-07-04 | 2018-12-18 | 苏州思必驰信息科技有限公司 | 对话状态跟踪方法、系统、电子设备及存储介质 |
CN109933659A (zh) * | 2019-03-22 | 2019-06-25 | 重庆邮电大学 | 一种面向出行领域的车载多轮对话方法 |
CN110321418A (zh) * | 2019-06-06 | 2019-10-11 | 华中师范大学 | 一种基于深度学习的领域、意图识别和槽填充方法 |
CN111522925A (zh) * | 2020-04-09 | 2020-08-11 | 苏州思必驰信息科技有限公司 | 对话状态生成方法和装置 |
-
2020
- 2020-08-14 CN CN202010815598.5A patent/CN111984785B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110075632A (ko) * | 2009-12-28 | 2011-07-06 | 주식회사 케이티 | 다중 목적 영역의 통계적 대화 정책 추론 방법 |
CN109036380A (zh) * | 2018-07-04 | 2018-12-18 | 苏州思必驰信息科技有限公司 | 对话状态跟踪方法、系统、电子设备及存储介质 |
CN109933659A (zh) * | 2019-03-22 | 2019-06-25 | 重庆邮电大学 | 一种面向出行领域的车载多轮对话方法 |
CN110321418A (zh) * | 2019-06-06 | 2019-10-11 | 华中师范大学 | 一种基于深度学习的领域、意图识别和槽填充方法 |
CN111522925A (zh) * | 2020-04-09 | 2020-08-11 | 苏州思必驰信息科技有限公司 | 对话状态生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
S KIM ET AL.: "efficient dialogue state tracking by selectively overwritting memory", 《ARXIV PREPRINT ARXIV》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111984785B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN109902301B (zh) | 基于深度神经网络的关系推理方法、装置及设备 | |
CN112599117B (zh) | 模型训练、语音识别方法及装置、电子设备及存储介质 | |
CN112115247A (zh) | 一种基于长短时记忆信息的个性化对话生成方法和系统 | |
CN113158671B (zh) | 一种结合命名实体识别的开放域信息抽取方法 | |
CN112966476B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN114168719A (zh) | 一种基于知识图谱嵌入的可解释性多跳问答方法及系统 | |
CN117390141B (zh) | 一种农业社会化服务质量用户评价数据分析方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN116206596A (zh) | 一种垂类领域端到端语音识别方法与装置 | |
CN117633239B (zh) | 一种结合组合范畴语法的端到端方面情感识别方法 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN111984785B (zh) | 一种基于多领域多轮问答的对话状态跟踪方法 | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
CN110851580A (zh) | 一种基于结构化用户属性描述的个性化任务型对话系统 | |
CN116384373A (zh) | 一种基于知识蒸馏框架的方面级情感分析方法 | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
CN115495566A (zh) | 一种增强文本特征的对话生成方法和系统 | |
CN115309894A (zh) | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 | |
CN111143522B (zh) | 一种端到端的任务型对话系统的领域适应方法 | |
CN115116444A (zh) | 一种语音识别文本的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |