CN115292491A - 基于ctmsn-ehi的任务型多轮对话信息处理方法 - Google Patents

基于ctmsn-ehi的任务型多轮对话信息处理方法 Download PDF

Info

Publication number
CN115292491A
CN115292491A CN202210932456.6A CN202210932456A CN115292491A CN 115292491 A CN115292491 A CN 115292491A CN 202210932456 A CN202210932456 A CN 202210932456A CN 115292491 A CN115292491 A CN 115292491A
Authority
CN
China
Prior art keywords
last
dialog
current
round
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210932456.6A
Other languages
English (en)
Other versions
CN115292491B (zh
Inventor
李川
金翔
李思佳
宁树伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210932456.6A priority Critical patent/CN115292491B/zh
Publication of CN115292491A publication Critical patent/CN115292491A/zh
Application granted granted Critical
Publication of CN115292491B publication Critical patent/CN115292491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于CTMSN‑EHI的任务型多轮对话信息处理方法,用户当前话语、历史话语编码后至输入添加时间衰减函数的多头自注意力网络得到话语级、字符级上下文表示,将话语级上下文表示、当前话语编码器输出和辅助句子特征拼接分别输入意图解码器、对话动作解码器,得到意图分类和对话动作识别;将意图分类和对话动作输入槽填充解码器,得到槽填充;对意图分类和槽填充、对话动作识别训练,得到任务型多轮对话模型,采用任务型多轮对话模型进行对话信息处理。本发明增强了从句子和字符级别捕获对话系统最近上下文的能力,辅助句子,以便于从对话系统的角度理解用户的话语,输出准确信息或执行相应动作。

Description

基于CTMSN-EHI的任务型多轮对话信息处理方法
技术领域
本发明涉及人工智能自然语言处理技术领域,具体的说,是一种基于CTMSN-EHI的任务型多轮对话信息处理方法。
背景技术
任务型对话系统能够帮助用户完成某些特定的任务,例如预订餐厅、寻找餐厅或者购买电影票等,口语语言理解(Spoken Language Understanding:SLU)是其中的一个关键组成部分,它将用户话语解析为一种语义表示,包括用户意图、对话动作和槽。具体来说,口语语言理解的主要目标是意图分类、对话动作识别和槽填充。现有技术中许多在SLU的研究都集中在单轮对话上,对话系统只接收一句当前用户话语,然后完成相应的SLU任务,和单轮SLU不同的是,用户和对话系统都可以引用历史对话轮次中的实体,因此多轮SLU面临着语义歧义的挑战,缺少上下文可能会导致对话系统混乱,对话系统无法做出正确的判断。
发明内容
本发明的目的在于提供一种基于CTMSN-EHI的任务型多轮对话信息处理方法,用于解决现有技术中任务型对话系统引用多轮用户话语时因缺少上下文导致系统混乱,无法正确理解用户对话以及无法做出正确的判断的问题。
本发明通过下述技术方案解决上述问题:
一种基于CTMSN-EHI的任务型多轮对话信息处理方法,包括:
步骤S100、对用户当前话语采用BiLSTM进行编码,得到当前话语编码器输出hlast和字符级特征ho
Figure BDA0003782159320000011
Figure BDA0003782159320000012
表示d维连续空间;对历史对话采用BiLSTM进行顺序编码,得到上下文特征mi,i∈{1,2,...,t-1},t为对话轮次,定义历史话语矩阵M,其中第i行是mi
Figure BDA0003782159320000013
利用当前轮对话的系统动作和前一轮对话状态构造辅助句子,对辅助句子采用BiLSTM进行编码获取辅助句子特征alast
步骤S200、将当前话语编码器输出hlast和历史话语矩阵M拼接后输入添加时间衰减函数的多头自注意力网络,得到话语级上下文表示h′last;将历史话语矩阵M与历史话语表示{h1,h2,...,hn}拼接后,输入添加时间衰减函数的多头自注意力网络得到字符级上下文表示{h′1,h′2,...,h′n};
步骤S300、将话语级上下文表示h′last与当前话语编码器输出hlast和辅助句子特征alast拼接得到
Figure BDA0003782159320000021
Figure BDA0003782159320000022
表示拼接操作,将Cu输入意图解码器,得到当前用户话语的意图分类
Figure BDA0003782159320000023
将Cu输入对话动作解码器得到当前话语的对话动作识别
Figure BDA0003782159320000024
步骤S400、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到
Figure BDA0003782159320000025
Figure BDA0003782159320000026
将Co、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器,得到槽填充
Figure BDA0003782159320000027
步骤S500、对意图分类
Figure BDA0003782159320000028
和槽填充
Figure BDA0003782159320000029
采用分类交叉熵损失函数训练,对对话动作识别
Figure BDA00037821593200000210
采用二元交叉熵损失函数训练,得到任务型多轮对话模型;
步骤S600、采用任务型多轮对话模型进行对话信息处理。
所述步骤S100具体包括:
A、将用户当前话语
Figure BDA00037821593200000211
进行编码,得到:
hlast,ho=BiLSTMuemb(ut))
其中,φemb(·)表示嵌入函数;hlast为当前话语编码器输出,
Figure BDA00037821593200000212
ho为字级别特征,
Figure BDA00037821593200000213
Figure BDA00037821593200000214
表示d为连续空间,n为句子长度,t表示第t轮对话;
B、对历史对话{u1,u2,...,ui,...,ut-1}顺序编码,获得上下文特征mi:mi=BiLSTMmemb(ui)),i∈{1,2,...,t-1};
C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子ua={c1,c2,...,cz},其中,z为辅助句子的长度;对辅助句子进行编码获取辅助句子的特征alast:alast=BiLSTMaemb(ua))。
所述步骤S200具体包括:
步骤D10、拼接当前话语编码器输出hlast和历史话语矩阵M,得到话语级多头自注意力网络的输入Mu
Mu={hlast,m1,m2,...,mt-1};
步骤D20、将Mu分别通过三个不同的权重矩阵WQ,WK,WV映射并分别加上位置编码得到话语级的query、key和value向量:
Figure BDA0003782159320000031
Figure BDA0003782159320000032
其中,
Figure BDA0003782159320000033
Figure BDA0003782159320000034
Ha是多头自注意力网络的隐藏层大小;
步骤D30、在多头自注意力中添加时间衰减函数,从而使得模型更加关注最近的上下文,具体包括:
定义当前话语ut和历史话语ui之间的时间差为
Figure BDA0003782159320000035
当前轮的话语数量是N,Di表示第i个头的时间差集合
Figure BDA0003782159320000036
由于多头自注意力网络有h个头,故定义Dall={D1,D2,...,Dh},h表示自注意力层的头数量,计算多头自注意力网络的每个头的时间重要性Vi
Vi=max(ki(N-Di)+bi,0)
其中,bi是α-截距;ki表示斜率;头i∈{1,2,...,h};
步骤D40、将Vi输入softmax函数中得到每个头的时间分数timei
timei=softmax(Vi)
头i的原始自注意力分数:
Figure BDA0003782159320000041
头i的最终注意力表示为:
Figure BDA0003782159320000042
Attentioni后续用于意图与对话动作解码器的输入的一部分,
Figure BDA0003782159320000043
分别表示由前面的
Figure BDA0003782159320000044
划分的第i个头,其中λi是原始自注意力分数attni和时间分数timei之间的平衡超参数;
步骤D50、在添加时间衰减函数的多头自注意力网络中,输入{hlast,m1,m2,...,mt-1},输出{h′last,m′1,m′2,...,m′t-1};其中h′last为话语级上下文表示;
步骤D60、将话语上下文的加权
Figure BDA0003782159320000045
和h′last作为话语级上下文表示用于引导意图分类和对话动作识别;
步骤E10、将{m1,m2,...,mt-1}分别和{h1,h2,...,hn}拼接得到得到字符级注意力网络的输入Mo
Figure BDA0003782159320000046
其中,
Figure BDA0003782159320000047
步骤E20、将Mo分别通过三个不同的权重矩阵WQ,WK,WV映射并分别加上位置编码得到字符级的query、key和value向量:
Figure BDA0003782159320000048
Figure BDA0003782159320000049
步骤E30、在添加时间衰减函数的多头自注意力网络中,输入{[h1,m1,m2,...,mt-1],...,[hn,m1,m2,...,mt-1],输出{[h′1,m′1,m′2,...,m′t-1],...,[h′n,m′1,m′2,...,m′t-1]},将{h′1,h′2,...,h′n}作为字符级别上下文表示来引导槽填充。
所述步骤S300具体包括:
将话语级上下文表示h′last、当前话语编码器输出hlast和辅助句子的特征alast拼接得到意图与对话动作解码器的输入
Figure BDA0003782159320000051
将Cu用于意图分类和对话动作识别:
在第t轮中,当前用户话语的意图输出分布
Figure BDA0003782159320000052
Figure BDA0003782159320000053
其中,WI和bI是意图解码器的训练参数;
当前用户话语的意图标签
Figure BDA0003782159320000054
Figure BDA0003782159320000055
计算第t轮中所有对话动作出现的概率
Figure BDA0003782159320000056
Figure BDA0003782159320000057
表示第t轮中对话动作k出现的概率:
Figure BDA0003782159320000058
其中,WA和bA是对话动作解码器的训练参数,
Figure BDA0003782159320000059
中概率大于预设阈值tu
Figure BDA00037821593200000510
的对话动作符合输出条件,tu是用在验证集中调整的超参数,0<tu<1.0。
所述步骤S400具体包括:
步骤S410、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到槽填充解码器的输入
Figure BDA0003782159320000061
Figure BDA0003782159320000062
步骤S420、识别用户话语的每个字符对应的槽标签,具体包括:
步骤S421、在第t轮的第i个解码步,槽填充解码器的状态
Figure BDA0003782159320000063
为:
Figure BDA0003782159320000064
其中,
Figure BDA0003782159320000065
是槽填充解码器上一个状态,
Figure BDA0003782159320000066
是上一个槽标签的输出概率分布,
Figure BDA0003782159320000067
是第t轮的当前话语的意图分布的嵌入向量表示,
Figure BDA0003782159320000068
是第t轮的当前话语的对话动作的嵌入向量表示;
步骤S422、计算第i个解码步的槽标签发射分布
Figure BDA0003782159320000069
Figure BDA00037821593200000610
预测第t轮的当前话语中第i个字符的槽标签
Figure BDA00037821593200000611
Figure BDA00037821593200000612
其中,
Figure BDA00037821593200000613
是可训练参数;
步骤S423、依次输入第t轮的第1到第n个字符到上述槽填充解码器中,得到当前话语的槽标签序列
Figure BDA00037821593200000614
所述步骤S500具体包括:
定义意图分类
Figure BDA00037821593200000615
和槽填充
Figure BDA00037821593200000616
使用分类交叉熵损失,对对话动作识别
Figure BDA00037821593200000617
使用二元交叉熵损失:
Figure BDA0003782159320000071
Figure BDA0003782159320000072
Figure BDA0003782159320000073
其中,D表示训练集数据的数量,NI,NA和NS表示意图标签、对话动作标签和槽标签的数量,我们定义
Figure BDA0003782159320000074
为第i条训练数据的第j个意图的真实概率,
Figure BDA0003782159320000075
为第i条训练数据的第j个意图的预测概率;
Figure BDA0003782159320000076
为第i条训练数据的第j个对话动作的真实概率,
Figure BDA0003782159320000077
为第i条训练数据的第j个对话动作的预测概率;
Figure BDA0003782159320000078
为第i条训练数据的第j个槽标签的真实概率,
Figure BDA0003782159320000079
为第i条训练数据的第j个槽标签的预测概率;
定义联合训练目标损失为:
Figure BDA00037821593200000710
其中,α12和α3都是超参数;
训练得到任务型多轮对话模型。
本发明与现有技术相比,具有以下优点及有益效果:
本发明提出了一种基于增强历史信息的上下文感知的时间衰减多头自注意力网络(CTMSN-EHI)的多任务联合模型来完成意图分类、对话动作识别和槽填充任务,增强了从句子和字符级别捕获对话系统最近上下文的能力,而增强的历史信息(EHI)是由前一轮次的对话状态和当前轮次的系统动作构造而得到的一个辅助句子,以便于从对话系统的角度理解用户的话语,在与用户交互过程中的意图分类准确率,用户对话动作识别的F1值以及用户槽填充F1值均达到先进水平。
附图说明
图1为本发明的系统框图;
图2为CTMSN-EHI模型与强基线模型在测试集上的实验结果对比;
图3为CTMSN-EHI模型的消融实验结果;
图4为增强的历史信息示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
结合附图1所示,一种基于CTMSN-EHI的任务型多轮对话信息处理方法,包括:
步骤S100、采用用户当前话语编码器、记忆编码器、增强信息编码器进行编码:
A、在第t轮,将用户当前话语
Figure BDA0003782159320000081
进行编码,得到:
hlast,ho=BiLSTMuemb(ut))
其中,φemb(·)表示嵌入函数;hlast为当前话语编码器输出,
Figure BDA0003782159320000082
为d维的连续空间;ho为字级别特征,
Figure BDA0003782159320000083
Figure BDA0003782159320000084
表示d为连续空间,n为句子长度,t表示第t轮对话;
B、对历史对话{u1,u2,...,ui,...,ut-1}顺序编码,获得上下文特征mi:mi=BiLSTMmemb(ui)),i∈{1,2,...,t-1};定义历史话语矩阵M,其中第i行是mi
Figure BDA0003782159320000085
C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子ua={c1,c2,...,cz},其中,z为辅助句子的长度;对辅助句子进行编码获取辅助句子的特征alast:alast=BiLSTMaemb(ua));
步骤S200、在获得历史话语矩阵
Figure BDA0003782159320000091
当前话语
Figure BDA0003782159320000092
以及其字级别特征
Figure BDA0003782159320000093
后,分别做两种不同级别的注意力:
话语级注意力:
步骤D10、拼接当前话语编码器输出hlast和历史话语矩阵M,得到话语级多头自注意力网络的输入Mu
Mu={hlast,m1,m2,...,mt-1};
步骤D20、将Mu分别通过三个不同的权重矩阵WQ,WK,WV映射并分别加上位置编码得到话语话语级的query、key和value向量
Figure BDA0003782159320000094
Figure BDA0003782159320000095
其中,
Figure BDA0003782159320000096
Figure BDA0003782159320000097
Ha是多头自注意力网络的隐藏层大小;
步骤D30、我们提出在多头自注意力中添加时间衰减函数,从而使得模型更加关注最近的上下文。具体地,定义当前话语ut和历史话语ui之间的时间差为
Figure BDA0003782159320000098
当前轮的话语数量是N,Di表示第i个头的时间差集合
Figure BDA0003782159320000099
由于多头自注意力网络有h个头,故定义Dall={D1,D2,...,Dh},h表示自注意力层的头数量,计算多头自注意力网络的每个头的时间重要性Vi
Vi=max(ki(t-Di)+bi,0)
其中,bi是α-截距;ki表示斜率;头i∈{1,2,...,h};Vi>=0表示最终的时间重要性,且越“近”的话语越“重要”;
步骤D40、将Vi输入softmax函数中得到每个头的时间分数timei
timei=softmax(Vi)
头i的原始自注意力分数:
Figure BDA0003782159320000101
头i的最终注意力表示为:
Figure BDA0003782159320000102
后续用于意图与对话动作解码器的输入的一部分,
Figure BDA0003782159320000103
分别表示由前面的
Figure BDA0003782159320000104
划分的第i个头,其中,λi是原始自注意力分数attni和时间分数timei之间的平衡超参数,例如可以设置为0.8;
步骤D50、在添加时间衰减函数的多头自注意力网络中,输入{hlast,m1,m2,...,mt-1},输出{h′last,m′1,m′2,...,m′t-1};其中h′last为话语级上下文表示;
步骤D60、将话语上下文的加权
Figure BDA0003782159320000105
和h′last作为话语级上下文表示用于引导意图分类和对话动作识别;
字符级注意力:
步骤E10、将记忆编码器的输出即历史话语矩阵M={m1,m2,...,mt-1}分别和历史话语表示{h1,h2,...,hn}拼接得到得到字符级注意力网络的输入Mo
Figure BDA0003782159320000106
其中,
Figure BDA0003782159320000107
步骤E20、将Mo分别通过三个不同的权重矩阵WQ,WK,WV映射并分别加上位置编码得到字符级的query、key和value向量
Figure BDA0003782159320000111
Figure BDA0003782159320000112
其中,
Figure BDA0003782159320000113
Figure BDA0003782159320000114
Ha是多头自注意力网络的隐藏层大小;
步骤E30、在添加时间衰减函数的多头自注意力网络中,输入{[h1,m1,m2,...,mt-1],...,[hn,m1,m2,...,mt-1],输出{[h′1,m′1,m′2,...,m′t-1],...,[h′n,m′1,m′2,...,m′t-1]},将{h′1,h′2,...,h′n}作为字符级别上下文表示来引导槽填充。
步骤S300、将话语级上下文表示h′last与当前话语编码器输出hlast和辅助句子特征alast拼接得到Cu,将Cu输入意图解码器,得到当前用户话语的意图分类
Figure BDA0003782159320000115
将Cu输入对话动作解码器得到当前话语的对话动作识别
Figure BDA0003782159320000116
具体包括:将话语级上下文表示h′last、当前话语编码器输出hlast和辅助句子的特征alast拼接得到意图与对话动作解码器的输入
Figure BDA0003782159320000117
其中,
Figure BDA0003782159320000118
表示拼接操作;将Cu用于意图分类和对话动作识别:
在第t轮中,当前用户话语的意图输出分布
Figure BDA0003782159320000119
Figure BDA00037821593200001110
其中,WI和bI是意图解码器的训练参数;
当前用户话语的意图标签
Figure BDA00037821593200001111
Figure BDA00037821593200001112
计算第t轮中所有对话动作出现的概率
Figure BDA00037821593200001113
Figure BDA00037821593200001114
表示第t轮中对话动作k出现的概率:
Figure BDA0003782159320000121
其中,WA和bA是对话动作解码器的训练参数,
Figure BDA0003782159320000122
中概率大于预设阈值tu
Figure BDA0003782159320000123
的对话动作符合输出条件,tu是用在验证集中调整的超参数,0<tu<1.0;
步骤S400、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到Co,将Co、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器,得到槽填充
Figure BDA0003782159320000124
步骤S410、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到槽填充解码器的输入
Figure BDA0003782159320000125
Figure BDA0003782159320000126
步骤S420、识别用户话语的每个字符对应的槽标签,具体包括:
步骤S421、在第t轮的第i个解码步,槽填充解码器的状态
Figure BDA0003782159320000127
为:
Figure BDA0003782159320000128
其中,
Figure BDA0003782159320000129
是槽填充解码器上一个状态,
Figure BDA00037821593200001210
是上一个槽标签输出概率分布,
Figure BDA00037821593200001211
是第t轮的当前话语的意图分布的嵌入向量表示,
Figure BDA00037821593200001212
是第t轮的当前话语的对话动作的嵌入向量表示;
步骤S422、计算第i个解码步的槽标签发射分布
Figure BDA00037821593200001213
Figure BDA00037821593200001214
预测当前话语中第i个字符的槽标签
Figure BDA00037821593200001215
Figure BDA00037821593200001216
其中,
Figure BDA00037821593200001217
是可训练参数,
Figure BDA00037821593200001218
是第t轮的当前话语中第i个字符的槽标签;
步骤S423、依次输入第t轮的第1到第n个字符到上述槽填充解码器中,得到当前话语的槽标签序列
Figure BDA0003782159320000131
步骤S500、对意图分类
Figure BDA0003782159320000132
和槽填充
Figure BDA0003782159320000133
采用分类交叉熵损失函数训练,对对话动作识别
Figure BDA0003782159320000134
采用二元交叉熵损失函数训练,得到任务型多轮对话模型;
定义意图分类
Figure BDA0003782159320000135
和槽填充
Figure BDA0003782159320000136
使用分类交叉熵损失,对对话动作识别
Figure BDA0003782159320000137
使用二元交叉熵损失:
Figure BDA0003782159320000138
Figure BDA0003782159320000139
Figure BDA00037821593200001310
其中,D表示训练集数据的数量,NI,NA和NS表示意图标签、对话动作标签和槽标签的数量,我们定义
Figure BDA00037821593200001311
为第i条训练数据的第j个意图的真实概率,
Figure BDA00037821593200001312
为第i条训练数据的第j个意图的预测概率;
Figure BDA00037821593200001313
为第i条训练数据的第j个对话动作的真实概率,
Figure BDA00037821593200001314
为第i条训练数据的第j个对话动作的预测概率;
Figure BDA00037821593200001315
为第i条训练数据的第j个槽标签的真实概率,
Figure BDA00037821593200001316
为第i条训练数据的第j个槽标签的预测概率。
定义联合训练目标损失为:
Figure BDA00037821593200001317
其中,α12和α3都是超参数;
训练得到任务型多轮对话模型。
步骤S600、采用任务型多轮对话模型进行对话信息处理。
本方法基于CTMSN-EHI模型实现,提出了一个上下文感知的时间衰减多头自注意力网络来有效地聚合上下文信息,具有以下优点:
1)通过在多头自注意力的每个头上,应用一个随时间衰减且呈负相关的权重,增强原始多头自注意力,增强对最近上下文的关注,因此,本发明既考虑了全局上下文又更加关注最近的上下文。
2)将上述注意力应用到用户话语的每个字符上,以引导不同的字符关注不同的上下文信息。
3)通过利用前一轮次的对话状态和当前轮次的系统动作,我们使用一些简单的模板来构造辅助句子,从而以对话系统的视角“告诉”我们的模型它当前“知道”哪些信息并且接下来“需要”哪些信息。辅助句子可以作为一种增强的历史信息连同当前用户话语和其他历史上下文一起输入到CTMSN-EHI模型中,以增强上下文信息。
本发明在两个多轮对话数据集及其结合的数据集上进行了大量的实验,与一些强基线模型相比有较大的效果提升,实验如下:
数据集:利用基准模拟对话数据集中获取对话数据,该数据集包括餐厅和电影领域的对话数据。具体地,餐厅领域(Sim-R)包括1116个训练对话的11234轮,电影领域(Sim-M)包括384个训练对话的3562轮。它们总共包含了3种意图类型、21种用户对话动作类型和12种槽类型,其中12种对话动作和2种槽类型同时存在Sim-R和Sim-M数据集中。数据集还存在一个挑战性的问题,验证集和测试集中只有13%的电影名称也出现在训练集中。
实验设置:
对于所有数据集,词嵌入是从Glove预训练词向量中初始化得到,维度大小为300;三个BiLSTM编码器都是768维(每个方向384维);时间衰减多头自注意力网络的隐藏单元数为768。对于Sim-R和完整的数据集(Sim-R加Sim-M),我们在多头注意力网络中使用24个头;而对于Sim-R,我们使用12个头。在训练期间,我们使用ADAM优化器和它建议的超参数。学习率为0.001且线性递减,epoch数为100,dropout值为0.5,batch size大小是10。
评估指标:
使用准确率来评估意图分类,使用F1值来评估对话动作识别,并使用块级槽F1值来评估槽填充。此外,我们还评估帧准确率。只有当其预测的话语中的意图、槽和动作都正确时,才认为该帧是正确的。
结果和分析:
图2展示了本发明的CTMSN-EHI在Sim-R、Sim-M和整体数据集上的有效性。相比之下,实验结果表明我们的模型优于多个强基线模型。与NoContext和PrevTurn模型相比,我们的方法有很大的效果提升,特别是在Intent Acc、Act F1和Frame Acc上,这表明上下文信息可以进一步促进对话系统的口语语言理解(SLU)。与CaBBERT-SLU相比(我们用BiLSTM替换了它的bert编码器,并使用了和我们的CTMSN-EHI一样的三个解码器),我们在所有数据集上分别提高了1.11%、0.56%和0.74%的Frame Acc。这表明我们的CTMSN-EHI模型能更有效地结合上下文信息,并且增强的历史信息可以进一步帮助对话系统理解用户的话语。
如图3所示,为了进一步了解我们提出的组件为我们的模型带来了多少效果提升,我们进行了消融实验分析。由于frame acc可以综合反映三个任务的效果,所以在下面的讨论中我们主要比较frame acc。首先,我们移除时间衰减自注意力层,对所有上下文使用平均权重,即模型将平等对待所有上下文。然后我们发现在Sim-R数据集上frame acc降低了0.42%,在Sim-M数据集上降低了3.1%,在整个数据集上降低了1.1%,这证明了我们提出的时间衰减自注意力层的有效性及其自动聚合当前话语的不同上下文的能力。在Sim-M数据集中性能提升明显的原因是测试集中的许多电影名称不存在于训练集中,而Sim-R则相反。然后,我们仅使用原始多头自注意力层来利用上下文信息,去除其上的时间衰减机制。我们发现在Sim-R数据集上frame acc下降了0.52%,在Sim-M数据集上下降了0.38%,在整体数据集上下降了0.39%。这表明了将时间衰减机制应用于自注意力层的重要性,即时间衰减机制加强了模型对最近上下文的关注。
最后,我们停止向模型输入增强的历史信息,发现模型在所有数据集的效果都有显著下降。对此,我们通过一个例子来解释。如图4所示,我们构造的辅助句子,即增强的历史信息,是:“i know the location is orlando,and i request the price range andrequest the category.”。对话系统已经“知道”“location”是“orlando”,并且它“request”the“price range”and“request”the“category”。一方面,由于大多数对话中动作之间存在顺序依赖关系,例如当系统动作是“request”时,用户动作通常是“inform”,并且在数据集中还存在其它的依赖,例如“
Figure BDA0003782159320000161
等等”。因此,辅助句子中的系统动作可以帮助系统推断出用户动作。另一方面,“price range”和“category”分别表示槽标签“B(I)-price_range”和“B-category”,这也帮助了系统填补“moderately priced”和“taiwanese”两个槽位。总之,从对话系统的角度来看,增强的历史信息极大地促进了口语语言理解。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (6)

1.一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,包括:
步骤S100、对用户当前话语采用BiLSTM进行编码,得到当前话语编码器输出hlast和字符级特征ho
Figure FDA0003782159310000011
Figure FDA0003782159310000012
表示d维连续空间;对历史对话采用BiLSTM进行顺序编码,得到上下文特征mi,i∈{1,2,...,t-1},t为对话轮次,定义历史话语矩阵M,其中第i行是mi
Figure FDA0003782159310000013
利用当前轮对话的系统动作和前一轮对话状态构造辅助句子,对辅助句子采用BiLSTM进行编码获取辅助句子特征alast
步骤S200、将当前话语编码器输出hlast和历史话语矩阵M拼接后输入添加时间衰减函数的多头自注意力网络,得到话语级上下文表示h′last;将历史话语矩阵M与历史话语表示{h1,h2,...,hn}拼接后,输入添加时间衰减函数的多头自注意力网络得到字符级上下文表示{h′1,h′2,...,h′n};
步骤S300、将话语级上下文表示h′last与当前话语编码器输出hlast和辅助句子特征alast拼接得到
Figure FDA0003782159310000014
Figure FDA0003782159310000015
表示拼接操作,将Cu输入意图解码器,得到当前用户话语的意图分类
Figure FDA0003782159310000016
将Cu输入对话动作解码器得到当前话语的对话动作识别
Figure FDA0003782159310000017
步骤S400、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到
Figure FDA0003782159310000018
Figure FDA0003782159310000019
将Co、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器,得到槽填充
Figure FDA00037821593100000110
步骤S500、对意图分类
Figure FDA00037821593100000111
和槽填充
Figure FDA00037821593100000112
采用分类交叉熵损失函数训练,对对话动作识别
Figure FDA00037821593100000113
采用二元交叉熵损失函数训练,得到任务型多轮对话模型;
步骤S600、采用任务型多轮对话模型进行对话信息处理。
2.根据权利要求1所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S100具体包括:
A、将用户当前话语
Figure FDA0003782159310000021
进行编码,得到:
hlast,ho=BiLSTMuemb(ut))
其中,φemb(·)表示嵌入函数;hlast为当前话语编码器输出,
Figure FDA0003782159310000022
ho为字级别特征,
Figure FDA0003782159310000023
Figure FDA0003782159310000024
表示d为连续空间,n为句子长度,t表示第t轮对话;
B、对历史对话{u1,u2,...,ui,...,ut-1}顺序编码,获得上下文特征mi:mi=BiLSTMmemb(ui)),i∈{1,2,...,t-1};
C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子ua={c1,c2,...,cz},其中,z为辅助句子的长度;对辅助句子进行编码获取辅助句子的特征alast:alast=BiLSTMaemb(ua))。
3.根据权利要求2所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S200具体包括:
步骤D10、拼接当前话语编码器输出hlast和历史话语矩阵M,得到话语级多头自注意力网络的输入Mu
Mu={hlast,m1,m2,...,mt-1};
步骤D20、将Mu分别通过三个不同的权重矩阵WQ,WK,WV映射并分别加上位置编码得到话语级的query、key和value向量:
Figure FDA0003782159310000025
Figure FDA0003782159310000026
其中,
Figure FDA0003782159310000027
Figure FDA0003782159310000028
Ha是多头自注意力网络的隐藏层大小;
步骤D30、在多头自注意力中添加时间衰减函数,从而使得模型更加关注最近的上下文,具体包括:
定义当前话语ut和历史话语ui之间的时间差为d(ui),当前轮的话语数量是N,Di表示第i个头的时间差集合
Figure FDA0003782159310000031
由于多头自注意力网络有h个头,故定义Dall={D1,D2,...,Dh},h表示自注意力层的头数量,计算多头自注意力网络的每个头的时间重要性Vi
Vi=max(ki(N-Di)+bi,0)
其中,bi是α-截距;ki表示斜率;头i∈{1,2,...,h};
步骤D40、将Vi输入softmax函数中得到每个头的时间分数timei
timei=softmax(Vi)
头i的原始自注意力分数:
Figure FDA0003782159310000032
头i的最终注意力表示为:
Figure FDA0003782159310000033
Attentioni后续用于意图与对话动作解码器的输入的一部分,
Figure FDA0003782159310000034
分别表示由前面的
Figure FDA0003782159310000035
划分的第i个头,其中λi是原始自注意力分数attni和时间分数timei之间的平衡超参数;
步骤D50、在添加时间衰减函数的多头自注意力网络中,输入{hlast,m1,m2,...,mt-1},输出{h′last,m′1,m′2,...,m′t-1};其中h′last为话语级上下文表示;
步骤D60、将话语上下文的加权
Figure FDA0003782159310000036
和h′last作为话语级上下文表示用于引导意图分类和对话动作识别;
步骤E10、将{m1,m2,...,mt-1}分别和{h1,h2,...,hn}拼接得到得到字符级注意力网络的输入Mo
Figure FDA0003782159310000041
其中,
Figure FDA0003782159310000042
步骤E20、将Mo分别通过三个不同的权重矩阵WQ,WK,WV映射并分别加上位置编码得到字符级的query、key和value向量:
Figure FDA0003782159310000043
Figure FDA0003782159310000044
步骤E30、在添加时间衰减函数的多头自注意力网络中,输入{[h1,m1,m2,...,mt-1],...,[hn,m1,m2,...,mt-1],输出{[h′1,m′1,m′2,...,m′t-1],...,[h′n,m′1,m′2,...,m′t-1]},将{h′1,h′2,...,h′n}作为字符级别上下文表示来引导槽填充。
4.根据权利要求3所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S300具体包括:
将话语级上下文表示h′last、当前话语编码器输出hlast和辅助句子的特征alast拼接得到意图与对话动作解码器的输入
Figure FDA0003782159310000045
将Cu用于意图分类和对话动作识别:
在第t轮中,当前用户话语的意图输出分布
Figure FDA0003782159310000046
Figure FDA0003782159310000047
其中,WI和bI是意图解码器的训练参数;
当前用户话语的意图标签
Figure FDA0003782159310000051
Figure FDA0003782159310000052
计算第t轮中所有对话动作出现的概率
Figure FDA00037821593100000517
Figure FDA0003782159310000053
表示第t轮中对话动作k出现的概率:
Figure FDA0003782159310000054
其中,WA和bA是对话动作解码器的训练参数,
Figure FDA0003782159310000055
中概率大于预设阈值tu
Figure FDA0003782159310000056
的对话动作符合输出条件,tu是用在验证集中调整的超参数,0<tu<1.0。
5.根据权利要求4所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S400具体包括:
步骤S410、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到槽填充解码器的输入
Figure FDA0003782159310000057
Figure FDA0003782159310000058
步骤S420、识别用户话语的每个字符对应的槽标签,具体包括:
步骤S421、在第t轮的第i个解码步,槽填充解码器的状态
Figure FDA0003782159310000059
为:
Figure FDA00037821593100000510
其中,
Figure FDA00037821593100000511
是槽填充解码器上一个状态,
Figure FDA00037821593100000512
是上一个槽标签的输出概率分布,
Figure FDA00037821593100000513
是第t轮的当前话语的意图分布的嵌入向量表示,
Figure FDA00037821593100000514
是第t轮的当前话语的对话动作的嵌入向量表示;
步骤S422、计算第i个解码步的槽标签发射分布
Figure FDA00037821593100000515
Figure FDA00037821593100000516
预测第t轮的当前话语中第i个字符的槽标签
Figure FDA0003782159310000061
Figure FDA0003782159310000062
其中,
Figure FDA0003782159310000063
是可训练参数;
步骤S423、依次输入第t轮的第1到第n个字符到上述槽填充解码器中,得到当前话语的槽标签序列
Figure FDA0003782159310000064
6.根据权利要求5所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S500具体包括:
定义意图分类
Figure FDA0003782159310000065
和槽填充
Figure FDA0003782159310000066
使用分类交叉熵损失,对对话动作识别
Figure FDA0003782159310000067
使用二元交叉熵损失:
Figure FDA0003782159310000068
Figure FDA0003782159310000069
Figure FDA00037821593100000610
其中,D表示训练集数据的数量,NI,NA和NS表示意图标签、对话动作标签和槽标签的数量,我们定义
Figure FDA00037821593100000611
为第i条训练数据的第j个意图的真实概率,
Figure FDA00037821593100000612
为第i条训练数据的第j个意图的预测概率;
Figure FDA00037821593100000613
为第i条训练数据的第j个对话动作的真实概率,
Figure FDA00037821593100000614
为第i条训练数据的第j个对话动作的预测概率;
Figure FDA00037821593100000615
为第i条训练数据的第j个槽标签的真实概率,
Figure FDA00037821593100000616
为第i条训练数据的第j个槽标签的预测概率;
定义联合训练目标损失为:
Figure FDA00037821593100000617
其中,α12和α3都是超参数;
训练得到任务型多轮对话模型。
CN202210932456.6A 2022-08-04 2022-08-04 基于ctmsn-ehi的任务型多轮对话信息处理方法 Active CN115292491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210932456.6A CN115292491B (zh) 2022-08-04 2022-08-04 基于ctmsn-ehi的任务型多轮对话信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210932456.6A CN115292491B (zh) 2022-08-04 2022-08-04 基于ctmsn-ehi的任务型多轮对话信息处理方法

Publications (2)

Publication Number Publication Date
CN115292491A true CN115292491A (zh) 2022-11-04
CN115292491B CN115292491B (zh) 2023-06-02

Family

ID=83826985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210932456.6A Active CN115292491B (zh) 2022-08-04 2022-08-04 基于ctmsn-ehi的任务型多轮对话信息处理方法

Country Status (1)

Country Link
CN (1) CN115292491B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059160A (zh) * 2019-04-17 2019-07-26 东南大学 一种端到端的基于上下文的知识库问答方法及装置
CN111104498A (zh) * 2019-12-12 2020-05-05 华南理工大学 一种任务型对话系统中的语义理解方法
CN112131861A (zh) * 2020-11-25 2020-12-25 中国科学院自动化研究所 基于层次化多头交互注意力的对话状态生成方法
CN112214591A (zh) * 2020-10-29 2021-01-12 腾讯科技(深圳)有限公司 一种对话预测的方法及装置
WO2022066695A1 (en) * 2020-09-23 2022-03-31 Capital One Services, Llc Systems and methods for generating dynamic conversational responses through aggregated outputs of machine learning models
CN114281954A (zh) * 2021-09-07 2022-04-05 杭州电子科技大学 一种基于关系图注意力网络的多轮对话回复生成系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059160A (zh) * 2019-04-17 2019-07-26 东南大学 一种端到端的基于上下文的知识库问答方法及装置
CN111104498A (zh) * 2019-12-12 2020-05-05 华南理工大学 一种任务型对话系统中的语义理解方法
WO2022066695A1 (en) * 2020-09-23 2022-03-31 Capital One Services, Llc Systems and methods for generating dynamic conversational responses through aggregated outputs of machine learning models
CN112214591A (zh) * 2020-10-29 2021-01-12 腾讯科技(深圳)有限公司 一种对话预测的方法及装置
CN112131861A (zh) * 2020-11-25 2020-12-25 中国科学院自动化研究所 基于层次化多头交互注意力的对话状态生成方法
CN114281954A (zh) * 2021-09-07 2022-04-05 杭州电子科技大学 一种基于关系图注意力网络的多轮对话回复生成系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAI WEI等: "Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language Understanding" *
战保行: "任务型对话中意图识别和槽填充的联合算法研究" *

Also Published As

Publication number Publication date
CN115292491B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN110516253B (zh) 中文口语语义理解方法及系统
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN111625634B (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
Deng et al. Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN110399472B (zh) 面试提问提示方法、装置、计算机设备及存储介质
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN112837669B (zh) 语音合成方法、装置及服务器
CN111611346A (zh) 一种基于动态语义编码和双注意力的文本匹配方法及装置
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111814489A (zh) 口语语义理解方法及系统
CN109637527A (zh) 对话语句的语义解析方法及系统
CN111382257A (zh) 一种生成对话下文的方法和系统
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
WO2023231513A1 (zh) 对话内容的生成方法及装置、存储介质、终端
CN115292463A (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN113822017A (zh) 基于人工智能的音频生成方法、装置、设备及存储介质
CN114386426B (zh) 一种基于多元语义融合的金牌话术推荐方法及装置
CN113656569A (zh) 一种基于上下文信息推理的生成式对话方法
CN114281954A (zh) 一种基于关系图注意力网络的多轮对话回复生成系统及方法
CN115617972B (zh) 一种机器人对话方法、装置、电子设备及存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant