CN115292491A - 基于ctmsn-ehi的任务型多轮对话信息处理方法 - Google Patents
基于ctmsn-ehi的任务型多轮对话信息处理方法 Download PDFInfo
- Publication number
- CN115292491A CN115292491A CN202210932456.6A CN202210932456A CN115292491A CN 115292491 A CN115292491 A CN 115292491A CN 202210932456 A CN202210932456 A CN 202210932456A CN 115292491 A CN115292491 A CN 115292491A
- Authority
- CN
- China
- Prior art keywords
- last
- dialog
- current
- round
- slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 13
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000009471 action Effects 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于CTMSN‑EHI的任务型多轮对话信息处理方法,用户当前话语、历史话语编码后至输入添加时间衰减函数的多头自注意力网络得到话语级、字符级上下文表示,将话语级上下文表示、当前话语编码器输出和辅助句子特征拼接分别输入意图解码器、对话动作解码器,得到意图分类和对话动作识别;将意图分类和对话动作输入槽填充解码器,得到槽填充;对意图分类和槽填充、对话动作识别训练,得到任务型多轮对话模型,采用任务型多轮对话模型进行对话信息处理。本发明增强了从句子和字符级别捕获对话系统最近上下文的能力,辅助句子,以便于从对话系统的角度理解用户的话语,输出准确信息或执行相应动作。
Description
技术领域
本发明涉及人工智能自然语言处理技术领域,具体的说,是一种基于CTMSN-EHI的任务型多轮对话信息处理方法。
背景技术
任务型对话系统能够帮助用户完成某些特定的任务,例如预订餐厅、寻找餐厅或者购买电影票等,口语语言理解(Spoken Language Understanding:SLU)是其中的一个关键组成部分,它将用户话语解析为一种语义表示,包括用户意图、对话动作和槽。具体来说,口语语言理解的主要目标是意图分类、对话动作识别和槽填充。现有技术中许多在SLU的研究都集中在单轮对话上,对话系统只接收一句当前用户话语,然后完成相应的SLU任务,和单轮SLU不同的是,用户和对话系统都可以引用历史对话轮次中的实体,因此多轮SLU面临着语义歧义的挑战,缺少上下文可能会导致对话系统混乱,对话系统无法做出正确的判断。
发明内容
本发明的目的在于提供一种基于CTMSN-EHI的任务型多轮对话信息处理方法,用于解决现有技术中任务型对话系统引用多轮用户话语时因缺少上下文导致系统混乱,无法正确理解用户对话以及无法做出正确的判断的问题。
本发明通过下述技术方案解决上述问题:
一种基于CTMSN-EHI的任务型多轮对话信息处理方法,包括:
步骤S100、对用户当前话语采用BiLSTM进行编码,得到当前话语编码器输出hlast和字符级特征ho, 表示d维连续空间;对历史对话采用BiLSTM进行顺序编码,得到上下文特征mi,i∈{1,2,...,t-1},t为对话轮次,定义历史话语矩阵M,其中第i行是mi,利用当前轮对话的系统动作和前一轮对话状态构造辅助句子,对辅助句子采用BiLSTM进行编码获取辅助句子特征alast;
步骤S200、将当前话语编码器输出hlast和历史话语矩阵M拼接后输入添加时间衰减函数的多头自注意力网络,得到话语级上下文表示h′last;将历史话语矩阵M与历史话语表示{h1,h2,...,hn}拼接后,输入添加时间衰减函数的多头自注意力网络得到字符级上下文表示{h′1,h′2,...,h′n};
步骤S300、将话语级上下文表示h′last与当前话语编码器输出hlast和辅助句子特征alast拼接得到 表示拼接操作,将Cu输入意图解码器,得到当前用户话语的意图分类将Cu输入对话动作解码器得到当前话语的对话动作识别
步骤S400、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到 将Co、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器,得到槽填充
步骤S600、采用任务型多轮对话模型进行对话信息处理。
所述步骤S100具体包括:
hlast,ho=BiLSTMu(φemb(ut))
B、对历史对话{u1,u2,...,ui,...,ut-1}顺序编码,获得上下文特征mi:mi=BiLSTMm(φemb(ui)),i∈{1,2,...,t-1};
C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子ua={c1,c2,...,cz},其中,z为辅助句子的长度;对辅助句子进行编码获取辅助句子的特征alast:alast=BiLSTMa(φemb(ua))。
所述步骤S200具体包括:
步骤D10、拼接当前话语编码器输出hlast和历史话语矩阵M,得到话语级多头自注意力网络的输入Mu:
Mu={hlast,m1,m2,...,mt-1};
步骤D30、在多头自注意力中添加时间衰减函数,从而使得模型更加关注最近的上下文,具体包括:
定义当前话语ut和历史话语ui之间的时间差为当前轮的话语数量是N,Di表示第i个头的时间差集合由于多头自注意力网络有h个头,故定义Dall={D1,D2,...,Dh},h表示自注意力层的头数量,计算多头自注意力网络的每个头的时间重要性Vi:
Vi=max(ki(N-Di)+bi,0)
其中,bi是α-截距;ki表示斜率;头i∈{1,2,...,h};
步骤D40、将Vi输入softmax函数中得到每个头的时间分数timei:
timei=softmax(Vi)
头i的原始自注意力分数:
头i的最终注意力表示为:
步骤D50、在添加时间衰减函数的多头自注意力网络中,输入{hlast,m1,m2,...,mt-1},输出{h′last,m′1,m′2,...,m′t-1};其中h′last为话语级上下文表示;
步骤E10、将{m1,m2,...,mt-1}分别和{h1,h2,...,hn}拼接得到得到字符级注意力网络的输入Mo:
步骤E30、在添加时间衰减函数的多头自注意力网络中,输入{[h1,m1,m2,...,mt-1],...,[hn,m1,m2,...,mt-1],输出{[h′1,m′1,m′2,...,m′t-1],...,[h′n,m′1,m′2,...,m′t-1]},将{h′1,h′2,...,h′n}作为字符级别上下文表示来引导槽填充。
所述步骤S300具体包括:
其中,WI和bI是意图解码器的训练参数;
所述步骤S400具体包括:
步骤S420、识别用户话语的每个字符对应的槽标签,具体包括:
所述步骤S500具体包括:
其中,D表示训练集数据的数量,NI,NA和NS表示意图标签、对话动作标签和槽标签的数量,我们定义为第i条训练数据的第j个意图的真实概率,为第i条训练数据的第j个意图的预测概率;为第i条训练数据的第j个对话动作的真实概率,为第i条训练数据的第j个对话动作的预测概率;为第i条训练数据的第j个槽标签的真实概率,为第i条训练数据的第j个槽标签的预测概率;
定义联合训练目标损失为:
其中,α1,α2和α3都是超参数;
训练得到任务型多轮对话模型。
本发明与现有技术相比,具有以下优点及有益效果:
本发明提出了一种基于增强历史信息的上下文感知的时间衰减多头自注意力网络(CTMSN-EHI)的多任务联合模型来完成意图分类、对话动作识别和槽填充任务,增强了从句子和字符级别捕获对话系统最近上下文的能力,而增强的历史信息(EHI)是由前一轮次的对话状态和当前轮次的系统动作构造而得到的一个辅助句子,以便于从对话系统的角度理解用户的话语,在与用户交互过程中的意图分类准确率,用户对话动作识别的F1值以及用户槽填充F1值均达到先进水平。
附图说明
图1为本发明的系统框图;
图2为CTMSN-EHI模型与强基线模型在测试集上的实验结果对比;
图3为CTMSN-EHI模型的消融实验结果;
图4为增强的历史信息示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
结合附图1所示,一种基于CTMSN-EHI的任务型多轮对话信息处理方法,包括:
步骤S100、采用用户当前话语编码器、记忆编码器、增强信息编码器进行编码:
hlast,ho=BiLSTMu(φemb(ut))
B、对历史对话{u1,u2,...,ui,...,ut-1}顺序编码,获得上下文特征mi:mi=BiLSTMm(φemb(ui)),i∈{1,2,...,t-1};定义历史话语矩阵M,其中第i行是mi,
C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子ua={c1,c2,...,cz},其中,z为辅助句子的长度;对辅助句子进行编码获取辅助句子的特征alast:alast=BiLSTMa(φemb(ua));
话语级注意力:
步骤D10、拼接当前话语编码器输出hlast和历史话语矩阵M,得到话语级多头自注意力网络的输入Mu:
Mu={hlast,m1,m2,...,mt-1};
步骤D30、我们提出在多头自注意力中添加时间衰减函数,从而使得模型更加关注最近的上下文。具体地,定义当前话语ut和历史话语ui之间的时间差为当前轮的话语数量是N,Di表示第i个头的时间差集合由于多头自注意力网络有h个头,故定义Dall={D1,D2,...,Dh},h表示自注意力层的头数量,计算多头自注意力网络的每个头的时间重要性Vi:
Vi=max(ki(t-Di)+bi,0)
其中,bi是α-截距;ki表示斜率;头i∈{1,2,...,h};Vi>=0表示最终的时间重要性,且越“近”的话语越“重要”;
步骤D40、将Vi输入softmax函数中得到每个头的时间分数timei:
timei=softmax(Vi)
头i的原始自注意力分数:
头i的最终注意力表示为:
步骤D50、在添加时间衰减函数的多头自注意力网络中,输入{hlast,m1,m2,...,mt-1},输出{h′last,m′1,m′2,...,m′t-1};其中h′last为话语级上下文表示;
字符级注意力:
步骤E10、将记忆编码器的输出即历史话语矩阵M={m1,m2,...,mt-1}分别和历史话语表示{h1,h2,...,hn}拼接得到得到字符级注意力网络的输入Mo:
步骤E30、在添加时间衰减函数的多头自注意力网络中,输入{[h1,m1,m2,...,mt-1],...,[hn,m1,m2,...,mt-1],输出{[h′1,m′1,m′2,...,m′t-1],...,[h′n,m′1,m′2,...,m′t-1]},将{h′1,h′2,...,h′n}作为字符级别上下文表示来引导槽填充。
步骤S300、将话语级上下文表示h′last与当前话语编码器输出hlast和辅助句子特征alast拼接得到Cu,将Cu输入意图解码器,得到当前用户话语的意图分类将Cu输入对话动作解码器得到当前话语的对话动作识别具体包括:将话语级上下文表示h′last、当前话语编码器输出hlast和辅助句子的特征alast拼接得到意图与对话动作解码器的输入其中,表示拼接操作;将Cu用于意图分类和对话动作识别:
其中,WI和bI是意图解码器的训练参数;
步骤S400、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到Co,将Co、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器,得到槽填充
步骤S420、识别用户话语的每个字符对应的槽标签,具体包括:
其中,D表示训练集数据的数量,NI,NA和NS表示意图标签、对话动作标签和槽标签的数量,我们定义为第i条训练数据的第j个意图的真实概率,为第i条训练数据的第j个意图的预测概率;为第i条训练数据的第j个对话动作的真实概率,为第i条训练数据的第j个对话动作的预测概率;为第i条训练数据的第j个槽标签的真实概率,为第i条训练数据的第j个槽标签的预测概率。
定义联合训练目标损失为:
其中,α1,α2和α3都是超参数;
训练得到任务型多轮对话模型。
步骤S600、采用任务型多轮对话模型进行对话信息处理。
本方法基于CTMSN-EHI模型实现,提出了一个上下文感知的时间衰减多头自注意力网络来有效地聚合上下文信息,具有以下优点:
1)通过在多头自注意力的每个头上,应用一个随时间衰减且呈负相关的权重,增强原始多头自注意力,增强对最近上下文的关注,因此,本发明既考虑了全局上下文又更加关注最近的上下文。
2)将上述注意力应用到用户话语的每个字符上,以引导不同的字符关注不同的上下文信息。
3)通过利用前一轮次的对话状态和当前轮次的系统动作,我们使用一些简单的模板来构造辅助句子,从而以对话系统的视角“告诉”我们的模型它当前“知道”哪些信息并且接下来“需要”哪些信息。辅助句子可以作为一种增强的历史信息连同当前用户话语和其他历史上下文一起输入到CTMSN-EHI模型中,以增强上下文信息。
本发明在两个多轮对话数据集及其结合的数据集上进行了大量的实验,与一些强基线模型相比有较大的效果提升,实验如下:
数据集:利用基准模拟对话数据集中获取对话数据,该数据集包括餐厅和电影领域的对话数据。具体地,餐厅领域(Sim-R)包括1116个训练对话的11234轮,电影领域(Sim-M)包括384个训练对话的3562轮。它们总共包含了3种意图类型、21种用户对话动作类型和12种槽类型,其中12种对话动作和2种槽类型同时存在Sim-R和Sim-M数据集中。数据集还存在一个挑战性的问题,验证集和测试集中只有13%的电影名称也出现在训练集中。
实验设置:
对于所有数据集,词嵌入是从Glove预训练词向量中初始化得到,维度大小为300;三个BiLSTM编码器都是768维(每个方向384维);时间衰减多头自注意力网络的隐藏单元数为768。对于Sim-R和完整的数据集(Sim-R加Sim-M),我们在多头注意力网络中使用24个头;而对于Sim-R,我们使用12个头。在训练期间,我们使用ADAM优化器和它建议的超参数。学习率为0.001且线性递减,epoch数为100,dropout值为0.5,batch size大小是10。
评估指标:
使用准确率来评估意图分类,使用F1值来评估对话动作识别,并使用块级槽F1值来评估槽填充。此外,我们还评估帧准确率。只有当其预测的话语中的意图、槽和动作都正确时,才认为该帧是正确的。
结果和分析:
图2展示了本发明的CTMSN-EHI在Sim-R、Sim-M和整体数据集上的有效性。相比之下,实验结果表明我们的模型优于多个强基线模型。与NoContext和PrevTurn模型相比,我们的方法有很大的效果提升,特别是在Intent Acc、Act F1和Frame Acc上,这表明上下文信息可以进一步促进对话系统的口语语言理解(SLU)。与CaBBERT-SLU相比(我们用BiLSTM替换了它的bert编码器,并使用了和我们的CTMSN-EHI一样的三个解码器),我们在所有数据集上分别提高了1.11%、0.56%和0.74%的Frame Acc。这表明我们的CTMSN-EHI模型能更有效地结合上下文信息,并且增强的历史信息可以进一步帮助对话系统理解用户的话语。
如图3所示,为了进一步了解我们提出的组件为我们的模型带来了多少效果提升,我们进行了消融实验分析。由于frame acc可以综合反映三个任务的效果,所以在下面的讨论中我们主要比较frame acc。首先,我们移除时间衰减自注意力层,对所有上下文使用平均权重,即模型将平等对待所有上下文。然后我们发现在Sim-R数据集上frame acc降低了0.42%,在Sim-M数据集上降低了3.1%,在整个数据集上降低了1.1%,这证明了我们提出的时间衰减自注意力层的有效性及其自动聚合当前话语的不同上下文的能力。在Sim-M数据集中性能提升明显的原因是测试集中的许多电影名称不存在于训练集中,而Sim-R则相反。然后,我们仅使用原始多头自注意力层来利用上下文信息,去除其上的时间衰减机制。我们发现在Sim-R数据集上frame acc下降了0.52%,在Sim-M数据集上下降了0.38%,在整体数据集上下降了0.39%。这表明了将时间衰减机制应用于自注意力层的重要性,即时间衰减机制加强了模型对最近上下文的关注。
最后,我们停止向模型输入增强的历史信息,发现模型在所有数据集的效果都有显著下降。对此,我们通过一个例子来解释。如图4所示,我们构造的辅助句子,即增强的历史信息,是:“i know the location is orlando,and i request the price range andrequest the category.”。对话系统已经“知道”“location”是“orlando”,并且它“request”the“price range”and“request”the“category”。一方面,由于大多数对话中动作之间存在顺序依赖关系,例如当系统动作是“request”时,用户动作通常是“inform”,并且在数据集中还存在其它的依赖,例如“等等”。因此,辅助句子中的系统动作可以帮助系统推断出用户动作。另一方面,“price range”和“category”分别表示槽标签“B(I)-price_range”和“B-category”,这也帮助了系统填补“moderately priced”和“taiwanese”两个槽位。总之,从对话系统的角度来看,增强的历史信息极大地促进了口语语言理解。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (6)
1.一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,包括:
步骤S100、对用户当前话语采用BiLSTM进行编码,得到当前话语编码器输出hlast和字符级特征ho, 表示d维连续空间;对历史对话采用BiLSTM进行顺序编码,得到上下文特征mi,i∈{1,2,...,t-1},t为对话轮次,定义历史话语矩阵M,其中第i行是mi,利用当前轮对话的系统动作和前一轮对话状态构造辅助句子,对辅助句子采用BiLSTM进行编码获取辅助句子特征alast;
步骤S200、将当前话语编码器输出hlast和历史话语矩阵M拼接后输入添加时间衰减函数的多头自注意力网络,得到话语级上下文表示h′last;将历史话语矩阵M与历史话语表示{h1,h2,...,hn}拼接后,输入添加时间衰减函数的多头自注意力网络得到字符级上下文表示{h′1,h′2,...,h′n};
步骤S300、将话语级上下文表示h′last与当前话语编码器输出hlast和辅助句子特征alast拼接得到 表示拼接操作,将Cu输入意图解码器,得到当前用户话语的意图分类将Cu输入对话动作解码器得到当前话语的对话动作识别
步骤S400、将字符级上下文表示{h′1,h′2,...,h′n}与字级别特征{h1,h2,...,hn}、辅助句子的特征alast,拼接得到 将Co、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器,得到槽填充
步骤S600、采用任务型多轮对话模型进行对话信息处理。
2.根据权利要求1所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S100具体包括:
hlast,ho=BiLSTMu(φemb(ut))
B、对历史对话{u1,u2,...,ui,...,ut-1}顺序编码,获得上下文特征mi:mi=BiLSTMm(φemb(ui)),i∈{1,2,...,t-1};
C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子ua={c1,c2,...,cz},其中,z为辅助句子的长度;对辅助句子进行编码获取辅助句子的特征alast:alast=BiLSTMa(φemb(ua))。
3.根据权利要求2所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S200具体包括:
步骤D10、拼接当前话语编码器输出hlast和历史话语矩阵M,得到话语级多头自注意力网络的输入Mu:
Mu={hlast,m1,m2,...,mt-1};
步骤D30、在多头自注意力中添加时间衰减函数,从而使得模型更加关注最近的上下文,具体包括:
定义当前话语ut和历史话语ui之间的时间差为d(ui),当前轮的话语数量是N,Di表示第i个头的时间差集合由于多头自注意力网络有h个头,故定义Dall={D1,D2,...,Dh},h表示自注意力层的头数量,计算多头自注意力网络的每个头的时间重要性Vi:
Vi=max(ki(N-Di)+bi,0)
其中,bi是α-截距;ki表示斜率;头i∈{1,2,...,h};
步骤D40、将Vi输入softmax函数中得到每个头的时间分数timei:
timei=softmax(Vi)
头i的原始自注意力分数:
头i的最终注意力表示为:
步骤D50、在添加时间衰减函数的多头自注意力网络中,输入{hlast,m1,m2,...,mt-1},输出{h′last,m′1,m′2,...,m′t-1};其中h′last为话语级上下文表示;
步骤E10、将{m1,m2,...,mt-1}分别和{h1,h2,...,hn}拼接得到得到字符级注意力网络的输入Mo:
步骤E30、在添加时间衰减函数的多头自注意力网络中,输入{[h1,m1,m2,...,mt-1],...,[hn,m1,m2,...,mt-1],输出{[h′1,m′1,m′2,...,m′t-1],...,[h′n,m′1,m′2,...,m′t-1]},将{h′1,h′2,...,h′n}作为字符级别上下文表示来引导槽填充。
5.根据权利要求4所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S400具体包括:
步骤S420、识别用户话语的每个字符对应的槽标签,具体包括:
6.根据权利要求5所述的一种基于CTMSN-EHI的任务型多轮对话信息处理方法,其特征在于,所述步骤S500具体包括:
其中,D表示训练集数据的数量,NI,NA和NS表示意图标签、对话动作标签和槽标签的数量,我们定义为第i条训练数据的第j个意图的真实概率,为第i条训练数据的第j个意图的预测概率;为第i条训练数据的第j个对话动作的真实概率,为第i条训练数据的第j个对话动作的预测概率;为第i条训练数据的第j个槽标签的真实概率,为第i条训练数据的第j个槽标签的预测概率;
定义联合训练目标损失为:
其中,α1,α2和α3都是超参数;
训练得到任务型多轮对话模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210932456.6A CN115292491B (zh) | 2022-08-04 | 2022-08-04 | 基于ctmsn-ehi的任务型多轮对话信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210932456.6A CN115292491B (zh) | 2022-08-04 | 2022-08-04 | 基于ctmsn-ehi的任务型多轮对话信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115292491A true CN115292491A (zh) | 2022-11-04 |
CN115292491B CN115292491B (zh) | 2023-06-02 |
Family
ID=83826985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210932456.6A Active CN115292491B (zh) | 2022-08-04 | 2022-08-04 | 基于ctmsn-ehi的任务型多轮对话信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292491B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059160A (zh) * | 2019-04-17 | 2019-07-26 | 东南大学 | 一种端到端的基于上下文的知识库问答方法及装置 |
CN111104498A (zh) * | 2019-12-12 | 2020-05-05 | 华南理工大学 | 一种任务型对话系统中的语义理解方法 |
CN112131861A (zh) * | 2020-11-25 | 2020-12-25 | 中国科学院自动化研究所 | 基于层次化多头交互注意力的对话状态生成方法 |
CN112214591A (zh) * | 2020-10-29 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种对话预测的方法及装置 |
WO2022066695A1 (en) * | 2020-09-23 | 2022-03-31 | Capital One Services, Llc | Systems and methods for generating dynamic conversational responses through aggregated outputs of machine learning models |
CN114281954A (zh) * | 2021-09-07 | 2022-04-05 | 杭州电子科技大学 | 一种基于关系图注意力网络的多轮对话回复生成系统及方法 |
-
2022
- 2022-08-04 CN CN202210932456.6A patent/CN115292491B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059160A (zh) * | 2019-04-17 | 2019-07-26 | 东南大学 | 一种端到端的基于上下文的知识库问答方法及装置 |
CN111104498A (zh) * | 2019-12-12 | 2020-05-05 | 华南理工大学 | 一种任务型对话系统中的语义理解方法 |
WO2022066695A1 (en) * | 2020-09-23 | 2022-03-31 | Capital One Services, Llc | Systems and methods for generating dynamic conversational responses through aggregated outputs of machine learning models |
CN112214591A (zh) * | 2020-10-29 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种对话预测的方法及装置 |
CN112131861A (zh) * | 2020-11-25 | 2020-12-25 | 中国科学院自动化研究所 | 基于层次化多头交互注意力的对话状态生成方法 |
CN114281954A (zh) * | 2021-09-07 | 2022-04-05 | 杭州电子科技大学 | 一种基于关系图注意力网络的多轮对话回复生成系统及方法 |
Non-Patent Citations (2)
Title |
---|
KAI WEI等: "Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language Understanding" * |
战保行: "任务型对话中意图识别和槽填充的联合算法研究" * |
Also Published As
Publication number | Publication date |
---|---|
CN115292491B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
CN110516253B (zh) | 中文口语语义理解方法及系统 | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
Deng et al. | Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN110399472B (zh) | 面试提问提示方法、装置、计算机设备及存储介质 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN111611346A (zh) | 一种基于动态语义编码和双注意力的文本匹配方法及装置 | |
CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
CN111814489A (zh) | 口语语义理解方法及系统 | |
CN109637527A (zh) | 对话语句的语义解析方法及系统 | |
CN111382257A (zh) | 一种生成对话下文的方法和系统 | |
CN110992943B (zh) | 基于词混淆网络的语义理解方法及系统 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
WO2023231513A1 (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN115292463A (zh) | 一种基于信息抽取的联合多意图检测和重叠槽填充的方法 | |
CN113822017A (zh) | 基于人工智能的音频生成方法、装置、设备及存储介质 | |
CN114386426B (zh) | 一种基于多元语义融合的金牌话术推荐方法及装置 | |
CN113656569A (zh) | 一种基于上下文信息推理的生成式对话方法 | |
CN114281954A (zh) | 一种基于关系图注意力网络的多轮对话回复生成系统及方法 | |
CN115617972B (zh) | 一种机器人对话方法、装置、电子设备及存储介质 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |