CN115292491A

CN115292491A - 基于ctmsn-ehi的任务型多轮对话信息处理方法

Info

Publication number: CN115292491A
Application number: CN202210932456.6A
Authority: CN
Inventors: 李川; 金翔; 李思佳; 宁树伟
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-11-04
Anticipated expiration: 2042-08-04
Also published as: CN115292491B

Abstract

本发明公开了基于CTMSN‑EHI的任务型多轮对话信息处理方法，用户当前话语、历史话语编码后至输入添加时间衰减函数的多头自注意力网络得到话语级、字符级上下文表示，将话语级上下文表示、当前话语编码器输出和辅助句子特征拼接分别输入意图解码器、对话动作解码器，得到意图分类和对话动作识别；将意图分类和对话动作输入槽填充解码器，得到槽填充；对意图分类和槽填充、对话动作识别训练，得到任务型多轮对话模型，采用任务型多轮对话模型进行对话信息处理。本发明增强了从句子和字符级别捕获对话系统最近上下文的能力，辅助句子，以便于从对话系统的角度理解用户的话语，输出准确信息或执行相应动作。

Description

基于CTMSN-EHI的任务型多轮对话信息处理方法

技术领域

本发明涉及人工智能自然语言处理技术领域，具体的说，是一种基于CTMSN-EHI的任务型多轮对话信息处理方法。

背景技术

任务型对话系统能够帮助用户完成某些特定的任务，例如预订餐厅、寻找餐厅或者购买电影票等，口语语言理解(Spoken Language Understanding：SLU)是其中的一个关键组成部分，它将用户话语解析为一种语义表示，包括用户意图、对话动作和槽。具体来说，口语语言理解的主要目标是意图分类、对话动作识别和槽填充。现有技术中许多在SLU的研究都集中在单轮对话上，对话系统只接收一句当前用户话语，然后完成相应的SLU任务，和单轮SLU不同的是，用户和对话系统都可以引用历史对话轮次中的实体，因此多轮SLU面临着语义歧义的挑战，缺少上下文可能会导致对话系统混乱，对话系统无法做出正确的判断。

发明内容

本发明的目的在于提供一种基于CTMSN-EHI的任务型多轮对话信息处理方法，用于解决现有技术中任务型对话系统引用多轮用户话语时因缺少上下文导致系统混乱，无法正确理解用户对话以及无法做出正确的判断的问题。

本发明通过下述技术方案解决上述问题：

一种基于CTMSN-EHI的任务型多轮对话信息处理方法，包括：

步骤S100、对用户当前话语采用BiLSTM进行编码，得到当前话语编码器输出h_last和字符级特征h_o，

表示d维连续空间；对历史对话采用BiLSTM进行顺序编码，得到上下文特征m_i，i∈{1,2,...,t-1}，t为对话轮次，定义历史话语矩阵M，其中第i行是m_i，

利用当前轮对话的系统动作和前一轮对话状态构造辅助句子，对辅助句子采用BiLSTM进行编码获取辅助句子特征a_last；

步骤S200、将当前话语编码器输出h_last和历史话语矩阵M拼接后输入添加时间衰减函数的多头自注意力网络，得到话语级上下文表示h′_last；将历史话语矩阵M与历史话语表示{h₁,h₂,...,h_n}拼接后，输入添加时间衰减函数的多头自注意力网络得到字符级上下文表示{h′₁,h′₂,...,h′_n}；

步骤S300、将话语级上下文表示h′_last与当前话语编码器输出h_last和辅助句子特征a_last拼接得到

表示拼接操作，将C_u输入意图解码器，得到当前用户话语的意图分类

将C_u输入对话动作解码器得到当前话语的对话动作识别

步骤S400、将字符级上下文表示{h′₁,h′₂,...,h′_n}与字级别特征{h₁,h₂,...,h_n}、辅助句子的特征a_last，拼接得到

将C_o、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器，得到槽填充

步骤S500、对意图分类

和槽填充

采用分类交叉熵损失函数训练，对对话动作识别

采用二元交叉熵损失函数训练，得到任务型多轮对话模型；

步骤S600、采用任务型多轮对话模型进行对话信息处理。

所述步骤S100具体包括：

A、将用户当前话语

进行编码，得到：

h_last,h_o＝BiLSTM_u(φ^emb(u_t))

其中，φ^emb(·)表示嵌入函数；h_last为当前话语编码器输出，

h_o为字级别特征，

表示d为连续空间，n为句子长度，t表示第t轮对话；

B、对历史对话{u₁,u₂,...,u_i,...,u_t-1}顺序编码，获得上下文特征m_i：m_i＝BiLSTM_m(φ^emb(u_i))，i∈{1,2,...,t-1}；

C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子u_a＝{c₁,c₂,...,c_z}，其中，z为辅助句子的长度；对辅助句子进行编码获取辅助句子的特征a_last：a_last＝BiLSTM_a(φ^emb(u_a))。

所述步骤S200具体包括：

步骤D10、拼接当前话语编码器输出h_last和历史话语矩阵M，得到话语级多头自注意力网络的输入M^u：

M^u＝{h_last,m₁,m₂,...,m_t-1}；

步骤D20、将M^u分别通过三个不同的权重矩阵W^Q,W^K,W^V映射并分别加上位置编码得到话语级的query、key和value向量：

其中，

H_a是多头自注意力网络的隐藏层大小；

步骤D30、在多头自注意力中添加时间衰减函数，从而使得模型更加关注最近的上下文，具体包括：

定义当前话语u_t和历史话语u_i之间的时间差为

当前轮的话语数量是N，D_i表示第i个头的时间差集合

由于多头自注意力网络有h个头，故定义D_all＝{D₁,D₂,...,D_h}，h表示自注意力层的头数量，计算多头自注意力网络的每个头的时间重要性V_i：

V_i＝max(k_i(N-D_i)+b_i,0)

其中，b_i是α-截距；k_i表示斜率；头i∈{1,2,...,h}；

步骤D40、将V_i输入softmax函数中得到每个头的时间分数time_i：

time_i＝softmax(V_i)

头i的原始自注意力分数：

头i的最终注意力表示为：

Attention_i后续用于意图与对话动作解码器的输入的一部分，

分别表示由前面的

划分的第i个头，其中λ_i是原始自注意力分数attn_i和时间分数time_i之间的平衡超参数；

步骤D50、在添加时间衰减函数的多头自注意力网络中，输入{h_last,m₁,m₂,...,m_t-1}，输出{h′_last,m′₁,m′₂,...,m′_t-1}；其中h′_last为话语级上下文表示；

步骤D60、将话语上下文的加权

和h′_last作为话语级上下文表示用于引导意图分类和对话动作识别；

步骤E10、将{m₁,m₂,...,m_t-1}分别和{h₁,h₂,...,h_n}拼接得到得到字符级注意力网络的输入M^o：

其中，

步骤E20、将M^o分别通过三个不同的权重矩阵W^Q,W^K,W^V映射并分别加上位置编码得到字符级的query、key和value向量：

步骤E30、在添加时间衰减函数的多头自注意力网络中，输入{[h₁,m₁,m₂,...,m_t-1],...,[h_n,m₁,m₂,...,m_t-1]，输出{[h′₁,m′₁,m′₂,...,m′_t-1],...,[h′_n,m′₁,m′₂,...,m′_t-1]}，将{h′₁,h′₂,...,h′_n}作为字符级别上下文表示来引导槽填充。

所述步骤S300具体包括：

将话语级上下文表示h′_last、当前话语编码器输出h_last和辅助句子的特征a_last拼接得到意图与对话动作解码器的输入

将C_u用于意图分类和对话动作识别：

在第t轮中，当前用户话语的意图输出分布

其中，W_I和b_I是意图解码器的训练参数；

当前用户话语的意图标签

计算第t轮中所有对话动作出现的概率

表示第t轮中对话动作k出现的概率：

其中，W_A和b_A是对话动作解码器的训练参数，

中概率大于预设阈值t_u的

的对话动作符合输出条件，t_u是用在验证集中调整的超参数，0<t_u<1.0。

所述步骤S400具体包括：

步骤S410、将字符级上下文表示{h′₁,h′₂,...,h′_n}与字级别特征{h₁,h₂,...,h_n}、辅助句子的特征a_last，拼接得到槽填充解码器的输入

步骤S420、识别用户话语的每个字符对应的槽标签，具体包括：

步骤S421、在第t轮的第i个解码步，槽填充解码器的状态

为：

其中，

是槽填充解码器上一个状态，

是上一个槽标签的输出概率分布，

是第t轮的当前话语的意图分布的嵌入向量表示，

是第t轮的当前话语的对话动作的嵌入向量表示；

步骤S422、计算第i个解码步的槽标签发射分布

预测第t轮的当前话语中第i个字符的槽标签

其中，

是可训练参数；

步骤S423、依次输入第t轮的第1到第n个字符到上述槽填充解码器中，得到当前话语的槽标签序列

所述步骤S500具体包括：

定义意图分类

和槽填充

使用分类交叉熵损失，对对话动作识别

使用二元交叉熵损失：

其中，D表示训练集数据的数量，N_I，N_A和N_S表示意图标签、对话动作标签和槽标签的数量，我们定义

为第i条训练数据的第j个意图的真实概率，

为第i条训练数据的第j个意图的预测概率；

为第i条训练数据的第j个对话动作的真实概率，

为第i条训练数据的第j个对话动作的预测概率；

为第i条训练数据的第j个槽标签的真实概率，

为第i条训练数据的第j个槽标签的预测概率；

定义联合训练目标损失为：

其中，α₁,α₂和α₃都是超参数；

训练得到任务型多轮对话模型。

本发明与现有技术相比，具有以下优点及有益效果：

本发明提出了一种基于增强历史信息的上下文感知的时间衰减多头自注意力网络(CTMSN-EHI)的多任务联合模型来完成意图分类、对话动作识别和槽填充任务，增强了从句子和字符级别捕获对话系统最近上下文的能力，而增强的历史信息(EHI)是由前一轮次的对话状态和当前轮次的系统动作构造而得到的一个辅助句子，以便于从对话系统的角度理解用户的话语，在与用户交互过程中的意图分类准确率，用户对话动作识别的F1值以及用户槽填充F1值均达到先进水平。

附图说明

图1为本发明的系统框图；

图2为CTMSN-EHI模型与强基线模型在测试集上的实验结果对比；

图3为CTMSN-EHI模型的消融实验结果；

图4为增强的历史信息示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例：

结合附图1所示，一种基于CTMSN-EHI的任务型多轮对话信息处理方法，包括：

步骤S100、采用用户当前话语编码器、记忆编码器、增强信息编码器进行编码：

A、在第t轮，将用户当前话语

进行编码，得到：

h_last,h_o＝BiLSTM_u(φ^emb(u_t))

其中，φ^emb(·)表示嵌入函数；h_last为当前话语编码器输出，

为d维的连续空间；h_o为字级别特征，

表示d为连续空间，n为句子长度，t表示第t轮对话；

B、对历史对话{u₁,u₂,...,u_i,...,u_t-1}顺序编码，获得上下文特征m_i：m_i＝BiLSTM_m(φ^emb(u_i))，i∈{1,2,...,t-1}；定义历史话语矩阵M，其中第i行是m_i，

C、利用当前轮的对话系统动作和前一轮对话状态构造辅助句子u_a＝{c₁,c₂,...,c_z}，其中，z为辅助句子的长度；对辅助句子进行编码获取辅助句子的特征a_last：a_last＝BiLSTM_a(φ^emb(u_a))；

步骤S200、在获得历史话语矩阵

当前话语

以及其字级别特征

后，分别做两种不同级别的注意力：

话语级注意力：

M^u＝{h_last,m₁,m₂,...,m_t-1}；

步骤D20、将M^u分别通过三个不同的权重矩阵W^Q,W^K,W^V映射并分别加上位置编码得到话语话语级的query、key和value向量

其中，

H_a是多头自注意力网络的隐藏层大小；

步骤D30、我们提出在多头自注意力中添加时间衰减函数，从而使得模型更加关注最近的上下文。具体地，定义当前话语u_t和历史话语u_i之间的时间差为

当前轮的话语数量是N，D_i表示第i个头的时间差集合

V_i＝max(k_i(t-D_i)+b_i,0)

其中，b_i是α-截距；k_i表示斜率；头i∈{1,2,...,h}；V_i>＝0表示最终的时间重要性,且越“近”的话语越“重要”；

步骤D40、将V_i输入softmax函数中得到每个头的时间分数time_i：

time_i＝softmax(V_i)

头i的原始自注意力分数：

头i的最终注意力表示为：

后续用于意图与对话动作解码器的输入的一部分，

分别表示由前面的

划分的第i个头，其中，λ_i是原始自注意力分数attn_i和时间分数time_i之间的平衡超参数，例如可以设置为0.8；

步骤D60、将话语上下文的加权

字符级注意力：

步骤E10、将记忆编码器的输出即历史话语矩阵M＝{m₁,m₂,...,m_t-1}分别和历史话语表示{h₁,h₂,...,h_n}拼接得到得到字符级注意力网络的输入M^o：

其中，

步骤E20、将M^o分别通过三个不同的权重矩阵W^Q,W^K,W^V映射并分别加上位置编码得到字符级的query、key和value向量

其中，

H_a是多头自注意力网络的隐藏层大小；

步骤S300、将话语级上下文表示h′_last与当前话语编码器输出h_last和辅助句子特征a_last拼接得到C_u，将C_u输入意图解码器，得到当前用户话语的意图分类

将C_u输入对话动作解码器得到当前话语的对话动作识别

具体包括：将话语级上下文表示h′_last、当前话语编码器输出h_last和辅助句子的特征a_last拼接得到意图与对话动作解码器的输入

其中，

表示拼接操作；将C_u用于意图分类和对话动作识别：

在第t轮中，当前用户话语的意图输出分布

其中，W_I和b_I是意图解码器的训练参数；

当前用户话语的意图标签

计算第t轮中所有对话动作出现的概率

表示第t轮中对话动作k出现的概率：

其中，W_A和b_A是对话动作解码器的训练参数，

中概率大于预设阈值t_u的

的对话动作符合输出条件，t_u是用在验证集中调整的超参数，0<t_u<1.0；

步骤S400、将字符级上下文表示{h′₁,h′₂,...,h′_n}与字级别特征{h₁,h₂,...,h_n}、辅助句子的特征a_last，拼接得到C_o，将C_o、当前话语的意图和对话动作的嵌入向量表示输入槽填充解码器，得到槽填充

步骤S421、在第t轮的第i个解码步，槽填充解码器的状态

为：

其中，

是槽填充解码器上一个状态，

是上一个槽标签输出概率分布，

是第t轮的当前话语的意图分布的嵌入向量表示，

是第t轮的当前话语的对话动作的嵌入向量表示；

步骤S422、计算第i个解码步的槽标签发射分布

预测当前话语中第i个字符的槽标签

其中，

是可训练参数，

是第t轮的当前话语中第i个字符的槽标签；

步骤S500、对意图分类

和槽填充

采用分类交叉熵损失函数训练，对对话动作识别

采用二元交叉熵损失函数训练，得到任务型多轮对话模型；

定义意图分类

和槽填充

使用分类交叉熵损失，对对话动作识别

使用二元交叉熵损失：

为第i条训练数据的第j个意图的真实概率，

为第i条训练数据的第j个意图的预测概率；

为第i条训练数据的第j个对话动作的真实概率，

为第i条训练数据的第j个对话动作的预测概率；

为第i条训练数据的第j个槽标签的真实概率，

为第i条训练数据的第j个槽标签的预测概率。

定义联合训练目标损失为：

其中，α₁,α₂和α₃都是超参数；

训练得到任务型多轮对话模型。

步骤S600、采用任务型多轮对话模型进行对话信息处理。

本方法基于CTMSN-EHI模型实现，提出了一个上下文感知的时间衰减多头自注意力网络来有效地聚合上下文信息，具有以下优点：

1)通过在多头自注意力的每个头上，应用一个随时间衰减且呈负相关的权重，增强原始多头自注意力，增强对最近上下文的关注，因此，本发明既考虑了全局上下文又更加关注最近的上下文。

2)将上述注意力应用到用户话语的每个字符上，以引导不同的字符关注不同的上下文信息。

3)通过利用前一轮次的对话状态和当前轮次的系统动作，我们使用一些简单的模板来构造辅助句子，从而以对话系统的视角“告诉”我们的模型它当前“知道”哪些信息并且接下来“需要”哪些信息。辅助句子可以作为一种增强的历史信息连同当前用户话语和其他历史上下文一起输入到CTMSN-EHI模型中，以增强上下文信息。

本发明在两个多轮对话数据集及其结合的数据集上进行了大量的实验，与一些强基线模型相比有较大的效果提升，实验如下：

数据集：利用基准模拟对话数据集中获取对话数据，该数据集包括餐厅和电影领域的对话数据。具体地，餐厅领域(Sim-R)包括1116个训练对话的11234轮，电影领域(Sim-M)包括384个训练对话的3562轮。它们总共包含了3种意图类型、21种用户对话动作类型和12种槽类型，其中12种对话动作和2种槽类型同时存在Sim-R和Sim-M数据集中。数据集还存在一个挑战性的问题，验证集和测试集中只有13％的电影名称也出现在训练集中。

实验设置：

对于所有数据集，词嵌入是从Glove预训练词向量中初始化得到，维度大小为300；三个BiLSTM编码器都是768维(每个方向384维)；时间衰减多头自注意力网络的隐藏单元数为768。对于Sim-R和完整的数据集(Sim-R加Sim-M)，我们在多头注意力网络中使用24个头；而对于Sim-R，我们使用12个头。在训练期间，我们使用ADAM优化器和它建议的超参数。学习率为0.001且线性递减，epoch数为100，dropout值为0.5，batch size大小是10。

评估指标：

使用准确率来评估意图分类，使用F1值来评估对话动作识别，并使用块级槽F1值来评估槽填充。此外，我们还评估帧准确率。只有当其预测的话语中的意图、槽和动作都正确时，才认为该帧是正确的。

结果和分析：

图2展示了本发明的CTMSN-EHI在Sim-R、Sim-M和整体数据集上的有效性。相比之下，实验结果表明我们的模型优于多个强基线模型。与NoContext和PrevTurn模型相比，我们的方法有很大的效果提升，特别是在Intent Acc、Act F1和Frame Acc上，这表明上下文信息可以进一步促进对话系统的口语语言理解(SLU)。与CaBBERT-SLU相比(我们用BiLSTM替换了它的bert编码器，并使用了和我们的CTMSN-EHI一样的三个解码器)，我们在所有数据集上分别提高了1.11％、0.56％和0.74％的Frame Acc。这表明我们的CTMSN-EHI模型能更有效地结合上下文信息，并且增强的历史信息可以进一步帮助对话系统理解用户的话语。

如图3所示，为了进一步了解我们提出的组件为我们的模型带来了多少效果提升，我们进行了消融实验分析。由于frame acc可以综合反映三个任务的效果，所以在下面的讨论中我们主要比较frame acc。首先，我们移除时间衰减自注意力层，对所有上下文使用平均权重，即模型将平等对待所有上下文。然后我们发现在Sim-R数据集上frame acc降低了0.42％，在Sim-M数据集上降低了3.1％，在整个数据集上降低了1.1％，这证明了我们提出的时间衰减自注意力层的有效性及其自动聚合当前话语的不同上下文的能力。在Sim-M数据集中性能提升明显的原因是测试集中的许多电影名称不存在于训练集中，而Sim-R则相反。然后，我们仅使用原始多头自注意力层来利用上下文信息，去除其上的时间衰减机制。我们发现在Sim-R数据集上frame acc下降了0.52％，在Sim-M数据集上下降了0.38％，在整体数据集上下降了0.39％。这表明了将时间衰减机制应用于自注意力层的重要性，即时间衰减机制加强了模型对最近上下文的关注。

最后，我们停止向模型输入增强的历史信息，发现模型在所有数据集的效果都有显著下降。对此，我们通过一个例子来解释。如图4所示，我们构造的辅助句子，即增强的历史信息，是：“i know the location is orlando,and i request the price range andrequest the category.”。对话系统已经“知道”“location”是“orlando”，并且它“request”the“price range”and“request”the“category”。一方面，由于大多数对话中动作之间存在顺序依赖关系，例如当系统动作是“request”时，用户动作通常是“inform”，并且在数据集中还存在其它的依赖，例如“

等等”。因此，辅助句子中的系统动作可以帮助系统推断出用户动作。另一方面，“price range”和“category”分别表示槽标签“B(I)-price_range”和“B-category”，这也帮助了系统填补“moderately priced”和“taiwanese”两个槽位。总之，从对话系统的角度来看，增强的历史信息极大地促进了口语语言理解。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。