CN111353029B

CN111353029B - 一种基于语义匹配的多轮对话口语理解方法

Info

Publication number: CN111353029B
Application number: CN202010109598.3A
Authority: CN
Inventors: 姜明; 曹凯强; 李鹏飞; 张旻; 汤景凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-02-22
Filing date: 2020-02-22
Publication date: 2020-09-22
Anticipated expiration: 2040-02-22
Also published as: CN111353029A

Abstract

本发明公开了一种基于语义匹配的多轮对话口语理解方法。本发明利用基于词级别的attention卷积神经网络和树状循环神经网络联合提取语句语义信息，并通过语义匹配对历史语句进行合理的权重值分配，结合上述产生的历史语句语义表示和对应的权重值，输入对应角色双向LSTM模型得到角色历史影响向量，结合2个角色历史影响向量得到最终历史语义影响向量，结合该向量对当前语句做意图检测，并通过损失函数优化模型参数结构。这种方法具有更好的鲁棒性和自适应能力。其中具体发明的基于语义匹配的多轮对话口语理解模型训练流程图如图2。

Description

一种基于语义匹配的多轮对话口语理解方法

技术领域

本发明涉及口语理解领域，具体涉及一种基于语义匹配的多轮对话口语理解方法，属于自然语言处理中的人机对话领域。

背景技术

随着人工智能的日益发展以及人机交互技术的进步，越来越丰富的人机交互模式开始出现，其中，任务型人机对话系统是人机对话中的一个重要应用。任务型人机对话系统通过与用户进行多轮基于自然语言的对话来逐步收集与目标相关的信息，从而辅助用户成功获得某种服务。任务型对话作为人工智能的典型应用，已成为一种重要的人机交互核心技术。而口语理解(SLU)是面向任务的对话系统中非常重要的一部分，它将用户的话语解析为语义框架表示。在口语理解的正确基础上，才能进一步进行对话的状态追踪，对话决策和管理，对话生成等一系列操作。在单轮对话中，用户输入的语义信息较为完整，易于提取，而在多轮对话中，用户输入的语句具有短小，语义信息不充分等特点，因此历史对话信息对当前语句的解析有很大的影响。然而，以往的做法主要基于时间距离维度来判断历史语句中每一句语句的影响程度，对历史语句的权重概率值分配可能会出现错误。所以本发明基于历史语句与当前语句的语义匹配程度，对历史语句分配权重值，再结合角色双向LSTM，能够有效提取历史语义影响向量。结合该向量对当前语句做意图检测，能够有效提升意图检测的准确率。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于语义匹配的多轮对话口语理解方法，以解决在多轮对话中，历史信息提取不充分，不能有效对历史语句进行权重分配，不能有效判断历史语句与当前语句关系的问题。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤(1)获取对话数据集并进行预处理，即针对对话数据集中的每个语句正确标注语句意图和对应历史语句；

步骤(2)建立基于语义匹配的多轮对话口语理解架构，确定网络组成部分以及层数和维度，得到口语理解模型；

步骤(3)将步骤(1)预处理后的语句分别输入基于词级别attention的卷积神经网络模型和树状LSTM模型，分别提取语句局部特征和语句语义特征；

步骤(4)将得到的语句局部特征和语句语义特征进行拼接，得到最终单句语句语义表示；

步骤(5)将历史语句语义表示和当前语句语义表示进行两两拼接，输入多层感知机网络模型，基于语义匹配度对历史语句分配权重值；

步骤(6)将历史语句语义表示结合权重值输入对应角色双向LSTM模型，得到角色历史语义影响向量；

步骤(7)拼接2个角色历史语义影响向量得到最终历史语义影响向量；

步骤(8)结合最终历史语义影响向量与当前语句语义表示，输入双向LSTM模型进行意图检测；

步骤(9)将预测的意图与语句对应的真实意图进行对比，计算损失函数，迭代更新网络模型中的参数；

步骤(10)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型，正确提取历史语义影响向量，结合历史语义影响向量对该语句做意图检测；输出语句对应的意图。

本发明所具有的优点如下：

针对现有技术的不足，提供一种基于语义匹配的多轮对话口语理解方法，利用基于词级别的attention的卷积神经网络模型和树状LSTM模型提取语句语义，将历史语句结合当前语句语义表示输入多层感知机训练得到概率值，将概率值结合历史语句输入对应角色双向LSTM模型得到角色历史语义影响向量，将2个角色历史影响向量拼接得到最终历史语义影响向量，结合该向量对当前语句做意图检测。以解决在多轮对话中，历史信息提取不充分，不能有效对历史语句进行权重分配，不能有效判断历史语句与当前语句关系的问题。

附图说明

图1是本发明的整体实施方案流程图；

图2是本发明的训练模型示意图；

图3是树状LSTM网络模型图；

图4是本发明工艺实施方案的具体流程图；

具体实施方式

下面结合附图对本发明作进一步描述。

本发明的整体实施方案流程图参照图1，一种基于语义匹配的多轮对话口语理解方法，包括以下步骤：

步骤(1)具体过程如下：

(1-1)采用公开的竞赛数据集DSTC4，该数据集为从Skype通话中收集到的有关于旅游信息的对话样本集合，对话人员为35名游客和3名导游；35轮对话总长度共计21小时，包含了31034个句子和273580个单词，21小时长度的对话手动转录成语句并且对对话中的每一个句子标记对话动作和属性标签；

(1-2)将语句对应的对话动作和属性标签正确结合，标注出语句对应的正确意图标签,根据语句顺序标记出语句id；

(1-3)正确标记每一句语句对应的历史语句id数组，将当前语句的前10句作为该语句的历史语句数组，即对应当前语句S_t，其历史语句数组为[S_t-10，S_t-9，S_t-8，…S_t-1]，将当前语句对应id存入当前语句对应的历史语句数组；若当前语句前的历史语句不足10句，则采用空语句代替；

(1-4)将该35轮对话正确分类，其中20轮对话作为训练集，6轮对话作为验证集，9轮对话作为测试集。

3.根据权利要求1或2所述的基于语义匹配的多轮对话口语理解方法，其特征于步骤(2)所述的口语理解模型具体过程如下：

口语理解模型主要由3个部分组成，分别为语句语义提取网络、语义匹配打分网络以及历史语义影响向量提取网络，每层的维度为256；语句语义提取网络由基于词级别的attention模型和树状LSTM组成，语义匹配打分网络由多层感知机组成；历史语义影响向量提取网络由2个角色双向LSTM模型组成。

步骤(3)具体过程如下：

(3-1)根据预训练的词向量模型glove，查询语句中单词对应的词向量，将一个语句转化为原始词向量矩阵W＝[w₁，w₂，… w_L]；W∈R^LXD，其中L是语句的长度，D是词向量的维度；

(3-2)将原始词向量矩阵输入词级别的attention模型，提取针对语句中当前单词的词上下文向量g_i＝∑_j≠iα_i，j·w_j,其中α_i，j基于与当前词的语义匹配度对语句中其余词分配权重，公式如下：

其中，i，j，j′都表示语句中单词的序号，L表示语句总长度；α_i，j表示针对当前单词i，第j个单词与第i个单词的语义相关度表示；score函数为基于词向量距离计算2个单词的语义相关度；e为以自然常数e为底的exp指数函数；

(3-3)在得到单词的上下文向量g_i后，与原始词向量w_i拼接后得到新的词向量w′_i；新的词向量矩阵W′＝[w_i′,w′₂,…,w′_L]；W′∈R^L×2D,其中w′_i计算方式如下：

其中

代表拼接操作，w_i表示原始词向量，g_i表示原始词向量w_i对应的上下文词向量，w′_i为拼接后新的词向量；

(3-4)将新的词向量矩阵输入卷积神经网络提取语句局部特征，得到语句表示向量h_c；

(3-5)将语句原始词向量矩阵输入树状LSTM模型提取语句语义特征，得到语句表示向量h_t。

步骤(4)具体过程如下：

(4-1)将上述步骤(3)产生的经过卷积神经网络的语句表示h_c与语句表示h_t进行拼接，得到最终语句语义表示S＝[h_t，h_c]，拼接过程如下：

其中

表示拼接过程，将语句表示向量h_c正确拼接到h_t的尾部。

步骤(5)具体过程如下：

(5-1)将历史语句语义表示与当前语句语义表示两两拼接得到新的历史语句矩阵S′_hist＝[S′₁,S′₂,…,S′_t,…,S′_n]，拼接过程如下：

其中

表示拼接过程，将S_cur向量正确拼接到S_t的尾部；S_t代表历史语句中的某一句的语义表示，S_cur代表当前语句语义表示；

(5-2)将新得到的历史语句矩阵输入多层感知机MLP进行数据训练得到历史语句的每个影响权重值，计算方式如下：

其中，

是一个可训练的权重转置矩阵；b_att是一个可训练的偏置项；f是MLP网络中的激活函数，采用tanh激活函数；在输出端采用softmax进行归一化；α_t代表历史语句中某一句对应的权重值。

步骤(6)具体过程如下：

(6-1)将历史语句分成2组，即旅客组和导游组，将旅客组语句语义表示结合其概率值输入旅客角色对应的双向LSTM模型，得到旅客对应的历史角色语义影响向量；其公式如下：

V_导游＝BiLSTM(S_t，α_t)

其中V_导游对应的是导游的历史角色语义影响向量，S_t表示历史语句中的某一句语句，α_t表示该语句对应的权重值；

导游组的计算与旅客组计算相同，从而得到导游对应的历史角色语义影响向量和旅客对应的历史角色语义影响向量。

步骤(7)具体过程如下：

(7-1)将步骤6得到的角色语义影响向量，即旅客角色语义影响向量和导游角色语义影响向量拼接，得到最终历史语义影响向量V_his；拼接过程如下：

V_his＝BiLSTM_导游(S_t,α_t)+BiLSTM_旅客(S_t,α_t)

其中V_his代表最终历史语义影响向量，S_t代表历史语句中的一句语句，α_t代表该历史语句对应的权重值。

步骤(8)具体过程如下：

(8-1)将最终历史语义影响向量V_his与当前语句S_cur进行意图检测，计算方式如下：

V_cur＝BiLSTM(S_cur,W_his·V_his),o＝sigmoid(W_LU·V_cur),

其中，W_his是历史语义影响向量V_his对应的权重矩阵；V_cur是结合当前语句与历史向量，通过双向LSTM编码出的针对当前语句的上下文向量，W_LU为上下文向量V_cur对应的权重矩阵，BiLSTM代表双向LSTM模型；o是最终的意图分布；注意到这是一个多标签和多类别分类；最后使用sigmoid函数，用户最终的意图y将由o的值是否高于阈值θ而决定。

步骤(9)具体过程如下：

(9-1)将预测的意图与语句对应的真实意图进行对比，计算损失函数，迭代更新网络模型中的参数；损失函数公式如下：

其中y′表示模型预测的意图标签，y表示语句对应的真实意图标签，y^′y·(1-y′)^1-y表示使用交叉熵计算损失函数；利用Adam作为模型的优化器，采用梯度下降法对上述步骤中的网络模型参数进行优化调整。

步骤(10)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型，正确提取历史语义影响向量，结合历史语义影响向量对该语句做意图检测:

(10-1)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型，正确提取历史语义影响向量，结合历史语义影响向量对该语句做意图检测。输出语句对应的意图。

如图2所示，口语理解模型主要由3个模块组成，将当前语句分别输入基于词级别attention的卷积神经网络和树状LSTM网络，随后将上述网络模型得到的2个语句向量拼接，得到最终语句语义向量。将历史语句中的每一句也做相同的操作。随后历史语句的语义向量拼接上当前语句的语义向量，输入多层感知机训练，通过语义匹配度对历史语句做权重分配，得到对应的权重值a。将历史语句结合对应权重值输入对应角色双向LSTM得到角色语义影响向量，结合上述2个角色语义影响向量得到最终历史语义影响向量S_hist。将该向量结合当前语句词向量输入双向LSTM中进行意图检测。

所述的树状LSTM网络结构如图3所示：

传统LSTM模型中，某个时间节点的状态更新只依赖于前一个时间节点的状态，而树状LSTM模型基于语义依赖树建立。其某个节点的更新依赖于连接的多个孩子节点。树状LSTM第j个节点包含:记忆单元c_j,隐藏单元h_j,输入门i_j和输出门o_j。树状LSTM模型根据语法依赖树构建，每个单元依赖于其多个孩子节点。如图3所示，单元1的c₁值的更新依赖于他连接的孩子节点c₂和c₃。对于任意一个孩子节点k,单元j都有一个对应的遗忘阀门f_jk。对于任意一个树状LSTM单元j，c_jk和h_jk分别代表节点k的记忆单元和隐藏层状态。其更新公式如下：

其中，σ是sigmoid函数，b是偏置项，U表示孩子节点隐藏值的权重；l表示第k个孩子的节点的第l个孩子节点；W表示不同结构内的权重；

表示向量对应元素相乘。计算模型中的任意一单元，其孩子节点采用不同的参数矩阵。树状LSTM模型通过逐步训练将树根节点的隐含输出表示为h_t向量。

一种基于语义匹配的多轮对话口语理解方法。工艺实施方案的具体流程图如图4所示，从输入对话数据集到输出对应语句意图，迭代训练该模型。