CN110532355B

CN110532355B - 一种基于多任务学习的意图与槽位联合识别方法

Info

Publication number: CN110532355B
Application number: CN201910795820.7A
Authority: CN
Inventors: 何霆; 吴雅婷; 王华珍
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-07-01
Anticipated expiration: 2039-08-27
Also published as: CN110532355A

Abstract

本发明涉及一种基于多任务学习的意图与槽位联合识别方法，对用户的话语/查询等输入文本进行处理，输出意图标签和槽位标签；方法包括；将用户输入文本序列顺序通过长短期记忆网络和卷积神经网络的处理，形成一个LSTM‑CNN共享表示特征；根据意图标签信息和槽位标签信息的区别，基于共享表示特征分别建立带注意力机制的Bi‑LSTM意图识别模型/槽位识别模型；利用基于梯度下降法的加权计算方法构建上述意图识别模型和槽位识别模型的总损失函数，并对其进行联合优化求解。本发明将多任务学习思想运用到垂直对话系统构建过程中，能够实现输入文本意图和槽位的联合识别，有效提升垂直对话系统输入文本意图和槽位识别的准确率和F值。

Description

一种基于多任务学习的意图与槽位联合识别方法

技术领域

本发明属于人机交互领域，涉及自然语言处理、垂直对话系统等，特别涉及一种基于多任务学习的意图与槽位联合识别方法。

背景技术

意图识别和槽位识别可以将垂直对话系统中用户输入文本转化为语义表示，为系统采取下一步行动提供支撑，是垂直对话系统自然语言理解模块的关键步骤。意图识别任务侧重于预测输入文本的意图，槽位识别以提取语义概念作为自然语言的约束为主要目的，即为给定输入文本中每个单词分配适当的语义标签。在目前的研究中，意图识别和槽位识别通常采用“流水线”方式独立进行，近期部分研究采取了意图和槽位联合识别的方式，但这些模型没有充分考虑意图和槽位之间的强相关性，这会导致在人机对话过程中，随着对话的进行，用户意图可能会不断发生偏移，槽值也存在不断改变的可能，所以用户意图和槽值有必要在其识别过程中进行持续的匹配验证。基于此，本专利采用多任务学习共享多个任务之间的参数和特征，以实现意图识别模型和槽位识别模型的联合优化。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多任务学习的意图与槽位联合识别方法，建立意图和槽位联合识别模型，提高意图和槽位识别的准确率和F值，并将其应用于垂直对话系统，从而提高垂直对话系统自然语言理解模块的性能。

为了实现上述目的，本发明的技术方案是：

一种基于多任务学习的意图与槽位联合识别方法，包括：

S1，共享表示特征的构建；通过LSTM-CNN获取具有文本时序和结构信息的共享表示特征；

S2，意图识别模型和槽位识别模型的设计；在共享表示特征的基础上采用Bi-LSTM模型，分别针对意图标签信息和槽位标签信息构建带注意力机制的Bi-LSTM意图识别模型和槽位识别模型；

S3，意图识别模型和槽位识别模型的联合优化；将意图识别模型和槽位识别模型的损失函数进行加权，获得总损失函数，并对其进行联合优化求解。

优选的，所述S1包括：

S1.1，将用户输入文本转化为one-hot向量V₁；

S1.2，将所述向量V₁输入到LSTM中进行处理，输出具有文本时序信息的向量V₂；

S1.3，将所述向量V₂输入到CNN中进行处理，输出具有文本时序和结构信息的共享表示特征h^(shared)，该特征将作为意图识别和槽位识别的共同特征。

优选的，所述S2包括：

S2.1，将所述共享表示特征h^(shared)作为输入,以意图标签构建训练数据集Data_intent，以槽位标签构建训练数据集Data_slot；

S2.2，采用带注意力机制的Bi-LSTM模型作为意图识别训练模型和槽位识别训练模型。

优选的，所述意图识别模型的建立具体包括以下内容：

将共享表示特征h^(shared)输入到带注意力机制的Bi-LSTM意图识别训练模型进行迭代优化，得到最终预测输出为y^intent。

优选的，所述槽位识别模型的建立具体包括以下内容：

将共享表示特征h^(shared)输入到带注意力机制的Bi-LSTM槽位识别训练模型进行迭代优化，得到最终预测输出为o^slot。

优选的，所述S3具体包括：

S3.1，将意图识别损失函数Loss_intent定义为预测输出y^intnet与真实意图的交叉熵；

S3.2，将槽位识别损失函数Loss_slot定义为预测输出o^slot与真实槽位序列的平均交叉熵；

S3.3，将总损失函数定义为意图识别损失函数和槽位识别损失函数的加权和，如下：

其中：Loss为意图和槽位联合识别模型的总损失，α、β分别为预设的意图识别任务与槽位识别任务的权重系数；α通过基于梯度下降法的权重自学习方法确定，计算步骤如下：

S3.3.1，对α进行梯度计算，如下：

其中，b为偏置值，f(z)为模型输出值，t为样本真实值，(f(z)-t)为输出值与样本真实值t之间的误差；

S3.3.2，对α值进行迭代计算，如下：

d表示为梯度步长的学习率；

S3.3.3，当Loss的单调性不能保持时，停止迭代，得到α值；

S3.4，利用Adam方法对公式(1)进行优化求解，最后得到输入文本最终的意图标签和槽位标签序列。

采用上述方案后，本发明的有益效果是：

本发明一种基于多任务学习的意图与槽位联合识别方法，利用多任务学习的优势建立意图和槽位联合识别模型，分别提高意图和槽位识别的准确率和F值，并将其应用于垂直对话系统，从而提高垂直对话系统自然语言理解模块的性能。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种基于多任务学习的意图与槽位联合识别方法不局限于实施例。

附图说明

图1是基于多任务学习的意图和槽位联合识别模型的结构示意图；

图2是基于多任务学习的意图和槽位联合识别模型的流程图。

具体实施方式

以下将结合本发明附图，对本发明实施例中的技术方案进行详细描述和讨论。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参见图1和图2所示，本发明一种基于多任务学习的意图与槽位联合识别方法，包括：共享表示特征的构建；意图识别模型和槽位识别模型的设计；意图识别模型和槽位识别模型的联合优化。

本发明用于同时识别垂直对话系统的输入文本的意图和槽位。其中的槽位识别指的是对给定输入文本中每个单词分配适当的语义标签，其表示形式为“槽值对”形式，其中：“槽”表示语义属性的名称，“值”表示该语义属性的值。

所述的多任务学习指的是共享多个任务之间的参数和特征，以实现意图识别模型和槽位识别模型的联合优化。

本实施例中，以ATIS(Airline Travel Information System)公共测试数据集为例，ATIS数据集由航班预订人员的录音组成。其中，训练集包含4478个问句，测试集包含来自893个问句。该数据集总共有122个不同的槽值标签和23种不同的意图类型。表1为该数据集的一个实例“what are the flights from tacoma to san jose on wednesday thenineteenth”，表1显示了该实例对应的意图和槽位。

表1 ATIS数据集实例

本发明具体步骤如下：

S1：共享表示特征的构建，即通过LSTM-CNN(长短期记忆网络LSTM和卷积神经网络CNN)获取具有文本时序和结构信息的共享表示特征，具体包括以下内容：

S1.1：将“what are the flights from tacoma to san jose on wednesday thenineteenth”转化为one-hot向量V₁；

S1.2：将S1.1得到的向量V₁输入到LSTM中进行处理，输出具有文本时序信息的向量V₂；

S1.3：将向量V₂输入到CNN中进行处理，输出具有文本时序和结构信息的共享表示特征h^(shared)，该特征将作为意图识别和槽位识别的共同特征。

S2：意图识别模型和槽位识别模型的设计，即在共享表示特征的基础上采用Bi-LSTM模型，分别针对意图标签信息和槽位标签信息构建带注意力机制的Bi-LSTM意图识别/槽位识别模型，具体包括以下内容：

S2.1：将基于S1得到的共享表示特征h^(shared)作为输入,分别以意图标签和槽位标签构建两个训练数据集Data_intent和Data_slot。

S2.2：采用带注意力机制的Bi-LSTM模型作为意图识别和槽位识别的训练模型。

S2.2.1：将共享表示特征h^(shared)输入到带注意力机制的Bi-LSTM意图识别训练模型进行迭代优化，得到最终预测输出为y^intent。在本例中，输出中间结果为23维向量，并进行格式转换。

S2.2.2：将共享表示特征h^(shared)输入到带注意力机制的Bi-LSTM槽位识别训练模型进行迭代优化，得到最终预测输出为o^slot。在本例中，输出中间结果为122维向量，并进行格式转换。

S3：意图识别模型和槽位识别模型的联合优化，即将意图识别模型和槽位识别模型的损失函数进行加权，获得总损失函数并进行优化求解，具体包括以下内容：

S3.1：将意图识别损失函数Loss_intent定义为，基于S2.2.1得到的预测输出y^intnet与真实意图的交叉熵；

S3.2：将槽位识别损失函数Loss_slot定义为，基于S2.2.2得到的预测输出o^slot与真实槽位序列的平均交叉熵；

S3.3：将总损失函数定义为意图识别损失函数和槽位识别损失函数的加权和，即公式1：

其中：Loss为意图和槽位联合识别模型的总损失，α、β分别为预设的意图识别任务与槽位识别任务的权重系数。α通过基于梯度下降法的权重自学习方法确定，计算步骤如下：

S3.3.1：对α进行梯度计算，如公式2:

其中，b为偏置值，f(z)为模型输出值，t为样本真实值，(f(z)-t)为输出值与样本真实值之间的误差。

S3.3.2：利用公式3对α值进行迭代计算:

其中，d表示为梯度步长的学习率。

S3.3.3：当Loss的单调性不能保持时，停止迭代，得到α值。

S3.4：利用Adam方法对公式(1)进行优化求解，输出最终识别结果。

最后得到输入文本最终的意图标签atis_flight和槽位标签序列“O O O O O

B-fromloc.city_name O B-toloc.city_name I-toloc.city_name O B-depart_date.day_name O B-depart_date.day_num”。

本发明在ATIS数据集上得到的意图识别的准确率为97.40％、槽位识别的F值为96.16％，较现有的BLSTM-CNN-CRF联合识别模型分别提高1.50％和0.92％。

以上仅为本发明实例中一个较佳的实施方案。但是，本发明并不限于上述实施方案，凡按本发明所做的任何均等变化和修饰，所产生的功能作用未超出本方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于多任务学习的意图与槽位联合识别方法，其特征在于，包括：

S1，共享表示特征的构建：通过LSTM-CNN获取具有文本时序和结构信息的共享表示特征h^(shared)；

S2，意图识别模型和槽位识别模型的设计：在共享表示特征的基础上采用Bi-LSTM模型，分别针对意图标签信息和槽位标签信息构建带注意力机制的Bi-LSTM意图识别模型和槽位识别模型；

S3，意图识别模型和槽位识别模型的联合优化：将意图识别模型和槽位识别模型的损失函数进行加权，获得总损失函数，并对其进行联合优化求解；

所述S1包括：

S1.1，将用户输入文本转化为one-hot向量V₁；

S1.3，将所述向量V₂输入到CNN中进行处理，输出具有文本时序和结构信息的共享表示特征h^(shared)，该特征将作为意图识别和槽位识别的共同特征；

所述S2包括：

S2.2，采用带注意力机制的Bi-LSTM模型作为意图识别训练模型和槽位识别训练模型；

所述意图识别模型的建立具体包括以下内容：

将共享表示特征h^(shared)输入到带注意力机制的Bi-LSTM意图识别训练模型进行迭代优化，得到最终预测输出为y^intent；

所述槽位识别模型的建立具体包括以下内容：

将共享表示特征h^(shared)输入到带注意力机制的Bi-LSTM槽位识别训练模型进行迭代优化，得到最终预测输出为o^slot；

所述S3具体包括：

S3.3.1，对α进行梯度计算，如下：

S3.3.2，对α值进行迭代计算，如下：

d表示为梯度步长的学习率；

S3.3.3，当Loss的单调性不能保持时，停止迭代，得到α值；