CN111597342B

CN111597342B - 一种多任务意图分类方法、装置、设备及存储介质

Info

Publication number: CN111597342B
Application number: CN202010443530.9A
Authority: CN
Inventors: 李净
Original assignee: Beijing Huiwen Technology Group Co ltd
Current assignee: Beijing Huiwen Technology Group Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2024-01-26
Anticipated expiration: 2040-05-22
Also published as: CN111597342A

Abstract

本发明公开了一种多任务意图分类方法、装置、设备及存储介质，该方法包括：获取文本信息，将文本信息转换为词向量；将词向量转换为第一隐藏状态向量；利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果。该方法实现避免槽位标记，节省人工成本。

Description

一种多任务意图分类方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种多任务意图分类方法、装置、设备及存储介质。

背景技术

目前，智能机器人交互是实现城市智能化的一项重要工作。近年来，随着计算机集群计算能力的大幅度提升，人工智能算法研究和产业落地步入了发展快车道，而智能机器人交互作为人工智能重要分支——自然语言处理的一个重要应用，也逐渐成为学术界、工业界重点投入的研究热点和产品方向。无论在教育领域，金融领域，还是医疗领域都有着广泛的应用，通过使用智能机器人，可以提高效率，减少人力资源。智能机器人交互对社会经济效益和国家科技发展都具有重大意义。

命名实体识别在智能机器人交互系统中，需要从用户的提问中准确的识别出各种实体的类型才能更好地回答用户，例如：“我想订一张后天从杭州到三亚的机票？”“从三亚飞杭州的机票多少钱？”，分别需要准确地识别出“后天”，“三亚”和“杭州”才能准确回答用户的问题。对话系统需要接收纯文本形式的自然语言，必需经过实体识别将无结构化的数据转化为结构化数据，才能进行后续的意图识别等步骤。

意图识别也被称为SUC(Spoken Utterance Classification)，是将用户输入的自然语言会话进行划分，类别(classification)对应的就是用户意图。例如“今天天气如何”，其意图为“询问天气”。自然地，可以将意图识别看作一个典型的分类问题。意图的分类和定义可参考ISO-24617-2标准，其中共有56种详细的定义。面向任务的对话系统中的意图识别通常可以视为文本分类任务。同时，意图的定义与对话系统自身的定位和所具有的知识库有很大关系，即意图的定义具有非常强的领域相关性。意图分类是口语理解(SLU)系统中的重要任务。

现有技术中，开始联合处理意图分类(ID)和填槽(SF)任务一起完成多任务意图分类处理。但是，当前的联合模型需要大量手动标注的数据样本，手动标注数据需要很多成本，尤其是槽位标记。因此，如何避免槽位标记，节省人工成本是亟待解决的问题。

发明内容

本发明的目的是提供一种多任务意图分类方法、装置、设备及存储介质，以实现避免槽位标记，节省人工成本。

为解决上述技术问题，本发明提供一种多任务意图分类方法，包括：

获取文本信息，将文本信息转换为词向量；

将词向量转换为第一隐藏状态向量；

利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果。

优选的，所述将文本信息转换为词向量，包括：

从文本信息中提取词信息；

将词信息进行向量转换，生成词向量。

优选的，所述将词向量转换为第一隐藏状态向量，包括：

将词向量输入至第一双向LSTM神经网络，输出得到第一隐藏状态向量。

优选的，所述利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果，包括：

将第一隐藏状态向量输入至意图分类任务，执行意图分类任务得到意图分类结果；

将第一隐藏状态向量输入至命名实体识别任务，执行命名实体识别任务得到实体识别结果。

优选的，所述将第一隐藏状态向量输入至意图分类任务，执行意图分类任务得到意图分类结果，包括：

将第一隐藏状态向量输入至第二双向LSTM神经网络，输出得到对话意图；

将对话意图输入至softmax分类层，输出得到意图分类结果。

优选的，所述第一隐藏状态向量输入至命名实体识别任务，执行命名实体识别任务得到实体识别结果，包括：

将第一隐藏状态向量输入至单向LSTM神经网络，输出得到第二隐藏状态向量；

将第二隐藏状态向量输入至条件随机场CRF，输出得到实体识别结果。

优选的，所述将词向量转换为第一隐藏状态向量之后，还包括：

对第一隐藏状态向量进行正则化，得到正则化结果。

本发明还提供一种多任务意图分类装置，包括：

第一转换模块，用于获取文本信息，将文本信息转换为词向量；

第二转换模块，用于将词向量转换为第一隐藏状态向量；

执行模块，用于利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果。

本发明还提供一种多任务意图分类设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述的多任务意图分类方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的多任务意图分类方法的步骤。

本发明所提供的一种多任务意图分类方法、装置、设备及存储介质，获取文本信息，将文本信息转换为词向量；将词向量转换为第一隐藏状态向量；利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果。可见，不再是联合意图分类任务和填槽任务，而是利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，即使用命名实体识别任务替换联合模型中的填槽任务，联合意图分类任务和命名实体识别任务实现多任务意图分类，避免槽位标记，节省人工成。并且，由于意图分类任务和命名实体识别任务共同使用了底层的共享特征，提升了意图分类任务的意图分类结果准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种多任务意图分类方法的流程图；

图2为多任务意图分类模型示意图；

图3为意图分类单任务模型示意图；

图4为本发明所提供的一种多任务意图分类装置结构示意图；

图5为本发明所提供的一种多任务意图分类设备结构示意图。

具体实施方式

本发明的核心是提供一种多任务意图分类方法、装置、设备及存储介质，以实现避免槽位标记，节省人工成本。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种多任务意图分类方法的流程，该方法包括以下步骤：

S11：获取文本信息，将文本信息转换为词向量；

S12：将词向量转换为第一隐藏状态向量；

S13：利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果。

可见，本方法不再是联合意图分类任务和填槽任务，而是利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，即使用命名实体识别任务替换联合模型中的填槽任务，联合意图分类任务和命名实体识别任务实现多任务意图分类，避免槽位标记，节省人工成。并且，由于意图分类任务和命名实体识别任务共同使用了底层的共享特征，提升了意图分类任务的意图分类结果准确性。

基于上述方法，进一步的，步骤S11中，将文本信息转换为词向量的过程包括以下步骤：

S21：从文本信息中提取词信息；

S22：将词信息进行向量转换，生成词向量。

其中，将每一个输入的词或字符映射到分布式表示空间，它是低维稠密的向量表示空间，能够捕捉单词的语义和句法特性。早期研究工作使用One-Hot(“独热”)方法来编码文本信息，为了缓解维度灾难和数据稀疏的问题，本发明中基于深度学习方法采用稠密、连续、低维度的文本向量来代替One-Hot编码，采用基于矩阵分布式表示的Word2vec模型，使用某种度量下向量之间的空间距离来表示其语义相似度。

进一步的，步骤S12具体包括：将词向量输入至第一双向LSTM神经网络，输出得到第一隐藏状态向量。LSTM(Long Short-Term Memory)是长短期记忆网络，双向LSTM即为双向长短期记忆网络，简称为BI-LSTM。

LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络。双向RNN由两个普通的RNN所组成，一个正向的RNN，利用过去的信息，一个逆序的RNN，利用未来的信息，这样在时刻t，既能够使用t-1时刻的信息，又能够利用到t+1时刻的信息。一般来说，由于双向LSTM能够同时利用过去时刻和未来时刻的信息，会比单向LSTM最终的预测更加准确。

图2为多任务意图分类模型示意图，多任务意图分类模型是意图分类和命名实体识别的联合模型的结构。双向LSTM层2和softmax层用于意图分类，单向LSTM层和CRF层用于命名实体识别。双向LSTM层1和词嵌入层被两个任务共享。由于意图分类任务和命名实体识别任务共同使用了底层的共享特征，即共同使用了双向LSTM层1和词嵌入层，提升了意图分类任务的意图分类结果准确性。

其中，输入是一组句子S＝(s1,s2,…,s_m)，m是句子数，每个句子s包含n个单词s＝(x1,x2,…,x_n)。在图2中，绘制了四个单词。通过单词嵌入层将单词转换为向量。通过GloVe预训练的单词向量初始化嵌入层。然后，这些矢量将送入BiLSTM层即图2中的双向LSTM层1，LSTM在时间步骤t的隐藏状态h_t的计算公式如下：

f_t＝σ(W_f[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t,x_t-1]+b_i)

C_t＝tanh(W_c[h_t,x_t-1]+b_c)

C_t＝f_t*C_t-1+i_t*C_t

o_t＝σ(W_o[h_t,x_t-1]+b_o)

h_t＝o_t*tanh(C_t)

式中x_t是t时间步的输入，h_t-1是上次t-1时间步的隐藏状态，是t时间步的细胞状态，C_t是t时间步的候选向量，W是变换矩阵，b是偏置，*表示两个向量的点乘。σ是sigmod函数。

双向LSTM层1中前向和后向都采用单词序列s＝(x1,x2,…,xn)作为输入。然后，双向LSTM层1在时间步t生成隐藏状态和/>双向LSTM在时间步ht的最终隐藏状态定义为：

因此，双向LSTM层1生成隐藏状态序列(h₁,h₂…,h_n)。

进一步的，步骤S13包括以下步骤：

S31：将第一隐藏状态向量输入至意图分类任务，执行意图分类任务得到意图分类结果；

S32：将第一隐藏状态向量输入至命名实体识别任务，执行命名实体识别任务得到实体识别结果。

详细的，步骤S31包括以下步骤：

S41：将第一隐藏状态向量输入至第二双向LSTM神经网络，输出得到对话意图；

其中，第二双向LSTM神经网络包括前向LSTM神经网络和后向LSTM神经网络，将第一隐藏状态向量输入到前向LSTM神经网络，前向LSTM神经网络的最后一个时间步的隐藏状态向量和后向LSTM神经网络的第一个时间步的隐藏状态向量拼接在一起，得到对话意图；

S42：将对话意图输入至softmax分类层，输出得到意图分类结果。

基于步骤S41和步骤S42，详细的，对于意图分类任务，BiLSTM层1生成的这些隐藏状态被送到BiLSTM层2，将BiLSTM层2中的前向LSTM的最后一个时间步的隐状态与后向LSTM的第一个时间步的隐状态拼接在一起，以获得对话意图表示h_intent，然后将其输入softmax分类层进行分类：

y_intent＝softmax(W_ih_intent+b_i)

式子中，是BiLSTM层2的前向LSTM的最后一步，/>是BiLSTM层2的后向LSTM的第一步。W_i，b_i是softmax分类层的权重矩阵偏置，y_inten是话语的预测意图标签。

详细的，步骤S32包括以下步骤：

S51：将第一隐藏状态向量输入至单向LSTM神经网络，输出得到第二隐藏状态向量；

S52：将第二隐藏状态向量输入至条件随机场CRF，输出得到实体识别结果。

对于命名实体识别或填槽任务，BiLSTM层1生成的隐藏状态被馈送到LSTM层。在每个时间步t，LSTM层生成隐藏状态y_t，然后形成隐藏状态(y1,y2,…,yn)的序列。将这些隐藏状态提供给CRF层，并生成一系列命名实体或槽标签：

NE₁ ^/ST₁,NE₂ ^/ST₂,…,NE_n ^/ST_n＝CRF(y₁,y₂,…,y_n)

式中，NE₁ ^/ST₁，NE₂ ^/ST₂，…，NE_n ^/ST_n是生成的命名实体或槽位的标签，CRF代表的CRF层，(y₁,y₂,…,y_n)代表的是LSTM层生成的隐状态序列。在LSTM层之后，添加了一个用于正则化的dropout层。

图3为意图分类单任务模型示意图，如图3所示，意图分类单任务模型的神经网络与图2中联合模型的意图分类神经网络相同，这确保了联合模型和单任务模型具有相同的能力来提取意图分类任务上的特征。如果联合模型在意图分类任务上可以实现比单任务模型更好的性能，那完全是由辅助任务获得的。

条件随机场(conditional random field，简称CRF)是一个以观察序列为条件的全局随机场。CRF在基于特征的监督学习方法中得到了广泛的应用。在许多的深度学习模型中，将CRF作为模型的标签解码器，比如：应用到双向LSTM的顶层和CNN网络的顶层。

基于上述方法，进一步的，步骤S12之后，对第一隐藏状态向量进行正则化，得到正则化结果。在词嵌入层和BiLSTM层1之后，我们添加了dropout层和批正则化层来进行正则化。

本发明中，使用工业强度自然语言处理工具spaCy生成基准数据集的命名实体标签，然后使用命名实体识别(NER)替换联合模型中的SF任务。使用NER来替换SF任务是因为NER标签比许多不同域和意图中的槽标签更通用。相同的NER标签标准可用于许多不同的域和意图。本发明的主要目的是利用深度学习技术解决智能机器人交互中意图分类问题，提出命名实体识别(NER)和意图分类(ID)联合任务模型。本发明的主要内容是提出利用命名实体识别技术来提升意图分类任务的准确率，使用命名实体识别(NER)替换联合模型中的SF任务，探究命名实体识别任务(NER)对意图分类(ID)任务有效性。

请参考图4，图4为本发明所提供的一种多任务意图分类装置结构示意图，该装置用于实现上述方法，包括：

第一转换模块101，用于获取文本信息，将文本信息转换为词向量；

第二转换模块102，用于将词向量转换为第一隐藏状态向量；

执行模块103，用于利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果。

可见，该装置中，不再是联合意图分类任务和填槽任务，而是利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，即使用命名实体识别任务替换联合模型中的填槽任务，联合意图分类任务和命名实体识别任务实现多任务意图分类，避免槽位标记，节省人工成。并且，由于意图分类任务和命名实体识别任务共同使用了底层的共享特征，提升了意图分类任务的意图分类结果准确性。

对于本发明提供的多任务意图分类装置的介绍请参照前述的多任务意图分类方法的实施例，本发明实施例在此不再赘述。

请参考图5，图5为本发明所提供的一种多任务意图分类设备结构示意图，该设备包括：

存储器201，用于存储计算机程序；

处理器202，用于执行所述计算机程序时实现如前述实施例中的多任务意图分类方法的步骤。

对于本发明提供的多任务意图分类设备的介绍请参照前述的多任务意图分类方法的实施例，本发明实施例在此不再赘述。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例中的多任务意图分类方法的步骤。

对于本发明提供的计算机可读存储介质的介绍请参照前述的方法的多任务意图分类实施例，本发明实施例在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种多任务意图分类方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种多任务意图分类方法，其特征在于，包括：

获取文本信息，将文本信息转换为词向量；

将词向量转换为第一隐藏状态向量；

利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果；

其中，所述利用第一隐藏状态向量分别执行意图分类任务和命名实体识别任务，得到意图分类结果和实体识别结果，包括：

将第一隐藏状态向量输入至命名实体识别任务，执行命名实体识别任务得到实体识别结果；

其中，所述将第一隐藏状态向量输入至意图分类任务，执行意图分类任务得到意图分类结果，包括：

将对话意图输入至softmax分类层，输出得到意图分类结果；

对于意图分类任务，BiLSTM层1生成的这些隐藏状态被送到BiLSTM层2，将BiLSTM层2中的前向LSTM的最后一个时间步的隐状态与后向LSTM的第一个时间步的隐状态拼接在一起，以获得对话意图表示h_intent，然后将其输入softmax分类层进行分类：

y_intentt＝softmax(W_ih_intent+b_i)

式子中，是BiLSTM层2的前向LSTM的最后一步，/>是BiLSTM层2的后向LSTM的第一步；W_i，b_i是softmax分类层的权重矩阵偏置，y_intent是话语的预测意图标签；

其中，所述第一隐藏状态向量输入至命名实体识别任务，执行命名实体识别任务得到实体识别结果，包括：

将第二隐藏状态向量输入至条件随机场CRF，输出得到实体识别结果；

对于命名实体识别，BiLSTM层1生成的隐藏状态被馈送到LSTM层；在每个时间步t，LSTM层生成隐藏状态yt，然后形成隐藏状态(y1,y2,…,yn)的序列；将这些隐藏状态提供给CRF层，并生成一系列命名实体或槽标签：

NE₁/ST₁,NE₂/ST₂,…,NE_n/ST_n＝CRF(y₁,y₂,…,y_n)

式中，NE₁/ST₁，NE₂/ST₂，…，NE_n/ST_n是生成的命名实体或槽位的标签，CRF代表的CRF层，(y₁,y₂,…,y_n)代表的是LSTM层生成的隐状态序列；在LSTM层之后，添加了一个用于正则化的dropout层。

2.如权利要求1所述的方法，其特征在于，所述将文本信息转换为词向量，包括：

从文本信息中提取词信息；

将词信息进行向量转换，生成词向量。

3.如权利要求1所述的方法，其特征在于，所述将词向量转换为第一隐藏状态向量，包括：

4.如权利要求1所述的方法，其特征在于，所述将词向量转换为第一隐藏状态向量之后，还包括：

对第一隐藏状态向量进行正则化，得到正则化结果。

5.一种多任务意图分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的多任务意图分类方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的多任务意图分类方法的步骤。