CN112183061A

CN112183061A - 一种多意图口语理解方法、电子设备和存储介质

Info

Publication number: CN112183061A
Application number: CN202011045777.1A
Authority: CN
Inventors: 刘广灿
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-05
Anticipated expiration: 2040-09-28
Also published as: CN112183061B

Abstract

本发明公开了一种多意图口语理解方法、电子设备和存储介质，本发明对多意图信息进行细化拆分，进行层级化解码，来预测每个意图对应的槽位标签；并且使用注意力机制建模各层解码输出之间的关系，即根据前一层解码序列的全局信息指导当前层解码，一定程度上也缓解了解码t时刻不具备t+1等未来信息的情况。

Description

一种多意图口语理解方法、电子设备和存储介质

技术领域

本发明涉及人机对话系统技术领域，具体涉及一种多意图口语理解方法、电子设备和存储介质。

背景技术

口语理解主要包括两个子任务：意图识别(Intent Detection)和槽位填充(SlotFilling)。意图识别和槽位填充两个任务不是相互独立的，槽位填充高度依赖于意图识别的结果，同时槽位填充也可以促进意图的识别。现有技术将两个任务联合建模来充分利用两个任务共有的知识信息，通常采用多任务(Multi-task)框架，两个子任务共享编码层，然后将两部分的损失函数相加来建模。

现有的使用多任务框架，采用共享编码层、损失函数相加是一种隐式联合建模的方法，该方法没有显式地建模意图识别和槽位填充两个子任务之间的相互作用关系；虽然目前也有研究关注如何有效利用多意图信息来引导槽位预测，但是很多方法只是把意图的上下文向量当做多意图信息，简单粗略的模拟意图和槽之间的关系，而这是远远不足够的，所以本发明提出层级解码的方式来解决该问题。

发明内容

为了解决上述问题，本发明对多意图信息进行细化拆分，进行层级化解码，来预测每个意图对应的槽位标签；并且使用注意力机制建模各层解码输出之间的关系，即根据前一层解码序列的全局信息指导当前层解码，一定程度上也缓解了解码t时刻不具备t+1等未来信息的情况。

根据本发明实施例的一个方面，提供一种多意图口语理解方法，包括，

S100基于输入序列得到预训练语言模型BERT的语义向量序列，以所述输入序列的第一个标记为分类标记；

S200根据所述分类标记得到对应的最终隐藏状态，基于所述最终隐藏状态使用全连接神经网络和sigmoid函数进行多意图预测，得到多意图信息；

S300根据所述多意图信息进行层级解码预测槽位标签；

S400将各层级解码对应的负对数似然损失加和作为整体损失函数，进而训练模型，优化模型参数；

S500在预测阶段使用阈值确定多意图识别结果，根据各层级解码序列的最后一层的解码输出槽填充结果，使用贪婪搜索进行采样得到槽位预测结果。

优选地，所述层级解码使用

表示第i层解码得到的槽位标签序列，其中，T表示解码序列的长度；第i层解码器对应的隐藏状态为

优选地，所述解码器为单向LSTM，表示为f_i，且每一层的所述解码器参数不共享。

优选地，所述第i层解码实施为基于所述第i层的某一步意图标签嵌入向量和所述某一步的上一步解码得到的槽位标签嵌入向量得到所述某一步的解码器对应的隐藏状态，并基于所述某一步的解码器对应的隐藏状态解码得到的所述某一步的槽位标签，以将标签映射到高维嵌入空间显式地对分类类别进行了区分和语义表示。

优选地，S310第一层解码的方法为：

其中

表示第一层第t步解码得到的槽位标签，

表示意图标签I₁的嵌入向量，

是槽标签

的嵌入向量表示，W_y是可训练的参数，使用所述意图标签I₁的嵌入信息来指导每个时刻的解码预测。

优选地，S321第i层解码的方法包括：

其中

表示针对第i-1层的解码结果使用注意力机制得到的上下文向量，所述上下文向量是前一层解码向量序列的权重加和，2≤i≤n。

优选地，所述上下文向量构成为：

其中，W_a，U_a，

都是可训练参数。

优选地，S322所述第i层解码的方法还包括：

基于所述隐藏状态

预测所述第i层第t时刻的槽位标签为

优选地，在所述预测阶段，使用阈值v_t来预测多意图标签I＝(I₁,I₂,...,I_n)，其中，I_i表示

其中0＜v_th＜1，所述阈值v_t为一个需要使用验证集调试的参数。

根据本发明实施例的另一个方面，提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现前述方法。

根据本发明实施例的又一个方面，提供一种非临时性计算机可读存储介质，其上存储有可执行指令，所述可执行指令在处理器上运行时，实现前述方法。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明提出的层级解码多意图口语理解框架示意图(以两个意图为例)。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的层级解码的多意图口语理解的模型如图1所示，模型使用预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)作为编码器，根据BERT输出的语义信息进行多意图识别和槽位预测。本发明对多意图信息进行细化拆分，进行层级化解码，来预测每个意图对应的槽位标签；并且使用注意力机制建模各层解码输出之间的关系，即根据前一层解码序列的全局信息指导当前层解码，一定程度上也缓解了解码t时刻不具备t+1等未来信息的情况。

具体方法流程如下：

第1步，得到预训练语言模型BERT的语义向量序列编码表示：

BERT模型结构是一个基于多层双向的Transformer编码器，它的输入包括词嵌入、句子嵌入和位置嵌入三部分。输入序列的第一个标记始终是特殊分类标记[CLS]，该特殊标记对应的最终隐藏状态被用于分类任务；并且使用特殊标记[SEP]作为序列的最后一个标记。本发明输入表示为x＝([cls],x₁,x₂,x₃,x₄,...,x_n)，BERT得到的语义向量序列编码表示为e＝(e_[cls],e₁,e₂,e₃,e₄,...,e_n)。

第2步，进行多意图识别：

根据BERT特殊符号[CLS]对应的最终隐藏状态，使用全连接神经网络(FCN,FullConnected Network)和sigmoid函数进行多意图预测，最终得到多意图信息y_[cls]＝sigmoid(FCN(e_[cls]))，

ni表示全部意图的个数。

其中，全连接神经网络FCN解析：对n-1层和n层而言，n-1层的任意一个节点，都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候，激活函数的输入是n-1层所有节点的加权，从而获得全连接层的权重矩阵。

第3步，根据多意图信息进行层级解码预测槽位标签：

本发明使用

表示第i层解码得到的槽位标签序列，T表示解码序列的长度；第i层解码器对应的隐藏状态为

每一层都使用单向LSTM作为解码器，表示为f_i，每一层的解码器不使用参数共享。

第3.1步，第一层解码的计算过程：

以第t步的解码为例，

其中

表示第一层第t步解码得到的槽位标签，

表示意图标签I₁的嵌入向量，

是槽标签

的嵌入向量表示。

使用这两种嵌入向量的好处：分类模型的标签设定如{0:播放音乐，1：添加到播放列表}，将标签映射到高维嵌入空间一定程度上显式地对分类类别进行了区分和语义表示。此外W_y是可训练的参数，这里使用意图I₁的嵌入信息来指导每个时刻的解码预测。

第3.2步，第i层解码的计算过程：

同样以第t步的解码为例，2≤i≤n，

其中

表示针对第i-1层的解码结果使用注意力机制得到的上下文向量，

这里得到的上下文向量是前一层解码向量序列的权重加和，这里W_a，U_a，

都是可训练参数；最后预测第i层第t时刻的槽位标签

第4步，层级解码的损失函数计算：

将各层级解码对应的负对数似然损失加和作为整体损失函数，进而训练模型，优化模型参数，即L(y)＝-log(y)。在解码器训练过程中使用计划采样(SS，ScheduleSampling)机制来解决训练和预测的信息存在偏差的问题。在计划采样中，即采样率P在训练的过程中是变化的。一开始训练不充分，采样率P减小，尽量使用真实的标签作为输入，随着训练的进行，将采样率P增大，多采用自身的输出作为下一个预测的输入。随着训练的进行，采样率P越来越大，训练模型最终和预测模型一样，消除了训练和预测的信息之间的偏差。

第5步，预测阶段意图识别和槽位填充的结果获取：

多意图识别结果使用阈值来确定，在预测阶段，需要使用阈值v_t来预测多意图标签I＝(I₁,I₂,...,I_n)，I_i表示

其中0＜v_th＜1，并且阈值v_t是一个需要使用验证集调试的参数。槽填充根据最后一层的解码输出，使用贪婪搜索进行采样得到槽位预测结果，如Dijkstra算法、Prim算法、Kruskal算法等，进行求解时，每次都要保证是最优解，使每次取的覆盖范围最大，以在每一步选择中都采取最好或者最优(即最有利)的选择，从而希望能够导致结果是最好或者最优。

本发明针对现实生活中多意图口语理解提出层级解码的框架，通过多层级解码层层递进的学习方式，降低了一次性解码预测的学习难度；并且对多意图信息进行精细化拆分，每一层级解码使用合适的意图信息进行指导，避免了之前使用多意图上下文向量带来的信息不准确的问题。因此本发明提出的方法可以解决当前问题，进一步提升多意图口语理解系统的性能。

本发明实施例提供的基于交替解码的口语理解方法可以软件功能模块的形式实现并作为独立的产品销售或使用，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。