CN113326360A

CN113326360A - 一种小样本场景下的自然语言理解方法

Info

Publication number: CN113326360A
Application number: CN202110447496.7A
Authority: CN
Inventors: 赵铁军; 朱聪慧; 郑德权; 衣景龙; 曹海龙; 徐冰; 杨沐昀
Original assignee: Harbin Institute of Technology
Current assignee: Changchun Zhongke Xincai Intellectual Property Operation Co ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-31
Anticipated expiration: 2041-04-25
Also published as: CN113326360B

Abstract

本发明提出一种小样本场景下的自然语言理解方法，所示方法提出预训练模型语言语义表示、意图识别和槽位识别、引入标签语义，使用线性空间映射方法拉远语义表示距离、建立门控网络并融合槽信息和意图信息以及运用抽象标签转移概率来达到在不同领域中也能快速学习理解的目的；本发明的方法能够在小样本的场景下更好的判断出问题的意图，并识别出问题的槽位，从而良好的解决任务型对话系统的自然语言理解任务下数据不足、数据标注成本和模型迁移代价过高的问题。

Description

一种小样本场景下的自然语言理解方法

技术领域

本发明属于自然语言理解领域，具体地，涉及一种小样本场景下的自然语言理解方法。

背景技术

人机对话系统是将机器视为一个认知主体的人机双向信息交互系统，是实现人机交互的一种方式；这项技术可以使得人机交互同人与人之间的交流一样方便。近年来，越来越多的对话系统涌现出来，根据其具体应用，这些对话系统可以大致分为两类：一类是面向任务的对话系统，如阿里小蜜、小米的小爱助手等；另一类是非任务导向型的闲聊机器人，如微软小冰等。在面向任务的对话系统中，用户带着明确的目的，希望得到满足特点限制条件的信息或服务，如订票、订餐、寻找商品等。

目前国内外对于任务型多轮对话系统的研究，主要包括将其管道化(分为自然语言理解、对话管理、自然语言生成三个模块)以及使用基于端到端的神经网络模型构建任务型对话系统，判断文具的意图及槽位值；对话管理确定当前的对话状态，并决定下一步的回复策略；自然语言生成根据得到的回复策略选择相应的模板进行回复。

对于对话系统，深度学习技术可以利用大量的数据来学习自然语言理解中的意图识别和槽的映射，然而目前的深度学习方法都需要大量的标注训练数据，而在真实的落地场景下，大量人工标注数据往往是很难获得的。

发明内容

针对上述问题，本发明提出了一种小样本场景下的自然语言理解方法，对小样本场景下的对话系统中意图识别和槽填充问题，利用已有经验知识，在面临一个全新的领域时候，可以在只给出极少的样例时，依然能成功的判断出问句的意图和槽信息。

本发明是通过以下方案实现的：

一种小样本场景下的自然语言理解方法，所述方法包括以下步骤：

步骤一：引入预训练语言模型进行文本的表示，建立层与层间的注意力机制，通过对不同层的语义表示向量加权，生成最后的表示向量，并利用上下文消除歧义；

步骤二：对问题进行问句分析，所述问句分析包括意图识别和槽位识别；

步骤三：引入标签语义，使用线性空间映射方法拉远语义表示距离；

步骤四：建立门控网络，融合槽信息和意图信息；

步骤五：在不同领域进行展开，学习抽象的标签转移概率。

进一步地，在步骤一中，

使用BERT预训练语言模型，利用所述BERT预训练语言模型执行神经语言程序学NLP任务；在BERT预训练语言模型的编码器层中，底层学习词法信息，中层学习语法信息，上层学习语义信息，通过提取各个编码器层向量并进行加权混合，来生成适配所述神经语言程序学NLP任务的语义向量；

利用上下文来消除歧义：将样例数据和要判别的数据的句子拼接并表示，通过BERT预训练语言模型来捕获上下文信息，进而得到一个关于词的不同的表示。

进一步地，在步骤二中，

通过问句分析将输入的文本转换为结构化的语义表示，所示语义表示为slot-value形式；

所述意图识别是在给定句子x的情况下判断最佳意图z，即处理标准的多分类问题；

所述槽位识别是在给定句子x中提取有用的信息，即序列标注问题。

进一步地，在步骤三中，

因为同一领域中，不同意图的句子之间含有相同的词，造成意图与意图之间以及槽与槽之间的嵌入向量在向量空间中距离近，所以采用一种线性空间映射方法拉远语义表示距离，所述线性空间映射方法步骤为：

(1)计算每个类别的中心C_k：相同类别的句子嵌入表示向量取平均；

(2)随机初始化一组彼此分离参考向量

(3)通过线性代数计算，得到一个映射线性零化矩阵M，使得对应类别的原型向量和参考向量

能够对齐靠近，同时不同

之间又尽可能的拉远，不同类别的意图和词在对齐映射后能够分开；其中参考向量和映射矩阵M的计算公式如下所示：

M＝null_D(δ₁；...；δ_k]) (3)

其中，N_C为集合中参考向量的总数，

为第k个参考向量减去所有非k参考向量的的差向量，l∈(0，+∞)，0<k<Nc，δ₁；...；δ_k为误差变量；

当面临一个新的领域的语料时，通过BERT预训练语言模型提取样例数据中的语义，用向量进行表示，并对不同意图类别和槽类别的向量分别进行均值求解作为原型向量；

同时通过BERT预训练语言模型提取意图和槽的名称，或意图和槽的描述信息的语义，用向量进行表示，然后将训练得到的参考向量与描述信息的语义向量加权相加，使得参考向量引入标签名称或者槽名称的语义信息，然后通过求解线性偏差消除法的方法解出M，用M与原型向量相乘进行映射，便可以获得不同的意图和槽在向量空间中离得远的特征表示。

进一步地，在步骤四中：

在经过BERT预训练语言模型的语义表征层后，获得意图和槽信息的输入，然后经过一个Intent子网络和一个Slot子网络来迭代的融合意图信息与槽信息；

在所述Intent子网络中，通过一个重置门和更新门，将句子信息更新进词信息里；

在所述Slot子网络中，通过注意力的方式为词信息分配注意力然后加到句子信息里；

将问句向量和词向量迭代融合，并进行空间映射后，问句表示向量与意图向量直接进行匹配度打分，选取最高分作为最终结果；词级的表示向量经过匹配度打分后，再经过抽象抽象CRF进行标签转移概率的打分，将二者相加后，输出最后的概率分布；

所述匹配度打分为SIM函数取欧式距离的倒数或cos相似度。

进一步地，在步骤五中：

经过层间注意力BERT的编码已经得到槽信息的输入表示，利用步骤三中的空间映射方法来拉远槽类别的特征标识，并利用意图信息来辅助槽信息的判断；

因为序列标注任务需要标签转移概率来刻画标签间的依赖关系，并且不同领域的标签集不同，所以利用CRF学习一个抽象状态转移矩阵，即表征大类的转移概率，然后在具体的样例数据上进行展开，来学习不同标签之间的转移概率：分别为一个标签的开头到相同标签开头的概率、一个标签的开头到不同标签开头的概率、一个标签的开头到相同标签中间的概率以及一个标签的开头到不同标签中间的概率；

最后在要判别的数据上将此转移矩阵展开成对应的词槽转移矩阵，得到符合逻辑的标签转移矩阵。

本发明有益效果

本发明的提出的方法有效解决了以下问题：

(1)由于用户问句长短文本不一，所以预训练模型不同层的语义表示向量效果也不一样；

(2)由于同一领域内许多不同意图的句子之间含有较多相同的词从而造成意图与意图和槽与槽的嵌入向量在向量空间中离得比较近，则给意图分类和槽识别造成了困难；

(3)槽标注问题的类别之间往往存在依赖关系，在旧领域训练得到的类别与类别之间的转移概率在新的领域很难适用；

(4)多任务学习可以有效的提高模型的自然语言理解能力。

附图说明

图1为本发明的一个Episode示例图；

图2为本发明的Layer Attention BERT架构图；

图3为本发明的映射前后不同类别的向量分布情况；

图4为本发明的Intent子网络；

图5为本发明的Slot子网络；

图6为本发明的模型架构图；

图7为本发明的对话系统演示界面。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

小样本场景中，通常在新的任务上每个类别只有1-5个样例数据，称之为SupportSet，而要判别的数据，称之为Query Set。一个Query Set连同其Support Set称之为一个Episode，如图1所示最终要达到的效果就是在富数据场景中训练出的模型，当面临一个全新的领域的时候，可以在只给出极少的样例时，依然能成功的判断出问句的意图和槽信息。

例如上述样例中的模型可以在天气查询、多媒体播放等领域上进行训练，然后当面临全新的查交通领域的时候，只需要人工给其标注两条数据让模型学习，模型就能够判断出Query Set中的这一句话的意图是查机票，槽位是：“目的城市：哈尔滨”。同样在其他的关于交通查询领域的语句也能做到很好的识别。

步骤四：建立门控网络，融合槽信息和意图信息；

步骤五：在不同领域进行展开，学习抽象的标签转移概率。

在步骤一中，

使用BERT预训练语言模型，利用所述BERT预训练语言模型执行自然语言处理任务NLP任务；它是第一个用在预训练NLP上的无监督的、深度双向系统，由此不需要高昂的标注成本便可以在海量数据资源(维基百科)上进行学习，因此其可以称之为一个通用的“语言理解”模型，然后用这个模型去执行想做的NLP任务，极大提升了许多NLP下游任务的表现；在BERT预训练语言模型的编码器encoder层中，底层更多的学到了词法信息，而中层学到的更多的则是语法信息，上层学到更多的则是语义信息，通过提取各个编码器encoder层向量并进行加权混合，来生成适配所述自然语言处理任务NLP任务的语义向量；如图2所示；

虽然BERT可以在不同的上下文当中学习得到词的不同的特征表示，但是依然存在一些情况，即同一个词即使是在相同的上下文当中，但是当不清楚其所属领域时，仍在可能存在歧义问题，例如：帮我把我的苹果拿过来。此时若是属于电子消费品领域则苹果代指手机，但也可能是指水果中的苹果。针对此类场景，利用上下文来消除歧义：将样例数据support set和要判别的数据query set的句子拼接并表示，通过BERT预训练语言模型来捕获上下文信息，进而得到一个关于词的不同的语境下的嵌入表示。

在步骤二中，

通过问句分析将输入的文本转换为结构化的语义表示(slot-value形式)：为了将文本转换为结构化的语义表示，必须判断问句意图及槽位值的判别；

进一步地、在步骤三中，

(1)计算每个类别的中心C_k：相同类别的句子嵌入表示向量(embedding)取平均；

(2)随机初始化一组彼此分离参考向量

(3)通过线性代数计算，得到一个映射空间M，使得对应类别的原型向量和参考向量

能够对齐靠近，同时不同

M＝null_D([δ₁；...；δ_k]) (3)

其中，N_C为集合中参考向量的总数，

为第k个参考向量减去所有非k参考向量的的差向量，l∈(0，+∞)，0<k<N_C，δ₁；...；δ_k为误差变量；

当面临一个新的领域的语料时，通过BERT预训练语言模型提取样例数据supportset中的语义，用向量进行表示，并对不同意图类别和槽类别的向量分别进行均值求解作为原型向量；

同时通过BERT预训练语言模型提取意图和槽的名称，或意图和槽的描述信息的语义，用向量进行表示，然后将训练得到的参考向量与描述信息的语义向量加权相加，使得参考向量引入标签名称或者槽名称的语义信息，然后通过通过求解线性偏差消除法LinearError Nulling的方法解出M，用M与原型向量相乘进行映射，便可以获得不同的意图和槽在向量空间中离得远的特征表示，映射前后的向量空间分布如图3所示。

进一步地、在步骤四中：

在所述Intent子网络中，通过一个重置门和更新门，如图4，将句子信息更新进词信息里；

在所述Slot子网络中，如图5，通过注意力的方式为词信息分配注意力然后加到句子信息里；

将问句向量和词向量迭代融合，并进行空间映射后，问句表示向量与意图向量直接进行匹配度打分，选取最高分作为最终结果；词级的表示向量经过匹配度打分后，再经过抽象抽象CRF进行标签转移概率的打分，将二者相加后，输出最后的概率分布；模型构架如图6所示；

所述匹配度打分为SIM函数可取欧式距离的倒数或cos相似度。

进一步地、在步骤五中：

经过层间注意力BERT(layer attention bert)的编码已经得到槽信息的输入表示，利用步骤三中的空间映射方法来拉远槽类别的特征标识，并利用意图信息来辅助槽信息的判断；

因为序列标注任务需要标签转移概率(Transition score)来刻画标签间的依赖关系，并且不同领域的标签集不同，所以利用CRF学习一个抽象状态转移矩阵，即表征大类的转移概率，然后在具体的样例数据support set上进行展开，来学习不同标签之间的转移概率：分别为一个标签的开头到相同标签开头的概率、一个标签的开头到不同标签开头的概率、一个标签的开头到相同标签中间的概率以及一个标签的开头到不同标签中间的概率；

例如：采用BIO标注模式，在Support Set上学到的标签转移矩阵如表1所示。

表1抽象CRF示意图

O(Odinary)→O表示Odinary标签即普通词到普通词的概率为0.7。

B→sB(same B)表示词槽开头到相同词槽开头的概率为0.1。

B→dI(different I)表示词槽开头到不同词槽中间的概率为0。

···

以此类推，最后在要判别的数据query set上将此转移矩阵展开成对应的词槽转移矩阵，得到符合逻辑的标签转移矩阵。

实施例

依据本发明的技术方案，开发了一个多轮对话系统用于展示本专利在小样本场景中的自然语言理解识别效果，该系统按照微信小程序前端、中间控制层、后台系统的三个层次分布。小程序前端主要负责接收用户的输入句子，送入对话理解模块，同时把系统生成相应回复展示用户，实现用户和机器的多轮交互。中间层是负责连接前端和后台的，根据前端的输入和信号量控制后台的系统，同时接受后台的运行结果反馈给前端界面。后台的系统主要是小样本场景下自然语言理解技术。

首先，在新的小样本领域，我们需要对其标注三到五条数据，具体数据格式如下：

接下来是对话理解模块。在用户输入问题之后，我们调用专利的提出的技术识别问句的意图和携带的槽位信息。意图识别基于BERT模型然后通过平均池化计算原型向量，而后通过线性代数映射计算相似度得到，槽位识别是通过采用上述过程后计算估计标签得分然后与抽象条件随机场模型预测标签转移得分相加后选取最高分数的标签得到，对话理解模块的输入是用户的输入文本，输出的是用户当前的意图和槽值对。

接下来是对话管理模块。由对话管理模块将对话理解模块获取到的意图和槽值对填入槽位信息中，当历史槽位信息和当前提取到的槽位信息发生冲突时，需要调用回复生成模块从回复模板中选择合适的句子返回给前端确认槽位信息是否收集正确；在一些槽位值没收集到的时候，就需要向调用回复生成模块用户进行询问；如当前意图下对应的槽位都是己确认状态，那么调用回复生成模块告知用户任务已结束，随后对话任务结束。

以上对本发明所提出的一种小样本场景下的自然语言理解方法，进行了详细介绍，对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。