CN112800239A

CN112800239A - 意图识别模型训练方法、意图识别方法及装置

Info

Publication number: CN112800239A
Application number: CN202110085821.XA
Authority: CN
Inventors: 蒋菱
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-14
Anticipated expiration: 2041-01-22
Also published as: CN112800239B

Abstract

本申请提供了一种意图识别模型训练方法、意图识别方法及装置，应用于自然语言处理技术领域，其中该方法包括：将知识图谱信息引入意图识别训练过程，用较小的代价使模型在fine‑tune的过程中学习到专业领域的知识，降低训练成本的同时，不仅增加了模型的知识维度，还增加了模型的可解释性；此外，用拉普拉斯算子取代softmax分类，进一步拉大了不相关句子之间的距离，缩短了相似句子之间的距离，这样，对于人工标注“A‑B”、“A‑C”和“D‑F”,有相同标注的两句话“A‑C”和“A‑B”之间的相似度被人为拉近，和“D‑F”的距离则人为拉远，这样，既增加了人工标注的利用率，同时，也使得训练结果也更加准确。

Description

意图识别模型训练方法、意图识别方法及装置

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种意图识别模型训练方法、意图识别方法及装置。

背景技术

意图识别算法，目前已广泛的应用于机器人对话各个领域，用以判断用户的想法和诉求。意图识别算法一般做法是通过分类的方法将句子或者我们常说的语句队列分配到相应的意图种类，得到和用户表达最相近的意图类别，例如，目前比较火热的问答机器人，假设某个机器人可以解决30个不计算用户向机器人发来的每一个语句队列与可以解决的问题的匹配程度，同种类的问题，意图识别的做法则是分别找出机器人可以解决的问题和用户问题之间最为匹配的一个或几个，例如目前火热的基于预训练模型的意图识别方法 bert。意图识别最大的难点在于标注数据的获取与利用，目前标注数据的获取主要来自两个方面，一个是专业数据团队对数据进行标注，一个实通过半监督学习的方式自动生成标注，而对于标注的利用，目前的算法主要区分了数据的特异性，例如星巴克和starbucks代表同一个意思，只要指定数据，这种识别就可以很轻易的完成。

但是，现实中，获取的数据除了特异性，还有一些共性数据，例如领域特征信息：举个例子，“错误信息提示-mismatched input...,expecting...” 和“错误信息提示-query failed...,division by zero”，这两个标准问，或者说两个类别，其中“错误信息提示”是标注者特意标注的领域信息，目的是希望当用户输入“错误信息提示”时候，按概率大小，可以同时返回两个标准问，而目前的主流算法，则会把标准问中“错误信息提示”当做噪音，把这段话作为语料加入训练模型，例如bert模型，则这个人为标注的知识则会与主流预训练模型的知识融合，导致实际输出结果偏离其正确的意思，“错误信息提示”这段信息，反而会影响输出结果，这种情况，往往就造成了大量的标注浪费。

此外，现实中往往会遇到一些专业领域的信息，例如，“进件”这个词，在信用卡领域表示给用户发放信用卡，而只从字面上理解则表示收入某件东西，而目前主流的预训练模型，用了大量的通用信息来训练，在使用预训练模型来预测的时候，专业领域信息往往会被通用信息覆盖，导致预测效果不准确。

发明内容

本申请提供了一种意图识别模型训练方法、意图识别方法及装置，能够提升意图识别的准确性，本申请采用的技术方案如下：

第一方面，提供了一种意图识别模型训练方法，包括：

将样本文本与目标知识图谱关联，得到树状结构文本；

确定所述树状结构文本的可视化矩阵，所述可视化矩阵用于表示树状结构文本中两个词之间是否可见；

基于多个所述树状结构文本和所述可视化矩阵通过Mask-Transformer 网络分别提取样本特征，所述Mask-Transformer在Transformer中间增加可见表达M；

基于提取到的多个样本特征，通过最小化目标函数训练意图识别模型。

可选地，所述最小化目标函数为：

其中

中Y为提取得到的样本特征，而Y'则为需要的样本特征的形式，

为矩阵的frobenius范数，Y和Y'拥有相同的维度；其中

为拉普拉斯项的矩阵形式，用于使得特征编码Y保持输入特征原始空间的数据关系。

可选地，所述Mask-Transformer在Transformer中间增加可见表达M，包括：

多头注意力的更新如下：

Qⁱ⁺¹,Kⁱ⁺¹,Vⁱ⁺¹＝hⁱW_q,hⁱW_k,hⁱW_v

hⁱ⁺¹＝Sⁱ⁺¹Vⁱ⁺¹

其中，W_q、W_h和W_v为可训练参数，hⁱ为mask-attention层中第i个输出， d_k为归一化参数，M为可视矩阵。

第二方面，提供了一种意图识别方法，包括：

将待识别文本与目标知识图谱关联，得到待识别文本的树状结构文本；

确定待识别文本的树状结构文本的可视化矩阵；

基于所述待识别文本的树状结构文本以及可视化矩阵通过根据实施例一所示的任一项训练的意图识别模型确定所述待识别文本对应的意图。

可选地，所述将待识别文本与目标知识图谱关联，得到待识别文本的树状结构文本，包括：

基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱。

可选地，所述基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱，包括：

基于所述待识别文本的通过预训练的文本分类模型确定所述待识别文本对应的领域；

基于识别确定的待识别文本对应的领域从多个知识图谱中确定与其对应的目标知识图谱。

第三方面，提供了一种意图识别模型训练装置，包括：

第一关联模块，用于将样本文7本与目标知识图谱关联，得到树状结构文本；

第一确定模块，用于确定所述树状结构文本的可视化矩阵，所述可视化矩阵用于表示树状结构文本中两个词之间是否可见；

提取模块，用于基于多个所述树状结构文本和所述可视化矩阵通过 Mask-Transformer网络分别提取样本特征，所述Mask-Transformer在 Transformer中间增加可见表达M；

训练模块，用于基于提取到的多个样本特征，通过最小化目标函数训练意图识别模型。

可选地，所述最小化目标函数为：

其中

为矩阵的frobenius范数，Y和Y'拥有相同的维度；其中

多头注意力的更新如下：

Qⁱ⁺¹,Kⁱ⁺¹,Vⁱ⁺¹＝hⁱW_q,hⁱW_k,hⁱW_v

hⁱ⁺¹＝Sⁱ⁺¹Vⁱ⁺¹

第四方面，提供了一种意图识别装置，包括：

第二关联模块，用于将待识别文本与目标知识图谱关联，得到待识别文本的树状结构文本；

第二确定模块，用于确定待识别文本的树状结构文本的可视化矩阵；

第三确定模块，用于基于所述待识别文本的树状结构文本以及可视化矩阵通过根据权利要求1-3任一项训练的意图识别模型确定所述待识别文本对应的意图。

可选地，所述第二关联模块，具体用于基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱。

可选地，所述第二关联模块，具体用于基于所述待识别文本的通过预训练的文本分类模型确定所述待识别文本对应的领域；以及用于基于识别确定的待识别文本对应的领域从多个知识图谱中确定与其对应的目标知识图谱。

第五方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面和/或第二方面所示的方法。

第六方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面和 /或第二方面所示的方法。

本申请将知识图谱信息引入意图识别训练过程，用较小的代价使模型在fine-tune的过程中学习到专业领域的知识，降低训练成本的同时，不仅增加了模型的知识维度，还增加了模型的可解释性；此外，用拉普拉斯算子取代softmax分类，进一步拉大了不相关句子之间的距离，缩短了相似句子之间的距离，这样，对于人工标注“A-B”、“A-C”和“D-F”,有相同标注的两句话“A-C”和“A-B”之间的相似度被人为拉近，和“D-F” 的距离则人为拉远，这样，既增加了人工标注的利用率，同时，也使得训练结果也更加准确。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种意图识别模型训练方法的流程示意图；

图2为本申请实施例的一种意图识别方法的流程示意图；

图3为本申请实施例的一种意图识别模型训练装置的结构示意图；

图4为本申请实施例的一种电子设备的结构示意图；

图5为本申请实施例的一种意图识别装置的结构示意图；

图6为本申请实施例特征提取的流程示例图；

图7为本申请实施例的树状结构文本示例图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式 “一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

实施例一

如图1所示，本申请实施例提供了一种一种意图识别模型训练方法，包括：

步骤S101,将样本文本与目标知识图谱关联，得到树状结构文本；具体地，样本文本可以是用户输入的文本，也可以是通过语音识别对语音进行识别得到的文本，具体地，知识图谱可以对应的有多个，不同的领域对应一个知识图谱；知识图谱也可以为一个通用知识图谱。

步骤S102,确定所述树状结构文本的可视化矩阵，所述可视化矩阵用于表示树状结构文本中两个词之间是否可见；

步骤S103,基于多个所述树状结构文本和所述可视化矩阵通过 Mask-Transformer网络分别提取样本特征，所述Mask-Transformer在 Transformer中间增加可见表达M；

步骤S104,基于提取到的多个样本特征，通过最小化目标函数训练意图识别模型。

可选地，所述最小化目标函数为：

其中

为矩阵的frobenius范数，Y和Y'拥有相同的维度；其中

多头注意力的更新如下：

Qⁱ⁺¹,Kⁱ⁺¹,Vⁱ⁺¹＝hⁱW_q,hⁱW_k,hⁱW_v

hⁱ⁺¹＝Sⁱ⁺¹Vⁱ⁺¹

示例性地，本申请实施例的一种实现方式，如图5所示，首先将知识图谱与文字相互连结起来，获得树状结构(如图6所示)，通过树状结构生成相应的embeddingrepresentation的输入及对应的可视矩阵：

如当一个句子“怎么查看客服经理的进件数量”作为输入时，首先会经过树状结构层，树状结构层将知识图谱中关联到的三元组信息，形成一个拥有专业知识的知识树。得到的知识树由于无法用作传统的bert的表达，因此，对于特定的知识树分别构造出对应的embedding表达和可视矩阵，共同作为获取文本特征的输入。

其中，树状结构。首先，根据知识图谱信息，构造树状结构，构造树状结构的目的是引入专业领域的信息，例如下面的一句话：怎么查看客服经理的进件数量。将这句话与金融知识图谱对比，可以发现，进件这个词属于金融领域知识图谱，用知识图谱对“进件”这个词进行扩展，则可得到这句话的树状表达。

其中，embedding表达。在将句子输入预训练模型bert前，需要对输入的每个文字进行编码。对没有融合领域知识的Bert算法按照顺寻对句子进行编码，例如上面的例子：怎么查看客服经理的进件数量，则编码为：怎(0)么(1)查(2)看(3)客(4)服(5)经(6)理(7)的(8)进件(9)数(10)量(11)，每个字的分量都是相等的，相应的顺序信息则可以直接作为bert的输入。融合了领域知识的句子，则优先考虑领域知识，则上面的句子会编码为：怎(0)么(1)查(2)看(3)客(4)服 (5)经(6)理(7)的(8)进件(9)代表(10)发卡(11)数(10)量(11)。

由于bert的训练过程中会带有位置信息，这样的编码方式则会出现相同的位置编码信息，为了解决相同位置编码的问题，本发明引入了可视矩阵。

其中，可视矩阵。生成可视矩阵的核心思想就是让一个词的词嵌入只来源于其同一个枝干的上下文，而不同枝干的词之间相互不影响。对于一个可见矩阵M，如果两个词之间相互可见则取值为0，相互不可见，取值为负无穷，则：

可视矩阵与embedding表达一起，作为输入，后面将会采用Bert算法得到文本特征。

如上面的例子：怎么查看客服经理的进件数量，“进件”这个词对整段文字可见，“进件”在整段中第9个位置，则M_9j均为0，“代表”和 “发卡”两个词只对“进件”这个词可见，因为“代表”在整段中第10 个位置，因此M_10，9和M_10,11为0，其他都为负无穷大，“发卡”在整段中第 11个位置，M_11，9和M_11,10为0，其他都为负无穷大，同时，还要注意，“数” 在整段中处于第12个位置，“量”在整段中处于第13个位置。

采用bert预训练模型得到文本特征。本发明采用将可视矩阵加入 transformer过程中，构成mask-transformer，来防止语义错误的发生， Mask-Transformer引入构造的可视矩阵，更改了普通transformer训练过程中参数的更新方式，在transformer的过程中，多头的更新如下：

Qⁱ⁺¹,Kⁱ⁺¹,Vⁱ⁺¹＝hⁱW_q,hⁱW_k,hⁱW_v

hⁱ⁺¹＝Sⁱ⁺¹Vⁱ⁺¹

其中，W_q、W_h和W_v为可训练参数，hⁱ为mask-attention层中第i个输出， d_k为归一化参数，M为可视矩阵，模型在fine-tuning过程中，会不断的调整W_q、W_h和W_v，本文采用的mask-transformer,在传统的transformer中间增加了可见表达M，如果两个字之间相互不可见，它们之间的影响系数S_ij就会是0，也就使这两个词的隐藏状态h之间没有任何影响。这样，就把句子树中的结构信息输入给BERT了。通过12层transformer的结构，就可以进行特征生成的任务了。

其中，特征生成，BERT模型在生成特征的时候，除了采用上文提到的mask-transformer，同时，还可以随机替换一些句子，利用上一句进行 isNext/notNext的预测。通过这两项任务，使用大规模无标注语料进行优化，最后得到预训练好的BERT模型。本文模型以Google Bert Multilingual 预训练模型为基础，包括12-layers，768-hiddensize，12-heads，约1亿参数。模型生成特征的过程如下所示，将带特定知识图谱信息的文字输入12 层attention_layer，然后通过全连接层获取特征，进行分类任务。

具体地，通过如下最小化目标函数，对网络进行训练

其中，距离关系，目标函数的第一项

中，Y为经过bert算法12 层网络所得到的特征，而Y'则为我们需要的特征的形式，

为矩阵的 frobenius范数，Y和Y'拥有相同的维度，函数的第一项所表达的意义为，通过多层非线性变换得到的特征编码Y'，与Y的形式尽量一致。而Y的形式则由目标函数的第二项

相似度关系，目标函数的第二项主要是为了让特征编码Y保持输入特征原始空间的数据关系，使得X中距离较近的x_i和x_j，在特征空间中的距离仍然较近，而本文引入了拉普拉斯项来达到这个目的。而目标函数的第二项正是拉普拉斯项的矩阵形式。拉普拉斯项的非矩阵形式的表达为：

其中，W_ij衡量在特征原始空间中x_i与x_j之间的相似程度。这里，我们采用热核距离，则

其中，W_ij为对称矩阵，而我们知道，Y＝[y₁；y₂；…；y_N]，令D_ii＝∑_jW_ij，展开上面的公式，可以得到：

其中，L＝D-W，称为拉普拉斯矩阵。因此，在构造E_g之前，首先需要计算在输入集中两两元素之间的热核距离。然后根据D_ii＝∑_jW_ij计算矩阵D，最后，根据L＝D-W构造拉普拉斯矩阵。目标函数第二项的重要性由α的取值决定。

本发明主要将知识图谱和拉普拉斯算子加入了预训练模型bert,加入知识图谱的目的是用较小的代价使模型具有专业领域的知识，降低多领域知识因发生知识融合导致识别效果不准确的概率，加入知识图谱，可在不需要改变预训练模型的情况下，使得模型偏向专业领域知识的识别；用拉普拉斯算子取代softmax分类，充分发挥了人为标注知识的作用，使得人为标注的相似信息在高维空间中更加接近，人为标注的非相似信息在高维空间中距离被拉大，从而达到增加识别准确率的目的。

实施例二

图2为本申请实施例提供了的一种意图识别方法的流程示例图，如图2 所示，该方法包括：

步骤S201,将待识别文本与目标知识图谱关联，得到待识别文本的树状结构文本；

步骤S202,确定待识别文本的树状结构文本的可视化矩阵；

步骤S203,基于所述待识别文本的树状结构文本以及可视化矩阵通过根据第一方面所示的任一项训练的意图识别模型确定所述待识别文本对应的意图。

实施例三

图3为本申请实施例提供的一种意图识别模型训练装置，该装置30 包括：

第一关联模块301，用于将样本文7本与目标知识图谱关联，得到树状结构文本；

第一确定模块302，用于确定所述树状结构文本的可视化矩阵，所述可视化矩阵用于表示树状结构文本中两个词之间是否可见；

提取模块303，用于基于多个所述树状结构文本和所述可视化矩阵通过Mask-Transformer网络分别提取样本特征，所述Mask-Transformer在 Transformer中间增加可见表达M；

训练模块304，用于基于提取到的多个样本特征，通过最小化目标函数训练意图识别模型。

可选地，所述最小化目标函数为：

其中

为矩阵的frobenius范数，Y和Y'拥有相同的维度；其中

多头注意力的更新如下：

Qⁱ⁺¹,Kⁱ⁺¹,Vⁱ⁺¹＝hⁱW_q,hⁱW_k,hⁱW_v

hⁱ⁺¹＝Sⁱ⁺¹Vⁱ⁺¹

本申请实施例的装置可以执行本申请实施例一所示的方法，其实现的效果类似，在此不再赘述。

实施例四

如图5所示，本申请实施例提供了一种意图识别装置，该装置50包括：

第二关联模块501，用于将待识别文本与目标知识图谱关联，得到待识别文本的树状结构文本；

第二确定模块502，用于确定待识别文本的树状结构文本的可视化矩阵；

第三确定模块503，用于基于所述待识别文本的树状结构文本以及可视化矩阵通过根据实施例一任一项训练的意图识别模型确定所述待识别文本对应的意图。

本申请实施例的装置可以执行本申请实施例二所示的方法，其实现的效果类似，在此不再赘述。

实施例五

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。其中，处理器401应用于本申请实施例中，用于实现图2所示的模块的功能。收发器404包括接收机和发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是 PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401 来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图3或图5所示实施例提供的装置的功能。

本申请实施例提供了一种电子设备适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

实施例六

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的信用卡验签方法。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例，具体实现方式和技术效果，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。