CN112364662A

CN112364662A - 一种基于神经网络的意图识别方法及电子装置

Info

Publication number: CN112364662A
Application number: CN202011268543.3A
Authority: CN
Inventors: 赵军锁; 钟方洁; 吴凤鸽; 徐帆江; 吕晓宁; 朱博
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-12

Abstract

本发明公开了一种基于神经网络的意图识别方法及电子装置，包括依据待识别话术文本的预设场景，选取意图识别模型；将待识别话术文本输入意图识别模型，获取待识别话术文本的预测意图标签。本发明灵活性高，微调样本可以直观的看到，少样本就可以有很好的效果，解决了传统的神经网络都需要大量输入样本的问题，相较于现有技术中使用的通用模型，极大地提高了识别率。

Description

一种基于神经网络的意图识别方法及电子装置

技术领域

本发明属于计算机网络领域，尤其涉及一种基于神经网络的意图识别方法及电子装置。

背景技术

随着时代的发展，意图识别应用的越来越广泛，尤其是人机对话方面，意图识别是不可或缺的。意图识别的准确性直接关系到语义槽填充的性能并且有助于后续对话系统的研究。考虑到人机对话系统中意图识别的困难，传统的机器学习方法无法理解用户话语的深层语义信息，使得交互困难。本发明不仅改进了传统的机器学习无法理解用户话语的深层语义信息，而且使用较少的样本量。

传统的意图识别方法包括基于规则模版的意图识别方法和基于统计特征分类的意图识别方法。

基于规则模板的方法一般需要人为构建规则模板以及类别信息对用户意图文本进行分类，但是不同的表达方式会导致规则模版数量的增加，需要耗费大量的人力物力。

基于统计特征分类的方法，则需要对语料文本进行关键特征的提取，如字、词特征等，然后通过训练分类器实现意图分类。但是这种方法需要人工提取特征，不仅成本高，而且特征的准确性无法得到保障，同时还会导致数据稀疏问题。

但上述的基于规则模版的意图识别方法和基于统计特征分类的意图识别方法，其识别的准确率和样本数量有关，少则千条，万条，多则数百万条，因此现在急需一种利用较少样本就能进行意图识别且识别准确率高的方法。

发明内容

为解决上述问题，本发明提供一种基于神经网络的意图识别方法及电子装置，通过少量自定义的意图训练样本微调预训练模型，提高意图识别的准确率。

本发明技术解决方案包括：

一种基于神经网络的意图识别方法，其步骤包括：

1)依据待识别话术文本的预设场景，选取意图识别模型V₁；

2)将待识别话术文本输入意图识别模型V₁，获取待识别话术文本的预测意图标签；

其中，通过以下步骤得到所述意图识别模型V₁：

a)将训练话术文本输入预训练语言模型T₁，获取预训练语言模型T₁中首位标签CLS对应的最终隐藏层输出的特征向量C₁；

b)通过全连接神经网络与softmax神经网络，将特征向量C₁转化为特征矩阵P₁；

c)获取特征矩阵P₁中最大元素的分布位置，从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签，作为所述训练话术文本的预测意图标签；

d)通过预设损失函数，得到所述预测意图标签与所述训练话术文本真实意图标签之间的结果误差值，并根据所述结果误差值对模型参数进行调整，直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值，得到所述意图识别模型V₁。

进一步地，所述预设场景包括：催收或疫情调查。

进一步地，得到预训练语言模型T₁的方法包括：使用大量无监督语料对一语言模型进行预训练。

进一步地，所述语言模型包括：Bert模型。

进一步地，通过一可视化界面里，显示任一预测意图标签的训练话术文本。

进一步地，通过在可视化界面里编辑或删除训练话术文本，对所述意图识别模型V₁进行重新训练，得到意图识别模型V₂。

进一步地，依据所述预测意图标签，完成自然语言处理任务；所述自然语言处理任务包括：分类、序列标注、句间关系判断或机器阅读理解。

进一步地，当判断待识别话术文本获取的预测意图标签时，通过以下策略对意图识别模型进行重新训练，得到意图识别模型V₃：

1)将所述待识别话术文本作为无监督语料对语言模型训练，得到预训练语言模型T₂；将训练话术文本输入预训练语言模型T₂，获取预训练语言模型T₂中首位标签CLS对应的最终隐藏层输出的特征向量C₂；通过全连接神经网络与softmax神经网络，将特征向量C₂转化为特征矩阵P₂；获取特征矩阵P₂中最大元素的分布位置，从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签，作为所述训练话术文本的预测意图标签；通过预设损失函数，得到所述预测意图标签与所述训练话术文本真实意图标签之间的结果误差值，并根据所述结果误差值对模型参数进行调整，直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值，得到所述意图识别模型V₃；

2)获取所述待识别话术文本的真实意图标签；将所述待识别话术文本输入预训练语言模型T₁，获取预训练语言模型T₁中首位标签CLS对应的最终隐藏层输出的特征向量C₃；通过全连接神经网络与softmax神经网络，将特征向量C₃转化为特征矩阵P₃；获取特征矩阵P₃中最大元素的分布位置，从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签，作为所述训练话术文本的预测意图标签；通过预设损失函数，得到所述预测意图标签与真实意图标签之间的结果误差值，并根据所述结果误差值对模型参数进行调整，直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值，得到所述意图识别模型V₃。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

本发明与现有技术相比具有如下优点：

1、灵活性高，微调样本可以直观的看到，并进行新增，删除，编辑等；

2、样本数量不受限制，可以只有一条也可以有很多，少样本就可以有很好的效果，解决了传统的神经网络都需要大量输入样本的问题；

3、具有针对性，一个场景对应一个模型，相较于现有技术中使用的通用模型，极大地提高了识别率。

附图说明

图1为本发明的模型训练流程图。

图2为在意图标签里编辑或删除训练话术文本的可视化界面图。

具体实施方式

以下结合具体实施例和附图对本发明进行详细说明。

本发明的意图识别方法，其中模型训练流程图如图1所示，包括以下步骤：

1、预训练语言模型

1)挑选语言模型

由于Bert模型是通过33亿文本数据训练而成的，里面含有的知识量非常多，使用极少的数据就能得到很好的结果，因此本实施选取Bert模型作为语言模型。

2)使用大量无监督语料进行语言模型预训练(Pre-training)，得到预训练语言模型。

2、意图识别模型

本发明使用自定义的意图训练样本来微调预训练模型，得到新的意图识别模型。

1)少量标注语料的生成

所述获取预设场景对应的场景训练数据，包括：

通过可视化界面，接收输入的真实意图标签，并将所述真实意图标签与对应的训练话术文本建立关联关系。

进一步地，所述获取预设场景对应的场景训练数据还包括：

获取所述意图识别模型在测试过程中意图未命中的测试话术文本；

将意图未命中的所述测试话术文本设置为训练话术文本，并与所述真实意图标签进行关联，用以进行迁移学习训练。

进一步地，如图2所示，通过在可视化界面的意图标签里编辑或删除训练话术文本，对意图识别模型进行重新训练。

2)模型训练

使用少量标注语料进行微调(Fine-tuning)来完成分类、序列标注、句间关系判断或机器阅读理解等自然语言处理(Natural language processing，NLP)任务。

将预设场景训练数据输入所述意图识别模型后，已完成预训练的BERT模型对预设场景训练数据中的训练话术文本进行深度学习处理，获取已完成预训练的BERT模型中首位标签CLS对应的最终隐藏层输出的特征向量C，所述特征向量C包含训练话术文本的全部分类信息，通过全连接神经网络和softmax神经网络，可以得到特征矩阵P：

P＝softmax(CW^T)；

其中，W为全连接神经网络的权重矩阵，为所述特征向量C中各元素分配权重，softmax函数将矩阵CW^T中各元素映射到(0,1)数值区间内，得到特征矩阵P。特征矩阵P中各元素的数值可以表征真实客户意图与各候选意图标签之间的匹配程度。

若首位标签CLS对应的特征向量C为I维向量，则：

其中，P_i表示特征矩阵P中第i位元素，C_i表示特征向量C中第i位元素。

获取数值最大的元素的分布位置，从预设的候选意图标签集合中选取对应分布位置的候选意图标签，作为所述意图识别模型的预测意图标签。

在经过意图识别模型预测后，通过预设的损失函数可以计算得到所述预测意图标签和所述训练话术文本对应的真实意图标签之间的结果误差值。当结果误差值大于预设的结果误差阈值时，可以对所述意图识别模型的参数(不包括冻结的参数)进行调整。当结果误差值小于结果误差阈值，误差符合次数加一，并确定误差符合次数是否大于或等于误差符合次数阈值，若是，则所述意图识别模型符合完成训练。

3、意图识别

1)依据待识别话术文本的预设场景，选取意图识别模型；

2)将待识别话术文本输入意图识别模型，获取待识别话术文本的预测意图标签，得到待识别话术文本的意图；

3)依据所述预测意图标签，完成自然语言处理任务。

在一应用场景中，设定训练数据为舆情数据，数据集总共分为14大类，包括民生、文化、娱乐、体育、财经、房产、汽车、教育、科技、军亊、旅游、国际、农业、电竞，其中各类别的数据分布如表1所示:

分类类别	分类类别	样本数
			民生	news_story	1117
文化	news_culture	1259
			娱乐	news_entertainment	6045
体育	news_sports	5195
			财经	news_finance	4341
房产	news_house	2103
			汽车	news_car	3940
教育	news_edu	4510
			科技	news_tech	6740
军亊	news_military	3783
			旅游	news_travel	2099
国际	news_world	5902
			农业	news_agriculture	3492
电竞	news_game	5305

表1

分别通过规则模版模型、SVM模型、CNN模型与本发明进行意图识别，发现本发明的识别正确率，如表2所示，远远高于其它模型。

Model	正确率
		规则模版	46.18％
SVM	52.36％
		CNN	81.02％
本发明	93.08％

表2

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于神经网络的意图识别方法，其步骤包括：

1)依据待识别话术文本的预设场景，选取意图识别模型V₁；

2)将待识别话术文本输入意图识别模型V₁，获取待识别话术文本的预测意图标签；其中，通过以下步骤得到所述意图识别模型V₁：

2.如权利要求1所述的方法，其特征在于，所述预设场景包括：催收或疫情调查。

3.如权利要求1所述的方法，其特征在于，得到预训练语言模型T₁的方法包括：使用大量无监督语料对一语言模型进行预训练。

4.如权利要求3所述的方法，其特征在于，所述语言模型包括：Bert模型。

5.如权利要求1所述的方法，其特征在于，通过一可视化界面里，显示任一预测意图标签的训练话术文本。

6.如权利要求5所述的方法，其特征在于，通过在可视化界面里编辑或删除训练话术文本，对所述意图识别模型V₁进行重新训练，得到意图识别模型V₂。

7.如权利要求1所述的方法，其特征在于，依据所述预测意图标签，完成自然语言处理任务；所述自然语言处理任务包括：分类、序列标注、句间关系判断或机器阅读理解。

8.如权利要求1所述的方法，其特征在于，当判断待识别话术文本获取的预测意图标签时，通过以下策略对意图识别模型进行重新训练，得到意图识别模型V₃：

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。