CN112364662A - 一种基于神经网络的意图识别方法及电子装置 - Google Patents

一种基于神经网络的意图识别方法及电子装置 Download PDF

Info

Publication number
CN112364662A
CN112364662A CN202011268543.3A CN202011268543A CN112364662A CN 112364662 A CN112364662 A CN 112364662A CN 202011268543 A CN202011268543 A CN 202011268543A CN 112364662 A CN112364662 A CN 112364662A
Authority
CN
China
Prior art keywords
intention
training
model
text
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011268543.3A
Other languages
English (en)
Inventor
赵军锁
钟方洁
吴凤鸽
徐帆江
吕晓宁
朱博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202011268543.3A priority Critical patent/CN112364662A/zh
Publication of CN112364662A publication Critical patent/CN112364662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于神经网络的意图识别方法及电子装置,包括依据待识别话术文本的预设场景,选取意图识别模型;将待识别话术文本输入意图识别模型,获取待识别话术文本的预测意图标签。本发明灵活性高,微调样本可以直观的看到,少样本就可以有很好的效果,解决了传统的神经网络都需要大量输入样本的问题,相较于现有技术中使用的通用模型,极大地提高了识别率。

Description

一种基于神经网络的意图识别方法及电子装置
技术领域
本发明属于计算机网络领域,尤其涉及一种基于神经网络的意图识别方法及电子装置。
背景技术
随着时代的发展,意图识别应用的越来越广泛,尤其是人机对话方面,意图识别是不可或缺的。意图识别的准确性直接关系到语义槽填充的性能并且有助于后续对话系统的研究。考虑到人机对话系统中意图识别的困难,传统的机器学习方法无法理解用户话语的深层语义信息,使得交互困难。本发明不仅改进了传统的机器学习无法理解用户话语的深层语义信息,而且使用较少的样本量。
传统的意图识别方法包括基于规则模版的意图识别方法和基于统计特征分类的意图识别方法。
基于规则模板的方法一般需要人为构建规则模板以及类别信息对用户意图文本进行分类,但是不同的表达方式会导致规则模版数量的增加,需要耗费大量的人力物力。
基于统计特征分类的方法,则需要对语料文本进行关键特征的提取,如字、词特征等,然后通过训练分类器实现意图分类。但是这种方法需要人工提取特征,不仅成本高,而且特征的准确性无法得到保障,同时还会导致数据稀疏问题。
但上述的基于规则模版的意图识别方法和基于统计特征分类的意图识别方法,其识别的准确率和样本数量有关,少则千条,万条,多则数百万条,因此现在急需一种利用较少样本就能进行意图识别且识别准确率高的方法。
发明内容
为解决上述问题,本发明提供一种基于神经网络的意图识别方法及电子装置,通过少量自定义的意图训练样本微调预训练模型,提高意图识别的准确率。
本发明技术解决方案包括:
一种基于神经网络的意图识别方法,其步骤包括:
1)依据待识别话术文本的预设场景,选取意图识别模型V1
2)将待识别话术文本输入意图识别模型V1,获取待识别话术文本的预测意图标签;
其中,通过以下步骤得到所述意图识别模型V1
a)将训练话术文本输入预训练语言模型T1,获取预训练语言模型T1中首位标签CLS对应的最终隐藏层输出的特征向量C1
b)通过全连接神经网络与softmax神经网络,将特征向量C1转化为特征矩阵P1
c)获取特征矩阵P1中最大元素的分布位置,从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签,作为所述训练话术文本的预测意图标签;
d)通过预设损失函数,得到所述预测意图标签与所述训练话术文本真实意图标签之间的结果误差值,并根据所述结果误差值对模型参数进行调整,直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值,得到所述意图识别模型V1
进一步地,所述预设场景包括:催收或疫情调查。
进一步地,得到预训练语言模型T1的方法包括:使用大量无监督语料对一语言模型进行预训练。
进一步地,所述语言模型包括:Bert模型。
进一步地,通过一可视化界面里,显示任一预测意图标签的训练话术文本。
进一步地,通过在可视化界面里编辑或删除训练话术文本,对所述意图识别模型V1进行重新训练,得到意图识别模型V2
进一步地,依据所述预测意图标签,完成自然语言处理任务;所述自然语言处理任务包括:分类、序列标注、句间关系判断或机器阅读理解。
进一步地,当判断待识别话术文本获取的预测意图标签时,通过以下策略对意图识别模型进行重新训练,得到意图识别模型V3
1)将所述待识别话术文本作为无监督语料对语言模型训练,得到预训练语言模型T2;将训练话术文本输入预训练语言模型T2,获取预训练语言模型T2中首位标签CLS对应的最终隐藏层输出的特征向量C2;通过全连接神经网络与softmax神经网络,将特征向量C2转化为特征矩阵P2;获取特征矩阵P2中最大元素的分布位置,从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签,作为所述训练话术文本的预测意图标签;通过预设损失函数,得到所述预测意图标签与所述训练话术文本真实意图标签之间的结果误差值,并根据所述结果误差值对模型参数进行调整,直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值,得到所述意图识别模型V3
2)获取所述待识别话术文本的真实意图标签;将所述待识别话术文本输入预训练语言模型T1,获取预训练语言模型T1中首位标签CLS对应的最终隐藏层输出的特征向量C3;通过全连接神经网络与softmax神经网络,将特征向量C3转化为特征矩阵P3;获取特征矩阵P3中最大元素的分布位置,从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签,作为所述训练话术文本的预测意图标签;通过预设损失函数,得到所述预测意图标签与真实意图标签之间的结果误差值,并根据所述结果误差值对模型参数进行调整,直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值,得到所述意图识别模型V3
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
本发明与现有技术相比具有如下优点:
1、灵活性高,微调样本可以直观的看到,并进行新增,删除,编辑等;
2、样本数量不受限制,可以只有一条也可以有很多,少样本就可以有很好的效果,解决了传统的神经网络都需要大量输入样本的问题;
3、具有针对性,一个场景对应一个模型,相较于现有技术中使用的通用模型,极大地提高了识别率。
附图说明
图1为本发明的模型训练流程图。
图2为在意图标签里编辑或删除训练话术文本的可视化界面图。
具体实施方式
以下结合具体实施例和附图对本发明进行详细说明。
本发明的意图识别方法,其中模型训练流程图如图1所示,包括以下步骤:
1、预训练语言模型
1)挑选语言模型
由于Bert模型是通过33亿文本数据训练而成的,里面含有的知识量非常多,使用极少的数据就能得到很好的结果,因此本实施选取Bert模型作为语言模型。
2)使用大量无监督语料进行语言模型预训练(Pre-training),得到预训练语言模型。
2、意图识别模型
本发明使用自定义的意图训练样本来微调预训练模型,得到新的意图识别模型。
1)少量标注语料的生成
所述获取预设场景对应的场景训练数据,包括:
通过可视化界面,接收输入的真实意图标签,并将所述真实意图标签与对应的训练话术文本建立关联关系。
进一步地,所述获取预设场景对应的场景训练数据还包括:
获取所述意图识别模型在测试过程中意图未命中的测试话术文本;
将意图未命中的所述测试话术文本设置为训练话术文本,并与所述真实意图标签进行关联,用以进行迁移学习训练。
进一步地,如图2所示,通过在可视化界面的意图标签里编辑或删除训练话术文本,对意图识别模型进行重新训练。
2)模型训练
使用少量标注语料进行微调(Fine-tuning)来完成分类、序列标注、句间关系判断或机器阅读理解等自然语言处理(Natural language processing,NLP)任务。
将预设场景训练数据输入所述意图识别模型后,已完成预训练的BERT模型对预设场景训练数据中的训练话术文本进行深度学习处理,获取已完成预训练的BERT模型中首位标签CLS对应的最终隐藏层输出的特征向量C,所述特征向量C包含训练话术文本的全部分类信息,通过全连接神经网络和softmax神经网络,可以得到特征矩阵P:
P=softmax(CWT);
其中,W为全连接神经网络的权重矩阵,为所述特征向量C中各元素分配权重,softmax函数将矩阵CWT中各元素映射到(0,1)数值区间内,得到特征矩阵P。特征矩阵P中各元素的数值可以表征真实客户意图与各候选意图标签之间的匹配程度。
若首位标签CLS对应的特征向量C为I维向量,则:
Figure BDA0002776883910000041
其中,Pi表示特征矩阵P中第i位元素,Ci表示特征向量C中第i位元素。
获取数值最大的元素的分布位置,从预设的候选意图标签集合中选取对应分布位置的候选意图标签,作为所述意图识别模型的预测意图标签。
在经过意图识别模型预测后,通过预设的损失函数可以计算得到所述预测意图标签和所述训练话术文本对应的真实意图标签之间的结果误差值。当结果误差值大于预设的结果误差阈值时,可以对所述意图识别模型的参数(不包括冻结的参数)进行调整。当结果误差值小于结果误差阈值,误差符合次数加一,并确定误差符合次数是否大于或等于误差符合次数阈值,若是,则所述意图识别模型符合完成训练。
3、意图识别
1)依据待识别话术文本的预设场景,选取意图识别模型;
2)将待识别话术文本输入意图识别模型,获取待识别话术文本的预测意图标签,得到待识别话术文本的意图;
3)依据所述预测意图标签,完成自然语言处理任务。
在一应用场景中,设定训练数据为舆情数据,数据集总共分为14大类,包括民生、文化、娱乐、体育、财经、房产、汽车、教育、科技、军亊、旅游、国际、农业、电竞,其中各类别的数据分布如表1所示:
分类类别 分类类别 样本数
民生 news_story 1117
文化 news_culture 1259
娱乐 news_entertainment 6045
体育 news_sports 5195
财经 news_finance 4341
房产 news_house 2103
汽车 news_car 3940
教育 news_edu 4510
科技 news_tech 6740
军亊 news_military 3783
旅游 news_travel 2099
国际 news_world 5902
农业 news_agriculture 3492
电竞 news_game 5305
表1
分别通过规则模版模型、SVM模型、CNN模型与本发明进行意图识别,发现本发明的识别正确率,如表2所示,远远高于其它模型。
Model 正确率
规则模版 46.18%
SVM 52.36%
CNN 81.02%
本发明 93.08%
表2
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (10)

1.一种基于神经网络的意图识别方法,其步骤包括:
1)依据待识别话术文本的预设场景,选取意图识别模型V1
2)将待识别话术文本输入意图识别模型V1,获取待识别话术文本的预测意图标签;其中,通过以下步骤得到所述意图识别模型V1
a)将训练话术文本输入预训练语言模型T1,获取预训练语言模型T1中首位标签CLS对应的最终隐藏层输出的特征向量C1
b)通过全连接神经网络与softmax神经网络,将特征向量C1转化为特征矩阵P1
c)获取特征矩阵P1中最大元素的分布位置,从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签,作为所述训练话术文本的预测意图标签;
d)通过预设损失函数,得到所述预测意图标签与所述训练话术文本真实意图标签之间的结果误差值,并根据所述结果误差值对模型参数进行调整,直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值,得到所述意图识别模型V1
2.如权利要求1所述的方法,其特征在于,所述预设场景包括:催收或疫情调查。
3.如权利要求1所述的方法,其特征在于,得到预训练语言模型T1的方法包括:使用大量无监督语料对一语言模型进行预训练。
4.如权利要求3所述的方法,其特征在于,所述语言模型包括:Bert模型。
5.如权利要求1所述的方法,其特征在于,通过一可视化界面里,显示任一预测意图标签的训练话术文本。
6.如权利要求5所述的方法,其特征在于,通过在可视化界面里编辑或删除训练话术文本,对所述意图识别模型V1进行重新训练,得到意图识别模型V2
7.如权利要求1所述的方法,其特征在于,依据所述预测意图标签,完成自然语言处理任务;所述自然语言处理任务包括:分类、序列标注、句间关系判断或机器阅读理解。
8.如权利要求1所述的方法,其特征在于,当判断待识别话术文本获取的预测意图标签时,通过以下策略对意图识别模型进行重新训练,得到意图识别模型V3
1)将所述待识别话术文本作为无监督语料对语言模型训练,得到预训练语言模型T2;将训练话术文本输入预训练语言模型T2,获取预训练语言模型T2中首位标签CLS对应的最终隐藏层输出的特征向量C2;通过全连接神经网络与softmax神经网络,将特征向量C2转化为特征矩阵P2;获取特征矩阵P2中最大元素的分布位置,从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签,作为所述训练话术文本的预测意图标签;通过预设损失函数,得到所述预测意图标签与所述训练话术文本真实意图标签之间的结果误差值,并根据所述结果误差值对模型参数进行调整,直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值,得到所述意图识别模型V3
2)获取所述待识别话术文本的真实意图标签;将所述待识别话术文本输入预训练语言模型T1,获取预训练语言模型T1中首位标签CLS对应的最终隐藏层输出的特征向量C3;通过全连接神经网络与softmax神经网络,将特征向量C3转化为特征矩阵P3;获取特征矩阵P3中最大元素的分布位置,从设定自然语言处理任务的预设候选意图标签集合中选取对应分布位置的的候选意图标签,作为所述训练话术文本的预测意图标签;通过预设损失函数,得到所述预测意图标签与真实意图标签之间的结果误差值,并根据所述结果误差值对模型参数进行调整,直到结果误差值小于结果误差阈值且误差符合次数不小于误差符合次数阈值,得到所述意图识别模型V3
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
CN202011268543.3A 2020-11-13 2020-11-13 一种基于神经网络的意图识别方法及电子装置 Pending CN112364662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011268543.3A CN112364662A (zh) 2020-11-13 2020-11-13 一种基于神经网络的意图识别方法及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011268543.3A CN112364662A (zh) 2020-11-13 2020-11-13 一种基于神经网络的意图识别方法及电子装置

Publications (1)

Publication Number Publication Date
CN112364662A true CN112364662A (zh) 2021-02-12

Family

ID=74515536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011268543.3A Pending CN112364662A (zh) 2020-11-13 2020-11-13 一种基于神经网络的意图识别方法及电子装置

Country Status (1)

Country Link
CN (1) CN112364662A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362169A (zh) * 2021-08-09 2021-09-07 上海慧捷智能技术有限公司 催收优化方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN111104498A (zh) * 2019-12-12 2020-05-05 华南理工大学 一种任务型对话系统中的语义理解方法
CN111128126A (zh) * 2019-12-30 2020-05-08 上海浩琨信息科技有限公司 多语种智能语音对话的方法及系统
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN111382270A (zh) * 2020-03-05 2020-07-07 中国平安人寿保险股份有限公司 基于文本分类器的意图识别方法、装置、设备及存储介质
US20200242302A1 (en) * 2019-01-29 2020-07-30 Ricoh Company, Ltd. Intention identification method, intention identification apparatus, and computer-readable recording medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200242302A1 (en) * 2019-01-29 2020-07-30 Ricoh Company, Ltd. Intention identification method, intention identification apparatus, and computer-readable recording medium
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN111104498A (zh) * 2019-12-12 2020-05-05 华南理工大学 一种任务型对话系统中的语义理解方法
CN111128126A (zh) * 2019-12-30 2020-05-08 上海浩琨信息科技有限公司 多语种智能语音对话的方法及系统
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN111382270A (zh) * 2020-03-05 2020-07-07 中国平安人寿保险股份有限公司 基于文本分类器的意图识别方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362169A (zh) * 2021-08-09 2021-09-07 上海慧捷智能技术有限公司 催收优化方法及设备

Similar Documents

Publication Publication Date Title
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN108829823A (zh) 一种文本分类方法
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质
CN114091406A (zh) 一种面向知识抽取的智能文本标注方法及系统
CN112905750A (zh) 一种优化模型的生成方法和设备
CN112364662A (zh) 一种基于神经网络的意图识别方法及电子装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN116467451A (zh) 一种文本分类方法、装置、存储介质以及电子设备
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN111797622B (zh) 用于生成属性信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212