CN113569581A - 意图识别方法、装置、设备及存储介质 - Google Patents
意图识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113569581A CN113569581A CN202110991234.7A CN202110991234A CN113569581A CN 113569581 A CN113569581 A CN 113569581A CN 202110991234 A CN202110991234 A CN 202110991234A CN 113569581 A CN113569581 A CN 113569581A
- Authority
- CN
- China
- Prior art keywords
- sample
- intention
- abnormal
- preset
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种意图识别方法、装置、设备及存储介质,其中,该方法在采用预设意图识别模型对待处理对话样本进行意图识别后,获得该预设意图识别模型识别的各个意图的类型,以及每一意图类型的置信度,进而,根据每一意图类型的置信度和预设置信度阈值,从上述待处理对话样本中确定异常样本,对该异常样本进行样本扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于样本扩充后的异常样本搭建对抗网络模型,从而,根据对抗网络模型的输出结果,确定上述异常样本的正确意图,提高了意图识别的准确率。而且本申请基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
Description
技术领域
本申请涉及语言处理技术领域,尤其涉及一种意图识别方法、装置、设备及存储介质。
背景技术
随着人工智能技术的迅猛发展,多轮对话作为自然语义处理领域中研究交互信息处理的重要技术,被广泛应用于人与人、机器与人的交流过程中信息的解析,以明确双方的意图。
在多轮对话模型的训练和建立中,一般需要大量的人工标注数据作为训练和建立多轮对话系统模型的基础。若在用户意图不明确的情况下,不仅需要标注的数据量成倍增长,还会由于答复内容不贴合语境等问题导致用户流失。
目前,为了解决在用户意图不明确的情况下造成的标注数据量大、答复内容不符合语境等的问题,提出了意图识别的概念。但已有的意图识别通常采用一批样本训练模型,用训练得到的模型对同一批样本进行预测,存在严重过拟合的现象,导致对用户意图识别的准确率偏低,较难对用户的意图进行准确识别,并作出最贴合语境的回答。因此,如何准确地识别用户的意图已经成为亟需解决的问题。
发明内容
本申请提供一种意图识别方法、装置、设备及存储介质,有效避免现有意图识别存在的过拟合现象,提高了意图识别的准确率。
第一方面,本申请提供一种意图识别方法,该方法包括如下步骤:
在采用预设意图识别模型对待处理对话样本进行意图识别后,获得所述预设意图识别模型识别的各个意图的类型,以及所述各个意图的类型中每一意图类型的置信度;
根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,所述异常样本中包括多个样本;
对所述异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型;
根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图。
在一种可能的实现方式中,所述根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,包括:
分别将所述每一意图类型的置信度与所述预设置信度阈值进行比较;
若意图类型i的置信度小于所述预设置信度阈值,则确定所述意图类型i对应的对话样本为所述异常样本,从所述待处理对话样本中获取所述异常样本,其中,所述意图类型i为所述各个意图的类型中任意一个意图类型,i=1,2,…,n,n等于所述各个意图的类型的个数。
在一种可能的实现方式中,所述对所述异常样本进行样本扩充,包括:
将所述异常样本转化成预设语言的样本,再将所述预设语言的样本转换为所述异常样本对应的语言的样本,其中,所述预设语言为除所述异常样本对应的语言外的其它语言;
或者
根据同义词库随机替换所述异常样本中的词汇;
或者
对所述异常样本中的词汇进行批量复制粘贴。
在一种可能的实现方式中,所述异常样本中包括第一样本和第二样本;
所述基于样本扩充后的异常样本搭建对抗网络模型,包括:
将所述第一样本扩充后的样本添加到所述第一样本中,获得第三样本,并将所述第二样本扩充后的样本添加到所述第二样本中,获得第四样本;
分别基于所述第三样本和所述第四样本,构建意图识别模型;
基于构建的意图识别模型,获得所述对抗网络模型
在一种可能的实现方式中,所述根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图,包括:
根据所述对抗网络模型的输出结果,从所述对抗网络模型中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型;
根据确定的模型,获得所述异常样本的正确意图。
第二方面,本申请提供一种意图识别装置,所述装置包括:
信息获得模块,用于在采用预设意图识别模型对待处理对话样本进行意图识别后,获得所述预设意图识别模型识别的各个意图的类型,以及所述各个意图的类型中每一意图类型的置信度;
样本确定模块,用于根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,所述异常样本中包括多个样本;
样本处理模块,用于对所述异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型;
意图确定模块,用于根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图。
在一种可能的实现方式中,所述样本确定模块,具体用于:
分别将所述每一意图类型的置信度与所述预设置信度阈值进行比较;
若意图类型i的置信度小于所述预设置信度阈值,则确定所述意图类型i对应的对话样本为所述异常样本,从所述待处理对话样本中获取所述异常样本,其中,所述意图类型i为所述各个意图的类型中任意一个意图类型,i=1,2,…,n,n等于所述各个意图的类型的个数。
在一种可能的实现方式中,所述样本处理模块,具体用于:
将所述异常样本转化成预设语言的样本,再将所述预设语言的样本转换为所述异常样本对应的语言的样本,其中,所述预设语言为除所述异常样本对应的语言外的其它语言;
或者
根据同义词库随机替换所述异常样本中的词汇;
或者
对所述异常样本中的词汇进行批量复制粘贴。
在一种可能的实现方式中,所述异常样本中包括第一样本和第二样本所述样本处理模块,具体用于:
将所述第一样本扩充后的样本添加到所述第一样本中,获得第三样本,并将所述第二样本扩充后的样本添加到所述第二样本中,获得第四样本;
分别基于所述第三样本和所述第四样本,构建意图识别模型;
基于构建的意图识别模型,获得所述对抗网络模型
在一种可能的实现方式中,所述意图确定模块,包括:
根据所述对抗网络模型的输出结果,从所述对抗网络模型中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型;
根据确定的模型,获得所述异常样本的正确意图。
第三方面,本申请提供一种意图识别设备,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行第一方面所述的方法。
第五方面,本申请提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行第一方面所述的方法。
本申请提供的意图识别方法、装置、设备及存储介质,该方法在采用预设意图识别模型对待处理对话样本进行意图识别后,获得该预设意图识别模型识别的各个意图的类型,以及每一意图类型的置信度,进而,根据每一意图类型的置信度和预设置信度阈值,从上述待处理对话样本中确定异常样本,对该异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型,从而,根据对抗网络模型的输出结果,确定上述异常样本的正确意图,即本申请通过对异常样本进行数据扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。而且本申请基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的意图识别系统架构示意图;
图2为本申请实施例提供的一种意图识别方法的流程示意图;
图3为本申请实施例提供的另一种意图识别方法的流程示意图;
图4为本申请实施例提供的一种样本扩充示意图;
图5为本申请实施例提供的一种意图识别示意图;
图6为本申请实施例提供的一种意图识别装置的结构示意图;
图7为本申请提供的一种意图识别设备的基本硬件架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
多轮对话模型在智能客服、机器人、汽车、导航等领域均有广泛应用。在多轮对话模型的训练和建立中,需要进行用户意图识别,以解决在用户意图不明确的情况下造成的标注数据量大、答复内容不符合语境等的问题。现有用户意图识别用一批样本训练模型,并用模型对同一批样本进行预测,存在严重过拟合现象,使得用户意图识别准确率较低。
因此,本申请实施例提出一种意图识别方法,通过对训练样本进行数据扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。而且本申请实施例基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
可选地,本申请提供的一种意图识别方法,可以适用于图1所示的意图识别系统架构示意图,如图1所示,该系统可以包括接收装置101、处理装置102和显示装置103中至少一种。
在具体实现过程中,接收装置101可以是输入/输出接口,也可以是通信接口,可以用于接收待处理对话样本。
处理装置102可以通过上述接收装置101获取上述待处理对话样本,进而,预设意图识别模型对待处理对话样本进行意图识别,获得各个意图的类型,以及每一意图类型的置信度,并根据该置信度从上述待处理对话样本中确定异常样本,对该异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型,从而,确定上述异常样本的正确意图。上述处理装置102通过对异常样本进行数据扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。而且上述处理装置102基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
显示装置103可以用于对上述各个意图的类型、每一意图类型的置信度、异常样本,以及该异常样本的正确意图等进行显示。
显示装置还可以是触摸显示屏,用于在显示的上述内容的同时接收用户指令,以实现与用户的交互。
应理解,上述处理装置可以通过处理器读取存储器中的指令并执行指令的方式实现,也可以通过芯片电路实现。
上述系统仅为一种示例性系统,具体实施时,可以根据应用需求设置。
可以理解的是,本申请实施例示意的结构并不构成对电子商务系统架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
另外,本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面以几个实施例为例对本申请的技术方案进行描述,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供了一种意图识别方法的流程示意图,本实施例的执行主体可以为图1所示实施例中的处理装置,如图2所示,该方法可以包括:
S201:在采用预设意图识别模型对待处理对话样本进行意图识别后,获得上述预设意图识别模型识别的各个意图的类型,以及各个意图的类型中每一意图类型的置信度。
这里,上述待处理对话样本可以根据实际情况确定,例如上述待处理样本内容如下:
客服:您好,请问什么可以帮您:
客户:我想换个套餐
客服:请问您想转那个套餐呢
客户:给我介绍一下大王卡和冰激凌卡
客服:大王卡资费……
其中,上述预设意图识别模型可以是上述处理装置采用神经网络训练的模型(例如长短期记忆网络(Long Short-Term Memory,LSTM))。
上述处理装置采用上述预设意图识别模型对待处理对话样本进行意图识别,例如对上述客户与客服的多轮对话样本进行识别,获得上述预设意图识别模型识别的各个意图的类型,例如转大王卡、转冰激凌卡。
进一步地,上述处理装置还可以采用上述预设意图识别模型,获得上述各个意图的类型中每一意图类型的置信度,例如转大王卡,置信度0.45;转冰激凌卡,置信度0.45。
S202:根据上述每一意图类型的置信度和预设置信度阈值,从上述待处理对话样本中确定异常样本,该异常样本中包括多个样本。
其中,上述预设置信度阈值可以根据实际情况确定,例如该阈值设置为0.5。
上述处理装置在获取上述预设意图识别模型识别的各个意图的类型,以及每一意图类型的置信度后,可以分别将每一意图类型的置信度与上述预设置信度阈值进行比较。如果意图类型i的置信度小于上述预设置信度阈值,则上述处理装置可以确定意图类型i对应的对话样本为异常样本,从上述待处理对话样本中获取异常样本。其中,意图类型i为上述各个意图的类型中任意一个意图类型,i=1,2,…,n,n等于上述各个意图的类型的个数。
这里,上述处理装置对上述待处理对话样本进行异常样本筛选,例如上述预设置信度阈值为0.5,置信度小于0.5的样本为异常样本,上述处理装置从上述客户与客服的多轮对话样本筛选异常样本。转大王卡,置信度0.45;转冰激凌卡,置信度0.45,均小于置信度0.5,上述处理装置确定异常样本为转大王卡对应的对话样本,以及转冰激凌卡对应的对话样本。
S203:对上述异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型。
在本申请实施例中,上述处理装置通过对异常样本进行数据扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。
示例性的,以上述异常样本包括第一样本和第二样本为例,例如包括上述转大王卡对应的对话样本,以及转冰激凌卡对应的对话样本为例。
上述处理装置在基于样本扩充后的异常样本搭建对抗网络模型时,可以将上述第一样本扩充后的样本添加到第一样本中,获得第三样本,并将上述第二样本扩充后的样本添加到第二样本中,获得第四样本,进而,分别基于该第三样本和第四样本,构建意图识别模型,基于构建的意图识别模型,获得上述对抗网络模型。例如上述处理装置把上述转大王卡对应的对话样本扩充后的样本添加到上述转大王卡对应的对话样本,获得第三样本,并将上述转冰激凌卡对应的对话样本扩充后的样本添加到转冰激凌卡对应的对话样本中,获得第四样本,即分批把扩充样本添加到原始训练样本中,进行训练,构建意图识别模型,从而,获得对抗网络模型。
S204:根据上述对抗网络模型的输出结果,确定上述异常样本的正确意图。
这里,随着扩充样本的增加,上述对抗网络模型的训练结果会呈现不同的变化趋势,上述处理装置可以根据上述结果,从上述对抗网络模型中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型,模型对应的意图,即为上述异常样本的正确意图。
其中,上述处理装置对异常样本搭建对抗网络模型,自动为异常样本选择正确意图,减少了人工处理量。
另外,上述对抗网络模型中各个模型的训练参数需保持一致,为了节省训练时间,可以只训练一个epoche(当一个完整的数据集通过了网络一次并且返回了一次,这个过程称为一个epoch)即可。
本申请实施例在采用预设意图识别模型对待处理对话样本进行意图识别后,获得该预设意图识别模型识别的各个意图的类型,以及每一意图类型的置信度,进而,根据每一意图类型的置信度和预设置信度阈值,从上述待处理对话样本中确定异常样本,对该异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型,从而,根据对抗网络模型的输出结果,确定上述异常样本的正确意图,即本申请实施例通过对异常样本进行数据扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。而且本申请实施例基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
另外,为了满足不同应用场景下的应用需求,本申请实施例在对上述异常样本进行样本扩充时,还考虑基于不同的方式,对上述异常样本进行样本扩充,例如互译,同义词替换等方法扩充训练样本,从而,增加模型泛化能力,也有效避免过拟合现象。图3为本申请实施例提出的另一种意图识别方法的流程示意图。如图3所示,该方法包括:
S301:在采用预设意图识别模型对待处理对话样本进行意图识别后,获得上述预设意图识别模型识别的各个意图的类型,以及各个意图的类型中每一意图类型的置信度。
S302:根据上述每一意图类型的置信度和预设置信度阈值,从上述待处理对话样本中确定异常样本,该异常样本中包括多个样本。
其中,步骤S301-S302参见上述步骤S201-S202的相关描述,此处不再赘述。
S303:将上述异常样本转化成预设语言的样本,再将该预设语言的样本转换为上述异常样本对应的语言的样本,其中,上述预设语言为除上述异常样本对应的语言外的其它语言。
其中,上述异常样本对应的语言为例,上述处理装置可以将上述异常样本转化成除中文外其它语言的样本,例如英文样本,然后再将该英文样本转换为中文样本。
S304:根据同义词库随机替换上述异常样本中的词汇。
这里,上述处理装置可以首先确定上述异常样本中出现频次较多的词汇,例如出现频次超过预设频次阈值的词汇,然后,根据同义词库替换这些确定的词汇,使得对上述异常样本的扩充效果较明显,从而,后续处理能够更准确地进行。
S305:对上述异常样本中的词汇进行批量复制粘贴。
示例性的,上述处理装置可以随机对上述异常样本中的词汇进行批量复制粘贴。其中,上述批量复制粘贴的部分可以由上述处理装置根据上述异常样本的内容确定,例如将上述异常样本的核心内容作为上述批量复制粘贴的部分等,从而,突出上述异常样本的主要部分,同样,使得对上述异常样本的扩充效果较明显,提高后续处理结果的准确性。
这里,上述处理装置在对上述异常样本进行样本扩充可以采用上述步骤S303-S305中的任意一个步骤,也可以采用上述步骤S303-S305中的多个步骤组合,具体可以根据实际情况确定,图3仅以采用上述步骤S303-S305中的任意一个步骤为例。
另外,上述处理装置在采用上述步骤S303-S305中的多个步骤组合,对上述异常样本进行样本扩充时,上述步骤组合中的步骤顺序可以根据实际情况确定,例如以采用步骤组合S303-S305为例,可以先执行步骤S303,再执行步骤S304,最后执行步骤S305。
例如如图4所示,这里以上述异常样本中包括两个样本,例如第一样本和第二样本为例,第一样本的意图为A,第二样本的意图为B。上述处理装置通过上述步骤对上述异常样本进行样本扩充,例如对上述第一样本扩充,将第一样本扩充后的样本添加到第一样本中,获得第三样本,并将第二样本扩充后的样本添加到第二样本中,获得第四样本。然后,上述处理装置可以分别基于上述第三样本和第四样本,构建意图识别模型,例如模型1和模型2,基于构建的意图识别模型,获得对抗网络模型。上述处理装置还可以根据对抗网络模型的输出结果,进行条件判断,从对抗网络模型中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型,从而,根据确定的模型,获得上述异常样本的正确意图。
这里,上述处理装置分别基于上述第三样本和第四样本,构建意图识别模型,例如模型1和模型2,可以包括:在构建过程中,上述处理装置可以将上述第三样本输入模型1,然后,根据模型1输出的意图识别结果,以及上述第三样本对应的意图识别结果,确定意图识别准确率。如果该准确率低于预设准确率阈值,上述处理装置可以根据上述准确率,调整上述模型1,以提高上述准确率,并将调整后的模型1作为新的模型1,重新执行上述将上述第三样本输入模型1的步骤,从而,最后获得构建好的模型1。模型2的构建过程参照上述模型1的构建过程,最后也获得了构建好的模型2。
上述处理装置基于构建的意图识别模型,例如上述模型1和模型2,获得对抗网络模型,即该对抗网络模型中包括模型1和模型2。随着扩充样本的增加,上述对模型1和模型2的训练结果会呈现不同的变化趋势,上述处理装置可以根据上述结果,从上述模型1和模型2中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型,从而,根据确定的模型,获得上述异常样本的正确意图。
S306:基于样本扩充后的异常样本搭建对抗网络模型。
S307:根据上述对抗网络模型的输出结果,确定上述异常样本的正确意图。
其中,步骤S306-S307参见上述步骤S203-S204的相关描述,此处不再赘述。
本申请实施例为了满足不同应用场景下的应用需求,在对上述异常样本进行样本扩充时,还考虑基于不同的方式,对上述异常样本进行样本扩充,例如互译,同义词替换等方法扩充训练样本,从而,增加模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。而且本申请实施例基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
在本申请实施例中,如图5所示,上述处理装置可以首先采用预设意图识别模型对待处理对话样本进行意图识别,然后,获得上述预设意图识别模型识别的各个意图的类型,以及每一意图类型的置信度,进而,根据每一意图类型的置信度和预设置信度阈值,从上述待处理对话样本中确定异常样本。对该异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型,从而,根据对抗网络模型的输出结果,确定上述异常样本的正确意图。
其中,与现有技术相比,上述处理装置通过对样本进行数据扩充,增加了模型泛化能力,也有效避免过拟合现象,这样,基于扩充后的样本进行意图识别,提高了意图识别的准确率。而且本申请实施例基于扩充后的样本搭建对抗网络模型,自动为样本选择正确意图,能够减少人工处理量并提高效率。
对应于上文实施例的意图识别方法,图6为本申请实施例提供的意图识别装置的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。图6为本申请实施例提供的一种意图识别装置的结构示意图,该意图识别装置60包括:信息获得模块601、样本确定模块602、样本处理模块603以及意图确定模块604。这里的意图识别装置可以是上述处理装置本身,或者是实现上述处理装置的功能的芯片或者集成电路。这里需要说明的是,信息获得模块、样本确定模块、样本处理模块以及意图确定模块的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
其中,信息获得模块601,用于在采用预设意图识别模型对待处理对话样本进行意图识别后,获得所述预设意图识别模型识别的各个意图的类型,以及所述各个意图的类型中每一意图类型的置信度。
样本确定模块602,用于根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,所述异常样本中包括多个样本。
样本处理模块603,用于对所述异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型。
意图确定模块604,用于根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图。
在一种可能的实现方式中,所述样本确定模块602,具体用于:
分别将所述每一意图类型的置信度与所述预设置信度阈值进行比较;
若意图类型i的置信度小于所述预设置信度阈值,则确定所述意图类型i对应的对话样本为所述异常样本,从所述待处理对话样本中获取所述异常样本,其中,所述意图类型i为所述各个意图的类型中任意一个意图类型,i=1,2,…,n,n等于所述各个意图的类型的个数。
在一种可能的实现方式中,所述样本处理模块603,具体用于:
将所述异常样本转化成预设语言的样本,再将所述预设语言的样本转换为所述异常样本对应的语言的样本,其中,所述预设语言为除所述异常样本对应的语言外的其它语言;
或者
根据同义词库随机替换所述异常样本中的词汇;
或者
对所述异常样本中的词汇进行批量复制粘贴。
在一种可能的实现方式中,所述异常样本中包括第一样本和第二样本
所述样本处理模块603,具体用于:
将所述第一样本扩充后的样本添加到所述第一样本中,获得第三样本,并将所述第二样本扩充后的样本添加到所述第二样本中,获得第四样本;
分别基于所述第三样本和所述第四样本,构建意图识别模型;
基于构建的意图识别模型,获得所述对抗网络模型
在一种可能的实现方式中,所述意图确定模块604,包括:
根据所述对抗网络模型的输出结果,从所述对抗网络模型中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型;
根据确定的模型,获得所述异常样本的正确意图。
本申请实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本申请实施例此处不再赘述。
可选地,图7示意性地分别提供本申请所述意图识别设备的一种可能的基本硬件架构。
参见图7,意图识别设备包括至少一个处理器701以及通信接口703。进一步可选的,还可以包括存储器702和总线704。
其中,意图识别设备中,处理器701的数量可以是一个或多个,图7仅示意了其中一个处理器701。可选地,处理器701,可以是中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)或者数字信号处理器(digital signalprocessor,DSP)。如果意图识别设备具有多个处理器701,多个处理器701的类型可以不同,或者可以相同。可选地,意图识别设备的多个处理器701还可以集成为多核处理器。
存储器702存储计算机指令和数据;存储器702可以存储实现本申请提供的上述意图识别方法所需的计算机指令和数据,例如,存储器702存储用于实现上述意图识别方法的步骤的指令。存储器702可以是以下存储介质的任一种或任一种组合:非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘),易失性存储器。
通信接口703可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
可选的,通信接口703还可以用于意图识别设备与其它计算设备或者终端进行数据通信。
进一步可选的,图7用一条粗线表示总线704。总线704可以将处理器701与存储器702和通信接口703连接。这样,通过总线704,处理器701可以访问存储器702,还可以利用通信接口703与其它计算设备或者终端进行数据交互。
在本申请中,意图识别设备执行存储器702中的计算机指令,使得意图识别设备实现本申请提供的上述意图识别方法,或者使得意图识别设备部署上述的意图识别装置。
从逻辑功能划分来看,示例性的,如图7所示,存储器702中可以包括信息获得模块601、样本确定模块602、样本处理模块603以及意图确定模块604。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现信息获得模块、样本确定模块、样本处理模块以及意图确定模块的功能,而不限定是物理上的结构。
另外,上述的意图识别设备除了可以像上述图7通过软件实现外,也可以作为硬件模块,或者作为电路单元,通过硬件实现。
本申请提供一种计算机可读存储介质,所述计算机程序产品包括计算机指令,所述计算机指令指示计算设备执行本申请提供的上述意图识别方法。
本申请实施例提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行本申请提供的上述意图识别方法。
本申请提供一种芯片,包括至少一个处理器和通信接口,所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步,所述芯片还可以包含至少一个存储器,所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令,以执行本申请提供的上述意图识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
Claims (10)
1.一种意图识别方法,其特征在于,包括:
在采用预设意图识别模型对待处理对话样本进行意图识别后,获得所述预设意图识别模型识别的各个意图的类型,以及所述各个意图的类型中每一意图类型的置信度;
根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,所述异常样本中包括多个样本;
对所述异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型;
根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,包括:
分别将所述每一意图类型的置信度与所述预设置信度阈值进行比较;
若意图类型i的置信度小于所述预设置信度阈值,则确定所述意图类型i对应的对话样本为所述异常样本,从所述待处理对话样本中获取所述异常样本,其中,所述意图类型i为所述各个意图的类型中任意一个意图类型,i=1,2,…,n,n等于所述各个意图的类型的个数。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述异常样本进行样本扩充,包括:
将所述异常样本转化成预设语言的样本,再将所述预设语言的样本转换为所述异常样本对应的语言的样本,其中,所述预设语言为除所述异常样本对应的语言外的其它语言;
或者
根据同义词库随机替换所述异常样本中的词汇;
或者
对所述异常样本中的词汇进行批量复制粘贴。
4.根据权利要求1或2所述的方法,其特征在于,所述异常样本中包括第一样本和第二样本;
所述基于样本扩充后的异常样本搭建对抗网络模型,包括:
将所述第一样本扩充后的样本添加到所述第一样本中,获得第三样本,并将所述第二样本扩充后的样本添加到所述第二样本中,获得第四样本;
分别基于所述第三样本和所述第四样本,构建意图识别模型;
基于构建的意图识别模型,获得所述对抗网络模型。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图,包括:
根据所述对抗网络模型的输出结果,从所述对抗网络模型中确定结果准确率梯度达到准确率梯度阈值或损失函数梯度低于预设损失梯度阈值的模型;
根据确定的模型,获得所述异常样本的正确意图。
6.一种意图识别装置,其特征在于,包括:
信息获得模块,用于在采用预设意图识别模型对待处理对话样本进行意图识别后,获得所述预设意图识别模型识别的各个意图的类型,以及所述各个意图的类型中每一意图类型的置信度;
样本确定模块,用于根据所述每一意图类型的置信度和预设置信度阈值,从所述待处理对话样本中确定异常样本,所述异常样本中包括多个样本;
样本处理模块,用于对所述异常样本进行样本扩充,并基于样本扩充后的异常样本搭建对抗网络模型;
意图确定模块,用于根据所述对抗网络模型的输出结果,确定所述异常样本的正确意图。
7.根据权利要求6所述的装置,其特征在于,所述样本确定模块,具体用于:
分别将所述每一意图类型的置信度与所述预设置信度阈值进行比较;
若意图类型i的置信度小于所述预设置信度阈值,则确定所述意图类型i对应的对话样本为所述异常样本,从所述待处理对话样本中获取所述异常样本,其中,所述意图类型i为所述各个意图的类型中任意一个意图类型,i=1,2,…,n,n等于所述各个意图的类型的个数。
8.一种意图识别设备,其特征在于,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-5任一项所述的方法的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行权利要求1-5任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110991234.7A CN113569581B (zh) | 2021-08-26 | 2021-08-26 | 意图识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110991234.7A CN113569581B (zh) | 2021-08-26 | 2021-08-26 | 意图识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569581A true CN113569581A (zh) | 2021-10-29 |
CN113569581B CN113569581B (zh) | 2023-10-17 |
Family
ID=78172927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110991234.7A Active CN113569581B (zh) | 2021-08-26 | 2021-08-26 | 意图识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569581B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076654A (zh) * | 2023-10-18 | 2023-11-17 | 联通在线信息科技有限公司 | 用于对话系统的异常检测方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977401A (zh) * | 2019-03-15 | 2019-07-05 | 上海火商智能科技有限公司 | 一种基于神经网络的语义识别方法 |
US20200159997A1 (en) * | 2017-06-26 | 2020-05-21 | Microsoft Technology Licensing, Llc | Generating responses in automated chatting |
CN111209384A (zh) * | 2020-01-08 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答数据处理方法、装置及电子设备 |
CN111626063A (zh) * | 2020-07-28 | 2020-09-04 | 浙江大学 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
CN112154465A (zh) * | 2018-09-19 | 2020-12-29 | 华为技术有限公司 | 一种意图识别模型的学习方法、装置及设备 |
CN112446213A (zh) * | 2020-11-26 | 2021-03-05 | 电子科技大学 | 一种文本语料扩充方法 |
CN112818096A (zh) * | 2021-01-26 | 2021-05-18 | 广州三星通信技术研究有限公司 | 对话生成方法及其装置 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
CN113094481A (zh) * | 2021-03-03 | 2021-07-09 | 北京智齿博创科技有限公司 | 意图识别方法、装置、电子设备及计算机可读存储介质 |
CN113139063A (zh) * | 2021-06-21 | 2021-07-20 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及存储介质 |
-
2021
- 2021-08-26 CN CN202110991234.7A patent/CN113569581B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200159997A1 (en) * | 2017-06-26 | 2020-05-21 | Microsoft Technology Licensing, Llc | Generating responses in automated chatting |
CN112154465A (zh) * | 2018-09-19 | 2020-12-29 | 华为技术有限公司 | 一种意图识别模型的学习方法、装置及设备 |
CN109977401A (zh) * | 2019-03-15 | 2019-07-05 | 上海火商智能科技有限公司 | 一种基于神经网络的语义识别方法 |
CN111209384A (zh) * | 2020-01-08 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答数据处理方法、装置及电子设备 |
CN111626063A (zh) * | 2020-07-28 | 2020-09-04 | 浙江大学 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
CN112446213A (zh) * | 2020-11-26 | 2021-03-05 | 电子科技大学 | 一种文本语料扩充方法 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
CN112818096A (zh) * | 2021-01-26 | 2021-05-18 | 广州三星通信技术研究有限公司 | 对话生成方法及其装置 |
CN113094481A (zh) * | 2021-03-03 | 2021-07-09 | 北京智齿博创科技有限公司 | 意图识别方法、装置、电子设备及计算机可读存储介质 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN113139063A (zh) * | 2021-06-21 | 2021-07-20 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
周新宇: "基于神经网络的汉语asr识别对话短文本意图匹配", 中国优秀硕士学位论文全文数据库信息科技辑, no. 4, pages 138 - 1073 * |
赵鹏飞: "基于迁移学习的意图识别方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 8, pages 140 - 94 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076654A (zh) * | 2023-10-18 | 2023-11-17 | 联通在线信息科技有限公司 | 用于对话系统的异常检测方法及装置 |
CN117076654B (zh) * | 2023-10-18 | 2024-02-27 | 联通在线信息科技有限公司 | 用于对话系统的异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113569581B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114399769B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
CN110188202B (zh) | 语义关系识别模型的训练方法、装置及终端 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN113590776B (zh) | 基于知识图谱的文本处理方法、装置、电子设备及介质 | |
CN113836925B (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN110825827B (zh) | 一种实体关系识别模型训练、实体关系识别方法及装置 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN113821616A (zh) | 领域自适应的槽位填充方法、装置、设备及存储介质 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN113190746B (zh) | 推荐模型的评估方法、装置及电子设备 | |
CN113569581A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN113947189A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN112883736A (zh) | 医疗实体关系抽取方法和装置 | |
CN115544204A (zh) | 一种不良语料过滤方法以及系统 | |
CN115080745A (zh) | 基于人工智能的多场景文本分类方法、装置、设备及介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN112765973A (zh) | 评分模型训练方法及装置、作文评分方法及装置 | |
CN113836939B (zh) | 基于文本的数据分析方法和装置 | |
CN111767710A (zh) | 印尼语的情感分类方法、装置、设备及介质 | |
CN111782762A (zh) | 问答应用中相似问题确定方法、装置、电子设备 | |
CN113705206B (zh) | 情感预测模型的训练方法、装置、设备及存储介质 | |
CN116150406B (zh) | 上下文稀疏实体链接方法、装置、计算机设备和存储介质 | |
US20230342553A1 (en) | Attribute and rating co-extraction | |
JP7247497B2 (ja) | 選定装置および選定方法 | |
CN116468038A (zh) | 信息抽取方法、训练信息抽取模型的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |