CN115129859A - 意图识别方法、装置、电子装置及存储介质 - Google Patents
意图识别方法、装置、电子装置及存储介质 Download PDFInfo
- Publication number
- CN115129859A CN115129859A CN202210351232.6A CN202210351232A CN115129859A CN 115129859 A CN115129859 A CN 115129859A CN 202210351232 A CN202210351232 A CN 202210351232A CN 115129859 A CN115129859 A CN 115129859A
- Authority
- CN
- China
- Prior art keywords
- intention
- grained
- fine
- real
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种意图识别方法、装置、电子装置及存储介质,该方法,包括:获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测第一语料所对应的细粒度意图信息,细粒度意图信息包括多种用于描述对应意图的第一实词;检验多种第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为第二实词的多种第一实词,组合生成备选意图;在预设的意图信息中检测备选意图,并根据检测结果确定意图识别结果。通过本申请,解决在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低的问题,实现了细粒度意图识别,并在训练样本少且类别不均衡时能够高效准确的进行细粒度识别的有益效果。
Description
技术领域
本申请涉及意图识别技术领域,尤其涉及一种意图识别方法、装置、电子装置及存储介质。
背景技术
意图识别是通过分类等方法将句子或者疑问query映射到相应的意图种类,意图识别的准确性直接决定着相关技术中的智能搜索,智能问答的效果。相关技术中,意图识别方法包括:基于模板和规则的匹配的方法和基于机器学习和深度学习的文本分类方法,其中,基于机器学习和深度学习的方法具有较好的泛化性而被广泛使用。
相关技术中,基于机器学习和深度学习的意图识别,采用预训练语言模型(例如:双向注意力神经网络模型(Bidirectional Encoder Representations fromTransformers,Bert)在训练后进行意图识别。相关技术中,基于机器学习和深度学习的意图识别,识别的意图的细粒度不够,并且,在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低。
针对相关技术中在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低的问题,尚未存在有效的解决方案。
发明内容
本申请提供了一种意图识别方法、装置、电子装置及存储介质,以至少解决相关技术中在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低的问题。
第一方面,本申请提供了一种意图识别方法,包括:获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测所述第一语料所对应的细粒度意图信息,其中,所述细粒度意图信息包括多种用于描述对应意图的第一实词,所述细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;检验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为所述第二实词的多种所述第一实词,组合生成备选意图;在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果。
第二方面,本申请提供了一种意图识别装置,包括:
预测模块,用于获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测所述第一语料所对应的细粒度意图信息,其中,所述细粒度意图信息包括多种用于描述对应意图的第一实词,所述细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;
生成模块,用于检验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为所述第二实词的多种所述第一实词,组合生成备选意图;
处理模块,用于在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果。
第三方面,提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的意图识别方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的意图识别方法的步骤。
本申请可以应用于意图识别领域进行细粒度的意图识别。本申请实施例提供的意图识别方法、装置、电子装置及存储介质,通过获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测所述第一语料所对应的细粒度意图信息,所述细粒度意图信息包括多种用于描述对应意图的第一实词,所述细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;检验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为所述第二实词的多种所述第一实词,组合生成备选意图;在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果,解决相关技术中在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低的问题,实现了细粒度意图识别,并在训练样本少且类别不均衡时能够高效准确的进行细粒度识别的有益效果。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种意图识别方法的流程示意图;
图2为本申请优选实施例优选实施例的意图识别的流程示意图;
图3是本申请实施例的意图识别装置的结构示意图;
图4是本申请实施例的电子装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对本申请实施例进行描述之前,对本申请实施例的意图识别方法所运用的相关技术手段以及相关技术中存在的问题进行如下说明。
双向注意力神经网络模型(Bidirectional Encoder Representations fromTransformers,简称 Bert)是一种语言表示模型,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示,然后将文本的语义表示在特定自然语言理解NLP任务中作微调,最终应用于该NLP任务。
相关技术中,意图识别方法主要分为基于模板和规则的匹配的方法和基于机器学习和深度学习的文本分类方法;其中,基于模板和规则的方法需要耗费大量的人力资源,且泛化性不高,适合一些非常简单的场景;基于机器学习和深度学习的方法具有较好的泛化性,主流的方法是使用预训练模型(Bert、自回归预训练模型XLNet)在下游任务(即意图分类任务) 上进行微调,也就是标准的pretrain+fine-tune范式,这种范式可以达到不错的效果,但存在的问题是预训练阶段和下游任务阶段使用的是不同的训练方法,使得下游任务难以充分利用预训练语言模型中的知识;同时,下游任务阶还受限与训练数据量少以及类别样本数量不均衡带来的一系列问题,而对于意图识别任务来说,要使的意图具有很好的细粒度,则表示意图的类别的数量多,意图类别之间的关联性强,此时,训练出好的模型对于训练数据的数量和质量都有很高的要求,也就是在相关技术中,细粒度意图的类别很多,识别复杂,并且在构建对应的语言模型时,难以准备数量足够而且各个类别数量均衡的训练样本,而训练样本少,类别不均衡情况下会使的深度学习模型训练达到好的效果。
在本申请的意图识别中,引入提示学习(Prompt-learning),并融入了Prompt的新范式,该Prompt范式包括:预训练(pre-train)、提示学习(prompt)和预测(predict)。在该模式中,下游任务被重新调整成类似预训练任务的形式,即采用遮蔽词预测训练(MaskLanguage Model,Mask LM)预测[MASK]位置的单词,通过上、下游训练任务的同源的方式,籍以更好的激发预训练语言模型的潜力。
本申请描述的各种技术可用于问答、语言推断、文本分类、自然语言理解等任务。
图1为本申请实施例提供的一种意图识别方法的流程示意图。如图1所示,本申请实施例提供了一种意图识别方法,该方法包括如下步骤:
步骤S101,获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测第一语料所对应的细粒度意图信息,其中,细粒度意图信息包括多种用于描述对应意图的第一实词,细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的。
在本实施例中,第一语料对应为一句具有某种意图的语句,例如:麻烦帮我看一下我的订单都有哪些,该语料中,对应的标准的意图为:查询订单,而在原始语料(第一语料)中的相关的描述意图的词有:“看”、“订单”。
在本实施例中,第一实词是指用于描述细粒度意图信息的不同词性的实词,且实词包括动词、名词,其中,动词和名词分别为一种细粒度的词,在本实施例中,通过对应的动词与名词组合,从而可以形成多种意图;在本实施例中,在获得第一语料后,通过细粒度意图预测模型对输入的第一语料进行预测,进而获得对应的细粒度意图信息,而细粒度意图信息是通过不同词性的实词(例如:动词、名词)进行描述的,也就是通过不同的第一实词进行组合而描述对应的细粒度信息;在本实施例中,将通过细粒度意图预测模型预测得到的表示意图的短语拆解为不同词性的词,从而对相关的意图进行细粒度的表述,例如:可以将对应的意图信息拆解为“动词(谓语)+名词(对象词)的格式,更具体的,“查询订单”拆解为“查询+ 订单”、“查询账户余额”拆解为“查询+账户余额””,通过采用相同的动词和不同的名词组合,相同的名词和不同的动词组合,实现细粒度意图。
在本实施例中,细粒度度预测模型是先将预设的原始语料(对应第二语料)进行对应的预训练,在预训练完成后,在将第二语料和第三语料按对应的模板转换为对应的范式,然后,将该范式的数据作为输入对完成预训练的语言模型进行进一步训练(对应为提示学习训练,也就是Prompt训练),如此,在训练完成后,通过该细粒度意图预测模型对输入的第一语料进行预测,则可以得到按对应的词序格式排布的细粒度意图信息;在本实施例中,细粒度意图预测模型在预训练阶段分别进行遮蔽词预测(也叫带mask的语言模型训练,MaskLanguage Model,简称Mask LM)训练和下一句预测训练(Next Sentence Prediction,简称NSP),而在Prompt训练中,进行的是Mask LM训练,对应的数据为按设定的模板转换后的数据,如此,实现上下游训练任务的同源。
步骤S102,检验多种第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为第二实词的多种第一实词,组合生成备选意图。
在本实施例中,意图类别标签是指一类实词的集合,在设定某个词或词语为某个意图类别标签的标签词,该意图类别标签所关联的第二实词则可以是该标签词本身,也可以是该标签才的近似词,还可以是与该标签词的词向量相似度大于设定阈值的词,例如,以“查询”为某个意图类别标签的标签词,该意图类别标签所关联的第二实词则可以{“查询”、“查找”、“查看”、“搜索”、……}”,又例如:标签词为“取消”时,对应的意图类标签所关联的第二实词可以为{“取消”、“消除”、“删除”、……}。
在本实施例中,通过校验第一实词是否属于某个意图类别标签对应的第二实词,从而确定对应意图是否采用该意图类别标签对应的第二实词进行细粒度,并在校验第一实词属于对应的第二实词时,则至少可以采用该意图类别标签对应的标签词对意图进行细粒度,也就是采用对应的标签词进行组合生成备选意图,例如:在通过细粒度意图预测模型对意图为“查询订单”的语料进行预测,预测出的词为“搜索、订单”时,对应的第一实词为“搜索(动词)、订单(名词)”,可以校验到“搜索”属于已构建的意图类别标签对应的第二实词,如此,可以采用该意图类别标签的标签词“查询”与“订单”进行备选意图的生成。
在本实施例中,意图类别标签构建之后,会在进行细粒度意图预测模型训练和第一实词的校验过程中使用,例如:在细粒度意图预测模型训练过程中,构建的意图类别标签所关联的第二实词会作为输出目标(意图)的某种词性的实词,从而使的细粒度意图预测模型已该词性的实词为训练目标,进行对应的参数调参。
步骤S103,在预设的意图信息中检测备选意图,并根据检测结果确定意图识别结果。
在本实施例中,在第一实词校验为对应的第二实词之后,基于多种第一实词进行组合,可以组合生成多种意图,此时,对组合生成的多种意图进行与已有意图进行校验,从而确定意图识别结果,并在组合生成的意图位于已有的意图列表中的一种时,确定待识别的意图识为对应的备选意图。
在本实施例中,已有的意图是根据多个已构建的意图类别标签所关联的第二实词进行组合生成的意图。
通过上述步骤S101至步骤S103,采用获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测所述第一语料所对应的细粒度意图信息,所述细粒度意图信息包括多种用于描述对应意图的第一实词,所述细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;检验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为所述第二实词的多种所述第一实词,组合生成备选意图;在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果,解决相关技术中在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低的问题,实现了细粒度意图识别,并在训练样本少且类别不均衡时能够高效准确的进行细粒度识别的有益效果。
在其中一些实施例中,步骤S102中的校验多种第一实词是否为已构建的意图类别标签所关联的第二实词,可以通过如下步骤实现:
步骤21、获取第二实词,其中,第二实词至少包括以下其中一种:意图类别标签所对应类别的标签词、标签词对应的近似词。
步骤22、在第二实词中查找第一实词。
在本实施例中,通过在意图类别标签所关联的第二实词(多个实词)中检测第一实词,从而完成对第一实词是否为已构建的意图类别标签所关联的第二实词的校验;在本实施例中,进行的校验为校验预测出的词是否在标签词以及标签词对应的近似词中。
步骤23、在查找到第一实词的情况下,确定第一实词为已构建的意图标签所关联的第二实词。
通过上述步骤中的获取第二实词;在第二实词中查找第一实词;在查找到第一实词的情况下,确定第一实词为已构建的意图标签所关联的第二实词,完成对预测出的细粒度意图的词的校验,籍以实现通过设定的策略控制意图识别的输出,提高细粒度意图识别模型预测的正确性。
在其中一些实施例中,在未查找第一实词的情况下,还实施如下步骤:
步骤31、获取所有已构建的意图类别标签所关联的第二实词。
在本实施例中,获取的第二实词是构建的表征意图的细粒度的所有词,也就是构建的所有不同词性的意图类别标签对应的所有第二实词;在本实施例中,已构建的意图类别标签对应为构建的答案工程。
步骤32、计算多种第一实词与所有已构建的意图类别标签所关联的第二实词的词向量余弦相似度。
步骤33、判断每种第一实词所对应的词向量余弦相似度中最高相似度是否高于预设阈值。
步骤34、在判断到最高相似度高于预设阈值的情况下,确定对应的第一实词为第二实词,并将最高相似度对应的第二实词对应的标签词作为第一实词对应的标签词。
在本实施例中,是在预测出的实词不在标签词以及标签词对应的近似词中,进行的通过余弦距离进行映射;而余弦距离映射的方式是分别将预测出的词与所有已构建的意图类别标签所关联的第二实词计算词向量余弦相似度,取最高相似度,若最高相似度高于所设定的阈值,确定第一实词在第二实词中,并将将预测出的第一实词映射为最高相似度对应的第二实词所在的意图类别标签。
通过上述步骤中的获取所有已构建的意图类别标签所关联的第二实词;计算多种第一实词与所有已构建的意图类别标签所关联的第二实词的词向量余弦相似度;判断每种第一实词所对应的词向量余弦相似度中最高相似度是否高于预设阈值;在判断到最高相似度高于预设阈值的情况下,确定对应的第一实词为第二实词,并将最高相似度对应的第二实词对应的标签词作为第一实词对应的标签词,实现进行细粒度的词的校验,进一步实现通过设定的策略控制意图识别的输出,提高细粒度意图识别模型预测的正确性。
在其中一些实施例中,在未查找第一实词的情况下,还实施如下步骤:
步骤41、获取所有已构建的意图类别标签所关联的第二实词。
步骤42、计算多种第一实词与所有已构建的意图类别标签所关联的第二实词的词向量余弦相似度。
步骤43、判断每种第一实词所对应的词向量余弦相似度中最高相似度是否高于预设阈值。
步骤44、在判断到最高相似度低于预设阈值的情况下,确定意图识别结果包括意图不明确。
通过上述步骤中的获取所有已构建的意图类别标签所关联的第二实词;计算多种第一实词与所有已构建的意图类别标签所关联的第二实词的词向量余弦相似度;判断每种第一实词所对应的词向量余弦相似度中最高相似度是否高于预设阈值;在判断到最高相似度低于预设阈值的情况下,确定意图识别结果包括意图不明确,完成对细粒度意图识别模型预测的词的校验,并实现根据对细粒度的词的校验,完成对意图识别结果的确定。
在其中一些实施例中,意图信息包括意图列表,步骤S103中的在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果,可以通过如下步骤实现:
步骤51、获取预设的意图列表,其中,意图列表包括多个已构建的意图。
在本实施例中,已构建的意图是根据创建的意图类别标签中的第二实词(包括动词和名词)创建的意图,例如:查询订单、查询账户余额;在本实施例中,已构建的意图采用意图列表的形式进行存储。
步骤52、在多个已构建的意图中检测备选意图,并在检测到备选意图时,确定待识别的意图包括备选意图。
在本实施例中,在已构建的意图中检测备选意图,可以采用遍历的方式进行检测,还通过其他方式进行检测;在本实施例中,当检测到对应的备选意图时,则表明意图识别是正确的,进而表明该备选意图可以作为意图识别的结果。
通过上述步骤中的获取预设的意图列表,其中,意图列表包括多个已构建的意图;在多个已构建的意图中检测备选意图,并在检测到备选意图时,确定待识别的意图包括备选意图,采用对组合生成的意图进行进一步验证,实现了确定意图识别结果、提高模型预测的正确率的技术效果。
在其中一些实施例中,还实施如下步骤:
步骤61、获取预设的意图列表,其中,意图列表包括多个已构建的意图。
步骤62、在多个已构建的意图中检测备选意图,并在未检测到备选意图时,确定意图识别结果包括意图不明确。
通过上述步骤中的获取预设的意图列表,意图列表包括多个已构建的意图;在多个已构建的意图中检测备选意图,并在未检测到备选意图时,确定意图识别结果包括意图不明确,实现对备选意图的进一步校验和确定意图识别的结果。
在其中一些实施例中,还实施如下步骤:细粒度意图预测模型为双向注意力神经网络模型Bert,细粒度意图预测模型训练过程包括如下步骤:
步骤71、基于预训练任务所对应的样本配置规则和第二语料,生成遮蔽词训练数据和下一句预测数据,并将遮蔽词训练数据和下一句预测数据输入到Bert语言模型中,依次进行语言模型预训练的遮蔽词训练Masked LM和下一句预测训练NSP。
在本实施例中,选择bert-chinese-base中文模型为预训练模型,预训练方式采用遮蔽词训练(Mask Language Model,简称Mask LM)和下一句预测训练(Next SentencePrediction,简称NSP),其中为了契合后面的提示学习训练,Mask LM预训练方式必不可少;对于Mask LM任务,随机掩码语料中15%的token进行训练;对于NSP,当为每个预测样例选择一个句子对A和B,50%的概率B是A后面的下一个句子,50%的概率B是语料库中的一个随机句子。
需要说明的是,如果意图识别场景为专业领域,与通用领域存在较大偏差(如医疗,法律等含有较多专业词汇的领域),可以使用专业领域业务相关的语料进一步对模型进行领域预训练,进一步的领域预训练可以将专业的领域知识加入到语言模型中,使模型更好的适应对应的业务场景,从而加速后面的训练任务并提升意图识别的效果,领域预训练的训练数据构建方式与bert预训练的构建方式一致。
步骤72、构建第一预设格式的第三语料,并将第二语料和第三语料按预设范式生成对应的提示训练语料文本,其中,第三语料所对应的预设格式与按预设排序排布的预设的细粒度意图的词序格式对应。
在本实施例中,构建第一预设格式的第三语料,并将第二语料和第三语料按预设范式生成对应的提示训练语料文本对应为构建细粒度Prompt工程。
需要说明的是,为了实现细粒度的意图识别,将意图拆解成“动词(谓语)+名称(对象词)”的形式,例如:“查询订单”拆解成“查询+订单”,相同的动词可以和不同的名词组合,相同的名词也可以和不同的动词组合,从而实现细粒度意图;经过拆解,Prompt需要做的就是分别预测出模板中的动词和名称,即可确定最后的意图,如果预测出的动词+名词有很多个组合,可以通过设定的预测推理策略来确定最后的真实意图;在具体实施例中,构建Prompt 工程的方式有很多,例如,可以采用基于业务场景人为构建一个或多个语义流畅清晰的模板,在构建模板的时候,把动词和名词作为两个mask,例如:“我想[mask][mask],query”,“[mask]”是需要预测的词,即动词和名词,query即为原始的用户输入。
需要进一步说明的是,基础的细粒度Prompt工程可以用以上方式构建,但是存在的问题是中文预训练模型通常都是以字为单位进行预训练的,也就是一个“[mask]”只能预测一个字,而名词和动词通常是多个字的,并且长短不一,因而,采用如下方式解决:首先拆解类别标签中所有的细粒度意图,分别找出长度最长的名词和动词,以最长的名词和动词为基准,其余长度小于基准的词用padding的形式解决,因padding并不会对预测产生影响,所以,将词表示成多个[mask]加[pad](padding)的形式;同时,为了将动词和名词区分开,可以在中间添加一个[sep]进行隔离,例如:意图类别标签中动词最长为3个字符,名词最长为4个字符,细粒度Prompt工程:“我想[查询][订单],麻烦帮我看一下我的订单都有哪些”可以表示成“我想[mask][mask][mask][sep][mask][mask][mask][mask],麻烦帮我看一下我的订单都有哪些”,其中,我想[mask][mask][mask][sep][mask][mask][mask][mask]对应为第三语料,“麻烦帮我看一下我的订单都有哪些”对应为第二语料。
步骤73、基于预设的细粒度意图,构建与预设的细粒度意图对应的训练意图类别标签。
在本实施例中,根据预设的细粒度意图,进行意图类别标签的构建,也就是对应为构建答案工程(answer工程),具体地,由于Mask LM在[mask]位置可以预测出的词是很多的,因此,需要构建一个词表到类别标签的映射,该映射能让Mask LM在预测到类别标签的相关词时,则可以被分到指定类别去,例如,对应“查询”所对应的类别,细粒度意图预测模型可能会预测出“查找”,“查看”、“搜索”等等,则将““查找”,“查看”、“搜索””分到“查询”类别中;进一步的,当需要构建的是意图中的名词,动词与其相关或近似词的映射,则可以先手动归纳一些近似词,然后可以基于预训练词向量和余弦距离自动召回一些相关词加入到映射中去,从而形成对应意图类别标签,训练所使用的则是训练意图类别标签。
步骤74、将提示训练语料文本转换为第二预设格式的提示训练语料,并以提示训练语料为输入、以训练意图类别标签为输出目标对完成预训练的Bert语言模型进行提示学习训练,直至拟合,以得到细粒度预测模型。
在本实施例中,将提示训练语料文本转换为第二预设格式的提示训练语料是将提示训练语料文本按创建好的Prompt工程模板转换Prompt格式,例如:当提示训练语料文本为:{麻烦帮我看一下我的订单都有哪些,我想[mask] [mask][pad][sep][mask][mask][mask][mask][pad][pad]},转换后的提示训练语料为:{麻烦帮我看一下我的订单都有哪些,意图是[mask] [mask][pad][sep][mask][mask][mask][mask][pad][pad]}。
需要说明的是,在训练过程中,针对Prompt工程中的[mask],采用Mask LM的训练方式,如此,可以更好的将模型推向正确的方向,提升预测的准确性,并且该训练对于样本的数量和类别数据的均衡性要求并不高,同时,因为训练任务主要针对的是Prompt工程中的[mask],所以可以不再进行任何随机mask。
图2为本申请优选实施例优选实施例的意图识别的流程示意图,该方法流程包括如下步骤:
步骤S201、通过细粒度意图预测模型预测动词与名词,之后,执行步骤S202。
步骤S202、判断预测出的动词与名词是否能与构建的意图类别标签进行映射,如果是,则执行步骤S204,如果否,执行步骤S203。
在本实施例中,构建的意图类别标签对应为构建的answer工程,所谓映射,则是指预测出的词是否在意图类别标签所关联的细粒度的词中。
步骤S203,通过词向量余弦相似度进行判断预测出的动词与名词是否能与构建的意图类别标签进行映射,如果是,则执行步骤S204,如果否,执行步骤S206。
步骤S204,判断根据预测出的动词和名词组合的意图是否在意图列表中,如果是,执行步骤S205,如果否,则执行步骤S206。
步骤S205,输出意图。
步骤S206,确定意图不明确。
图3是本申请实施例的数据处理装置的结构框图,如图3所示,该装置包括:
预测模块31,用于获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测第一语料所对应的细粒度意图信息,其中,细粒度意图信息包括多种用于描述对应意图的第一实词,细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;
生成模块32,与预测模块31耦合连接,用于检验多种第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为第二实词的多种第一实词,组合生成备选意图;
处理模块33,与生成模块32耦合连接,用于在预设的意图信息中检测备选意图,并根据检测结果确定意图识别结果。
通过本申请实施例的装置,采用获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测第一语料所对应的细粒度意图信息,细粒度意图信息包括多种用于描述对应意图的第一实词,细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;检验多种第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为第二实词的多种第一实词,组合生成备选意图;在预设的意图信息中检测备选意图,并根据检测结果确定意图识别结果,解决相关技术中在细粒度意图识别场景中,当训练样本少且类别不均衡时,会造成意图识别困难,意图识别准确率低、识别效率低的问题,实现了细粒度意图识别,并在训练样本少且类别不均衡时能够高效准确的进行细粒度识别的有益效果。
在其中一些实施例中,该生成模块32进一步包括:
第一获取单元,用于获取第二实词,其中,第二实词至少包括以下其中一种:意图类别标签所对应类别的标签词、标签词对应的近似词;
第一查找单元,与第一获取单元耦合连接,用于在第二实词中查找第一实词。
第一确定单元,与第一查找单元耦合连接,用于在查找到第一实词的情况下,确定第一实词为已构建的意图标签所关联的第二实词。
在其中一些实施例中,该第一确定单元还用于获取所有已构建的意图类别标签所关联的第二实词;计算多种第一实词与所有已构建的意图类别标签所关联的第二实词的词向量余弦相似度;判断每种第一实词所对应的词向量余弦相似度中最高相似度是否高于预设阈值;在判断到最高相似度高于预设阈值的情况下,确定对应的第一实词为第二实词,并将最高相似度对应的第二实词对应的标签词作为第一实词对应的标签词。
在其中一些实施例中,该第一确定单元还用于在判断到最高相似度低于预设阈值的情况下,确定意图识别结果包括意图不明确。
在其中一些实施例中,意图信息包括意图列表,该处理模块33进一步包括:
第二获取单元,用于获取预设的意图列表,其中,意图列表包括多个已构建的意图;
第二确定单元,与第二获取单元耦合连接,用于在多个已构建的意图中检测备选意图,并在检测到备选意图时,确定待识别的意图包括备选意图。
在其中一些实施例中,该第二确定单元还用于在未检测到备选意图时,确定意图识别结果包括意图不明确。
图4是本申请实施例的电子装置的结构示意图,如图4所示,本申请实施例提供了一种电子装置,包括处理器41、通信接口42、存储器43和通信总线44,其中,处理器41,通信接口 42,存储器43通过通信总线44完成相互间的通信,
存储器43,用于存放计算机程序;
处理器41,用于执行存储器43上所存放的程序时,实现图1中的方法步骤。
该服务器中的处理实现图1中的方法步骤,所带来的技术效果与上述实施例执行图1中意图识别方法的技术效果一致,在此不再赘述。
上述电子装置提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4 中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的意图识别方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的意图识别方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种意图识别方法,其特征在于,包括:
获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测所述第一语料所对应的细粒度意图信息,其中,所述细粒度意图信息包括多种用于描述对应意图的第一实词,所述细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;
检验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为所述第二实词的多种所述第一实词,组合生成备选意图;
在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果。
2.根据权利要求1所述的方法,其特征在于,校验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,包括:
获取所述第二实词,其中,所述第二实词至少包括以下其中一种:所述意图类别标签所对应类别的标签词、所述标签词对应的近似词;
在所述第二实词中查找所述第一实词;
在查找到所述第一实词的情况下,确定所述第一实词为已构建的意图标签所关联的第二实词。
3.根据权利要求2所述的方法,其特征在于,在未查找所述第一实词的情况下,所述方法还包括:
获取所有已构建的意图类别标签所关联的所述第二实词;
计算多种所述第一实词与所有已构建的意图类别标签所关联的所述第二实词的词向量余弦相似度;
判断每种所述第一实词所对应的所述词向量余弦相似度中最高相似度是否高于预设阈值;
在判断到所述最高相似度高于预设阈值的情况下,确定对应的所述第一实词为所述第二实词,并将所述最高相似度对应的所述第二实词对应的所述标签词作为所述第一实词对应的标签词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在判断到所述最高相似度低于预设阈值的情况下,确定意图识别结果包括意图不明确。
5.根据权利要求1所述的方法,其特征在于,所述意图信息包括意图列表,在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果,包括:
获取预设的所述意图列表,其中,所述意图列表包括多个已构建的意图;
在多个所述已构建的意图中检测所述备选意图,并在检测到所述备选意图时,确定待识别的意图包括所述备选意图。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在未检测到所述备选意图时,确定意图识别结果包括意图不明确。
7.根据权利要求1所述的方法,其特征在于,所述细粒度意图预测模型为双向注意力神经网络模型Bert,所述细粒度意图预测模型训练过程包括:
基于预训练任务所对应的样本配置规则和所述第二语料,生成遮蔽词训练数据和下一句预测数据,并将所述遮蔽词训练数据和所述下一句预测数据输入到Bert语言模型中,依次进行语言模型预训练的遮蔽词训练Masked LM和下一句预测训练NSP;
构建第一预设格式的所述第三语料,并将所述第二语料和所述第三语料按预设范式生成对应的提示训练语料文本,其中,所述第三语料所对应的预设格式与按预设排序排布的所述预设的细粒度意图的词序格式对应;
基于所述预设的细粒度意图,构建与所述预设的细粒度意图对应的训练意图类别标签;
将所述提示训练语料文本转换为第二预设格式的提示训练语料,并以所述提示训练语料为输入、以所述训练意图类别标签为输出目标对完成预训练的所述Bert语言模型进行提示学习训练,直至拟合,以得到所述细粒度预测模型。
8.一种意图识别装置,其特征在于,包括:
预测模块,用于获取用户输入的待识别的第一语料,利用细粒度意图预测模型预测所述第一语料所对应的细粒度意图信息,其中,所述细粒度意图信息包括多种用于描述对应意图的第一实词,所述细粒度意图预测模型是根据具有预设的细粒度意图的第二语料、掩码该预设的细粒度意图的第三语料和该预设的细粒度意图训练的;
生成模块,用于检验多种所述第一实词是否为已构建的意图类别标签所关联的第二实词,并根据校验为所述第二实词的多种所述第一实词,组合生成备选意图;
处理模块,用于在预设的意图信息中检测所述备选意图,并根据检测结果确定意图识别结果。
9.一种电子装置,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7任一项所述的意图识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210351232.6A CN115129859A (zh) | 2022-04-02 | 2022-04-02 | 意图识别方法、装置、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210351232.6A CN115129859A (zh) | 2022-04-02 | 2022-04-02 | 意图识别方法、装置、电子装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115129859A true CN115129859A (zh) | 2022-09-30 |
Family
ID=83376591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210351232.6A Pending CN115129859A (zh) | 2022-04-02 | 2022-04-02 | 意图识别方法、装置、电子装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129859A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618968A (zh) * | 2022-12-02 | 2023-01-17 | 北京红棉小冰科技有限公司 | 新意图发现方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-02 CN CN202210351232.6A patent/CN115129859A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618968A (zh) * | 2022-12-02 | 2023-01-17 | 北京红棉小冰科技有限公司 | 新意图发现方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
Williams et al. | A broad-coverage challenge corpus for sentence understanding through inference | |
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN111552821B (zh) | 法律意图搜索方法、法律意图搜索装置和电子设备 | |
CN112417102B (zh) | 一种语音查询方法、装置、服务器和可读存储介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113743099B (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
Yan et al. | Response selection from unstructured documents for human-computer conversation systems | |
CN114818729A (zh) | 一种训练语义识别模型、查找语句的方法、装置及介质 | |
CN114756663A (zh) | 一种智能问答方法、系统、设备及计算机可读存储介质 | |
CN112464655A (zh) | 中文字符和拼音相结合的词向量表示方法、装置、介质 | |
CN111476026A (zh) | 语句向量的确定方法、装置、电子设备及存储介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN115129859A (zh) | 意图识别方法、装置、电子装置及存储介质 | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
Sun et al. | Tibetan Question Generation Based on Sequence to Sequence Model. | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |