CN113239702A - 意图识别方法、装置、电子设备 - Google Patents

意图识别方法、装置、电子设备 Download PDF

Info

Publication number
CN113239702A
CN113239702A CN202110516802.8A CN202110516802A CN113239702A CN 113239702 A CN113239702 A CN 113239702A CN 202110516802 A CN202110516802 A CN 202110516802A CN 113239702 A CN113239702 A CN 113239702A
Authority
CN
China
Prior art keywords
intention
query input
matching
category
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110516802.8A
Other languages
English (en)
Inventor
刘操
袁家振
龚彦韬
宋挺
杨帆
蔡勋梁
万广鲁
陈见耸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110516802.8A priority Critical patent/CN113239702A/zh
Publication of CN113239702A publication Critical patent/CN113239702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请公开了一种意图识别方法,属于计算机技术领域,用于提升意图识别准确度。所述意图识别方法包括:通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别,提升了意图识别的准确度。

Description

意图识别方法、装置、电子设备
技术领域
本申请实施例涉及计算机技术领域,特别是涉及一种意图识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能和深度学习技术的快速发展,基于深度学习模型的意图识别已经成为了当前研究的大趋势,其应用场景也越来越多。以面向任务的对话系统为例,通常来说,面向任务的对话系统包括语音识别,意图识别,对话管理,自然语言生成,语音合成等多个模块。意图识别作为对话系统中的一个重要环节,其识别结果的准确度直接影响了对话系统的性能和用户体验。现有技术中,意图识别的常见流程是:将用户输入进行编码后得到用户输入的编码向量,之后,通过意图分类模块对编码向量进行分类处理,得到与用户输入匹配的意图类别。现有技术中,通常情况下,意图分类模型为基于用户输入与意图类别构建的训练样本训练的单任务分类模型,意图识别准确率有待提高。
申请人注意到,现有技术中存在包括意图识别和实体识别两个任务的神经网络模型,意图识别任务和实体识别任务可以共用部分模型参数,其目的是提升意图识别的准确性。然而,现有技术中的这种意图识别方法,至少存在以下缺陷:意图和实体之间不存在必然联系,实体训练数据对意图识别准确度提升效果不稳定。
可见,现有技术中的意图识别方法还需要改进。
发明内容
本申请实施例提供一种意图识别方法,有助于提升意图识别准确度。
第一方面,本申请实施例提供了一种意图识别方法,包括:
通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;
通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;
根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别。
第二方面,本申请实施例提供了一种意图识别装置,包括:
编码模块,用于通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;
意图类别匹配概率确定模块,用于通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;
意图类别确定模块,用于根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的意图识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的意图识别方法的步骤。
本申请实施例公开的意图识别方法,通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别,有助于提升意图识别的准确度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例一的意图识别方法流程图之一;
图2是本申请实施例一的意图识别方法流程图之二;
图3是本申请实施例一的意图识别方法中多任务模型结构示意图;
图4是本申请实施例二的意图识别装置结构示意图之一;
图5是本申请实施例二的意图识别装置结构示意图之二;
图6示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
图7示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请实施例公开的一种意图识别方法,如图1所示,所述方法包括:步骤110至步骤130。
步骤110,通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码。
本申请实施例中所述的预设编码器可以为现有技术中通用的文本编码网络模型。例如,所述预设编码器可以为现有技术中的BERT模型,或者Word2Vec(词向量)模型、CNN(Convolutional Neural Network,卷积神经网络模型)、RNN(Recurrent Neural Network,循环神经网络模型)、LSTM(long-short term memory,长短期记忆模型)等。
本申请的一些实施例中,所述预设编码器为预先训练的多任务模型中主干网络结构中的编码网络模块。例如,多任务模型中的基础网络部分,可以基于BERT模型结构或者其他神经网络模型结构,实现所述预设编码器。
在模型训练阶段和线上预测阶段,所述编码器用于对输入的文本进行编码,并输出编码处理后得到的向量表示。即预设编码器对查询输入文本进行编码处理后,将输出该查询输入文本的特征编码,预设编码器对意图类别文本进行编码处理后,将输出该意图类别文本的特征编码。
步骤120,通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率。
其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的。
本申请的一些实施例中,如图2所示,所述通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码的步骤之前,还包括:步骤100。
步骤100,根据查询输入与意图类别的若干匹配组合,训练所述多任务模型。
本申请的一些实施例中,预先定义若干查询输入文本和若干意图类别文本,并根据业务需求确定查询输入文本与意图类别文本的匹配关系;或者,根据用户的历史查询和点击行为数据,确定查询输入文本与意图类别文本的匹配关系;之后,进一步根据查询输入文本与意图类别文本的匹配关系,建立查询输入与意图类别的若干匹配组合。
进一步的,可以通过训练多任务模型的方式,对所述若干匹配组合中查询输入与意图类别的匹配关系,以及,查询输入与意图类别的语义信息的关联度进行学习,以学习到查询输入到意图类别的映射关系,以用于根据所述映射关系确定指定查询输入匹配的意图类别。其中,所述多任务模型中包括两个任务:意图分类任务、意图匹配任务,每个任务有不同的学习目标,每个任务的参数更新过程依据这两个任务的学习结果执行。
本申请的一些实施例中,所述预先训练的意图分类模型基于预先训练的多任务模型构建。以图3所示的多任务模型结构为例,图3中,所述多任务模型结构包括:编码器310、意图分类网络分支320和意图匹配网络分支330,以及多任务融合层340,本申请实施例中所述意图分类模型与所述意图分类网络分支320采用相同的网络结构,并共享网络参数。
下面结合图3所示的多任务模型的网络结构,举例说明意图分类网络分支320的训练过程。意图分类模型的训练过程本质上是意图分类网络分支320的训练过程。
如图3所示的多任务模型的网络结构,所述多任务模型中包括两个分支网络,即意图分类网络分支320和意图匹配网络分支330,每个分支网络用于实现不同的任务,其中,所述意图分类网络分支320用于实现意图分类任务,所述意图匹配网络分支330用于实现意图匹配任务。所述多任务融合层340通过融合意图分类网络分支320和意图匹配网络分支330的损失值,计算所述多任务模型的损失值。本申请实施例中,通过联合训练所述多任务模型中的意图分类任务和意图匹配任务,使得在意图分类任务的训练过程中,除了学习查询输入与意图类别的语义匹配关系之外,进一步结合意图类别与查询输入的信息之间的关联,进行参数优化。
本申请的一些实施例中,所述根据查询输入与意图类别的若干匹配组合,训练所述多任务模型,包括:通过所述预设编码器对每个所述匹配组合中的所述查询输入和所述意图类别分别进行编码处理,确定所述查询输入的特征编码和所述意图类别的特征编码;通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码匹配预设意图类别的概率分布进行预估,确定第一损失值;通过所述意图匹配任务,对所述匹配组合中所述查询输入的所述特征编码与所述意图类别的特征编码之间的语义相似度进行预估,确定第二损失值;融合所述第一损失值和所述第二损失值,得到的所述多任务模型的损失值;通过优化所述意图分类任务和所述意图匹配任务的网络参数,优化所述多任务模型的损失值,对所述多任务模型进行迭代训练。
在所述多任务模型的训练过程中,首先通过编码器310对每个所述匹配组合中的所述查询输入和所述意图类别分别进行编码处理,分别确定每个匹配组合中查询输入的特征编码和意图类别的特征编码。
之后,分别通过意图分类任务和意图匹配任务对所述编码器310的输出进行特征映射处理,确定相应任务对应的损失值。
例如,将每个匹配组合中查询输入的特征编码输入至意图分类网络分支320,通过执行意图分类任务,对输入的每个特征编码分别进行分类映射,预估各特征编码匹配预设意图类别的概率分布,之后,再根据预估的所有特征编码匹配预设意图类别的概率分布,与各特征编码所述查询输入匹配的预设意图类别的真实概率分布之间的误差,确定意图分类任务的第一损失值。
例如,将各匹配组合中查询输入的特征编码和意图类别的特征编码输入至意图匹配网络分支330,通过执行意图匹配任务,对存在匹配关系的查询输入和意图类别的特征编码进行相似度计算,以及,对不存在匹配关系的查询输入和意图类别的特征编码进行相似度计算,并根据与各匹配组合相关的相似度计算结果,确定意图匹配任务的第二损失值。
最后,融合所述第一损失值和所述第二损失值,得到的所述多任务模型的损失值。并以优化所述损失值为目标,优化所述意图分类任务和所述意图匹配任务的网络参数,对所述多任务模型进行迭代训练。
本申请的一些实施例中,在模型参数优化过程中,还包括优化所述编码器310的网络参数。例如,所述编码器310可以采用现有技术中通用的BERT模型,在多任务模型训练过程成,通过优化编码器310的参数,可以使得编码器310更加适用于意图识别场景中的文本编码。
本申请的一些实施例中,所述通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码匹配预设意图类别的概率分布进行预估,确定第一损失值,包括:通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码进行分类映射,确定各所述查询输入匹配预设意图类别的概率预估值;根据各所述查询输入匹配预设意图类别的概率预估值、所述查询输入匹配预设意图类别的概率真实值,确定第一损失值,其中,所述查询输入匹配预设意图类别的概率真实值是根据所述查询输入匹配的意图类别确定的。
本申请实施例中,所述意图分类网络分支320采用分类网络构建,所述意图分类任务通过对输入的特征编码执行多类别映射,确定输入的特征编码匹配每个意图类别的概率值。
以预设意图类别包括C种标准意图类别为例,可以通过一个C维向量标识每个查询输入匹配预设意图类别的概率真实值,其中,每个维度的向量取值分别表示查询输入匹配该维度对应的意图类别的概率。如果根据上述匹配组合确定某一查询输入匹配意图类别1,则将上述C维向量中对应意图类别1的向量取值设置为1,将上述C维向量中对应其他意图类别的向量取值设置为0,得到的C维向量可以用于标识该查询输入匹配预设意图类别的概率真实值。
在训练所述多任务模型的过程中,将上述匹配组合中的各查询输入的编码特征输入至所述意图分类网络分支320之后,所述意图分类任务将进一步对所述特征编码执行分类映射,得到一个C维向量,该C维向量用于指示输入的特征编码匹配预设的C种意图类别的概率预估值。
在得到每个查询输入分别匹配不同意图类别的概率预估值之后,可以使用交叉熵将根据各所述查询输入匹配预设意图类别的概率预估值转化为意图分类任务的第一损失值。本申请的一些实施例中,例如可以通过以下公式确定意图分类任务的第一损失值loss1:
Figure BDA0003062624080000071
其中,C表示意图类别的数量,N表示匹配组合的数量,i和j分别表示查询输入和意图类别的标识,
Figure BDA0003062624080000081
表示第i个查询输入匹配第j个意图类别的概率真实值,
Figure BDA0003062624080000082
表示第i个查询输入匹配第j个意图类别的概率预估值。
本申请的另一些实施例中,还可以将各所述查询输入匹配预设意图类别的概率预估值与所述查询输入匹配预设意图类别的概率真实值之间的累计误差,确定为意图分类任务的第一损失值。
本申请对确定意图分类任务的第一损失值的具体实施方式不做限定,此处亦不一一例举。
本申请的一些实施例中,所述通过所述意图匹配任务,对所述匹配组合中所述查询输入的所述特征编码与所述意图类别的特征编码之间的语义相似度进行预估,确定第二损失值,包括:选择所述若干匹配组合中的至少部分匹配组合,分别执行以下相似度预估操作:以同一所述匹配组合中的所述查询输入和所述意图类别作为匹配正例,以不同所述匹配组合中的所述查询输入和所述意图类别作为匹配负例,通过所述意图匹配任务,分别确定各所述匹配正例中和各所述匹配负例中所述查询输入的所述特征编码与所述意图类别的所述特征编码之间的语义相似度;根据确定的各所述语义相似度,确定第二损失值。
例如,通过对所述若干匹配组合进行下采样,确定多个批次的匹配组合,之后,对于每个批次匹配组合,将该批次匹配组合中的每个匹配组合作为匹配正例,将该批次匹配组合中某一匹配组合中的查询输入与其他匹配组合中的意图类别分别组成匹配负例,以得到若干匹配负例;然后,通过所述意图匹配任务分别计算各匹配正例中查询输入的特征编码和意图类别的特征编码的相似度,以及,分别计算各匹配负例中查询输入的特征编码和意图类别的特征编码的语义相似度。查询输入的特征编码和意图类别的特征编码的语义相似度,反映了相应查询输入和意图类别的语义相似度。最后,根据各匹配正例中查询输入和意图类别的语义相似度,以及各匹配负例中查询输入和意图类别的语义相似度,确定意图匹配任务的第二损失值。
本申请的一些实施例中,可以采用余弦相似度表示查询输入的特征编码和意图类别的特征编码之间的语义相似度。例如,通过公式sij=cos(ui,lj)计算第i个查询输入的特征编码ui和第j个意图类别的特征编码lj之间的语义相似度sij。本申请的另一些实施例中,还可以首先将第i个查询输入的特征编码ui和第j个意图类别的特征编码lj进行拼接,然后通过多层感知器(MLP)对拼接得到的向量进行映射,得到第i个查询输入的特征编码ui和第j个意图类别的特征编码lj的语义相似度得分。
本申请的其他实施例中,还可以通过其他方式计算第i个查询输入的特征编码ui和第j个意图类别的特征编码lj的语义相似度,本申请实施例中不再一一例举。本申请对计算查询输入的特征编码和意图类别的特征编码的语义相似度的具体实施方式不做限定。
由于意图匹配任务的目标是确定查询输入与意图类别的语义相似度,因此,意图匹配网络分支330的优化目标应为匹配正例中查询输入和意图类别的语义相似度最大化,或者,匹配正例中查询输入和意图类别的语义相似度最大化且匹配负例中查询输入和意图类别的语义相似度最小化。鉴于此,本申请的一些实施例中,在根据确定的各所述语义相似度,确定第二损失值时,可以将各匹配正例中查询输入的特征编码和意图类别的特征编码之间的语义相似度之和作为第二损失值。将各匹配正例对应的语义相似度。本申请的另一些实施例中,在根据确定的各所述语义相似度,确定第二损失值时,还可以通过Margin(边界)损失函数,根据各匹配正例中查询输入的特征编码和意图类别的特征编码之间的语义相似度,以及,各匹配负例中查询输入的特征编码和意图类别的特征编码之间的语义相似度,计算第二损失值。
本申请的一些实施例中,所述根据确定的各所述语义相似度,确定第二损失值,包括:根据各所述匹配正例中和各所述匹配负例中所述查询输入的所述特征编码与所述意图类别的所述特征编码之间的语义相似度,生成相似度矩阵;其中,所述相似度矩阵的行和列与查询输入和意图类别分别对应,所述相似度矩阵的指定行指定列的矩阵元素表示相应查询输入和意图类别的特征编码之间的语义相似度;所述相似度矩阵的对角线上的矩阵元素表示匹配正例中查询输入和意图类别的特征编码之间的语义相似度;生成与所述相似度矩阵对应的单位矩阵;通过对所述相似度矩阵与所述单位矩阵执行预设矩阵运算,确定第二损失值。
以选择的所述至少部分匹配组合为X个,其中包括X个查询输入和X个意图类别为例,将第i个匹配组合中的查询输入表示为Qi,将第i个匹配组合中的意图类别表示为Li,则第i个匹配组合表示为(Qi,Li),其中,1≤i≤X,上述X个匹配组合为匹配正例。然后,对于每个匹配正例,将该匹配正例中的查询输入分别与其他X-1个匹配组合中的意图类别组成X-1个匹配负例,确定与每个匹配正例对应的X-1个匹配负例,例如,分别表示为(Q1,L2)、(Q1,L3)、…、(Q1,LX)、(Q2,L1)、(Q2,L3)……之后,按照上述方法,可以分别确定每个匹配正例中查询输入的特征编码与意图类别的特征编码之间的语义相似度,以及,分别确定每个匹配负例中查询输入的特征编码与意图类别的特征编码之间的语义相似度。本申请的实施例中,将查询输入Qi的特征编码ui与意图类别Li的特征编码li之间的语义相似度表示为Sii
接下来,构建相似度矩阵S[i][j],其中,第i行对应查询输入Qi的特征编码分别与各意图类别的特征编码之间的语义相似度,第j列对应意图类别Lj的特征编码分别与各查询输入的特征编码之间的语义相似度,相似度矩阵S[i][j]的第i行第j列的矩阵元素表示查询输入Qi和意图类别Lj的特征编码ui和li之间的语义相似度。由此可见,所述相似度矩阵的对角线上的矩阵元素表示匹配正例中查询输入和意图类别的特征编码之间的语义相似度。
由于意图匹配任务的优化目标是最大化匹配正例对应的语义相似度,本申请的一些实施例中,可以生成一个形状和相似度矩阵一样的单位矩阵作为意图匹配任务的标签,最后,通过对所述相似度矩阵和单位矩阵执行预设矩阵运算,计算第二损失值。例如,通过将所述相似度矩阵和单位矩阵进行矩阵相乘,并计算相乘后得到的矩阵中各矩阵元素的累加和,将所述累加和作为第二损失值。本申请的另一些实施例中,还可以通过对所述相似度矩阵和单位矩阵执行其他矩阵运算,计算第二损失值,使得计算得到第二损失值能够体现最大化相似度矩阵中对角线上的元素之和的目标。
在完成多任务模型的训练之后,将所述多任务模型中包括编码器310、意图分类网络分支320的网络部分用于意图识别阶段,其中,意图分类网络分支320作为意图识别模型。
在意图识别阶段,将待识别查询输入输入至编码器之后,所述编码器将输出该识别查询输入的特征编码,之后,将该识别查询输入的特征编码输入至意图识别模型中,所述意图识别模型将输出与所述特征编码对应的C维向量,该C维向量的每个维度的数值用于指示所述待识别查询输入与该维度对应的意图类别的匹配概率。
步骤130,根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别。
如前所述,所述意图识别模型将输出的C维向量中每个维度的数值用于指示所述待识别查询输入与该维度对应的意图类别的匹配概率,本申请的一些实施例中,可以取所述匹配概率最大值对应的意图类别,作为该待识别查询输入匹配的意图类别。
本申请实施例公开的意图识别方法,通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别,有助于提升意图识别的准确度。
本申请实施例公开的意图识别方法,在模型训练阶段,通过所任务模型对意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系进行学习,使得在学习查询输入与意图类别的映射关系时,充分利用了查询输入的标签语义信息,有效提升了利用学习到的查询输入与意图类别的映射关系,识别查询输入匹配的意图类别的准确度。
并且,多任务模型训练过程中采用的训练数据为查询输入与意图类别的匹配组合,即仅需要为查询输入进行意图类别标注,不需要针对多任务模型中的其他任务进行额外的数据标注,减小了多任务模型训练样本的标注工作量,提升了多任务模型的训练效率。即本申请实施例公开的意图识别方法既提升了意图识别准确率,又减少了意图识别模型的训练工作量。
实施例二
本申请实施例公开的一种意图识别装置,如图4所示,所述装置包括:
编码模块410,用于通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;
意图类别匹配概率确定模块420,用于通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;
意图类别确定模块430,用于根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别。
本申请的一些实施例中,所述多任务模型中还包括意图匹配任务,如图5所示,所述装置还包括:
多任务模型训练模块400,用于根据查询输入与意图类别的若干匹配组合,训练所述多任务模型。
本申请的一些实施例中,所述多任务模型训练模块400,进一步用于:
通过所述预设编码器对每个所述匹配组合中的所述查询输入和所述意图类别分别进行编码处理,确定所述查询输入的特征编码和所述意图类别的特征编码;
通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码匹配预设意图类别的概率分布进行预估,确定第一损失值;
通过所述意图匹配任务,对所述匹配组合中所述查询输入的所述特征编码与所述意图类别的特征编码之间的语义相似度进行预估,确定第二损失值;
融合所述第一损失值和所述第二损失值,得到的所述多任务模型的损失值;
通过优化所述意图分类任务和所述意图匹配任务的网络参数,优化所述多任务模型的损失值,对所述多任务模型进行迭代训练。
本申请的一些实施例中,所述通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码匹配预设意图类别的概率分布进行预估,确定第一损失值,包括:
通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码进行分类映射,确定各所述查询输入匹配预设意图类别的概率预估值;
根据各所述查询输入匹配预设意图类别的概率预估值、所述查询输入匹配预设意图类别的概率真实值,确定第一损失值,其中,所述查询输入匹配预设意图类别的概率真实值是根据所述查询输入匹配的意图类别确定的。
本申请的一些实施例中,所述通过所述意图匹配任务,对所述匹配组合中所述查询输入的所述特征编码与所述意图类别的特征编码之间的语义相似度进行预估,确定第二损失值,包括:
选择所述若干匹配组合中的至少部分匹配组合,分别执行以下相似度预估操作:以同一所述匹配组合中的所述查询输入和所述意图类别作为匹配正例,以不同所述匹配组合中的所述查询输入和所述意图类别作为匹配负例,通过所述意图匹配任务,分别确定各所述匹配正例中和各所述匹配负例中所述查询输入的所述特征编码与所述意图类别的所述特征编码之间的语义相似度;
根据确定的各所述语义相似度,确定第二损失值。
本申请的一些实施例中,所述根据确定的各所述语义相似度,确定第二损失值,包括:
根据各所述匹配正例中和各所述匹配负例中所述查询输入的所述特征编码与所述意图类别的所述特征编码之间的语义相似度,生成相似度矩阵;其中,所述相似度矩阵的行和列与查询输入和意图类别分别对应,所述相似度矩阵的指定行指定列的矩阵元素表示相应查询输入和意图类别的特征编码之间的语义相似度;所述相似度矩阵的对角线上的矩阵元素表示匹配正例中查询输入和意图类别的特征编码之间的语义相似度;
生成与所述相似度矩阵对应的单位矩阵;
通过对所述相似度矩阵与所述单位矩阵执行预设矩阵运算,确定第二损失值。
本申请实施例公开的意图识别装置,用于实现本申请实施例一中所述的意图识别方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。
本申请实施例公开的意图识别装置,通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别,有助于提升意图识别的准确度。
本申请实施例公开的意图识别装置,在模型训练阶段,通过所任务模型对意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系进行学习,使得在学习查询输入与意图类别的映射关系时,充分利用了查询输入的标签语义信息,有效提升了利用学习到的查询输入与意图类别的映射关系,识别查询输入匹配的意图类别的准确度。
并且,多任务模型训练过程中采用的训练数据为查询输入与意图类别的匹配组合,即仅需要为查询输入进行意图类别标注,不需要针对多任务模型中的其他任务进行额外的数据标注,减小了多任务模型训练样本的标注工作量,提升了多任务模型的训练效率。即本申请实施例公开的意图识别方法既提升了意图识别准确率,又减少了意图识别模型的训练工作量。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种意图识别方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图6示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器610和存储器620及存储在所述存储器620上并可在处理器610上运行的程序代码630,所述处理器610执行所述程序代码630时实现上述实施例中所述的方法。所述存储器620可以为计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码630的存储空间6201。例如,用于程序代码630的存储空间6201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码630为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码,当所述计算机可读代码在电子设备上运行时,导致所述电子设备执行根据上述实施例的方法。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的意图识别方法的步骤。
这样的计算机程序产品可以为计算机可读存储介质,该计算机可读存储介质可以具有与图6所示的电子设备中的存储器620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图7所述的便携式或者固定存储单元。通常,存储单元包括计算机可读代码630’,所述计算机可读代码630’为由处理器读取的代码,这些代码被处理器执行时,实现上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种意图识别方法,其特征在于,包括:
通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;
通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;
根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别。
2.根据权利要求1所述的方法,其特征在于,所述多任务模型中还包括意图匹配任务,所述通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码的步骤之前,还包括:
根据查询输入与意图类别的若干匹配组合,训练所述多任务模型。
3.根据权利要求2所述的方法,其特征在于,所述根据查询输入与意图类别的若干匹配组合,训练所述多任务模型的步骤,包括:
通过所述预设编码器对每个所述匹配组合中的所述查询输入和所述意图类别分别进行编码处理,确定所述查询输入的特征编码和所述意图类别的特征编码;
通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码匹配预设意图类别的概率分布进行预估,确定第一损失值;
通过所述意图匹配任务,对所述匹配组合中所述查询输入的所述特征编码与所述意图类别的特征编码之间的语义相似度进行预估,确定第二损失值;
融合所述第一损失值和所述第二损失值,得到的所述多任务模型的损失值;
通过优化所述意图分类任务和所述意图匹配任务的网络参数,优化所述多任务模型的损失值,对所述多任务模型进行迭代训练。
4.根据权利要求3所述的方法,其特征在于,所述通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码匹配预设意图类别的概率分布进行预估,确定第一损失值的步骤,包括:
通过所述意图分类任务,对所述匹配组合中所述查询输入的所述特征编码进行分类映射,确定各所述查询输入匹配预设意图类别的概率预估值;
根据各所述查询输入匹配预设意图类别的概率预估值、所述查询输入匹配预设意图类别的概率真实值,确定第一损失值,其中,所述查询输入匹配预设意图类别的概率真实值是根据所述查询输入匹配的意图类别确定的。
5.根据权利要求3所述的方法,其特征在于,所述通过所述意图匹配任务,对所述匹配组合中所述查询输入的所述特征编码与所述意图类别的特征编码之间的语义相似度进行预估,确定第二损失值的步骤,包括:
选择所述若干匹配组合中的至少部分匹配组合,分别执行以下相似度预估操作:以同一所述匹配组合中的所述查询输入和所述意图类别作为匹配正例,以不同所述匹配组合中的所述查询输入和所述意图类别作为匹配负例,通过所述意图匹配任务,分别确定各所述匹配正例中和各所述匹配负例中所述查询输入的所述特征编码与所述意图类别的所述特征编码之间的语义相似度;
根据确定的各所述语义相似度,确定第二损失值。
6.根据权利要求5所述的方法,其特征在于,所述根据确定的各所述语义相似度,确定第二损失值的步骤,包括:
根据各所述匹配正例中和各所述匹配负例中所述查询输入的所述特征编码与所述意图类别的所述特征编码之间的语义相似度,生成相似度矩阵;其中,所述相似度矩阵的行和列与查询输入和意图类别分别对应,所述相似度矩阵的指定行指定列的矩阵元素表示相应查询输入和意图类别的特征编码之间的语义相似度;所述相似度矩阵的对角线上的矩阵元素表示匹配正例中查询输入和意图类别的特征编码之间的语义相似度;
生成与所述相似度矩阵对应的单位矩阵;
通过对所述相似度矩阵与所述单位矩阵执行预设矩阵运算,确定第二损失值。
7.一种意图识别装置,其特征在于,包括:
编码模块,用于通过预设编码器对待识别查询输入进行编码处理,确定所述待识别查询输入的特征编码;
意图类别匹配概率确定模块,用于通过预先训练的意图分类模型对所述待识别查询输入的所述特征编码进行分类映射,确定所述待识别查询输入匹配预设意图类别的概率;其中,所述意图分类模型与预先训练的多任务模型中的意图分类任务共享模型参数,所述多任务模型是结合意图类别与查询输入的信息之间的关联,以及意图类别与查询输入的语义匹配关系训练得到的;
意图类别确定模块,用于根据所述待识别查询输入匹配所述预设意图类别的所述概率,确定所述待识别查询输入匹配的所述预设意图类别。
8.根据权利要求7所述的装置,其特征在于,所述多任务模型中还包括意图匹配任务,所述装置还包括:
多任务模型训练模块,用于根据查询输入与意图类别的若干匹配组合,训练所述多任务模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至6任意一项所述的意图识别方法。
10.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至6任意一项所述的意图识别方法的步骤。
CN202110516802.8A 2021-05-12 2021-05-12 意图识别方法、装置、电子设备 Pending CN113239702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516802.8A CN113239702A (zh) 2021-05-12 2021-05-12 意图识别方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516802.8A CN113239702A (zh) 2021-05-12 2021-05-12 意图识别方法、装置、电子设备

Publications (1)

Publication Number Publication Date
CN113239702A true CN113239702A (zh) 2021-08-10

Family

ID=77133591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516802.8A Pending CN113239702A (zh) 2021-05-12 2021-05-12 意图识别方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN113239702A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792818A (zh) * 2021-10-18 2021-12-14 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN114064870A (zh) * 2021-11-10 2022-02-18 京东科技信息技术有限公司 面向多模态的对话方法、装置、电子设备、存储介质
CN114706945A (zh) * 2022-03-24 2022-07-05 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792818A (zh) * 2021-10-18 2021-12-14 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN113792818B (zh) * 2021-10-18 2023-03-10 平安科技(深圳)有限公司 意图分类方法、装置、电子设备及计算机可读存储介质
CN114064870A (zh) * 2021-11-10 2022-02-18 京东科技信息技术有限公司 面向多模态的对话方法、装置、电子设备、存储介质
CN114064870B (zh) * 2021-11-10 2024-04-05 京东科技信息技术有限公司 面向多模态的对话方法、装置、电子设备、存储介质
CN114706945A (zh) * 2022-03-24 2022-07-05 马上消费金融股份有限公司 意图识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN113239702A (zh) 意图识别方法、装置、电子设备
US20200382612A1 (en) Interpretable user modeling from unstructured user data
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN116663568B (zh) 基于优先级的关键任务识别系统及其方法
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN113435499B (zh) 标签分类方法、装置、电子设备和存储介质
CN111694936B (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
CN116844573A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN114707518B (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN115062769A (zh) 基于知识蒸馏的模型训练方法、装置、设备及存储介质
CN116562952A (zh) 虚假交易订单检测方法及装置
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN113850686A (zh) 投保概率确定方法、装置、存储介质及电子设备
CN112906398A (zh) 句子语义匹配方法、系统、存储介质和电子设备
CN113469237A (zh) 用户意图识别方法、装置、电子设备及存储介质
CN111178630A (zh) 一种负荷预测方法及装置
CN111445271A (zh) 模型生成方法、作弊酒店的预测方法、系统、设备和介质
CN113761918A (zh) 一种数据处理方法及装置
CN112507126B (zh) 一种基于循环神经网络的实体链接装置和方法
CN113160795B (zh) 语种特征提取模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination