CN115408509B - 一种意图识别方法、系统、电子设备和存储介质 - Google Patents
一种意图识别方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115408509B CN115408509B CN202211355375.0A CN202211355375A CN115408509B CN 115408509 B CN115408509 B CN 115408509B CN 202211355375 A CN202211355375 A CN 202211355375A CN 115408509 B CN115408509 B CN 115408509B
- Authority
- CN
- China
- Prior art keywords
- intention
- corpus
- target
- sentence
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 239000000463 material Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000013145 classification model Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种意图识别方法、系统、电子设备和存储介质,属于意图识别领域。收集目标场景下的目标意图语料库和非目标意图语料库;训练双头意图识别模型,输出各语料对应的特征一和特征二;获取语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;拼接特征一、特征二和特征三,根据总特征训练第三分类器;由双头意图识别模型、类内期望向量和类内协方差矩阵计算待识别语料的总特征,进而得到意图识别结果。本发明在加强对非目标意图识别的同时,提高了模型的目标识别结果,鲁棒性高,适用范围广。
Description
技术领域
本发明属于意图识别领域,尤其涉及一种意图识别方法、系统和存储介质。
背景技术
意图识别一般是通过分类模型或者匹配模型对已知意图的语料进行有监督训练而实现的。在很多场景下,比如问答场景,意图类别的搜索空间是很大的,一般只关注目标意图,定义出所有可能的意图是不可实现的,而模型对在训练集中未出现的意图(即“其他意图”)的样例,会有不可控的识别结果,即容易出现错识别或者误识别的情况。对“其他意图”的处理是意图识别任务上一个比较经典的问题,“其他意图”误识别的现象也会在业务落地过程中造成一定的阻力。
为了解决“其他意图”误识别的问题,其中一种现有方案是通过预先设置分类模型置信度阈值,即通过一种后处理的方式过滤掉置信度低的样例,但预设分类模型阈值只能缓解一部分“其他意图”误识别的现象,且会损失部分模型置信度低但有正确意图的例句,很难有效对指定的“其他意图”例句进行过滤。
另一种现有方案是通过在目标意图语料库中增加“其他意图”类,利用包含有“其他意图”类的语料库训练一个意图识别模型。但是,仅仅在目标意图语料库中增加“其他意图”类的方式,在实际操作中由于很难搜集到足够的“其他意图”训练样本,导致意图识别模型对“其他意图”例句的敏感性依然不高。
发明内容
为了提高现有的意图识别方法针对其他意图的识别准确率低、鲁棒性差的问题,本发明提出了一种通用的可有效提升意图识别鲁棒性的意图识别方法、系统、电子设备和存储介质。
本发明采用的技术方案如下:
第一方面,本发明提供了一种意图识别方法,包括:
收集目标场景下的目标意图语料库和非目标意图语料库;
利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;
获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
拼接特征一、特征二和特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
根据所述的双头意图识别模型、类内期望向量和类内协方差矩阵计算待识别语料的总特征作为训练好的第三分类器的输入,得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
第二方面,本发明提供了一种意图识别系统,包括:
语料库获取模块,其用于收集目标场景下的目标意图语料库和非目标意图语料库;
双头意图识别模型构建及训练模块,其用于利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;
意图簇构建及距离计算模块,其用于获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
第三分类器构建及训练模块,其用于拼接双头意图识别模型构建及训练模块得到的特征一、特征二,以及意图簇构建及距离计算模块得到的特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
意图识别模块,其用于获取待识别语料的总特征,并利用训练好的第三分类器得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
第三方面,本发明提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的意图识别方法。
第四方面,本发明提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现上述的意图识别方法。
本发明具备的有益效果是:
(1)本发明通过将筛选得到的其他意图的语料进行聚类处理的方式,能够搜集到多样且经典的其他意图语料,为提高模型的鲁棒性奠定了基础,并在此基础上,通过将多种意图的已有语料的句特征进行融合的方式合成新的其他意图的句特征,加强了对模型的训练,进一步增强了模型对潜在的不同其他意图例句的曝光,提高了意图识别模型对其他意图例句的敏感性。
(2)本发明采用了一个编码器和三个分类器的网络结构,结合通过计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵作为各类目标意图的意图簇的方法,将中间两个分类器的输出概率作为特征一和特征二,将语料句特征与各类目标意图的意图簇的最近距离作为特征三,采用多种特征结合的方式获取更全面的句特征,提高了模型对其他意图语料识别的鲁棒性,进而提高了对多目标意图的识别精度。
附图说明
图1是本发明实施例示出的意图识别方法的整体流程示意图。
图2是本发明实施例示出的整体训练流程示意图。
图3是本发明实施例示出的目标意图语料库和非目标意图语料库的构建方法流程示意图。
图4是本发明实施例示出的双头意图识别模型的训练过程示意图。
图5是本发明实施例示出的利用训练好的模型进行意图识别推理过程的示意图。
图6是本发明实施例示出的意图识别系统的结构示意图。
图7是本发明实施例示出的用于实现意图识别方法的电子设备终端结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本发明所使用的术语“或/和”包括一个或多个相关的所列实施例的任意的和所有的组合。
如图1所示,一种意图识别方法,其特征在于,包括:
S01,收集目标场景下的目标意图语料库和非目标意图语料库;
S02,利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;
S03,获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
S04,拼接特征一、特征二和特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
S05,根据所述的双头意图识别模型、类内期望向量和类内协方差矩阵计算待识别语料的总特征作为训练好的第三分类器的输入,得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
上述步骤S01-S04介绍了模型训练过程,参见图2,其目的是得到训练好的双头意图识别模型和第三分类器,以及得到各类目标意图的意图簇。步骤S05介绍了模型推理过程。
上述步骤S01旨在收集目标场景下的目标意图语料库和非目标意图语料库。本步骤中,目标意图语料库是针对实际场景设计的,例如针对电商客服机器人自动问答场景下,可以预设目标意图包括“询问商品价格”、“询问商品颜色”、“询问发货时间”、“询问快递”、“询问退货”共五类常见意图,将这五类以外的意图全部记为“其他意图”,若客服机器人识别用户语句属于其他意图,则接入人工客服。或者,目标意图也可以包含更多的种类,例如在活动通知场景下,可以预设目标意图包括“什么店铺”、“什么活动”等63种意图,实际在问答场景中,用户可能会有比较长尾的问答,而这部分问答,在定义意图的过程中没有覆盖到,或者被刻意的忽略了,所以,模型是需要对这部分长尾意图有一定的鲁棒性的,以防出现误识别为目标意图的现象。
通过上述举例,可见目标意图语料库的获取是十分容易的,只需要定义目标意图,并筛选具备典型性和多样性的语料即可。但是,由于其他意图的范围过大,样本语料的发现具有很大的难度,为了保证模型的训练效果,除了保证其他意图语料的数量之外,也需要使其满足典型性和多样性的要求。
在本发明的一项具体实施中,目标意图语料库和非目标意图语料库的构建方法如图3所示,包括:
S011,从目标场景下的总语料库中筛选目标意图,根据目标意图从总语料库中随机采样得到目标意图语料库;
该步骤中,在采样目标意图语料库时,根据场景要求,假设一共需要有c种目标意图,针对每种目标意图,从语料中选取具有代表性的例句,例句要有丰富性,尽可能的去掉语句表达相似的例句,保留语义相同但语句表达方式不一样的例句,比如针对语音客服机器人的场景要求,“重复一下”和“请重复一下”是相似表达的相同语义,因去掉其一;“重复一下”和“再说一遍”是不同表达的相同语义,需同时保留。
S012,采用目标意图语料库训练弱分类器,利用弱分类器识别目标场景下的总语料库,按比例筛选置信度低于第一阈值和高于第二阈值的语料进行人工标注真实意图,若真实意图不属于目标意图,则人工标注为其他意图;筛选出人工标注为其他意图的语料进行聚类处理,取各聚类簇中距离簇中心最近的m条语料并进行数据扩充,组成非目标意图语料库。
该步骤中,弱分类器的目的是用于辅助筛选分类错误的样本,若目标意图语料库中目标意图种类为c,则训练一个c类的弱分类器来判断样本属于c类中的哪一类。一般情况下,所述的第一阈值小于第二阈值;置信度低于第一阈值的分类结果中,分类错误的概率稍大,但虽分类错误也并不一定属于其他意图;置信度高于第二阈值的分类结果中,分类错误的概率稍小,但也存在误判的情况。综合之下,本实施例先利用弱分类器初筛得到一些样本,在得到的这些样本中进一步进行人工筛选出其他意图的样本。此时,人工标注为其他意图的样本均属于在弱分类器中误判的样本,其可能是置信度很高的误判样本,也可能是置信度很低的误判样本,通过该方式,使得筛选出来的其他意图样本范围广泛,具备多样性。为了保证最终筛选出的样本更具典型性,本实施例采用聚类操作来发现典型的其他意图语料,例如,用K-means模型对所有人工标注为其他意图的语料进行聚类,找出每个簇的中心top-10个语料,然后用数据扩充方法(包括相似句查找、同义词替换等方式),对语料进行相似句扩充,得到非目标意图语料库。
弱分类器可以采用CNN、决策树、SVM等多种常见分类器。
上述步骤S02旨在训练得到一个具备强编码能力的双头意图识别模型。本步骤中,采用多任务训练的方式,构建一个双头意图识别模型,即该双头意图识别模型由意图特征编码器、第一分类器和第二分类器构成。利用该双头意图识别模型完成两个分类任务,其中一个任务是将c个目标意图的语料当做正样本,其他意图的语料当做负样本,通过第一分类器完成二分类任务;另一个任务是利用第二分类器完成有c+1个分类的多分类任务。
所述的双头意图识别模型中,意图特征编码器作为骨干部分,用于编码语料的句特征,本实施例采用BERT模型作为意图特征编码器,第一分类器和第二分类器共享骨干部分。第一分类器和第二分类器作为两个独立的部分,均以由意图特征编码器编码后的句特征作为输入,第一分类器用于将语料的句特征分类为目标意图和非目标意图两类,将分类概率作为对应语料的特征一,第二分类器用于将语料的句特征分类为非目标意图和具体所属的目标意图类型,将分类概率作为对应语料的特征二,例如特征二可以取自第二分类器输出的分类概率向量中概率最高的K个概率值,并将K个概率值按照从高到低的顺序排列。
在本发明的一项具体实施中,双头意图识别模型的训练充分考虑目标意图语料的句特征和非目标意图语料的句特征,在常规训练的基础上,还引入了通过将多种意图的已有语料的句特征进行融合的方式合成新的其他意图的句特征,加强对模型的训练,进一步增强模型对潜在的不同其他意图例句的曝光,提高意图识别模型对其他意图例句的敏感性。
双头意图识别模型的训练过程如图4所示,包括:
S021,从目标意图语料库和非目标意图语料库中随机抽取b1个例句,通过意图特征编码器编码b1个例句的句特征,将各例句所属的意图类型作为标签;此处,b1个例句至少包含2种不同的意图标签。
S022,合成句特征:从b1个例句对应的句特征中随机抽取至少包含2种意图类型的a个句特征,将a个句特征的平均值作为合成句特征,所述合成句特征的标签设为其他意图;此处,a<b1。
S023,循环执行b2次步骤S022中的合成句特征的操作。
S024,利用第一分类器和第二分类器对b1个例句的句特征以及b2个合成句特征进行分类,将第一分类器输出的分类概率作为特征一,记为f1,i,将第二分类器输出的分类概率作为特征二,记为f2,i,i=1,2,…, b1+ b2,下角标i对应第i个训练样本。
S025,根据分类结果和标签计算两个分类任务的总损失,对双头意图识别模型进行训练;所述的总损失表示为:
上述步骤中,b1和b2根据批训练的样本数量确定,本实施例中,双头意图识别模型是按照batch size进行训练的,设batch size为b,即模型是每次随机抽取b个例句进行一次训练,重复迭代这个过程直到收敛,则上述b= b1+ b2。在步骤S022中,通过两种或者两种以上意图的句特征融合(取均值)后作为新的合成的其他意图的句特征,增强了模型对潜在的不同其他意图例句的曝光,提高了意图识别模型对其他意图例句的敏感性。
训练完成后,由训练好的双头意图识别模型分别输出各语料对应的特征一和特征二,分别记为f1,i和f2,i,i=1,2,…, n,n为目标意图语料库和非目标意图语料库中的样本总数。
上述步骤S03旨在设计得到一个新的特征,用于表达各语料特征与各目标意图种
类的语料句特征的相似程度,将每一个目标意图种类的语料特征采用一个意图簇的形式进
行表达,包括每种目标意图语料的句特征的期望向量,记为,下角标j作为目标意图的索
引,以及每种目标意图语料的句特征的协方差矩阵,记为,下角标j作为目标意图的索
引。
上述期望向量和协方差矩阵的计算公式为:
本步骤中,意图簇是根据目标意图语料的句特征构建的,作为各目标意图种类的语料特征的代表,计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离的计算公式为:
其中,f3,i 表示第i个样本语料对应的特征三,zi表示第i个样本语料的句特征,是
由训练好的双头意图识别模型中的意图特征编码器进行编码后得到的;是第j类目标意
图对应语料的句特征的类内期望向量,是第j类目标意图对应语料的句特征的类内协方
差矩阵,c是目标意图的种类数,上角标T表示转置。
上述步骤S04中,将各语料的特征一、特征二和特征三组合,将总特征记为fi ={f1,i, f2,i, f3,i},i=1,2,…, n,n为目标意图语料库和非目标意图语料库中的样本总数;其中,fi对应的标签为目标意图时,其为负样本,fi对应的标签为其他意图时,其为正样本,该设计的目的在于通过模型识别出其他意图的语料。
本实施例中,第三分类器采用LightGBM模型,通过监督学习训练一个二分类器,用于将总特征分类为目标意图和非目标意图两类,判断总特征fi属于其他意图的概率。
在意图识别推理阶段,在一项优选实施例中,在第三分类器的输出之后添加一个阈值判断层,将第三分类器输出概率与预设阈值(例如0.6)进行比较,如果超过阈值,则识别为其他意图,否则识别为目标意图。
上述步骤S05中,针对待识别语料,依次通过步骤S02至步骤S04中的方法得到待识别语料的总特征,此处需要说明的是,在意图识别推理阶段,无需执行步骤S03中的“获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇”过程,直接以训练过程得到的各类目标意图的意图簇进行计算即可,识别推理流程如图5所示,此处需要说明的是,若第三分类器的识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若第三分类器的识别结果为目标意图,则返回双头意图识别模型中第二分类器的识别结果,即第二分类器输出的分类概率最大值对应的识别结果作为最终识别结果输出。
为了验证本发明的实施效果,将本发明的方法与BERT分类模型+后置阈值处理的方法进行对比,以AUC和ACC@rec99为评价指标,其中,AUC表示将所有目标意图当做负样本,将“其他意图”当做正样本,计算area under curve面积,该指标反映的是本发明对“目标意图”和“非目标意图”的区分效果。ACC@rec99表示在目标意图召回率为0.99情况下的准确率,该指标反映的是在加强对“非目标意图”识别的情况下,模型的多分类效果,即对各类意图识别的效果,也就是说,当第三分类模型识别出“目标意图”后,返回第二分类器进行的多分类识别结果。对比结果如表1所示:
表1 对比结果:
从表1可见,本发明的效果在两种评价指标下均优于最先进的BERT分类模型+后置阈值处理的方法,这是因为,一方面,本发明通过将筛选得到的其他意图的语料进行聚类处理的方式,能够搜集到多样且经典的其他意图语料,为提高模型的鲁棒性奠定了基础,并在此基础上,通过将多种意图的已有语料的句特征进行融合的方式合成新的其他意图的句特征,加强了对模型的训练,进一步增强了模型对潜在的不同其他意图例句的曝光,提高了意图识别模型对其他意图例句的敏感性。另一方面,本发明采用多种特征结合的方式获取了更全面的句特征,提高了模型对其他意图语料识别的鲁棒性。
在本实施例中还提供了一种意图识别系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
如图6所示,本实施例提供的一种意图识别系统包括:
语料库获取模块,其用于收集目标场景下的目标意图语料库和非目标意图语料库;
双头意图识别模型构建及训练模块,其用于利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;
意图簇构建及距离计算模块,其用于获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
第三分类器构建及训练模块,其用于拼接双头意图识别模型构建及训练模块得到的特征一、特征二,以及意图簇构建及距离计算模块得到的特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
意图识别模块,其用于获取待识别语料的总特征,并利用训练好的第三分类器得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,例如,所述的双头意图识别模型构建及训练模块,其在训练过程中,首先从目标意图语料库和非目标意图语料库中随机抽取b1个例句,通过意图特征编码器编码b1个例句的句特征,将各例句所属的意图类型作为标签;此处,b1个例句至少包含2种不同的意图标签。
之后,利用b1个例句对应的句特征合成新的句特征:从b1个例句对应的句特征中随机抽取至少包含2种意图类型的a个句特征,将a个句特征的平均值作为合成句特征,所述合成句特征的标签设为其他意图;此处,a<b1。循环执行b2次合成句特征的操作。
最后,利用第一分类器和第二分类器对b1个例句的句特征以及b2个合成句特征进行分类,将第一分类器输出的分类概率作为特征一,记为f1,i,将第二分类器输出的分类概率作为特征二,记为记为f2,i,i=1,2,…, b1+ b2,下角标i对应第i个训练样本。
根据分类结果和标签计算两个分类任务的总损失,对双头意图识别模型进行训练。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
本发明实施例还提供一种电子设备,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述的意图识别方法。
从硬件层面而言,如图7所示,为本实施例提供的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,收集目标场景下的目标意图语料库和非目标意图语料库;
S12,利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;
S13,获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
S14,拼接特征一、特征二和特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
S15,根据所述的双头意图识别模型、类内期望向量和类内协方差矩阵计算待识别语料的总特征作为训练好的第三分类器的输入,得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的意图识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
显然,以上所述实施例和附图只是本申请的一些例子,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (8)
1.一种意图识别方法,其特征在于,包括:
收集目标场景下的目标意图语料库和非目标意图语料库;所述的目标意图语料库和非目标意图语料库的构建方法为:
从目标场景下的总语料库中筛选目标意图,根据目标意图从总语料库中随机采样得到目标意图语料库;
采用目标意图语料库训练弱分类器,利用弱分类器识别目标场景下的总语料库,按比例筛选置信度低于第一阈值和高于第二阈值的语料进行人工标注真实意图,若真实意图不属于目标意图,则人工标注为其他意图;筛选出人工标注为其他意图的语料进行聚类处理,取各聚类簇中距离簇中心最近的m条语料并进行数据扩充,组成非目标意图语料库;
利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;所述的双头意图识别模型由意图特征编码器、第一分类器和第二分类器构成,所述的意图特征编码器用于编码语料的句特征;所述的第一分类器用于将语料的句特征分类为目标意图和非目标意图两类,将分类概率作为对应语料的特征一,第二分类器用于将语料的句特征分类为非目标意图和具体所属的目标意图类型,将分类概率作为对应语料的特征二;
获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
拼接特征一、特征二和特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
根据所述的双头意图识别模型、类内期望向量和类内协方差矩阵计算待识别语料的总特征作为训练好的第三分类器的输入,得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
2.根据权利要求1所述的意图识别方法,其特征在于,所述的目标意图语料和非目标意图语料的句特征是由训练好的双头意图识别模型中的意图特征编码器进行编码后得到的。
3.根据权利要求1所述的意图识别方法,其特征在于,所述的特征二取自第二分类器输出的分类概率中概率最高的K个概率值。
4.根据权利要求1所述的意图识别方法,其特征在于,所述的双头意图识别模型的训练过程包括:
从目标意图语料库和非目标意图语料库中随机抽取b1个例句,通过意图特征编码器编码b1个例句的句特征,将各例句所属的意图类型作为标签;
合成句特征:从b1个例句对应的句特征中随机抽取至少包含2种意图类型的a个句特征,将a个句特征的平均值作为合成句特征,所述合成句特征的标签设为其他意图;循环执行b2次合成句特征的操作;
利用第一分类器和第二分类器对b1个例句的句特征以及b2个合成句特征进行分类,根据分类结果和标签计算分类损失,对双头意图识别模型进行训练。
6.一种意图识别系统,其特征在于,包括:
语料库获取模块,其用于收集目标场景下的目标意图语料库和非目标意图语料库;所述的目标意图语料库和非目标意图语料库的构建方法为:从目标场景下的总语料库中筛选目标意图,根据目标意图从总语料库中随机采样得到目标意图语料库;采用目标意图语料库训练弱分类器,利用弱分类器识别目标场景下的总语料库,按比例筛选置信度低于第一阈值和高于第二阈值的语料进行人工标注真实意图,若真实意图不属于目标意图,则人工标注为其他意图;筛选出人工标注为其他意图的语料进行聚类处理,取各聚类簇中距离簇中心最近的m条语料并进行数据扩充,组成非目标意图语料库;
双头意图识别模型构建及训练模块,其用于利用目标意图语料库和非目标意图语料库训练双头意图识别模型,由训练好的双头意图识别模型输出二分类置信度和多分类置信度,分别作为各语料对应的特征一和特征二;所述的双头意图识别模型由意图特征编码器、第一分类器和第二分类器构成,所述的意图特征编码器用于编码语料的句特征;所述的第一分类器用于将语料的句特征分类为目标意图和非目标意图两类,将分类概率作为对应语料的特征一,第二分类器用于将语料的句特征分类为非目标意图和具体所属的目标意图类型,将分类概率作为对应语料的特征二;
意图簇构建及距离计算模块,其用于获取目标意图语料和非目标意图语料的句特征,计算各类目标意图对应语料的句特征的类内期望向量和类内协方差矩阵,作为各类目标意图的意图簇;计算目标意图语料和非目标意图语料中每一条语料的句特征与各类目标意图的意图簇的最近距离,将最近距离作为对应语料的特征三;
第三分类器构建及训练模块,其用于拼接双头意图识别模型构建及训练模块得到的特征一、特征二、以及意图簇构建及距离计算模块得到的特征三,将各语料的特征拼接结果作为对应语料的总特征,构建正负样本训练第三分类器;
意图识别模块,其用于获取待识别语料的总特征,并利用训练好的第三分类器得到待识别语料的意图识别结果;若识别结果为其他意图,则将第三分类器的识别结果作为最终识别结果输出;若识别结果为目标意图,则根据双头意图识别模型输出的多分类置信度得到最终识别结果输出。
7.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-5任一项所述的意图识别方法。
8.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现权利要求1-5任一项所述的意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211355375.0A CN115408509B (zh) | 2022-11-01 | 2022-11-01 | 一种意图识别方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211355375.0A CN115408509B (zh) | 2022-11-01 | 2022-11-01 | 一种意图识别方法、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115408509A CN115408509A (zh) | 2022-11-29 |
CN115408509B true CN115408509B (zh) | 2023-02-14 |
Family
ID=84169300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211355375.0A Active CN115408509B (zh) | 2022-11-01 | 2022-11-01 | 一种意图识别方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115408509B (zh) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200257856A1 (en) * | 2019-02-07 | 2020-08-13 | Clinc, Inc. | Systems and methods for machine learning based multi intent segmentation and classification |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
CN111737458B (zh) * | 2020-05-21 | 2024-05-21 | 深圳赛安特技术服务有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN112256845B (zh) * | 2020-09-14 | 2024-08-27 | 北京三快在线科技有限公司 | 意图识别方法、装置、电子设备和计算机可读存储介质 |
CN112257432A (zh) * | 2020-11-02 | 2021-01-22 | 北京淇瑀信息科技有限公司 | 一种自适应意图识别方法、装置及电子设备 |
CN112395390B (zh) * | 2020-11-17 | 2023-07-25 | 平安科技(深圳)有限公司 | 意图识别模型的训练语料生成方法及其相关设备 |
CN112765356B (zh) * | 2021-01-29 | 2022-07-12 | 思必驰科技股份有限公司 | 多意图识别模型的训练方法及系统 |
CN113065364A (zh) * | 2021-03-29 | 2021-07-02 | 网易(杭州)网络有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN115221323A (zh) * | 2022-07-21 | 2022-10-21 | 平安科技(深圳)有限公司 | 基于意图识别模型的冷启动处理方法、装置、设备及介质 |
CN115146064A (zh) * | 2022-07-26 | 2022-10-04 | 平安科技(深圳)有限公司 | 意图识别模型优化方法、装置、设备及存储介质 |
CN115203372A (zh) * | 2022-07-28 | 2022-10-18 | 平安科技(深圳)有限公司 | 文本意图分类方法、装置、计算机设备及存储介质 |
-
2022
- 2022-11-01 CN CN202211355375.0A patent/CN115408509B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115408509A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104205126B (zh) | 对手写字符的无旋转识别 | |
US8340363B2 (en) | System and method for efficient interpretation of images in terms of objects and their parts | |
US8787682B2 (en) | Fast image classification by vocabulary tree based image retrieval | |
CN110209823A (zh) | 一种多标签文本分类方法及系统 | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN112231447A (zh) | 一种中文文档事件抽取的方法和系统 | |
CN113033438B (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN114463829B (zh) | 模型训练方法、亲属关系识别方法、电子设备及存储介质 | |
CN110992943B (zh) | 基于词混淆网络的语义理解方法及系统 | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
CN117893839B (zh) | 一种基于图注意力机制的多标记分类方法及系统 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN115408509B (zh) | 一种意图识别方法、系统、电子设备和存储介质 | |
CN113657473A (zh) | 一种基于迁移学习的Web服务分类方法 | |
CN110458002A (zh) | 一种轻量级快速人脸识别方法 | |
CN117744656B (zh) | 一种结合小样本学习和自校验的命名实体识别方法及系统 | |
CN112507805B (zh) | 一种场景识别方法及设备 | |
CN113361497B (zh) | 基于训练样本指纹识别智能尾箱应用方法及设备 | |
CN111949768B (zh) | 一种文件分类方法 | |
CN117495314B (zh) | 一种基于机器学习的自动化审批方法及系统 | |
CN114219047B (zh) | 一种基于伪标签筛选的异构域自适应方法、装置及设备 | |
KR102682639B1 (ko) | 이미지를 포함하는 게시물의 피드백을 이용하여 이미지를 자동 라벨링하는 서버, 방법 및 컴퓨터 프로그램 | |
CN116821322A (zh) | 一种基于nlp技术的文章摘要自动生成方法及系统 | |
CN118658455A (zh) | 语种识别模型的训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |