CN115730590A - 意图识别方法以及相关设备 - Google Patents
意图识别方法以及相关设备 Download PDFInfo
- Publication number
- CN115730590A CN115730590A CN202211520363.9A CN202211520363A CN115730590A CN 115730590 A CN115730590 A CN 115730590A CN 202211520363 A CN202211520363 A CN 202211520363A CN 115730590 A CN115730590 A CN 115730590A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- intention
- model
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了意图识别方法以及相关设备,涉及人工智能技术,用于在多用户训练场景下,兼顾模型训练成本和模型表现。本申请实施例方法包括:获取目标用户发送的待识别文本;确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,以得到所述目标用户对应的目标意图识别模型;所述目标自适应参数基于所述目标用户发送的历史识别文本,对所述初始意图识别模型的自适应层进行训练得到;将所述待识别文本输入所述目标意图识别模型,得到所述待识别文本在各意图类型下的置信度;确定对应的置信度最高的目标意图类型,为所述待识别文本的预测意图类型。
Description
技术领域
本申请实施例涉及机器学习领域,尤其涉及意图识别方法以及相关设备。
背景技术
为了提高互联网服务效率,能够识别用户文本并快速回应的对话机器人应运而生。文字是用户与互联网服务交互的重要媒介,对话机器人在理解用户文本的基础上,通过检索或者生成式对用户文本进行答复。这个过程中最重要的是对用户文本的理解,即意图识别。意图识别是对话机器人的首要任务,只有正确的识别用户语言的意图,后续才可能合理地答复用户文本。
现有技术方案中,可以基于传统的神经网络模型实现意图识别。比如,对多句用户在具有不同意图类型时,可能会发送的用户文本进行标注,作为训练数据。然后,基于对应的标签为不同意图类型的训练数据,训练一个神经网络模型。最后,可以使用该神经网络模型对用户文本进行意图识别与分类。
在针对多用户场景下,不同用户需要识别的意图类型不同(如财务类以及金融类)。随着意图类型的增加,任务变复杂,单一的神经网络模型难以在针对多种意图类型的意图识别过程中,均保持良好的表现。而针对每个用户训练对应的神经网络模型的训练成本过高,无法符合实际应用需求。
发明内容
本申请实施例提供了意图识别方法以及相关设备,涉及人工智能技术,用于在多用户训练场景下,兼顾模型训练成本和模型表现。
本申请实施例第一方面提供一种意图识别方法,包括:
获取目标用户发送的待识别文本;
确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,以得到所述目标用户对应的目标意图识别模型;所述目标自适应参数基于所述目标用户发送的历史识别文本,对所述初始意图识别模型的自适应层进行训练得到;
将所述待识别文本输入所述目标意图识别模型,得到所述待识别文本在各意图类型下的置信度;
确定对应的置信度最高的目标意图类型,为所述待识别文本的预测意图类型。
在一种具体实现方式中,所述方法还包括:
获取所述目标用户发送的历史识别文本,以及每个所述历史识别文本相应的意图类型标签;
轮流将每个所述历史识别文本,确定为目标历史文本;
将所述目标历史文本输入所述初始意图识别模型,得到所述目标历史文本在各意图类型下的置信度;
基于所述目标历史文本在各意图类型下的置信度,以及所述目标历史文本相应的意图类型标签,计算第一损失值;
根据所述第一损失值调整所述初始意图识别模型的自适应参数,直至所述第一损失值满足第一预设收敛条件得到目标自适应参数。
在一种具体实现方式中,在所述将所述待识别文本输入所述目标意图识别模型之前,所述方法还包括:
获取预设的至少一个模拟文本,以及每个所述模拟文本对应的意图类型标签;
轮流将每个所述模拟文本,确定为目标模拟文本;
将所述目标模拟文本输入初始文本模型,得到所述目标模拟文本在各意图类型下的置信度;
基于所述目标模拟文本在各意图类型下的置信度,以及所述目标模拟文本相应的意图类型标签,计算第二损失值;
根据所述第二损失值调整所述初始文本模型的模型参数,直至所述第二损失值满足第二预设收敛条件得到所述初始意图识别模型。
在一种具体实现方式中,所述方法还包括:
基于预训练文本模型,构建所述初始文本模型,所述预训练文本模型为所述初始文本模型的编码器层,所述初始文本模型还包括注意力层,所述注意力层为所述自适应层;
或者,
基于预训练文本模型,构建所述初始文本模型,所述预训练文本模型为所述初始文本模型的编码器层,所述初始文本模型还包括注意力层以及自适应层。
在一种具体实现方式中,所述将所述待识别文本输入所述目标意图识别模型,包括:
对所述待识别文本执行文本预处理,得到预处理待识别文本;
将所述预处理待识别文本输入所述目标意图识别模型。
在一种具体实现方式中,在所述确定所述目标用户对应的目标自适应参数之前,所述方法还包括:
部署所述初始意图识别模型以及多个用户分别对应的自适应参数;
所述确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,包括:
从所述多个用户分别对应的自适应参数中确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新所述初始意图识别模型的自适应层。
本申请实施例第二方面提供一种意图识别装置,包括:
获取单元,用于获取目标用户发送的待识别文本,
确定单元,用于确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,以得到所述目标用户对应的目标意图识别模型;所述目标自适应参数基于所述目标用户发送的历史识别文本,对所述初始意图识别模型的自适应层进行训练得到;
输入单元,用于将所述待识别文本输入所述目标意图识别模型,得到所述待识别文本在各意图类型下的置信度;
所述确定单元,还用于确定对应的置信度最高的目标意图类型,为所述待识别文本的预测意图类型。
在一种具体实现方式中,所述装置还包括:计算单元以及训练单元;
所述获取单元,还用于获取所述目标用户发送的历史识别文本,以及每个所述历史识别文本相应的意图类型标签;
所述确定单元,还用于轮流将每个所述历史识别文本,确定为目标历史文本;
所述输入单元,还用于将所述目标历史文本输入所述初始意图识别模型,得到所述目标历史文本在各意图类型下的置信度;
所述计算单元,用于基于所述目标历史文本在各意图类型下的置信度,以及所述目标历史文本相应的意图类型标签,计算第一损失值;
所述训练单元,用于根据所述第一损失值调整所述初始意图识别模型的自适应参数,直至所述第一损失值满足第一预设收敛条件得到目标自适应参数。
在一种具体实现方式中,所述装置还包括:计算单元以及训练单元;
所述获取单元,还用于获取预设的至少一个模拟文本,以及每个所述模拟文本对应的意图类型标签;
所述确定单元,还用于轮流将每个所述模拟文本,确定为目标模拟文本;
所述输入单元,还用于将所述目标模拟文本输入初始文本模型,得到所述目标模拟文本在各意图类型下的置信度;
所述计算单元,用于基于所述目标模拟文本在各意图类型下的置信度,以及所述目标模拟文本相应的意图类型标签,计算第二损失值;
所述训练单元,用于根据所述第二损失值调整所述初始文本模型的模型参数,直至所述第二损失值满足第二预设收敛条件得到所述初始意图识别模型。
在一种具体实现方式中,所述装置还包括:构建单元;
所述构建单元,用于基于预训练文本模型,构建所述初始文本模型,所述预训练文本模型为所述初始文本模型的编码器层,所述初始文本模型还包括注意力层,所述注意力层为所述自适应层;
或者,
所述构建单元,还用于基于预训练文本模型,构建所述初始文本模型,所述预训练文本模型为所述初始文本模型的编码器层,所述初始文本模型还包括注意力层以及自适应层。
在一种具体实现方式中,所述输入单元,具体用于对所述待识别文本执行文本预处理,得到预处理待识别文本;
将所述预处理待识别文本输入所述目标意图识别模型。
在一种具体实现方式中,在所述确定所述目标用户对应的目标自适应参数之前,所述装置还包括:部署单元;
所述部署单元,用于部署所述初始意图识别模型以及多个用户分别对应的自适应参数;
所述确定单元,具体用于从所述多个用户分别对应的自适应参数中确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新所述初始意图识别模型的自适应层。
本申请实施例第三方面提供一种意图识别装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行第一方面所述的方法。
本申请实施例第四方面提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面所述的方法。
本申请实施例第五方面提供一种计算机存储介质,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如第一方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:针对每个用户提供对应的意图识别模型,可以保证模型在针对每个用户对应的至少一种意图类型的识别中,可以保持良好的表现。同时,在训练目标用户对应的目标意图识别模型时,仅对初始意图识别模型中自适应层的自适应参数进行调整,训练成本远低于针对每个用户进行全局训练,以获得对应的神经网络模型。由此可见,本申请实施例的意图识别模型,可以同时兼顾模型训练成本和模型表现。
附图说明
图1为本申请实施例公开的意图识别系统的一种系统架构图;
图2为本申请实施例公开的意图识别方法的一种流程示意图;
图3为本申请实施例公开的意图识别装置一个结构示意图;
图4为本申请实施例公开的意图识别装置另一结构示意图;
图5为本申请实施例公开的自适应层的一个结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
意图识别是对话机器人的首要任务,只有正确的识别用户语言的意图,后续才可能合理地答复用户文本。目前主流的进行意图识别的方法有:基于规则的方法以及基于传统神经网络的方法。
基于规则的方法是指,通过人对某一意图类型的理解,制定与各种意图类型对应的关键词或者特定的语句结构。当用户输入的待识别文本中包含对应的关键词,或者特定的语句结构的时候,认为待识别文本为相应的意图类型。但这种意图识别方法很大程度上依赖于人对于意图类型理解的准确性,同时,关键词和特定的语句结构无法适应多变的用户文本。
为了解决上述缺陷,本技术方案提出一种有限计算资源下基于大规模预训练语言模型的意图识别方法,该方法首先采用大规模预训练语言模型(包括但不限于:BERT、RoBERTa以及ERNIE等)作为编码器层,对输入文本进行编码,以获取待识别文本的语义特征,然后使用注意力机制(Attention Mechanism,即注意力层)使模型专注于,待识别文本中更能凸显待识别文本意图的部分,最后使用软最大化层(Softmax,即输出层)对待识别文本的意图类型进行识别。此外,为了减小多租户场景下模型的规模和提升模型的并发性能,采用自适应微调(Adapter tuning)方法冻结编码器层的大部分参数,仅对编码器最上层的参数进行微调,以降低模型对内存、CPU、GPU等计算资源的消耗。
本申请实施例提供了意图识别方法以及相关设备,涉及人工智能技术,用于以较低的训练成本,获得在不同意图类型中均保持良好表现的意图识别模型。
为了更好的实现本申请实施例的意图识别方法,本申请实施例提供一种意图识别系统,该意图识别系统用于执行本申请提供的意图识别方法。其中,为了便于部署,可以将意图识别系统打包进docker,以便于快速方便的在具有docker环境的机器部署,也就是部署有该意图识别系统的终端或者服务器,可以对待识别文本执行意图识别。
请参阅图1,在实际应用中,用户可以通过终端101输入待识别文本,终端101可以将待识别文本发送给部署有意图识别系统的任一服务器102,然后服务器102便可以将待识别文本输入目标意图识别模型,得到待识别文本在各意图类型下的置信度;然后,确定对应的置信度最高的目标意图类型,为待识别文本的预测意图类型。在确定目标用户发送的待识别文本的预测意图类型后,便可以根据该预测意图类型进行答复,或者向目标用户推送相关服务。
在前述意图识别系统的基础上,请参阅图2,本申请实施例还提供一种意图识别方法,可由前述服务器103执行,包括以下步骤:
201、获取目标用户发送的待识别文本。
需要识别目标用户发送待识别文本的意图,需要对用户发送的待识别文本进行分析,也就是说,意图识别的首先应当,获取目标用户发送待识别文本的意图。
202、确定目标用户对应的目标自适应参数,并使用目标自适应参数更新初始意图识别模型自适应层,以得到目标用户对应的目标意图识别模型。目标自适应参数基于目标用户发送的历史识别文本,对初始意图识别模型的自适应层进行训练得到。
考虑到多租户场景下(或者多用户共有一个云服务),不同租户(或者说用户)需要执行意图识别的业务场景不同,进而不同用户需要识别的意图类型也相应不同,为了能针对每个租户均提供表现良好的性能识别模型,在分析待识别文本之前,需要构建与目标用户对应的目标意图识别模型,即基于目标用户发送的历史识别文本训练得到的意图识别模型。
在实际应用中,为了兼顾模型训练效率、存储资源以及模型表现,在训练目标用户对应的目标意图识别模型时,可以只对初始意图识别模型的自适应层的自适应参数进行调整,并将训练得到的自适应参数保存为目标用户对应的自适应参数。而初始意图识别模型中除自适应参数之外的其他参数,可以在每个租户间通用,因此仅需存储通用的模型参数以及目标用户对应的目标自适应参数,就可以迅速的构建目标用户对应的目标意图识别模型。上述仅训练自适应层的自适应参数的方式,可有效解决多租户场景下硬件资源不足的问题。
可以理解的是,自适应层的自适应参数可以是自适应层对应的部分或全部模型参数,此处不作具体限定。
203、将待识别文本输入目标意图识别模型,得到待识别文本在各意图类型下的置信度。
在前述步骤202构建完目标用户对应的目标意图识别模型后,就可以将步骤201中获取的待识别文本输入该目标意图识别模型,可以得到目标意图识别模型输出的待识别文本在每种意图类型下的置信度。基于待识别文本在各意图类型下的置信度,就可以待识别文本的意图类型进行判断。
204、确定对应的置信度最高的目标意图类型,为待识别文本的预测意图类型。
可以理解的是,待识别文本在不同意图类型下的置信度,可以反应待识别文本属于相应的意图类型的可能性。因此,置信度越高,说明待识别文本属于该意图类型的可能新更高,所以,可以直接将对应的置信度最高的目标意图类型,确定为待识别文本的预测意图类型。
本申请实施例中,针对每个用户提供对应的意图识别模型,可以保证模型在针对每个用户对应的至少一种意图类型的识别中,可以保持良好的表现。同时,在训练目标用户对应的目标意图识别模型时,仅对初始意图识别模型中自适应层的自适应参数进行调整,训练成本远低于针对每个用户进行全局训练,以获得对应的神经网络模型。由此可见,本申请实施例的意图识别模型,可以同时兼顾模型训练成本和模型表现。
在一些具体实现方式中,前述步骤202中构建目标意图识别模型所需的目标自适应参数可以通过对初始意图识别模型的自适应层训练得到,具体可以通过以下方式实现:获取目标用户发送的历史识别文本,以及每个历史识别文本相应的意图类型标签;轮流将每个历史识别文本,确定为目标历史文本;将目标历史文本输入初始意图识别模型,得到目标历史文本在各意图类型下的置信度;基于目标历史文本在各意图类型下的置信度,以及目标历史文本相应的意图类型标签,计算第一损失值;根据第一损失值调整初始意图识别模型的自适应参数,直至第一损失值满足第一预设收敛条件得到目标自适应参数。
具体的,可以获取目标用户以前发送的至少一个历史识别文本(需要说明的是,为了保证模型的良好表现,通常会使用多个历史识别文本),其中每个历史识别文本都存在相应的意图类型标签,用于标识该历史识别文本对应的意图类型。然后,依次使用每个历史识别文本训练初始意图识别模型,直至该初始意图识别模型收敛,得到目标意图训练模型。其中,每轮次训练过程中可以根据目标历史文本在各意图类型下的置信度,目标历史文本相应的意图类型标签,以及损失函数,计算第一损失值,然后,若第一损失值不符合预设收敛条件,则基于第一损失值调整初始意图识别模型的自适应参数;若第一损失值符合预设收敛条件,则确定此时的初始意图识别模型的自适应参数为目标用户的目标自适应参数。
需要说明的是,当对象是用户时,本申请实施例所涉及到历史识别文本等相关的数据,均是经过用户授权后所获取到的。并且,当本申请实施例运用到具体产品或技术中时,所涉及使用到的数据需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为了更进一步地,减少为每个用户训练对应的意图识别模型的训练成本,首先可以基于初始文本模型,在分类任务(也就是意图识别)场景下进行初步微调,然后,基于初步微调后可以用于执行分类任务的初始意图识别模型,训练得到各用户对应的意图识别模型。具体实现方式如下:获取预设的至少一个模拟文本,以及每个模拟文本对应的意图类型标签;轮流将每个模拟文本,确定为目标模拟文本;将目标模拟文本输入初始文本模型,得到目标模拟文本在各意图类型下的置信度;基于目标模拟文本在各意图类型下的置信度,以及目标模拟文本相应的意图类型标签,计算第二损失值;根据第二损失值调整初始文本模型的模型参数,直至第二损失值满足第二预设收敛条件得到初始意图识别模型。
具体的,训练之前需要构建数据集,也就是模拟文本以及每个模拟文本对应的意图类型标签。然后,基于每个模拟文本对初始文本模型进行训练,得到可以用于意图分类任务的初始意图识别模型。此处初始文本模型的训练方式,与前述依据初始意图训练模型训练得到目标意图识别模型类似,不再赘述。需要注意的是,此处的模拟文本可以是现有的任意开源文本分类数据集中的数据,也可以是业务人员和/或技术人员根据对各种意图类型的了解,认为编写的模拟文本,此处不作具体限定。
在一些具体实现方式中,前述人工编写模拟文本,可以参照如下方式实现。若模拟样本需涵盖:出差申请(bus trip)、财务指标查询(enquire financial indicators)、数据服务(data request)、打电话(phonecall dzh)、发消息(sendMsg dzh)、你会做什么(syswhat can you do)和/或找应用(appInvoke dzh)等意图类型。在业务人员的指导下,针对每种意图类型提供20个文本意图样本对,每个文本意图样本对包含其对应的模拟文本以及对应的意图类型。其中,模拟文本是模拟用户可能会发送的文本,意图类型即为文本体现出的用户真实需求,也就是意图类型。文本意图样本对的编写可参照下表:
序号 | 文本 | 意图 |
1 | 我想找审核助手 | 找应用 |
2 | 明天去北京出差 | 出差申请 |
3 | 查一下公司的财务报表 | 指标查询 |
需要说明的是,上表仅是对文本意图样本对的编写的示例,文本意图样本对还可以不包含表格的方式进行编写;每种意图类型所需的文本意图样本对数量也并未一定为20个;可能存在的意图类型也不止局限于上述7种意图类型,本实施例以上内容不作具体限定。
更进一步的,在训练初始文本模型之前,还需基于预训练文本模型构建初始文本模型,以进一步节省训练成本,具体可以通过以下方式实现:基于预训练文本模型,构建初始文本模型,预训练文本模型为初始文本模型的编码器层,初始文本模型还包括注意力层,注意力层为自适应层;或者,基于预训练文本模型,构建初始文本模型,预训练文本模型为初始文本模型的编码器层,初始文本模型还包括自适应层。
在实际应用中,构建的初始文本模型可以是包括:嵌入层、编码器层、注意力层以及输入层,其中编码器层可以作为自适应层,编码器层中的部分参数可以作为自适应参数;或者构建的初始文本模型可以包括:嵌入层、编码器层、注意力层、输入层以及自适应层,其中,自适应层位于注意力层之后,自适应层可以将先将维度为H(即嵌入层的向量长度)的输入映射到一个较低的维度K,再通过一个非线性函数relu,然后通过先行层将维度还原到H。本申请实施例的初始文本模型可以是包括自适应层的任意结构,此处不作限定。其中,编码层和注意力层都是从向量中提取语义特征,只是编码层是全连接网络,和注意力层用的网络形式有所不同。
需要注意的是,无论是前述两种网络结构中的哪种网络结构,本申请实施例中初始文本模型的编码器层都可以为任一预训练文本模型,如GPT(Generative Pre-Training)或BERT(bidirectional encoder representations from transformer),此处不做限定。
可以知道的是,文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量以及规范张量的尺寸等,而且科学的文本预处理还能有效指导模型超参数的选择,并提升模型的评估指标。在前述实施例的基础上,在一些具体实现方式中,将待识别文本输入目标意图识别模型之前,还应当对待识别文本执行文本预处理,得到预处理待识别文本,然后才将预处理待识别文本输入目标意图识别模型。同理,在将目标历史文本输入初始意图识别模型之前,以及将目标模拟文本输入初始意图识别模型之前,都应当对其执行相应的文本预处理,并将预处理后的文本(如预处理目标历史文本以及预处理目标模拟文本)作为模型的输入。
在实际应用中,文本预处理可以参照如下方式进行处理。对于一条文本(如待识别文本、历史识别文本以及模拟文本),首先将文本中的字母全部转换成小写,然后用正则表达式去掉无效字符,如括号、空格和特殊字符等,以消除这些内容对模型的负面影响。接下来,在文本的开头和末端分别加上[cls]和[seq]字符,[cls]不仅代表句子的开始,也代表整个句子的含义。最后将处理后的文本转换成大规模预训练语言模型对应的词汇表中索引的形式,就可以得到相应的预处理文本。
在前面实施例的基础上,下面在一个具体场景下,描述本申请实施例的模型构建、模型训练、模型预测以及服务部署等流程。
1)模型构建
a)嵌入层。该层将文字(也就是文本)转换成向量的形式,用于后续的数学计算。由于初始意图识别模型经过了预训练,字向量在初始状态下已经具有了一定的语义信息。输入X={x1,x2,…xn},xi代表单个文字的索引,经过嵌入层后,输入变成了二维数组Xe的形式,Xe的维度是L×H,L为句子长度,H为向量长度768。
b)编码器层。可以使用预训练好的中文BERT-WWM模型作为
Encoder,为后续意图识别任务提供特征。
c)注意力层。注意力层会计算每个字对其他字的关注程度,重构整个句子的向量表达式,以突出句子中需要重点关注的部分,例如“我想找审核助手”这个句子中,“审核助手”是判断意图类型的依据。
注意力的计算过程如式:
Q,K,V均由Xe经过线性层生成,维度保持不变,softmax得到的是每个字对其他字的关注权重值,乘以V得到重构后的Xe,D为Q*K的方差。
d)输出层。取[cls]对应的向量,经过一个线性层后输出的维度为n,n等于意图类型的数量,使用softmax归一化,得到文本属于每个类别的概率。softmax公式为:
式中,θ为模型参数,K为意图类型数量,dk为[cls]向量。
e)自适应微调层。在多租户的场景下,每个用户独立使用一个预训练模型会导致内存不足的问题。为了解决该问题,本技术方案采用自适应微调方法将大规模预训练语言模型的大部分参数冻结,仅对编码器中特定的参数进行微调,并将该部分保存为规模很小的自适应模块。自适应模块在模型中放在attention之后的位置,自适应模块的具体结构可参照图5。
自适应模块先将维度为H的输入映射到一个较低的维度K,再通过一个非线性函数relu(函数表达式为:f(x)=max(0,x)),最后,经过线性层将维度还原到H。
2)模型训练
参照1)中构建的模型以及前述以及后述相关实施例的模型训练方式训练得到目标意图识别模型。
3)模型预测
输入的待识别文本先经过预处理,输入到模型后得到softmax归一化后的意图类型向量,取对应的概率值最大的意图类型,作为待识别文本的预测意图类型。
4)服务部署
模型训练和代码开发完成后,为了便于部署,可以将整个服务打包进docker,这样就可以快速方便的在具有docker环境的机器部署该意图识别服务了。
请参阅图3,本申请实施例提供一种意图识别装置,包括:
获取单元301,用于获取目标用户发送的待识别文本,
确定单元302,用于确定目标用户对应的目标自适应参数,并使用目标自适应参数更新初始意图识别模型的自适应层,以得到目标用户对应的目标意图识别模型;目标自适应参数基于目标用户发送的历史识别文本,对初始意图识别模型的自适应层进行训练得到;
输入单元303,用于将待识别文本输入目标意图识别模型,得到待识别文本在各意图类型下的置信度;
确定单元302,还用于确定对应的置信度最高的目标意图类型,为待识别文本的预测意图类型。
在一种具体实现方式中,装置还包括:计算单元以及训练单元;
获取单元301,还用于获取目标用户发送的历史识别文本,以及每个历史识别文本相应的意图类型标签;
确定单元302,还用于轮流将每个历史识别文本,确定为目标历史文本;
输入单元303,还用于将目标历史文本输入初始意图识别模型,得到目标历史文本在各意图类型下的置信度;
计算单元,用于基于目标历史文本在各意图类型下的置信度,以及目标历史文本相应的意图类型标签,计算第一损失值;
训练单元,用于根据第一损失值调整初始意图识别模型的自适应参数,直至第一损失值满足第一预设收敛条件得到目标自适应参数。
在一种具体实现方式中,装置还包括:计算单元以及训练单元;
获取单元301,还用于获取预设的至少一个模拟文本,以及每个模拟文本对应的意图类型标签;
确定单元302,还用于轮流将每个模拟文本,确定为目标模拟文本;
输入单元303,还用于将目标模拟文本输入初始文本模型,得到目标模拟文本在各意图类型下的置信度;
计算单元,用于基于目标模拟文本在各意图类型下的置信度,以及目标模拟文本相应的意图类型标签,计算第二损失值;
训练单元,用于根据第二损失值调整初始文本模型的模型参数,直至第二损失值满足第二预设收敛条件得到初始意图识别模型。
在一种具体实现方式中,装置还包括:构建单元;
构建单元,用于基于预训练文本模型,构建初始文本模型,预训练文本模型为初始文本模型的编码器层,初始文本模型还包括注意力层,注意力层为自适应层;
或者,
构建单元,还用于基于预训练文本模型,构建初始文本模型,预训练文本模型为初始文本模型的编码器层,初始文本模型还包括注意力层以及自适应层。
在一种具体实现方式中,输入单元303,具体用于对待识别文本执行文本预处理,得到预处理待识别文本;
将预处理待识别文本输入目标意图识别模型。
在一种具体实现方式中,在确定目标用户对应的目标自适应参数之前,装置还包括:部署单元;
部署单元,用于部署初始意图识别模型以及多个用户分别对应的自适应参数;
确定单元,具体用于从多个用户分别对应的自适应参数中确定目标用户对应的目标自适应参数,并使用目标自适应参数更新初始意图识别模型的自适应层。
图4是本申请实施例提供的一种意图识别装置结构示意图,该意图识别装置400可以包括一个或一个以上中央处理器(central processing units,CPU)401和存储器405,该存储器405中存储有一个或一个以上的应用程序或数据。
其中,存储器405可以是易失性存储或持久存储。存储在存储器405的程序可以包括一个或一个以上模块,每个模块可以包括对意图识别装置中的一系列指令操作。更进一步地,中央处理器401可以设置为与存储器405通信,在意图识别装置400上执行存储器405中的一系列指令操作。
意图识别装置400还可以包括一个或一个以上电源402,一个或一个以上有线或无线网络接口403,一个或一个以上输入输出接口404,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器401可以执行前述图1至图3所示实施例中意图识别装置所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如上述的意图识别方法。
Claims (10)
1.一种意图识别方法,其特征在于,包括:
获取目标用户发送的待识别文本;
确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,以得到所述目标用户对应的目标意图识别模型;所述目标自适应参数基于所述目标用户发送的历史识别文本,对所述初始意图识别模型的自适应层进行训练得到;
将所述待识别文本输入所述目标意图识别模型,得到所述待识别文本在各意图类型下的置信度;
确定对应的置信度最高的目标意图类型,为所述待识别文本的预测意图类型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标用户发送的历史识别文本,以及每个所述历史识别文本相应的意图类型标签;
轮流将每个所述历史识别文本,确定为目标历史文本;
将所述目标历史文本输入所述初始意图识别模型,得到所述目标历史文本在各意图类型下的置信度;
基于所述目标历史文本在各意图类型下的置信度,以及所述目标历史文本相应的意图类型标签,计算第一损失值;
根据所述第一损失值调整所述初始意图识别模型的自适应参数,直至所述第一损失值满足第一预设收敛条件得到目标自适应参数。
3.根据权利要求1所述的方法,其特征在于,在所述将所述待识别文本输入所述目标意图识别模型之前,所述方法还包括:
获取预设的至少一个模拟文本,以及每个所述模拟文本对应的意图类型标签;
轮流将每个所述模拟文本,确定为目标模拟文本;
将所述目标模拟文本输入初始文本模型,得到所述目标模拟文本在各意图类型下的置信度;
基于所述目标模拟文本在各意图类型下的置信度,以及所述目标模拟文本相应的意图类型标签,计算第二损失值;
根据所述第二损失值调整所述初始文本模型的模型参数,直至所述第二损失值满足第二预设收敛条件得到所述初始意图识别模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
基于预训练文本模型,构建所述初始文本模型,所述预训练文本模型为所述初始文本模型的编码器层,所述初始文本模型还包括注意力层,所述注意力层为所述自适应层;
或者,
基于预训练文本模型,构建所述初始文本模型,所述预训练文本模型为所述初始文本模型的编码器层,所述初始文本模型还包括注意力层以及自适应层。
5.根据权利要求1所述的方法,其特征在于,所述将所述待识别文本输入所述目标意图识别模型,包括:
对所述待识别文本执行文本预处理,得到预处理待识别文本;
将所述预处理待识别文本输入所述目标意图识别模型。
6.根据权利要求1所述的方法,其特征在于,在所述确定所述目标用户对应的目标自适应参数之前,所述方法还包括:
部署所述初始意图识别模型以及多个用户分别对应的自适应参数;
所述确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,包括:
从所述多个用户分别对应的自适应参数中确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新所述初始意图识别模型的自适应层。
7.一种意图识别装置,其特征在于,包括:
获取单元,用于获取目标用户发送的待识别文本,
确定单元,用于确定所述目标用户对应的目标自适应参数,并使用所述目标自适应参数更新初始意图识别模型的自适应层,以得到所述目标用户对应的目标意图识别模型;所述目标自适应参数基于所述目标用户发送的历史识别文本,对所述初始意图识别模型的自适应层进行训练得到;
输入单元,用于将所述待识别文本输入所述目标意图识别模型,得到所述待识别文本在各意图类型下的置信度;
所述确定单元,还用于确定对应的置信度最高的目标意图类型,为所述待识别文本的预测意图类型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:计算单元以及训练单元;
所述获取单元,还用于获取所述目标用户发送的历史识别文本,以及每个所述历史识别文本相应的意图类型标签;
所述确定单元,还用于轮流将每个所述历史识别文本,确定为目标历史文本;
所述输入单元,还用于将所述目标历史文本输入所述初始意图识别模型,得到所述目标历史文本在各意图类型下的置信度;
所述计算单元,用于基于所述目标历史文本在各意图类型下的置信度,以及所述目标历史文本相应的意图类型标签,计算第一损失值;
所述训练单元,用于根据所述第一损失值调整所述初始意图识别模型的自适应参数,直至所述第一损失值满足第一预设收敛条件得到目标自适应参数。
9.一种意图识别装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至6中任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520363.9A CN115730590A (zh) | 2022-11-30 | 2022-11-30 | 意图识别方法以及相关设备 |
PCT/CN2023/126388 WO2024114186A1 (zh) | 2022-11-30 | 2023-10-25 | 意图识别方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211520363.9A CN115730590A (zh) | 2022-11-30 | 2022-11-30 | 意图识别方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730590A true CN115730590A (zh) | 2023-03-03 |
Family
ID=85299519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211520363.9A Pending CN115730590A (zh) | 2022-11-30 | 2022-11-30 | 意图识别方法以及相关设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115730590A (zh) |
WO (1) | WO2024114186A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235241A (zh) * | 2023-11-15 | 2023-12-15 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种面向高血压问诊随访场景人机交互方法 |
WO2024114186A1 (zh) * | 2022-11-30 | 2024-06-06 | 金蝶软件(中国)有限公司 | 意图识别方法以及相关设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104064179B (zh) * | 2014-06-20 | 2018-06-08 | 哈尔滨工业大学深圳研究生院 | 一种基于动态hmm事件数的提高语音识别准确率的方法 |
CN110414005B (zh) * | 2019-07-31 | 2023-10-10 | 达闼机器人股份有限公司 | 意图识别方法、电子设备及存储介质 |
CN112907309A (zh) * | 2019-11-19 | 2021-06-04 | 阿里巴巴集团控股有限公司 | 模型更新方法、资源推荐方法、装置、设备及系统 |
KR20220131807A (ko) * | 2021-03-22 | 2022-09-29 | 재단법인대구경북과학기술원 | 메타 학습 기반 이미지 정합 모델 생성 방법 및 장치 |
CN113112312B (zh) * | 2021-05-13 | 2022-09-30 | 支付宝(杭州)信息技术有限公司 | 针对用户生成模型的方法、装置和计算机可读存储介质 |
CN113901880A (zh) * | 2021-09-13 | 2022-01-07 | 中国科学院自动化研究所 | 一种实时事件流识别方法及系统 |
CN114139551A (zh) * | 2021-10-29 | 2022-03-04 | 苏宁易购集团股份有限公司 | 意图识别模型的训练方法及装置、意图识别的方法及装置 |
CN115730590A (zh) * | 2022-11-30 | 2023-03-03 | 金蝶软件(中国)有限公司 | 意图识别方法以及相关设备 |
-
2022
- 2022-11-30 CN CN202211520363.9A patent/CN115730590A/zh active Pending
-
2023
- 2023-10-25 WO PCT/CN2023/126388 patent/WO2024114186A1/zh unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024114186A1 (zh) * | 2022-11-30 | 2024-06-06 | 金蝶软件(中国)有限公司 | 意图识别方法以及相关设备 |
CN117235241A (zh) * | 2023-11-15 | 2023-12-15 | 安徽省立医院(中国科学技术大学附属第一医院) | 一种面向高血压问诊随访场景人机交互方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024114186A1 (zh) | 2024-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115730590A (zh) | 意图识别方法以及相关设备 | |
CN112528677B (zh) | 一种语义向量提取模型的训练方法、装置及电子设备 | |
CN110543633B (zh) | 语句意图识别方法、装置 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN112560846B (zh) | 纠错语料的生成方法、装置及电子设备 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
EP4170542A2 (en) | Method for sample augmentation | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
JP2023025126A (ja) | 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US11481609B2 (en) | Computationally efficient expressive output layers for neural networks | |
EP4060526A1 (en) | Text processing method and device | |
CN111723583B (zh) | 基于意图角色的语句处理方法、装置、设备及存储介质 | |
US20230081015A1 (en) | Method and apparatus for acquiring information, electronic device and storage medium | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN114913871A (zh) | 目标对象分类方法、系统、电子设备及存储介质 | |
CN113961701A (zh) | 消息文本的聚类方法及装置 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
EP3570188A1 (en) | Generating an executable code based on a document | |
CN114330345B (zh) | 命名实体识别方法、训练方法、装置、电子设备及介质 | |
CN111914536B (zh) | 观点分析方法、装置、设备及存储介质 | |
CN117172232B (zh) | 审计报告生成方法、装置、设备和存储介质 | |
CN114896993B (zh) | 翻译模型的生成方法、装置、电子设备及存储介质 | |
CN113095072B (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |