CN116955615A

CN116955615A - 意图识别方法、装置、设备、介质及程序产品

Info

Publication number: CN116955615A
Application number: CN202310758056.2A
Authority: CN
Inventors: 张倩汶; 饶孟良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-10-27

Abstract

本申请公开了一种意图识别方法、装置、设备、介质及程序产品，涉及人工智能领域。该方法包括：提取第一对话文本和多个候选意图类型对应的第一特征表示；提取第一对话文本和多个第二对话文本对应的第二特征表示；基于第一特征表示和第二特征表示进行意图类型预测，从多个候选意图类型中确定第一对话文本对应的第一意图类型。在少样本场景下训练得到的意图识别模型中，当某个意图类型不在意图识别模型的训练样本中，意图识别模型可通过将第一对话文本的相似文本作为补充信息预测第一对话文本属于该意图类型的概率，从而提高了对对话文本进行意图类型预测的准确度。

Description

意图识别方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及人工智能领域，特别涉及一种意图识别方法、装置、设备、介质及程序产品。

背景技术

智能对话系统(例如：智能客服系统、聊天机器人等)是一种自动与用户进行对话的系统；智能对话系统在回复用户时，通常需要识别用户输入的对话文本的意图，根据识别到的意图生成相应的回复文本反馈给用户。

相关技术中，采用神经网络模型对对话文本进行意图类型预测，例如：通过卷积神经网络提取对话文本的文本特征表示，然后根据该文本特征表示进行类型预测，从而预测得到对话文本的意图类型。

然而，在智能对话系统建设的初期，由于收集到的对话数据较少，神经网络模型的训练数据较少，导致训练得到的模型出现过拟合的现象，模型预测准确度较低。

发明内容

本申请实施例提供了一种意图识别方法、装置、设备、介质及程序产品，能够在少样本场景下，提高对对话文本进行意图类型预测的准确度，所述技术方案如下：

一方面，提供了一种意图识别方法，所述方法包括：

获取第一对话文本和多个候选意图类型，所述第一对话文本是待从所述多个候选意图类型中确定对话意图的文本；

获取所述多个候选意图类型分别对应的第二对话文本，所述第二对话文本与所述第一对话文本之间符合相似度要求；

提取所述第一对话文本和所述多个候选意图类型对应的第一特征表示，所述第一特征表示用于表征所述多个候选意图类型分别与所述第一对话文本之间的相关性；

提取所述第一对话文本和多个第二对话文本对应的第二特征表示，所述第二特征表示用于表征所述多个第二对话文本分别与所述第一对话文本之间的相关性；

基于所述第一特征表示和所述第二特征表示进行意图类型预测，从所述多个候选意图类型中确定所述第一对话文本对应的第一意图类型，所述第一意图类型用于表示所述第一对话文本对应的所述对话意图。

另一方面，提供了一种意图识别装置，所述装置包括：

获取模块，用于获取第一对话文本和多个候选意图类型，所述第一对话文本是待从所述多个候选意图类型中确定对话意图的文本；

所述获取模块，还用于获取所述多个候选意图类型分别对应的第二对话文本，所述第二对话文本与所述第一对话文本之间符合相似度要求；

提取模块，用于提取所述第一对话文本和所述多个候选意图类型对应的第一特征表示，所述第一特征表示用于表征所述多个候选意图类型分别与所述第一对话文本之间的相关性；

所述提取模块，还用于提取所述第一对话文本和多个第二对话文本对应的第二特征表示，所述第二特征表示用于表征所述多个第二对话文本分别与所述第一对话文本之间的相关性；

预测模块，用于基于所述第一特征表示和所述第二特征表示进行意图类型预测，从所述多个候选意图类型中确定所述第一对话文本对应的第一意图类型，所述第一意图类型用于表示所述第一对话文本对应的所述对话意图。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述实施例中任一所述意图识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述实施例中任一所述的意图识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的意图识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过提取第一对话文本和多个候选意图类型对应的第一特征表示以及提取第一对话文本和多个第二对话文本(各个候选意图类型下第一对话文本的相似文本)对应的第二特征表示，并基于第一特征表示和第二特征表示对第一对话文本进行意图类型预测，确定第一对话文本的意图类型。在对第一对话文本进行意图类型预测时，利用第一对话文本和意图类型之间的相关性以及第一对话文本和相似文本之间的相关性共同决策第一对话文本的对话意图；那么，在少样本场景下训练得到的意图识别模型中，当某个意图类型不在意图识别模型的训练样本中，意图识别模型可通过将第一对话文本的相似文本作为补充信息预测第一对话文本属于该意图类型的概率，从而提高了对对话文本进行意图类型预测的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的意图识别方法的流程图；

图3是本申请一个示例性实施例提供的第一拼接文本的编码结构示意图；

图4是本申请一个示例性实施例提供的第二拼接文本的编码结构示意图；

图5是本申请一个示例性实施例提供的对话系统的对话界面示意图；

图6是本申请一个示例性实施例提供的语料库的可视化界面示意图；

图7是本申请另一个示例性实施例提供的意图识别方法的流程图；

图8是本申请一个示例性实施例提供的意图识别模型的训练方法的流程图；

图9是本申请一个示例性实施例提供的多轮问答场景下“查询运费”问答名称对应的问法界面的展示示意图；

图10是本申请一个示例性实施例提供的模型框架示意图；

图11是本申请一个示例性实施例提供的意图识别装置的结构框图；

图12是本申请另一个示例性实施例提供的意图识别装置的结构框图；

图13是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

首先，针对本申请实施例中涉及的名词进行简单介绍。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

智能对话系统是一种自动与用户进行对话的系统；智能对话系统在回复用户时，通常需要识别用户输入的对话文本的意图，根据识别到的意图生成相应的回复文本反馈给用户。相关技术中，采用神经网络模型对对话文本进行意图类型预测，例如：通过卷积神经网络提取对话文本的文本特征表示，然后根据该文本特征表示进行类型预测，从而预测得到对话文本的意图类型。然而，在智能对话系统建设的初期，由于收集到的对话数据较少，神经网络模型的训练数据较少，导致训练得到的模型出现过拟合的现象，模型预测准确度较低。

本申请实施例提供了一种意图识别方法通过提取第一对话文本和多个候选意图类型对应的第一特征表示以及提取第一对话文本和多个第二对话文本(各个候选意图类型下第一对话文本的相似文本)对应的第二特征表示，并基于第一特征表示和第二特征表示对第一对话文本进行意图类型预测，确定第一对话文本的意图类型。在对第一对话文本进行意图类型预测时，利用第一对话文本和意图类型之间的相关性以及第一对话文本和相似文本之间的相关性共同决策第一对话文本的对话意图；那么，在少样本场景下训练得到的意图识别模型中，当某个意图类型不在意图识别模型的训练样本中，意图识别模型可通过将第一对话文本的相似文本作为补充信息预测第一对话文本属于该意图类型的概率，从而提高了对对话文本进行意图类型预测的准确度。

本申请实施例提供的意图识别方法，可以应用于购物应用场景中，当智能客服系统获取到客户的问题后，会从语料库确定与该问题相似的相似问，然后根据客户问题和多个候选意图类型之间的相关性以及客户问题和各个候选意图类型下的相似问之间的相关性预测客户问题的意图类型，并将该意图类型反馈给客户，若客户确定该意图类型，则智能客服系统能够根据该意图类型生成相应的回复文本或者回复语音；还可以应用在医疗应用场景中，当医疗答疑系统获取到患者的问题后，会从语料库确定与该问题相似的相似问，然后根据患者问题和多个候选意图类型之间的相关性以及患者问题和各个候选意图类型下的相似问之间的相关性预测患者问题的意图类型，并将该意图类型反馈给患者，若患者确定该意图类型，则医疗答疑系统能够根据该意图类型生成相应的回复文本或者回复语音。值得注意的是，上述应用场景仅为示意性的举例，本实施例提供的意图识别方法还可以应用于其他场景中，本申请实施例对此不加以限定。

其次，对本申请实施例中涉及的实施环境进行说明。示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接。其中，通信网络130可以是有线网络，还可以是无线网络，本申请实施例对此不加以限定。

在一些可选的实施例中，终端110中安装和运行有具有意图识别功能的目标应用程序。该目标应用程序可以实现为即时通讯应用程序、视频应用程序、新闻资讯应用程序、综合搜索引擎应用程序、社交应用程序、游戏应用程序、购物应用程序、地图导航应用程序等，本申请实施例对此不加以限定。示意性的，当需要对对话文本进行意图识别时，可将对话文本输入到终端110中，终端110获取到对话文本对应的意图类型后，可选地，终端110对该意图类型进行展示。

在一些可选的实施例中，服务器120用于为终端110中安装的目标应用程序提供后台服务，服务器120中设置有语料库和意图识别模型，服务器120收到第一对话文本后，首先获取在各个候选意图类型下，与第一对话文本满足相似度要求的第二对话文本；服务器120通过意图识别模型首先提取第一对话文本和多个候选意图类型对应的第一特征表示，以及提取第一对话文本和多个第二对话文本对应的第二特征表示；其次，基于第一特征表示和第二特征表示进行意图类型预测，从多个候选意图类型中确定第一对话文本对应的第一意图类型。可选地，服务器120将获取得到的第一意图类型发送到终端110中。

其中，终端110包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、智能语音交互设备、智能家电、车载终端等终端中的至少一种。

值得注意的是，服务器120能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模型应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。可选地，服务器120还可以实现为区块链系统中的节点。

需要进行说明的是，本申请在收集用户的相关数据(例如：第一对话文本)之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍和实施环境，图2是本申请实施例提供的一种意图识别方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图2所示，该方法包括：

步骤201，获取第一对话文本和多个候选意图类型。

其中，第一对话文本是待从多个候选意图类型中确定对话意图的文本。

可选地，第一对话文本是指在对话系统中获取到的对象对话文本，其中，对话系统包括任务型对话系统(例如：智能客服系统)、闲聊型对话系统(例如：闲聊机器人)、知识问答型对话系统、推荐型对话系统等中的至少一种，本申请实施例对此不加以限定。

可选地，获取第一对话文本即获取对象输入的对话内容对应的第一对话文本，其中，对象输入的对话内容类型包括文本类型、音频类型、视频类型、图像类型等中的至少一种。

示意性的，当对象输入的对话内容为非文本类型时，需要对对象输入的对话内容进行文本识别(例如：音频转文本、图像转文本等)，得到相应的文本内容作为第一对话文本。

可选地，多个候选意图类型为开发人员预设的多个意图类型。其中，获取多个候选意图类型及获取多个候选意图类型分别对应的意图名称。

或者，多个候选意图类型为从开发人员预设的多个意图类型中筛选出的意图类型。示意性的，开发人员预设的多个意图类型区别有不同场景，例如：医疗场景下的意图类型、购物场景下的意图类型等，当获取到第一对话文本后，首先对第一对话文本进行领域识别，假设第一对话文本为医疗场景相关的文本，则从预设的多个意图类型中筛选医疗场景下的意图类型作为多个候选意图类型。

步骤202，获取多个候选意图类型分别对应的第二对话文本。

其中，第一对话文本和第二对话文本之间符合相似度要求。

可选地，从语料库中获取多个候选意图类型分别对应的第二对话文本，语料库为服务器中存储的语料库，该语料库中存储有多个候选意图类型对应的多个候选对话文本，语料库中存储的多个候选对话文本是指已进行意图识别的对话文本。

可选地，第二对话文本中包含的文本数量可以是一个，也可以是多个。

在一些实施例中，多个候选意图类型分别对应有至少两个候选对话文本；多个候选意图类型中包括第一候选意图类型，从第一候选意图类型对应的至少两个候选对话文本中确定与第一对话文本符合相似度要求的第二对话文本。

可选地，获取第一候选意图类型对应的至少两个候选对话文本；确定至少两个候选对话文本分别与第一对话文本之间的文本相似度，并将至少两个候选对话文本中与第一对话文本之间的文本相似度最高的n个候选对话文本作为第二对话文本，n为正整数。

可选地，文本相似度的计算方法包括基于向量距离的算法，即获取文本对应的文本向量，计算文本向量之间的向量距离表征文本之间的相似度，文本向量之间的向量距离越短，文本之间的相似度越高。可选地，向量距离包括余弦相似度、欧氏距离等中的至少一种，本申请实施例对此不加以限定。

可选地，文本相似度的计算方法还包括基于最佳匹配(Best Match，BM)25的算法；基于统计的算法；基于语义相似度的算法等，本申请实施例对此不加以限定。

步骤203，提取第一对话文本和多个候选意图类型对应的第一特征表示。

其中，第一特征表示用于表征多个候选意图类型分别与第一对话文本之间的相关性。

可选地，将第一对话文本分别与多个候选意图类型进行拼接处理，得到多个第一拼接文本；通过意图识别模型中的第一编码网络提取多个第一拼接文本分别对应的第一子特征表示，将多个第一子特征表示作为第一特征表示，其中，第一子特征表示用于表征单个候选意图类型与第一对话文本之间的相关性。

可选地，意图识别模型中包括第一编码网络，该第一编码网络中包含第一嵌入(Embedding)网络和第一转化器(Transfomer)网络；通过第一Embedding网络对多个第一拼接文本进行编码，得到多个第一嵌入向量。

示意性的，请参考图3，其示出了一种第一候选意图类型对应的第一拼接文本的编码结构示意图，其中，第一拼接文本中文本301为第一对话文本、第一拼接文本中文本302为候选意图类型，CLS表示句首占位符，SEP表示分句占位符，需要注意的是，CLS和SEP在第一Transfomer网络里各占一个token位。

得到多个第一嵌入向量后，将多个第一嵌入向量输入到第一Transfomer网络中，基于第一Transfomer网络中的自注意力机制提取多个第一嵌入向量分别对应的第一子特征向量。

示意性的，第一嵌入向量中包括每一个分词的表示向量X，X由分词的词嵌入向量和分词位置的位置嵌入向量相加得到；将得到的分词表示向量矩阵(每一行是一个单词的表示x)传入第一Transfomer网络中，得到第一编码信息矩阵C，该第一编码信息矩阵C即为第一子特征向量。

步骤204，提取第一对话文本和多个第二对话文本对应的第二特征表示。

其中，第二特征表示用于表征多个第二对话文本分别与第一对话文本之间的相关性。

可选地，将第一对话文本分别与多个第二对话文本进行拼接处理，得到多个第二拼接文本；通过意图识别模型中的第二编码网络提取多个第二拼接文本分别对应的第二子特征表示，将多个第二子特征表示作为第二特征表示，其中，第二子特征表示用于表征单个第二对话文本与第一对话文本之间的相关性。

可选地，意图识别模型中还包括第二编码模块，该第二编码模型中包含第二嵌入(Embedding)网络和第二转化器(Transfomer)网络；通过第二Embedding网络对多个第二拼接文本进行编码，得到多个第二嵌入向量。

需要进行说明的是，上述第一Transfomer网络和第二Transfomer网络为不同的Transfomer网络，上述第一Embedding网络和第二Embedding网络为不同的Embedding网络。

示意性的，请参考图4，其示出了一种第一候选意图类型对应的第二拼接文本的编码结构示意图，其中，第二拼接文本中文本401为第一对话文本、第一拼接文本中文本402为第二对话文本，CLS表示句首占位符，SEP表示分句占位符，需要注意的是，CLS和SEP在第二Transfomer网络里各占一个token位。

可选地，针对第一候选意图类型，若第二对话文本中包含多个对话文本，则将第一对话文本与多个对话文本按照顺序进行拼接后，得到第二拼接文本。

得到多个第二嵌入向量后，将多个第二嵌入向量输入到第二Transfomer网络中，基于第二Transfomer网络中的自注意力机制提取多个第二嵌入向量分别对应的第二子特征向量。

示意性的，第二嵌入向量中包括每一个分词的表示向量Y，Y由分词的词嵌入向量和分词位置的位置嵌入向量相加得到；将得到的分词表示向量矩阵(每一行是一个单词的表示y)传入第二Transfomer网络中，得到第二编码信息矩阵D，该第二编码信息矩阵D即为第二子特征向量。

步骤205，基于第一特征表示和第二特征表示进行意图类型预测，从多个候选意图类型中确定第一对话文本对应的第一意图类型。

其中，第一意图类型用于表示第一对话文本对应的对话意图。

可选的，通过意图识别模型中的第一分类网络对第一特征表示进行意图类型预测，得到多个候选意图类型分别对应的第一概率；通过意图识别模型中的第二分类网络对第二特征表示进行意图类型预测，得到多个候选意图类型分别对应的第二概率；对第一概率和第二概率进行加权融合，得到多个候选意图类型分别对应的分类概率；基于多个候选意图类型分别对应的分类概率，从多个候选意图类型中确定第一对话文本对应的第一意图类型。

可选地，意图识别模型中包括第一分类网络和第二分类网络，其中，第一分类网络中包括第一多层感知机(Multilayer Perceptron，MLP)、第二分类网络中包括第二多层感知机；将多个第一子特征表示即第一特征表示输入第一多层感知机中，输出多个候选意图类型分别对应的第一概率，即根据第一对话文本和多个候选意图类型之间的相关性确定的第一对话文本属于多个候选意图类型的概率；将第二特征表示输入第二多层感知机中，输出多个候选意图类型分别对应的第二概率，即根据第一对话文本和多个第二对话文本之间的相关性确定的第一对话文本属于多个候选意图类型的概率。

可选地，确定第一概率对应的第一权重系数以及第二概率对应的第二权重系数；第一权重系数和第二权重系数，计算第一概率和第二概率的加权平均数，将该加权平均数作为分类概率。

可选地，该第一权重系数和第二权重系数为预先设定的系数；或者，第一权重系数和第二权重系数为模型训练得到的系数。

示意性的，若该第一权重系数和第二权重系数为预先设定的系数，假设第一权重系数＝第二权重系数＝0.5，那么针对单个候选意图类型，得到该候选意图类型对应的第一概率和第二概率后，求第一概率和第二概率的平均值，将该平均值作为该候选意图类型的分类概率。

在一些实施例中，第一权重系数和第二权重系数是根据意图识别模型的训练数据确定的权重系数；确定意图识别模型的训练数据库中包含的多个样本对话文本，多个样本对话文本对应的意图类型属于多个候选意图类型中的至少一种；获取多个候选意图类型中分别对应的样本对话文本的第一数量；根据第一数量确定第一概率对应的第一权重系数以及第二概率对应的第二权重系数，第一数量与第一权重系数呈正相关关系，第一数量与第二权重系数呈负相关关系；基于第一权重系数和第二权重系数，对第一概率和第二概率进行加权融合，得到多个候选意图类型分别对应的分类概率。

其中，意图识别模型的训练数据库中的多个样本对话文本即为意图识别模型在训练时拟合的样本数据。

示意性的，假设上述第一概率原本的权重系数为0.5，第二概率原本的权重系数为0.5；若第一数量较大，说明意图识别模型对于该候选意图类型已拟合了较多的数据，此时，假设第一数量在第一数量范围内，将第一概率原本的权重系数从0.5调整为0.6；将第二概率原本的权重系数从0.5调整为0.4。

通过候选意图类型对应的拟合数据数量控制第一概率和第二概率分别对应的权重系数，一定程度上减少相似异义句(句子相似但是语义完全不同)对模型的预测准确性的影响。

得到多个候选意图类型分别对应的分类概率后，将其中分类概率的概率值最高的Q个候选意图类型作为第一意图类型，其中，Q为正整数，即反馈给对象的第一意图类型可以是多个也可以是一个。

可选的，当反馈给对象的第一意图类型是多个时，对象可以从多个第一意图类型中选择一个意图类型；服务器将根据对象选择的第一意图类型生成相应的回复内容。

可选地，当反馈给对象的第一意图类型是一个时，对象对该第一意图类型进行确定后，服务器根据第一意图类型生成相应的回复内容；或者，服务器不需要等待对象对第一意图类型进行确定后，直接根据第一意图类型生成相应的回复内容。

可选地，上述回复内容的内容类型可以是文本类型、视频类型、图像类型、音频类型等中的至少一种，本申请实施例对此不加以限定。

示意性的，请参考图5，其示出了一种对话系统的对话界面示意图，当客户发送“发到A地区多少钱”的对话文本501时，对话系统在识别得到该对话文本的意图类型“查询运费”后，向客户推送与“查询运费”卡片消息502，客户点击该卡片消息后，即确定了当前发送的对话文本的意图类型为“查询运费”，则对话系统将向客户反馈针对相应的回复文本，例如：“从什么地区发到A地区？”；若客户回复“B地区”，则对话系统将向客户反馈“需要发送的物品是什么？”；类似地，对话系统根据客户的回复内容进行反馈，并最终给出客户针对“查询运费”这一对话任务的任务结果。

可选地，在对象对该第一意图类型进行确定后或者得到第一意图类型后，服务器将第一对话文本存储至语料库中，同时更新语料库，即第一对话文本已作为语料库中的候选对话文本；在进行下一个获取到的对话文本进行意图类型预测时，需要针对更新后的语料库进行预测。

示意性的，请参考图6，其示出了一种语料库的可视化界面示意图，其中，意图类型列表601中包括多个候选意图类型，每个意图类型唯一对应有一个意图类型标识；对话文本数列表602中包括每个候选意图类型对应的候选对话文本，该候选对话文本即为存储在语料库中的对话文本；当对获取到的最新对话文本意图类型预测结束后，根据识别到的意图类型更新对应的对话文本数，并存储最新的更新时间。

可选地，在服务器将第一对话文本存储至语料库中，同时更新语料库之前；获取第一意图类型对应的多个候选对话文本，其中，多个候选对话文本属于第一意图类型；确定多个候选对话文本分别与第一对话文本之间的相似度，在多个候选对话文本中存在目标候选对话文本与第一对话文本之间的相似度大于或者等于相似度阈值的情况下，不将第一对话文本存储至语料库中。

示意性的，假设相似度阈值为100％，若在多个候选对话文本中存在目标候选对话文本与第一对话文本之间的相似度大于或者等于相似度阈值，表示目标候选对话文本与第一对话文本完全一致，则不需要进行重复存储，减少语料库中的冗余数据量。

综上所述，本申请实施例提供的意图识别方法通过提取第一对话文本和多个候选意图类型对应的第一特征表示以及提取第一对话文本和多个第二对话文本(各个候选意图类型下第一对话文本的相似文本)对应的第二特征表示，并基于第一特征表示和第二特征表示对第一对话文本进行意图类型预测，确定第一对话文本的意图类型。在对第一对话文本进行意图类型预测时，利用第一对话文本和意图类型之间的相关性以及第一对话文本和相似文本之间的相关性共同决策第一对话文本的对话意图；那么，在少样本场景下训练得到的意图识别模型中，当某个意图类型不在意图识别模型的训练样本中，意图识别模型可通过将第一对话文本的相似文本作为补充信息预测第一对话文本属于该意图类型的概率，从而提高了对对话文本进行意图类型预测的准确度。

本申请提供的方法，通过分开独立预测的方法，保证预测得到的第一概率和第二概率的准确性，后续通过加权融合的方式融合第一概率和第二概率，得到分类概率后确定第一对话文本的意图类型，平衡两个概率对最终预测结果的影响，进一步的提高了对意图类型预测的准确度。

本申请提供的方法，通过计算第一对话文本和各个候选意图类型分别对应的候选对话文本之间的文本相似度，从语料库中召回各个候选意图类型下的第一对话文本对应的相似文本，从而模型能够通过相似文本和第一对话文本之间的相关性，确定第一对话文本属于相似文本对应的意图类型的概率，解决了当指定意图类型的训练数据较少或者没有的情况下，模型对于该指定意图类型的分类准确度。

本申请提供的方法，通过拼接第一对话文本与候选意图类型，提取该拼接文本对应的特征表示后进行分类预测，充分提取了第一对话文本与候选意图类型之间的相关性；通过拼接第一对话文本与第二对话文本，提取该拼接文本对应的特征表示后进行分类预测，充分提取了第一对话文本与第二对话文本之间的相关性，提高了输入模型的嵌入质量，从而提高了最终进行分类预测的准确度。

在一些可选的实施例中，图7是本申请实施例提供的另一种意图识别方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图7所示，该方法包括：

步骤701，获取第一对话文本和多个候选意图类型。

其中，第一对话文本是待从多个候选意图类型中确定对话意图的文本。可选地，多个候选意图类型为开发人员预设的多个意图类型。

步骤702，从语料库中获取多个候选对话文本。

可选地，语料库为服务器中存储的语料库，该语料库中存储有多个候选对话文本，语料库中存储的多个候选对话文本是指已进行意图识别的对话文本。

其中，语料库中的多个候选对话文本被划分为多个候选意图类型，每个候选意图类型对应有至少两个候选对话文本。

步骤703，获取第一对话文本对应的多个分词，并确定第一候选意图类型对应的至少两个候选对话文本分别对应的分词相关性。

其中，分词相关性用于表征多个分词分别与候选对话文本之间的相关性。

示意性的，采用基于分布式全文检索引擎(Elastic Search，ES)的检索方法获取与第一对话文本符合相似度要求的相似文本。其中，基于分布式全文检索引擎(ElasticSearch，ES)的检索方法采用基于最佳匹配(Best Match，BM)25的算法计算至少两个候选对话文本分别与第一对话文本之间的相似度分数。

那么，需要先对第一对话文本进行分词处理，得到第一对话文本对应的多个分词；在得到多个分词后，针对指定候选对话文本，确定每个分词在指定候选对话文本中出现的分词频率；确定指定候选对话文本的文本长度以及确定多个候选对话文本的平均长度；基于分词频率、文本长度和平均长度，确定每个分词与指定候选对话文本之间的相关性。

可选地，上述多个分词可以是第一对话文本对应的所有分词；也可以是第一对话文本对应的所有分词中的部分关键分词，本申请实施例对此不加以限定。

步骤704，基于分词相关性，确定至少两个候选对话文本分别对应的相似度分数。

其中，相似度分数用于表征候选对话文本与第一对话文本之间的文本相似度。

可选地，确定得到多个分词对应的分词相关性后，对多个分词相关性对应的相关性值进行加权求和，得到加权求和结果作为候选对话文本与第一对话文本之间的相似度分数。

其中，对多个分词相关性对应的相关性值进行加权求和时，各个分词对应的权重包括分词文档权重和分词文本权重中的至少一种。

可选地，分词文档权重用于表征分词对于整个语料库的重要程度。示意性的，以上述服务器中存储的语料库为文档库，计算每个分词对应的逆文档频率(Inverse DocumentFrequency，IDF)，将逆文档频率作为分词对应的分词文档权重。

可选地，分词文本权重用于表征分词对于第一对话文本的重要程度。示意性的，基于第一对话文本中各个分词出现的词频，确定第一对话文本中各个分词的分词文本权重。

步骤705，获取第一候选意图类型对应的至少两个候选对话文本中与第一对话文本之间的相似度分数最高的第一候选对话文本。

也即获取至少两个候选对话文本中与第一对话文本之间的相似度分数最高的n个候选对话文本作为第一候选意图类型对应的第二对话文本，其中，第一候选对话文本为第二对话文本中的其中一个子文本，n的取值1。

示意性的，将至少两个候选对话文本中与第一对话文本之间的相似度分数最高的第一候选对话文本作为在第一候选意图类型下，与第一对话文本符合相似度要求的一个相似文本。

步骤706，获取第一对话文本对应的第一文本向量，以及获取第一候选意图类型对应的至少两个候选对话文本分别对应的候选文本向量。

示意性的，采用基于相似度搜索库(Facebook AI Similarity Search，FAISS)的检索方法获取与第一对话文本符合相似度要求的相似文本。

那么，需要将第一候选意图类型对应的至少两个候选对话文本和第一对话文本进行向量化处理，得到对应的至少两个候选文本向量和第一文本向量。

步骤707，通过预设聚类规则，将至少两个候选文本向量所在的向量空间划分为至少两个子空间。

可选地，预设聚类规则即将相似候选对话文本对应的候选文本向量归为一类，也即，在向量空间中，将向量距离小于距离阈值的候选文本向量所在的向量空间划分为一个子空间。

其中，至少两个子空间分别对应有聚类中心向量。聚类中心向量是可以代表对应子空间中所有候选文本向量的向量。

可选地，聚类中心向量可以是提前确定好的，即确定了至少两个候选文本向量所在的向量空间后，均匀的设定至少两个聚类中心向量；针对第一聚类中心向量，将至少两个候选文本向量中与第一聚类中心向量之间的距离小于距离阈值的候选文本向量划分到第一聚类中心向量所属子空间。

需要进行说明的是，在确定设定聚类中心向量以及其对应的距离阈值时，需要保证划分得到的至少两个子空间能够包括所有的候选文本向量。

可选地，聚类中心向量是划分完至少两个子空间后确定的，即划分得到子空间后，将子空间的中心点对应的向量作为聚类中心向量；或者，将与子空间中候选文本向量之间的向量距离的和最小的点对应的向量作为聚类中心向量；或者，将子空间中与候选文本向量之间的向量距离小于预设值最多的点(即子空间中候选文本向量最密集区域的区域中的某一点)对应的向量作为聚类中心向量。

步骤708，确定至少两个聚类中心向量分别与第一文本向量之间的向量距离。

示意性的，计算每个子空间的聚类中心向量和第一文本向量之间的向量距离，其中，向量距离包括余弦相似度、欧几里得距离等中的至少一种，本申请实施例对此不加以限定。

步骤709，获取至少两个聚类中心向量中与第一文本向量之间的向量距离最短的k个聚类中心向量。

其中，k为正整数。

步骤710，从k个聚类中心向量对应的k个子空间中的候选文本向量对应的候选对话文本中确定第二候选对话文本。

也即确定第一文本向量和k个聚类中心向量对应的k个子空间中的候选文本向量之间的距离，将k个子空间中的候选文本向量中与第一文本向量之间的距离最短的n个候选文本向量对应的候选对话文本作为第二对话文本，其中，第二候选对话文本为第二对话文本中的其中一个子文本，n的取值1。即在第一候选意图类型下，与第一对话文本符合相似度要求的另一个相似文本。

步骤711，基于第一候选对话文本和第二候选对话文本，确定第二对话文本。

示意性的，通过上述两种检索方法从语料库中召集两个在第一候选意图类型下与第一对话文本符合相似度要求的相似文本，将这两个相似文本按照顺序进行拼接得到第二对话文本。

可选地，确定第一候选对话文本和第二候选对话文本之间的文本相似度；若第一候选对话文本和第二候选对话文本之间的文本相似度大于或者等于相似度阈值，则将第一候选对话文本或者第二候选对话文本作为第二对话文本。

示意性的，假设相似度阈值为100％，即第一候选对话文本和第二候选对话文本完全相同，只需要取其中的一个文本作为第二对话文本即可。

可选地，基于语义相似度计算方法，计算第二对话文本和第一候选对话文本之间第一语义相似度；计算第二对话文本和第二候选对话文本之间第二语义相似度；在第一语义相似度大于第二语义相似度的情况下，将第一候选对话文本作为第二对话文本；在第一语义相似度小于第二语义相似度的情况下，将第二候选对话文本作为第二对话文本；在第一语义相似度等于第二语义相似度的情况下，将第一候选对话文本或者第二候选对话文本作为第二对话文本。

步骤712，提取第一对话文本和多个候选意图类型对应的第一特征表示。

可选地，将第一对话文本分别与多个候选意图类型进行拼接处理，得到多个第一拼接文本；可选地，意图识别模型中包括第一编码模块，该第一编码模型中包含第一嵌入(Embedding)网络和第一转化器(Transfomer)网络；通过第一Embedding网络对多个第一拼接文本进行编码，得到多个第一嵌入向量；将多个第一嵌入向量输入到第一Transfomer网络中，基于第一Transfomer网络中的自注意力机制提取多个第一嵌入向量分别对应的第一子特征向量，将多个第一子特征向量作为第一特征表示，其中，第一子特征向量用于表征单个候选意图类型与第一对话文本之间的相关性。

步骤713，提取第一对话文本和多个第二对话文本对应的多个第二特征表示。

可选地，将第一对话文本分别与多个第二对话文本进行拼接后，得到多个第二拼接文本；可选地，意图识别模型中还包括第二编码模块，该第二编码模型中包含第二嵌入(Embedding)网络和第二转化器(Transfomer)网络；通过第二Embedding网络对多个第二拼接文本进行编码，得到多个第二嵌入向量；将多个第二嵌入向量输入到第二Transfomer网络中，基于第二Transfomer网络中的自注意力机制提取多个第二嵌入向量分别对应的第二子特征向量，将多个第二子特征向量作为第二特征表示，其中，第二子特征向量用于表征单个第二对话文本与第一对话文本之间的相关性。

步骤714，基于第一特征表示和第二特征表示进行意图类型预测，从多个候选意图类型中确定第一对话文本对应的第一意图类型。

可选的，通过意图识别模型基于第一特征表示进行意图类型预测，确定多个候选意图类型分别对应的第一概率；通过意图识别模型基于第二特征表示进行意图类型预测，得到多个意图候选类型分别对应的第二概率；对第一概率和第二概率进行加权融合，得到多个候选意图类型分别对应的分类概率；基于多个候选意图类型分别对应的分类概率，从多个候选意图类型中确定第一对话文本对应的第一意图类型。

本申请实施例提供的方法，通过计算分词相似度，从语料库中召集符合相似度要求的文本，提高了召回得到的相似文本的准确度。

本申请实施例提供的方法，通过计算第一对话文本和多个聚类中心之间的向量距离，确定符合距离要求的聚类中心后，在对符合距离要求的聚类中心中的候选文本进行向量距离计算遍历以召回符合相似度要求的文本，避免了对语料库的全局向量距离计算造成的计算资源的浪费。

本申请实施例可应用于云智能客服的对话系统中的多轮意图领域。在实际应用中，冷启动阶段，也就是项目建设的初期，常常会出现：初始语料少、意图设计冲突、语料标注错误等问题，这些问题直接影响了客户接入初期的性能体验。本申请实施例提供的基于双塔增强的意图识别方法，旨在应用于意图分类的冷启动阶段，该方案的关键技术在于结合Transformer模型和双塔结构，并采用数据增强和小样本学习的方法，对分类模型进行训练，提升在少样本场景下的意图分类性能。相比于传统的意图分类方法，解决了冷启动阶段所面临的初始语料少、意图设计冲突、语料标注错误等问题，具有更好的泛化性。

本申请实施例采用Transformer作为分类模型的基础，利用Self-Attention机制实现在输入序列中每个位置的关注度不同，从而提取特征。同时，本方案还引入了双塔结构，将意图标签与相似语料分别输入两个独立的模型，实现了特征的更充分提取和模型的更加健壮。为了提高模型的泛化性和减少过拟合，本方案采用小样本的思想，即通过学习少量的元数据集，自适应地调整模型权重和参数，提高在新数据集上的性能。同时，本方案还采用了数据增强的方法，通过在原始数据上扩充、清洗样本，从而提高模型的鲁棒性和泛化性。

在一些可选的实施例中，图8是本申请实施例提供的一种意图识别模型的训练方法的流程图，该方法可以由服务器或者终端执行，也可以由服务器和终端共同执行，本申请实施例中，以该方法由服务器执行为例进行说明，如图8所示，该方法包括：

步骤801，从样本语料库中获取第一样本对话文本和第一样本对话文本对应的参考意图类型，以及获取多个候选意图类型。

其中，第一样本对话文本是待从多个候选意图类型中确定对话意图的文本。第一样本对话文本对应的参考意图类型即标注的第一样本对话文本的实际意图类型。

可选地，样本语料库中包括多个样本对话文本，第一样本对话文本是指多个样本对话文本中的任意未参与模型训练的样本对话文本。

可选地，多个候选意图类型为开发人员预设的多个意图类型；或者，多个候选意图类型是指样本语料库中包含的意图类型。需要进行说明的是，模型在训练时多个候选意图类型与模型在应用时的多个候选意图类型(即步骤201中的多个候选意图类型)可以是相同的，也可以是不同的。本申请实施例对此不加以限定。

示意性的，在对话系统的项目建设的初期，开发人员需要设计若干意图类型，以及射击若干意图类型对应的对话文本。请参考图9，其示出了一种在多轮问答场景下，“查询运费”问答名称(即意图类型)对应的问法(即对话文本)界面。在界面900中，“查询运费”问答名称下包括标准问法和更多问法，标准问法和一部分更多问法通常是开发人员设定的问法，另一部分的更多问法是在对话系统应用阶段收集到的问法。

在一些实施例中，在从样本语料库中获取第一样本对话文本之前包括：获取候选语料库，对候选语料库中的多个样本对话文本进行文本增强处理；基于对多个样本对话文本进行文本增强处理的处理结果对候选语料库进行扩充，得到样本语料库。

可选地，上述通过文本增强处理得到样本语料库的方法包括以下方法中的至少一种：

1、在候选对话文本中随机插入符号或调整其中的词序，得到新的对话文本，将新的对话文本加入第一新增语料库，将候选语料库和第一新增语料库作为样本语料库。

2、抽取候选对话文本中的关键词，基于关键词重新生成新的对话文本，将新的对话文本加入第二新增语料库，将候选语料库和第二新增语料库作为样本语料库。

3、利用预训练模型进行语料泛化收集，得到第三新增语料库，将候选语料库和第三新增语料库作为样本语料库。

其中，预训练模型可以是中文预训练模型(A Pre-Trained UnbalancedTransformer for Both Chinese Language Understanding and Generation，CPT)、生成型预训练变换模型(Chat Generative Pre-trained Transformer，ChatGPT)等。

需要进行说明的是，上述通过文本增强处理得到样本语料库的方法的举例仅为示意性的说明，本申请实施例对此不加以限定，例如：通过人工标注继续扩充语料库。

在一些实施例中，在从样本语料库中获取第一样本对话文本之前还包括：获取候选语料库，候选语料库中包括多个候选对话文本，多个候选对话文本分别标注有候选意图类型；通过目标意图识别模型对多个候选对话文本进行意图类型预测，得到多个候选对话文本分别对应的目标意图类型；确定多个候选对话文本中候选意图类型和目标意图类型不一致的目标候选对话文本；更新目标候选对话文本对应的类型标注结果，并更新候选语料库，将更新后的候选语料库作为样本语料库。

其中，目标意图识别模型可以是上一次训练得到的意图识别模型。

示意性的，在本申请实施例中，意图识别模型应用到对话系统后，对话系统中产生的新数据将会作为意图识别模型下一次训练时的训练数据；也就是说，意图识别模型的版本是不断更新的。在对当前版本的意图识别模型进行训练时，可以通过之前版本的意图识别模型对训练数据所在的语料库中的对话文本进行识别，筛选出与标注的意图类型不一致的预测结果，对其对应的对话文本进行重新标注，从而完成对训练数据的清洗，提高训练数据的标注质量。

示意性的，请参考图10，其示出了一种意图识别模型的模型结构示意图，候选意图识别模型中包括数据增强模块1001：数据增强模块1001的基本思路是通过对原始数据进行扩充、清洗，得到更多、且质量更高的语料集，从而提高模型学习到的特征的区分度和泛化能力。如图10所示，利用现有的语料集Q1，进行数据扩充、利用置信度学习筛选可能标注错误的语料(即数据清洗)，得到语料集Q2。

步骤802，从样本语料库中获取多个候选意图类型分别对应的第二样本对话文本。

其中，第一样本对话文本和第二样本对话文本之间符合相似度要求。

本步骤中从样本语料库中获取第二样本对话文本的具体方法可参考步骤702至步骤711中从语料库中获取第二对话文本的过程，在此不再赘述。

示意性的，请参考图10，候选意图识别模型中包括预处理模块1002：预处理模型1002用于基于ES和FAISS技术，计算筛选第一样本对话文本和各个意图类型之间最相近的语料，即第二样本对话文本。

也即，将各个意图类型和个意图类型对应的候选对话文本都存入ES和FAISS中，基于第一样本对话文本进行召回。其中，ES会将第一样本对话文本分词后进行检索，FAISS会将第一样本对话文本特征向量化后检索。针对指定意图类型，两个渠道各取topN(通常取top1)，作为第一样本对话样本对应的第二样本对话样本。

步骤803，通过候选意图识别模型提取第一样本对话文本和多个侯选意图类型对应的第一样本特征表示，以及提取第一样本对话文本和多个第二样本对话文本对应的第二样本特征表示。

可选地，将第一样本对话文本分别与多个候选意图类型进行拼接处理，得到多个第一样本拼接文本；通过候选意图识别模型对多个第一样本拼接文本进行编码，得到多个第一样本嵌入向量；通过候选意图识别模型提取多个第一样本嵌入向量分别对应的第一子样本特征表示，将多个第一子样本特征表示作为第一样本特征表示，其中，第一子样本特征表示用于表征单个候选意图类型与第一样本对话文本之间的相关性。

可选地，将第一样本对话文本分别与多个第二样本对话文本进行拼接处理，得到多个第二样本拼接文本；通过候选意图识别模型对多个第二样本拼接文本进行编码，得到多个第二样本嵌入向量；通过候选意图识别模型提取多个第二样本嵌入向量分别对应的第二子样本特征表示，将多个第二子样本特征表示作为第二样本特征表示，其中，第二子样本特征表示用于表征单个第二样本对话文本与第一样本对话文本之间的相关性。

示意性的，请参考图10，候选意图识别模型中包括编码模块1003：编码模块1003用于将第一样本对话文本与指定意图类型、指定意图类型对应的第二样本对话文本输入后进行编码，充分提取特征。

如图10所示，候选意图识别模型为双塔结构，其中，编码模块1003包含第一Embedding网络和第一Transfomer网络，用于编码第一样本对话文本与指定意图类型，并通过第一Transformer网络以表示第一样本对话文本与指定意图类型之间的相关性；编码模块1003包含第二Embedding网络和第二Transfomer网络，用于编码第一样本对话文本与指定意图类型对应的第二样本对话文本，并通过第二Transformer网络以表示第一样本对话文本与指定意图类型对应的第二样本对话文本之间的相关性。

在编码过程中，采用自注意力(Self-Attention)机制，以获取更好的上下文信息，并相互参照进行编码。在进行完编码后，将得到一组特征向量(即第一样本特征表示和第二样本特征表示)，其中每个特征向量都对应一组编码后的语料和意图表示结果。

步骤804，基于第一样本特征表示和第二样本特征表示进行意图类型预测，从多个候选意图类型中确定第一样本对话文本对应的预测意图类型。

可选的，通过候选意图识别模型基于第一样本特征表示进行意图类型预测，确定多个候选意图类型分别对应的第一样本概率；通过候选意图识别模型基于第二样本特征表示进行意图类型预测，得到多个候选意图类型分别对应的第二样本概率；对第一样本概率和第二样本概率进行加权融合，得到多个候选意图类型分别对应的预测分类概率；基于多个候选意图类型分别对应的预测分类概率，从多个候选意图类型中确定第一样本对话文本对应的预测意图类型。

示意性的，请参考图10，候选意图识别模型中包括分类模块1004：如图10所示，分类模块1004中包括第一多层感知机，第一多层感知机用于预测第一样本对话文本和指定意图类型之间的相关性得分；分类模块1004中包括第二多层感知机，第二多层感知机用于预测第一样本对话文本和指定意图类型对应的第二样本对话文本之间的相关性得分；取两者和的均值作为指定意图类型的最终相关性得分，即指定意图类型的预测分类概率。

可选地，通过对所有意图类型对应的相关性得分进行排序，获得最相关的意图类型(即预测意图类型)，从而做出对第一样本对话文本进行意图分类的决策。

步骤805，基于参考意图类型和预测意图类型之间的差异对候选意图识别模型进行训练，得到意图识别模型。

其中，意图识别模型用于预测对话文本的意图类型以确定对话文本的对话意图。

可选地，通过交叉熵函数作为损失函数来训练候选意图识别模型。

可选地，当候选意图识别模型的识别结果达到训练效果，即停止对候选意图识别模型的训练，得到意图识别模型。其中，训练效果用于指示预先设定的、用于终止对候选意图识别模型进行训练的训练条件。示意性的，响应于对候选意图识别模型的训练次数达到预设次数阈值，停止训练候选意图识别模型，得到意图识别模型。或者，候选意图识别模型当前训练得到的损失值小于或者等于预设损失值，停止训练候选意图识别模型，得到意图识别模型。

示意性的，本申请实施例提供的意图识别模型的训练方法在需要对未见意图类型进行分类时，利用小样本学习思想，不仅学习其意图类型名称，更将意图类型名称对应的相似问作为补充信息一起学习，提高模型在少样本场景的性能。该方法训练后的模型，即使对某个意图类型未在训练即中见过，也能达成较好的冷启动阶段(即项目建设的初期)分类效果。

示意性的，请参考表1和表2，其示出了参考模型1和本申请实施例提供的模型2在训练集领域和测试领域上的分类效果。其中，参考模型和本申请实施例提供的模型都是基于Transformer框架的。Fine-tune是训练时都见过该领域的意图。Zero-shot是新的未见过的领域意图，没有经过训练的。

如表1和表2所示，本申请实施例提供的模型经验证相较于参考模型，提升了适用于Fine-tune，尤其适用于提升冷启动阶段Zero-shot的效果，如需要提升未见领域分类效果，可以收集该领域意图的语料进行新的模型训练。

表1

表2

请参考图11，其示出了本申请一个示例性的实施例提供的意图识别装置结构框图，该装置包括：

获取模块1100，用于获取第一对话文本和多个候选意图类型，所述第一对话文本是待从所述多个候选意图类型中确定对话意图的文本；

所述获取模块1100，还用于获取所述多个候选意图类型分别对应的第二对话文本，所述第二对话文本与所述第一对话文本之间符合相似度要求；

提取模块1110，用于提取所述第一对话文本和所述多个候选意图类型对应的第一特征表示，所述第一特征表示用于表征所述多个候选意图类型分别与所述第一对话文本之间的相关性；

所述提取模块1110，还用于提取所述第一对话文本和多个第二对话文本对应的第二特征表示，所述第二特征表示用于表征所述多个第二对话文本分别与所述第一对话文本之间的相关性；

预测模块1120，用于基于所述第一特征表示和所述第二特征表示进行意图类型预测，从所述多个候选意图类型中确定所述第一对话文本对应的第一意图类型，所述第一意图类型用于表示所述第一对话文本对应的所述对话意图。

请参考图12，在一些实施例中，所述预测模块1120，用于通过意图识别模型中的第一分类网络对所述第一特征表示进行意图类型预测，得到所述多个候选意图类型分别对应的第一概率；所述预测模块1120，用于通过所述意图识别模型中的第二分类网络对所述第二特征表示进行意图类型预测，得到多个候选意图类型分别对应的第二概率；所述预测模块1120，包括：

融合单元1121，用于对所述第一概率和所述第二概率进行加权融合，得到所述多个候选意图类型分别对应的分类概率；

第一确定单元1122，用于基于所述多个候选意图类型分别对应的分类概率，从所述多个候选意图类型中确定所述第一对话文本对应的所述第一意图类型。

在一些实施例中，所述融合单元1121，用于：

确定所述意图识别模型的训练数据库中包含的多个样本对话文本，所述多个样本对话文本对应的意图类型属于所述多个候选意图类型中的至少一种；

获取所述多个候选意图类型中分别对应的样本对话文本的第一数量；

根据所述第一数量确定所述第一概率对应的第一权重系数以及所述第二概率对应的第二权重系数，所述第一数量与所述第一权重系数呈正相关关系，所述第一数量与所述第二权重系数呈负相关关系；

基于所述第一权重系数和所述第二权重系数，对所述第一概率和所述第二概率进行加权融合，得到所述多个候选意图类型分别对应的分类概率。

在一些实施例中，所述多个候选意图类型中包括第一候选意图类型；所述获取模块1100，还用于获取所述第一候选意图类型对应的至少两个候选对话文本；所述获取模块1100，包括：

第二确定单元1101，用于确定所述至少两个候选对话文本分别与所述第一对话文本之间的文本相似度，并将所述至少两个候选对话文本中与所述第一对话文本之间的文本相似度最高的n个候选对话文本作为所述第一候选意图类型对应的第二对话文本，n为正整数。

在一些实施例中，所述第二确定单元1101，用于：

获取所述第一对话文本对应的多个分词，并确定所述至少两个候选对话文本分别对应的分词相关性，所述分词相关性用于表征所述多个分词分别与所述候选对话文本之间的相关性；

基于所述分词相关性，确定所述至少两个候选对话文本分别对应的相似度分数；

获取所述至少两个候选对话文本中与所述第一对话文本之间的相似度分数最高的n个候选对话文本作为所述第一候选意图类型对应的第二对话文本。

在一些实施例中，所述第二确定单元1101，用于：

获取所述第一对话文本对应的第一文本向量，以及获取所述至少两个候选对话文本分别对应的候选文本向量；

通过预设聚类规则，将所述至少两个候选文本向量所在的向量空间划分为至少两个子空间，所述至少两个子空间分别对应有聚类中心向量；

确定至少两个聚类中心向量分别与所述第一文本向量之间的向量距离；

获取所述至少两个聚类中心向量中与所述第一文本向量之间的向量距离最短的k个聚类中心向量，k为正整数；

确定所述第一文本向量和所述k个聚类中心向量对应的k个子空间中的候选文本向量之间的距离；

将所述k个子空间中的候选文本向量中与所述第一文本向量之间的距离最短的n个候选文本向量对应的候选对话文本作为所述第二对话文本。

在一些实施例中，所述提取模块1110，包括：

拼接单元1111，用于将所述第一对话文本分别与所述多个候选意图类型进行拼接处理，得到多个第一拼接文本；

所述提取模块1110，还用于通过意图识别模型中的第一编码网络提取所述多个第一拼接文本分别对应的第一子特征表示，将多个第一子特征表示作为所述第一特征表示，其中，单个第一子特征表示用于表征单个候选意图类型与所述第一对话文本之间的相关性。

在一些实施例中，所述拼接单元1111，用于将所述第一对话文本分别与所述多个第二对话文本进行拼接处理，得到所述多个第二拼接文本；所述提取模块1110，还用于通过意图识别模型中的第二编码网络提取所述多个第二拼接文本分别对应的第二子特征表示，将多个第二子特征表示作为所述第二特征表示，其中，单个第二子特征表示用于表征单个第二对话文本与所述第一对话文本之间的相关性。

综上所述，本申请实施例提供的意图识别装置通过提取第一对话文本和多个候选意图类型对应的第一特征表示以及提取第一对话文本和多个第二对话文本(各个候选意图类型下第一对话文本的相似文本)对应的第二特征表示，并基于第一特征表示和第二特征表示对第一对话文本进行意图类型预测，确定第一对话文本的意图类型。在对第一对话文本进行意图类型预测时，利用第一对话文本和意图类型之间的相关性以及第一对话文本和相似文本之间的相关性共同决策第一对话文本的对话意图；那么，在少样本场景下训练得到的意图识别模型中，当某个意图类型不在意图识别模型的训练样本中，意图识别模型可通过将第一对话文本的相似文本作为补充信息预测第一对话文本属于该意图类型的概率，从而提高了对对话文本进行意图类型预测的准确度。

需要说明的是：上述实施例提供的意图识别装置仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的意图识别装置与意图识别方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

图13示出了本申请一个示例性实施例提供的计算机设备1300的结构框图。该计算机设备1300可以是终端或服务器。

通常，计算机设备1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储计算机程序，该计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的意图识别方法。

示意性的，计算机设备1300还包括其他组件，本领域技术人员可以理解，图13中示出的结构并不构成对计算机设备1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入计算机设备中的计算机可读存储介质。该计算机可读存储介质中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述实施例中任一所述的意图识别方法。

可选的，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过计算机程序来指令相关的硬件完成，所述的计算机程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征表示和所述第二特征表示进行意图类型预测，从所述多个候选意图类型中确定所述第一对话文本对应的第一意图类型，包括：

通过意图识别模型中的第一分类网络对所述第一特征表示进行意图类型预测，得到所述多个候选意图类型分别对应的第一概率；

通过所述意图识别模型中的第二分类网络对所述第二特征表示进行意图类型预测，得到多个候选意图类型分别对应的第二概率；

对所述第一概率和所述第二概率进行加权融合，得到所述多个候选意图类型分别对应的分类概率；

基于所述多个候选意图类型分别对应的分类概率，从所述多个候选意图类型中确定所述第一对话文本对应的所述第一意图类型。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一概率和所述第二概率进行加权融合，得到所述多个候选意图类型分别对应的分类概率，包括：

4.根据权利要求1所述的方法，其特征在于，所述多个候选意图类型中包括第一候选意图类型；

所述获取所述多个候选意图类型分别对应的第二对话文本，包括：

获取所述第一候选意图类型对应的至少两个候选对话文本；

确定所述至少两个候选对话文本分别与所述第一对话文本之间的文本相似度，并将所述至少两个候选对话文本中与所述第一对话文本之间的文本相似度最高的n个候选对话文本作为所述第一候选意图类型对应的第二对话文本，n为正整数。

5.根据权利要求4所述的方法，其特征在于，所述确定所述至少两个候选对话文本分别与所述第一对话文本之间的文本相似度，并将所述至少两个候选对话文本中与所述第一对话文本之间的文本相似度最高的n个候选对话文本作为所述第一候选意图类型对应的第二对话文本，包括：

6.根据权利要求4所述的方法，其特征在于，所述确定所述至少两个候选对话文本分别与所述第一对话文本之间的文本相似度，并将所述至少两个候选对话文本中与所述第一对话文本之间的文本相似度最高的n个候选对话文本作为所述第一候选意图类型对应的第二对话文本，包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述提取所述第一对话文本和多个第二对话文本对应的第二特征表示，包括：

将所述第一对话文本分别与所述多个候选意图类型进行拼接处理，得到多个第一拼接文本；

通过意图识别模型中的第一编码网络提取所述多个第一拼接文本分别对应的第一子特征表示，将多个第一子特征表示作为所述第一特征表示，其中，单个第一子特征表示用于表征单个候选意图类型与所述第一对话文本之间的相关性。

8.根据权利要求1至6任一所述的方法，其特征在于，所述提取所述第一对话文本和多个第二对话文本对应的第二特征表示，包括：

将所述第一对话文本分别与所述多个第二对话文本进行拼接处理，得到所述多个第二拼接文本；

通过意图识别模型中的第二编码网络提取所述多个第二拼接文本分别对应的第二子特征表示，将多个第二子特征表示作为所述第二特征表示，其中，单个第二子特征表示用于表征单个第二对话文本与所述第一对话文本之间的相关性。

9.一种意图识别装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一所述的意图识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至8任一所述的意图识别方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一所述的意图识别方法。