CN116611429A

CN116611429A - 一种意图识别方法、装置、电子设备及存储介质

Info

Publication number: CN116611429A
Application number: CN202310460078.0A
Authority: CN
Inventors: 陈猛; 刘艺博; 丁顺意; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-08-18

Abstract

本发明提供一种意图识别方法、装置、电子设备及存储介质，涉及意图识别领域，方法包括：获取预设实体类别对应的多条文本信息；将文本信息转换为文本特征向量，并对文本特征向量进行融合，得到预设实体类别对应的类别特征向量；基于类别特征向量对用户输入信息进行意图识别；可将与预设实体类别相关的文本信息对应的文本特征向量进行融合，得到预设实体类别的类别特征向量，从而可显著提升类别特征向量所包含的特征信息量，进而可确保此类类别特征向量在对用户输入信息进行意图识别时能够更好地与用户输入信息相匹配，并能够有效提升意图识别的准确率。

Description

一种意图识别方法、装置、电子设备及存储介质

技术领域

本发明涉及意图识别领域，特别涉及一种意图识别方法、装置、电子设备及计算机可读存储介质。

背景技术

在AIGC(AI Generated Content，人工智能生成内容)领域中，对用户输入信息进行意图识别的准确率将直接影响人工智能生成内容的质量。然而，相关技术中，意图识别存在准确率较低、召回率较高的缺陷，进而难以有效领会用户意图。

发明内容

本发明的目的是提供一种意图识别方法、装置、电子设备及计算机可读存储介质，可将与预设实体类别相关的文本信息对应的文本特征向量进行融合，得到预设实体类别的类别特征向量，并利用此类类别特征向量进行意图识别，从而可有效提升意图识别的准确率。

为解决上述技术问题，本发明提供一种意图识别方法，包括：

获取预设实体类别对应的多条文本信息；

将所述文本信息转换为文本特征向量，并对所述文本特征向量进行融合，得到所述预设实体类别对应的类别特征向量；

基于所述类别特征向量对用户输入信息进行意图识别。

可选地，所述基于所述类别特征向量对用户输入信息进行意图识别，包括：

将所述用户输入信息转换为输入特征向量；

检索与所述输入特征向量满足预设匹配条件的目标类别特征向量；

将所述目标类别特征向量对应的预设实体类别作为所述用户输入信息对应的意图识别信息。

可选地，所述检索与所述输入特征向量满足预设匹配条件的目标类别特征向量，包括：

计算所述输入特征向量与所述类别特征向量间的相似度；

当确定所述相似度大于所述类别特征向量所属预设实体类别对应的相似度阈值时，确定所述类别特征向量为所述目标类别特征向量。

可选地，在基于所述类别特征向量对用户输入信息进行意图识别之前，还包括：

获取所述预设实体类别对应的输入信息正样本和输入信息负样本；

分别将所述输入信息正样本和所述输入信息负样本转换为正样本特征向量和负样本特征向量，并分别计算所述正样本特征向量和所述负样本特征向量与所述预设实体类别的类别特征向量间的第一相似度和第二相似度；

基于所述第一相似度和所述第二相似度，确定预设实体类别在不同相似度阈值条件下对应的准确率和召回率；

基于所述准确率和召回率确定所述预设实体类别对应的相似度阈值。

可选地，在基于所述类别特征向量对用户输入信息进行意图识别之前，包括：

利用所述预设实体类别及对应的类别特征向量构建索引表；

相应的，所述检索与所述输入特征向量满足预设匹配条件的目标类别特征向量，包括：

在所述索引表中检索与所述输入特征向量满足预设匹配条件的目标类别特征向量。

可选地，所述用户输入信息包括图像。

可选地，所述对所述文本特征向量进行融合，得到所述预设实体类别对应的类别特征向量，包括：

对所述文本特征向量进行归一化处理，并对归一化处理后的文本特征向量进行平均值计算，得到所述预设实体类别对应的类别特征向量。

本发明还提供一种意图识别装置，包括：

获取模块，用于获取预设实体类别对应的多条文本信息；

类别特征向量构建模块，用于将所述文本信息转换为文本特征向量，并对所述文本特征向量进行融合，得到所述预设实体类别对应的类别特征向量；

意图识别模块，用于基于所述类别特征向量对用户输入信息进行意图识别。

本发明还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的意图识别方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上所述的意图识别方法。

本发明提供一种意图识别方法，包括：获取预设实体类别对应的多条文本信息；将所述文本信息转换为文本特征向量，并对所述文本特征向量进行融合，得到所述预设实体类别对应的类别特征向量；基于所述类别特征向量对用户输入信息进行意图识别。

可见，本发明首先可获取预设实体类别相关的多条文本信息，并可将这些文本信息转换为文本特征向；随后，可将这些文本特征向量进行融合得到预设实体类别对应的类别特征向量，考虑到这些文本信息可从不同角度对预设实体类别进行描述，因此将这些文本信息的文本特征向量进行融合，可显著提升该类别特征向量所包含的特征信息量，进而在利用此类类别特征向量对用户输入信息进行意图识别时，能够更好地与用户输入信息相匹配，进而能够有效提升意图识别的准确率。本发明还提供一种意图识别装置、电子设备及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种意图识别方法的流程图；

图2为本发明实施例所提供的一种标签体系的示意图；

图3为本发明实施例所提供的另一种意图识别方法的流程图；

图4为本发明实施例所提供的一种意图识别装置的结构框图；

图5为本发明实施例所提供的一种电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，意图识别存在准确率较低、召回率较高的缺陷，进而难以有效领会用户意图。有鉴于此，本发明可提供一种意图识别方法，可将与预设实体类别相关的文本信息对应的文本特征向量进行融合，得到预设实体类别的类别特征向量，并利用此类类别特征向量进行意图识别，从而可有效提升意图识别的准确率。需要说明的是，本发明实施例并不限定执行本方法的硬件类型，例如可以为个人电脑、服务器等，可根据实际应用需求进行设置。

请参考图1，图1为本发明实施例所提供的一种意图识别方法的流程图，该方法可以包括：

S100、获取预设实体类别对应的多条文本信息。

在本发明实施例中，预设实体类别是用于与用户输入信息进行匹配而对后者进行意图识别的预设信息。具体的，预设实体类别将被转换为向量形式(即类别特征向量)，并与用户输入信息对应的输入特征向量进行匹配。可见，如何确保类别特征向量能够更好地与输入特征向量进行匹配，是提升意图识别准确率的关键。为此，本发明实施例可通过在类别特征向量中增加信息量的方式提升该向量与输入特征向量间的适应性。而为了扩充类别特征向量所包含的信息量，除预设实体类别外，本申请还额外获取了与该类别相关的多条文本信息，并可利用这些文本信息共同生成预设实体类别的类别特征向量。例如，对于预设实体类别“一个男人”，可获取与之相关的“一个英俊的男人”、“一个帅气的男人””等文本信息；又例如，对于预设实体类别“人物”，可获取与之相关的“一个男生”、“一个女生”、“一个小孩”、“一对情侣”、“一对夫妻结婚”、“一对闺蜜”、“一对兄弟”等文本信息。考虑到上述文本信息可从不同的角度对预设实体类别进行描述，因此利用文本信息共同生成类别特征向量，可显著提升类别特征向量所包含的信息量。需要说明的是，本发明实施例并不限定具体的预设实体类别及文本信息，可根据实际应用需求进行设定。本发明实施例也不限定预设实体类别具体对应的文本信息数量，可根据实际应用需求进行设定。可以理解的是，文本信息数量越多，则该预设实体类别的类别特征向量可包含的信息量越足。当然，为方便管理，可预先将预设实体类别及文本信息整理为图2所示的标签体系中，其中图2为本发明实施例所提供的一种标签体系的示意图。

S200、将文本信息转换为文本特征向量，并对文本特征向量进行融合，得到预设实体类别对应的类别特征向量。

本步骤旨在对文本信息进行融合，以得到预设实体类别对应的类别特征向量。具体的，本步骤首先可将上述文本信息转换为文本特征向量，随后可对这些文本特征向量进行融合，得到预设实体类别对应的类别特征向量。本申请具体不限定向量融合的具体方式，例如可对上述文本特征向量进行归一化处理，并对归一化处理后的文本特征向量进行平均值计算处理，得到类别特征向量，从而实现对文本特征向量的融合。

基于此，对文本特征向量进行融合，得到预设实体类别对应的类别特征向量，可以包括：

S201、对文本特征向量进行归一化处理，并对归一化处理后的文本特征向量进行平均值计算，得到预设实体类别对应的类别特征向量。

需要说明的是，本发明实施例并不限定将文本信息转换为文本特征向量的具体方式及所需使用的神经网络模型，可根据实际应用需求进行设定。例如，当需要对用户输入的图像进行意图识别时，上述神经网络模型可以为图像文本匹配模型(如Clip模型)，并可使用该模型的文本分支将文本信息转化为文本特征向量。

S300、基于类别特征向量对用户输入信息进行意图识别。

在得到上述类别特征向量之后，便可利用其对用户输入信息进行意图识别。需要说明的是，本发明实施例并不限定用户输入信息的具体类型，例如可以为图像，可以为文本。如上所述，用户输入信息可被转换输入特征向量，并与类别特征向量进行匹配。当发现了与输入特征向量满足预设匹配条件的目标类别特征向量时，便可将目标类别特征向量对应的预设实体类别作为用户输入信息对应的意图识别信息。

基于此，基于类别特征向量对用户输入信息进行意图识别，可以包括：

S310、将用户输入信息转换为输入特征向量；

S320、检索与输入特征向量满足预设匹配条件的目标类别特征向量；

S330、将目标类别特征向量对应的预设实体类别作为用户输入信息对应的意图识别信息。

需要说明的是，本发明实施例并不限定将用户输入信息转换为输入特征向量的具体方式及所需使用的神经网络模型，可根据实际应用需求进行设定。例如，当用户输入信息为图像时，上述神经网络模型可以为图像文本匹配模型(如Clip模型)，并可使用该模型的图像分支将用户输入信息转化为输入特征向量。

进一步，需要说明的是，本发明实施例并不限定具体的预设匹配条件，例如可基于输入特征向量与类别特征向量间的相似度，并根据相似度是否大于相似度阈值来确定输入特征向量与类别特征向量是否匹配。需要注意的是，考虑到不同预设实体类别对应的文本信息的数量不同，导致其对应的类别特征向量所包含的信息量也不同，与用户输入信息间的适应性也不同，因此不同预设实体类别对应的相似度阈值可不同。换句话说，在确定输入特征向量与类别特征向量是否匹配时，需确定输入特征向量与类别特征向量间的相似度是否大于类别特征向量所属预设实体类别对应的相似度阈值。

基于此，检索与输入特征向量满足预设匹配条件的目标类别特征向量，可以包括：

S321、计算输入特征向量与类别特征向量间的相似度；

S322、当确定相似度大于类别特征向量所属预设实体类别对应的相似度阈值时，确定类别特征向量为目标类别特征向量。

需要说明的是，本发明实施例并不限定相似度阈值的设置方式，其可通过多轮训练实验得到。例如，可获取预设实体类别对应的输入信息正样本和输入信息负样本，其中输入信息正样本属于预设实体类别，而输入信息负样本不属于预设实体类别；随后，分别将输入信息正样本和输入信息负样本转换为正样本特征向量和负样本特征向量，并分别计算正样本特征向量和负样本特征向量与预设实体类别的类别特征向量间的第一相似度和第二相似度；进而，可基于第一相似度和第二相似度，确定预设实体类别在不同相似度阈值条件下对应的准确率和召回率，并基于准确率和召回率确定预设实体类别对应的相似度阈值。

基于此，在基于类别特征向量对用户输入信息进行意图识别之前，还可以包括：

S401、获取预设实体类别对应的输入信息正样本和输入信息负样本；

S402、分别将输入信息正样本和输入信息负样本转换为正样本特征向量和负样本特征向量，并分别计算正样本特征向量和负样本特征向量与预设实体类别的类别特征向量间的第一相似度和第二相似度；

S403、基于第一相似度和第二相似度，确定预设实体类别在不同相似度阈值条件下对应的准确率和召回率；

S404、基于准确率和召回率确定预设实体类别对应的相似度阈值。

进一步，为提升检索效率，本发明实施例在得到预设实体类别及其对应的类别特征向量时，可利用其构建索引表，并在该索引表中检索与用户输入信息匹配的目标类别特征向量。本发明实施例具体可基于HNSW框架(Hierarchical Navigable Small World，分级导航小世界)构建这一索引表，其中HNSW框架可显著提升向量匹配的效率。

基于此，在基于类别特征向量对用户输入信息进行意图识别之前，可以包括：

S500、利用预设实体类别及对应的类别特征向量构建索引表；

相应的，检索与输入特征向量满足预设匹配条件的目标类别特征向量，包括：

S3201、在索引表中检索与输入特征向量满足预设匹配条件的目标类别特征向量。

基于上述实施例，本发明首先可获取预设实体类别对应的多条文本信息，其中这些文本信息均与预设实体类别相关；随后，本发明可将这些文本信息转换为文本特征向量，并可将这些文本特征向量进行融合得到预设实体类别对应的类别特征向量，考虑到这些文本信息可从不同角度对预设实体类别进行描述，进而将这些文本信息的文本特征向量进行融合，可显著提升预设实体类别的类别特征向量所包含的特征信息量，进而可确保此类类别特征向量对用户输入信息进行意图识别时能够更好地与用户输入信息相匹配，并能够有效提升意图识别的准确率。

下面基于具体的实例介绍上述意图识别方法。请参考图3，图3为本发明实施例所提供的另一种意图识别方法的流程图，该方法具体可包括：

1、构建用户标签体系。根据用户上传的人像图中可能包含的标签，构建标签体系(labels_system)，如图2所示；

2、构建标签体系对应的文本描述库(Gallery)。针对每个标签类别中对应的细粒度类别，构建对应的文本描述集(text_gallery)。例如：一个男人，对应的文本描述集为{一个英俊的男人，一个快乐的男人…}；

3、生成细类度类别的类别特征向量(embedding)。采用clip的文本编码器对步骤2中得到的细粒度类别的text_gallery进行文本编码，得到向量集合：embedding_gallery:{text_eb1、text_eb2、...、text_ebN}，其中text_ebn(n∈[1,N])表示文本特征向量；然后计算向量集合的平均值embedding_AVE作为该细粒度标签的向量表征，并以此流程类推构建其他所有细粒度标签的向量表征；

4、构建类别索引库。根据步骤3中得到的各类别标签的向量表征，采用hnsw构建索引库(类别标签、类别特征向量)；

5、确定类别相似度阈值。线下准备对应的类别图像数据集和负样本图像数据集，采用clip对数据集的图像进行编码，得到向量表征后与索引库中文本特征向量计算相似度并通过softmax输出概率值，然后计算不同概率下对应的样本的准确率和召回率，最终确定出满足业务使用要求的相似度阈值T；

6、对用户上传的图像进行意图识别。当用户在上传图像时，采用clip的图像分支对用户上传的图像进行编码得到img_embedding(图像特征向量，即为上文中的输入特征向量)，计算图像特征向量与索引库中的类别特征向量间的相似度值，并利用softmax输出概率值后，当大于该类别的相似度阈值T，那么索引库中的该文本向量对应的类别标签就是对应的图像中的实体类别，从而完成用户上传图像的意图识别。

下面对本发明实施例提供的意图识别装置、电子设备及计算机可读存储介质进行介绍，下文描述的意图识别装置、电子设备及计算机可读存储介质与上文描述的意图识别方法可相互对应参照。

请参考图4，图4为本发明实施例所提供的一种意图识别装置的结构框图，该装置可以包括：

获取模块401，用于获取预设实体类别对应的多条文本信息；

类别特征向量构建模块402，用于将文本信息转换为文本特征向量，并对文本特征向量进行融合，得到预设实体类别对应的类别特征向量；

意图识别模块403，用于基于类别特征向量对用户输入信息进行意图识别。

可选地，意图识别模块403，可以包括：

输入特征向量转换子模块，用于将用户输入信息转换为输入特征向量；

检索匹配子模块，用于检索与输入特征向量满足预设匹配条件的目标类别特征向量；

意图识别信息设置子模块，用于将目标类别特征向量对应的预设实体类别作为用户输入信息对应的意图识别信息。

可选地，检索匹配子模块，包括：

计算单元，用于计算输入特征向量与类别特征向量间的相似度；

判定单元，用于当确定相似度大于类别特征向量所属预设实体类别对应的相似度阈值时，确定类别特征向量为目标类别特征向量。

可选地，该装置还可以包括：

样本获取模块，用于获取预设实体类别对应的输入信息正样本和输入信息负样本；

相似度计算模块，用于分别将输入信息正样本和输入信息负样本转换为正样本特征向量和负样本特征向量，并分别计算正样本特征向量和负样本特征向量与预设实体类别的类别特征向量间的第一相似度和第二相似度；

准确率及召回率确定模块，用于基于第一相似度和第二相似度，确定预设实体类别在不同相似度阈值条件下对应的准确率和召回率；

相似度阈值确定模块，用于基于准确率和召回率确定预设实体类别对应的相似度阈值。

可选地，该装置还可以包括：

索引表构建模块，用于利用预设实体类别及对应的类别特征向量构建索引表；

相应的，检索匹配子模块，具体用于：

在索引表中检索与输入特征向量满足预设匹配条件的目标类别特征向量。

可选地，用户输入信息包括图像。

可选地，类别特征向量构建模块402，具体用于：

对文本特征向量进行归一化处理，并对归一化处理后的文本特征向量进行平均值计算，得到预设实体类别对应的类别特征向量。

请参考图5，图5为本发明实施例所提供的一种电子设备的结构框图，本发明实施例提供了一种电子设备50，包括处理器51和存储器52；其中，所述存储器52，用于保存计算机程序；所述处理器51，用于在执行所述计算机程序时执行前述实施例提供的意图识别方法。

关于上述意图识别方法的具体过程可以参考前述实施例中提供的相应内容，在此不再进行赘述。

并且，所述存储器52作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备50还包括电源53、通信接口54、输入输出接口55和通信总线56；其中，所述电源53用于为所述电子设备50上的各硬件设备提供工作电压；所述通信接口54能够为所述电子设备50创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口55，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的意图识别方法的步骤。

由于计算机可读存储介质部分的实施例与意图识别方法部分的实施例相互对应，因此存储介质部分的实施例请参见意图识别方法部分的实施例的描述，这里不再赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种意图识别方法、装置、电子设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种意图识别方法，其特征在于，包括：

获取预设实体类别对应的多条文本信息；

基于所述类别特征向量对用户输入信息进行意图识别。

2.根据权利要求1所述的意图识别方法，其特征在于，所述基于所述类别特征向量对用户输入信息进行意图识别，包括：

将所述用户输入信息转换为输入特征向量；

3.根据权利要求2所述的意图识别方法，其特征在于，所述检索与所述输入特征向量满足预设匹配条件的目标类别特征向量，包括：

计算所述输入特征向量与所述类别特征向量间的相似度；

4.根据权利要求3所述的意图识别方法，其特征在于，在基于所述类别特征向量对用户输入信息进行意图识别之前，还包括：

5.根据权利要求2所述的意图识别方法，其特征在于，在基于所述类别特征向量对用户输入信息进行意图识别之前，包括：

利用所述预设实体类别及对应的类别特征向量构建索引表；

6.根据权利要求1所述的意图识别方法，其特征在于，所述用户输入信息包括图像。

7.根据权利要求1至6任一项所述的意图识别方法，其特征在于，所述对所述文本特征向量进行融合，得到所述预设实体类别对应的类别特征向量，包括：

8.一种意图识别装置，其特征在于，包括：

获取模块，用于获取预设实体类别对应的多条文本信息；

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的意图识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的意图识别方法。