CN115310611A

CN115310611A - 一种人物意图推理方法及相关装置

Info

Publication number: CN115310611A
Application number: CN202211244080.6A
Authority: CN
Inventors: 李晓川; 李仁刚; 郭振华; 赵雅倩; 范宝余
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-11-08
Anticipated expiration: 2042-10-12
Also published as: WO2024077891A1; CN115310611B

Abstract

本申请公开了一种人物意图推理方法及相关装置，涉及人工智能技术领域，包括：将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，所述初始异质图包括视觉空间、上下文空间以及候选文空间；基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征；将所述筛选特征进行拼接，得到融合特征；基于所述融合特征进行人物意图推理，得到推理结果。以对特征进行筛选提高人物意图推理的准确性。本申请还公开了一种人物意图推理装置、终端设备以及计算机可读存储介质，具有以上有益效果。

Description

一种人物意图推理方法及相关装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种人物意图推理方法、人物意图推理装置、终端设备以及计算机可读存储介质。

背景技术

在多模态人工智能科研领域，视觉常识推理任务指的是根据指定图像，在4个选项中选择最符合提问语句描述的答案；并在额外4个选项中选择支撑该答案的理论依据。通常情况下，视觉常识推理的目标均为图像中出现的人物，因此，多模态视觉常识推理任务解决的问题为人物意图推理。

相关技术中，在进行人物意图推理的过程中需要将多种类数据的特征需要进行拼接，然后利用大数据训练模型，进而进行推理。但是，并非所有的特征都是有用的。也就是说，某些特征在这个推理的过程中无法起到正面的作用，但是相关模型往往通过简单粗暴的方式进行融合和编码，降低了对特征进行编码的准确性，导致推理结果的时效性以及准确性大大降低。

因此，如何提高人物意图推理过程中对特征进行编码的准确性，提高推理的效果，是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种人物意图推理方法、人物意图推理装置、终端设备以及计算机可读存储介质，以对特征进行筛选提高人物意图推理的准确性。

为解决上述技术问题，本申请提供一种人物意图推理方法，包括：

将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，所述初始异质图包括视觉空间、上下文空间以及候选文空间；

基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征；

将所述筛选特征进行拼接，得到融合特征；

基于所述融合特征进行人物意图推理，得到推理结果。

可选的，当所述候选文本特征为候选答案特征时，所述将提取的图像检测特征、问句文本特征以及候选文特征加入至初始异质图进行初始化，得到异质图，包括：

对多个类型的原始数据进行特征提取，得到所述图像检测特征、所述问句文本特征以及所述候选答案特征；

将所述图像检测特征加入至所述初始异质图的视觉空间，将所述问句文本特征加入至所述初始异质图的上下文空间，所述候选答案特征加入至所述初始异质图的候选文空间；

对所述初始异质图进行赋值初始化，得到所述异质图。

可选的，当所述候选文本特征为候选解释特征时，所述将提取的图像检测特征、问句文本特征以及候选文特征加入至初始异质图进行初始化，得到异质图，包括：

对多个类型的原始数据进行特征提取，得到所述图像检测特征、所述问句文本特征以及所述候选解释特征；

获取推理的所选答案特征；

将所述图像检测特征加入至所述初始异质图的视觉空间，将所述问句文本特征和所述所选答案特征加入至所述初始异质图的上下文空间，所述候选解释特征加入至所述初始异质图的候选文空间；

对所述初始异质图进行赋值初始化，得到所述异质图。

可选的，对所述初始异质图进行赋值初始化，得到所述异质图，包括：

基于特征值对所述初始异质图中的每个节点进行赋值；

基于所述初始异质图中的每个节点的关联关系对节点之间的边进行赋值，得到所述异质图。

可选的，基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征，包括：

按照预设更新顺序计算所述异质图的两个空间的节点之间的注意力权重，并计算每个边之间的边权重；

基于所述注意力权重和所述边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征。

可选的，将所述筛选特征进行拼接，得到融合特征，包括：

将得到的多种筛选特征进行堆叠，得到所述融合特征。

可选的，基于所述融合特征进行人物意图推理，得到推理结果，包括：

通过特征编码器对所述融合特征进行编码，得到特征编码；

通过打分器对所述特征编码进行预测，得到所述推理结果。

可选的，在初始化之前还包括：

获取图像、问句文本以及候选文本；

对所述图像、问句文本以及候选文本进行编码，得到编码结果；

对所述编码结果进行特征提取，得到所述图像检测特征、所述问句文本特征以及所述候选文本特征。

可选的，对所述图像进行编码，得到编码结果，包括：

采用检测网络对所述图像进行提取，得到若干感兴趣区域；

按照预设维度将所述若干感兴趣区域进行压缩，得到所述图像的编码结果。

可选的，所述初始异质图的构建过程，包括：

构建视觉空间、上下文空间以及候选文空间；

将所述视觉空间指向所述上下文空间和所述候选文空间，得到所述初始异质图。

本申请还提供一种人物意图推理方法，包括：

客户端向服务器发送图像、问句文本以及候选文本，以便所述服务器进行特征提取，将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，所述初始异质图包括视觉空间、上下文空间以及候选文空间；基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征；将所述筛选特征进行拼接，得到融合特征；基于所述融合特征进行人物意图推理，得到返回推理结果；

将所述推理结果在预设屏幕区域中进行显示。

本申请还提供一种人物意图推理方法，包括：

服务器接收到客户端发送的图像、问句文本以及候选文本，并进行特征提取；

将所述筛选特征进行拼接，得到融合特征；

基于所述融合特征进行人物意图推理，得到推理结果；

将所述推理结果发送至所述客户端。

本申请还提供一种人物意图推理装置，包括：

异质图初始化模块，用于将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，所述初始异质图包括视觉空间、上下文空间以及候选文空间；

异质图更新模块，用于基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征；

特征拼接模块，用于将所述筛选特征进行拼接，得到融合特征；

特征处理模块，用于基于所述融合特征进行人物意图推理，得到推理结果。

本申请还提供一种终端设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的人物意图推理方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的人物意图推理方法的步骤。

本申请所提供的一种人物意图推理方法，包括：将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，所述初始异质图包括视觉空间、上下文空间以及候选文空间；基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征；将所述筛选特征进行拼接，得到融合特征；基于所述融合特征进行人物意图推理，得到推理结果。

通过将提取到的各个特征添加至异质图的各个空间中，得到对应的异质图，然后基于对应的权重和矩阵对该异质图进行更新处理，得到筛选特征，进一步再对筛选特征进行拼接得到该融合特征，最后基于该融合特征进行人物意图推理，得到对应的推理结果，实现将特征通过多空间的异质图进行筛选和更新，将不太相关的特征进行弱化，将相关的特征进行强调，实现了将特征进行筛选，提高特征的准确性，进一步的提高人物意图推理的准确性。

本申请还提供一种人物意图推理装置、终端设备以及计算机可读存储介质，具有以上有益效果，在此不作赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种人物意图推理方法的流程图；

图2为本申请实施例所提供的一种人物意图推理方法的系统结构示意图；

图3为本申请实施例所提供的一种人物意图推理方法的图神经特征融合部分的示意图；

图4为本申请实施例所提供的一种人物意图推理方法的异质图结构示意图；

图5为本申请实施例所提供的一种人物意图推理方法的异质图更新流程示意图；

图6为本申请实施例所提供的一种人物意图推理装置的结构示意图；

图7为本申请实施例所提供的一种终端设备的结构示意图。

具体实施方式

本申请的核心是提供一种人物意图推理方法、人物意图推理装置、终端设备以及计算机可读存储介质，以对特征进行筛选提高人物意图推理的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，本申请提供一种人物意图推理方法，通过将提取到的各个特征添加至异质图的各个空间中，得到对应的异质图，然后基于对应的权重和矩阵对该异质图进行更新处理，得到筛选特征，进一步再对筛选特征进行拼接得到该融合特征，最后基于该融合特征进行人物意图推理，得到对应的推理结果，实现将特征通过多空间的异质图进行筛选和更新，将不太相关的特征进行弱化，将相关的特征进行强调，实现了将特征进行筛选，提高特征的准确性，进一步的提高人物意图推理的准确性。

以下通过一个实施例，对本申请提供的一种人物意图推理方法进行说明。

请参考图1，图1为本申请实施例所提供的一种人物意图推理方法的流程图。

本实施例中，该方法可以包括：

S101，将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，初始异质图包括视觉空间、上下文空间以及候选文空间；

可见，本步骤旨在将提取到的特征加入到初始异质图的各个空间中，得到异质图。

其中，异质图指含有多种类型节点和关系的图结构。相对于只含有一种节点/关系的同质图，异质图更加复杂包含的信息也更多。本实施例中，主要是由于进行人物意图推理的过程中处理的是多个类型的特征数据，即包括图像特征以及文本特征。因此，为了对多个类型的特征数据进行特征处理，需要使用异质图进行处理，而无法使用同质图进行处理。

其中，所述初始异质图的构建过程，包括：构建视觉空间、上下文空间以及候选文空间；将所述视觉空间指向所述上下文空间和所述候选文空间，得到所述初始异质图。

其中，提取图像检测特征、问句文本特征以及候选文本特征的过程，主要是从原始的图像数据以及文本数据中进行特征提取。特征提取的过程可以采用现有技术提供的任意一种提取方式，在此不做具体限定。

进一步的，当候选文本特征为候选答案特征时，也就是执行任务意图推理的候选答案推理的阶段时，即执行人物意图推理的任务一，为了更加适应性的应用与人物意图推理的过程，本步骤可以包括：

步骤1，对多个类型的原始数据进行特征提取，得到图像检测特征、问句文本特征以及候选答案特征；

步骤2，将图像检测特征加入至初始异质图的视觉空间，将问句文本特征加入至初始异质图的上下文空间，候选答案特征加入至初始异质图的候选文空间；

步骤3，对初始异质图进行赋值初始化，得到异质图。

可见，本可选方案主要是说明在候选答案推理的阶段如何构建异质图。本可选方案中，对多个类型的原始数据进行特征提取，得到图像检测特征、问句文本特征以及候选答案特征，将图像检测特征加入至初始异质图的视觉空间，将问句文本特征加入至初始异质图的上下文空间，候选答案特征加入至初始异质图的候选文空间，对初始异质图进行赋值初始化，得到异质图。可见，本可选方案中将候选文本特征为候选答案特征，可以对任务一的特征进行有效筛选，提高任务一推理的准确性。

进一步的，当候选文本特征为候选解释特征时，也就是执行任务意图推理的候选解释推理的阶段时，即执行人物意图推理的任务二，为了更加适应性的应用与人物意图推理的过程，本步骤可以包括：

步骤1，对多个类型的原始数据进行特征提取，得到图像检测特征、问句文本特征以及候选解释特征；

步骤2，获取推理的所选答案特征

步骤3，将图像检测特征加入至初始异质图的视觉空间，将问句文本特征和所选答案特征加入至初始异质图的上下文空间，候选解释特征加入至初始异质图的候选文空间；

步骤4，对初始异质图进行赋值初始化，得到异质图。

可见，本可选方案主要是说明在候选解释推理的阶段如何构建异质图。本可选方案中，对多个类型的原始数据进行特征提取，得到图像检测特征、问句文本特征以及候选解释特征，获取推理的所选答案特征，将图像检测特征加入至初始异质图的视觉空间，将问句文本特征和所选答案特征加入至初始异质图的上下文空间，候选解释特征加入至初始异质图的候选文空间，对初始异质图进行赋值初始化，得到异质图。可见，本可选方案中将候选文本特征为候选解释特征，可以对任务二的特征进行有效筛选，提高任务一推理的准确性。

进一步的，上述可选方案中进行初始化的过程可以包括：

步骤1，基于特征值对初始异质图中的每个节点进行赋值；

步骤2，基于初始异质图中的每个节点的关联关系对节点之间的边进行赋值，得到异质图。

可见，本可选方案中主要是说明如何进行初始化处理。本可选方案中，基于特征值对初始异质图中的每个节点进行赋值，基于初始异质图中的每个节点的关联关系对节点之间的边进行赋值，得到异质图。可见，本可选方案中不仅对每个节点进行赋值，还对每个节点之间的边进行赋值，提高了对异质图进行初始化的效果，提高特征筛选的效果。

进一步的，在初始化之前还包括：

获取图像、问句文本以及候选文本；对所述图像、问句文本以及候选文本进行编码，得到编码结果；对所述编码结果进行特征提取，得到所述图像检测特征、所述问句文本特征以及所述候选文本特征。

其中，对所述图像进行编码，得到编码结果的过程，可以包括：采用检测网络对所述图像进行提取，得到若干感兴趣区域；按照预设维度将所述若干感兴趣区域进行压缩，得到所述图像的编码结果。

S102，基于注意力权重和边权重，通过注意力矩阵和边矩阵对异质图进行更新处理，得到筛选特征；

在S101的基础上，本步骤旨在基于注意力权重和边权重，通过注意力矩阵和边矩阵对异质图进行更新处理，得到筛选特征。也就是，对填充得到的异质图中的各个节点进行更新，以便将异质图中各个节点中的特征进行筛选和更新，得到筛选后的筛选特征。

进一步的，为了提高对异质图进行更新的效率，提高筛选特征的效果，本步骤可以包括：

步骤1，按照预设更新顺序计算异质图的两个空间的节点之间的注意力权重，并计算每个边之间的边权重；

步骤2，基于注意力权重和边权重，通过注意力矩阵和边矩阵对异质图进行更新处理，得到筛选特征。

可见，本可选方案中主要是说明如何对异质图进行更新处理，以便对特征进行更新处理。本可选方案中，按照预设更新顺序计算异质图的两个空间的节点之间的注意力权重，并计算每个边之间的边权重，基于注意力权重和边权重，通过注意力矩阵和边矩阵对异质图进行更新处理，得到筛选特征。可见，本可选方案中通过先计算出对应的权重，然后再进行更新，提高了筛选的效果。

进一步的，上述对异质图进行更新的过程可以采用现有技术中提供的任意一种更新方式，在此不做具体限定。

S103，将筛选特征进行拼接，得到融合特征；

在S102的基础上，本步骤旨在将筛选特征进行拼接，得到融合特征。也就是，将筛选得到的多个类型的筛选特征进行拼接，得到融合特征。

其中，本步骤中对筛选特征进行拼接的过程可以采用现有技术提供的任意一种特征拼接处理，在此不做具体限定。

进一步的，本步骤可以包括：

将得到的多种筛选特征进行堆叠，得到融合特征。

可见，在本可选方案中通过堆叠的方式将得到的多种筛选特征进行拼接，得到对应的融合特征。

S104，基于融合特征进行人物意图推理，得到推理结果。

在S103的基础上，本步骤旨在基于融合特征进行人物意图推理，得到推理结果。

进一步的，本实施例中通过S101至S103对特征进行筛选，进一步的通过本步骤进行人物意图推理，提高了推理的准确性。其中，S104进行推理的过程可以包括特征编码和预测的过程，可以采用现有技术提供的任意一种推理过程，在此不做具体限定。

进一步的，本步骤可以包括：

步骤1，通过特征编码器对融合特征进行编码，得到特征编码；

步骤2，通过打分器对特征编码进行预测，得到推理结果。

可见，本可选方案中主要是说明如何进行推理。本可选方案中，通过特征编码器对融合特征进行编码，得到特征编码，通过打分器对特征编码进行预测，得到推理结果。

综上，本实施例通过将提取到的各个特征添加至异质图的各个空间中，得到对应的异质图，然后基于对应的权重和矩阵对该异质图进行更新处理，得到筛选特征，进一步再对筛选特征进行拼接得到该融合特征，最后基于该融合特征进行人物意图推理，得到对应的推理结果，实现将特征通过多空间的异质图进行筛选和更新，将不太相关的特征进行弱化，将相关的特征进行强调，实现了将特征进行筛选，提高特征的准确性，进一步的提高人物意图推理的准确性。

以下通过另一具体的实施例，对本申请提供的一种人物意图推理方法做进一步说明。

请参考图2，图2为本申请实施例所提供的一种人物意图推理方法的系统结构示意图。

本实施例提供一种基于异质图的人物意图推理系统，整体方案设计如图2所示。在现有的人物意图推理系统中设置有特征拼接模块，在本实施例中被替换成了图神经特征融合的部分，以便对多种特征进行筛选后进行拼接，提高特征的准确性。

请参考图3，图3为本申请实施例所提供的一种人物意图推理方法的图神经特征融合部分的示意图。

其中，图神经特征融合部分，其内部流程如图3所示。本实施例中的图神经特征融合部分包括：异质图初始化模块、特征筛选模块、特征拼接模块。

其中，异质图初始化模块，用于基于获取到的特征初始化对应的异质图。

其中，图结构是计算机学中的基本结构之一，图结构由节点和边构成。而异质图是图结构中一种特殊的非对称图结构。

请参考图4，图4为本申请实施例所提供的一种人物意图推理方法的异质图结构示意图。

本实施例中针对人物意图推理任务，设计了一种新型异质图：三异质图结构，可以参考图4的结构。三异质图的节点部分由三方面组成，分别表示视觉空间、上下文空间和候选文空间。三异质图由三个空间中的若干节点和节点之间的边共同构成，其中每个节点中存储的是固定维度的特征；边存储的是一个浮点型数字。对于上下文空间和候选文空间，可以根据文本编码器对语句进行编码，将编码后的特征赋值给该空间的

个节点。其中，可以当前通用的文本编码器可将长度为

的句子编码为大小为

的向量，其中

表示句子长度，即句子包含的单词个数；

表示指定的特征维度。

对于图像空间而言，可以采用当前通用的图像检测模型进行编码：首先使用检测网络对图像提取若干个感兴趣区域（如图4右侧所示），然后将图像特征图中对应区域的特征压缩为指定维度的形式并输出。例如图4所示的例子，图像编码器的输出为大小为

的向量，其中

表示提取到感兴趣区域的个数；

表示指定的特征维度。类似其他两个文本空间，将图像特征输入到对应的视觉空间节点中去。

对于异质图的初始化方法来说，除了节点初始化，还包括边初始化，如图4中的不同节点之间的连线（

、

、

分别表示三个节点空间对应节点间的边）。例如，对于视觉空间与上下文空间的边，可以使用如下公式进行初始化。其中，公式如下：

。

其中，

表示文本空间中的人物节点，如图4中展示的问句“Why is Person4pointing at Person1”中的“[Person 4]”和“[Person 1]”就是人物单词节点，通过计算视觉节点中每个特征对应位置与“[Person 4]”所在位置的空间

（交并比值），来对相关“边”进行赋值；而对所有非人物单词节点，“边”置0。通过对边进行初始化可以突出人物意图推理系统中人物的重要性，提高特征的准确性。对于视觉空间和候选文空间之间的边，可以采用相同的赋值方法。

对于候选文空间与上下文空间，可以利用单词是否一致来赋值，公式如下：

。

通过上述的赋值公式可以让相同单词的文本向量产生联通，为的是使模型理解答案空间中的“某物”指的是问句中的哪个位置。

需要说明的是，对图4来说，为了表达得更简洁，节点中没有连线即表示两个节点的边为0。

此外，对于人物意图推理任务的任务一，上下文空间存储问句特征、候选文空间存储候选答案特征；对于任务二，上下文空间存储问句特征和所选答案特征、候选文空间存储候选解释特征。

其中，特征筛选模块，用于对异质图中的特征进行筛选。也就是对，三异质图执行神经运算流程。

首先，构造异质图节点更新机制，对于指定P空间（如视觉空间）向指定Q空间（如上下文空间）内节点的特征更新机制，其操作过程可以包括：

步骤1，构造四个注意力矩阵

、

、

、

，大小均为

，对于输入向量

，

表示矩阵运算，代表对向量

的映射过程。

步骤2，计算节点P对节点Q的映射权重，公式如下：

。

其中，

是深度学习中常用的激活函数，

和

分别表示节点P和Q中存储的特征向量，计算后的

表示P对Q的映射权重。

步骤3，映射权重归一化，公式如下：

。

其中，

表示归一化之后的映射权重，

表示指数运算符，

是指P空间中的所有节点。

步骤4，将两个空间节点间的边矩阵

结合进来，更新节点特征，公式如下：

。

其中，

表示边矩阵

中对应的边值。

步骤5，对更新特征后的所有Q空间节点进行重加权，方法是构造一个大小为

的矩阵

，乘到所得特征上进行映射。

请参考图5，图5为本申请实施例所提供的一种人物意图推理方法的异质图更新流程示意图。

利用上述的异质图节点更新机制，可以提供一种三异质图节点更新流程，如图5所示。通过两两进行特征交互，异质图神经网络起到了特征筛选和聚合的作用，图中所示两两交互的顺序为：上下文空间与候选文空间的特征交互；上下文空间与视觉空间的特征交互；候选文空间与视觉空间的特征交互。图中仅展示了一种交互策略，本发明所提异质图交互流程可以根据不同需要进行任意排序。

设计这个基于三异质图特征更新流程的目的是筛选出与人物意图相关性更强的特征来，而其中“边”的赋值对特征之间的关系起到了约束的作用。经过若干次数的互空间更新，最终将所有节点中的特征输出。类似现有方法地，将三种特征进行拼接获得综合特征。最后，采用特征编码器和打分器来预测，本发明未改进这些后续步骤。

可见，本实施例通过将提取到的各个特征添加至异质图的各个空间中，得到对应的异质图，然后基于对应的权重和矩阵对该异质图进行更新处理，得到筛选特征，进一步再对筛选特征进行拼接得到该融合特征，最后基于该融合特征进行人物意图推理，得到对应的推理结果，实现将特征通过多空间的异质图进行筛选和更新，将不太相关的特征进行弱化，将相关的特征进行强调，实现了将特征进行筛选，提高特征的准确性，进一步的提高人物意图推理的准确性。

本申请实施例还提供一种人物意图推理方法，包括：

将所述推理结果在预设屏幕区域中进行显示。

本申请实施例还提供一种人物意图推理方法，包括：

将所述筛选特征进行拼接，得到融合特征；

基于所述融合特征进行人物意图推理，得到推理结果；

将所述推理结果发送至所述客户端。

下面对本申请实施例提供的人物意图推理装置进行介绍，下文描述的人物意图推理装置与上文描述的人物意图推理方法可相互对应参照。

请参考图6，图6为本申请实施例所提供的一种人物意图推理装置的结构示意图。

本实施例中，该装置可以包括：

异质图初始化模块100，用于将提取的图像检测特征、问句文本特征以及候选文本特征加入至初始异质图进行初始化，得到异质图；其中，初始异质图包括视觉空间、上下文空间以及候选文空间；

异质图更新模块200，用于基于注意力权重和边权重，通过注意力矩阵和边矩阵对异质图进行更新处理，得到筛选特征；

特征拼接模块300，用于将筛选特征进行拼接，得到融合特征；

特征处理模块400，用于基于融合特征进行人物意图推理，得到推理结果。

可选的，该异质图初始化模块100，具体用于对多个类型的原始数据进行特征提取，得到图像检测特征、问句文本特征以及候选答案特征；将图像检测特征加入至初始异质图的视觉空间，将问句文本特征加入至初始异质图的上下文空间，候选答案特征加入至初始异质图的候选文空间；对初始异质图进行赋值初始化，得到异质图。

可选的，该异质图初始化模块100，具体用于对多个类型的原始数据进行特征提取，得到图像检测特征、问句文本特征以及候选解释特征；获取推理的所选答案特征；将图像检测特征加入至初始异质图的视觉空间，将问句文本特征和所选答案特征加入至初始异质图的上下文空间，候选解释特征加入至初始异质图的候选文空间；对初始异质图进行赋值初始化，得到异质图。

可选的，该对初始异质图进行赋值初始化，得到异质图，包括：

基于特征值对初始异质图中的每个节点进行赋值；基于初始异质图中的每个节点的关联关系对节点之间的边进行赋值，得到异质图。

可选的，该异质图更新模块200，具体用于按照预设更新顺序计算异质图的两个空间的节点之间的注意力权重，并计算每个边之间的边权重；基于注意力权重和边权重，通过注意力矩阵和边矩阵对异质图进行更新处理，得到筛选特征。

可选的，该特征拼接模块300，具体用于将得到的多种筛选特征进行堆叠，得到融合特征。

可选的，该特征处理模块400，具体用于通过特征编码器对融合特征进行编码，得到特征编码；通过打分器对特征编码进行预测，得到推理结果。

本申请还提供了一种终端设备，请参考图7，图7为本申请实施例所提供的一种终端设备的结构示意图，该终端设备可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时可实现如上述任意一种人物意图推理方法的步骤。

如图7所示，为终端设备的组成结构示意图，终端设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器（Central Processing Unit，CPU）、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行人物意图推理方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

将所述筛选特征进行拼接，得到融合特征；

基于所述融合特征进行人物意图推理，得到推理结果。

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能所需的应用程序等；存储数据区可存储使用过程中所创建的数据。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图7所示的结构并不构成对本申请实施例中终端设备的限定，在实际应用中终端设备可以包括比图7所示的更多或更少的部件，或者组合某些部件。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如上述任意一种人物意图推理方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例，本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种人物意图推理方法、人物意图推理装置、终端设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种人物意图推理方法，其特征在于，包括：

将所述筛选特征进行拼接，得到融合特征；

基于所述融合特征进行人物意图推理，得到推理结果。

2.根据权利要求1所述的人物意图推理方法，其特征在于，当所述候选文本特征为候选答案特征时，所述将提取的图像检测特征、问句文本特征以及候选文特征加入至初始异质图进行初始化，得到异质图，包括：

对所述初始异质图进行赋值初始化，得到所述异质图。

3.根据权利要求1所述的人物意图推理方法，其特征在于，当所述候选文本特征为候选解释特征时，所述将提取的图像检测特征、问句文本特征以及候选文特征加入至初始异质图进行初始化，得到异质图，包括：

获取推理的所选答案特征；

对所述初始异质图进行赋值初始化，得到所述异质图。

4.根据权利要求2至3任一项所述的人物意图推理方法，其特征在于，对所述初始异质图进行赋值初始化，得到所述异质图，包括：

基于特征值对所述初始异质图中的每个节点进行赋值；

5.根据权利要求1所述的人物意图推理方法，其特征在于，基于注意力权重和边权重，通过注意力矩阵和边矩阵对所述异质图进行更新处理，得到筛选特征，包括：

6.根据权利要求1所述的人物意图推理方法，其特征在于，将所述筛选特征进行拼接，得到融合特征，包括：

将得到的多种筛选特征进行堆叠，得到所述融合特征。

7.根据权利要求1所述的人物意图推理方法，其特征在于，基于所述融合特征进行人物意图推理，得到推理结果，包括：

通过特征编码器对所述融合特征进行编码，得到特征编码；

通过打分器对所述特征编码进行预测，得到所述推理结果。

8.根据权利要求1所述的人物意图推理方法，其特征在于，在初始化之前还包括：

获取图像、问句文本以及候选文本；

9.根据权利要求8所述的人物意图推理方法，其特征在于，对所述图像进行编码，得到编码结果，包括：

采用检测网络对所述图像进行提取，得到若干感兴趣区域；

10.根据权利要求1所述的人物意图推理方法，其特征在于，所述初始异质图的构建过程，包括：

构建视觉空间、上下文空间以及候选文空间；

11.一种人物意图推理方法，其特征在于，包括：

将所述推理结果在预设屏幕区域中进行显示。

12.一种人物意图推理方法，其特征在于，包括：

将所述筛选特征进行拼接，得到融合特征；

基于所述融合特征进行人物意图推理，得到推理结果；

将所述推理结果发送至所述客户端。

13.一种人物意图推理装置，其特征在于，包括：

14.一种终端设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至10任一项所述的人物意图推理方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的人物意图推理方法的步骤。