CN114565087B

CN114565087B - 一种人物意图推理方法、装置、设备及存储介质

Info

Publication number: CN114565087B
Application number: CN202210455168.6A
Authority: CN
Inventors: 李晓川; 郭振华; 赵雅倩; 李仁刚; 范宝余
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-22
Anticipated expiration: 2042-04-28
Also published as: WO2023206951A1; CN114565087A

Abstract

本发明公开了一种人物意图推理方法、装置、设备及存储介质，该方法包括：对待推理图像进行目标检测得到目标检测结果；确定待推理图像中与目标检测结果中各人物的检测框对应的图像部分分别为相应人物的待推理子图像，获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率；基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到相应修正特征；利用目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。本申请能够实现细粒度人体关节特征的提取，进而有效提高人物意图推理的准确性。

Description

一种人物意图推理方法、装置、设备及存储介质

技术领域

本发明涉及视觉常识推理技术领域，更具体地说，涉及一种人物意图推理方法、装置、设备及存储介质。

背景技术

近年来，多模态成为人工智能领域中新兴的研究方向，视觉常识推理（VCR，VisualCommonsense Reasoning）是多模态领域研究方向中一个重要的分支，其目的旨在通过视觉信息推断文字描述的正误，如图1所示，研究者们通过输入图片与输入文字，使模型推断出目标任务的意图，从而使模型拥有根据图像与文字两个模态的数据进行推理的能力。

当前解决VCR任务的主流方法是将视觉特征和文本特征共同输入到transformer结构中，进而进行模态融合。但是在实际研发过程中，发明人发现由于现有算法在视觉特征的提取方法上主要依赖目标检测网络的结果，而现有目标检测网络大多基于VisualGenome或COCO完成训练，其在人体特征上粒度较粗，因此导致人物意图推理的准确性较低。

发明内容

本发明的目的是提供一种人物意图推理方法、装置、设备及存储介质，能够实现细粒度人体关节特征的提取，从而有效提高人物意图推理的准确性。

为了实现上述目的，本发明提供如下技术方案：

一种人物意图推理方法，包括：

对待推理图像进行目标检测得到相应的目标检测结果；

基于所述目标检测结果确定所述待推理图像中各人物的检测框，确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率；

基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征；

利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。

优选的，基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，包括：

将任意待推理子图像作为当前子图像，将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合，得到相应的融合特征信息；

将当前子图像的融合特征信息输入至遮挡关节点预测网络，得到所述遮挡关节点预测网络输出的当前子图像中各关节点的预测特征；其中，所述遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。

优选的，将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合，得到相应的融合特征信息，包括：

将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。

将当前子图像的遮挡概率扩展成d维子概率，将该d维子概率分别与当前子图像的d维关节特征一一对应相加，得到当前子图像的融合特征信息。

优选的，获取各待推理子图像中相应人物的关节点的关节特征包括：

将任意待推理子图像作为当前子图像，利用卷积神经网络将当前子图像压缩为多维向量；其中，所述多维向量中包括将当前子图像的长和宽分别按照所述卷积神经网络的降采样倍数压缩所得的指定数据；

求取当前子图像的多维向量中指定数据的平均池化，得到当前子图像中各关节点的关节特征的向量。

优选的，获取各待推理子图像中相应人物的关节点的遮挡概率，包括：

将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络，得到所述遮挡预测网络输出的当前子图像中各关节点的遮挡概率；其中，所述遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。

优选的，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征，包括：

将任意待推理子图像作为当前子图像，如果当前子图像中任意关节点的遮挡概率不小于遮挡阈值，则确定该任意关节点的预测特征为相应的修正特征，否则，确定该任意关节点的关节特征为相应的修正特征。

一种人物意图推理装置，包括：

检测模块，用于：对待推理图像进行目标检测得到相应的目标检测结果；

获取模块，用于：基于所述目标检测结果确定所述待推理图像中各人物的检测框，确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率；

修正模块，用于：基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征；

推理模块，用于：利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。

一种人物意图推理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述人物意图推理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述人物意图推理方法的步骤。

本发明提供的一种人物意图推理方法、装置、设备及存储介质，该方法包括：对待推理图像进行目标检测得到相应的目标检测结果；基于所述目标检测结果确定所述待推理图像中各人物的检测框，确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率；基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征；利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。可见，本申请在对待推理图像进行目标检测后，基于目标检测所得各检测框对应的图像部分进行关节特征及遮挡概率的获取，进而基于获取到的遮挡概率实现对关节特征的修正，从而实现细粒度人体关节特征的提取，能够有效提高人物意图推理的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为VCR示意图；

图2为主流人物意图推理方案中意图预测网络示意图；

图3为主流人物意图推理方案的基本步骤示意图；

图4为本发明实施例提供的一种人物意图推理方法的流程图；

图5为本发明实施例提供的一种人物意图推理方法中人物关节点位置示意图；

图6为本发明实施例提供的一种人物意图推理方法中图卷积网络示意图；

图7为本发明实施例提供的一种人物意图推理方法中两种将关节特征与遮挡概率编码融合的方法的示意图；

图8为本发明实施例提供的一种人物意图推理方法中基于姿态估计的视觉特征提取架构图；

图9为本发明实施例提供的一种人物意图推理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

解决VCR任务的主流方法是将视觉特征和文本特征共同输入到transformer结构中，进而进行模态融合。基于图2所示的意图预测网络（即多模态框架VLBERT），按照图3所示流程实现人物意图推理方案，其基本步骤可以如下：

（1）使用Visual Genome或COCO等目标检测数据集训练目标检测网络（即图3中的检测网络），如BUTD（Bottom-up and Top-down）；

（2）使用训练好的目标检测网络对当前图像进行特征提取，可提到若干目标检测框（以下均简称为检测框）及其特征

（即图像检测特征）；其中，n表示检测框的数量，k表示检测框的特征的维度；

（3）使用GLOVE为问句文本和候选答案文本嵌入向量（VCR任务中包括问句和选项）的每个字段寻找嵌入向量

；其中，m表示文本语句的长度，p表示文本嵌入向量的维度；

（4）将视觉特征V与文本特征L编码后输入到若干transformer结构中进行编码；

（5）将编码后的特征进行分类，进而判断当前答案选项可以作为问句回答的概率；

（6）通过替换不同的答案选项，并比较模型最终输出概率的大小，输出最有可能作为问句答案的选项。

请参阅图4，其示出了本发明实施例提供的一种人物意图推理方法的流程图，具体可以包括：

S11：对待推理图像进行目标检测得到相应的目标检测结果。

待推理图像即为当前需要进行人物意图推理的任意图像；利用目标检测网络对待推理图像进行特征提取（即目标检测），即可得到包含有待推理图像中各检测框及其特征的目标检测结果，通常单个检测框包含有单个人物。

S12：基于目标检测结果确定待推理图像中各人物的检测框，确定待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率。

基于目标检测结果可以确定待推理图像中各检测框及其特征，然后可以确定各检测框中任意检测框在待推理图像中包含的图像部分为该任意检测框的待推理子图像，从而可以得到与待推理图像中各检测框一一对应的待推理子图像，并基于这些待推理子图像实现相应的人物意图推理。

任意关节点的遮挡概率为该任意关节点被遮挡的概率；对于确定出的任意待推理子图像，可以获取该任意待推理子图像中所包含的人物的关节点的关节特征及遮挡概率。其中，单个人物包含的所有关节点可以如图5所示，共包含关节点0至关节点17这18个关节点，以基于各关节点的特征可以有效推理出相应人物的意图。

S13：基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征。

基于任意待推理子图像中各关节点的遮挡概率可以对相应关节点的关节特征进行处理，从而预测分析得到相应关节点最可能的关节特征（称为预测特征），进而基于该任意待推理子图像中各关节点的关节特征及预测特征实现相应关节点的特征的修正，从而得到该任意待推理子图像中各关节点的修正特征，进而基于修正特征实现后续的人物意图推理。

S14：利用目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。

在利用目标检测网络对待推理网络进行检测后，得到的目标检测结果中还可以包含待推理图像中除人物的其他实体特征；相应的，在得到各待推理子图像中相应人物的关节点的修正特征后，可以基于目标检测结果中除人物的其他实体特征以及各待推理子图像中相应人物的关节点的修正特征，调用图2所示的意图预测网络，并按照上述人物意图推理方案的基本步骤中的步骤（3）至步骤（6）进行相应人物意图推理即可。

本申请对待推理图像进行目标检测得到目标检测结果，确定待推理图像中与目标检测结果所包含各检测框分别对应的图像部分分别为待推理子图像，获取各待推理子图像中相应人物各关节点的关节特征及遮挡概率，基于遮挡概率对相应关节点的关节特征进行预测分析得到预测的相应关节点应具有的特征为预测特征，进而基于各关节点的关节特征及预测特征进行修正得到相应的修正特征，最终基于修正特征及目标检测结果实现人物意图推理。可见，本申请在对待推理图像进行目标检测后，基于目标检测所得各检测框对应的图像部分进行关节特征及遮挡概率的获取，进而基于获取到的遮挡概率实现对关节特征的修正，从而实现细粒度人体关节特征的提取，能够有效提高人物意图推理的准确性。

本发明实施例提供的一种人物意图推理方法，获取各待推理子图像中相应人物的关节点的关节特征，包括：将任意待推理子图像作为当前子图像，利用卷积神经网络将当前子图像压缩为多维向量；求取当前子图像的多维向量中指定数据的平均池化，得到当前子图像中各关节点的关节特征的向量；其中，多维向量中包括将当前子图像的长和宽分别按照卷积神经网络的降采样倍数压缩所得的指定数据。

获取各待推理子图像中相应人物的关节点的遮挡概率，包括：将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络，得到遮挡预测网络输出的当前子图像中各关节点的遮挡概率；其中，遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。

本申请实施例可以基于简单的关节点检测网络来提取人物特征；具体来说，可以将每个人物抽象成若干关节点（例如图5所示的若干关节点），然后针对已经提取出的各检测框分别对应图像部分，采用卷积神经网络将各图像部门中的任意图像部分压缩成一个[h//s, w//s, N]的多维向量；其中，s表示卷积神经网络的降采样倍数，//表示采用卷积神经网络进行压缩的操作，N表示单个人物应包含的关节点总数量（可以根据实际需要设定，比如在将每个人物抽象成如图5所示的若干关节点时，N为18），h和w分别表示该任意图像部分的长和宽（即图像大小），并且可以将h//s、w//s均称为指定数据。在对任意图像部分压缩得到相应[h//s, w//s, N]的多维向量后，可以对该多维向量求前两个维度的平均池化（也即求指定数据的平均池化；而平均池化与现有技术中相应技术方案的实现原理一致，在此不再赘述），得到[d, N]的向量（即为节点特征的向量）表示该任意图像部分中N个关节点的特征作为相应的节点特征；其中，d表示每个关节点的关节特征的维度。从而通过上述方式以简单有效的方式实现图像中关节特征的提取，进而实现后续的人物意图推理操作。

本申请实施例还可以加入一个预设关节点是否被遮挡的遮挡预测网络，以基于该遮挡预测网络预测任意图像部分中各关节点是否被遮挡。具体来说，可以预先利用已知是否被遮挡的关节特征的向量训练得到遮挡预测网络，然后再将当前需要预测关节点是否被遮挡的图像部分的关节特征的向量[d, N]输入至遮挡预测网络中，得到遮挡预测网络输出的向量[1, N]，向量[1, N]中每个值表示对应关节点被遮挡的概率p；其中，遮挡预测网络可以由一个大小为[d, 1]的全连接层和sigmoid激活函数层构成。从而基于上述遮挡预测网络快速准确的实现遮挡概率的获取，便于后续人物意图推理操作的实现。

本发明实施例提供的一种人物意图推理方法，基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，可以包括：将任意待推理子图像作为当前子图像，将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合，得到相应的融合特征信息；将当前子图像的融合特征信息输入至遮挡关节点预测网络，得到遮挡关节点预测网络输出的当前子图像中各关节点的预测特征；其中，遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。

将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合，得到相应的融合特征信息，可以包括：将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。

或者将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合，得到相应的融合特征信息，可以包括：将当前子图像的遮挡概率扩展成d维子概率，将该d维子概率分别与当前子图像的d维关节特征一一对应相加，得到当前子图像的融合特征信息。

本申请实施例可以预先获取多个图像分别作为训练图像，每个训练图像中包含有单个人物；然后得到每个训练图像的融合特征信息及相应预测特征，进而基于每个训练图像的融合特征信息及相应预测特征实现图卷积网络（GCN，Graph Convolutional Net）的训练，得到遮挡关节点预测网络，以基于该遮挡关节点预测网络实现相应图像中关节点对应预测特征的快速精准获取，图卷积网络可以如图6所示。需要说明的是，本申请利用图卷积网络来预测被遮挡的关节点的特征，得到相应的预测特征，进而基于预测特征及相应关节特征达到人物特征修正的作用。其中，对于图卷积网络的输入形式，可以采用关节特征与遮挡概率编码融合的模式，如图7所示包含（a）（b）两种将关节特征与遮挡概率编码融合的方法，（a）表示将d维关节特征与1维遮挡概率p直接拼接为d+1维向量，（b）表示将遮挡概率p扩展成d维后与关节特征一一对应相加，从而通过上述两种方法中任一种方式均可实现遮挡信息的有效编码，进而为图卷积网络提供所需的信号。

本发明实施例提供的一种人物意图推理方法，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征，可以包括：

本申请实施例中可以设计特征存取模块用来缓存特征，特征存取模块可以在三个地方被使用到，分别包括：1、对待推理图像进行目标检测后，目标检测结果包含的待推理图像中除人物外的其他实体特征被存储到其中；2、得到预测特征后，将得到的预测特征输入到其中；3、得到预测特征后，被遮挡的关节特征被相应预测特征所替代，这步可以使用预设的特征替换门开关。具体可以是，将特征存取模块中的对应关节点的关节特征f1读取出来，并读取其是否被遮挡的遮挡概率p，通过判断p是否高于遮挡阈值th来判断是否使用相应的预测特征f2来替换：如果p<th，则推出特征f1，并将f2存入到原位置；否则不作处理。由此，在任意关节点的遮挡概率不小于遮挡阈值，说明该任意关节点很可能被遮挡时，保留该任意关节点的预测特征，否则，说明该任意关节点被遮挡的可能性很小，因此保留该任意关节点的关节特征，从而基于保留的特征实现后续的人物意图推理，进而提高人物意图推理的准确性。

在一种具体实现方式中，本发明实施例提供的人物意图推理方法可以包括基于姿态估计的视觉特征提取及人物意图预测两部分。基于姿态估计的视觉特征提取部分可以基于包含有基础目标检测模块（与基础目标检测网络含义相同）、人物关节点检测模块（与人物关节点检测网络含义相同）、人物关节点预测模块（与人物关节点预测网络含义相同）、特征存取模块（与特征存取器含义相同）及特征替换门开关的架构实现；具体的，基础目标检测模块可以如图8所示，用于实现待推理图像的目标检测相关步骤；人物关节点检测模块用于实现关节特征及遮挡概率获取相关步骤；人物关节点预测模块用于实现预测特征获取相关步骤；特征存取模块用于实现相应特征缓存相关步骤；特征替换门开关用于实现预测特征及关节特征间的替换相关步骤。人物意图预测部分则为将特征存取模块中所有特征提取出来，调用图2所示的意图预测网络，并重复图上述人物意图推理方案的基本步骤中的步骤（3）至步骤（6）即可。

本申请在多模态任务中加大任务特征的比重，通过设计人物关节点检测模块所用网络和图卷积网络来提取细粒度的人体关节点特征，替换掉现有的粗粒度视觉特征，一方面解决人物视觉特征粒度较粗的问题，一方面解决被遮挡人物部件特征缺失的问题，提升多模态模型的人物意图推理能力，进而达到更准确地预测人物意图的目的，有效提高VCR等人类意图推理相关任务的精度。

本发明实施例还提供了一种人物意图推理装置，如图9所示，可以包括：

检测模块11，用于：对待推理图像进行目标检测得到相应目标检测结果；

获取模块12，用于：基于目标检测结果确定待推理图像中各人物的检测框，确定待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率；

修正模块13，用于：基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征，基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各待推理子图像中相应人物的关节点的修正特征；

推理模块14，用于：利用目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。

本发明实施例提供的一种人物意图推理装置，修正模块可以包括：

预测单元，用于：将任意待推理子图像作为当前子图像，将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合，得到相应的融合特征信息；将当前子图像的融合特征信息输入至遮挡关节点预测网络，得到遮挡关节点预测网络输出的当前子图像中各关节点的预测特征；其中，遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。

本发明实施例提供的一种人物意图推理装置，预测单元可以包括：

第一拼接单元，用于：将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。

第二拼接单元，用于：将当前子图像的遮挡概率扩展成d维子概率，将该d维子概率分别与当前子图像的d维关节特征一一对应相加，得到当前子图像的融合特征信息。

本发明实施例提供的一种人物意图推理装置，获取模块可以包括：

第一获取单元，用于：将任意待推理子图像作为当前子图像，利用卷积神经网络将当前子图像压缩为多维向量；求取当前子图像的多维向量中指定数据的平均池化，得到当前子图像中各关节点的关节特征的向量；其中，多维向量中包括将当前子图像的长和宽分别按照卷积神经网络的降采样倍数压缩所得的指定数据。

第二获取单元，用于：将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络，得到遮挡预测网络输出的当前子图像中各关节点的遮挡概率；其中，遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。

修正单元，用于：将任意待推理子图像作为当前子图像，如果当前子图像中任意关节点的遮挡概率不小于遮挡阈值，则确定该任意关节点的预测特征为相应的修正特征，否则，确定该任意关节点的关节特征为相应的修正特征。

本发明实施例还提供了一种人物意图推理设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项人物意图推理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上任一项人物意图推理方法的步骤。

需要说明的是，本发明实施例提供的一种人物意图推理装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种人物意图推理方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人物意图推理方法，其特征在于，包括：

对待推理图像进行目标检测得到相应的目标检测结果；

基于所述目标检测结果确定所述待推理图像中各人物的检测框，确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各所述待推理子图像中相应人物的关节点的关节特征及遮挡概率；

将任意待推理子图像作为当前子图像，将所述当前子图像的融合特征信息输入至遮挡关节点预测网络，得到所述遮挡关节点预测网络输出的所述当前子图像中各关节点的预测特征；其中，所述当前子图像的融合特征信息为将所述当前子图像的d维关节特征与所述当前子图像的1维遮挡概率直接拼接得到或将所述当前子图像的遮挡概率扩展成d维子概率，将该d维子概率分别与所述当前子图像的d维关节特征一一对应相加得到；所述遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的；

基于各所述待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各所述待推理子图像中相应人物的关节点的修正特征；

利用所述目标检测结果及各所述待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。

2.根据权利要求1所述的方法，其特征在于，所述获取各所述待推理子图像中相应人物的关节点的关节特征，包括：

利用卷积神经网络将所述当前子图像压缩为多维向量；其中，所述多维向量中包括将所述当前子图像的长和宽分别按照所述卷积神经网络的降采样倍数压缩所得的指定数据；

求取所述当前子图像的多维向量中指定数据的平均池化，得到所述当前子图像中各关节点的关节特征的向量。

3.根据权利要求1所述的方法，其特征在于，获取各所述待推理子图像中相应人物的关节点的遮挡概率，包括：

将所述当前子图像中各关节点的关节特征的向量输入至遮挡预测网络，得到所述遮挡预测网络输出的所述当前子图像中各关节点的遮挡概率；其中，所述遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于各所述待推理子图像中相应人物的关节点的关节特征及预测特征进行修正，得到各所述待推理子图像中相应人物的关节点的修正特征，包括：

如果所述当前子图像中任意关节点的遮挡概率不小于遮挡阈值，则确定该任意关节点的预测特征为相应的修正特征，否则，确定该任意关节点的关节特征为相应的修正特征。

5.一种人物意图推理装置，其特征在于，包括：

获取模块，用于：基于所述目标检测结果确定所述待推理图像中各人物的检测框，确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像，获取各所述待推理子图像中相应人物的关节点的关节特征及遮挡概率；

修正模块，用于：将任意待推理子图像作为当前子图像，将所述当前子图像的融合特征信息输入至遮挡关节点预测网络，得到所述遮挡关节点预测网络输出的所述当前子图像中各关节点的预测特征；其中，所述当前子图像的融合特征信息为将所述当前子图像的d维关节特征与所述当前子图像的1维遮挡概率直接拼接得到或将所述当前子图像的遮挡概率扩展成d维子概率，将该d维子概率分别与所述当前子图像的d维关节特征一一对应相加得到；所述遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的；

推理模块，用于：利用所述目标检测结果及各所述待推理子图像中相应人物的关节点的修正特征进行人物意图推理，得到相应的人物意图推理结果。

6.一种人物意图推理设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述人物意图推理方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述人物意图推理方法的步骤。