CN114565087A - 一种人物意图推理方法、装置、设备及存储介质 - Google Patents
一种人物意图推理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114565087A CN114565087A CN202210455168.6A CN202210455168A CN114565087A CN 114565087 A CN114565087 A CN 114565087A CN 202210455168 A CN202210455168 A CN 202210455168A CN 114565087 A CN114565087 A CN 114565087A
- Authority
- CN
- China
- Prior art keywords
- joint
- image
- features
- sub
- inferred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 97
- 238000012937 correction Methods 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 41
- 230000004927 fusion Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种人物意图推理方法、装置、设备及存储介质,该方法包括:对待推理图像进行目标检测得到目标检测结果;确定待推理图像中与目标检测结果中各人物的检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到相应修正特征;利用目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。本申请能够实现细粒度人体关节特征的提取,进而有效提高人物意图推理的准确性。
Description
技术领域
本发明涉及视觉常识推理技术领域,更具体地说,涉及一种人物意图推理方法、装置、设备及存储介质。
背景技术
近年来,多模态成为人工智能领域中新兴的研究方向,视觉常识推理(VCR,VisualCommonsense Reasoning)是多模态领域研究方向中一个重要的分支,其目的旨在通过视觉信息推断文字描述的正误,如图1所示,研究者们通过输入图片与输入文字,使模型推断出目标任务的意图,从而使模型拥有根据图像与文字两个模态的数据进行推理的能力。
当前解决VCR任务的主流方法是将视觉特征和文本特征共同输入到transformer结构中,进而进行模态融合。但是在实际研发过程中,发明人发现由于现有算法在视觉特征的提取方法上主要依赖目标检测网络的结果,而现有目标检测网络大多基于VisualGenome或COCO完成训练,其在人体特征上粒度较粗,因此导致人物意图推理的准确性较低。
发明内容
本发明的目的是提供一种人物意图推理方法、装置、设备及存储介质,能够实现细粒度人体关节特征的提取,从而有效提高人物意图推理的准确性。
为了实现上述目的,本发明提供如下技术方案:
一种人物意图推理方法,包括:
对待推理图像进行目标检测得到相应的目标检测结果;
基于所述目标检测结果确定所述待推理图像中各人物的检测框,确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;
基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征;
利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。
优选的,基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,包括:
将任意待推理子图像作为当前子图像,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息;
将当前子图像的融合特征信息输入至遮挡关节点预测网络,得到所述遮挡关节点预测网络输出的当前子图像中各关节点的预测特征;其中,所述遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。
优选的,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息,包括:
将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。
优选的,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息,包括:
将当前子图像的遮挡概率扩展成d维子概率,将该d维子概率分别与当前子图像的d维关节特征一一对应相加,得到当前子图像的融合特征信息。
优选的,获取各待推理子图像中相应人物的关节点的关节特征包括:
将任意待推理子图像作为当前子图像,利用卷积神经网络将当前子图像压缩为多维向量;其中,所述多维向量中包括将当前子图像的长和宽分别按照所述卷积神经网络的降采样倍数压缩所得的指定数据;
求取当前子图像的多维向量中指定数据的平均池化,得到当前子图像中各关节点的关节特征的向量。
优选的,获取各待推理子图像中相应人物的关节点的遮挡概率,包括:
将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络,得到所述遮挡预测网络输出的当前子图像中各关节点的遮挡概率;其中,所述遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。
优选的,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征,包括:
将任意待推理子图像作为当前子图像,如果当前子图像中任意关节点的遮挡概率不小于遮挡阈值,则确定该任意关节点的预测特征为相应的修正特征,否则,确定该任意关节点的关节特征为相应的修正特征。
一种人物意图推理装置,包括:
检测模块,用于:对待推理图像进行目标检测得到相应的目标检测结果;
获取模块,用于:基于所述目标检测结果确定所述待推理图像中各人物的检测框,确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;
修正模块,用于:基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征;
推理模块,用于:利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。
一种人物意图推理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述人物意图推理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述人物意图推理方法的步骤。
本发明提供的一种人物意图推理方法、装置、设备及存储介质,该方法包括:对待推理图像进行目标检测得到相应的目标检测结果;基于所述目标检测结果确定所述待推理图像中各人物的检测框,确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征;利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。可见,本申请在对待推理图像进行目标检测后,基于目标检测所得各检测框对应的图像部分进行关节特征及遮挡概率的获取,进而基于获取到的遮挡概率实现对关节特征的修正,从而实现细粒度人体关节特征的提取,能够有效提高人物意图推理的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为VCR示意图;
图2为主流人物意图推理方案中意图预测网络示意图;
图3为主流人物意图推理方案的基本步骤示意图;
图4为本发明实施例提供的一种人物意图推理方法的流程图;
图5为本发明实施例提供的一种人物意图推理方法中人物关节点位置示意图;
图6为本发明实施例提供的一种人物意图推理方法中图卷积网络示意图;
图7为本发明实施例提供的一种人物意图推理方法中两种将关节特征与遮挡概率编码融合的方法的示意图;
图8为本发明实施例提供的一种人物意图推理方法中基于姿态估计的视觉特征提取架构图;
图9为本发明实施例提供的一种人物意图推理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
解决VCR任务的主流方法是将视觉特征和文本特征共同输入到transformer结构中,进而进行模态融合。基于图2所示的意图预测网络(即多模态框架VLBERT),按照图3所示流程实现人物意图推理方案,其基本步骤可以如下:
(1)使用Visual Genome或COCO等目标检测数据集训练目标检测网络(即图3中的检测网络),如BUTD(Bottom-up and Top-down);
(4)将视觉特征V与文本特征L编码后输入到若干transformer结构中进行编码;
(5)将编码后的特征进行分类,进而判断当前答案选项可以作为问句回答的概率;
(6)通过替换不同的答案选项,并比较模型最终输出概率的大小,输出最有可能作为问句答案的选项。
请参阅图4,其示出了本发明实施例提供的一种人物意图推理方法的流程图,具体可以包括:
S11:对待推理图像进行目标检测得到相应的目标检测结果。
待推理图像即为当前需要进行人物意图推理的任意图像;利用目标检测网络对待推理图像进行特征提取(即目标检测),即可得到包含有待推理图像中各检测框及其特征的目标检测结果,通常单个检测框包含有单个人物。
S12:基于目标检测结果确定待推理图像中各人物的检测框,确定待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率。
基于目标检测结果可以确定待推理图像中各检测框及其特征,然后可以确定各检测框中任意检测框在待推理图像中包含的图像部分为该任意检测框的待推理子图像,从而可以得到与待推理图像中各检测框一一对应的待推理子图像,并基于这些待推理子图像实现相应的人物意图推理。
任意关节点的遮挡概率为该任意关节点被遮挡的概率;对于确定出的任意待推理子图像,可以获取该任意待推理子图像中所包含的人物的关节点的关节特征及遮挡概率。其中,单个人物包含的所有关节点可以如图5所示,共包含关节点0至关节点17这18个关节点,以基于各关节点的特征可以有效推理出相应人物的意图。
S13:基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征。
基于任意待推理子图像中各关节点的遮挡概率可以对相应关节点的关节特征进行处理,从而预测分析得到相应关节点最可能的关节特征(称为预测特征),进而基于该任意待推理子图像中各关节点的关节特征及预测特征实现相应关节点的特征的修正,从而得到该任意待推理子图像中各关节点的修正特征,进而基于修正特征实现后续的人物意图推理。
S14:利用目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。
在利用目标检测网络对待推理网络进行检测后,得到的目标检测结果中还可以包含待推理图像中除人物的其他实体特征;相应的,在得到各待推理子图像中相应人物的关节点的修正特征后,可以基于目标检测结果中除人物的其他实体特征以及各待推理子图像中相应人物的关节点的修正特征,调用图2所示的意图预测网络,并按照上述人物意图推理方案的基本步骤中的步骤(3)至步骤(6)进行相应人物意图推理即可。
本申请对待推理图像进行目标检测得到目标检测结果,确定待推理图像中与目标检测结果所包含各检测框分别对应的图像部分分别为待推理子图像,获取各待推理子图像中相应人物各关节点的关节特征及遮挡概率,基于遮挡概率对相应关节点的关节特征进行预测分析得到预测的相应关节点应具有的特征为预测特征,进而基于各关节点的关节特征及预测特征进行修正得到相应的修正特征,最终基于修正特征及目标检测结果实现人物意图推理。可见,本申请在对待推理图像进行目标检测后,基于目标检测所得各检测框对应的图像部分进行关节特征及遮挡概率的获取,进而基于获取到的遮挡概率实现对关节特征的修正,从而实现细粒度人体关节特征的提取,能够有效提高人物意图推理的准确性。
本发明实施例提供的一种人物意图推理方法,获取各待推理子图像中相应人物的关节点的关节特征,包括:将任意待推理子图像作为当前子图像,利用卷积神经网络将当前子图像压缩为多维向量;求取当前子图像的多维向量中指定数据的平均池化,得到当前子图像中各关节点的关节特征的向量;其中,多维向量中包括将当前子图像的长和宽分别按照卷积神经网络的降采样倍数压缩所得的指定数据。
获取各待推理子图像中相应人物的关节点的遮挡概率,包括:将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络,得到遮挡预测网络输出的当前子图像中各关节点的遮挡概率;其中,遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。
本申请实施例可以基于简单的关节点检测网络来提取人物特征;具体来说,可以将每个人物抽象成若干关节点(例如图5所示的若干关节点),然后针对已经提取出的各检测框分别对应图像部分,采用卷积神经网络将各图像部门中的任意图像部分压缩成一个[h//s, w//s, N]的多维向量;其中,s表示卷积神经网络的降采样倍数,//表示采用卷积神经网络进行压缩的操作,N表示单个人物应包含的关节点总数量(可以根据实际需要设定,比如在将每个人物抽象成如图5所示的若干关节点时,N为18),h和w分别表示该任意图像部分的长和宽(即图像大小),并且可以将h//s、w//s均称为指定数据。在对任意图像部分压缩得到相应[h//s, w//s, N]的多维向量后,可以对该多维向量求前两个维度的平均池化(也即求指定数据的平均池化;而平均池化与现有技术中相应技术方案的实现原理一致,在此不再赘述),得到[d, N]的向量(即为节点特征的向量)表示该任意图像部分中N个关节点的特征作为相应的节点特征;其中,d表示每个关节点的关节特征的维度。从而通过上述方式以简单有效的方式实现图像中关节特征的提取,进而实现后续的人物意图推理操作。
本申请实施例还可以加入一个预设关节点是否被遮挡的遮挡预测网络,以基于该遮挡预测网络预测任意图像部分中各关节点是否被遮挡。具体来说,可以预先利用已知是否被遮挡的关节特征的向量训练得到遮挡预测网络,然后再将当前需要预测关节点是否被遮挡的图像部分的关节特征的向量[d, N]输入至遮挡预测网络中,得到遮挡预测网络输出的向量[1, N],向量[1, N]中每个值表示对应关节点被遮挡的概率p;其中,遮挡预测网络可以由一个大小为[d, 1]的全连接层和sigmoid激活函数层构成。从而基于上述遮挡预测网络快速准确的实现遮挡概率的获取,便于后续人物意图推理操作的实现。
本发明实施例提供的一种人物意图推理方法,基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,可以包括:将任意待推理子图像作为当前子图像,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息;将当前子图像的融合特征信息输入至遮挡关节点预测网络,得到遮挡关节点预测网络输出的当前子图像中各关节点的预测特征;其中,遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。
将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息,可以包括:将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。
或者将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息,可以包括:将当前子图像的遮挡概率扩展成d维子概率,将该d维子概率分别与当前子图像的d维关节特征一一对应相加,得到当前子图像的融合特征信息。
本申请实施例可以预先获取多个图像分别作为训练图像,每个训练图像中包含有单个人物;然后得到每个训练图像的融合特征信息及相应预测特征,进而基于每个训练图像的融合特征信息及相应预测特征实现图卷积网络(GCN,Graph Convolutional Net )的训练,得到遮挡关节点预测网络,以基于该遮挡关节点预测网络实现相应图像中关节点对应预测特征的快速精准获取,图卷积网络可以如图6所示。需要说明的是,本申请利用图卷积网络来预测被遮挡的关节点的特征,得到相应的预测特征,进而基于预测特征及相应关节特征达到人物特征修正的作用。其中,对于图卷积网络的输入形式,可以采用关节特征与遮挡概率编码融合的模式,如图7所示包含(a)(b)两种将关节特征与遮挡概率编码融合的方法,(a)表示将d维关节特征与1维遮挡概率p直接拼接为d+1维向量,(b)表示将遮挡概率p扩展成d维后与关节特征一一对应相加,从而通过上述两种方法中任一种方式均可实现遮挡信息的有效编码,进而为图卷积网络提供所需的信号。
本发明实施例提供的一种人物意图推理方法,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征,可以包括:
将任意待推理子图像作为当前子图像,如果当前子图像中任意关节点的遮挡概率不小于遮挡阈值,则确定该任意关节点的预测特征为相应的修正特征,否则,确定该任意关节点的关节特征为相应的修正特征。
本申请实施例中可以设计特征存取模块用来缓存特征,特征存取模块可以在三个地方被使用到,分别包括:1、对待推理图像进行目标检测后,目标检测结果包含的待推理图像中除人物外的其他实体特征被存储到其中;2、得到预测特征后,将得到的预测特征输入到其中;3、得到预测特征后,被遮挡的关节特征被相应预测特征所替代,这步可以使用预设的特征替换门开关。具体可以是,将特征存取模块中的对应关节点的关节特征f1读取出来,并读取其是否被遮挡的遮挡概率p,通过判断p是否高于遮挡阈值th来判断是否使用相应的预测特征f2来替换:如果p<th,则推出特征f1,并将f2存入到原位置;否则不作处理。由此,在任意关节点的遮挡概率不小于遮挡阈值,说明该任意关节点很可能被遮挡时,保留该任意关节点的预测特征,否则,说明该任意关节点被遮挡的可能性很小,因此保留该任意关节点的关节特征,从而基于保留的特征实现后续的人物意图推理,进而提高人物意图推理的准确性。
在一种具体实现方式中,本发明实施例提供的人物意图推理方法可以包括基于姿态估计的视觉特征提取及人物意图预测两部分。基于姿态估计的视觉特征提取部分可以基于包含有基础目标检测模块(与基础目标检测网络含义相同)、人物关节点检测模块(与人物关节点检测网络含义相同)、人物关节点预测模块(与人物关节点预测网络含义相同)、特征存取模块(与特征存取器含义相同)及特征替换门开关的架构实现;具体的,基础目标检测模块可以如图8所示,用于实现待推理图像的目标检测相关步骤;人物关节点检测模块用于实现关节特征及遮挡概率获取相关步骤;人物关节点预测模块用于实现预测特征获取相关步骤;特征存取模块用于实现相应特征缓存相关步骤;特征替换门开关用于实现预测特征及关节特征间的替换相关步骤。人物意图预测部分则为将特征存取模块中所有特征提取出来,调用图2所示的意图预测网络,并重复图上述人物意图推理方案的基本步骤中的步骤(3)至步骤(6)即可。
本申请在多模态任务中加大任务特征的比重,通过设计人物关节点检测模块所用网络和图卷积网络来提取细粒度的人体关节点特征,替换掉现有的粗粒度视觉特征,一方面解决人物视觉特征粒度较粗的问题,一方面解决被遮挡人物部件特征缺失的问题,提升多模态模型的人物意图推理能力,进而达到更准确地预测人物意图的目的,有效提高VCR等人类意图推理相关任务的精度。
本发明实施例还提供了一种人物意图推理装置,如图9所示,可以包括:
检测模块11,用于:对待推理图像进行目标检测得到相应目标检测结果;
获取模块12,用于:基于目标检测结果确定待推理图像中各人物的检测框,确定待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;
修正模块13,用于:基于遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征;
推理模块14,用于:利用目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。
本发明实施例提供的一种人物意图推理装置,修正模块可以包括:
预测单元,用于:将任意待推理子图像作为当前子图像,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息;将当前子图像的融合特征信息输入至遮挡关节点预测网络,得到遮挡关节点预测网络输出的当前子图像中各关节点的预测特征;其中,遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。
本发明实施例提供的一种人物意图推理装置,预测单元可以包括:
第一拼接单元,用于:将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。
本发明实施例提供的一种人物意图推理装置,预测单元可以包括:
第二拼接单元,用于:将当前子图像的遮挡概率扩展成d维子概率,将该d维子概率分别与当前子图像的d维关节特征一一对应相加,得到当前子图像的融合特征信息。
本发明实施例提供的一种人物意图推理装置,获取模块可以包括:
第一获取单元,用于:将任意待推理子图像作为当前子图像,利用卷积神经网络将当前子图像压缩为多维向量;求取当前子图像的多维向量中指定数据的平均池化,得到当前子图像中各关节点的关节特征的向量;其中,多维向量中包括将当前子图像的长和宽分别按照卷积神经网络的降采样倍数压缩所得的指定数据。
本发明实施例提供的一种人物意图推理装置,获取模块可以包括:
第二获取单元,用于:将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络,得到遮挡预测网络输出的当前子图像中各关节点的遮挡概率;其中,遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。
本发明实施例提供的一种人物意图推理装置,修正模块可以包括:
修正单元,用于:将任意待推理子图像作为当前子图像,如果当前子图像中任意关节点的遮挡概率不小于遮挡阈值,则确定该任意关节点的预测特征为相应的修正特征,否则,确定该任意关节点的关节特征为相应的修正特征。
本发明实施例还提供了一种人物意图推理设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项人物意图推理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一项人物意图推理方法的步骤。
需要说明的是,本发明实施例提供的一种人物意图推理装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种人物意图推理方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种人物意图推理方法,其特征在于,包括:
对待推理图像进行目标检测得到相应的目标检测结果;
基于所述目标检测结果确定所述待推理图像中各人物的检测框,确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;
基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征;
利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。
2.根据权利要求1所述的方法,其特征在于,基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,包括:
将任意待推理子图像作为当前子图像,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息;
将当前子图像的融合特征信息输入至遮挡关节点预测网络,得到所述遮挡关节点预测网络输出的当前子图像中各关节点的预测特征;其中,所述遮挡关节点预测网络为基于已知预测特征的多项融合特征信息预训练得到的。
3.根据权利要求2所述的方法,其特征在于,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息,包括:
将当前子图像的关节特征与当前子图像的遮挡概率直接拼接成相应的多维向量作为当前子图像的融合特征信息。
4.根据权利要求2所述的方法,其特征在于,将当前子图像中各关节点的关节特征及相应遮挡概率进行编码融合,得到相应的融合特征信息,包括:
将当前子图像的遮挡概率扩展成d维子概率,将该d维子概率分别与当前子图像的d维关节特征一一对应相加,得到当前子图像的融合特征信息。
5.根据权利要求1所述的方法,其特征在于,获取各待推理子图像中相应人物的关节点的关节特征,包括:
将任意待推理子图像作为当前子图像,利用卷积神经网络将当前子图像压缩为多维向量;其中,所述多维向量中包括将当前子图像的长和宽分别按照所述卷积神经网络的降采样倍数压缩所得的指定数据;
求取当前子图像的多维向量中指定数据的平均池化,得到当前子图像中各关节点的关节特征的向量。
6.根据权利要求3所述的方法,其特征在于,获取各待推理子图像中相应人物的关节点的遮挡概率,包括:
将当前子图像中各关节点的关节特征的向量输入至遮挡预测网络,得到所述遮挡预测网络输出的当前子图像中各关节点的遮挡概率;其中,所述遮挡预测网络为基于已知是否被遮挡的关节特征的向量预训练得到的。
7.根据权利要求1至6任一项所述的方法,其特征在于,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征,包括:
将任意待推理子图像作为当前子图像,如果当前子图像中任意关节点的遮挡概率不小于遮挡阈值,则确定该任意关节点的预测特征为相应的修正特征,否则,确定该任意关节点的关节特征为相应的修正特征。
8.一种人物意图推理装置,其特征在于,包括:
检测模块,用于:对待推理图像进行目标检测得到相应的目标检测结果;
获取模块,用于:基于所述目标检测结果确定所述待推理图像中各人物的检测框,确定所述待推理图像中各检测框对应的图像部分分别为相应人物的待推理子图像,获取各待推理子图像中相应人物的关节点的关节特征及遮挡概率;
修正模块,用于:基于所述遮挡概率对相应关节点的关节特征进行预测分析得到相应的预测特征,基于各待推理子图像中相应人物的关节点的关节特征及预测特征进行修正,得到各待推理子图像中相应人物的关节点的修正特征;
推理模块,用于:利用所述目标检测结果及各待推理子图像中相应人物的关节点的修正特征进行人物意图推理,得到相应的人物意图推理结果。
9.一种人物意图推理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述人物意图推理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人物意图推理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210455168.6A CN114565087B (zh) | 2022-04-28 | 2022-04-28 | 一种人物意图推理方法、装置、设备及存储介质 |
PCT/CN2022/121131 WO2023206951A1 (zh) | 2022-04-28 | 2022-09-23 | 一种人物意图推理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210455168.6A CN114565087B (zh) | 2022-04-28 | 2022-04-28 | 一种人物意图推理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114565087A true CN114565087A (zh) | 2022-05-31 |
CN114565087B CN114565087B (zh) | 2022-07-22 |
Family
ID=81720827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210455168.6A Active CN114565087B (zh) | 2022-04-28 | 2022-04-28 | 一种人物意图推理方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114565087B (zh) |
WO (1) | WO2023206951A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115211847A (zh) * | 2022-06-08 | 2022-10-21 | 赵玉斌 | 传统健身功法训练姿态的智能监测装置、方法及应用 |
WO2023206951A1 (zh) * | 2022-04-28 | 2023-11-02 | 苏州元脑智能科技有限公司 | 一种人物意图推理方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728209A (zh) * | 2019-09-24 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 一种姿态识别方法、装置、电子设备及存储介质 |
CN111652054A (zh) * | 2020-04-21 | 2020-09-11 | 北京迈格威科技有限公司 | 关节点检测方法、姿态识别方法及装置 |
CN111666857A (zh) * | 2020-05-29 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于环境语义理解的人体行为识别方法、装置及存储介质 |
CN111753643A (zh) * | 2020-05-09 | 2020-10-09 | 北京迈格威科技有限公司 | 人物姿态识别方法、装置、计算机设备和存储介质 |
CN112733802A (zh) * | 2021-01-25 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 图像的遮挡检测方法、装置、电子设备及存储介质 |
CN113065431A (zh) * | 2021-03-22 | 2021-07-02 | 浙江理工大学 | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 |
CN113723185A (zh) * | 2021-07-26 | 2021-11-30 | 深圳大学 | 动作行为识别方法、装置、存储介质及终端设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260527A (ja) * | 2005-02-16 | 2006-09-28 | Toshiba Corp | 画像マッチング方法およびこれを用いた画像補間方法 |
CN111079695B (zh) * | 2019-12-30 | 2021-06-01 | 北京华宇信息技术有限公司 | 一种人体关键点检测与自学习方法及装置 |
CN113361334B (zh) * | 2021-05-18 | 2022-07-22 | 山东师范大学 | 基于关键点优化和多跳注意图卷积行人重识别方法及系统 |
CN114565087B (zh) * | 2022-04-28 | 2022-07-22 | 苏州浪潮智能科技有限公司 | 一种人物意图推理方法、装置、设备及存储介质 |
-
2022
- 2022-04-28 CN CN202210455168.6A patent/CN114565087B/zh active Active
- 2022-09-23 WO PCT/CN2022/121131 patent/WO2023206951A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728209A (zh) * | 2019-09-24 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 一种姿态识别方法、装置、电子设备及存储介质 |
CN111652054A (zh) * | 2020-04-21 | 2020-09-11 | 北京迈格威科技有限公司 | 关节点检测方法、姿态识别方法及装置 |
CN111753643A (zh) * | 2020-05-09 | 2020-10-09 | 北京迈格威科技有限公司 | 人物姿态识别方法、装置、计算机设备和存储介质 |
CN111666857A (zh) * | 2020-05-29 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于环境语义理解的人体行为识别方法、装置及存储介质 |
CN112733802A (zh) * | 2021-01-25 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 图像的遮挡检测方法、装置、电子设备及存储介质 |
CN113065431A (zh) * | 2021-03-22 | 2021-07-02 | 浙江理工大学 | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 |
CN113723185A (zh) * | 2021-07-26 | 2021-11-30 | 深圳大学 | 动作行为识别方法、装置、存储介质及终端设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023206951A1 (zh) * | 2022-04-28 | 2023-11-02 | 苏州元脑智能科技有限公司 | 一种人物意图推理方法、装置、设备及存储介质 |
CN115211847A (zh) * | 2022-06-08 | 2022-10-21 | 赵玉斌 | 传统健身功法训练姿态的智能监测装置、方法及应用 |
Also Published As
Publication number | Publication date |
---|---|
WO2023206951A1 (zh) | 2023-11-02 |
CN114565087B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN114565087B (zh) | 一种人物意图推理方法、装置、设备及存储介质 | |
CN112070044B (zh) | 一种视频物体分类方法及装置 | |
CN111191622A (zh) | 基于热力图和偏移向量的姿态识别方法、系统及存储介质 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN114529982B (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
CN113128360A (zh) | 基于深度学习的司机驾驶行为检测与识别方法 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
US20210326383A1 (en) | Search method and device, and storage medium | |
CN113313173A (zh) | 基于图表示和改进Transformer的人体解析方法 | |
CN117058595B (zh) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
US20230316536A1 (en) | Systems and methods for object tracking | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
CN114529842A (zh) | 一种基于知识引导下双向注意力机制的人物交互检测方法 | |
CN112084371A (zh) | 一种电影多标签分类方法、装置、电子设备以及存储介质 | |
CN117173715A (zh) | 一种注意力视觉问答方法、装置、电子设备及存储介质 | |
CN113408721A (zh) | 神经网络结构搜索方法、装置、计算机设备和存储介质 | |
CN112528077A (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN116110005A (zh) | 一种人群行为属性的计数方法、系统及产品 | |
WO2022252519A1 (zh) | 图像处理方法、装置、终端、介质和程序 | |
CN114821424A (zh) | 视频分析方法、视频分析装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |