CN114550223A - 人物交互检测方法、装置及电子设备 - Google Patents
人物交互检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114550223A CN114550223A CN202210436888.8A CN202210436888A CN114550223A CN 114550223 A CN114550223 A CN 114550223A CN 202210436888 A CN202210436888 A CN 202210436888A CN 114550223 A CN114550223 A CN 114550223A
- Authority
- CN
- China
- Prior art keywords
- image
- interaction
- loss function
- level
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 229
- 230000003993 interaction Effects 0.000 title claims abstract description 209
- 238000013519 translation Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 98
- 230000002452 interceptive effect Effects 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 abstract description 26
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种人物交互检测方法、装置及电子设备,其中方法包括:获取目标检测图像;基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。本申请提供的人物交互检测方法、装置及电子设备,通过将人物实例检测和交互关系检测统一到基于级联机器翻译网络的人物交互检测模型中,同时结合全局上下文和实例级信息进行人物交互推理,提高了人物交互检测的精度。
Description
技术领域
本申请涉及机器视觉处理技术领域,尤其涉及一种人物交互检测方法、装置及电子设备。
背景技术
人物交互(Human-object Interactive, HOI)检测要求模型明确地定位图像中人与物体的位置,同时正确地预测其交互行为。
目前的人物交互检测方法包括两种:一种是两阶段,首先检测到人和物的外观特征,然后再结合它们的相对空间信息来预测交互关系。两阶段的方法主要是将检测到的人和物作为节点,通过显式或预定义的交互关系构建密集的图连接模型。另一种是单阶段,通过对图文上下文关系进行建模,让模型根据上下文信息用隐式的方式自主去学习人和物体的交互关系。单阶段的方法不需要复杂的网络结构就可以实现人物交互检测。
但是,对于单阶段的方法,在针对人或物体的个体特征建模时,只对图像级特征进行关注,人物交互检测的精度较低。
发明内容
针对现有技术存在的上述问题,本申请提供一种人物交互检测方法、装置及电子设备。
第一方面,本申请提供一种人物交互检测方法,包括:
获取目标检测图像;
基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
可选地,所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入,得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出作为所述实例级解码模块的输入,得到所述实例级解码模块输出的所述目标检测图像的实例级特征;
所述实例级特征包括物体的类别,以及人和物体的边界框。
可选地,所述人和物体的边界框的回归损失函数满足如下计算公式:
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入,得到所述交互关系解码模块输出的目标四元组;
所述目标四元组用于表示人物交互关系预测结果。
可选地,所述目标四元组满足如下计算公式:
可选地,所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和,所述第一损失函数为物体的分类损失函数,所述第二损失函数为人和物体的交互关系损失函数,所述第三损失函数为人和物体的边界框的回归损失函数。
第二方面,本申请提供一种人物交互检测装置,包括:
获取模块,用于获取目标检测图像;
检测模块,用于基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
第三方面,本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述任一种人物交互检测方法。
第四方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述任一种人物交互检测方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述任一种人物交互检测方法。
本申请提供的人物交互检测方法、装置及电子设备,通过将人物实例检测和交互关系检测统一到基于级联机器翻译网络的人物交互检测模型中,同时结合全局上下文和实例级信息进行人物交互推理,提高了人物交互检测的精度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。
图1是本申请实施例提供的人物交互检测方法的流程示意图之一;
图2是本申请实施例提供的人物交互检测方法的流程示意图之二;
图3是本申请实施例提供的人物交互检测装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了更好地对本申请实施例中的技术方案进行描述,下面对相关知识进行介绍。
(1)人物交互检测
人物交互检测(HOI Dectection)要求模型明确地定位图像中人和物体的位置,同时正确预测其交互行为。通过研究人物交互检测来模拟人类认识周围世界的方式,可以促进服务型机器人等技术的研究。同时,识别图像蕴含的人物交互行为,是实现自动理解图像主题、自动描述图像主要内容的关键技术之一。
(2)两阶段的人物交互检测方法
对于两阶段实现人物交互检测的方法,首先检测到人和物的外观特征,然后再结合人与物体之间的相对空间信息来预测交互关系。一些方法通过利用图网络结构的形式对不同场景中的上下文信息进行建模,例如利用图卷积网络捕获上下文信息。一些方法利用关系图对人和物体之间的相对空间位置进行编码,以图网络结构的形式描述上下文信息。
两阶段实现人物交互检测的方法中,将检测到的人和物体作为节点,通过显式或预定义的交互关系构建密集的图连接模型。其中,主要是根据图像场景中孤立的人物对信息实现交互关系预测,在人物交互关系建模时,会产生大量的人物对冗余计算。
(3)单阶段的人物交互检测方法
对于单阶段实现人物交互检测的方法,主要是通过对图像上下文进行建模,让模型根据上下文信息用隐式的方式去自主学习人和物体之间的交互关系。单阶段的人物交互检测不需要复杂的网络结构就可以实现较好的人物交互检测效果。
但是,单阶段的人物交互检测,在针对人或物体的个体特征进行建模时,只关注到图像层级的特征,依靠人和物体的图像级的外观特征,而忽略了人或物体实例附近的上下文信息。
针对现有技术存在的上述问题,本申请实施例提供一种人物交互检测方法、装置及电子设备,通过将人物实例检测和交互关系检测统一到基于级联Transformer网络的人物交互检测模型中,同时结合全局上下文和实例级信息进行人物交互推理,提高了人物交互检测的精度。
本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,本申请中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的人物交互检测方法的流程示意图之一,如图1所示,本申请实施例提供一种人物交互检测方法,其执行主体为用于人物交互检测的装置,该方法至少包括以下步骤:
步骤101、获取目标检测图像。
步骤102、基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
具体地,本申请中的“人物”是指人和物体。在人物交互检测之前,需要先获取待检测的目标检测图像。目标检测图像可以是单张图像,也可以是从视频中提取到的图像帧,本申请实施例中对比并不作出限定。
在获取到目标检测图像后,对目标检测图像进行人物交互检测,在人物交互检测中,不仅需要检测目标检测图像中的人和物体,还需要识别人物交互关系的类别。
将目标检测图像输入至级联机器翻译(Transformer)网络,对目标检测图像进行人物交互检测,得到目标检测图像中的人物交互关系预测结果。本申请实施例中的人物交互关系预测结果包括人物交互关系预测和人物对实例位置的预测。
为了同时关注到目标检测图像中的图像级特征和实例级特征,本申请实施例中采用级联Transformer网络结构。级联Transformer网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
其中,图像级编码模块用于对目标检测图像的全局信息进行学习,基于注意力图的上下文信息提取图像级特征。实例级解码模块用于对人和物体进行定位,利用图像中人和物体实例附近的上下文信息,提取图像背景中人和物体的边界框级别特征。
交互关系解码模块用于特征融合和交互预测,对图像级编码模块和实例级解码模块的输出特征进行学习,融合不同级联阶段的特征,不同级联阶段的特征从粗粒度到细粒度的方式描述不同场景下的语义信息。交互关系解码模块最终得到人物交互关系预测结果,预测出人和物体的位置以及交互关系。
本申请实施例提供的人物交互检测方法,通过将人物实例检测和交互关系检测统一到基于级联Transformer网络的人物交互检测模型中,同时结合全局上下文和实例级信息进行人物交互推理,提高了人物交互检测的精度。
可选地,所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
具体地,图像级编码模块采用标准的Transformer架构的编码层,包括多注意力机制子模块和前馈神经网络子模块。图像级编码模块包括多个结构相同的图像级编码器,每个图像级编码器由自注意力层和前馈神经网络组成。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入,得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
具体地,在图像级编码模块中,由于传统的Transformer架构中的自注意力层缺乏捕捉目标检测图像中人和物体的位置信息的能力,因此,本申请实施例中在原始输入中嵌入带有维度的位置编码,以获得图像级编码模块的最终输入。
将目标检测图像和位置编码相加作为图像级编码模块的输入,弥补Transformer结构的置换不变性导致的对图像位置信息的建模能力的缺失,得到图像级编码模块输出的目标检测图像的图像级特征。
本申请实施例提供的人物交互检测方法,通过将位置编码叠加到原始输入中以学习具有交互关系的人和物体的空间位置特征,提高人物交互检测模型对HOI检测的精度。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出作为所述实例级解码模块的输入,得到所述实例级解码模块输出的所述目标检测图像的实例级特征;
所述实例级特征包括物体的类别,以及人和物体的边界框。
具体地,实例级解码模块用于完成人和物体的定位任务,提供场景中细粒度的人和物体的边界框级别特征。
以图像级编码模块的输出作为实例级解码模块的输入,以完成人和物体的定位人物,得到实例级解码模块输出的实例级特征。实例级特征是指实例级别的外观特征,包括物体的类别,以及人和物体的边界框等。
相较于粗粒度的图像级特征,实例级特征为人物交互检测获取到细粒度特征。实例级特征有利于级联Transformer网络隐式地建立人和物体的交互关系。
实例级解码模块输出的是物体的类别特征,以及人和物体的边界框特征。对人和物体的空间相对位置特征的学习有利于级联Transformer网络关注场景中存在交互关系的实体和区域,有利于人物交互检测模型对图像中包含实例级交互关系的精细化建模。
本申请实施例提供的人物交互检测方法,通过以图像级编码模块的输出作为实例级解码模块的输入,对目标检测图像中人和物体的空间相对位置特征进行学习,获取物体的类别以及人和物体的边界框特征,提高人物交互检测模型对HOI检测的精度。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入,得到所述交互关系解码模块输出的目标四元组;
所述目标四元组用于表示人物交互关系预测结果。
具体地,交互关系解码模块用于实现特征融合和交互预测。将图像级编码模块的输出的图像级特征,以及实例级解码模块输出的实例级特征,作为交互关系解码模块的输入,得到交互关系解码模块输出的四元组。四元组用于表示人物交互关系预测结果,包括人物对的预测位置信息、人物对中物体的预测类别以及人物对的预测交互关系等。
与传统的Transformer网络相比,交互关系解码模块不仅利用了图像的全局信息,即图像级特征,而且也将实例级解码模块输出的实例级特征输入到交互关系解码模块中。人物交互检测模型通过两次的交叉注意力机制输出人物交互关系预测结果。
交互关系解码模块最终以四元组的方式输出目标检测图像的人物交互关系预测结果,可以并行输入大量的目标检测图像,在交互关系解码模块对全部的人物交互查询进行处理,一次性输出全部的人物交互预测结果。
本申请实施例提供的人物交互检测方法,通过双解码机制,在人物交互检测模型的建模过程中,将图像级编码模块和实例级解码模块的输出作为交互关系解码模块的输入,同时关注目标检测图像的图像级特征和实例级特征,提高人物交互检测的精度。
可选地,所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和,所述第一损失函数为物体的分类损失函数,所述第二损失函数为人和物体的交互关系损失函数,所述第三损失函数为人和物体的边界框的回归损失函数。
具体地,本申请提供的人物交互检测方法,级联Transformer网络的损失(Loss)函数为第一损失函数、第二损失函数和第三损失函数之和,第一损失函数为物体的分类损失函数,第二损失函数为人和物体的交互关系损失函数,第三损失函数为人和物体的边界框的回归损失函数。
可选地,人物交互关系可以通过标准四元组进行表示,表达式如下:
可选地,人物交互关系预测结果可以通过目标四元组进行表示,表达式如下:
在本申请实施例中,上标hb表示人的边界框,上标ob表示物体的边界框,上标oc表示物体的类别,上标r表示人物对交互关系。人物对的位置信息可以通过人的边界框和物体的边界框共同定位。
标注数据(Ground Truth)是指模型训练过程中的参考标准,例如在人和物体的边界框特征提取过程中,模型预测的边界框是要与标注数据进行比较的,可以理解为预先设定好的特征标签。
对于第i个标注数据,标准四元组可以表示为:
对应的交互关系预测结果可以表示为:
利用匈牙利算法(Hungarian)匹配损失满足如下计算公式:
其中,L表示匈牙利匹配损失函数。
可选地,第一损失函数,即物体的分类损失函数满足如下计算公式:
可选地,第二损失函数,即人和物体的交互关系损失函数满足如下计算公式:
可选地,第三损失函数,即人和物体的边界框的回归损失函数满足如下计算公式:
本申请实施例提供的人物交互检测方法,通过多变量匹配损失,在模型学习人物交互特征过程中,通过增加多任务监督方式提高人物交互检测的精度。
可选地,基于级联Transformer网络的人物交互检测模型是基于目标检测图像样本和预先确定的人物交互关系预测结果标签训练后获得的。
可选地,本申请实施例中利用公开的COCO(Common Objects in Context)数据集划分为训练集和测试集,训练集用于训练本申请实施例提出的基于级联Transformer网络的人物交互检测模型,然后利用测试集对基于级联Transformer网络的人物交互检测模型进行测试。例如,训练集中包含38118个数据,测试集中包含9658个数据。
下面以一个具体的示例进一步介绍本申请提供的技术方案。
图2是本申请实施例提供的人物交互检测方法的流程示意图之二,如图2所示,本申请实施例提供的人物交互检测模型是一个级联Transformer结构,依次完成图像级特征编码,实例级特征解码和交互关系解码,前一级信息传递后级,即图像级特征编码的输出结果传递到实例级特征解码,最后由交互关系解码完成人物交互关系和实例位置的预测。
其中,图像级编码模块采用标准的机器翻译(Transformer)架构的编码层,包括多注意力机制子模块和前馈神经网络子模块。设置本地编码块,对相对空间位置的位置信息进行编码。将位置编码叠加到图像级编码模块的输入中,用于弥补Transformer结构的置换不变性导致的对图像位置信息的建模能力的缺失。
一般情况下存在交互关系的两个物体在空间位置上具有相关性,将位置编码叠加到级联Transformer网络中有利于人物交互检测模型学习到具有交互关系的人和物体的空间位置特征,从而提高人物交互检测模型对HOI检测的精度。图像级编码模块的输出包含了图片的全局信息,即图像级的特征。
其中,实例级解码模块用于完成人和物体的定位任务,提供场景中细粒度的人和物体的边界框级别特征。这些细粒度的信息既可以为人物交互解码建模提供人和物体的空间相对位置特征,也可以帮助级联Transformer网络隐式地建立交互关系。实例级解码模块的输入为图像级编码模块的输出和100个查询对象,这些查询对象可以是根据历史经验确定的常用的物体的类别,以及人物交互关系的类别。实例级解码模块的输出是物体的类别以及人和物体的边界框。
对人和物体的空间相对位置特征的学习有利于级联Transformer网络关注场景中存在交互关系的实体和区域,有利于人物交互检测模型对图像中包含实例级交互关系的精细化建模。
其中,交互关系解码模块用于特征融合和交互预测。特征融合是指融合不同级联阶段的特征,不同级联阶段的特征从粗粒度到细粒度的方式描述不同场景的语义信息。交互预测是指通过输出四元组的形式表示人物交互预测结果。
交互关系解码模块对全部的人物交互查询进行处理,一次性输出全部的预测结果。人物交互关系可以通过标准四元组进行表示,表达式如下:
人物交互关系预测结果可以通过目标四元组进行表示,表达式如下:
与传统的Transformer网络不同,交互关系解码模块不仅利用了图像的全局信息,即图像级特征,而且也将实例级解码模块输出的实例级特征输入到交互关系解码模块中。人物交互检测模型通过两次的交叉注意力机制输出人物交互关系预测结果。
该人物交互检测模型中的损失函数包括两个部分:一是实例级解码模块预测目标物体的边界与标注数据之间的第一损失函数,二是交互关系解码模块预测的人物交互关系与标注数据之间的第二损失函数。
对于第i个标注数据,标准四元组表示为:
对应的交互关系预测结果表示为:
利用匈牙利算法(Hungarian)匹配损失满足如下计算公式:
其中,L表示匈牙利匹配损失函数。
物体的分类损失函数满足如下计算公式:
人和物体的交互关系损失函数满足如下计算公式:
人和物体的边界框的回归损失函数满足如下计算公式:
则整个人物交互检测模型的损失函数L为:
下面对本申请提供的人物交互检测装置进行描述,下文描述的人物交互检测装置与上文描述的人物交互检测方法可相互对应参照。
图3是本申请实施例提供的人物交互检测装置的结构示意图,如图3所示,本申请实施例提供一种人物交互检测装置,该装置包括:
获取模块301,用于获取目标检测图像;
检测模块302,用于基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
可选地,所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
可选地,所述检测模块还用于:
将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入,得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
可选地,所述检测模块还用于:
将所述图像级编码模块的输出作为所述实例级解码模块的输入,得到所述实例级解码模块输出的所述目标检测图像的实例级特征;
所述实例级特征包括物体的类别,以及人和物体的边界框。
可选地,所述人和物体的边界框的回归损失函数满足如下计算公式:
可选地,所述检测模块还用于:
将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入,得到所述交互关系解码模块输出的目标四元组;
所述目标四元组用于表示人物交互关系预测结果。
可选地,所述目标四元组满足如下计算公式:
可选地,所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和,所述第一损失函数为物体的分类损失函数,所述第二损失函数为人和物体的交互关系损失函数,所述第三损失函数为人和物体的边界框的回归损失函数。
在此需要说明的是,本申请实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图4是本申请实施例提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行人物交互检测方法,该方法包括:
获取目标检测图像;
基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
可选地,所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入,得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出作为所述实例级解码模块的输入,得到所述实例级解码模块输出的所述目标检测图像的实例级特征;
所述实例级特征包括物体的类别,以及人和物体的边界框。
可选地,所述人和物体的边界框的回归损失函数满足如下计算公式:
可选地,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入,得到所述交互关系解码模块输出的目标四元组;
所述目标四元组用于表示人物交互关系预测结果。
可选地,所述目标四元组满足如下计算公式:
可选地,所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和,所述第一损失函数为物体的分类损失函数,所述第二损失函数为人和物体的交互关系损失函数,所述第三损失函数为人和物体的边界框的回归损失函数。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的人物交互检测方法,该方法包括:
获取目标检测图像;
基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
又一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的人物交互检测方法,该方法包括:
获取目标检测图像;
基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以基于实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种人物交互检测方法,其特征在于,包括:
获取目标检测图像;
基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
2.根据权利要求1所述的人物交互检测方法,其特征在于,所述图像级编码模块包括多头注意力机制子模块和前馈神经网络子模块。
3.根据权利要求2所述的人物交互检测方法,其特征在于,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述目标检测图像和位置编码相加作为所述图像级编码模块的输入,得到所述图像级编码模块输出的所述目标检测图像的图像级特征。
4.根据权利要求1所述的人物交互检测方法,其特征在于,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出作为所述实例级解码模块的输入,得到所述实例级解码模块输出的所述目标检测图像的实例级特征;
所述实例级特征包括物体的类别,以及人和物体的边界框。
6.根据权利要求1所述的人物交互检测方法,其特征在于,所述基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,包括:
将所述图像级编码模块的输出和所述实例级解码模块的输出作为所述交互关系解码模块的输入,得到所述交互关系解码模块输出的目标四元组;
所述目标四元组用于表示人物交互关系预测结果。
8.根据权利要求1所述的人物交互检测方法,其特征在于,所述级联机器翻译网络的损失函数为第一损失函数、第二损失函数和第三损失函数之和,所述第一损失函数为物体的分类损失函数,所述第二损失函数为人和物体的交互关系损失函数,所述第三损失函数为人和物体的边界框的回归损失函数。
9.一种人物交互检测装置,其特征在于,包括:
获取模块,用于获取目标检测图像;
检测模块,用于基于级联机器翻译网络,对所述目标检测图像进行人物交互检测,得到所述目标检测图像中的人物交互关系预测结果,所述级联机器翻译网络包括图像级编码模块,实例级解码模块和交互关系解码模块。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述人物交互检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210436888.8A CN114550223B (zh) | 2022-04-25 | 2022-04-25 | 人物交互检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210436888.8A CN114550223B (zh) | 2022-04-25 | 2022-04-25 | 人物交互检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114550223A true CN114550223A (zh) | 2022-05-27 |
CN114550223B CN114550223B (zh) | 2022-07-12 |
Family
ID=81667508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210436888.8A Active CN114550223B (zh) | 2022-04-25 | 2022-04-25 | 人物交互检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550223B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973333A (zh) * | 2022-07-13 | 2022-08-30 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN115063640A (zh) * | 2022-08-15 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 交互检测方法、交互检测模型的预训练方法及设备 |
CN115097941A (zh) * | 2022-07-13 | 2022-09-23 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN117953590A (zh) * | 2024-03-27 | 2024-04-30 | 武汉工程大学 | 一种三元交互动作检测方法、系统、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170155905A1 (en) * | 2015-11-30 | 2017-06-01 | Intel Corporation | Efficient intra video/image coding using wavelets and variable size transform coding |
CA2948499A1 (en) * | 2016-11-16 | 2018-05-16 | The Governing Council Of The University Of Toronto | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
CN109101897A (zh) * | 2018-07-20 | 2018-12-28 | 中国科学院自动化研究所 | 水下机器人的目标检测方法、系统及相关设备 |
US20190079591A1 (en) * | 2017-09-14 | 2019-03-14 | Grabango Co. | System and method for human gesture processing from video input |
US20200103980A1 (en) * | 2012-12-13 | 2020-04-02 | Eyesight Mobile Technologies Ltd. | Systems and methods for triggering actions based on touch-free gesture detection |
JP2020135609A (ja) * | 2019-02-22 | 2020-08-31 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
CN111914622A (zh) * | 2020-06-16 | 2020-11-10 | 北京工业大学 | 一种基于深度学习的人物交互检测方法 |
CN112990211A (zh) * | 2021-01-29 | 2021-06-18 | 华为技术有限公司 | 一种神经网络的训练方法、图像处理方法以及装置 |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
US20210326574A1 (en) * | 2019-01-02 | 2021-10-21 | Tencent Technology (Shenzhen) Company Limited | Face detection method, apparatus, and device, and storage medium |
CN113902783A (zh) * | 2021-11-19 | 2022-01-07 | 东北大学 | 一种融合三模态图像的显著性目标检测系统及方法 |
CN114155610A (zh) * | 2021-12-09 | 2022-03-08 | 中国矿业大学 | 基于上半身姿态估计的面板装配关键动作识别方法 |
CN114241606A (zh) * | 2021-12-26 | 2022-03-25 | 辽宁石油化工大学 | 一种基于自适应集学习预测的人物交互检测方法 |
-
2022
- 2022-04-25 CN CN202210436888.8A patent/CN114550223B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200103980A1 (en) * | 2012-12-13 | 2020-04-02 | Eyesight Mobile Technologies Ltd. | Systems and methods for triggering actions based on touch-free gesture detection |
US20170155905A1 (en) * | 2015-11-30 | 2017-06-01 | Intel Corporation | Efficient intra video/image coding using wavelets and variable size transform coding |
CA2948499A1 (en) * | 2016-11-16 | 2018-05-16 | The Governing Council Of The University Of Toronto | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
US20190079591A1 (en) * | 2017-09-14 | 2019-03-14 | Grabango Co. | System and method for human gesture processing from video input |
CN109101897A (zh) * | 2018-07-20 | 2018-12-28 | 中国科学院自动化研究所 | 水下机器人的目标检测方法、系统及相关设备 |
US20210326574A1 (en) * | 2019-01-02 | 2021-10-21 | Tencent Technology (Shenzhen) Company Limited | Face detection method, apparatus, and device, and storage medium |
JP2020135609A (ja) * | 2019-02-22 | 2020-08-31 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
CN111914622A (zh) * | 2020-06-16 | 2020-11-10 | 北京工业大学 | 一种基于深度学习的人物交互检测方法 |
CN112990211A (zh) * | 2021-01-29 | 2021-06-18 | 华为技术有限公司 | 一种神经网络的训练方法、图像处理方法以及装置 |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
CN113902783A (zh) * | 2021-11-19 | 2022-01-07 | 东北大学 | 一种融合三模态图像的显著性目标检测系统及方法 |
CN114155610A (zh) * | 2021-12-09 | 2022-03-08 | 中国矿业大学 | 基于上半身姿态估计的面板装配关键动作识别方法 |
CN114241606A (zh) * | 2021-12-26 | 2022-03-25 | 辽宁石油化工大学 | 一种基于自适应集学习预测的人物交互检测方法 |
Non-Patent Citations (4)
Title |
---|
LUIZA MICI等: "A self-organizing neural network architecture for learning human-object interactions", 《NEUROCOMPUTING》 * |
YUXIN CHEN等: "Graph convolutional network with structure pooling and joint-wise channel attention for action recognition", 《PATTERN RECOGNITION》 * |
安平 等: "任务感知双原型网络的人物交互少样本识别", 《计算机科学与探索》 * |
杨录: "面向人体视觉理解的混合监督学习研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973333A (zh) * | 2022-07-13 | 2022-08-30 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN115097941A (zh) * | 2022-07-13 | 2022-09-23 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN115097941B (zh) * | 2022-07-13 | 2023-10-10 | 北京百度网讯科技有限公司 | 人物交互检测方法、装置、设备以及存储介质 |
CN115063640A (zh) * | 2022-08-15 | 2022-09-16 | 阿里巴巴(中国)有限公司 | 交互检测方法、交互检测模型的预训练方法及设备 |
CN117953590A (zh) * | 2024-03-27 | 2024-04-30 | 武汉工程大学 | 一种三元交互动作检测方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114550223B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114550223B (zh) | 人物交互检测方法、装置及电子设备 | |
Huang et al. | Look before you leap: Learning landmark features for one-stage visual grounding | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN113095346A (zh) | 数据标注的方法以及数据标注的装置 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
KR102042168B1 (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN113064968B (zh) | 一种基于张量融合网络的社交媒体情感分析方法及系统 | |
CN111860434A (zh) | 机器人视觉隐私行为识别与保护方法 | |
CN113761250A (zh) | 模型训练方法、商户分类方法及装置 | |
CN114331122A (zh) | 重点人员风险等级评估方法及相关设备 | |
WO2023236469A1 (zh) | 一种视频行为识别方法、装置、电子设备及存储介质 | |
CN117690098B (zh) | 一种基于动态图卷积的开放驾驶场景下多标签识别方法 | |
Weng et al. | A survey on improved GAN based image inpainting | |
CN117315070A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN112131429A (zh) | 一种基于深度预测编码网络的视频分类方法及系统 | |
CN117313740A (zh) | 语言模型训练方法 | |
CN114708472B (zh) | 面向ai实训的多模态数据集标注方法、装置及电子设备 | |
Panesar et al. | Improving visual question answering by leveraging depth and adapting explainability | |
CN114399816B (zh) | 社区火灾风险感知方法及装置 | |
Raihan et al. | CNN modeling for recognizing local fish | |
CN115018215A (zh) | 基于多模态认知图谱的人口居住预测方法、系统和介质 | |
CN114821188A (zh) | 图像处理方法、场景图生成模型的训练方法以及电子设备 | |
CN111144492B (zh) | 面向移动端虚拟现实与增强现实的场景图谱生成方法 | |
CN113869518A (zh) | 视觉常识推理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |