CN116311518A - 一种基于人体交互意图信息的层级人物交互检测方法 - Google Patents
一种基于人体交互意图信息的层级人物交互检测方法 Download PDFInfo
- Publication number
- CN116311518A CN116311518A CN202310266335.7A CN202310266335A CN116311518A CN 116311518 A CN116311518 A CN 116311518A CN 202310266335 A CN202310266335 A CN 202310266335A CN 116311518 A CN116311518 A CN 116311518A
- Authority
- CN
- China
- Prior art keywords
- interaction
- human
- detection
- human body
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 193
- 238000001514 detection method Methods 0.000 title claims abstract description 122
- 230000002452 interceptive effect Effects 0.000 claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 25
- 239000010410 layer Substances 0.000 claims description 61
- 239000013598 vector Substances 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 235000019580 granularity Nutrition 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000002344 surface layer Substances 0.000 claims description 3
- 101100259947 Homo sapiens TBATA gene Proteins 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000000047 product Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 239000007787 solid Substances 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract description 6
- 238000013461 design Methods 0.000 abstract description 6
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 235000015220 hamburgers Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人体交互意图信息的层级人物交互检测方法,分为1)目标检测:检测输入图像中的所有对象实例。2)人物交互检测:对图像中所有的<人‑物体>对实例进行人物交互检测。通过视觉特征的设计抽象出人体注视信息来建模交互参与者关注的上下文区域;提出面向人体交互意图的人体姿态图构建,优化身体运动对交互检测的差异信息;使用人和物体之间的距离‑特征作为引导视觉距离特征的优化,提升人物交互检测算法的性能。
Description
技术领域
本发明属于计算机视觉和人物交互检测领域,研究了一种新的人物交互检测方法。
背景技术
目标检测与识别是图像分析和图像理解的基础与前提,其目的是定位图像或视频序列中物体的位置、并识别出相应的物体类别。它是计算机视觉中重要的基础问题之一。然而,为了更好地理解视觉世界,计算机不仅应该准确地检测场景中的个体目标实例,还应该进一步理解场景中的人与物体之间的交互方式。人物交互检测(HOI Detection)就是进一步地在更高层次上对场景中人类的行为进行理解,它要求模型准确地定位出场景中人和物体的位置,同时正确预测出他们之间存在的各种交互行为。通过研究人物交互检测来更好地了解理解人与世界的互动方式,使机器具备像人类一样观察和理解周围环境并做出快速决断的机制,可以促进智能安防、智能服务型等机器人技术的发展。由此看来,人物交互检测技术不仅具有重要的理论研究意义和实用价值,还蕴含着广阔的发展潜力。
早期人物交互检测方法主要依靠视觉特征来捕捉人与物体之间的上下文关系,或是使用结构化的身体和物体的空间位置关系来训练人物交互模型。比如,Chao等人提出了网络HO-RCNN,首次将对象空间关系和人物的实例特征用于人物交互检测。Liao等人提出将人物交互检测作为关键点检测和组匹配问题,使用纯视觉特征来预测交互类别。但这些仅依靠粗糙的视觉信息和空间关系的检测方法精度有待提升。为进一步提高检测精度,以实例为中心的注意力网络iCAN在人流和对象流中添加了注意力机制,以自动提取重要的上下文特征。Shen等人提出了HOI分解模型,构建了由一组视觉特征提取层、动词分离和目标检测网络组成的高精度人物交互检测网络。但是,人物交互检测是检测以人为主体对物体发出的动作行为,上述方法仅提取粗糙的人和物体区域视觉特征和空间特征,缺乏对人体信息的提取和使用,从而导致这些算法的精度不高。为此,一些研究学者提出将人体姿态信息用于人物交互检测任务中。Li等人使用姿势估计网络和人类姿态分支来构建交互检测网络,并对网络的交互性进行了区分,使模型能够学习交互性知识。Liang等人规范了人体边界框的中心,构建了绝对空间姿态特征,并提出了基于人体姿态的模块化网络PMN。Kim等人发现交互动作之间存在自然相关性或相反性,提出了一种用于身体部位注意力的新型成对HOI识别框架。但是由于从不同方向角度、以不同焦距拍摄的同一人物交互行为在姿态上的差异会很大,并且随着场景中人物实例的增多,人体重叠遮挡现象出现的概率增加。由于缺乏检测网络各层之间粒度的互补性,仅在宏观角度上简单地融入粗粒度人体姿态信息训练的模型精度提升并不大并且模型鲁棒性不高,整体性能上仍面临着精度较低的问题。
为了解决上述这些问题,获取更高的人物交互检测精度,本发明提出了一种由人体交互意图信息增强的层级人物交互检测算法,即HII-Net(Hierarchical HOI DetectionFramework Augmented by Human Interactive Intention),实现基于多粒度互补的人体交互意图信息的人物交互检测。与人物交互检测算法PMFNet相比,HII-Net引入宏观的人体注视信息,微观的人体关节信息以及介于两者之间的中观的人体部位信息,它们共同为HOI检测提供了布局和外观之外的视觉交互线索,使模型预测更加准确。与Xu et.al等人提出的算法相比,HII-Net创新性地构建了层次化HOI检测网络,粒度由低到高分别为空间布局层、交互意图层以及空间布局层,采用Zoom In的方式逐层提取互补性强的交互信息对特征进行优化提升预测精度。
在现有的人物交互检测数据集HICO-DET和Microsoft COCO数据集的子集V-COCO(Verbs in COCO)上进行实验,验证了本方法的有效性。具体地,HII-Net在HICO-DET数据集上获得了23.24mAP的精度,并且在罕见类别上获得了19.45mAP的精度,与最新的人物交互检测算法PMFNet相比,其相对增益分别为7.56%和9.62%;在V-COCO数据集上获得了52.54mAP的精度。
发明内容
为了进一步提升基于传统多流架构的人物交互检测算法的性能,本发明提出了一种新的基于人体交互意图信息的层级人物交互检测算法,即HII-Net。HII-Net提出通过视觉特征的设计抽象出人体注视信息来建模交互参与者关注的上下文区域;并提出面向人体交互意图的人体姿态图的构建,来优化身体运动对交互检测的差异信息;同时,提出使用人和物体之间的距离-特征作为引导视觉距离特征的优化提升人物交互检测算法的性能。
为此,需要解决的关键技术问题包括:基于人体交互意图的人体注视信息的表示,以使不同视觉特征可以更好地表示交互参与者关注的上下文区域;面向人体关键点的人体姿态图的构建及其运算模式,以增强模型对人体信息的学习能力;基于人体部位信息的交互距离-特征网络的构建,以通过人体部位与物体间交互关系抽象出人物之间距离位置信息。
本发明所提出的基于传统多流架构的人物交互检测算法可以分解为两阶段。1)目标检测:检测输入图像中的所有对象实例。2)人物交互检测:对图像中所有的<人-物体>对实例进行人物交互检测。HII-Net网络结构设计如图1所示。
1)目标检测:该部分主要负责对RGB图像中的对象实例进行目标检测,以获取对象的目标框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测。在实验中,我们使用在COCO数据集上预训练的Faster R-CNN作为目标检测器。
2)人物交互检测:人物交互的场景复杂,人参与不同的交互时,都会有不同的动作姿态,对于实例“人吃苹果”和“人打电话”,两者的动作非常接近,只不过前者的物体更靠近人的嘴巴,后者的物体更靠近人的耳朵,所以简单地利用视觉和空间特征不能得到高性能预测。人物交互检测的本质是检测人体交互意图(即动作),我们设计利用多粒度人体信息构建交互意图层以对原有的空间语义信息进行细节的补充。同时,考虑到人物交互检测数据实例尺寸大小的多样性,如果构建粒度互补的层级化交互检测网络,在整体三层框架上,可以实现宏观、中观和微观三种不同粒度的交互信息的互补,不仅可以提高整体性能,还可以兼顾复杂场景下的人物交互检测性能。基于这些动机,我们提出了基于RGB图像的人物交互检测算法HII-Net。
HII-Net的创新点主要包括以下三点。其一,考虑到人体的注视区域蕴含着HOI检测的关键区域信息,即人体注视信息会对人类交互意图提供重要线索,我们建模了交互参与者注视的区域信息,利用人体的注视线索来在复杂场景中引导人体关注的上下文区域。其二,考虑到对于大多数交互行为来说,使用关于人的姿态线索可以对结果产生积极的影响,我们提出面向人物交互检测的人体姿态图的构建,并将与空间布局支流融合,共同构成空间&姿态分支流,来优化身体运动对交互检测的差异信息。其三,由于不同交互类行为(例如:吃、骑、打开等)仅与人体的某些部位相关联,我们在网络中加入更细粒度的人体信息,构建人体部位的距离-特征图,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,使HII-Net在人物交互检测性能上获得进一步提升。
人物交互检测算法HII-Net采用层级化网络结构设计,由空间布局层、交互意图层和客观外表层构成。为清晰可见,我们按照层级化网络架构逐层介绍网络结构以及算法整体流程,然后以小节形式介绍各层涉及的人体注视特征和人体姿态特征等交互意图线索的构建及其运算模式等组件。
i.层级化网络结构
层级化网络结构由空间布局层、交互意图层和客观外表层构成。为了得到各分支的输入特征,我们使用残差网络ResNet50提取所需要的视觉特征。原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图。我们采用两阶段HOI检测过程,给定输入图像xi,该框架首先通过空间布局支流、人体注视支流和外观流获得交互判断阶段的结果Sj,判断结果高于阈值的人-对象对将进入交互分类阶段。进入第二阶段的候选人类对象对继续通过空间布局流、外观流、姿态流和身体部位流,以获得最终的HOI分类结果Sc。其中,通过从其他社交活动数据集的转移学习获得人体关节位置和注视信息。接下来,我们将逐一介绍网络HII-Net的每一层,HII-Net整体流程图如图2所示。
空间布局层:空间布局层的目的是在宏观交互层面上获得交互式空间布局信息。由于在HOI检测任务中需要实例之间的位置信息,因此可以借助空间位置关系来定位场景中实例的位置。由于我们关注人和对象的空间位置,因此该层的输入忽略像素值,仅使用边界框的位置信息。对于空间布局层的空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp。空间特征图Msp的编码规则为:实例的边界框内的像素值设置为1,在两个通道中将实力边界框外的其他值设置为0。所以对于给定的一对人类对象边界框,其空间交互映射被定义为具有两个通道的二进制图像:第一个通道对应于人类的二进制模式,第二个通道对应对象。这种表示使神经网络能够学习二维滤波器,以响应二维人类空间交互模式。此外,二进制图需要缩放到固定大小m×m。。Msp通过浅层卷积神经网络进行特征提取,利用两个最大池化卷积层(Max Pooling)和两个全连接层来提取空间布局流的特征fsp,参与最终的交互类别分类,用公式描述如下:
fsp=Wsp1fcnn(Msp) (2)
Ssp=Sigmoid(Wsp2fsp) (3)
客观外表层:客观外表层包含一个人流分支和一个物流分支,为网络提供微观交互级别的像素级外观预测信息。我们采用包含全局平均池化的残差模块从全局外观特征中提取人和物体的视觉特征fh和fo,然后我们将提取的Fh和Fo缩放到固定大小p×p。并通过两个全连接层进行特征增强后计算人流特征和物流特征在交互类别上的概率得分Sh和Sh,用公式描述如下:
Sh=Sigmoid(Whfh) (4)
So=sigmoid(Wofo) (5)
交互意图层:尽管空间布局层和客观外表层分别从宏观和微观角度提供了交互预测信息,但仍然缺乏中观层面的交互意图信息。交互意图层可以挖掘中观视角的信息,减少从宏观和微观角度来看可能会出现某些不可预测的情况,从而可以挖掘更深层的交互意图信息。受上述原因的启发,我们构建了一个人类交互意图驱动的交互意图层,提供了一种新的计算视角来利用视觉上可观察到的三种形式的人类意图,它由以下三个支流组成:
(1)人体注视支流:人类的注视信息可以被认为是一种宏观层面的交互意图,人类注视的区域通常包含HOI检测的关键区域信息,明确传达了交互意图。当一个人想要拿起一个物体时,他通常会在伸手去拿它的同时注视着物体的方向。通过眼睛感知潜在目标,可以促进相互作用的推断。
我们使用预训练的双流模型获得人类注视区域。预训练的注视预测模型将输入图像I和由人类姿势估计网络计算的人眼中心的位置作为输入,输出固定区域的概率密度图G。语序网络由显著性路径和注视路径组成。凝视路径只能访问人的头部及其位置的特写图像,并获得大小为D×D的热图M(xh,xp)。显著性路径将完整图像作为输入,并获得另一个热图H(xi),它可以学习对象的重要性。将这两个结果与元素乘积相结合,得到以下等式:
其中,xi是输入图像,xh是裁剪的人体特征的特写图像,xp是人体头部的量化空间位置。
对于图像中的每个人类实例,选择k个候选对象区域b=(b1,...,bk)。对于每个候选区域b∈b、我们计算其注视权重gb。其中gb是通过将b中密度图G的值相加,然后将b的面积归一化为:
然后,我们从k个候选区域中选择具有最大gb的区域R作为人类注视的区域。对于所选区域R,我们定义其对应的特征向量fg={fa,fl,fc}。其中,fa是对象b的外观向量,fl是包含lx,ly,lw,lh的四维向量,其中lx,ly指定边界框的坐标距离,lw,lh指定对数空间中的高度/宽度,fc是目标分类器得分向量。
(2)人体关键点支流:作为一种微观层面的交互意图,人类的关节属性具有很强的交互表达能力。事实上,对于大多数交互,准确区分它们的能力还需要特定的姿势信息。由于二元空间模式以及人和对象实例的外观特征的弱约束力,我们利用人体关键点的位置来获取姿态位置信息,增强位置约束,以降低身体运动对交互检测的差异。
首先,我们利用人类姿态估计来估计人体的17个人类关键点。然后,我们将17个关键点与不同灰度值(0.15~0.95)的线连接起来,并将其他区域设置为0以构建姿势图。由于具有不同灰度值的线段表示不同的身体区域,因此该建模方法可以隐式编码姿势特征。我们使用两个最大池卷积层和两个FC层将姿态图与人和对象的布局图连接起来,以提取空间姿态流的特征fsp,具体过程如图2所示。
为了使四个影响因素对交互判断过程产生影响,我们将fg,fsp,fh和fo连接起来,得到联合整体向量fhol。然后我们将交互判断阶段的预测得分Sj设置为:
在该阶段输出的二维概率向量中,第一维度是交互作用存在的概率,第二维度是交互不存在的概率。我们使用阈值δ来定义交互作用是否存在。如果概率值高于δ,则存在相互作用,否则不存在相互作用。如前所述,对于给定的人类对象对(bh,bo),我们首先要判断交互是否存在。只有被判断为具有交互作用的人-物体对才能进入以下分类阶段。
(3)身体部位支流:在实际场景中,一些交互行为仅与人体相对细微的局部部位和关节有关。例如,“握”和“切”的动作仅仅与我们的手部有关。例如,对于交互<吃,汉堡>,手和汉堡之间的距离以及手的微观局部特征至关重要。作为中观层面的意图线索,通过联合获得的人体部位与物体之间位置信息可以反映中观层面的交互意图线索。
首先,我们分别构建身体各部位与物体之间的2通道距离图如图3所示。具体的,我们将对象的全局特征中的中心点的位置坐标定义为<hx,hy>,将人类定义为<ox,oy>,其中x和y分别为x和y方向上的坐标。全局外观特征的长度和宽度设置为H和W。然后,我们定义两个位置向量a和b,向量a从<ox,oy>定义为<hx,hy>;向量b被定义为人类地图中的每个像素<hx,hy>。
接下来,构建一个维度为H×W的2通道距离图。首先,我们使用余弦距离来反映身体和物体之间方向的相对差异,这可以反映它们之间的位置关系。因此,第一通道中人体框的像素值是向量a和向量b之间的余弦距离。然而,余弦距离不能区分同一方向上向量之间的距离,我们引入欧氏距离来捕捉两个向量之间的绝对距离差。因此,第二个通道的人体框的像素值是向量a和向量b之间的欧氏距离。最后,我们将两个通道的人体框外部的像素值设置为0。这样,我们就可以使用2通道距离图来建模人体部分和对象之间的位置距离关系。
获得距离图后,我们将构建的距离图与通道维度中的全局外观特征图接起来,得到我们的距离-特征图如图3所示。
我们使用现有的姿势估计方法来获得关键点(人体关节)的位置,然后根据关键点确定相应的人体部位。具体来说,我们以各个人类关键点为中心的矩形,构造其大小为原始输入图像面积的1/10的17个矩形,获取的矩形区域就用作身体部位所在的区域。因此,获得了表示人体各部分的边界框之后,基于各个身体部位的边界框,我们使用ROI池化从距离-特征图中提取相应的区域,并缩放到q×q。为了结合每个身体部位对交互检测的影响,我们将获取到的所有人体部位的距离-特征图连接起来,并使用FC层将其转换为身体部位支流的特征向量fpart,具体过程如图3所示。
v.模型优化与交互得分融合
损失函数:由于我们方法的总体结构包括两个阶段,因此在计算损失时应单独考虑,考虑到分类损失通常使用交叉熵损失函数CE()计算:
因此,交互判断阶段的损失可根据以下公式计算:
其中,YJ和SJ是真实标签和交互判断模块的最终预测分数。为了考虑每个流的影响并使损失函数更好地收敛,我们添加了每个流的损失和交互检测阶段的总体损失,这使得可以更有效地更新每个流的参数。交互分类模块的总体损失函数如下:
其中,α和β是所有流的分支损失系数和总损失系数,YC是相互作用分类阶段的标签。当对网络进行联合训练时,使用两个阶段的总损失函数L来更新参数:
交互得分融合:由于身体部分流的特征向量fpart不仅包含人体的精细特征,还反映了人与物体之间的位置关系,因此我们将其视为一个独立的流。我们使用后期融合策略来融合四个流。首先,我们使用FC层将每个流的特征向量映射到交互预测分数Sh、So、Sp和Spart,然后我们融合每个流的预测分数。考虑到空间信息和人体信息是互补的,我们首先融合Sh、So和Spart,然后我们用它乘以Sp。因此,最终检测结果的最终交互预测得分向量Sc被设置为:
3)实验细节:在我们的实验中,为了检测对象和提取特征,我们使用Faster R-CNN和VGG16作为特征主干,在MS-COCO数据集预训练上执行。对象检测框架预测人和对象的边界框(bh,bo)和置信度(Sh,So),并保持Sh>0.6人边界框,因此>0.6具有角色外观特征的对象边界框。当获取人的外观特征时,我们将提取的视觉特征缩放到7×7的固定大小(p=7);当获取人体部位的特征时,我们将提取的特征缩放到5×5(q=5)。人与物体二元空间模式图和姿态图被缩放为64×64。
交互判断模块和交互分类模块的人和物体流由具有全局平均池的残差块和输出维度n=1024的四个FC层组成。空间布局支流由具有最大池的两个卷积层和两个n=1024FC层组成。在交互判断模块中,通过两个FC层连接并映射每个流的特征向量以预测得分。该算法使用Tensorflow实现,并部署在具有单个Nvidia 3090 GPU的机器上。随机梯度下降法(SGD)用于训练网络。我们将初始学习率设置为1×10-4、重量衰减至1×10-4.在测试模型时,交互判断模块的概率阈值δ设置为0.3,交互分类模块的损失系数α、β分别设置为1.3和0.7。
附图说明
图1 HII-Net整体流程图。
图2 HII-Net网络结构设计图。
图3 距离-特征图的获取过程图。
具体实施方式
以下结合附图和实施例进行详细说明。
为了验证HII-Net的实际效果,我们使用公开的人物交互检测数据集HICO-DET和V-COCO进行人物交互检测性能评估。我们跟随前人的评估方法,使用平均精度AP评估每一类人物交互行为的精度,然后对所有类别的AP再取平均值得到最终的平均精度mAP。
对于图像中的一个人-物体对实例,如果人的检测框和物体的检测框与各自的真实矩形框的交并比IoU(Intersection-over-Union)大于0.5,并且当前人-物体对的人物交互类别标签预测正确,那么当前人-物体对为一个正样本。
为了说明本发明的积极效果,我们将提出的HII-Net与最新的人物交互检测方法:iCAN、iHOI、Inteactiveness和PMFNet等进行了比较,通过表1和表2可以看出,我们方法取得了更高的精度。
表1不同方法在HICO-DET测试集上的性能
表2不同方法在V-COCO测试集上的性能
Paper | mAP(Sc.1) | mAP(Sc.2) |
InteractNet | 40.0 | 47.98 |
GPNN | 44.0 | - |
iCAN | 45.3 | 52.4 |
iHOI | 48.3 | |
Xuet.al | 45.9 | - |
Interactiveness | 47.8 | 54.2 |
PMFNet | 52.0 | - |
HII-Net(Ours) | 52.54 | 59.71 |
同时,为了验证本模型各部分的效果,我们在V-COCO数据集上对模型进行了对比试验,对比实验结果如表3所示。其中,我们将HII-Net的基线模型HII-Net[B]定义为由简单的人流分支(Human Stream)、物体流分支(Object Stream)、空间布局流分支(SpatialLayout Stream)构成的模型,此时人物交互检测在V-COCO数据集上的性能为49.82mAP。为表述方便,我们将HII-Net的Baseline、Gaze Stream、Joint-pose Stream和Body partStream分别用B、G、H和P进行表示。
表3在V-COCO数据集上的对比试验性能
Model | mAP(Sc.1) |
HII-Net[B] | 49.76 |
HII-Net[BG] | 50.83 |
HII-Net[BGH] | 51.37 |
HII-Net[BGHP](Ours) | 52.54 |
HII-Net[BG]:为了验证人体注视信息对人类交互意图的影响,我们建模了交互参与者注视的区域,利用人类的注视信息来在复杂场景中引导人体关注的上下文区域。与HII-Net[B]模型相比,HII-Net[BG]模型性能从49.76mAP增加到50.83mAP,增益1.07mAP。
HII-Net[BGH]:为了验证人体关节信息对人物交互检测性能的影响,我们提出面向人物交互检测的人体姿态图的构建,并将与空间布局支流融合,共同构成空间&姿态分支流,来优化身体运动对交互检测的差异信息。与HII-Net[BG]模型相比,HII-Net[BGH]模型性能从50.83mAP增加到51.37mAP,增益0.54mAP。
HII-Net[BGHP]:为了使视觉特征关注不同人物交互行为更有辨别力的位置特征,忽视无关位置特征,我们提出使用人和物体之间的距离-特征作为引导视觉分支的特征优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征。与HII-Net[BGH]模型相比,HII-Net[BGHP]模型性能从51.37mAP增加到52.54mAP,增益1.17mAP。
综上分析,本发明所提出的人物交互检测算法HII-Net通过在视觉特征中融入真实生活场景的交互意图信息,提出通过视觉特征的设计抽象出人体注视信息来建模交互参与者关注的上下文区域;并提出面向人物交互检测的人体姿态图的构建,来优化身体运动对交互检测的差异信息;同时,提出使用人和物体之间的距离-特征作为引导视觉特征的优化,共同完成了对人物交互检测性能的进一步提升。HII-Net在HICO-DET数据集及其罕见(Rare)类别上的检测性能都取得了当前最好效果。
附表1不同HOI算法在V-COCO数据集上结果对比
HOI Class | #pos | iCAN | InteractNet | HII-Net(Ours) |
hold-obj | 3608 | 29.06 | 37.33 | 42.52 |
sit-instr | 1916 | 26.04 | 31.62 | 43.26 |
ride-instr | 556 | 61.90 | 66.28 | 72.38 |
look-obj | 3347 | 26.49 | 32.25 | 35.63 |
hit-instr | 349 | 74.11 | 74.40 | 76.87 |
hit-obj | 349 | 46.13 | 52.59 | 53.45 |
eat-obj | 521 | 37.73 | 39.14 | 42.68 |
eat-instr | 521 | 8.26 | 9.40 | 17.28 |
jump-instr | 635 | 51.45 | 53.83 | 52.64 |
lay-instr | 387 | 22.40 | 29.57 | 34.41 |
talk_on_phone | 285 | 52.81 | 53.59 | 53.89 |
carry-obj | 472 | 32.02 | 40.82 | 42.74 |
throw-obj | 244 | 40.62 | 43.27 | 44.67 |
catch-obj | 246 | 47.61 | 48.38 | 48.69 |
cut-instr | 269 | 37.18 | 41.63 | 43.32 |
cut-obj | 269 | 34.76 | 40.14 | 38.68 |
work_on_comp | 410 | 56.29 | 65.51 | 66.43 |
ski-instr | 424 | 41.69 | 49.95 | 47.24 |
surf-instr | 486 | 77.15 | 79.70 | 78.75 |
HIIteboard-instr | 417 | 79.35 | 83.39 | 87.95 |
drink-instr | 82 | 32.19 | 34.36 | 42.61 |
kick-obj | 180 | 66.89 | 66.26 | 64.86 |
read-obj | 111 | 30.74 | 29.94 | 39.82 |
snowboard-instr | 277 | 74.35 | 71.59 | 72.64 |
Average mAP | 682 | 45.30 | 48.96 | 52.54 |
Claims (7)
1.一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,该方法包括:1)目标检测:检测输入图像中的所有对象实例;2)人物交互检测:对图像中所有的<人-物体>对实例进行人物交互检测;
1)目标检测负责对RGB图像中的对象实例进行目标检测,以获取对象的目标框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
2)人物交互检测:利用多粒度人体信息构建交互意图层以对原有的空间语义信息进行细节补充;考虑到人物交互检测数据实例尺寸大小的多样性,如果构建粒度互补的层级化交互检测网络,在三层框架上,实现宏观、中观和微观三种不同粒度的交互信息的互补;
2.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,层级化网络结构由空间布局层、交互意图层和客观外表层构成;为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征;原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图;采用两阶段HOI检测过程,给定输入图像xi,首先通过空间布局支流、人体注视支流和外观流获得交互判断阶段的结果SJ,判断结果高于阈值的人-对象对将进入交互分类阶段;进入候选人类对象对继续通过空间布局流、外观流、姿态流和身体部位流,以获得最终的HOI分类结果Sc。
3.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,空间布局层的目的是在宏观交互层面上获得交互式空间布局信息;借助空间位置关系来定位场景中实例的位置;对于空间布局层的空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp;空间特征图Msp的编码规则为:实例的边界框内的像素值设置为1,在两个通道中将实力边界框外的其他值设置为0;对于给定的一对人类对象边界框,其空间交互映射被定义为具有两个通道的二进制图像:第一个通道对应于人类的二进制模式,第二个通道对应对象;使神经网络能够学习二维滤波器,以响应二维人类空间交互模式;利用两个最大池化卷积层和两个全连接层来提取空间布局流的特征fsp,参与最终的交互类别分类,描述如下:
4.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,客观外表层包含一个人流分支和一个物流分支,提供微观交互级别的像素级外观预测信息;采用包含全局平均池化的残差模块从全局外观特征中提取人和物体的视觉特征fh和fo,将提取的Fh和Fo缩放到固定大小p×p;并通过两个全连接层进行特征增强后计算人流特征和物流特征在交互类别上的概率得分Sh和So,用公式描述如下:
Sh=Sigmoid(Whfh) (4)
So=sigmoid(Wofo) (5)
其中,公式(4)和(5)分别表示两个全连接层运算,Wh和Wo表示全连接层参数矩阵,fh和fo分别表示人和物体的视觉特征。
5.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,交互意图层挖掘中观视角的信息,构建一个人类交互意图驱动的交互意图层,提供计算视角来利用视觉上到的三种形式的人类意图,由以下三个支流组成:
(1)人体注视支流:使用预训练的双流模型获得人类注视区域;预训练的注视预测模型将输入图像I和由人类姿势估计网络计算的人眼中心的位置作为输入,输出固定区域的注视概率密度图G;语序网络由显著性路径和注视路径组成;凝视路径只能访问人的头部及其位置的特写图像,并获得大小为D×D的热图M(xh,xp);显著性路径将完整图像xi作为输入,并获得另一个热图h(xi);将这两个结果与元素乘积相结合,得到以下等式:
其中,xi是输入图像,xh是裁剪的人体特征的特写图像,xp是人体头部的量化空间位置,G为输出的注视概率密度图;
对于图像中的每个人类实例,选择k个候选对象区域b=(b1,...,bk);对于每个候选区域b∈b、计算其注视权重gb;其中gb是通过将b中密度图G的值相加,然后将b的面积归一化为:
其中,areab代表候选区域b,Gx,y该区域获取的注视概率密度图;
然后,从k个候选区域中选择具有最大gb的区域R作为人类注视的区域;对于所选区域R,我们定义其对应的特征向量fg={fa,fl,fc};其中,fa是对象b的外观向量,fl是包含lx,ly,lw,lh的四维向量,其中lx,ly指定物体边界框的横纵坐标距离,lw,lh为指定对数空间中的高度和宽度,fc是目标分类器特征向量;
(2)人体姿态支流:利用人类姿态估计来估计人体的17个人类关键点,将17个关键点与不同灰度值的线连接起来,并将其他区域设置为0以构建姿势图;使用两个最大池卷积层和两个全连接层将姿态图与人和对象的布局图连接起来,以提取空间姿态流的特征fsp;
将人体注视特征fg,空间姿态特征fsp,人体外表特征fh和物体外表特征fo连接起来,得到联合向量fhol,然后将交互判断阶段的预测得分Sj设置为:
在该阶段输出的二维概率向量中,第一维度是交互作用存在的概率,第二维度是交互不存在的概率;使用阈值δ来定义交互作用是否存在;如果概率值高于δ,则存在相互作用,否则不存在相互作用;对于给定的人类对象对(bh,bo),首先要判断交互是否存在;只有被判断为具有交互作用的人-物体对才能进入以下分类阶段;
(3)身体关键部位支流:分别构建身体各部位与物体之间的2通道距离图,将对象的全局特征中的中心点的位置坐标定义为<hx,hy>,将人类定义为<ox,oy>,其中x和y分别为x和y方向上的坐标;全局外观特征的长度和宽度设置为H和W;然后,定义两个位置向量a和b,向量a从<ox,oy>定义为<hx,hy>;向量b被定义为人类地图中的每个像素<hx,hy>;
构建一个维度为H×W的2通道距离图;使用余弦距离来反映身体和物体之间方向的相对差异,第一通道中人体框的像素值是向量a和向量b之间的余弦距离;余弦距离不能区分同一方向上向量之间的距离,引入欧氏距离来捕捉两个向量之间的绝对距离差;第二个通道的人体框的像素值是向量a和向量b之间的欧氏距离;将两个通道的人体框外部的像素值设置为0;使用2通道距离图来建模人体部分和对象之间的位置距离关系;获得距离图后,将构建的距离图与通道维度中的全局外观特征图接起来,得到距离-特征图;
使用现有的姿势估计方法来获得关键点的位置,然后根据关键点确定相应的人体部位;以各个人类关键点为中心的矩形,构造其大小为原始输入图像面积的1/10的17个矩形,获取的矩形区域就用作身体部位所在的区域;获得表示人体各部分的区域的边界框之后,基于各个身体部位的边界框,使用感兴趣区域池化操作从距离-特征图中提取相应的区域,并缩放到q×q;为了结合每个身体部位对交互检测的影响,将获取到的所有人体部位的距离-特征图连接起来,并使用全连接层将其转换为人体关键部位支流的特征向量fpart。
其中,α和β是所有支流的分支损失系数和总损失系数,YC是相互作用分类阶段的标签,Sh为人体外表分支概率得分,So为物体外表分支概率得分,Sp为人体姿态和空间联合分支概率得分,Spart为人体关键部位分支概率得分,Sc为交互分类阶段总概率得分;进行联合训练时,使用两个阶段的总损失函数来更新参数:
7.根据权利要求6所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,交互得分融合:由于身体部分流的特征向量fpart不仅包含人体的精细特征,还反映了人与物体之间的位置关系,将其视为一个独立的流;使用后期融合策略来融合四个流;使用全连接层将每个流的特征向量映射到交互预测概率得分Sh、So、Sp和Spart,融合各个流的预测分数;首先融合人体外表分支概率得分Sh、物体外表分支概率得分So和人体关键部位分支概率得分Spart,然后我们用它乘以人体姿态和空间联合分支概率得分Sp;因此,最终检测结果的最终交互预测得分向量Sc被设置为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310266335.7A CN116311518A (zh) | 2023-03-20 | 2023-03-20 | 一种基于人体交互意图信息的层级人物交互检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310266335.7A CN116311518A (zh) | 2023-03-20 | 2023-03-20 | 一种基于人体交互意图信息的层级人物交互检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311518A true CN116311518A (zh) | 2023-06-23 |
Family
ID=86799142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310266335.7A Pending CN116311518A (zh) | 2023-03-20 | 2023-03-20 | 一种基于人体交互意图信息的层级人物交互检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311518A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959120A (zh) * | 2023-09-15 | 2023-10-27 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
-
2023
- 2023-03-20 CN CN202310266335.7A patent/CN116311518A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959120A (zh) * | 2023-09-15 | 2023-10-27 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
CN116959120B (zh) * | 2023-09-15 | 2023-12-01 | 中南民族大学 | 一种基于手部关节的人手姿态估计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508654B (zh) | 融合多任务和多尺度卷积神经网络的人脸分析方法及系统 | |
Ibrahim et al. | An automatic Arabic sign language recognition system (ArSLRS) | |
Baradel et al. | Human action recognition: Pose-based attention draws focus to hands | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
Liu et al. | SAANet: Siamese action-units attention network for improving dynamic facial expression recognition | |
Rastgoo et al. | Real-time isolated hand sign language recognition using deep networks and SVD | |
CN109948526B (zh) | 图像处理方法及装置、检测设备及存储介质 | |
CN107832672A (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN111062263B (zh) | 手部姿态估计的方法、设备、计算机设备和存储介质 | |
CN113822153B (zh) | 一种基于改进DeepSORT算法的无人机跟踪方法 | |
CN110648311B (zh) | 一种基于多任务学习的痤疮图像病灶分割与计数网络模型 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
JP2019153092A (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
Fei et al. | Flow-pose Net: An effective two-stream network for fall detection | |
CN111967399A (zh) | 一种基于改进的Faster RCNN行为识别方法 | |
Amrutha et al. | Human Body Pose Estimation and Applications | |
CN114973305B (zh) | 一种针对拥挤人群的精确人体解析方法 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
Li et al. | Egocentric action recognition by automatic relation modeling | |
Wang et al. | GaitParsing: Human semantic parsing for gait recognition | |
Zhao et al. | MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition | |
CN116958740A (zh) | 基于语义感知和自适应对比学习的零样本目标检测方法 | |
CN116543021A (zh) | 一种基于特征融合的Siamese网络视频单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |