CN111444889B

CN111444889B - 基于多级条件影响的卷积神经网络的细粒度动作检测方法

Info

Publication number: CN111444889B
Application number: CN202010362830.4A
Authority: CN
Inventors: 任桐炜; 武港山; 孙旭; 胡鑫雯
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-07-25
Anticipated expiration: 2040-04-30
Also published as: CN111444889A

Abstract

基于多级条件影响的卷积神经网络的细粒度动作检测方法，建立一个多级条件影响的卷积神经网络，将视觉场景中附加的显性知识与多级视觉特征融合，所述多级条件影响的卷积神经网络MLCNet以条件影响的多分支卷积神经网络结构为主干，生成多级视觉特征，同时将人体结构和物体语境信息的附加空间语义信息作为条件进行编码，通过仿射变换和注意机制动态影响CNN的特征提取，最后融合调制多模特征以区分各种交互动作；对多级条件影响的卷积神经网络进行模型训练，得到的模型输出细粒度动作检测结果。本发明在HICO‑DET和V‑COCO这两个最常用的基准上对所提出的方法进行评估，实验结果表明，本发明方法优于现有的方法。

Description

基于多级条件影响的卷积神经网络的细粒度动作检测方法

技术领域

本发明属于计算机技术领域中的图像信息检索，涉及图像中物体间的关系检测，用于定位和分类图像中人-物对及其之间的交互关系，为一种基于多级条件影响的卷积神经网络的细粒度动作检测方法。

背景技术

细粒度动作检测旨在定位和分类图像中的人-物对及其之间的关系，可用于许多多媒体应用，如图像字幕和检索。在某些情况下，动作识别和以人为中心的视觉关系检测(Human Centered Visual Relationship Detection，HCVRD)被认为与细粒度动作检测相似，但它们有着实质性的区别。动作识别集中在对图像或视频片段中的个体动作进行分类，而不考虑交互物体，不足以描述现实世界中复杂的视觉场景。与之相比，细粒度动作检测提供了更为具体和全面的描述了人与物体对象之间的活动。HCVRD专注于整体视觉场景，包括人与图像中所有物体之间的相互作用和几何关系。与HCVRD相比，细粒度动作检测关注的是全面的、细粒度的交互，这需要对人体结构有深入的了解。另一方面，细粒度动作检测忽略了涉及背景物体的非信息性关系，这些关系可以通过一些简单的视觉线索，如相对位置来区分。

细粒度动作检测是一项具有挑战性的任务，它的目标是从复杂的视觉场景中捕获出单个实体的高级语义信息。一方面，由于不同的人-物对实例和语境信息，同一类细粒度动作中的视觉模式可能非常不同。另一方面，因为许多交互涉及某些身体部位的微妙运动，不同类别之间的外观偏差可能很小。早期解决方案遵循目标检测框架的策略，将卷积神经网络(CNN)提取的人-物对的实体级视觉特征^[15]直观地结合起来进行交互分类。为了使CNN更关注图像的信息区域，一些研究方法应用视觉注意机制或补充从人体关节周围区域提取的CNN特征。

虽然现有技术中已有几项工作取得了一些进展，但仍存在一些缺陷。首先，单纯的CNN特征不足以弥合低层次像素视觉信息和高层次细粒度动作语义信息之间的鸿沟。最近提出的RPNN和PMFNet^[2]方法根据检测到的实体和人体部位的边界框裁剪多层次CNN特征，以获取详细的视觉线索，虽然利用了先验位置信息，但CNN特征仍然仅来源于图像。除此之外，现有的细粒度动作检测方法^[1,2,3]大多使用预先训练在目标检测数据集上的冷冻CNN主干来提取视觉特征进行细粒度动作推理，交互短语(人-物对的结合区域)和单个物体的外观分布有明显的偏差，需要独立学习。

参考文献：

[1]Tanmay Gupta,Alexander Schwing,and Derek Hoiem.2019.No-FrillsHuman-Object Interaction Detection:Factorization,Layout Encodings,andTraining Techniques.In IEEE International Conference on Computer Vision.9677–9685.

[2]Bo Wan,Desen Zhou,Yongfei Liu,Rongjie Li,and Xuming He.2019.Pose-aware Multi-level Feature Network for Human Object Interaction Detection.InIEEE International Conference on Computer Vision.9469–9478.

[3]Penghao Zhou and Mingmin Chi.2019.Relation Parsing Neural Networkfor Human-Object Interaction Detection.In IEEE International Conference onComputer Vision.843–851.

[4]Tsung-Yi Lin,Piotr Dollár,Ross Girshick,Kaiming He,BharathHariharan,and Serge Belongie.2017.Feature Pyramid Networks for ObjectDetection.In IEEE Conference on Computer Vision and Pattern Recognition.2117–2125.

[5]Hao-Shu Fang,Shuqin Xie,Yu-Wing Tai,and Cewu Lu.2017.RMPE:RegionalMulti-Person Pose Estimation.In IEEE International Conference on ComputerVision.2334–2343.

[6]Hao-Shu Fang,Guansong Lu,Xiaolin Fang,Jianwen Xie,Yu-Wing Tai,andCewu Lu.2018.Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer.arXiv preprint arXiv:1805.04310(2018).

[7]Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.2016.DeepResidual Learning for Image Recognition.In IEEE Conference on Computer Visionand Pattern Recognition.770–778.

[8]Yu-WeiChao,YunfanLiu,XieyangLiu,HuayiZeng,andJiaDeng.2018.Learningto Detect Human-Object Interactions.In IEEE Winter Conference on Applicationsof Computer Vision.381–389.

[9]Chen Gao,Yuliang Zou,and Jia-Bin Huang.2018.iCAN:Instance-CentricAttention Network for Human-Object Interaction Detection.arXiv preprintarXiv:1808.10437(2018).

[10]Yong-Lu Li,Siyuan Zhou,Xijie Huang,Liang Xu,Ze Ma,Hao-Shu Fang,Yanfeng Wang,and Cewu Lu.2019.Transferable Interactiveness Knowledge forHuman-Object Interaction Detection.In IEEE Conference on Computer Vision andPattern Recognition.3585–3594.

[11]Hao Zhou,Chongyang Zhang,and Chuanping Hu.2019.VisualRelationship Detection with Relative Location Mining.In ACM InternationalConference on Multimedia.30–38.

[12]Xu Sun,Yuan Zi,Tongwei Ren,Jinhui Tang,and GangshanWu.2019.Hierarchical Visual Relationship Detection.In ACM InternationalConference on Multimedia.94–102.

[13]Keizo Kato,Yin Li,and Abhinav Gupta.2018.Compositional Learningfor Human Object Interaction.In European Conference on Computer Vision.234–251.

[14]Liyue Shen,Serena Yeung,Judy Hoffman,Greg Mori,and Li Fei-Fei.2018.Scaling Human-Object Interaction Recognition Through Zero-ShotLearning.In IEEE Winter Conference on Applications of Computer Vision.1568–1576.

[15]Alex Krizhevsky,Ilya Sutskever,and Geoffrey EHinton.2012.ImageNet Classification with Deep Convolutional NeuralNetworks.In Advances in Neural Information Processing Systems.1097–1105.

发明内容

本发明要解决的问题是：从复杂的视觉场景中捕获出单个实体的高级语义信息，定位和分类图像中的人-物对及其之间的关系。

本发明的技术方案为：一种基于多级条件影响的卷积神经网络的细粒度动作检测方法，建立一个多级条件影响的卷积神经网络MLCNet，将从视觉场景中获得的外部知识与多级视觉特征融合，所述多级条件影响的卷积神经网络MLCNet以条件影响的多分支卷积神经网络结构为主干，条件影响的多分支卷积神经网络包括条件影响的卷积神经网络和多分支结构，条件影响的卷积神经网络用于生成多级视觉特征，同时将人体结构和物体上下文所提供的空间语义信息作为条件进行编码，通过仿射变换和注意机制动态影响卷积神经网络的特征提取，所得视觉特征由多分支结构分别编码后输出，最后，融合多模态特征以区分各种交互动作，所述多模态特征包括多分支结构产生的多级视觉特征、人-物相对位置特征和物体上下文特征；对多级条件影响的卷积神经网络进行训练，得到的模型输出细粒度动作检测结果。

本发明包括以下步骤：

1)对输入图像进行附加知识提取，包括目标检测、姿势估计和人体解析；

2)构建条件影响的多分支卷积神经网络结构，由条件影响的卷积神经网络提取多级视觉特征，并通过相应的分支对全局语境信息、交互动作短语、物体实体和身体部位的视觉特征进行编码；

3)通过多级条件机制对条件影响的卷积神经网络的特征提取进行调节，以人体结构和物体语境信息的附加空间语义信息作为条件进行编码，将全局图像、交互动作短语及身体部位的视觉特征与人体结构和物体语境信息的显式空间语义信息进行动态交互，所述调节包括全局条件调节、局部条件调节和注意力机制调节；

4)多模特征融合，将多级视觉特征、人-物相对位置特征和物体语境信息特征输入到独立的全连接分类器中，对所有视觉特征应用全局平均池来生成特征向量作为分类器的输入，对分类器的输出进行归一化，以估计所有与对象无关的动作的概率；然后，采用iCAN的融合策略，融合多模特征，输出的结果为模型输出结果；

5)模型训练，将一个小批量样本B＝{(b^h,b^o,Y)}输入到模型中，其中Y表示与物体无关的动作标签Y＝{(y₁,y₂,…,y_|Ω|)}，Ω是动作类别集，y∈{0,1}，b^h和b^o是检测到的人和物体实例，将细粒度动作识别问题描述为一个多标签分类问题，在训练阶段，使用二元交叉熵损失函数BCE(,)计算全部各个特征分支的独立损失值

δ表示各动作的置信值，下标p表示是第p个批量样本，q代表的是动作类别集中第几个动作类别；

对整个网络进行端到端的优化，学习不同层次的特征偏差和外观变化，完成模型训练；

6)将得到的模型用于细粒度动作检测。

基于对现有技术缺陷的研究分析，本发明提出了一种新的细粒度动作检测方法，即多级条件影响的卷积神经网络(MLCNet)，其目的是将图像中附加的显性知识与多级视觉特征融合。具体地说，本发明构建了一个条件影响的多分支卷积神经网络结构作为MLCNet主干来生成多级视觉表示。为了提取全局场景、交互短语、实体和人体部位等不同视觉内容的特征，对不同的分支进行了独立优化，这样可以有效地学习不同视觉内容的外观偏向。然而，单纯的视觉特征不足以理解细粒度动作的复杂语义。本发明进一步利用人体结构和物体语境信息的附加空间语义信息作为指导，通过动态影响特征提取过程来增强CNN的推理能力。为了获得人体结构的综合信息，本发明分别采用人体解析模型和姿态估计模型对人体各部位和关节进行定位。利用条件影响的卷积神经网络对估计出的身体部分割图和人-物空间构形图进行编码，并将其输入特征变换层以生成模型参数，通过仿射变换实现不同层次的视觉特征变换。

本发明利用的另一个信息线索是物体语境信息。直观地说，某些物体类别与某些身体部位有关。例如，“自行车”常与“腿”和“臀”联系在一起，“书”常与“头”和“臂”联系在一起。此外，具有相似功能的不同物体可能涉及相同的交互作用，例如骑自行车和骑摩托车。为了探索这些相关性，本发明使用预先在大规模语言数据集上训练的词向量作为物体语境信息特征来表示物体类别，它隐式地编码了不同物体之间的功能相似性，有助于知识的传递。本发明应用这个语境信息特征来产生不同身体部位的注意权重。本发明还添加了一个附加的语义分支，该分支以物体类别向量作为输入，并补充视觉分支。

本发明根据两个最常用的基准，即HICO-DET和V-COCO评估了本发明的MLCNet。实验结果表明，本发明方法优于目前最新的方法，成分分析证实了多级CNN特征与显性知识相结合的有效性。与纯视觉模型相比，本发明方法具有更好的性能和可解释性。

本发明的有效利益是：提出了一种新的多级条件影响的卷积神经网络MLCNet，弥补了图像低层视觉特征和高层语义信息之间的差距，将附加的空间语义知识与纯视觉特征相融合，提高了CNN的推理能力和视觉感知能力。实验结果表明，本发明提出的多级条件影响的卷积神经网络MLCNet具有良好的广泛性和实用性，效果优于现有的方法。

附图说明

图1为本发明提的方法流程图。

图2为本发明MLCNet方法的详细网络流程图。

图3为本发明方法中的特征变换层组成与流程示意图。

图4为本发明实施例的人体-物体之间的配置结构图。

具体实施方式

本发明提出了一种基于多级条件影响的卷积神经网络的细粒度动作检测方法，将图像中附加的显性知识与多级视觉特征融合。所提出的方法在两个最常用的数据集基准上进行评估，即HICO-DET和V-COCO。实验结果表明，本发明的方法优于现有的方法。

在给定一幅图像I的情况下，使用一些现成的视觉感知模型来提取附加的空间语义知识它与I一起输入到本发明所提出的MLCNet/>中，以增强CNN的细粒度动作推理能力：

其中，Ψ是指检测到的细粒度动作实例{(b^h,b^o,σ)}，其中b^h和b^o分别是检测到的人和物的边界盒，σ属于细粒度动作类别集。细粒度动作类别σ包含一个动作ω_σ和一个物体α_σ，它们分别属于相应的动作类别集和物体类别集。

本发明建立了一个多级条件影响的卷积神经网络，将视觉场景中附加的显性知识与多级视觉特征融合，所述多级条件影响的卷积神经网络MLCNet以条件影响的多分支卷积神经网络结构为主干，条件影响的多分支卷积神经网络包括条件影响的卷积神经网络和多分支结构，条件影响的卷积神经网络用于生成多级视觉特征，同时将人体结构和物体上下文所提供的空间语义信息作为条件进行编码，通过仿射变换和注意机制动态影响卷积神经网络的特征提取，所得视觉特征由多分支结构分别编码后输出，最后，融合多模态特征以区分各种交互动作，所述多模态特征包括多分支结构产生的多级视觉特征、人-物相对位置特征和物体上下文特征；对多级条件影响的卷积神经网络进行训练，得到的模型输出细粒度动作检测结果。。包括以下步骤：

2)构建条件影响的多分支卷积神经网络结构(简称多分支CNN)，由条件影响的卷积神经网络提取多级视觉特征，并通过相应的分支对全局语境信息、交互动作短语、物体实体和身体部位的视觉特征进行编码；

3)通过多级条件机制对条件影响的卷积神经网络的特征提取进行调节；

4)多模特征融合，输出的结果为模型输出结果；

5)模型训练；

6)将得到的模型用于细粒度动作检测。

在下面的部分中，本发明以一个具体实施例，将从对附加知识的准备开始，详细介绍如何通过网络条件反射融合多级视觉特征和附加的空间语义信息，如图1和图2所示。

1)附加知识提取，具体包括目标检测、姿势估计和人体解析。尽管最近细粒度动作检测的研究也利用了目标检测和姿态估计的方法，但大多只利用获得的实体和人体关节的边界盒来裁剪CNN特征。与现有的方法不同，MLCNet综合利用了现有方法所忽略的语义信息、全局空间分布以及身体各部分与对象之间的关系进行细粒度动作推理。这些显性知识作为连接纯视觉特征和复杂语义的桥梁，有助于提高深层网络的推理能力和解释能力。

1.1)进行目标检测。对于图像I，本发明应用最新的目标检测模型FPN^[4]，以获得人和物体的位置和相应类别，检测到的人和物体实例分别是b^h和(b^o,σ)。人和物体作为细粒度动作候选者进行配对，Θ＝{((b^h,b^o,σ)}。在大规模语言数据集上，用一组高维向量来表示物体类别。

1.2)进行姿势估计。为了获得人体的结构信息，本发明采用了现有的多人姿态估计方法RMPE^[5]。它估计了每个人体的N_K处关节，其中k_i包含第i处关节的坐标和相应的置信值。

1.3)进行人体解析。本发明采用了预训练好的人体解析方法WSHP^[6]生成了与原始图像相同宽度和高度的多通道概率图Φ，每个通道对应于特定类型的身体部位。与姿态估计中的人体关节信息相比，该语义分割图提供了更为密集的像素级结构信息，包括人体各部位的形状和边缘。

2)构建条件影响的多分支卷积神经网络结构。多级视觉表示是本发明细粒度动作检测的关键，其目的是对粗粒度和细粒度的视觉信息进行编码。然而，现有的大多数方法直观地利用共享的CNN主干提取不同的视觉特征进行细粒度动作推理^[1,2,3]，无法捕捉不同视觉内容的外观分布偏差。为了解决这个问题，本发明构造了一个条件影响的多分支卷积神经网络作为MLCNet的主干，主要包括条件影响的卷积神经网络和多分支结构。其中条件影响的卷积神经网络部分以主干CNN为核心，即图2中的Base～FTBlock4，多分支结构指的是图2中的scene branch～phrase branch，即全局景分支、物体分支、身体部分分支、人体分支和交互短语分支，加上视觉场景中附加的显性知识得到的语境分支context branch和空间信息分支spatial branch，本发明的多级条件影响的卷积神经网络共7个分支。该网络结构通过相应的分支对全局语境信息、交互短语、物体实体和身体部位的综合视觉信息进行编码，并进行独立优化，能够有效地学习训练阶段的不同外观分布。下面结合图2对条件影响的多分支卷积神经网络的具体实现进行说明。

2.1)首先为整个图像生成全局条件化特征f_g，主干CNN采用ResNet，包含一系列共享的残差块ResBlocks和特征变换块FTBlock，如图2所示的BaseBlock～FTBlock4。BaseBlock和ResBlocks是ResNet的标准模块，特征变换块FTBlock将人体结构信息与全局视觉特征融合。

2.2)在此基础上，根据交互短语、人体、物体和身体各部分的区域，分别裁剪f_g提取出f_u、f_h、f_o和f_p等多级视觉特征，其中下标u、h、o、p分别代表phrase交互短语、human人体、object物体、body part身体部分，将f_u、f_h、f_o和f_p传递到相应的分支中。

2.3)上述所述的各个分支与ResNet的最后一个残差块ResBlock3共享相同的结构，但独立优化。ROI-align输出的特征f_u、f_h和f_o形状为w×w×c，其中w和c表示通道的宽度和数量。然而，与实体和身体部位相比，交互短语包含的语义信息更为复杂，单纯的CNN特征无法有效捕捉。因此，本发明还利用人-物对的显式知识，通过局部网络调节来改进f_u。

2.4)对于身体部分的视觉特征f_p，为了提取人体结构的细粒度视觉特征，本发明根据RPNN方法将N_K处关节划分为N_p组，得到N_p组身体部位，对每个检测到的人体实例构造身体部位。本发明对所有身体部位的全局条件化特征f_g应用ROI-align。上述f_p通过将所有裁剪f_g得到的的身体部位特征按通道连接起来生成，其大小形状为w×w×(c×N_p)。为了突出显示与某个物体相关的人体部分，本发明将人体部分注意力机制应用于f_g的裁剪，优化f_p。

2.5)除了f_u、f_h、f_o和f_p的视觉特征外，本发明进一步补充了整体语境信息特征f_s来编码全局场景，该全局场景是通过对整个图像的CNN特征进行池化生成得到。池化的特征被输入到场景分支(图2中的scene branch)，其结构与前面提到的分支相同，使用全局语境信息特征f_s，可以使多级可视化表示更加全面。

2.6)在训练阶段，对整个网络进行端到端的优化。在有限的参数条件下，可以学习不同层次的特征偏差和较大的外观变化。最后，本发明对所有视觉特征应用全局平均池来生成特征向量作为分类器的输入。

3)采用多级条件机制进行调节，进一步提高上述主干CNN的推理能力。将全局图像、交互动作短语和身体部位的特征与人体结构和物体语境信息的显式空间语义信息进行动态交互。

3.1)进行全局条件调节。本发明基于附加知识提取中的人体解析，利用身体部位分割图作为全局条件来增强整个图像的全局视觉特征。将分割图输入条件影响的卷积神经网络，生成多级条件特征{γ}，同时对人体各部位在不同尺度上的相对位置和形状进行编码。图2显示了全局条件影响的卷积神经网络的概述，它由连续的卷积块组成，包括Base及3个卷积块Conv×3，卷积块的数目等于主干CNN中ResBlock块的数目。第一个条件块的结构与主干CNN的基本块相同，后面的条件块Conv×3包含3个使用1×1核的卷积层，其中存在2个LeakyReLU激活层。值得注意的是，条件特征始终与相应的视觉特征在空间上保持一致。在主干CNN的Base和ResBlock块之后，通过一个特征转换块FTBlock来实现全局调节，该特征转换块结合了相同尺度的视觉和条件特征。具体来说，如图3所示，FTBlock的特征变换层应用仿射变换将输入的视觉特征f与模型参数(λ,β)动态交替，参数由以人体状态特征γ为输入的映射函数/>生成：

其中，是用1×1核和LeakyReLU激活的双卷积层实现的，而⊙是指按元素乘法。图3所示的特征变换块(FTBlock)称为/>视觉和条件特征按照下述公式进行残差融合^[7]：

全局条件特征f_g由连续的残差块和变换块生成，用于提取上述多级视觉特征。在实验中评估了整体调节的有效性。

3.2)进行局部调节。局部交互动作短语是图像中一个信息量相对较大的区域，它紧紧围绕着一个细粒度动作候选词。然而，由于不同的人-物实例和语境，交互动作短语的外观变化是巨大的，单纯的视觉特征是无法捕捉到的。在此基础上，本发明构建了一个人体-物体配置图，如图4所示，对输入图片检测关节点，把关节点聚成几个组(group)，表示各身体部位(body parts)，再用几个框把几个组分别围起来，得到配置结构图，用于局部调节，用以指导交互动作短语的特征提取。具体地说，通过上述介绍的相邻身体关节进行分组，将人类实例分为N_p个身体部分，身体部位用一组包围相应身体关节组的边界框来表示，这些边界框具有适当的边距，由于局部条件作用于从全局特征f_g中裁剪出局部视觉特征f_u，因此不能保留形状、边缘等精细的空间细节。为此，如图4所示，本发明生成了一个盒级的人体-物体目标空间结构作为局部条件，分别用2和N_p通道对人-物目标对(h,o)和所有人体部位/>的相对位置进行编码。每个通道是一个二维的二进制矩阵，具有相同大小的相互作用短语。边框内的数字设置为1，否则为0。将配置结构图，如图4，输入局部条件影响的卷积神经网络，生成局部条件特征π，该特征π由4个卷积层组成，每个卷积层使用1×1卷积核，其中包含3个LeakyReLU作为激活层。局部调理采用局部特征转换模块实现，与全局条件作用相比，局部条件作用为特定的候选词提供了更为具体的空间语义指导，其结构与/>相同：

3.3)设置身体部分的注意力机制。物体的功能某种程度上决定了人与物体会产生什么样的相互作用，也就是说某一物体与特定的人体部位密切相关。为此，本发明对从不同身体部位提取的视觉特征给予不同权重的关注。本发明通过将目标物体类别的词向量ν输入到完全连接的网络中生成注意权重

w＝k(k(vX₁+b₁)X₂+b₂)

其中，k(·)为LeakyReLU激活函数，(X₁,X₂)为项目参数，(b₁,b₂)为偏倚项，由于在大规模语言数据集上预训练的词向量以某种方式对物体的功能进行编码，因此知识可以在功能相似但不同类别的物体之间进行传递。应用于身体部位视觉特征的注意力权重：

其中，i∈{1,…,N_p}，是根据第i处身体部位的包围盒从f_g中裁剪出来的特征。所有身体部件的加权和原始特征融合如下：

其中，ε(·)是指信道级连，通过实验结果证实，增加物体语境信息注意力可以有效改善身体部位的视觉特征。

4)多模态特征融合。除了多级视觉特征外，本发明还进一步增加了相对位置特征f_loc和物体语境信息特征f_ctx，以获得更好的性能。f_loc由两个最大卷积池化层生成，以HO-RCNN后的人-物结构图作为输入。f_loc经常被细粒度动作检测方法^[8,9,10]用来编码动作交互阶段中围绕人-物对的包围盒的相对位置，它在视觉关系检测中也被证明是有效的^[11]。f_ctx是被检测物体类别的词向量，它可以捕捉不同物体之间的功能相似性，并传递这些功能相似物体的交互动作知识^[12]。到目前为止，本发明已经获得了七种类型的特征：f_h、f_o、f′_u、f_s、f′_p、f_loc和f_ctx。所有这些特征分别输入到独立的全连接分类器中，分类器的输出用sigmoid函数进行归一化，以估计所有与对象无关的动作的概率。然后，采用iCAN^[9]的后融合策略，融合各分支动作的置信值δ得到各动作置信值，细粒度动作候选中检测到的人和物体实例的置信值如下：

其中，是指动作融合的置信向量，δ的上标表示相应的特征类型。ρ_σ是细粒度动作类别σ的置信值，细粒度动作类别σ包含一个动作ω_σ和一个物体α_σ，/>是动作ω_σ的置信值，ρ_h为人的置信值，/>为物体实例置信值。通过这种方式，每个分支都可以完全优化。值得注意的是，考虑到细粒度动作的分类空间可能相当大，要获得足够且均衡的训练数据是不现实的。本发明将细粒度动作类别分解，并独立识别它们，可以处理大规模类别空间和长尾数据分布。此外，交互的动作知识可以在不同的物体之间传递，使得零样本的细粒度动作检测成为可能^[13,14]。

5)进行模型训练。在训练阶段，本发明将一个小批量B＝{(b^h,b^o,Y)}输入到每个步骤的模型中，其中Y表示与物体无关的动作标签Y＝{(y₁,y₂,…,y_|Ω|)}，Ω是动作类别集，y∈{0,1}，δ指的是各动作的置信值，下标p表示的是第p个批量样本，q代表的是动作类别集中第几个动作类别。由于一个人类实例可以对一个目标物体实例施加多种类型的动作，本发明将细粒度动作识别问题描述为一个多标签分类问题。在训练阶段，本发明使用二元交叉熵损失函数BCE(,)计算7个分支的独立损失值：

其中，的下标表示相应的分支。在这里，小批量损失是一个总和，而不是平均值。它有效地避免了稀有类别中样本被忽略的情况，并且可以防止模型偏向于频繁出现的类别。

作为场景理解中的关键问题，细粒度动作检测旨在识别特定于对象的精细动作，这要求同时具备视觉感知能力和推理能力。现有的基于卷积神经网络(CNN)的方法在复杂的细粒度动作理解上仍存在许多不足，为了提高CNN的推理能力，本发明提出了一种新的多级条件影响的卷积神经网络MLCNet，该网络将附加的空间语义知识与纯视觉特征相融合。本发明构建了一个主干CNN作为多级视觉表示的核心，然后将人体结构和物体语境等附加知识作为条件进行编码，通过仿射变换和注意机制动态影响CNN的特征提取，最后通过融合调制多模特征来区分各种交互动作。本发明在HICO-DET和V-COCO这两个最常用的基准上对所提出的方法进行评估。实验结果表明，本发明方法优于现有的方法。

Claims

1.一种基于多级条件影响的卷积神经网络的细粒度动作检测方法，其特征是建立一个多级条件影响的卷积神经网络MLCNet，将从视觉场景中获得的外部知识与多级视觉特征融合，所述多级条件影响的卷积神经网络MLCNet以条件影响的多分支卷积神经网络结构为主干，条件影响的多分支卷积神经网络包括条件影响的卷积神经网络和多分支结构，条件影响的卷积神经网络用于生成多级视觉特征，同时将人体结构和物体上下文所提供的空间语义信息作为条件进行编码，通过仿射变换和注意机制动态影响卷积神经网络的特征提取，所得视觉特征由多分支结构分别编码后输出，最后，融合多模态特征以区分各种交互动作，所述多模态特征包括多分支结构产生的多级视觉特征、人-物相对位置特征和物体上下文特征；对多级条件影响的卷积神经网络进行训练，得到的模型输出细粒度动作检测结果，包括以下步骤：

5)模型训练，将一个小批量样本B＝{(b^h，b^o，Y)}输入到模型中，其中Y表示与物体无关的动作标签Y＝{(y₁，y₂，...，y_|Ω|)}，Ω是动作类别集，y∈{0，1}，b^h和b^o是检测到的人和物体实例，将细粒度动作识别问题描述为一个多标签分类问题，在训练阶段，使用二元交叉熵损失函数BCE(，)计算全部各个特征分支的独立损失值

6)将得到的模型用于细粒度动作检测。

2.根据权利要求1所述的一种基于多级条件影响的卷积神经网络的细粒度动作检测方法，其特征是条件影响的多分支卷积神经网络的条件影响的卷积神经网络以主干CNN为核心，多分支结构包括场景分支、物体分支、身体部分分支、人体分支和交互短语分支，条件影响的多分支卷积神经网络的实现具体为：

2.1)首先为整个图像生成全局条件化特征f_g，主干CNN采用ResNet，包含一系列共享的残差块ResBlocks和特征变换块FTBlock，用于实现图像语义分割得到多级视觉特征，特征变换块将人体结构信息与全局视觉特征融合；

2.2)根据交互短语、人体结构、物体和身体各部分的区域，分别裁剪f_g，提取出多级视觉特征f_u、f_h、f_o和f_p，其中下标u、h、o、p分别代表交互短语、人体结构、物体、身体部分，将它们传递到相应的分支中；

2.3)上述各个分支独立优化，经ROI-align输出特征f_u、f_h和f_o，形状为w×w×c，w和c表示通道的宽度和数量，其中利用人-物对的显性知识，通过局部网络调节来改进f_u；

2.4)对于f_p，为了提取人体结构的细粒度视觉特征，根据RPNN方法将人体的N_K处关节划分为N_p组，得到N_p组身体部位：对每个检测到的人体实例构造身体部位，之后对所有身体部位的全局条件化特征f_g应用ROI-align，身体部分body part的特征f_p通过将所有由f_g裁剪得到的身体部位特征按通道连接起来生成，其大小形状为w×w×(c×N_p)，其中为了突出显示与某个物体相关的人体部分，将人体部分注意力机制应用于f_g的裁剪，优化f_p。

3.根据权利要求2所述的一种基于多级条件影响的卷积神经网络的细粒度动作检测方法，其特征是除了f_u、f_h、f_o和f_p的视觉特征外，还用整体语境信息特征f_s来编码全局场景，所述全局场景通过对整个图像的CNN特征进行池化生成得到，池化的特征被输入到场景分支。

4.根据权利要求2所述的一种基于多级条件影响的卷积神经网络的细粒度动作检测方法，其特征是通过多级条件机制对条件影响的卷积神经网络进行调节，具体为：

3.1)进行全局条件调节，基于附加知识提取中的人体解析，利用身体部位分割图作为全局条件来增强整个图像的全局视觉特征，将分割图输入条件影响的卷积神经网络，生成多级条件特征{γ}，同时对人体各部位在不同尺度上的相对位置和形状进行编码，全局条件影响的卷积神经网络由连续的卷积块组成，其中条件特征始终与相应的视觉特征在空间上保持一致；在主干CNN中，通过特征转换块FTBlock来实现全局调节，特征转换块结合了相同尺度的视觉和条件特征，FTBlock的特征变换层应用仿射变换将输入的视觉特征f与模型参数(λ，β)动态交替，参数由以人体状态特征γ为输入的映射函数/>生成：

其中，是用1×1核和LeakyReLU激活的双卷积层实现的，⊙是指按元素乘法，设特征转换块为/>视觉和条件特征按照下述公式进行残差融合：

全局条件特征f_g由连续的残差块和特征变换块生成，用于提取多级视觉特征；

3.2)进行局部调节，由输入图像构建一个人体-物体配置结构图，用以指导交互动作短语的特征提取，通过相邻身体关节进行分组，将人类实例分为N_p个身体部分，身体部位用一组包围相应身体关节组的边界框来表示，身体部位局部条件作用于局部视觉特征f_u，生成一个盒级的人体-物体目标空间结构作为局部条件，分别用2和N_p通道对人-物对(h，o)和所有身体部位/>的相对位置进行编码，每个通道是一个二维的二进制矩阵，具有相同大小的相互作用短语，边框内的数字设置为1，否则为0，将配置结构图输入局部条件影响的卷积神经网络，生成局部条件特征π，该特征π由4个卷积层组成，每个卷积层使用1×1卷积核，其中包含3个LeakyReLU作为激活层；局部调节采用局部特征转换模块/>实现，其结构与/>相同：

3.3)设置身体部分的注意力机制，对从不同身体部位提取的视觉特征给予不同权重的关注，通过将目标物体类别的词向量v输入到完全连接的网络中生成注意权重

w＝k(k(vX₁+B₁)X₂+b₂)

其中，k(·)为LeakyReLU激活函数，(X₁，X₂)为项目参数，(b₁，b₂)为偏倚项，应用于身体部位视觉特征的注意力权重：

其中，i∈{1，...，N_p}，是根据第i处身体部位的包围盒从f_g中裁剪出来的特征，所有身体部件的加权和原始特征融合如下：

其中，ε(·)是指信道级连。