CN114529842B

CN114529842B - 一种基于知识引导下双向注意力机制的人物交互检测方法

Info

Publication number: CN114529842B
Application number: CN202210169189.1A
Authority: CN
Inventors: 李革; 杨百祥; 高伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2024-04-26
Anticipated expiration: 2042-02-23
Also published as: CN114529842A

Abstract

本发明公开了一种基于知识引导下双向注意力机制的人物交互检测方法，包括如下五个步骤：目标检测、分组、自底向上编码器、自顶向下编码器、二分类；对复杂场景中存在的多个人、物实例进行人物交互检测的关键有效地对场景中的对象进行关系建模解析，通过将知识引导下的自顶向下注意力机制引入到了人物交互检测任务，使得模型能够为给定的人‑物对自适应地搜寻场景中的相关信息，以进行交互行为判别，从而实现人物交互检测；本发明具有更好的检测性能(mAP)和更好的可解释性。

Description

一种基于知识引导下双向注意力机制的人物交互检测方法

技术领域

本发明涉及图片中人物交互识别检测，特别地一种基于知识引导下双向注意力机制的人物交互检测方法，为一种两阶段设置下的人物交互识别检测方法。

技术背景

近几年来，随着计算机视觉发展的不断深入，以人为主体的人物交互检测任务受到了人们的广泛关注。人物交互检测任务的核心问题是对场景中的人和其周边对象间的关系的理解和检测，该任务有着诸多广阔的应用场景：既可以直接应用于监控系统、机器人视觉系统、人机交互中，同时又可以作为基础接口，为下游的一系列复杂视觉任务，如图像、视频推荐与检索，多媒体数据摘要等应用提供支持。人物交互检测任务即：给定一张图片，模型需要输出<人、交互类别、物体>所构成的三元组，其不仅需要对人和物体进行定位，同时也需要识别出二者之间所存在的交互关系。

人物交互检测是场景理解中的基础问题，它不仅需要回答“在什么地方？”(即对象识别和定位)的问题，还要回答“正在发生什么？”的问题。区别于其它以实体(如物体、人)作为研究对象的计算机视觉任务，虽然行为产生的主体是“人”这一实体，但其研究对象却是“行为”这一抽象的概念。对抽象概念的理解是实现未来人工智能发展与进步的必经之路。为了实现对于这一抽象概念的理解，只通过外观特征是远远不够的，还需要对场景中多元对象间的空间位置关系，甚至数据外部的知识先验信息进行分析和推理。

人物交互检测任务更注重对视觉数据中多个实体对象间的关系进行分析，要求对视觉数据做出更为细粒度、结构化的解析。但在当前方法中，大多数关系解析是以一种自底向上的方式进行的。在人类视觉系统中，自底向上是指注意力自动集中于显著或含有信息更多的信号上的过程，而自顶向下是指在特定目的引导下注意力选择性地集中在某些信号上的过程。自底向上是指，在进行人-物配对前，学习给定实例对于环境中其他实例的注意力的机制。当图中存在同一个人实例和不同的物体实例组成多个人-物对(例如，坐在椅子上的人正在使用计算机打字)时，给定这个实例人，模型应该具备分别为“坐在椅子上”和“用计算机打字”这两个行为各自寻找相关视觉线索的能力，即学到不同的注意力分布。但是，在自底向上的注意力机制中，在这两个不同交互行为中，此人对环境中其他实例的注意力分布时相同的。这说明，自底向上的注意力机制无法直接为不同的人-物对进行定制化的关系解析。详见参考文献[1]和[2]。在这种情况下，如何为不同的人-物对进行定制化的关系解析是一个难点所在，而在此场景下准确地进行人物关系解析是一个具有挑战性的问题。

发明内容

本发明的目的在于公开一种基于知识引导下双向注意力机制的人物交互检测方法，在复杂场景中往往存在着多个人、物实例，对这些实例进行人物交互检测的关键就在于，如何有效地对场景中的对象进行关系建模解析。

本发明的工作原理为：将知识引导下的自顶向下注意力机制引入到了人物交互检测任务中，赋予模型能够为给定的人-物对灵活地搜寻场景中的相关信息以进行交互判别的能力。

为了达到本发明的技术目的，本发明采取如下技术方案：

一种基于知识引导下双向注意力机制的人物交互检测方法，包括如下步骤：

P1、目标检测：首先在给定图片上运行预训练过的目标检测器，进行目标检测，得到实例的位置坐标及类别预测信息的检测结果；

P2、分组：根据P1的检测结果中的位置坐标信息，使用ROI Pooling的方式，在骨干网络提取得到的特征图上进行crop操作，得到实例的外观特征，并根据类别预测将其分为人 (Human Group)和物体(Object Group)两组；

P3、自底向上编码器：该编码器由多个相同编码器层堆叠而成，以P2中实例的外观特征作为输入，并输出经场景上下文信息增强的特征；输入的实例特征中集成了实例的外观特征和该实例的位置编码；两组集成后的实例特征将分别被送入两个多头自注意力层进行组内关系解析；之后二者将被一同送入一个多头注意力层中，并分别计算人对物体及物体对人的组间注意力分布；

P4、自顶向下解码器：给定人物对<human,object>，解码器将根据其构建查询向量，并在此查询的引导下通过自顶向下的关系解析来搜寻视觉线索，以进行交互判断；查询向量的构建采用的是物体的语义向量，人的姿态特征和相对位置编码来构造查询，用于当前pair对相关的视觉线索搜索；

P5、二分类：经过解码器收集到的视觉线索增强后的人-物对特征将被送入到多个二分类器中进行行为预测，从而得到最终的预测结果。在训练过程中，采用二分类交叉熵损失函数对模型参数进行优化。

优选地，所述的P1、目标检测是使用在COCO数据集上预训练过的Faster R-CNN检测器进行人/物检测。

优选地，所述的P2、分组是根据检测结果进行分组，具体为检测所得到的“人”所组成的几何记为H，“物”所组成的集合记为O，二者的并集记为S；然后根据检测框，通过RoIPooling 从骨干网络中得到每一个实例的特征。对于每一个检测到的人，本发明采用姿态检测器为其提取姿态，并将姿态转换为线段图表示的姿态图(Pose map)；给定一个人-物对，本发明还将提取二者之间的相对位置关系图sp；这个相对位置关系图采用二者检测框的并集区域的两张二值化掩码图表示，其中有物体或人实例的位置上值为1，背景区域的值为0。

优选地，所述的P3、自顶向下解码器，在其中的知识意为关于人-物对的信息和可能的交互行为先验知识。

优选地，所述的P3、自顶向下解码器中的知识是基于训练集先验知识所得到的人-物交互关系图。

优选地，所述的P3：自底向上编码器，其构建方式为，首先在图像中进行场景上下文建模(即look)，具体为先将集合H、O两组外观特征分别送入两个多头自注意力层各自进行组内关系解析，之后解析后的两组特征被送入一种分组解析模块(Group-aware ParsingModule， GPM)进行组间关系解析。

优选地，所述的上下文建模进一步将行为-物体的并发性(Verb-object co-occurrence) 作为先验知识引入到了查询向量的构建中。

优选地，所述的P4：自顶向下解码器，在解码器中，人和物体将被配对起来作为查询 (query)，用于在编码器的输出中有选择地进行视觉线索(Visual clues)收集(即search)，查询的构建采用的是人-物对间的空间关系编码、物体类别的语义embedding以及人-物对中人体的姿态特征。

优选地，基于所构建的并发性先验知识，对查询向量进行复制，然后将可能的交互行为的语义embedding对查询向量进行扩充，从而得到一组不同的查询向量以引导解码器中的线索收集过程。

本发明提出的方法与现有的人物交互检测方法相比，在如下两个方面具有较大优势：

1、是具有更好的可解释性，以往的方法往往将物体-交互先验信息用于测试阶段的后处理过程，本发明首次将这类先验知识引入到人物交互检测的训练过程中，从而能够更充分地利用先验知识所带来的增益，具备更好的可解释性。

2、具有更好的检测性能(mAP)，得益于本发明所设计的自顶向下的解码器模块，通过将 pair对信息构建为查询，模型能够更专注于与当前pair更相关的视觉特征搜集，从而学习到更好的表征，得到最终的性能提升。

本发明所采用相关评价指标解释如下：

V-COCO和HICO-DET数据集上的性能评估采用的是mean Average Precision(mAP)。给定三元组<人，物体，交互行为>，当且仅当其满足：

1、检测到的边界框(包括人和物体)与对应的目标实例的边界框之间的交并比(Intersection over Union，IoU)大于0.5；

2、对交互行为类别的预测是正确的。

附图说明

图1为本发明总体流程框架图；

图2为本发明结果与其他算法的评价指标对比表。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例对本发明的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，附图、实施例及其说明用于解释本发明，并不构成对本发明的不当限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本方面保护的范围。

本发明采用两阶段的人物交互检测流程：首先进行实例检测(包括人和物体)并构建人- 物提议对，再进行人-物提议对间的行为交互识别。本发明首先使用在COCO数据集上预训练过的Faster R-CNN检测器进行人/物检测。检测所得到的“人”所组成的几何记为H，“物”所组成的集合记为O，二者的并集记为S。然后根据检测框，通过RoI Pooling从骨干网络中得到每一个实例的特征。对于每一个检测到的人，本发明采用姿态检测器为其提取姿态，并将姿态转换为线段图表示的姿态图(Pose map)。给定一个人-物对，本发明还将提取二者之间的相对位置关系图sp。这个相对位置关系图采用二者检测框的并集区域的两张二值化掩码图表示，其中有物体或人实例的位置上值为1，背景区域的值为0。

图1为本发明的总体流程框架图。如图所示，结构整体上是一个编码-解码模型。其中，编码器用于自底向上的场景建模，而在解码器中，给定人-物提议对，物体的语义向量将和人与物体间的相对位置编码结合作为一个查询。为了将交互行为与物体类别间的共线性知识引入到模型中，基于这个人-物对构建的查询将被复制成多份，并通过引入行为类别的语义向量构造出一组不同的查询。这些查询将被送入编码器中以指导模型从编码器的输出中寻找需要的视觉线索以支撑对交互行为的判断。本发明所提出的基于知识引导下双向注意力机制的人物交互检测方法包括如下步骤：

P1、目标检测：与以往方法一致，本发明首先在给定图片上运行预训练过的目标检测器，进行目标检测，得到实例的位置坐标及类别的预测信息；

P2、分组：参考惯例流程，根据P1的检测结果中的位置坐标信息，本发明使用ROIPooling 的方式，在骨干网络提取得到的特征图上进行crop操作，得到实例的外观特征，并根据类别预测将其分为人和物体两组；

P3、自底向上编码器：，对于自底向上的人-物关系编码，实施步骤如下：

编码器部分以自底向上的方式进行场景上下文解析，该过程的注意力机制可以形式化地表示为：

Att＝P(A_i|H，O，i)

其中i表示一个给定的实例，A_i表示实例i与其他实例之间的关系(即在它们之上的注意力分布)。编码器由多个相同编码器层堆叠而成，它以在图像中检测到的实例的特征作为输入，并输出经场景上下文信息增强的特征。输入的实例特征中集成了实例的外观特征和该实例的位置编码。与相对位置关系图sp不同，实例的位置编码是一个和外观特征维度相同的向量，它是由描述实体边界框的一个5维向量经过全连接层变换后得到的。这个5维向量由边界框归一化后的左上角坐标、边界框宽度、高度以及边界框与图片尺寸的比值组成。为了增强编码器中的关系解析过程，检测所得到的实例将被分为人(Human Group)和物体(Object Group) 两组。这两组实例将分别被送入两个多头自注意力层进行组内关系解析。之后它们的输出将被一同送入一个多头注意力层中，并分别计算人对物体及物体对人的注意力分布。在计算物体对人的注意力分布时，所有物体的特征被作为一组查询(Queries)，而人的特征则被当作键值 (Keys)和数值(Values)。相应地，在计算人对物体的注意力分布时，查询与键值和数值之间的关系将调转过来。同时，还可以通过在注意力矩阵上引入二值交叉熵损失，将交互性知识引入到关系解析中。

P4、自顶向下解码器：自顶向下的解码器用于视觉线索搜索；对于自顶向下的人-物关系解码，实施步骤如下：

给定一个人物对<human,object>，解码器将根据其构建查询向量，并在此查询的引导下通过自顶向下的关系解析来搜寻视觉线索，以进行交互判断。查询向量的构建采用的是物体的语义向量，人的姿态特征和相对位置编码来构造查询。语义向量的提取考虑借助Glove，姿态特征和相对位置编码分别由姿态图p和相对位置图sp经过两个卷积层进行变换得到。这两个特征将被展成向量并和语义向量拼接在一起作为查询向量。给定查询人-物对，可以通过物体- 行为的共线性缩小目标行为的范围。此外，考虑到与给定物体类别相关的不同交互类别所对应的视觉特征也会有所不同。为此，本发明进一步利用物体-行为的共现性作为先验知识，以指导模型的注意力分布。给定物体o，训练集中所有与此物体类别共同出现过的交互行为类别组成的集合为A。如图1所示，给定由人-物对<h,o>所构建的查询向量q，该向量将被复制为多份并分别于A集合中不同行为的语义向量拼接为一组不同的查询。这组通过先验知识增强的查询记为Q，给定查询Q，解码器将经过编码器中的场景上下文增强过的实例特征作为键值K和数值V，解码器的输出是为不同交互行为所收集到的相应视觉线索的集合。该输出将通过残差连接用于对查询向量Q的增强。

P5、二分类：本发明将交互行为的多标签分类问题转化为了一组二分类问题，其中每一个二分类器对应着一个特点的交互行为类别。经过解码器收集到的视觉线索增强后的人-物对特征将被送入到相应的二分类器中进行行为预测，从而得到最终的预测结果。在训练过程中，本发明采用二分类交叉熵损失函数对模型参数进行优化。

本发明提出的方法与现有的人物交互检测方法相比，在如下两个方面具有较大优势：其一是具有更好的检测性能(mAP)，其二是具有更好的可解释性。本发明所采用相关评价指标解释如下：

2、对交互行为类别的预测是正确的。

为了验证本发明的一种基于知识引导下双向注意力机制的人物交互检测方法的技术效果，将本发明与以往的方法进行比较，本发明分别采用了ResNet50和ResNet152作为骨干网络，构建了基于知识引导下双向注意力的网络模型(Knowledge-guided Bi-directional Attention Network，K-BAN)。图2为本发明结果与其他算法的性能指标对比。与现有模型相比，本发明在V-COCO和HICO-DET两个数据集上都能获得较好的效果。同时对于HICO-DET数据集，本发明同时测试了三种不同设置下的人物交互检测性能，即：基于COCO预训练的检测器、基于HICO 预训练的检测器和真实标签下的人物交互检测性能。

如图所示，在V-COCO数据集上，本发明所提出的K-BAN模型取得了53.70％mAP的检测结果。而在HICO-DET数据集上，基于COCO预训练设置下，本发明所提出的K-BAN模型实现了21.48％mAP的性能，超过了许多以往的模型但低于部分方法。而在HICO预训练的设置下，本发明所提出的K-BAN模型取得了28.83％mAP的性能，远超图中其他方法。同时在真实标签设置下，本发明的K-BAN模型也取得了52.99％mAP的最优性能。这些数据有力地证明了本发明的有效性和技术效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献

[1]Chao,Yu-Wei,et al."Learning to detect human-object interactions."2018ieee winter conference on applications of computer vision(wacv).IEEE,2018.

[2]孔德慧,王志凯,吴永鹏,王少帆,&李敬华.(2020).一种基于深度学习的人物交互检测方法.CN111914622A。

Claims

1.一种基于知识引导下双向注意力机制的人物交互检测方法，包括如下步骤：

P2、分组：根据P1的检测结果中的位置坐标信息，使用ROI Pooling的方式，在骨干网络提取得到的特征图上进行crop操作，得到实例的外观特征，并根据类别预测将其分为人和物体两组；

2.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，所述的P1、目标检测是使用在COCO数据集上预训练过的Faster R-CNN检测器进行人/物检测。

3.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，所述的P2、分组是根据检测结果进行分组，具体为检测所得到的“人”所组成的几何记为H，“物”所组成的集合记为O，二者的并集记为S；然后根据检测框，通过RoI Pooling从骨干网络中得到每一个实例的特征。对于每一个检测到的人，本发明采用姿态检测器为其提取姿态，并将姿态转换为线段图表示的姿态图；给定一个人-物对，本发明还将提取二者之间的相对位置关系图sp；这个相对位置关系图采用二者检测框的并集区域的两张二值化掩码图表示，其中有物体或人实例的位置上值为1，背景区域的值为0。

4.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，P3、自顶向下解码器中的知识意为关于人-物对的信息和可能的交互行为先验信息。

5.根据权利要求4所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，P3、自顶向下解码器中的知识是基于训练集先验所得到的人-物交互关系图。

6.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，P3：自底向上编码器，其构建方式为，首先在图像中进行场景上下文建模，具体为先将集合H、O两组外观特征分别送入两个多头自注意力层各自进行组内关系解析，之后解析后的两组特征被送入一种分组解析模块进行组间关系解析。

7.根据权利要求6所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，所述的上下文建模进一步将行为-物体的并发性作为先验知识引入到了查询向量的构建中。

8.根据权利要求1所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，P4：自顶向下解码器，在解码器中，人和物体将被配对起来作为查询，用于在编码器的输出中有选择地进行视觉线索收集，查询的构建采用的是人-物对间的空间关系编码、物体类别的语义embedding以及人-物对中人体的姿态特征。

9.根据权利要求7所述的基于知识引导下双向注意力机制的人物交互检测方法，其特征在于，还包括：基于所构建的并发性先验知识，对查询向量进行复制，然后将可能的交互行为的语义embedding对查询向量进行扩充，从而得到一组不同的查询向量以引导解码器中的线索收集过程。