CN114663915B

CN114663915B - 基于Transformer模型的图像人-物交互定位方法及系统

Info

Publication number: CN114663915B
Application number: CN202210213195.2A
Authority: CN
Inventors: 魏平; 马泽宇; 李环; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2024-04-05
Anticipated expiration: 2042-03-04
Also published as: CN114663915A

Abstract

本发明公开了一种基于Transformer模型的图像人‑物交互定位方法及系统，所述方法包括以下步骤：获取待预测图像以及描述性短语；其中，所述描述性短语用于描述待预测图像中的人‑物交互关系；所述待预测图像包括人‑物交互场景；对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征；将图像特征以及语言特征输入预训练好的人‑物交互定位模型，输出获得待预测图像所有符合描述性短语的人、物定位框，实现人‑物交互定位。本发明中将多实例定位问题转化为集合预测问题，可直接从跨模态特征中预测出结果，且预测准确率较高。

Description

基于Transformer模型的图像人-物交互定位方法及系统

技术领域

本发明属于计算机视觉的视觉定位技术领域，涉及人物交互定位及跨模态学习，特别涉及一种基于Transformer模型的图像人-物交互定位方法及系统。

背景技术

视觉定位(Visual Grounding)旨在通过给定的语言在图像中定位所描述实例的边界框，其在场景理解、公共安全监视、机器人导航和多模态理解等应用中有着重要意义，目前受到越来越多的关注。

视觉定位问题主要分为两阶段方法和一阶段(端到端)方法：

大多数两阶段方法首先通过预训练的目标检测器生成一些候选区域，然后根据描述语言对候选区域进行排序和选择，这些方法的主要焦点是第二阶段的架构。然而，两阶段方法的性能往往受到预训练检测器的限制；

单阶段方法专注于直接使用图像和文本信息定位目标，如将语言嵌入(embedding)融合到一阶段的对象检测器中以进行边界框预测，并且可以通过在图像特征和构造子查询(sub-query)之间进行推理；可以使用语言embedding对视觉embedding进行解码，以预测单个边界框。

基于上述陈述，虽然视觉定位在过去几年取得了显著进展，但现有的大多数定位方法都是为单目标定位而设计的，且只输出表达式中主语的边界框，无法解决以人为中心的多实例定位问题。

指称关系(referring relationships)任务旨在预测一个关系中主语和宾语的位置，它对关系建模的能力尚不清楚，并且将多个同时出现的实例的边界框合并为一个，从而无法消除不同实例的歧义，也丢失了细粒度信息。另外，最近的方法对语言和视觉之间进行对比学习，来定位描述语句中所有提到的目标；然而当有多个符合条件的实例需要定位时，这些方法仍然受限于歧义的表达，且其使用的评估指标不适合用于多实例场景，例如在有两个或多个人骑马的场景下，给定输入短语“Person ride horse”，视觉模型将输出单个符合描述的人的边界框，但是当图像包含多个满足描述实例，其余的人以及马将被模型忽略，如图1所示。

综上所述，对于前述描述人-物交互(Human-Object Interactions)，且存在多个人或物实例的问题目前尚缺乏有效解决手段。

发明内容

本发明的目的在于提供一种基于Transformer模型的图像人-物交互定位方法及系统，以解决上述存在的一个或多个技术问题。本发明中，人物交互定位(Human-ObjectInteractions Grounding)，即给定输入<human，interaction，object>短语和图像，任务要求定位所有符合所描述交互关系的人、物对实例，以边界框的形式给出，具体将多实例定位问题转化为集合预测问题，可直接从跨模态特征中预测出结果，且预测准确率较高。

为达到上述目的，本发明采用以下技术方案：

本发明提供的一种基于Transformer模型的图像人-物交互定位方法，包括以下步骤：

获取待预测图像以及描述性短语；其中，所述描述性短语用于描述待预测图像中的人-物交互关系；所述待预测图像包括人-物交互场景；

对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征；

将图像特征以及语言特征输入预训练好的人-物交互定位模型，输出获得待预测图像所有符合描述性短语的人、物定位框，实现人-物交互定位；

其中，所述人-物交互定位模型包括：

融合编码器，用于输入待融合的视觉-语言特征并进行跨模态融合，获得融合后的跨模态特征；其中，所述待融合的视觉-语言特征的为将图像特征以及语言特征映射至一致的通道，并沿特征维度拼接形成的特征；

解码器及预测头，用于输入融合后的跨模态特征并进行解码，通过预测头预测获得待预测图像中所有符合描述性短语的人、物定位框，实现人-物交互定位；

所述融合编码器为第一预设层数的自注意力编码器；所述解码器为第二预设层数的自注意力解码器。

本发明方法的进一步改进在于，所述描述性短语的表述形式为<human，interaction，object>三元组。

本发明方法的进一步改进在于，所述对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征的步骤具体包括：

对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取，得到图像特征；

对描述性短语采用预训练的BERT模型进行特征提取，得到语言特征。

本发明方法的进一步改进在于，第一预设层数和第二预设层数均为6层。

本发明方法的进一步改进在于，所述预训练好的人-物交互定位模型的获取步骤包括：

获取训练样本集；所述训练样本集的每个样本均包括：图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标标签；

基于训练样本集中每个训练样本，对预测结果集合和标签真值间进行匈牙利匹配，对每种匹配组合σ(i)计算代价函数，通过最小化综合匹配代价函数以获得最优匹配结果；其中，所述代价函数包括：人-物边界框L1距离代价人-物边界框GIoU代价/>以及交互得分代价/>表达式分别为：

式中，分别为第i对中人、物边界框坐标真值，/>分别为第i种匹配中人、物边界框坐标预测结果，Φ为无真值匹配的检测结果集，α_b、α_g、α_s分别为人-物边界框L1距离代价/>人/-物边界框GIoU代价/>以及交互得分代价/>的权重，s_i为第i对人/物对的交互得分；

基于最优匹配结果计算训练损失，达到预设收敛条件完成训练；其中，训练损失包括人-物边界框L1距离损失、人-物边界框GIoU损失以及交互得分损失，表达式分别为：

式中，为匹配得到的最优匹配，/>为有真值匹配的检测结果集，β_b、β_g、β_s为各损失函数的权重，γ为二值交叉熵损失/>的样本不均衡权重，/>为第i对人-物对的预测交互得分，当该人-物对有真值匹配时y_i取1，否则取0，N_q为输出人-物对数目。

本发明提供的一种基于Transformer模型的图像人-物交互定位系统，包括：

获取模块，用于获取待预测图像以及描述性短语；其中，所述描述性短语用于描述待预测图像中的人-物交互关系；所述待预测图像包括人-物交互场景；

特征提取模块，用于对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征；

预测定位模块，用于将图像特征以及语言特征输入预训练好的人-物交互定位模型，输出获得待预测图像所有符合描述性短语的人、物定位框，实现人-物交互定位；

其中，所述人-物交互定位模型包括：

本发明系统的进一步改进在于，所述获取模块中，描述性短语的表述形式为<human，interaction，object>三元组。

本发明系统的进一步改进在于，所述特征提取模块中，对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征的步骤具体包括：

本发明系统的进一步改进在于，所述预测定位模块中，第一预设层数和第二预设层数均为6层。

本发明系统的进一步改进在于，所述预测定位模块中，预训练好的人-物交互定位模型的获取步骤包括：

与现有技术相比，本发明具有以下有益效果：

本发明具体提供的方法，将多实例定位问题转化为集合预测问题，可直接从跨模态特征中预测出结果，且预测准确率较高。具体解释性的，尽管现有方法试图从视觉特征和语言特征中捕获上下文信息，但在直接连接或形式上处理的方法是不够的，跨模态特征缺乏连接，导致对其的使用不足。本发明通过Transformer编码器来建立图像文本间的语义连接，以更深入地挖掘跨模态信息；同时，本发明是一阶段的端到端模型，不依赖预训练的目标检测器，不会受到其带来的性能限制，可以进行端到端训练，并直接输出预测结果，不需要后处理或非极大值抑制等操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提出的人物交互定位(HOI Grounding)与传统视觉定位(VisualGrounding)效果对比示意图；

图2是本发明实施例的一种基于Transformer模型的图像人-物交互定位方法的流程示意图；

图3是本发明实施例的定位结果可视化示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

请参阅图1和图2，本发明实施例的一种基于Transformer模型的图像人-物交互定位方法，具体设计了一个基于Transformer编码器-解码器(encoder-decoder)结构来对描述的人物交互实例进行配对和定位，采用集合预测方法输出结果，具体包括以下步骤：

获取待预测图像以及描述性短语；其中，所述描述性短语用于描述待预测图像中的人-物交互关系；所述待预测图像包括人-物交互场景；具体示例性，所述描述性短语的表述形式为<human，interaction，object>三元组；

分别对待预测图像以及描述性短语进行特征提取，获得图像特征和语言特征；

将图像特征和语言特征输入人-物交互定位模型，输出获得待预测图像所有符合描述性短语的人、物定位框，实现人-物交互定位；

所述人-物交互定位模型包括：

融合编码器，用于输入待融合的视觉-语言特征并进行跨模态融合，获得融合后的跨模态特征；其中，所述待融合的视觉-语言特征的获取步骤包括：将图像特征和语言特征映射至一致的通道，沿特征维度拼接形成待融合的视觉-语言特征

解码器和预测头，用于输入融合后的跨模态特征并进行解码，通过预测头预测获得待预测图像所有符合描述性短语的人、物定位框，实现人-物交互定位。

本发明实施例示例性的，分别对待预测图像以及描述性短语进行特征提取，获得图像特征和语言特征的步骤包括：

对于输入的图像，采用预训练的backbone卷积神经网络以及Transformer编码器进行特征提取，得到图像特征tokens f_v；

对于输入的描述性短语，采用预训练的BERT模型进行特征提取，得到语言特征tokens f_l。

本发明实施例优选的，所述融合编码器为第一预设层数的自注意力编码器；所述解码器为第二预设层数的自注意力解码器。

本发明实施例优选的，所述人-物交互定位模型的训练步骤包括：

获取训练样本集；所述训练样本集的每个样本均包括：图像样本、描述性短语样本以及图像样本中满足描述性短语样本的所有人、物边界框坐标；

基于训练样本集中每个训练样本，对预测结果集合和标签真值间进行匈牙利匹配，对每种匹配组合σ(i)计算以下代价函数：人-物边界框L1距离代价人/-物边界框GIoU代价/>以及交互得分代价/>

通过最小化综合匹配代价函数以获得最优匹配结果。

基于最优匹配结果计算训练损失，达到预设收敛条件完成训练；其中，训练损失包括人-物边界框L1距离损失，人-物边界框GIoU损失，以及交互得分损失，损失函数表达式为：

综上，本发明实施例公开了一种图像人物交互定位(Human-Object InteractionsGrounding)任务，以及一个基于Transformer定位模型，属于计算机视觉领域。该任务要求在给定图像和<人，交互行为，物>短语下，在图中定位出满足短语描述的人和物的边界框。本发明实施例方法基于Transformer编码器-解码器架构将定位问题视为集合预测问题，解决了人物交互场景下的多实例定位问题；不需要预训练的目标检测器或后处理，可实现端到端训练；并利用视觉-语言特征融合，深度挖掘跨模态信息，对交互关系进行建模。该方法能够高效准确地对复杂场景下的人物交互进行定位。

具体实施例，本发明实施例的一种基于Transformer模型的图像人-物交互定位方法，包括以下步骤：

步骤1：视觉模态与语言模态特征提取。

对于输入的图像，首先将尺寸调整到640×640，用预训练的backbone卷积神经网络ResNet50提取卷积特征图，再展平为其中C_v为通道数，N_v为特征token数目。将展平后的图像特征经过6层Transformer编码器进行编码，得到图像tokens f_v。

对于输入的语言短语，将单词对应的word ID经过token嵌入转为token后，输入BERT模型进行编码，得到语言tokens其中，C_l为通道数，N_l为特征token数目。

步骤2：视觉-语言特征融合。将视觉tokens和语言tokens映射至一致的通道数，沿token数维度拼接输入视觉-语言融合编码器进行特征融合。其中，编码器主要有6个相同的encoder层组成，其中每个encoder层主要包含一个多头多尺度自注意力(multi-headmulti-scale self-attention)模块和一个前馈网络(feed-forward network)，这两个部分都有一个残差连接(residual connection)，后接一个层标准化(LayerNormalization)。

在编码器中，输入的视觉-语言特征为值(Values)V_f，生成可学习的融合位置编码，作为视觉-语言融合编码与视觉-语言特征相加，作为查询(Queries)Q_f和键(Keys)K_f，输入层数为6的融合编码器进行自注意力(self-attention)操作：

其中为输入第i层编码器的融合特征，/>为缩放因子；融合编码器的输出E_enc包含跨模态全局记忆，与x_i维度相同。通过视觉-语言特征中的自注意力，融合编码器可以在不同模态的tokens间建立语义联系。

步骤3：定位解码。解码器将N_q个HOI Quries解码为N_q个输出embedding 解码器同样6个相同的encoder层组成，其中每个encoder层主要包含一个多头多尺度自注意力(multi-head multi-scale self-attention)模块和一个前馈网络(feed-forward network)，都由残差连接(residual connection)，后接一个层标准化(Layer Normalization)。

步骤4：定位预测。预测头进一步使用解码后的输出embeddingE_dec生成N_q个预测结果。对应的人-物对的边界框，可以通过人边界框预测头和物边界框预测头分别得到，每一对边界框的交互得分则通过交互预测头得到，预测头都是简单的MLP层。此外，与单目标定位的输出不同，N_q通常大于图像中包含的HOI的数量。因此，模型会学习一个额外的交互得分，来模拟一对人-物之间的存在对应交互的概率，以表征人-物对之间的交互关系；通过交互预测头，配对不正确、交互关系不符、或是重复的人-物边界框对，都会被分配较低的分数。

请参阅图3，本发明实施例提出的模型在HOI数据集V-COCO上进行了测试，该数据集包含多种场景、由简单到复杂、由单实例到多实例的HOI场景。在两个数据集上测试3个定位评价指标：准确度，人边界框平均IoU，以及物边界框平均IoU。同时基于现有先进方法设计了的2个对比模型：其中VG(Visual Grounding)模型(具体解释性的可参阅，JiajunDeng,Zhengyuan Yang,Tianlang Chen,Wengang Zhou,and Houqiang Li,“Transvg:End-to-end visual grounding with transformers,”in ICCV,2021.)由基于Transformer编码器的跨模态视觉定位模型改进得到其仅能输出单个实例结果；HOI-Det(HOI Detection)模型(具体解释性的可参阅，Masato Tamura,Hiroki Ohashi,and Tomoaki Yoshinaga,“Qpic:Query-based pairwise human-object interaction detection with image-widecontextual information,”in CVPR,2021.)由基于Transformer编码器-解码器的HOI检测模型改进得到，其无法利用语言特征。本发明提出的模型与对比模型的性能比较结果如表1所示。

表1.与两个对比模型在V-COCO数据集上的评价结果比较

本发明实施例的方法在多个指标下的表现均超过了比较模型，能够准确匹配和定位场景中的人物交互实例，处于此任务的领先水平。本发明解决了描述人物交互，并且存在多个人/物实例的问题，可以准确定位并匹配复杂场景下的多个人/物实例；本发明为端到端的可学习框架，省去了复杂的多阶段以及后处理流程，简化了定位流程以及训练过程；采用优越的编码器-解码器架构，极大提高了定位的准确性和性能表现。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例中，本发明实施例提供的一种基于Transformer模型的图像人-物交互定位系统，包括：

其中，所述人-物交互定位模型包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于Transformer模型的图像人-物交互定位方法，其特征在于，包括以下步骤：

其中，所述人-物交互定位模型包括：

2.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法，其特征在于，所述描述性短语的表述形式为<human，interaction，object>三元组。

3.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法，其特征在于，所述对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征的步骤具体包括：

4.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法，其特征在于，第一预设层数和第二预设层数均为6层。

5.根据权利要求1所述的一种基于Transformer模型的图像人-物交互定位方法，其特征在于，所述预训练好的人-物交互定位模型的获取步骤包括：

6.一种基于Transformer模型的图像人-物交互定位系统，其特征在于，包括：

其中，所述人-物交互定位模型包括：

7.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统，其特征在于，所述获取模块中，描述性短语的表述形式为<human，interaction，object>三元组。

8.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统，其特征在于，所述特征提取模块中，对待预测图像以及描述性短语分别进行特征提取，获得图像特征以及语言特征的步骤具体包括：

9.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统，其特征在于，所述预测定位模块中，第一预设层数和第二预设层数均为6层。

10.根据权利要求6所述的一种基于Transformer模型的图像人-物交互定位系统，其特征在于，所述预测定位模块中，预训练好的人-物交互定位模型的获取步骤包括：