CN112233054B

CN112233054B - 基于关系三元组的人-物交互图像生成方法

Info

Publication number: CN112233054B
Application number: CN202011086942.8A
Authority: CN
Inventors: 刘偲; 高晨; 李波; 王渌汀
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2022-09-16
Anticipated expiration: 2040-10-12
Also published as: CN112233054A

Abstract

本发明公开了一种基于关系三元组的人‑物交互图像生成方法，该方法包括：根据给定动词修改原始图像中的人物姿态，得到人物图像；根据预先获得的人‑物交互信息，将所述人物图像与预先获得的物体图像进行融合，得到人‑物交互图像。该方法根据给定动词调整人的姿态，并根据人‑物关系进行图像融合，最终得到准确可靠的人‑物交互图像，精确的实现了人物图像中人的姿势调整，并能将物体图像放在相对于人的合理位置上，同时能够将来自不同场景的人物图像和物体图像进行有效的融合，最终得到的人‑物交互图像更加清晰、真实。

Description

基于关系三元组的人-物交互图像生成方法

技术领域

本发明涉及人-物交互图像处理技术领域，更具体的说是涉及一种基于关系三元组的人-物交互图像生成方法。

背景技术

目前，人-物交互检测问题(HOI-DET)需要模型根据图像预测关系三元组(包括人物、动词和物体)，例如(人，扔，飞盘)，这是一个广为关注的研究领域，目前已经有了很多深度学习解决方案与应用场景。与之相反，人-物交互图像生成问题(HOI-IG)需要模型根据给定的关系三元组生成人-物交互场景图像。尽管人-物交互检测问题在过去一段时间被广泛研究，但是目前还没有研究针对人-物交互图像生成问题进行。

现有的基于GAN的模型可以使用类别标签、文字描述、图像等信息控制图像生成。但是这些模型没有考虑如何生成包含多个物体交互的图像，因此不适用HOI-IG任务；基于文本的图像生成方法只能控制目标物体的外观属性，而且只在针对花鸟等简单任务中表现较好；一些工作中，使用场景图生成图像，但是对于人-物交互这样的复杂情景下，生成图像往往比较模糊；基于布局的图像生成方法同样不适用于HOI-IG，因为在输入的布局图中需要包含物体间的相对位置信息，而在HOI-IG中这些信息都需要通过模型生成。

因此，如何提供一种准确可靠的人-物交互图像生成方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于关系三元组的人-物交互图像生成方法，该方法解决了现有的图像生成方法无法准确可靠的生成人-物交互图像的问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于关系三元组的人-物交互图像生成方法，该方法包括：

根据给定动词修改原始图像中的人物姿态，得到人物图像；

根据预先获得的人-物交互信息，将所述人物图像与预先获得的物体图像进行融合，得到人-物交互图像。

进一步地，根据给定动词修改原始图像中的人物姿态，得到人物图像的过程，具体包括：

从原始图像中提取人物外貌信息；

根据给定动词，在预先构建的姿态模板库中选择一个目标姿态；

将所述目标姿态与所述人物外貌信息融合，合成人物图像。

进一步地，从原始图像中提取人物外貌信息的过程具体包括：

对原始图像中人的身体关键点进行检测；

根据所述身体关键点获取人物姿态。

进一步地，根据给定动词在预先构建的姿态模板库中选择一个目标姿态的过程，具体包括：

在预先构建的姿态模板库中选择一簇与给定动词一致的姿态；

在选出的一簇姿态中随机选择一个姿态作为目标姿态。

进一步地，将所述目标姿态与所述人物外貌信息融合，合成人物图像的过程，具体包括：

将所述目标姿态与所述人物外貌信息中的人物姿态分别进行编码，得到编码结果；

将所述编码结果以及所述原始图像一并输入动词引导的人物图像生成器进行训练，生成人物图像。

进一步地，根据预先获得的人-物交互信息，将所述人物图像与预先获得的物体图像进行融合，得到人-物交互图像的过程，具体包括：

分别从所述人物图像和所述物体图像中提取各自的视觉特征，得到两组特征图；

使用RSTN网络对两组特征图进行处理，将所述物体图像的特征图中含有语义信息的区域线性映射到所述人物图像的特征图中对应区域上；

将所述物体图像的特征图与所述人物图像的特征图沿通道方向进行拼接，并将拼接后的图像输入编码器-译码器中进行训练，得到人-物交互图像。

进一步地，所述人-物交互图像的表达式为：

式中，

表示人-物交互图像，

表示编码器-译码器，

表示人物图像的特征图，T_o,p(f_o)表示物体图像的特征图。

进一步地，使用RSTN网络对两组特征图进行处理的过程，具体包括：

将物体类别嵌入映射到隐空间，得到n维隐编码e，并将给定动词嵌入映射到n维向量η_t；

通过条件增强模块计算n维向量c，得到隐编码[e,c]；

根据所述隐编码[e,c]预测物体检测框在图像中的位置，并对位置坐标进行线性变换。

进一步地，对位置坐标进行线性变换，所应用的公式为：

A_θ＝F_θ(F_bbox([e，c]))，

式中，A_θ表示线性变换矩阵，F_bbox(·)和F_θ(·)为两个映射函数，F_bbox(·)的功能是预测物体检测框在图像中的位置，F_θ(·)的功能是根据物体检测框的位置计算线性变换矩阵，[e,c]为隐编码，即用于预测RSTN线性变换矩阵的特征。

进一步地，上述基于关系三元组的人-物交互图像生成方法还包括：判断所述人-物交互图像与期望的人-物交互关系是否一致，并优化所述人-物交互图像。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于关系三元组的人-物交互图像生成方法，该方法根据给定动词调整人的姿态，并根据人-物关系进行图像融合，最终得到准确可靠的人-物交互图像，精确的实现了人物图像中人的姿势调整，并能将物体图像放在相对于人的合理位置上，同时能够将来自不同场景的人物图像和物体图像进行有效的融合，最终得到的人-物交互图像更加清晰、真实。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于关系三元组的人-物交互图像生成方法的实现流程示意图；

图2为本发明实施例中以可视化的方式对比本发明提供的方法与sg2im方法的结果示意图；

图3为本发明实施例中本发明提供的方法与M-StarGAN和M-CycleGAN的对比结果示意图；

图4为本发明实施例中HOI-IG任务示例以及方法整体结构示意图；

图5为本发明实施例中第一阶段的实现原理示意图；

图6为本发明实施例中第二阶段的实现原理示意图；

图7为RSTN模块结构示意图；

图8为本发明实施例中M-sg2im基线结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，本发明实施例公开了一种基于关系三元组的人-物交互图像生成方法，该方法包括：

S1：根据给定动词修改原始图像中的人物姿态，得到人物图像；

S2：根据预先获得的人-物交互信息，将所述人物图像与预先获得的物体图像进行融合，得到人-物交互图像。

本发明实施例提供的上述方法预解决HOI-IG问题，也就是基于人物图像、物体图像以及一个动词，生成一张相应的人-物交互图像。需要解决的技术问题有：

1.姿态问题：如何根据给定动词，调整人物图像中人的姿势。

2.位置问题：由于人和物体的互动关系，需要将物体图像放在相对于人的合理位置上。例如投篮动作中，篮球应放在人物图像中手的对应位置上。

3.融合问题：人物图像和物体图像采集自不同场景，如何将其自然地融合到同一张图像中。融合过程中，物体图像的一部分可能位于人物图像以外，导致融合图像中存在一部分未知区域，需要自动填补。

本实施例提供的方法分两个阶段解决上述问题：第一个阶段根据给定动词调整人的姿态，第二个阶段根据人-物关系进行图像融合。

本实施例首先定义了HOI-IG问题：根据人-物交互信息<H,P,O>生成人-物交互图像

同时收集标注了大量HOI(Human Object Interactions)图像作为HOI-IG数据集。HOI-IG数据集中包含五种交互关系(即投篮、踢足球、放风筝、拉旅行箱、扔飞盘)，共计5224张人-物交互图像。每个类别包含超过1000张图像，本实施例将其随机分为900张训练图像和100张测试图像。

对于每种交互关系，本实施例通过聚类得到五个姿态模板，由此构成大小为25的姿态模板库。为了更加有效地建模人-物交互关系，HOI-IG数据集以语义清晰和数量充足作为构建目标。

为了解决HOI-IG问题，本实施例提出了InteractGAN模型，如下：

其中，H为人物图像，O为物体图像，P为交互动词，G为本实施例的生成部分。G由两个阶段G₁和G₂组成。第一个阶段以H和P作为输入，输出一张人物图像

即

输出图像中的人物需要和输入图像保持一致，同时输出图像的人物动作需要和给定动词一致。

第二阶段以

O以及P作为输入，输出一张融合后的图像

第二阶段的输出图像需要同时包含人物和物体，而且二者的相对位置和比例合理，即

为了解决HOI-IG问题涉及的姿态问题、位置问题、融合问题，本实施例提出了RSTN模块，作为InteractGAN模型的重要组件。该模块可以根据给定动词自动处理图像，以解决人物图像和物体图像在空间上的不对齐问题。

HOI-IG模型需要在HOI-DET的基础上实现图像生成，因此其功能更加强大，可用于网购、电影制作、娱乐等。例如在网购时，用户可以上传一张自己的照片，然后就能看到自己使用商品的情景。

由于现存的HICO-DET数据集仅在每个关系三元组类别下包含少数几张图片，而且类别间的语义信息模糊，所以本发明收集并标注了一个更大且语义信息更加明确的数据集。该数据集包含5224张人-物交互图像，分为5个类别(投篮、踢足球、放风筝、拉旅行箱、扔飞盘)。每个类别包含超过1000张图像，本实施例将其随机分为900张训练图像和100张测试图像。

本实施例还使用了两个人物身份识别任务中的十分具有挑战性的数据集PRW和Market-1501。其中，PRW数据集是在Market1501数据集的基础上搭建的。该数据集同样使用6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄，标注了932个行人、100-500k个检测到的行人矩形框(具体数字依置信概率阈值而定)。人工标记帧数达到11816，生成了43110个行人检测框(其中34304个检测框被标记了身份信息)。平均每个人有36.8张图像，接近Market-1501数据集的二倍。PRW数据集的突出特点是可以端到端地评估身份识别模型的表现。数据集提供了原始视频和人工标注的矩形框，可以用于行人检测和身份识别任务。

Market-1501数据集在清华大学校园中采集，夏天拍摄，在2015年构建并公开。它包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到，并且在一个摄像头中可能具有多张图像。训练集有751人，包含12936张图像，平均每个人有17.2张训练数据；测试集有750人，包含19732张图像，平均每个人有26.3张测试数据。3368张查询图像的行人检测矩形框是人工绘制的，而gallery中的行人检测矩形框则是使用DPM检测器检测得到的。该数据集提供的固定数量的训练集和测试集均可以在single-shot或multi-shot测试设置下使用。

PRW用于训练模型的第一阶段，从PRW的测试集和Market-1501的测试集中分别随机选取的100个主体将作为本实施例的测试集。

考虑到此前没有HOI-IG方面的研究，本实施例对三个最相关的模型(即CycleGAN、StarGAN以及SceneGraph-to-image)进行了修改，以作为实验对比的基线。CycleGAN和StarGAN是基于目标标签的图像翻译领域的最优模型。SceneGraph-to-image是首个基于场景图表示生成真实图像的有效方法。尽管这些方法不能直接用于HOI-IG人物，但是以下对比仍然具有一定意义。

为了对比的公平性，本实施例仅在HOI-IG数据集上训练这些模型根据动词融合图像的能力。由于HOI-IG问题的设定要求输入为两张图像而不是一张图像或场景图，所以本实施例对所有方法进行了修改，以适配HOI-IG问题设定。

经过本实施例中第一阶段处理后的结果会被输入修改后的CycleGAN(即M-CycleGAN)、修改后的StarGAN(即M-StarGAN)以及修改后的SceneGraph-to-image(即M-sg2im)，以生成测试结果。三个修改后的基线模型描述如下：

M-CycleGAN可以将源域的图像风格转换为目标域。具体来说，源域样本是通过在通道维度上连接两张输入图像获得的，因此一共有5个M-CycleGAN模型，每个对应一种关系三元组类别。值得注意的是，本发明尝试了该方法的其他变体，包括在高度或宽度维度上连接，但是这些变体的表现并不好，所以后文中省略了这部分描述，仅保留最优结果。

M-StarGAN可以在多个域之间进行图像翻译。如果把每个关系三元组类别看作一个域，则M-StarGAN有10个域。其中，5个域是原始的人-物交互图像，另外5个域是通道维度上连接过的人物图像和物体图像。

M-sg2im将sg2im模型从噪声到图像的生成模型改为了图像到图像的生成模型，从而适应HOI-IG人物。该模型使用ImageNet上预训练的VGG16模型提取输入人物图像和物体图像的视觉特征，并与输入场景图中对应节点的语义图特征进行连接，进而使用默认的GCN来预测布局。布局图会用于原SceneGraph-to-image方法中的CRN模型进一步生成最终结果。本实施例还将每个物体的16x16视觉特征放入内部布局图的对应位置以改善结果。

数值结果证明了本实施例在Market1501和PRW数据集上的有效性。IS评分(越高越好)和FID评分(越低越好)被用来评价生成结果的多样性与质量。其中，IS(InceptionScore)是一种比较常用的GAN模型评价指标。其设计基于GAN评价的两大指标，即结果的质量与多样性。IS在计算时只使用生成数据的相关信息，对真实数据缺乏考虑，因此无法很好地反映真实数据和生成数据的距离。FID综合考虑了真实数据与生成数据的分布，通过计算其均值与协方差信矩阵行衡量。

本实施例还在AMT平台上进行了用户研究，提供给每个用户一系列动词和物体(共50词，包括推、拉、箱子、旅行箱、扔、拿、接、飞盘、碗等等)。每种方法生成100张图像，而后需要用户选择词库中的词来生辰HOI。最终，本实施例雇佣100名用户计算HOI-pre准确率，其中HOI-pre表示HOI分类的精度。具体参见下表1：

表1在Market1501和PRW数据集上的有效性数据统计

上表1中，Basic-net在InteractGAN模型中删去了RSTN、CS、Lk模块，并且不使用空洞卷积。通过逐一加入上述模块，观察到各项指标均有提升趋势，说明上述模块有助于提升模型性能。

从表1可以看出，本实施例比所有基线模型的IS指标都高，说明结果多样性更强。而且本实施例的FID评分显著低于所有基线模型，说明编辑后的人-物交互更加符合真实数据分布。

表2与基线模型的各类别数据对比统计

从表2可以看出，本实施例在各个类别上的表现都优于基线模型。其中最难的类别是投篮，因为投篮时人的身体姿势会发生很大改变。

本实施例中附图2以可视化的方式对比了本实施例公开的方法与sg2im方法的结果。最左侧的两张图时sg2im原始模型的输出，并且使用了与本发明的关系三元组最相近的场景图。这些结果十分模糊，因为他们都是根据十分简单的场景图生成的。M-sg2im尽管使用了与本发明一致的输入，还是生成了较差的结果。可以看出，本发明有效地对图像内容进行了编辑，使生成图像符合真实数据分布。

本实施例中图3比较了本实施例与M-StarGAN和M-CycleGAN。第一行中，所有生成的风筝都在人的上方，而且具有合适的大小和形状。第二行中，所有生成的旅行箱都在人的旁边，而且人和箱子的大小比例也适中。生成图像中的人也被编辑为特定的姿势，同时保证人的身份信息没有改变。第三行中，所有人都在做扔的动作。这些结果证明了本模型在补全未知区域时的能力。因此，本模型首次解决了HOI-IG的三个主要问题：姿势问题、位置问题以及融合问题，并且获得了相对可接受的结果。

所有基线模型都没有很好解决输入图像和输出图像之间不对齐的问题，也不能对图像内容布局进行有效编辑。尽管实验中尝试了这些方法的许多变体，但是基线模型的生成结果仍然十分模糊，M-CycleGAN和M-StarGAN的结果中甚至缺少语义内容。这是因为简单堆叠卷积层不能根据给定动词迁移特征，这也正是本实施例提出RSTN模块的动机。

本实施例中图4所示含义如下：

(a)HOI-IG任务示例。旅行箱上方的白色区域表示未知。

(b)本发明整体结构。第一阶段根据给定动词修改人物姿态，第二阶段根据人-物交互信息融合人物图像和物体图像。

参见附图5，为本实施例中第一阶段结构。首先根据动词在姿态模板库中选择一个姿态。而后使用该姿态与原图中提取的人物外貌信息合成人物图像。过程中使用了两个U-Net的变种网络。

参见附图6，为本实施例中第二阶段结构。使用CA模块有助于生成更多样化的结果；使用RSTN模块可以解决人物图像和物体图像的位置问题。整体网络以对抗学习方式进行训练。

参见附图7，为RSTN模块结构图。该模块对输入U应用线性变换，输出一个相同大小的特征图V。

参见附图8，为M-sg2im基线结构图，修改部分为虚线框所示。本实施例主要将sg2im模型从噪声到图像的生成模型改为了图像到图像的生成模型，以匹配HOI-IG任务。两张输入图像的视觉特征会被提取并插入场景图和布局图，以改善生成结果。

下面对本实施例公开的上述方法的具体实现流程进行详细说明。

如图4所示，本发明实施例可以被表示为

其中H为人物图像，O为物体图像，P为交互动词，G为本发明的生成部分。G由两个阶段G₁和G₂组成。第一个阶段以H和P作为输入，输出一张人物图像

即

输出图像中的人物需要和输入图像保持一致，同时输出图像的人物动作需要和给定动词一致。第二阶段以

O以及P作为输入，输出一张融合后的图像

第二阶段的输出图像需要同时包含人物和物体，而且二者的相对位置和比例合理。即：

下面对这两个阶段的实施进行详细介绍。

如图5所示，在第一阶段中，主要目标是解决人物姿态问题，并且生成一张具有特定姿态的人物图像。为了使生成的人-物交互场景图像在语义上更加符合交互动作的描述，本实施例引入了动词引导的人物图像生成器，从而对给定人物图像H的姿态进行编辑。具体来说，本发明首先使用姿态估计器对人物图像中人的身体关键点进行检测。因为要考虑到旋转和其他细节的影响，所以直接根据动词P预测目标姿态是比较困难的。本发明采用的方式是，在姿态模板库中选择一簇与P在语义上一致的姿态，然后在这簇姿态中随机选择一个作为目标姿态。姿态模板库是通过在HOI-IG数据集上聚类得到的。为了增强训练过程的鲁棒性，本发明对H中的人物姿态和在模板库中选出的目标姿态进行编码，编码结果以18个热力图的形式呈现。这些热力图以及原始人物图像H会一并传入生成器。

在第一阶段的最后，本发明仿照Deformable GAN中的编码器-译码器结构，以对抗方式训练G₁。与Deformable GAN相比，本发明在以下三个方面有所创新：

1.本发明使用K-means算法对姿态模板库进行聚类。

2.本发明采用了两个判别器，以保持人物身份的不变性以及人物姿态的一致性。

3.本发明使用了不同的代价函数。

图5中的可变形跳跃连接T可用于从编码器E到译码器D’的人物外观特征转变。具体来说，T会对人体的每个部位都应用线性变换，例如右小臂的特征会根据目标姿势被映射到对应的位置上，由此保证H和

的人物身份一致性。

如图6所示，在第二阶段中，主要目标是同时解决物体姿态问题、位置问题以及融合问题。本发明构建了双流网络结构，并使用对抗学习方式处理人物图像和物体图像。首先，两个轻量级特征提取器会从视觉特征

和f_o中分别提取特征。为了有效提出图像的合理布局(也即解决位置问题)，本发明提出了新型的RSTN网络。两个RSTN网络会被分别应用于网络的两个输入流上。

表示人物图像分支上的第一个RSTN，T_o,p(·)表示物体图像分支上的第二个RSTN。本发明使用它们对两组特征图分别处理，并得到两个特征图

和T_o,p(f_o)。经过两个RSTN模块的处理，两个特征图上的含有语义信息的区域都会被合理地线性映射到对应区域，如图6中虚线框所示。这可以使人物特征图与物体特征图上的对应位置符合期望语义。为了保证这些位置关系在人体部位级别合理，本发明进而使用联合关键点目标函数优化RSTN模块，来取得更好的效果。

其中，轻量级特征提取器通过卷积神经网络实现。RSTN网络的实现细节在后文中介绍，此处将RSTN抽象为函数T的形式，以便介绍模型第二阶段的整体处理流程。

更进一步，本发明需要对不同背景区域进行融合，同时需要对位置区域进行填充。这里采用的方法使将两张特征图沿通道方向拼接在一起，然后输入编码器-译码器

中。在对抗学习模式下，

可以精确使用人物和物体的图像特征来生成更加真实的数据分布。至此，第二阶段的处理流程可以写作：

判别器会对不合理的编辑行为做出惩罚，从而保证人物和物体在编辑前后的身份一致性。在

的瓶颈层中，本发明堆叠了残差模块以捕获更加丰富的语义信息，并使用两个空洞卷积核来扩大感受野，从而增强图像处理的能力。

如图7所示，RSTN模块的主要目标是高效生成图像的合理布局，解决图像间的不对齐问题。该模块基于STN网络实现，因为STN网络可以以端到端的形式高效解决特征不对齐的问题。其本质是使用数据驱动的方法，自动学习缩放、旋转以及其他变换，如下所示：

式中，

表示输出特征图中网格的目标坐标，

表示输入特征图中的原始坐标，A_θ表示线性变换矩阵，T表示STN网络，G_i等价于

θ₁₁、θ₁₂、θ₁₃、θ₂₁、θ₂₂和θ₂₃表示线性变换矩阵的元素。

尽管STN这种数据驱动学习方式在分类问题中是可行的，但是在HOI-IG问题的设定下，本发明必须根据给定动词对输入特征图进行动态处理，所以不能使用这种数据驱动模型。举例来说，对于输入<人,踢,足球>，足球和人的大小首先需要被缩放到合适的比例，然后足球还需要被放在人的击球脚下方附近。为此，本发明提出了基于关系的STN也即RSTN，来解决这些问题。

模块首先将物体类别嵌入映射到隐空间得到n维隐编码e，并将动词嵌入映射到n维向量η_t。而后使用图6(a)所示的CA模块来计算n维向量c。这里使用条件增强(CA)模块的目的主要是解决高维隐空间中数据流形不连续的问题，并期望获得更加多样性的结果。本发明在高斯分布N(α(η_t),β(η_t))中随机采样隐变量c₀，其中μ＝α(η_t)与σ＝β(η_t)分别表示嵌入向量η_t的不同映射。另一个n维噪声向量n₀也是从先验分布中随机采样得来的，而后会与c₀相连，从而得到最终的隐编码c。

此外，本发明在训练RSTN时还引入了以下正则化项：

式中，D_KL(·||·)表示KL散度，N表示正态分布，η_t表示动词的嵌入向量，μ＝α(η_t)与σ＝β(η_t)分别表示嵌入向量η_t的不同映射。

用于预测RSTN线性变换矩阵的特征不再是输入特征图本身，而是隐编码[e,c]，其中[,]表示连接操作。而后本发明采用两个映射函数F_bbox(·)和F_θ(·)对位置坐标进行预测，并使用下式对坐标进行线性变换，F_bbox(·)的功能是预测物体检测框在图像中的位置，F_θ(·)的功能是根据物体检测框的位置计算线性变换矩阵。即：

A_θ＝F_θ(F_bbox([e，c]))，

本发明简单地使用L1损失函数约束位置：

L_bbox＝||F_bbox([e，c])-B||₁，

其中，B表示坐标真实值。

此外，与静态物体交互不同，人-物交互的粒度更细。人体不同部位与物体的交互通常具有不同的语义含义，例如拉旅行箱时，箱子不仅需要靠近人的人体，还要在手的下方。因此，本发明构建了另一个映射函数F_k(·)来根据隐编码[e,c]预测联合关键点分布。联合关键点分布描述为一个36维编码，其中包含17个人体关键点和一个物体中心的横纵坐标。同样使用L1损失函数约束坐标一致性，并期望模型输出更加合理的结果，即：

L_k＝||F_k([e，c])-K||₁，

其中，K为联合关键点真实值。L_k会协助F_k(·)生成更加细粒度的结果。

整体模型的训练以对抗学习的方式进行。为此，本发明引入判别器训练InteractGAN模型。判别器的目标是为生成器提供一个特定的训练信号，使其在满足人-物交互条件下，生成更加真实的图像。因此本发明使用投影判别器，利用基于投影的方法来合并那些G₂需要对抗训练的条件信息。

条件类别R会根据关系三元组进行拆分从而得到HOI-IG数据集中的5个类别。像素级重构损失一般有助于图像生成模型收敛，但是考虑到生成图像的多样性，本发明仅使用对抗损失进行训练，即

式中，Ladv表示损失函数，(h,p,o)表示人-物关系三元组，r表示HOI-IG数据集中的五种关系类别之一，Pdata表示数据分布，D表示判别器，G表示生成器。

需要说明的是，本实施例中提到的(H、P、O)表示一类图像或动词，公式中的(h,p,o)表示对应类别中的具体实例。类似于集合及其中元素的关系，所以严格来说不属于同一概念。这里使用大小写分别表示以凸显二者的联系。

投影判别器可以判断生成图像是否与期望的人-物交互关系一致，并且激励生成器生成更加真实甚至无法与真实图像区分的图像。判别器的对抗损失为L_D＝-L_adv。生成器对抗损失L_G以及本发明的最终目标函数如下

L＝λ₁(L_G+L_D)+λ₂L_bbox+λ₃L_k，

其中，λ_i(i＝1,…,3)表示各个损失项的相对权重，L表示损失函数，(h,p,o)表示人-物关系三元组，r表示HOI-IG数据集中的五种关系类别之一，Pdata表示数据分布，D表示判别器，G表示生成器。

在第一阶段，本发明使用Deformable GAN的超参数设置在PRW数据集上训练模型。在第二阶段，本发明使用Adam优化器训练网络。具体地，生成器和判别器的优化器参数都设置为β₁＝0.5和β₂＝0.99。最终目标函数中的权重因子设为λ₁＝2,λ₂＝1,λ₃＝0.2,λ₄＝0.1。本发明对生成器和判别器的所有网络层使用Spectral Norm，并将批次大小设置为4。另外，本发明训练模型的初始学习率为0.0001(生成器)以及0.0004(判别器)。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。