CN114821188A

CN114821188A - 图像处理方法、场景图生成模型的训练方法以及电子设备

Info

Publication number: CN114821188A
Application number: CN202210550272.3A
Authority: CN
Inventors: 潘滢炜; 姚霆; 梅涛
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-07-29

Abstract

本公开涉及一种图像处理方法、场景图生成模型的训练方法以及电子设备，涉及图像处理领域。本公开的方法包括：从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；根据每个目标对的信息确定每个目标对的视觉关系特征；根据每个目标对的视觉关系特征确定每个目标对的关系显著度；根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。

Description

图像处理方法、场景图生成模型的训练方法以及电子设备

技术领域

本公开涉及图像处理领域，特别涉及一种图像处理方法、场景图生成模型的训练方法以及电子设备。

背景技术

场景图是对于视觉场景的一种符号化表示，它将场景中的目标抽象成图节点，将目标间的关系抽象成连接节点的边。场景图生成技术以给定的图像作为输入，通过算法模型生成与图像场景相应的场景图表示，其挑战在于不仅需要检测出图像中的所有目标，还需要识别目标间的视觉关系。基于场景图的视觉推理对于理解图像数据中的丰富语义至关重要，并且可以支撑众多视觉-语言下游任务。

发明人已知的目前场景图生成方法的基本思路是：首先检测出图像中的所有目标，然后枚举两两目标的组合，并构建目标对的关系特征；接下来，强化目标与关系的特征；最后，基于这些特征进行目标和关系的分类，输出场景图。

发明内容

发明人发现：现有场景图生成技术关注于尽可能完整地捕捉目标之间的关系，不可避免地导致所生成的场景图不能聚焦于最重要或显著的视觉关系。这与人类智能对于视觉场景的感知存在分歧—我们总是迅速把注意力集中到图像中最显著的目标和关系。这种缺陷也妨碍了场景图对下游任务支持的有效性，比如人在描述图像时，通常会重点关注由最显著的目标和关系所构成的事件，而基于现有技术生成的场景图，往往不能聚焦于图像的要点内容，不能准确的描述图像中的视觉关系。

本公开所要解决的一个技术问题是：如何针对图像生成更加准确的场景图。

根据本公开的一些实施例，提供的一种图像处理方法，包括：从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；根据每个目标对的信息确定每个目标对的视觉关系特征；根据每个目标对的视觉关系特征确定每个目标对的关系显著度；根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。

在一些实施例中，根据每个目标对的信息确定每个目标对的视觉关系特征包括：针对每个目标对，根据第一目标的位置信息和第二目标的位置信息，确定包含第一目标和第二目标的最小矩形区域，作为并集区域，确定第一目标和第二目标的交叉区域，作为交集区域；确定并集区域的特征信息和位置信息，交集区域的特征信息和位置信息；根据该目标对的信息，并集区域的特征信息和位置信息，交集区域的特征信息和位置信息，确定该目标对的视觉关系特征。

在一些实施例中，根据该目标对的信息，并集区域的特征信息和位置信息，交集区域的特征信息和位置信息，确定该目标对的视觉关系特征包括：根据第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息，确定该目标对对应的外观特征；根据第一目标的位置信息，第二目标的位置信息，并集区域的位置信息和交集区域的位置信息，确定该目标对对应的空间特征；根据第一目标的分类信息和第二目标的分类信息，确定该目标对对应的语义特征；根据该目标对对应的外观特征，空间特征和语义特征，确定该目标对的视觉关系特征。

在一些实施例中，根据第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息，确定该目标对对应的外观特征包括：分别将第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息输入外观特征提取器，映射成预设维度的特征向量，分别得到第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征；将第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征进行拼接，得到该目标对对应的外观特征。

在一些实施例中，针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，从图像的特征图中提取每个区域的特征，分别作为第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息。

在一些实施例中，第一目标的位置信息包括第一目标的边界框的顶点坐标，第二目标的位置信息包括第二目标的边界框的顶点坐标，并集区域的位置信息包括并集区域的顶点坐标，交集区域的位置信息包括交集区域的顶点坐标，根据第一目标的位置信息，第二目标的位置信息，并集区域的位置信息和交集区域的位置信息，确定该目标对对应的空间特征包括：针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，确定中心点的坐标，宽度和高度；根据该区域的中心点的坐标，顶点坐标，宽度，高度以及图像的宽度和高度，确定表示该区域在图像中位置和占比的空间特征；将第一目标的边界框区域的空间特征，第二目标的边界框区域的空间特征，交集区域的空间特征和并集区域的空间特征进行拼接，得到该目标对对应的空间特征。

在一些实施例中，分类信息包括：类别名称，根据第一目标的分类信息和第二目标的分类信息，确定该目标对对应的语义特征包括：将第一目标的类别名称编码后输入词嵌入矩阵，得到第一目标的词嵌入向量；将第二目标的类别名称编码后输入词嵌入矩阵，得到第二目标的词嵌入向量；将第一目标的词嵌入向量和第二目标的词嵌入向量进行拼接，得到该目标对对应的语义特征。

在一些实施例中，根据每个目标对的视觉关系特征确定每个目标对的关系显著度包括：针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

在一些实施例中，根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图包括：将各个目标分别作为场景图中的节点，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息；针对场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息；根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成图像对应的带有关系显著度的场景图。

在一些实施例中，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息包括：在每一轮更新过程中，针对每个节点，根据该节点与各个邻居节点组成的目标对的关系显著度，选取预设数量的邻居节点作为关联节点；根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息，其中，首轮更新过程每个节点的特征信息为从图像中提取的特征信息。

在一些实施例中，根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息包括：针对该节点的每个关联节点，基于注意力机制确定由该节点到该关联节点进行消息聚合的第一权重，以及该关联节点到该节点进行消息聚合的第二权重；根据上一轮更新过程中更新后的各个关联节点的特征信息以及各个关联节点对应的第一权重和第二权重，对上一轮更新过程中更新后的各个关联节点的特征信息进行融合，得到本轮更新过程中该节点对应的融合特征信息；将上一轮更新过程中更新后的该节点的特征信息和本轮更新过程中该节点对应的融合特征信息输入第一门控循环单元GRU，得到本轮的更新过程中更新后的该节点的特征信息。

在一些实施例中，针对场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息包括：在每一轮的更新过程中，针对场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息；将上一轮更新过程中确定的该边的特征信息和本轮更新过程中该边对应的融合特征信息输入第二门控循环单元GRU，得到本轮的更新过程中确定的该边的特征信息，其中，首轮更新过程每条边的特征信息为该边连接的两个节点组成的目标对的视觉关系特征。

在一些实施例中，在每一轮的更新过程中，针对场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息包括：在每一轮的更新过程中，针对场景图中的每条边，将沿着该边的方向的起始节点和终止节点的特征信息进行拼接，并将拼接后的特征信息输入全连接层，确定本轮更新过程中该边对应的融合特征信息，其中，全连接层包括非线性激活函数。

在一些实施例中，根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成图像对应的带有关系显著度的场景图包括：将各个节点的特征信息输入目标分类器，得到各个节点属于各个目标类别的第一概率；将各条边的特征信息输入谓语分类器，得到各条边属于各个谓语类别的第二概率；针对两个节点的目标类别和两个节点之间的边的谓语类别组成的每个三元组，根据该三元组对应的第一概率，第二概率以及两个节点组成的目标对的关系显著度大于预设显著度级别的预测概率，确定该三元组的概率；根据所有三元组的概率选取三元组，将选取的三元组中的目标类别和谓语类别分别作为对应的节点的目标类别和对应的边的谓语类别，并将两个节点组成的目标对的关系显著度添加到对应的边上，以生成带有关系显著度的场景图。

在一些实施例中，该方法还包括以下至少一项：在图像中的目标包括人物的情况下，根据场景图确定人物的行为或意图；在图像中的目标包括人物和物体的情况下，根据场景图确定人物和物体的关系，根据人物和物体的关系对物体进行分拣；根据场景图进行视觉问题的答复；根据场景图进行跨模态检索；根据场景图生成图像的描述文本。

根据本公开的另一些实施例，提供的一种场景图生成模型的训练方法，包括：获取多个训练样本图像，其中，每个训练样本图像标注了各个目标的目标类别，一个或多个目标对中每个目标对的关系显著度，每个目标对对应的谓语类别；针对每个训练样本图像，将该训练样本图像输入场景图生成模型的目标检测器，提取目标对以及每个目标对的信息，其中，样本图像每个目标对的信息包括：第三目标的特征信息，位置信息和分类信息，第四目标的特征信息，位置信息和分类信息；将每个目标对的信息输入场景图生成模型的目标交互编码器，确定每个目标对的视觉关系特征；将每个目标对的视觉关系特征输入场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度；将每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度输入场景图生成模型的场景图生成器，生成图像对应的带有关系显著度的场景图；根据场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对场景图生成模型的参数进行调整，以完成训练。

在一些实施例中，根据场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对场景图生成模型的参数进行调整包括：根据场景图中各个节点的目标类别和标注的各个目标的目标类别之间的差别，确定目标分类损失函数；根据场景图中各条边的谓语类别和标注的每个目标对对应的谓语类别之间的差别，确定谓语分类损失函数；根据场景图中任意两个节点组成的目标对的关系显著度和标注的每个目标对的关系显著度之间的差别，确定关系显著度损失函数；根据目标分类损失函数，谓语分类损失函数和关系显著度损失函数，确定总损失函数；根据总损失函数对场景图生成模型的参数进行调整。

在一些实施例中，将每个目标对的视觉关系特征输入场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度包括：针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

在一些实施例中，根据场景图中任意两个节点组成的目标对的关系显著度和标注的每个目标对的关系显著度之间的差别，确定关系显著度损失函数包括：针对场景图中任意两个节点组成的目标对，根据该目标对对应的各个子分类器输出的关系显著度级别的预测概率，与标注的该目标对的关系显著度级别的差别，确定第一子损失函数；根据该目标对对应的相邻两种关系显著度级别的预测概率之间的差，确定第二子损失函数，其中，相邻两种关系显著度级别中高级别的预测概率大于低级别的预测概率的情况越多，第二子损失函数的值越大；根据任意两个节点组成的目标对对应的第一子损失函数和第二子损失函数，确定关系显著度损失函数。

根据本公开的又一些实施例，提供的一种场景图生成模型，包括：目标检测器，用于接收输入的图像，从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；目标交互编码器，用于根据每个目标对的信息确定每个目标对的视觉关系特征；关系显著度估计器，用于根据每个目标对的视觉关系特征确定每个目标对的关系显著度；场景图生成器，用于根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。

根据本公开的再一些实施例，提供的一种图像处理装置，包括：目标检测模块，用于从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；特征确定模块，用于根据每个目标对的信息确定每个目标对的视觉关系特征；关系显著度确定模块，用于根据每个目标对的视觉关系特征确定每个目标对的关系显著度；生成模块，用于根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。

根据本公开的又一些实施例，提供的一种场景图生成模型的训练装置，包括：获取模块，用于获取多个训练样本图像，其中，每个训练样本图像标注了各个目标的目标类别，一个或多个目标对中每个目标对的关系显著度，每个目标对对应的谓语类别；目标检测模块，用于针对每个训练样本图像，将该训练样本图像输入场景图生成模型的目标检测器，提取目标对以及每个目标对的信息，其中，样本图像每个目标对的信息包括：第三目标的特征信息，位置信息和分类信息，第四目标的特征信息，位置信息和分类信息；特征确定模块，用于将每个目标对的信息输入场景图生成模型的目标交互编码器，确定每个目标对的视觉关系特征；关系显著度确定模块，用于将每个目标对的视觉关系特征输入场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度；生成模块，用于将每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度输入场景图生成模型的场景图生成器，生成图像对应的带有关系显著度的场景图；参数调整模块，用于根据场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对场景图生成模型的参数进行调整，以完成训练。

根据本公开的再一些实施例，提供的一种电子设备，包括：处理器；以及耦接至处理器的存储器，用于存储指令，指令被处理器执行时，使处理器执行如前述任意实施例的图像处理方法或者前述任意实施例的场景图生成模型的训练方法。

根据本公开的又一些实施例，提供的一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意实施例的图像处理方法或者前述任意实施例的场景图生成模型的训练方法。

本公开的方案中从图像中提取每个目标对的信息，每个目标对的信息包括第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息，进而根据每个目标对的信息确定每个目标对的视觉关系特征，这样形成的视觉关系特征就融合了第一目标和第二目标的特征、位置和类别等信息，对于视觉关系的显著度的判断能够起到重要作用。进一步，根据每个目标对的视觉关系特征确定每个目标对的关系显著度，根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。本公开的方案对齐场景图表示和人类视觉感知，在场景图中增加关系显著度属性，用于表示视觉关系对于图像场景的相对重要性，而不是不分主次地对待所有视觉关系，从而针对图像生成更加准确的场景图。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开的一些实施例的图像处理方法的流程示意图。

图2示出本公开的一些实施例的场景图生成模型的示意图。

图3示出本公开的一些实施例的场景图生成模型的训练方法的流程示意图。

图4示出本公开的一些实施例的图像处理装置的结构示意图。

图5示出本公开的一些实施例的场景图生成模型的训练装置的结构示意图。

图6示出本公开的一些实施例的电子设备的结构示意图。

图7示出本公开的另一些实施例的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开提出一种图像处理方法，下面结合图1～3进行描述。

图1为本公开图像处理方法一些实施例的流程图。如图1所示，该实施例的方法包括：步骤S102～S108。

在步骤S102中，从图像中提取一个或多个目标对以及每个目标对的信息。

本公开的场景图生成模型是一种关系显著度引导的消息传递框架可以称为SMP(Saliency Message Passing)，用于生成带有关系显著度的场景图。如图2所示，SMP包括：目标检测器，目标交互编码器，关系显著度估计器，场景图生成器。目标检测器，用于接收输入的图像，从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；目标交互编码器，用于根据每个目标对的信息确定每个目标对的视觉关系特征；关系显著度估计器，用于根据每个目标对的视觉关系特征确定每个目标对的关系显著度；场景图生成器，用于根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。目标检测器，目标交互编码器，关系显著度估计器，场景图生成器的具体功能可以参考后续实施例。

首先，将图像输入场景图生成模型的目标检测器，检测出图像中的一个或多个目标，将每两个目标组成目标对。目标检测器例如为Faster R-CNN等神经网络模型，不限于所举示例。目标检测器可以输出每个目标的位置信息，例如，每个目标的边界框(BoundingBox)的坐标信息，还可以输出每个目标的分类信息，即目标的类别。目标检测器中的特征提取网络还可以提取图像的特征信息(例如，特征图谱)，再从图像的特征信息中提取每个目标的特征信息。例如，每一个目标o_i可以表示为o_i＝(l_i,b_i)，其中l_i目标的类别标签，

代表目标边界框(Bounding Box)的空间位置。

每个目标对包括：第一目标和第二目标，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息。在视觉关系描述中第一目标可以作为主语，第二目标可以作为宾语，两者之间的视觉关系可以作为谓语。例如，每一个视觉关系r_m∈R是一个<主语-谓语-宾语>三元组，可表示为r_m＝(o_i,p_ij,o_j)，其中p_ij是谓语类别的标签，用于描述目标o_i到o_j的视觉交互。

在步骤S104中，根据每个目标对的信息确定每个目标对的视觉关系特征。

将每个目标对的信息输入目标交互编码器确定每个目标对的视觉关系。为了更加准确的描述每个目标对的视觉关系特征，基于第一目标和第二目标的位置信息确定第一目标和第二目标的并集区域和交集区域，并利用并集区域和交集区域的特征信息和位置信息生成目标对的视觉关系特征。

在一些实施例中，针对每个目标对，根据第一目标的位置信息和第二目标的位置信息，确定包含第一目标和第二目标的最小矩形区域，作为并集区域，确定第一目标和第二目标的交叉区域，作为交集区域；确定并集区域的特征信息和位置信息，交集区域的特征信息和位置信息；根据该目标对的信息，并集区域的特征信息和位置信息，交集区域的特征信息和位置信息，确定该目标对的视觉关系特征。例如，将包含第一目标的边界框和第二目标的边界框的最小矩形区域作为并集区域，将第一目标的边界框和第二目标的边界框的交叉区域作为交集区域。

为了提高每个目标对的视觉关系特征的准确性，设计的目标交互编码器能够从交集和并集以及三个不同的角度(即外观、语义和空间)进行关系表示学习。具体而言，目标交互编码器使用了三个特征提取器(即外观、语义和空间特征提取器)从不同角度学习关系的表示。

在一些实施例中，根据第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息，确定该目标对对应的外观特征；根据第一目标的位置信息，第二目标的位置信息，并集区域的位置信息和交集区域的位置信息，确定该目标对对应的空间特征；根据第一目标的分类信息和第二目标的分类信息，确定该目标对对应的语义特征；根据该目标对对应的外观特征，空间特征和语义特征，确定该目标对的视觉关系特征。

在一些实施例中，针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，从图像的特征图中提取每个区域的特征，分别作为第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息。可以利用ROIAlign(感兴趣区域对齐)算法从图像特征图谱(Feature Map)为每个区域提取外观特征图谱(例如，提取尺寸为7×7×D的特征图谱,D＝512或256取决于不同的主干网络，D为特征的通道数)。提取每个区域的特征的模块可以设置于目标检测器或目标交互编码器中，或者部分设置于目标检测器，部分设置于目标交互编码器，也可以单独设置，不影响整体模型的使用和性能。

针对外观特征提取器，在一些实施例中，分别将第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息输入外观特征提取器，映射成预设维度的特征向量，分别得到第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征；将第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征进行拼接，得到该目标对对应的外观特征。

例如，利用两层带有ReLU激活函数的全连接层将每个外观特征图谱映射成低维向量，即某区域的外观特征。对于两个目标交集区域为空集这种特殊情况，可以使用一个全零向量代表交集的外观特征。通过拼接四个区域的外观特征，得到目标对对应的外观特征。

针对空间特征提取器，在一些实施例中，第一目标的位置信息包括第一目标的边界框的顶点坐标，第二目标的位置信息包括第二目标的边界框的顶点坐标，并集区域的位置信息包括并集区域的顶点坐标，交集区域的位置信息包括交集区域的顶点坐标；针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，确定中心点的坐标，宽度和高度；根据该区域的中心点的坐标，顶点坐标，宽度，高度以及图像的宽度和高度，确定表示该区域在图像中位置和占比的空间特征；将第一目标的边界框区域的空间特征，第二目标的边界框区域的空间特征，交集区域的空间特征和并集区域的空间特征进行拼接，得到该目标对对应的空间特征。

例如，可以确定中心点的横坐标和纵坐标分别与图像的宽度和高度的比例，确定区域的宽度和高度分别与图像的宽度和高度的比例，确定顶点横坐标和纵坐标分别与图像的宽度和高度的比例，确定区域的面积和图像面积的比例，将上述一种或多种比例作为每个区域的原始空间特征，根据原始空间特征生成该区域的空间特征。

例如，针对每个区域，将该区域的边界框坐标表示为(x₁,y₁,x₂,y₂)，每个区域的原始空间特征

可以采用以下公式表示:

其中，

表示边界框的中心点的坐标，(w,h)＝(x₂-x₁,y₂-y₁)表示边界框的宽与高，(W,H)是图像整体的宽与高。对于交集区域为空集的情况，可以使用一个9维零向量代表原始空间特征。然后，使用全连接层将各个区域的原始空间特征映射为一个64维向量，即空间特征。通过空间特征可以描述每个区域在图像中的相对位置和比例。最终，目标对对应的空间特征可以通过拼接4个区域的空间特征得到。

针对语义特征提取器，在一些实施例中，分类信息包括：类别名称，将第一目标的类别名称编码后输入词嵌入矩阵，得到第一目标的词嵌入向量；将第二目标的类别名称编码后输入词嵌入矩阵，得到第二目标的词嵌入向量；将第一目标的词嵌入向量和第二目标的词嵌入向量进行拼接，得到该目标对对应的语义特征。

例如，将类别名称采用one-hot(独热)编码，在将编码输入词嵌入矩阵得到词嵌入向量。可以采用一个嵌入层来编码第一目标和第二目标的类别名称，即

其中W_e例如是由Glove初始化的词嵌入矩阵，不限于所举示例，l是基于整个标签词库的独热编码(one-hot vector)。通过拼接第一目标和第二目标的两个嵌入向量，得到目标对对应的语义特征。

最终，针对每个目标对，可以将该目标对对应的外观特征，空间特征和语义特征进行拼接，得到该目标对的视觉关系特征。

在步骤S106中，根据每个目标对的视觉关系特征确定每个目标对的关系显著度。

将每个目标对的视觉关系特征输入关系显著度估计器，得到每个目标对的关系显著度。关系显著度估计器的目标是在图像中识别视觉显著的关系，使其很自然地和人类感知对齐。

可以将关系显著度划分为有序的多个级别(例如，0代表无关系，1代表感知上次要的关系，2代表显著的关系)，因此，可以将关系显著度估计任务建模成一个有序回归问题。为了解这个有序回归问题，可以将其分解为多个二分类子问题。给定视觉关系r_i的特征表示为u_i，目标是预测其对应的显著度

属于S个级别(记为{0,1,…,S-1})中的哪个级别。这个问题可以转换成S-1个子任务，每个子任务的目标在于判断

是否成立，其中k∈{0,1,…,S-2}。

因此，在一些实施例中，针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

关系显著度估计器可以采用多层感知器(MLP)实现，不限于所举示例，将u_i作为输入，有S-1个子分类器，子分类器例如包含Sigmoid激活函数和输出单元。将第k个输出单元的输出值记为

表示

的概率值。例如，将各个关系显著度级别对应的预测概率进行累加，确定该目标对的关系显著度。例如，对于一个视觉关系r′，可以通过累加所有的输出概率得到显著度的期望值作为该目标对的关系显著度，可以采用以下公式表示：

在步骤S108中，根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。

场景图数据结构G＝(O,R)通过将所有目标O＝{o₁,…,o_N}抽象为图节点，N为目标的个数，将任意两个目标间的视觉关系R＝{r₁,…,r_M}抽象为场景图中的边，M为目标对的个数(M＝N*(N-1))。考虑到传统的场景图不能够表达视觉关系的显著度，可以为图中的每一条边附加一个关系显著度s_ij，使其更好地和人类智能对于场景的感知对齐。相应地，图中的边可表示为r_m＝(o_i,p_ij,s_ij,o_j)。s_ij的值越高，代表该视觉关系从感知角度而言越重要。

场景图生成过程中，首先针对每个目标，通过在目标与邻节点进行消息传递，融入上下文信息，以便进行更好地目标类别和谓语类别预测。然而，如果在目标与所有的邻节点之间进行消息传递，不仅伴随较大的计算压力，且由于次要的视觉关系参与计算，不可避免地影响消息传递过程的稳定性。因此，在场景图生成器中设计了一种显著度引导的消息传递模块，用于促进关系显著度估计和场景图生成两个子任务的交互。该模块的设计思想是，过滤掉不显著的关系，然后顺着显著的关系连接进行消息传递，持续迭代地强化对于目标和关系的预测。

在一些实施例中，将各个目标分别作为场景图中的节点，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息；针对场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息；根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成图像对应的带有关系显著度的场景图。

在场景图中用v_i和e_ij分别代表图节点i和边i→j的特征信息，其中边i→j表示从节点i到节点j的有向边，其对应的关系显著度的值记为s_ij。v_i和e_ij由从图像中提取的目标的特征信息和目标交互编码器输出的视觉关系特征进行初始化。

消息传递(更新)过程可以执行多轮，每一轮更新过程中，更新各个节点的特征信息和各条边的特征信息。在一些实施例中，在每一轮更新过程中，针对每个节点，根据该节点与各个邻居节点组成的目标对的关系显著度，选取预设数量的邻居节点作为关联节点；根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息，其中，首轮更新过程每个节点的特征信息为从图像中提取的特征信息。

在一些实施例中，每一轮消息传递(更新)过程包括：消息池化和特征精调两个步骤。消息池化的目标在于聚合从邻居节点而来的消息。针对每个节点，可以将该节点与各个邻居节点组成的目标对的关系显著度按照从高到底进行排序，按照排序顺序选取预设数量的邻居节点作为关联节点。即对于每一个节点，只需从最关联的K(预设数量)个邻居节点(根据关系显著度排序)获取消息。

针对消息池化过程，在一些实施例中，针对该节点的每个关联节点，基于注意力机制确定由该节点到该关联节点进行消息聚合的第一权重，以及该关联节点到该节点进行消息聚合的第二权重；根据上一轮更新过程中更新后的各个关联节点的特征信息以及各个关联节点对应的第一权重和第二权重，对上一轮更新过程中更新后的各个关联节点的特征信息进行融合，得到本轮更新过程中该节点对应的融合特征信息。

第一权重和第二权重对应的边的方向不同，第一权重对应由该节点朝外连接，第二权重对应其他节点向该节点朝内连接。例如，针对每个关联节点，将上一轮更新过程中更新后的该关联节点的特征信息分别与第一权重和第二权重相乘，得到第一消息和第二消息，将各个关联节点对应的第一消息进行累加，将各个关联节点对应的第二消息进行累加，再通过映射函数将累加后的第一消息和第二消息进行融合，得到本轮更新过程中该节点对应的融合特征信息。

例如，对于节点i的消息(融合特征信息，记为m_i)，通过拼接来自朝外连接和朝内连接的节点消息得到，并且利用映射函数φ_v进行融合，可以采用以下公式确定：

其中，topK代表由节点i作为起点/终点的前K个最显著的视觉关系的显著度值构成的集合，f_out和f_in代表消息聚合过程中学习注意力权重的函数，f_out(v_i,v_j)和f_in(v_i,v_j)分别表示第一权重和第二权重。可以使用带Softmax归一化函数的全连接层实现f_out和f_in，可以使用带LeakyReLU非线性激活函数的全连接层实现φ_v。

针对特征精调过程，在一些实施例中，将上一轮更新过程中更新后的该节点的特征信息和本轮更新过程中该节点对应的融合特征信息输入第一门控循环单元GRU，得到本轮的更新过程中更新后的该节点的特征信息。

特征精调步骤利用蕴藏在池化消息中的上下文信息，丰富节点的表示，可以采用以下公式确定本轮的更新过程中更新后的该节点的特征信息：

v_i＝GRU_v(v_i,m_i) (4)

其中，GRU_v代表用于记忆和精调节点的第一GRU网络。

对于每条边，消息池化过程为：在一些实施例中，在每一轮的更新过程中，针对场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息。

在一些实施例中，在每一轮的更新过程中，针对场景图中的每条边，将沿着该边的方向的起始节点和终止节点的特征信息进行拼接，并将拼接后的特征信息输入全连接层，确定本轮更新过程中该边对应的融合特征信息，其中，全连接层包括非线性激活函数。

例如，对于边i→j的消息(融合特征信息，记为m_ij)，通过拼接节点i和节点j的特征并映射得到，可以采用以下公式确定：

m_ij＝φ_e([v_i,v_j]) (5)

其中，φ_e是映射函数，可以由带LeakyReLU非线性激活函数的全连接层实现。

特征精调过程为：在一些实施例中，将上一轮更新过程中确定的该边的特征信息和本轮更新过程中该边对应的融合特征信息输入第二门控循环单元GRU，得到本轮的更新过程中确定的该边的特征信息，其中，首轮更新过程每条边的特征信息为该边连接的两个节点组成的目标对的视觉关系特征。

例如，可以采用以下公式确定本轮的更新过程中更新后的该边的特征信息：

e_ij＝GRU_e(e_ij,m_ij) (6)

其中，GRU_e分别代表用于记忆和精调边的第二GRU网络。

最终，经过T轮消息传递迭代，得到由上下文消息强化的节点和边的表示，这被用来分别预测节点的目标类别和边的谓语类别。

在一些实施例中，将各个节点的特征信息输入目标分类器，得到各个节点属于各个目标类别的第一概率；将各条边的特征信息输入谓语分类器，得到各条边属于各个谓语类别的第二概率；针对两个节点的目标类别和两个节点之间的边的谓语类别组成的每个三元组，根据该三元组对应的第一概率，第二概率以及两个节点组成的目标对的关系显著度大于预设显著度级别的预测概率，确定该三元组的概率；根据所有三元组的概率选取三元组，将选取的三元组中的目标类别和谓语类别分别作为对应的节点的目标类别和对应的边的谓语类别，并将两个节点组成的目标对的关系显著度添加到对应的边上，以生成带有关系显著度的场景图。目标分类器和谓语分类器可以均由带Softmax激活的两层感知器实现，不限于所举示例。

例如，排序所有预测的关系三元组用于挑选，每个三元组r′＝(s,p,o)的排序分数(概率)使用下列公式计算：

C_r′＝P(s)·P(o)·P(p)·P(r′is salient) (7)

其中，P(s),P(o),P(p)代表对于主语、宾语、谓语类别预测概率，即作为主语的节点的第一概率、作为宾语的节点的第一概率和两者之间的谓语的第二概率。例如，针对三元组(women，holding，bat)，P(s)＝0.8表示主语为women的概率为0.8，P(o)＝0.5表示宾语为bat的概率为0.5，P(p)＝0.7表示谓语为holding的概率为0.7，以显著度等级数S＝3的情况为例，P(r′is salient)＝P(S_r′>1)，则三元组(women，holding，bat)的概率，C_r′＝0.8*0.5*0.7*P(S_r′>1)。

上述实施例中，提出使用统一的模型联合进行显著度估计和视觉关系检测，用于生成带关系显著度的场景图。设计了一种新的显著度引导的消息传递架构(简称为SMP)，利用估计的关系显著度促进场景图生成，且所提出的SMP架构可以被“端到端”联合优化。可以首先利用目标检测器寻找图片中所有的目标区域；接着，对每一对目标，我们利用目标交互编码器从外观、语义和空间等角度构建其视觉关系的特征表示；然后，把每一视觉关系的特征表示输入到关系显著度估计器，估计视觉关系的显著度；进一步地，丢弃相对不显著的关系，只顺着显著的关系连接执行消息传递过程，持续迭代地增强对于目标和关系的预测，最终提升算法对于带关系显著度的场景图的生成效果。

上述实施例的方案中从图像中提取每个目标对的信息，每个目标对的信息包括第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息，进而根据每个目标对的信息确定每个目标对的视觉关系特征，这样形成的视觉关系特征就融合了第一目标和第二目标的特征、位置和类别等信息，对于视觉关系的显著度的判断能够起到重要作用。进一步，根据每个目标对的视觉关系特征确定每个目标对的关系显著度，根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。上述实施例的方案对齐场景图表示和人类视觉感知，在场景图中增加关系显著度属性，用于表示视觉关系对于图像场景的相对重要性，而不是不分主次地对待所有视觉关系，从而针对图像生成更加准确的场景图。

生成的场景图可以用于下游任务。在一些实施例中，可以执行以下任意一项：在图像中的目标包括人物的情况下，根据场景图确定人物的行为或意图；在图像中的目标包括人物和物体的情况下，根据场景图确定人物和物体的关系，根据人物和物体的关系对物体进行分拣；根据场景图进行视觉问题的答复；根据场景图进行跨模态检索；根据场景图生成图像的描述文本。

由于场景图中包括各个目标之间的关系以及关系显著度，图像中包括人物的情况下，可以确定人物的主要行为或意图，可以确定人物和物体的主要关系。根据场景图进行视觉问题的答复，例如，问题为图像中的人在做什么，可以根据场景图得出图像中的人在打球。跨模态检索例如根据场景图搜索相似的文本，或者根据文本搜索的相似的图像。根据场景图还可以生成图像描述文本。

下面结合图3描述场景图生成模型的训练方法。

图3为本公开图像处理方法一些实施例的流程图。如图3所示，该实施例的方法包括：步骤S302～S312。

在步骤S302中，获取多个训练样本图像。

每个训练样本图像标注了各个目标的目标类别，一个或多个目标对中每个目标对的关系显著度，每个目标对对应的谓语类别。

在步骤S304中，针对每个训练样本图像，将该训练样本图像输入场景图生成模型的目标检测器，提取目标对以及每个目标对的信息。

样本图像每个目标对的信息包括：第三目标的特征信息，位置信息和分类信息，第四目标的特征信息，位置信息和分类信息。

在步骤S306中，将每个目标对的信息输入场景图生成模型的目标交互编码器，确定每个目标对的视觉关系特征。

在步骤S308中，将每个目标对的视觉关系特征输入场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度。

在步骤S310中，将每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度输入场景图生成模型的场景图生成器，生成图像对应的带有关系显著度的场景图；

步骤S304～S310可以参考前述实施例的方法。

在步骤S312中，根据场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对场景图生成模型的参数进行调整，以完成训练。

在一些实施例中，根据场景图中各个节点的目标类别和标注的各个目标的目标类别之间的差别，确定目标分类损失函数；根据场景图中各条边的谓语类别和标注的每个目标对对应的谓语类别之间的差别，确定谓语分类损失函数；根据场景图中任意两个节点组成的目标对的关系显著度和标注的每个目标对的关系显著度之间的差别，确定关系显著度损失函数；根据目标分类损失函数，谓语分类损失函数和关系显著度损失函数，确定总损失函数；根据总损失函数对场景图生成模型的参数进行调整。

在一些实施例中，针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

在一些实施例中，针对场景图中任意两个节点组成的目标对，根据该目标对对应的各个子分类器输出的关系显著度级别的预测概率，与标注的该目标对的关系显著度级别的差别，确定第一子损失函数；根据该目标对对应的相邻两种关系显著度级别的预测概率之间的差，确定第二子损失函数，其中，相邻两种关系显著度级别中高级别的预测概率大于低级别的预测概率的情况越多，第二子损失函数的值越大；根据任意两个节点组成的目标对对应的第一子损失函数和第二子损失函数，确定关系显著度损失函数。

例如，子分类器为k个，对应k个输出单元，给定视觉关系特征u_i及其对应的真实(标注的)关系显著度级别

则关系显著度损失函数可以采用以下公式确定：

其中，1{·}代表指示函数，BCEloss(·)代表二元交叉熵损失函数。等式右边第一项聚合了所有子任务的分类损失即第一子损失函数，第二项的作用是抑制显著度估计中矛盾的情况(比如

这类不合理的情况)，即第二子损失函数。

目标分类损失函数和谓语分类损失函数可以采用交叉熵损失函数确定。例如，目标分类损失函数记为L_object)和谓语分类损失函数记为L_relation，SMP框架整体的总损失函数表示为：

L_SMP＝L_saliency+L_object+L_relation (9)

根据总损失函数可以实现SMP(场景图生成模型)端到端的训练，具体的训练过程可以参考现有技术，不再赘述。

本公开还提供一种图像处理装置，下面结合图4进行描述。

图4为本公开图像处理装置的一些实施例的结构图。如图4所示，该实施例的装置40包括：目标检测模块410，特征确定模块420，关系显著度确定模块430，生成模块440。

目标检测模块410用于从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息。

特征确定模块420用于根据每个目标对的信息确定每个目标对的视觉关系特征。

在一些实施例中，特征确定模块420用于针对每个目标对，根据第一目标的位置信息和第二目标的位置信息，确定包含第一目标和第二目标的最小矩形区域，作为并集区域，确定第一目标和第二目标的交叉区域，作为交集区域；确定并集区域的特征信息和位置信息，交集区域的特征信息和位置信息；根据该目标对的信息，并集区域的特征信息和位置信息，交集区域的特征信息和位置信息，确定该目标对的视觉关系特征。

在一些实施例中，特征确定模块420用于根据第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息，确定该目标对对应的外观特征；根据第一目标的位置信息，第二目标的位置信息，并集区域的位置信息和交集区域的位置信息，确定该目标对对应的空间特征；根据第一目标的分类信息和第二目标的分类信息，确定该目标对对应的语义特征；根据该目标对对应的外观特征，空间特征和语义特征，确定该目标对的视觉关系特征。

在一些实施例中，特征确定模块420用于分别将第一目标的特征信息，第二目标的特征信息，并集区域的特征信息和交集区域的特征信息输入外观特征提取器，映射成预设维度的特征向量，分别得到第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征；将第一目标的外观特征，第二目标的外观特征，并集区域的外观特征和交集区域的外观特征进行拼接，得到该目标对对应的外观特征。

在一些实施例中，第一目标的位置信息包括第一目标的边界框的顶点坐标，第二目标的位置信息包括第二目标的边界框的顶点坐标，并集区域的位置信息包括并集区域的顶点坐标，交集区域的位置信息包括交集区域的顶点坐标，特征确定模块420用于针对第一目标的边界框区域，第二目标的边界框区域，并集区域和交集区域中的每个区域，确定中心点的坐标，宽度和高度；根据该区域的中心点的坐标，顶点坐标，宽度，高度以及图像的宽度和高度，确定表示该区域在图像中位置和占比的空间特征；将第一目标的边界框区域的空间特征，第二目标的边界框区域的空间特征，交集区域的空间特征和并集区域的空间特征进行拼接，得到该目标对对应的空间特征。

在一些实施例中，特征确定模块420用于将第一目标的类别名称编码后输入词嵌入矩阵，得到第一目标的词嵌入向量；将第二目标的类别名称编码后输入词嵌入矩阵，得到第二目标的词嵌入向量；将第一目标的词嵌入向量和第二目标的词嵌入向量进行拼接，得到该目标对对应的语义特征。

关系显著度确定模块430用于根据每个目标对的视觉关系特征确定每个目标对的关系显著度。

在一些实施例中，关系显著度确定模块430用于针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

生成模块440用于根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成图像对应的带有关系显著度的场景图。

在一些实施例中，生成模块440用于将各个目标分别作为场景图中的节点，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息；针对场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息；根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成图像对应的带有关系显著度的场景图。

在一些实施例中，生成模块440用于在每一轮更新过程中，针对每个节点，根据该节点与各个邻居节点组成的目标对的关系显著度，选取预设数量的邻居节点作为关联节点；根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息，其中，首轮更新过程每个节点的特征信息为从图像中提取的特征信息。

在一些实施例中，生成模块440用于针对该节点的每个关联节点，基于注意力机制确定由该节点到该关联节点进行消息聚合的第一权重，以及该关联节点到该节点进行消息聚合的第二权重；根据上一轮更新过程中更新后的各个关联节点的特征信息以及各个关联节点对应的第一权重和第二权重，对上一轮更新过程中更新后的各个关联节点的特征信息进行融合，得到本轮更新过程中该节点对应的融合特征信息；将上一轮更新过程中更新后的该节点的特征信息和本轮更新过程中该节点对应的融合特征信息输入第一门控循环单元GRU，得到本轮的更新过程中更新后的该节点的特征信息。

在一些实施例中，生成模块440用于在每一轮的更新过程中，针对场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息；将上一轮更新过程中确定的该边的特征信息和本轮更新过程中该边对应的融合特征信息输入第二门控循环单元GRU，得到本轮的更新过程中确定的该边的特征信息，其中，首轮更新过程每条边的特征信息为该边连接的两个节点组成的目标对的视觉关系特征。

在一些实施例中，生成模块440用于在每一轮的更新过程中，针对场景图中的每条边，将沿着该边的方向的起始节点和终止节点的特征信息进行拼接，并将拼接后的特征信息输入全连接层，确定本轮更新过程中该边对应的融合特征信息，其中，全连接层包括非线性激活函数。

在一些实施例中，生成模块440用于将各个节点的特征信息输入目标分类器，得到各个节点属于各个目标类别的第一概率；将各条边的特征信息输入谓语分类器，得到各条边属于各个谓语类别的第二概率；针对两个节点的目标类别和两个节点之间的边的谓语类别组成的每个三元组，根据该三元组对应的第一概率，第二概率以及两个节点组成的目标对的关系显著度大于预设显著度级别的预测概率，确定该三元组的概率；根据所有三元组的概率选取三元组，将选取的三元组中的目标类别和谓语类别分别作为对应的节点的目标类别和对应的边的谓语类别，并将两个节点组成的目标对的关系显著度添加到对应的边上，以生成带有关系显著度的场景图。

在一些实施例中，该装置还包括：应用模块450用于执行以下至少一项：在图像中的目标包括人物的情况下，根据场景图确定人物的行为或意图；在图像中的目标包括人物和物体的情况下，根据场景图确定人物和物体的关系，根据人物和物体的关系对物体进行分拣；根据场景图进行视觉问题的答复；根据场景图进行跨模态检索；根据场景图生成图像的描述文本。

本公开还提供一种场景图生成模型的训练装置，下面结合图5进行描述。

图5为本公开场景图生成模型的训练装置的一些实施例的结构图。如图5所示，该实施例的装置50包括：获取模块510，目标检测模块520，特征确定模块530，关系显著度确定模块540，生成模块550，参数调整模块560。

获取模块510用于获取多个训练样本图像，其中，每个训练样本图像标注了各个目标的目标类别，一个或多个目标对中每个目标对的关系显著度，每个目标对对应的谓语类别；

目标检测模块520用于针对每个训练样本图像，将该训练样本图像输入场景图生成模型的目标检测器，提取目标对以及每个目标对的信息，其中，样本图像每个目标对的信息包括：第三目标的特征信息，位置信息和分类信息，第四目标的特征信息，位置信息和分类信息；

特征确定模块530用于将每个目标对的信息输入场景图生成模型的目标交互编码器，确定每个目标对的视觉关系特征；

关系显著度确定模块540，用于将每个目标对的视觉关系特征输入场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度；

生成模块550用于将每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度输入场景图生成模型的场景图生成器，生成图像对应的带有关系显著度的场景图；

参数调整模块560用于根据场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对场景图生成模型的参数进行调整，以完成训练。

在一些实施例中，参数调整模块560用于根据场景图中各个节点的目标类别和标注的各个目标的目标类别之间的差别，确定目标分类损失函数；根据场景图中各条边的谓语类别和标注的每个目标对对应的谓语类别之间的差别，确定谓语分类损失函数；根据场景图中任意两个节点组成的目标对的关系显著度和标注的每个目标对的关系显著度之间的差别，确定关系显著度损失函数；根据目标分类损失函数，谓语分类损失函数和关系显著度损失函数，确定总损失函数；根据总损失函数对场景图生成模型的参数进行调整。

在一些实施例中，参数调整模块560用于针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

在一些实施例中，参数调整模块560用于针对场景图中任意两个节点组成的目标对，根据该目标对对应的各个子分类器输出的关系显著度级别的预测概率，与标注的该目标对的关系显著度级别的差别，确定第一子损失函数；根据该目标对对应的相邻两种关系显著度级别的预测概率之间的差，确定第二子损失函数，其中，相邻两种关系显著度级别中高级别的预测概率大于低级别的预测概率的情况越多，第二子损失函数的值越大；根据任意两个节点组成的目标对对应的第一子损失函数和第二子损失函数，确定关系显著度损失函数。

本公开的实施例中的电子设备可各由各种计算设备或计算机系统来实现，下面结合图6以及图7进行描述。

图6为本公开电子设备的一些实施例的结构图。如图6所示，该实施例的电子设备60包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行本公开中任意一些实施例中的图像处理方法或者场景图生成模型的训练方法。

其中，存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

图7为本公开电子设备的另一些实施例的结构图。如图7所示，该实施例的装置70包括：存储器710以及处理器720，分别与存储器610以及处理器620类似。还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730，740，750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口，例如可以连接到数据库服务器或者云端存储服务器等。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像处理方法，包括：

从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；

根据每个目标对的信息确定每个目标对的视觉关系特征；

根据每个目标对的视觉关系特征确定每个目标对的关系显著度；

根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成所述图像对应的带有关系显著度的场景图。

2.根据权利要求1所述的图像处理方法，其中，所述根据每个目标对的信息确定每个目标对的视觉关系特征包括：

针对每个目标对，根据所述第一目标的位置信息和所述第二目标的位置信息，确定包含所述第一目标和所述第二目标的最小矩形区域，作为并集区域，确定所述第一目标和所述第二目标的交叉区域，作为交集区域；

确定所述并集区域的特征信息和位置信息，所述交集区域的特征信息和位置信息；

根据该目标对的信息，所述并集区域的特征信息和位置信息，所述交集区域的特征信息和位置信息，确定该目标对的视觉关系特征。

3.根据权利要求2所述的图像处理方法，其中，所述根据该目标对的信息，所述并集区域的特征信息和位置信息，所述交集区域的特征信息和位置信息，确定该目标对的视觉关系特征包括：

根据所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息，确定该目标对对应的外观特征；

根据所述第一目标的位置信息，所述第二目标的位置信息，所述并集区域的位置信息和所述交集区域的位置信息，确定该目标对对应的空间特征；

根据所述第一目标的分类信息和所述第二目标的分类信息，确定该目标对对应的语义特征；

根据该目标对对应的外观特征，空间特征和语义特征，确定该目标对的视觉关系特征。

4.根据权利要求3所述的图像处理方法，其中，所述根据所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息，确定该目标对对应的外观特征包括：

分别将所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息输入外观特征提取器，映射成预设维度的特征向量，分别得到所述第一目标的外观特征，所述第二目标的外观特征，所述并集区域的外观特征和所述交集区域的外观特征；

将所述第一目标的外观特征，所述第二目标的外观特征，所述并集区域的外观特征和所述交集区域的外观特征进行拼接，得到该目标对对应的外观特征。

5.根据权利要求2所述的图像处理方法，其中，针对所述第一目标的边界框区域，第二目标的边界框区域，所述并集区域和所述交集区域中的每个区域，从所述图像的特征图中提取每个区域的特征，分别作为所述第一目标的特征信息，所述第二目标的特征信息，所述并集区域的特征信息和所述交集区域的特征信息。

6.根据权利要求3所述的图像处理方法，其中，

所述第一目标的位置信息包括所述第一目标的边界框的顶点坐标，所述第二目标的位置信息包括所述第二目标的边界框的顶点坐标，所述并集区域的位置信息包括所述并集区域的顶点坐标，所述交集区域的位置信息包括所述交集区域的顶点坐标，所述根据所述第一目标的位置信息，所述第二目标的位置信息，所述并集区域的位置信息和所述交集区域的位置信息，确定该目标对对应的空间特征包括：

针对所述第一目标的边界框区域，第二目标的边界框区域，所述并集区域和所述交集区域中的每个区域，确定中心点的坐标，宽度和高度；

根据该区域的中心点的坐标，顶点坐标，宽度，高度以及所述图像的宽度和高度，确定表示该区域在所述图像中位置和占比的空间特征；

将所述第一目标的边界框区域的空间特征，所述第二目标的边界框区域的空间特征，所述交集区域的空间特征和所述并集区域的空间特征进行拼接，得到该目标对对应的空间特征。

7.根据权利要求3所述的图像处理方法，其中，所述分类信息包括：类别名称，所述根据所述第一目标的分类信息和所述第二目标的分类信息，确定该目标对对应的语义特征包括：

将所述第一目标的类别名称编码后输入词嵌入矩阵，得到所述第一目标的词嵌入向量；

将所述第二目标的类别名称编码后输入词嵌入矩阵，得到所述第二目标的词嵌入向量；

将所述第一目标的词嵌入向量和所述第二目标的词嵌入向量进行拼接，得到该目标对对应的语义特征。

8.根据权利要求1所述的图像处理方法，其中，所述根据每个目标对的视觉关系特征确定每个目标对的关系显著度包括：

针对每个目标对，将该目标对的视觉关系特征输入关系显著度估计器中的各个子分类器，得到各个子分类器输出的关系显著度级别的预测概率，其中，每个子分类器对应一种关系显著度级别；

根据各个关系显著度级别对应的预测概率，确定该目标对的关系显著度。

9.根据权利要求1所述的图像处理方法，其中，所述根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成所述图像对应的带有关系显著度的场景图包括：

将各个目标分别作为场景图中的节点，针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息；

针对所述场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息；

根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成所述图像对应的带有关系显著度的场景图。

10.根据权利要求9所述的图像处理方法，其中，所述针对每个节点，根据该节点的特征信息，该节点的各个邻居节点的特征信息以及该节点与各个邻居节点组成的目标对的关系显著度，更新该节点的特征信息包括：

在每一轮更新过程中，针对每个节点，根据该节点与各个邻居节点组成的目标对的关系显著度，选取预设数量的邻居节点作为关联节点；

根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息，其中，首轮更新过程每个节点的特征信息为从所述图像中提取的特征信息。

11.根据权利要求10所述的图像处理方法，其中，所述根据上一轮更新过程中更新后的该节点的特征信息，更新后的该节点的关联节点的特征信息，更新该节点的特征信息包括：

针对该节点的每个关联节点，基于注意力机制确定由该节点到该关联节点进行消息聚合的第一权重，以及该关联节点到该节点进行消息聚合的第二权重；

根据上一轮更新过程中更新后的各个关联节点的特征信息以及各个关联节点对应的第一权重和第二权重，对上一轮更新过程中更新后的各个关联节点的特征信息进行融合，得到本轮更新过程中该节点对应的融合特征信息；

将上一轮更新过程中更新后的该节点的特征信息和本轮更新过程中该节点对应的融合特征信息输入第一门控循环单元GRU，得到本轮的更新过程中更新后的该节点的特征信息。

12.根据权利要求10所述的图像处理方法，其中，针对所述场景图中的每条边，根据该边连接的两个节点的特征信息，该边连接的两个节点组成的目标对的视觉关系特征，确定该边的特征信息包括：

在每一轮的更新过程中，针对所述场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息；

将上一轮更新过程中确定的该边的特征信息和本轮更新过程中该边对应的融合特征信息输入第二门控循环单元GRU，得到本轮的更新过程中确定的该边的特征信息，其中，首轮更新过程每条边的特征信息为该边连接的两个节点组成的目标对的视觉关系特征。

13.根据权利要求12所述的图像处理方法，其中，所述在每一轮的更新过程中，针对所述场景图中的每条边，根据上一轮更新过程中更新后的该边连接的两个节点的特征信息，确定本轮更新过程中该边对应的融合特征信息包括：

在每一轮的更新过程中，针对所述场景图中的每条边，将沿着该边的方向的起始节点和终止节点的特征信息进行拼接，并将拼接后的特征信息输入全连接层，确定本轮更新过程中该边对应的融合特征信息，其中，所述全连接层包括非线性激活函数。

14.根据权利要求9所述的图像处理方法，其中，所述根据各个节点的特征信息确定各个节点的目标类别，根据各条边的特征信息确定各条边的谓语类别，以生成所述图像对应的带有关系显著度的场景图包括：

将各个节点的特征信息输入目标分类器，得到各个节点属于各个目标类别的第一概率；

将各条边的特征信息输入谓语分类器，得到各条边属于各个谓语类别的第二概率；

针对两个节点的目标类别和两个节点之间的边的谓语类别组成的每个三元组，根据该三元组对应的第一概率，第二概率以及两个节点组成的目标对的关系显著度大于预设显著度级别的预测概率，确定该三元组的概率；

根据所有三元组的概率选取三元组，将选取的三元组中的目标类别和谓语类别分别作为对应的节点的目标类别和对应的边的谓语类别，并将两个节点组成的目标对的关系显著度添加到对应的边上，以生成带有关系显著度的场景图。

15.根据权利要求1所述的图像处理方法，还包括以下至少一项：

在所述图像中的目标包括人物的情况下，根据所述场景图确定所述人物的行为或意图；

在所述图像中的目标包括人物和物体的情况下，根据所述场景图确定所述人物和物体的关系，根据所述人物和物体的关系对所述物体进行分拣；

根据所述场景图进行视觉问题的答复；

根据所述场景图进行跨模态检索；

根据所述场景图生成所述图像的描述文本。

16.一种场景图生成模型的训练方法，包括：

获取多个训练样本图像，其中，每个训练样本图像标注了各个目标的目标类别，一个或多个目标对中每个目标对的关系显著度，每个目标对对应的谓语类别；

针对每个训练样本图像，将该训练样本图像输入场景图生成模型的目标检测器，提取所述目标对以及每个目标对的信息，其中，所述样本图像每个目标对的信息包括：第三目标的特征信息，位置信息和分类信息，第四目标的特征信息，位置信息和分类信息；

将每个目标对的信息输入所述场景图生成模型的目标交互编码器，确定每个目标对的视觉关系特征；

将每个目标对的视觉关系特征输入所述场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度；

将每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度输入所述场景图生成模型的场景图生成器，生成所述图像对应的带有关系显著度的场景图；

根据所述场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对所述场景图生成模型的参数进行调整，以完成训练。

17.根据权利要求16所述的训练方法，其中，所述根据所述场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对所述场景图生成模型的参数进行调整包括：

根据所述场景图中各个节点的目标类别和标注的各个目标的目标类别之间的差别，确定目标分类损失函数；

根据所述场景图中各条边的谓语类别和标注的每个目标对对应的谓语类别之间的差别，确定谓语分类损失函数；

根据所述场景图中任意两个节点组成的目标对的关系显著度和标注的每个目标对的关系显著度之间的差别，确定关系显著度损失函数；

根据所述目标分类损失函数，所述谓语分类损失函数和所述关系显著度损失函数，确定总损失函数；

根据所述总损失函数对所述场景图生成模型的参数进行调整。

18.根据权利要求17所述的训练方法，其中，所述将每个目标对的视觉关系特征输入所述场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度包括：

19.根据权利要求18所述的训练方法，其中，所述根据所述场景图中任意两个节点组成的目标对的关系显著度和标注的每个目标对的关系显著度之间的差别，确定关系显著度损失函数包括：

针对所述场景图中任意两个节点组成的目标对，根据该目标对对应的各个子分类器输出的关系显著度级别的预测概率，与标注的该目标对的关系显著度级别的差别，确定第一子损失函数；

根据该目标对对应的相邻两种关系显著度级别的预测概率之间的差，确定第二子损失函数，其中，相邻两种关系显著度级别中高级别的预测概率大于低级别的预测概率的情况越多，第二子损失函数的值越大；

根据任意两个节点组成的目标对对应的第一子损失函数和第二子损失函数，确定关系显著度损失函数。

20.一种场景图生成模型包括：

目标检测器，用于接收输入的图像，从所述图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；

目标交互编码器，用于根据每个目标对的信息确定每个目标对的视觉关系特征；

关系显著度估计器，用于根据每个目标对的视觉关系特征确定每个目标对的关系显著度；

场景图生成器，用于根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成所述图像对应的带有关系显著度的场景图。

21.一种图像处理装置，包括：

目标检测模块，用于从图像中提取一个或多个目标对以及每个目标对的信息，其中，每个目标对的信息包括：第一目标的特征信息，位置信息和分类信息，第二目标的特征信息，位置信息和分类信息；

特征确定模块，用于根据每个目标对的信息确定每个目标对的视觉关系特征；

关系显著度确定模块，用于根据每个目标对的视觉关系特征确定每个目标对的关系显著度；

生成模块，用于根据每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度，生成所述图像对应的带有关系显著度的场景图。

22.一种场景图生成模型的训练装置，包括：

获取模块，用于获取多个训练样本图像，其中，每个训练样本图像标注了各个目标的目标类别，一个或多个目标对中每个目标对的关系显著度，每个目标对对应的谓语类别；

目标检测模块，用于针对每个训练样本图像，将该训练样本图像输入场景图生成模型的目标检测器，提取所述目标对以及每个目标对的信息，其中，所述样本图像每个目标对的信息包括：第三目标的特征信息，位置信息和分类信息，第四目标的特征信息，位置信息和分类信息；

特征确定模块，用于将每个目标对的信息输入所述场景图生成模型的目标交互编码器，确定每个目标对的视觉关系特征；

关系显著度确定模块，用于将每个目标对的视觉关系特征输入所述场景图生成模型的关系显著度估计器，确定每个目标对的关系显著度；

生成模块，用于将每个目标的特征信息，每个目标对的视觉关系特征以及每个目标对的关系显著度输入所述场景图生成模型的场景图生成器，生成所述图像对应的带有关系显著度的场景图；

参数调整模块，用于根据所述场景图中各个节点的目标类别，各条边的谓语类别和任意两个节点组成的目标对的关系显著度，以及标注的各个目标的目标类别，每个目标对对应的谓语类别和每个目标对的关系显著度，对所述场景图生成模型的参数进行调整，以完成训练。

23.一种电子设备，包括：

处理器；以及

耦接至所述处理器的存储器，用于存储指令，所述指令被所述处理器执行时，使所述处理器执行如权利要求1-15任一项所述的图像处理方法或者权利要求16-19任一项所述的场景图生成模型的训练方法。

24.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-15任一项所述的图像处理方法或者权利要求16-19任一项所述的场景图生成模型的训练方法的步骤。