CN116152647A

CN116152647A - 基于多轮迭代策略和差异性感知的场景图生成方法

Info

Publication number: CN116152647A
Application number: CN202310413895.0A
Authority: CN
Inventors: 张勇东; 毛震东; 赵慧婷; 赵博文
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-05-23
Anticipated expiration: 2043-04-18
Also published as: CN116152647B

Abstract

本发明涉及图像理解技术领域，公开了一种基于多轮迭代策略和差异性感知的场景图生成方法，包括：场景图初始化，提取给定图像中目标的特征，得到场景图中节点的节点特征，以及融合了节点特征的边特征；将边特征输入至分类器进行预测，得到预测关系语义和更新后的边特征；将更新后的边特征重新输入至分类器进行预测；采用多轮迭代策略，得到最终的场景图；本发明从关系语义信息挖掘的角度提出了基于多轮迭代策略和差异性感知的场景图生成技术，多轮迭代推理机制模拟了人类回顾再重新推理的过程，差异性感知利用并挖掘了每次预测出的关系包含的丰富的语义信息，有助于提升模型对不同上下文场景的认知理解能力。

Description

基于多轮迭代策略和差异性感知的场景图生成方法

技术领域

本发明涉及图像理解领域，具体涉及一种基于多轮迭代策略和差异性感知的场景图生成方法。

背景技术

场景图生成技术旨在基于给定的图像自动识别其中的目标，并描述目标之间的关系，生成一系列由形如<主语-关系-宾语>的三元组构成的图结构。场景图生成技术可以对视觉图像内容进行充分理解，概括图像的主要语义信息，充当跨越模态间语义鸿沟的桥梁，以便进一步处理和智能创作，因此具有很高的研究价值与实用价值。

对于场景图生成技术来说，一个关键的挑战是如何精确地预测所识别目标之间的关系。因为相比于目标，关系具有更为抽象的语义，并且在图像中并不能严格精确地定位到某个具体区域。最近，文本模态的信息被广泛研究用来辅助增强关系视觉特征，比如统计发现关系和目标之间存在一定的共现分布，主流方法也据此逐渐将引入检测出的目标类别的语义参与到特征融合中。但引入这样少量的文本信息对关系预测的促进作用仍比较有限，因为关系随着视觉上下文变化而变化，共现分布不能为建模视觉上下文提供充分的监督信息。此外，关系类别词本身所蕴含的语义也完全被忽略了，而这些语义信息可为关系预测提供丰富的先验知识。

发明内容

为解决上述技术问题，本发明提出了一种基于多轮迭代策略和差异性感知的场景图生成方法。本发明的创新点体现在两方面，一方面本发明重点考虑并提取了关系本身的语义信息，使其参与到特征融合中，作为额外的先验信息引导模型更好地学习关系预测；另一方面，本发明受人类思考问题的方式启发，提出了多轮迭代预测的策略，并且为了更好地修正预测结果，从差异性感知的角度分别建模每轮之间的上下文信息和预测关系差异，以提升对不同上下文场景的认知理解能力。

为解决上述技术问题，本发明采用如下技术方案：

一种基于多轮迭代策略和差异性感知的场景图生成方法，包括以下步骤：

步骤一、场景图初始化：提取给定图像中目标的特征，得到场景图中节点的节点特征，以及融合了节点特征的边特征；场景图中的节点代表主语或者宾语，边代表主语与宾语之间的关系；

步骤二：将边特征输入至分类器进行预测，得到预测关系语义和更新后的边特征；将更新后的边特征重新输入至分类器进行预测；

步骤三：采用多轮迭代策略，重复运行n轮步骤二，得到最终的场景图；

在相邻的两轮迭代间进行差异性感知：以场景图中节点

的节点特征作为第

轮迭代时的上下文信息

；以场景图中节点

的节点特征作为第

轮迭代时的上下文信息

；将第

轮迭代中得到的节点

和相邻节点

之间的预测关系语义，输入到预训练的自然语言编码器获得语义向量

；将第

轮迭代中得到的节点

和相邻节点

，则：第

轮迭代中，上下文信息在本轮迭代和上一轮迭代间的差异向量

；第

轮迭代中，预测关系语义在本轮迭代和上一轮迭代间的差异向量

；

代表差异性算子，

；

利用差异性感知结果对节点特征和边特征进行更新，得到步骤二中所述的更新后的边特征：

第

轮迭代中节点

更新后的节点特征

；

其中，

和

为可学习维度转换权重，

第

轮迭代中节点

更新前的节点特征，

为sigmoid激活函数，

为第

轮迭代中节点

和节点

之间的边的边特征，[;]代表拼接操作；

对于边特征，首先使用差异向量

进行更新：

；

为融合了差异向量

的边特征；

为融合方式，

；

代表映射到同一维度空间的权重；之后使用更新后的节点特征

对边特征

进一步更新：

；

为使用节点特征更新的边特征，

为维度转换权重；将更新后的边特征

重新送入分类器进行重新预测。

进一步地，步骤一具体包括：

对于节点，通过视觉特征提取器提取给定图像中目标的特征，并融合作为节点的特征；对于边，首先基于与边相关的两个节点的目标框计算合并框，根据合并框从视觉特征提取器生成的特征图上获取边的视觉特征；之后将边的视觉特征和空间坐标，以及与边相关的两个节点的节点特征融合，作为边的特征；

采用信息传递机制进行图特征编码，具体地：节点特征的更新采用以节点为中心的自注意力机制，首先计算节点各个相连边的边特征与当前节点特征的注意力系数，之后按注意力系数将各个边的边特征聚合；

边特征更新时，直接将边特征与边两端节点的节点特征进行融合。

进一步地，步骤一中，图像中目标的特征包括目标的空间坐标、类别特征、视觉特征。

进一步地，所述差异性算子

；

代表元素点乘，[;]代表拼接操作，FC代表全连接层，tanh为激活函数，

为变量。

与现有技术相比，本发明的有益技术效果是：

本发明从关系语义信息挖掘的角度提出了基于多轮迭代策略和差异性感知的场景图生成技术，多轮迭代推理机制模拟了人类回顾再重新推理的过程，差异性感知利用并挖掘了每次预测出的关系包含的丰富的语义信息，从关系语义和视觉上下文两方面建模轮间差异，有助于提升模型对不同上下文场景的认知理解能力。此外，本发明提出的多轮迭代策略可适用于任何利用消息传递机制编码的模型，具有良好的通用性和可插拔性。

附图说明

图1为本发明中场景图生成方法的流程图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

场景图生成任务通常被定义为：给定一张图像作为输入，识别其中的目标，预测目标间的关系，最终生成一系列形如<主语-谓语-宾语>的三元组。场景图中，节点代表主语或者宾语，边代表主语与宾语之间的关系。

本发明的流程如图1所示，首先基于常见的消息传递机制进行场景图初始化，之后进行本发明所提出的多轮迭代策略，多轮迭代策略中的创新点主要包括两个部分：差异性感知建模和重新预测。

（1）场景图初始化

本发明首先采用常见的场景图生成范式进行初始化。场景图由节点和边构成，对于节点，基于视觉特征提取器（如目标检测模型Faster RCNN等）提取给定图像中目标的相关特征（空间坐标、类别特征、视觉特征）并融合作为节点的特征。对于边，则首先基于与该边相关的两个节点的目标框计算合并框（两个框的最小外接矩形），根据合并框从视觉特征提取器生成的特征图上获取该边的视觉特征，之后将边的视觉特征、空间坐标以及与该边相关两个节点的特征融合作为边的特征。

之后本发明采用常见的信息传递机制进行图特征编码。具体地，对于节点，其特征更新采用以节点为中心的自注意力机制，首先计算当前节点各个相连边的特征与当前节点特征的注意力系数，之后按注意力系数将各个边的特征聚合，即可实现节点特征的更新；对于边，其特征更新时，直接将该边与两端节点的特征进行融合，以实现信息传递和更新。整个消息传递会持续多轮，以获得信息经过全局充分流通的场景图。在多轮消息传递结束后，将边的特征输入到分类器中以进行第一次的关系预测，得到预测关系语义。

（2）差异性感知建模

关系与上下文信息密切相关，同一对主语和宾语在相似的上下文背景中也可能存在不同的关系。另一方面，现有的关系预测都是采用单步推理的方式，然而直觉上人类在思考问题时总是遵循一种不断回顾并修改的范式，倾向于比较当前和先前的结论以逐渐加深理解，现有的单步模式预测出的关系中还隐含着丰富的潜在线索尚未挖掘。为了更好地建模上下文信息并利用关系自身语义，本发明提出了一种新式的差异性感知的多轮迭代推理机制。

为了更好地利用和挖掘每轮预测结果中的潜在线索，本发明同时考虑上下文特征和预测出的关系语义两方面的差异。具体地，考虑相邻两轮，第

轮（

大于等于2）和第

轮，首先以场景图中节点

的节点特征作为这相邻两轮的上下文信息

，将节点

和相邻节点

之间的预测关系语义，输入到预训练的自然语言编码器（如Glove或Bert）以获得语义向量

。最后，计算第

轮迭代后，上下文信息在本轮迭代和上一轮迭代间的差异向量

；

第

轮迭代后，预测关系语义在本轮迭代和上一轮迭代间的差异向量

；

代表差异性算子：

；

代表元素点乘，[;]代表拼接操作，FC代表全连接层，tanh为激活函数。此外，当

为1，即第一轮预测时，无法获取和前一轮的差异，所以差异向量置为零。

（3）重新预测

为了充分利用每轮提取的两种差异向量中包含的关键关系的潜在线索，本发明将两种差异向量与当前轮的节点特征和边特征融合以更新信息。对于节点

，其节点特征通过聚合节点

连接的边以及上下文差异向量更新：

；

其中

和

为可学习维度转换权重，

分别为更新前和更新后的节点特征，

为sigmoid激活函数，节点

为节点

的相邻节点，

为节点

和节点

之间的边的边特征。在首轮预测结束后，由于差异向量为0，所以首轮迭代中，节点特征仅由所连边的边特征更新。

对于边特征，首先使用预测关系语义差异向量

进行更新：

；

为融合了预测关系语义差异向量的边特征；

为融合方式，具体为：

，

代表映射到同一维度空间的权重，这种融合方式在ReLU激活函数融合的基础上加了差值附加项，衡量了映射后两种向量之间的差异，有助于学习到一种对齐的映射。

之后使用更新后的节点特征对边特征进一步更新：

；

为使用节点特征更新后的边特征，

特别地，第一轮预测后，由于暂时没有差异向量，计算

时的差异向量

被替换为预测的关系语义。

在获得更新后的边特征

后，再次将

送入分类器进行重新预测。上述差异性感知建模和重新预测过程将重复迭代多次。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。