CN113554129A

CN113554129A - 场景图的生成方法和生成装置

Info

Publication number: CN113554129A
Application number: CN202111103897.7A
Authority: CN
Inventors: 经小川; 刘萱; 杜婉茹; 王潇茵; 孙鹏程
Original assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Current assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-10-26
Anticipated expiration: 2041-09-22
Also published as: CN113554129B

Abstract

公开一种场景图的生成方法和生成装置，所述生成方法包括：获取图像数据和文本数据；通过Faster R‑CNN目标检测器，得到所述图像数据的特征向量，并且通过对所述特征向量进行融合，得到视觉特征向量；基于预先训练的fastText模型，得到所述文本数据的词向量，并且通过对所述词向量进行融合，得到语义特征向量；通过对所述视觉特征向量和所述语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。该生成方法能够有效降低经过人工注释的数据集的标签噪声问题。

Description

场景图的生成方法和生成装置

技术领域

本公开总体说来涉及计算机视觉领域，更具体地讲，涉及一种基于对称学习的场景图的生成方法和生成装置。

背景技术

计算机视觉领域的快速发展使得图像分类、语义分割和视觉关系检测等视觉任务在短时间内获得了许多突破性成果，这些成果是由卷积神经网络（Convolutional NeuralNetworks，CNN），例如区域卷积神经网络（Region-based CNN， R-CNN）以及全卷积网络(Fully Convolutional Network，FCN)，驱动的。

在此基础上，图像理解的研究逐渐从低级特征提取发展到高级语义学习，下一步的方向是推断多个对象之间的语义关系，从而推动多模态任务的发展，例如视觉问答、图像描述和视觉常识推理等任务。其中，场景图（Scene Graph Generation，SGG）的出现为图像理解提供了一个推断视觉场景的平台。场景图任务本质上是从给定的图像中解析全连通图，即图像中两两交互的对象作为节点，对象之间交互的视觉关系作为边，这些交互的视觉关系可以是基于动作行为、空间位置或者两两比较等多种形式，最终连通图中的视觉关系表示为包含主语、谓词和宾语的三元组，例如< person-ride-horse >（行为）、< plate-on-table >（空间）和< person1-taller-person2 >（比较）。由于图像中对象之间的交互可以生成一个场景图来探索多个对象之间的关系，因此场景图的生成在高级图像理解任务中起着至关重要的作用。

然而，一方面，现有的视觉关系检测方法是通过将检测到的实体对输入分类器，再结合外观特征和语言先验知识来进行的，例如融合语义词嵌入的语言先验知识来预测视觉关系或者基于上下文感知的交互分类方法来表征视觉关系。但是现有的视觉关系检测方法只是机械地将各类特征融合在一起，缺乏对于目标对象在视觉和语义两方面的联合学习，也没有深入解析目标对象之间的交互关系。

另一方面，视觉关系检测等视觉任务利用卷积神经网络通过监督学习的方式进行训练，需要运用大规模的经过人工注释的数据集，例如ImageNet、MS-Coco和Pascal VOC等数据集。然而，在实际工程中，收集和注释大规模的数据集的代价高昂，而且人工注释容易出错，即使是高质量的数据集也可能包含噪声标签。同时，场景图中的可视化视觉关系具有长尾效应，即大多数现有的场景图模型对于数据集中出现频次高的谓词拟合效果好，但对于标记实例较少的视觉关系学习效果较差。具体来讲，现有的场景图的生成方法对于频繁出现的谓词类别性能稳定，但是对于数据集中的噪声标签和较难学习的关系类别等效果不理想。现有研究虽然通过改善数据集来增强模型的视觉关系检测能力，例如利用生成的缺失标签来训练场景图以及通过概率建模来缓解视觉关系检测中的语义歧义，但是均未考虑大规模的经过人工注释的数据集中普遍存在噪声标签问题，对于包含噪声标签的数据集的视觉关系检测效果有待提升。因此，在包含噪声标签的情况下训练出准确的卷积神经网络模型已经成为计算机视觉领域具有重要现实意义的任务。

发明内容

本公开基于视觉检测和语义表示两方面的相互匹配，以端到端的方式进行对称学习，提供一种场景图的生成方法和生成装置，从而在数据集包含噪声标签的情况下进行更加准确的训练。

在一个总的方面，提供一种场景图的生成方法，所述生成方法包括：获取图像数据和文本数据，其中，所述图像数据包括含有噪声的图像数据集，所述文本数据包括公共爬虫文本数据集；通过Faster R-CNN目标检测器，得到所述图像数据的特征向量，并且通过对所述特征向量进行融合，得到视觉特征向量，其中，所述特征向量包括主体特征向量、客体特征向量和谓词特征向量；基于预先训练的fastText模型，得到所述文本数据的词向量，并且通过对所述词向量进行融合，得到语义特征向量，其中，所述词向量包括主体词向量、客体词向量和谓词向量；通过对所述视觉特征向量和所述语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。

可选地，所述图像数据包括图像和人工标注的图像视觉关系注释，其中，所述人工标注的图像视觉关系注释包括人工标注的三元组注释。

可选地，通过Faster R-CNN目标检测器，得到所述图像数据的特征向量的步骤包括：通过视觉几何群网络处理所述图像数据，得到全局特征图；通过区域生成网络处理所述全局特征图，得到候选区域和所述候选区域的外观特征；基于所述候选区域和所述外观特征，得到主体、客体和主客体之间交互区域的提取框；使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射，得到所述特征向量。

可选地，通过对所述特征向量进行融合，得到视觉特征向量的步骤包括：通过全连接层将所述特征向量映射到隐藏节点，得到隐层特征向量，其中，所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量；对所述隐层特征向量进行融合，得到视觉关系特征向量；对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配，得到所述视觉特征向量。

可选地，基于预先训练的fastText模型，得到所述文本数据的词向量的步骤包括：将所述文本数据投射到嵌入空间，得到所述词向量，其中，在所述嵌入空间中词之间保持高于预定阈值的语义相似度。

可选地，通过对所述词向量进行融合，得到语义特征向量的步骤包括：通过全连接层将所述词向量映射到隐藏节点，得到隐层语义嵌入向量，其中，所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量；对所述隐层语义嵌入向量进行融合，得到谓词关系向量；对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配，得到所述语义特征向量。

可选地，所述交叉熵函数表示如下：

其中，M表示所述人工标注的三元组注释的总体类别数，m表示所述人工标注的三元组注释的当前类别，t表示基于所述视觉关系预测值得到的视觉关系三元组，

表示所述视觉关系三元组相对于所述人工标注的三元组注释的预测值，

表示所述视觉关系三元组相对于所述人工标注的三元组注释的真实值；

所述反向交叉熵函数表示如下：

其中，所述反向交叉熵函数将所述交叉熵函数中的所述预测值和所述真实值的计算项互相替换。

可选地，通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤包括：基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数，确定对称学习的损失函数，其中，所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。

可选地，所述损失函数表示如下：

其中，

表示所述第一超参数，

表示所述第二超参数。

可选地，通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤还包括：基于所述损失函数，调整所述Faster R-CNN 目标检测器和所述fastText模型的参数，从而使所述最终的视觉关系预测值满足预设要求。

在另一总的方面，提供一种场景图的生成装置，所述生成装置包括：数据获取单元，被配置为获取图像数据和文本数据，其中，所述图像数据包括含有噪声的图像数据集，所述文本数据包括公共爬虫文本数据集；视觉检测单元，被配置为通过Faster R-CNN目标检测器，得到所述图像数据的特征向量，并且通过对所述特征向量进行融合，得到视觉特征向量，其中，所述特征向量包括主体特征向量、客体特征向量和谓词特征向量；语义表示单元，被配置为基于预先训练的fastText模型，得到所述文本数据的词向量，并且通过对所述词向量进行融合，得到语义特征向量，其中，所述词向量包括主体词向量、客体词向量和谓词向量；对称学习单元，被配置为通过对所述视觉特征向量和所述语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。

可选地，视觉检测单元被配置为：通过视觉几何群网络处理所述图像数据，得到全局特征图；通过区域生成网络处理所述全局特征图，得到候选区域和所述候选区域的外观特征；基于所述候选区域和所述外观特征，得到主体、客体和主客体之间交互区域的提取框；使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射，得到所述特征向量。

可选地，视觉检测单元还被配置为：通过全连接层将所述特征向量映射到隐藏节点，得到隐层特征向量，其中，所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量；对所述隐层特征向量进行融合，得到视觉关系特征向量；对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配，得到所述视觉特征向量。

可选地，语义表示单元被配置为：将所述文本数据投射到嵌入空间，得到所述词向量，其中，在所述嵌入空间中词之间保持高于预定阈值的语义相似度。

可选地，语义表示单元还被配置为：通过全连接层将所述词向量映射到隐藏节点，得到隐层语义嵌入向量，其中，所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量；对所述隐层语义嵌入向量进行融合，得到谓词关系向量；对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配，得到所述语义特征向量。

可选地，所述交叉熵函数表示如下：

所述反向交叉熵函数表示如下：

可选地，对称学习单元被配置为：基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数，确定对称学习的损失函数，其中，所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。

可选地，所述损失函数表示如下：

其中，

表示所述第一超参数，

表示所述第二超参数。

可选地，对称学习单元还被配置为：基于所述损失函数，调整所述Faster R-CNN目标检测器和所述fastText模型的参数，从而使所述最终的视觉关系预测值满足预设要求。

在另一总的方面，提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时，实现如上所述的场景图的生成方法。

在另一总的方面，提供一种计算装置，所述计算装置包括：处理器；和存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的场景图的生成方法。

根据本公开的实施例的场景图的生成方法和生成装置能够在视觉检测和语义表示两方面通过对主语和宾语实体的特征进行融合学习，更好地将特征进行整合，实现对交互的视觉关系的准确预测。此外，根据本公开的实施例的场景图的生成方法和生成装置，通过对称学习，以反向监督的方式来反馈修正噪声标签的错误传播，能够有效降低大规模的经过人工注释的数据集的标签噪声问题，与现有的场景图的生成方法相比，具有卓越的视觉关系检测性能。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示出实施例的附图进行的描述，本公开的实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本公开的实施例的场景图的生成方法的流程图；

图2是示出根据本公开的实施例的获取视觉特征向量的方法的流程图；

图3是示出根据本公开的实施例的获取语义特征向量的方法的流程图；

图4是示出根据本公开的实施例的对视觉关系预测值进行对称学习的方法的流程图；

图5是示出根据本公开的实施例的场景图的生成装置的框图；

图6是示出根据本公开的实施例的计算装置的框图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式，所述许多可行方式在理解本申请的公开之后将是清楚的。

如在此使用的，术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在说明书中，当元件（诸如，层、区域或基底）被描述为“在”另一元件上、“连接到”或“结合到”另一元件时，该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件，或者可存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时，可不存在介于其间的其他元件。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语（包括技术术语和科学术语）具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则术语（诸如，在通用词典中定义的术语）应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

根据本公开的实施例的场景图的生成方法和生成装置可以联合调整视觉检测和语义表示两方面的主语和宾语对象之间的交互关系，并且视觉特征和语义特征的融合学习不同于简单的特征融合，能够更好地预测视觉关系，进一步通过反向监督的方式来修正数据集中的噪声标签的影响，即使在具有大规模的视觉实体类别、富含噪声且类别分布极不平衡的情况下，也能实现卓越的性能。

下面参照图1至图6对根据本公开的实施例的场景图的生成方法和装置进行详细描述。

图1是示出根据本公开的实施例的场景图的生成方法的流程图。根据本公开的实施例的场景图的生成方法可以在具有足够运算能力的计算装置中实现。

参照图1，在步骤S101中，可获取图像数据和文本数据。这里，图像数据可包括含有噪声的图像数据集，可选择地，图像数据集可以是ImageNet、MS-Coco或Pascal VOC等数据集；文本数据可包括公共爬虫文本数据集等外部知识。

具体地讲，图像数据可包括图像和人工标注的图像视觉关系注释。这里，人工标注的图像视觉关系注释可包括人工标注的三元组注释。三元组的含义如上所述，可包括主语、谓词和宾语，反映了主语和宾语之间的谓词关系。进一步讲，人工标注的三元组注释可作为稍后描述的对称学习的真实值，但是需要注意，人工标注的三元组注释可能包含噪声标签。

接下来，在步骤S102中，可通过更快的区域卷积神经网络（Faster R-CNN）目标检测器，得到图像数据的特征向量，并且通过对特征向量进行融合，得到视觉特征向量。这里，特征向量可包括主体特征向量、客体特征向量和谓词特征向量。下面参照图2描述获取视觉特征向量的方法。

图2是示出根据本公开的实施例的获取视觉特征向量的方法的流程图。

参照图2，在步骤S201中，可通过视觉几何群网络（Visual Geometry GroupNetwork -16，VGG-16）处理图像数据，得到全局特征图。

接下来，在步骤S202中，可通过区域生成网络（Region Proposal Network，RPN）处理全局特征图，得到候选区域和候选区域的外观特征。这里，目标对象在候选区域中，候选区域的外观特征包含了目标对象及其周围特征，并且由于目标对象（即主体和客体）之间的关系通常来自于目标对象之间的交互区域，所以可从目标对象之间的交互区域提取特征作为视觉关系（即谓词）特征。

接下来，在步骤S203中，可基于候选区域和外观特征，得到主体、客体和主客体之间交互区域的提取框。

接下来，在步骤S204中，可使用感兴趣区域池化层（Region of Interest poolinglayer，ROI pooling layer）对主体、客体和主客体之间交互区域的提取框进行映射，得到特征向量。这里，针对主体、客体和主客体之间交互区域的提取框，可通过感兴趣区域池化层从全局特征图中映射得到提取框特征，再从提取框特征中提取得到主体、客体和谓词的特征向量。

接下来，在步骤S205中，可通过全连接层将特征向量映射到隐藏节点，得到隐层特征向量。这里，可将主体、客体和谓词的特征向量输入全连接层，通过特征空间变换的方式提取并整合重要的视觉信息，再将原始的特征向量映射到隐藏节点，得到隐层特征向量。进一步地，隐层特征向量可包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量。

接下来，在步骤S206中，可对隐层特征向量进行融合，得到视觉关系特征向量。这里，可将主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量连接起来作为视觉关系特征向量，从而将主体、客体特征融合到视觉关系中。

接下来，在步骤S207中，可对主体特征向量

、客体特征向量

和视觉关系特征向量

进行匹配，得到视觉特征向量v。这里，可由视觉特征向量构成视觉特征矩阵V，然后通过等式（1）来表示视觉特征向量。

（1）

返回参照图1，在步骤S103中，可基于预先训练的fastText模型，得到文本数据的词向量，并且通过对词向量进行融合，得到语义特征向量。这里，词向量可包括主体词向量、客体词向量和谓词向量。下面参照图3描述获取语义特征向量的方法。

图3是示出根据本公开的实施例的获取语义特征向量的方法的流程图。

参照图3，在步骤S301中，将文本数据投射到嵌入空间，得到词向量。这里，在嵌入空间中词之间保持高于预定阈值的语义相似度，由于语义上相互关联的关系，可从出现频率更高的相似关系中推断出正确的由主体、客体和谓词构成的三元组，从而通过相似的语义表达来更好地解析视觉关系。进一步地，预定阈值可由本领域的技术人员根据实际情况进行设置。

接下来，在步骤S302中，通过全连接层将词向量映射到隐藏节点，得到隐层语义嵌入向量。这里，可将主体、客体和谓词的词向量输入全连接层，通过特征空间变换的方式提取并整合重要的关系信息，再将原始的词向量映射到隐藏节点，得到隐层语义嵌入向量。进一步地，隐层语义嵌入向量可包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量。

接下来，在步骤S303中，可对隐层语义嵌入向量进行融合，得到谓词关系向量。这里，可将主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量连接起来作为谓词关系向量，从而将主体、客体特征融合到谓词关系中。

接下来，在步骤S304中，可对主体词向量

、客体词向量

和谓词关系向量

进行匹配，得到语义特征向量k。这里，可由语义特征向量构成语义特征矩阵K，然后通过等式（2）来表示语义特征向量。

（2）

返回参照图1，在步骤S104中，可通过对视觉特征向量和语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数

和反向交叉熵函数

对视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。这里，可通过由视觉特征向量构成的视觉特征矩阵V和由语义特征向量构成的语义特征矩阵K两两相乘的方式来匹配视觉特征向量和语义特征向量。

具体地讲，可通过等式（3）来表示交叉熵函数。

（3）

然后，可通过等式（4）来表示反向交叉熵函数。

（4）

这里，M可表示人工标注的三元组注释的总体类别数，m可表示人工标注的三元组注释的当前类别，t可表示基于视觉关系预测值得到的视觉关系三元组，

可表示视觉关系三元组相对于人工标注的三元组注释的预测值，

可表示视觉关系三元组相对于人工标注的三元组注释的真实值。进一步地，反向交叉熵函数将交叉熵函数中的预测值和真实值的计算项互相替换。

具体地讲，可通过等式（5）来表示视觉关系三元组相对于人工标注的三元组注释的预测值。

（5）

这里，

可表示视觉关系三元组相对于各个类别的人工标注的三元组注释的原始预测值，

可表示视觉关系三元组相对于当前类别的人工标注的三元组注释的原始预测值。由于原始预测值分布于正负无穷区间，可通过等式（5）将原始预测值映射到0到1的区间。

更具体地讲，对于一个数据集来说，由于人工标注的三元组注释的真实分布是固定不变的，所以视觉关系三元组相对于人工标注的三元组注释的真实值是一个常数。对此，可基于交叉熵函数，使视觉关系三元组相对于人工标注的三元组注释的预测值不断接近视觉关系三元组相对于人工标注的三元组注释的真实值。

然而，当经过人工注释的数据集包含噪声标签时，单独的视觉关系三元组相对于人工标注的三元组注释的真实值不能准确地表示人工标注的三元组注释的真实分布。对此，可基于反交叉熵函数，使视觉关系三元组相对于人工标注的三元组注释的预测值部分表示人工标注的三元组注释的真实分布。

在此基础上，通过使用交叉熵函数和反向交叉熵函数对视觉关系预测值进行对称学习，能够有效降低大规模的经过人工注释的数据集的标签噪声问题。下面参照图4描述对视觉关系预测值进行对称学习的方法。

图4是示出根据本公开的实施例的对视觉关系预测值进行对称学习的方法的流程图。

参照图4，在步骤S401中，可基于用于降低交叉熵的过拟合的第一超参数

、用于降低人工标注的三元组注释的标签噪声的第二超参数

、交叉熵函数和反向交叉熵函数，确定对称学习的损失函数L。这里，损失函数可表示视觉特征向量和语义特征向量的匹配过程的损失。

具体地讲，可通过等式（6）来表示损失函数。

（6）

接下来，在步骤S402中，可基于损失函数，调整Faster R-CNN 目标检测器和fastText模型的参数，从而使最终的视觉关系预测值满足预设要求。这里，进行调整的参数可以是卷积神经网络本身在训练过程中自行调整的每个节点的权重，也可以是Faster R-CNN和fastText中能够进行人为调整的参数。进一步讲，当损失函数的值连续多次保持不变时，可以确定最终的视觉关系预测值满足预设要求。更进一步讲，损失函数的值连续保持不变的次数可由本领域的技术人员根据实际情况进行设置。

根据本公开的实施例的场景图的生成方法能够在视觉检测和语义表示两方面通过对主语和宾语实体的特征进行融合学习，更好地将特征进行整合，实现对交互的视觉关系的准确预测。同时，通过使用交叉熵函数和反向交叉熵函数进行视觉特征和特征表示的对称学习，以反向监督的方式来反馈修正噪声标签的错误传播，能够有效降低大规模的经过人工注释的数据集的标签噪声问题，与现有的场景图的生成方法相比，具有卓越的视觉关系检测性能。

图5是示出根据本公开的实施例的场景图的生成装置的框图。根据本公开的实施例的场景图的生成装置可以在具有足够运算能力的计算装置中实现。

参照图5，根据本公开的实施例的场景图的生成装置500可包括数据获取单元510、视觉检测单元520、语义表示单元530和对称学习单元540。

数据获取单元510可获取图像数据和文本数据。如上所述，图像数据可包括含有噪声的图像数据集，可选择地，图像数据集可以是ImageNet、MS-Coco或Pascal VOC等数据集；文本数据可包括公共爬虫文本数据集等外部知识。

如上所述，图像数据可包括图像和人工标注的图像视觉关系注释。这里，人工标注的图像视觉关系注释可包括人工标注的三元组注释。

视觉检测单元520可通过Faster R-CNN目标检测器，得到图像数据的特征向量，并且通过对特征向量进行融合，得到视觉特征向量。这里，特征向量可包括主体特征向量、客体特征向量和谓词特征向量。

视觉检测单元520还可通过视觉几何群网络处理图像数据，得到全局特征图；可通过区域生成网络处理全局特征图，得到候选区域和候选区域的外观特征；可基于候选区域和外观特征，得到主体、客体和主客体之间交互区域的提取框；可使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射，得到特征向量。

视觉检测单元520还可通过全连接层将特征向量映射到隐藏节点，得到隐层特征向量。这里，隐层特征向量可包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量。

视觉检测单元520还可对隐层特征向量进行融合，得到视觉关系特征向量；可对主体特征向量、客体特征向量和视觉关系特征向量进行匹配，得到视觉特征向量。

语义表示单元530可基于预先训练的fastText模型，得到文本数据的词向量，并且通过对词向量进行融合，得到语义特征向量。这里，词向量可包括主体词向量、客体词向量和谓词向量。

语义表示单元530还可将文本数据投射到嵌入空间，得到词向量。这里，在嵌入空间中词之间保持高于预定阈值的语义相似度。

语义表示单元530还可通过全连接层将词向量映射到隐藏节点，得到隐层语义嵌入向量。这里，隐层语义嵌入向量可包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量。

语义表示单元530还可对隐层语义嵌入向量进行融合，得到谓词关系向量；可对主体词向量、客体词向量和谓词关系向量进行匹配，得到语义特征向量。

对称学习单元540可通过对视觉特征向量和语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数和反向交叉熵函数对视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。

如上所述，可通过上述等式（3）来表示交叉熵函数；然后，可通过上述等式（4）来表示反向交叉熵函数。这里，反向交叉熵函数将交叉熵函数中的预测值和真实值的计算项互相替换。

对称学习单元540还可基于用于降低交叉熵的过拟合的第一超参数、用于降低人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数，确定对称学习的损失函数。这里，损失函数可表示视觉特征向量和语义特征向量的匹配过程的损失。如上所述，可通过上述等式（6）来表示损失函数。

对称学习单元540还可基于损失函数，调整Faster R-CNN 目标检测器和fastText模型的参数，从而使最终的视觉关系预测值满足预设要求。

图6是示出根据本公开的实施例的计算装置的框图。

参照图6，根据本公开的实施例的计算装置600可包括处理器610和存储器620。处理器610可包括（但不限于）中央处理器（CPU）、数字信号处理器（DSP）、微型计算机、现场可编程门阵列（FPGA）、片上系统（SoC）、微处理器、专用集成电路（ASIC）等。存储器620存储将由处理器610执行的计算机程序。存储器620包括高速随机存取存储器和/或非易失性计算机可读存储介质。当处理器610执行存储器620中存储的计算机程序时，可实现如上所述的场景图的生成方法。

根据本公开的实施例的场景图的生成方法可被编写为计算机程序并被存储在计算机可读存储介质上。当所述计算机程序被处理器执行时，可实现如上所述的场景图的生成方法。计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例的场景图的生成方法和生成装置能够在视觉检测和语义表示两方面通过对主语和宾语实体的特征进行融合学习，更好地将特征进行整合，实现对交互的视觉关系的准确预测。同时，通过使用交叉熵函数和反向交叉熵函数进行视觉特征和特征表示的对称学习，以反向监督的方式来反馈修正噪声标签的错误传播，能够有效降低大规模的经过人工注释的数据集的标签噪声问题，与现有的场景图的生成方法相比，具有卓越的视觉关系检测性能。

虽然已表示和描述了本公开的一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1.一种场景图的生成方法，其特征在于，所述生成方法包括：

获取图像数据和文本数据，其中，所述图像数据包括含有噪声的图像数据集，所述文本数据包括公共爬虫文本数据集；

通过Faster R-CNN目标检测器，得到所述图像数据的特征向量，并且通过对所述特征向量进行融合，得到视觉特征向量，其中，所述特征向量包括主体特征向量、客体特征向量和谓词特征向量；

基于预先训练的fastText模型，得到所述文本数据的词向量，并且通过对所述词向量进行融合，得到语义特征向量，其中，所述词向量包括主体词向量、客体词向量和谓词向量；

通过对所述视觉特征向量和所述语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。

2.如权利要求1所述的生成方法，其特征在于，所述图像数据包括图像和人工标注的图像视觉关系注释，其中，所述人工标注的图像视觉关系注释包括人工标注的三元组注释。

3.如权利要求1所述的生成方法，其特征在于，通过Faster R-CNN目标检测器，得到所述图像数据的特征向量的步骤包括：

通过视觉几何群网络处理所述图像数据，得到全局特征图；

通过区域生成网络处理所述全局特征图，得到候选区域和所述候选区域的外观特征；

基于所述候选区域和所述外观特征，得到主体、客体和主客体之间交互区域的提取框；

使用感兴趣区域池化层对主体、客体和主客体之间交互区域的提取框进行映射，得到所述特征向量。

4.如权利要求3所述的生成方法，其特征在于，通过对所述特征向量进行融合，得到视觉特征向量的步骤包括：

通过全连接层将所述特征向量映射到隐藏节点，得到隐层特征向量，其中，所述隐层特征向量包括主体隐层特征向量、客体隐层特征向量和视觉关系隐层特征向量；

对所述隐层特征向量进行融合，得到视觉关系特征向量；

对所述主体特征向量、所述客体特征向量和所述视觉关系特征向量进行匹配，得到所述视觉特征向量。

5.如权利要求1所述的生成方法，其特征在于，基于预先训练的fastText模型，得到所述文本数据的词向量的步骤包括：

将所述文本数据投射到嵌入空间，得到所述词向量，其中，在所述嵌入空间中词之间保持高于预定阈值的语义相似度。

6.如权利要求5所述的生成方法，其特征在于，通过对所述词向量进行融合，得到语义特征向量的步骤包括：

通过全连接层将所述词向量映射到隐藏节点，得到隐层语义嵌入向量，其中，所述隐层语义嵌入向量包括主体隐层嵌入向量、客体隐层嵌入向量和谓词隐层嵌入向量；

对所述隐层语义嵌入向量进行融合，得到谓词关系向量；

对所述主体词向量、所述客体词向量和所述谓词关系向量进行匹配，得到所述语义特征向量。

7.如权利要求2所述的生成方法，其特征在于，

所述交叉熵函数表示如下：

其中，

M表示所述人工标注的三元组注释的总体类别数，

m表示所述人工标注的三元组注释的当前类别，

t表示基于所述视觉关系预测值得到的视觉关系三元组，

所述反向交叉熵函数表示如下：

8.如权利要求7所述的生成方法，其特征在于，通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤包括：

基于用于降低交叉熵的过拟合的第一超参数、用于降低所述人工标注的三元组注释的标签噪声的第二超参数、交叉熵函数和反向交叉熵函数，确定对称学习的损失函数，其中，所述损失函数表示所述视觉特征向量和所述语义特征向量的匹配过程的损失。

9.如权利要求8所述的生成方法，其特征在于，

所述损失函数表示如下：

其中，

表示所述第一超参数，

表示所述第二超参数。

10.如权利要求8或9所述的生成方法，其特征在于，通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习的步骤还包括：

基于所述损失函数，调整所述Faster R-CNN 目标检测器和所述fastText模型的参数，从而使所述最终的视觉关系预测值满足预设要求。

11.一种场景图的生成装置，其特征在于，所述生成装置包括：

数据获取单元，被配置为获取图像数据和文本数据，其中，所述图像数据包括含有噪声的图像数据集，所述文本数据包括公共爬虫文本数据集；

视觉检测单元，被配置为通过Faster R-CNN目标检测器，得到所述图像数据的特征向量，并且通过对所述特征向量进行融合，得到视觉特征向量，其中，所述特征向量包括主体特征向量、客体特征向量和谓词特征向量；

语义表示单元，被配置为基于预先训练的fastText模型，得到所述文本数据的词向量，并且通过对所述词向量进行融合，得到语义特征向量，其中，所述词向量包括主体词向量、客体词向量和谓词向量；

对称学习单元，被配置为通过对所述视觉特征向量和所述语义特征向量进行匹配，得到视觉关系预测值，并且通过使用交叉熵函数和反向交叉熵函数对所述视觉关系预测值进行对称学习，得到最终的视觉关系预测值，从而生成场景图。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至10中任意一项所述的场景图的生成方法。

13.一种计算装置，其特征在于，所述计算装置包括：

处理器；和

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至10中任意一项所述的场景图的生成方法。