CN109783666A

CN109783666A - 一种基于迭代精细化的图像场景图谱生成方法

Info

Publication number: CN109783666A
Application number: CN201910028169.0A
Authority: CN
Inventors: 万海; 肖逸凡; 曾娟
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-05-21
Anticipated expiration: 2039-01-11
Also published as: CN109783666B

Abstract

本发明公开一种基于迭代精细化的图像场景图谱生成方法，涉及图像场景图谱领域，包括步骤：输入图像场景图谱数据集及其参数，提取图像的视觉特征；结合训练集中的图像数据以及场景图谱数据，利用视觉信息和语义信息对实体对之间的视觉关系做分类，生成图像场景图谱；产生出若干个区域包围盒和对应的每个区域的特征向量，融合区域特征向量得到图像描述文段的特征向量；将图像描述文段的特征向量输入到图像描述文段生成器中生成图像描述文段；构建精细化图，定义精细化实体对的特征向量和区域特征向量的方法，迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量，至达到最大迭代次数为止。本发明提高了图像场景图谱生成的效果。

Description

一种基于迭代精细化的图像场景图谱生成方法

技术领域

本发明涉及图像场景图谱表示学习领域，具体公开一种基于迭代精细化的图像场景图谱生成方法。

背景技术

图像场景图谱是对一幅图像所描绘场景的抽象的、结构化的表示。具体来说，图像场景图谱以图像场景图谱关系三元组(头部实体、关系、尾部实体)和图像场景图谱属性三元组(实体、属性类型、属性)的方式记录了图像中的实体、实体的属性以及实体两两之间的关系，并且每个实体在图像中都有一个对应的包围盒。图像场景图谱最先由Johnson等人提出，近来在计算机视觉和人工智能领域受到了关注，并有相关的研究成果，例如：利用图像场景图谱检索图像；从事先外部语料库学习的词向量中检索实体的词向量来辅助视觉问答；利用物体检测器和关系检测器生成图像场景图谱。

近年来，图像生成描述文段的方法也受到了人们的关注。图像生成描述文段涉及到为给定的图像生成人类可读的、非结构化的文本描述文段。图像的描述文段生成是计算机视觉和自然语言处理领域的交叉任务，能够完成从图像到文本的多模态转换，最早由Farhadi等人提出。该任务可具体形式化描述为：给定二元组(I，S)，其中I表示图像，S表示图像的描述文段，描述文段可以由若干个句子组成；相关模型完成从图像I到描述文段S的多模态映射。该任务对人类而言非常简单，但是对机器来说非常困难，因为它涉及到理解图像的内容，还涉及到将理解到的内容翻译成自然语言。并且该任务，相较于其他图像理解任务而言，比如一句描述图像中的信息、图像场景分类等，对模型捕捉图像整体信息和细节信息的要求更高。融合自然语言处理技术和计算机视觉技术一直是处理这个任务的一大关键。

但是目前场景图谱表示学习方法存在不足，具体地：

(1)目前场景图谱表示学习没有考虑如何引入与图像有关的文本来提高表示学习的质量，特别是如何处理图像有关文本的实体数据。

(2)场景图谱表示学习的主要目的是用于图像问答，目前的模型仅考虑图像本身，忽略了图像上下文蕴含了图谱中结构信息，也不能融合多种其他异构信息。

(3)图像问答过程主要是利用自然语言来进行查询与推理，未引入文本信息，导致场景知识图谱表示能力较弱，更缺乏图像问答所必须的推理过程。

本发明涉及到的图像场景图谱生成方法的目标是给出一组缺少头部实体、关系或者尾部实体的图像场景图谱三元组查询，利用图像信息和其他可以利用的信息得出缺少部分的答案。上述图像场景图谱三元组生成具有重要的意义，因为任意一组图像场景图谱三元组生成都可以转化成一条自然语言的查询，是视觉问答的基础。

发明内容

本发明针对现有图像场景图谱生成所存在的问题，提出一种基于迭代精细化的图像场景图谱生成方法，利用图像描述文段包含的信息，迭代精细化图像场景图谱的视觉关系分类精度，从而达到提高图像场景图谱生成的效果。

本发明采用如下技术方案来实现：一种基于迭代精细化的图像场景图谱生成方法，包括以下步骤：

步骤1、输入图像场景图谱数据集及其参数，用深度神经网络提取图像场景图谱数据集中图像的视觉特征；

步骤2、结合训练集中的图像数据以及场景图谱数据，利用视觉信息和语义信息对实体对之间的视觉关系做分类，生成图像场景图谱；

步骤3、用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量，优选地，融合区域特征向量得到图像描述文段的特征向量；将图像描述文段的特征向量输入到图像描述文段生成器中，以生成图像描述文段；

步骤4、构建精细化图，优选地，定义精细化实体对的特征向量和区域特征向量的方法，精细化特征向量后，迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。

与现有技术相比，本发明取得了如下有益效果：促进图像场景图谱生成和图像描述文段生成这两个任务的信息交流，利用图像描述文段包含的信息，迭代精细化图像场景图谱的视觉关系分类精度，提高了图像场景图谱生成的效果。

附图说明

图1为本发明基于迭代精细的图像场景图谱生成方法的整体流程图；

图2为图像场景图谱生成中的视觉关系多分类训练流程图；

图3为图像描述文段的生成流程图；

图4为迭代特征精细化处理流程图。

具体实施方式

下面结合附图和实施对本发明做详细描述，但本发明的实施方式不限于此。

本发明综合考虑人工智能领域中图像场景图谱生成和图像描述文段生成这两个重要的图像理解任务，通过迭代的方法促进上述两个任务的信息交流，提高图像场景图谱生成的效果。上述两个任务都涉及图像场景的语义理解，但是对于图像描述文段生成这个任务来说，是图像理解中持续受人们关注的任务，同时也是一个非常有挑战的任务，因为它侧重于解决如何让机器从整体的、一致性的和完整的角度描述图像内容这个问题。而对于图像场景图谱生成这个任务来说，一方面，它的挑战点在如何更好地从有限的信息中学习到正确识别分类实体之间的多种多样的视觉关系，而另一方面，这个任务又能表现出对图像的完整结构化表示。这两个任务理论上可以通过信息交流实现优势互补。

本发明提出一种迭代精细化的生成方法来达到上述两个任务间的信息交流。给定一张图片，本发明的输入包括图像本身和它对应的场景描述文段。首先，在图像描述文段生成任务中，用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量，用池化的方法融合区域特征向量，得到描述文段的特征向量。接着，将描述文段特征向量输入到图像描述文段生成器中，以生成图像描述文段，其中图像描述文段生成器可采用层级神经网络，层级神经网络结构由一个句循环神经网络S-RNN和一个词循环神经网络W-RNN构成，S-RNN用于决定生成问图像描述文段的句子数目和句子特征向量，而W-RNN取句子特征向量作为输入，生成翻译句子的具体单词。其次，在图像场景图谱生成任务中，利用物体检测器定位到图像中的若干个实体包围盒，每个包围盒标注着预测出来的实体类别。假设实体包围盒的数目为N，初始化一个二维矩阵M，使得矩阵的大小为N乘以N，矩阵中的每个元素M(i，j)表示图像中第i个实体到第j个实体之间的关系分类。当两个实体之间没有关系的时候，M(i,j)的值为0。初始化时矩阵M中的所有元素为0。穷举实体对，合并实体对的包围盒，得到N*N个合并包围盒，然后用训练好的深度神经网络提取图像整体的视觉三维特征矩阵，对于每个合并包围盒，从该视觉三维特征矩阵中对应位置取出局部特征矩阵，用全连接神经网络将取出来的特征矩阵映射为一个向量，得到每一个合并包围盒的特征向量。用所有的合并包围盒特征向量，训练一个视觉关系多分类器。在训练图像描述文段生成器和视觉关系多分类器的时候，使用迭代的方法精细化区域特征向量和合并包围盒的特征向量。最后做实验检测图像场景图谱生成的效果，对本发明提出的方法做评估，验证基于迭代精细化方法的有效性，实验内容包括链接预测和分类测试。

在本实施例中，记输入图像为I，图像场景图谱实体集为E；对应的图像描述文段为P；图像场景图谱的视觉关系集为R；给定一个实体对(i,j)，其对应的视觉关系分类标签是y_i,j；视觉关系分类矩阵为M。

如图1所示，本发明基于迭代精细化的图像场景图谱生成方法，包括以下步骤：

步骤1、输入图像场景图谱数据集及其参数，图像场景图谱数据集包括训练集、测试集和验证集，用深度神经网络提取图像场景图谱数据集中图像的视觉特征；

(11)、输入训练集的图像数据I，对数据集中的图像进行预处理，将图像的大小调整成统一的规格，设定最大迭代次数。

(12)、随机初始化图像场景图谱实体对编码、视觉关系分类过程和描述文段生成过程中各自的神经网络以及视觉关系分类矩阵M。

(13)、取预训练好的深度神经网络，输入步骤(11)预处理过的图像，得到图像整体的视觉三维特征矩阵。

步骤2、如图2所示，结合训练集中的图像数据以及场景图谱数据，利用视觉信息和语义信息对实体对之间的视觉关系做分类，生成图像场景图谱；

(21)对图像场景图谱实体对进行视觉特征编码，得到实体对的视觉特征向量v_(h,t)；

a)对于输入的图像数据I，用训练好的物体检测器(object detector)生成若干个实体包围盒，每个实体包围盒标注着被预测出来的实体类别，对应于图像场景图谱的每一个实体，得到图像数据的实体集E。

b)取图像场景图谱的头部实体h的包围盒β_h＝(x_h,y_h,x'_h,y'_h)和尾部实体t的包围盒β_t＝(x_t,y_t,x'_t,y'_t)，其中x,y表示包围盒左上角的坐标，x',y'表示包围盒右下角的坐标，实体对(h,t)的合并包围盒为β_(h,t)＝(x_min,y_min,x_max,y_max)，其中：x_min＝min(x_h,x_t)，y_min＝min(y_h,y_t)，x_max＝max(x'_h,x'_t)，y_max＝max(y'_h,y'_t)。

c)从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个实体对的合并包围盒β_(h,t)的对应区域的特征I_(h,t)。

d)将每个实体对的合并包围盒的对应区域的特征I_(h,t)用双线性插值法调整为规定的大小后通过卷积神经网络和外加的一层实体全连接神经网络层，编码得到实体对的视觉特征向量v_(h,t)。

(22)在图像数据I的实体集E中，任取两个实体，组成一个实体对p＝(h,t)，取两个实体包围盒的被预测出来的实体类别，在Word2Vec模型中获取到对应语义特征向量w_h和w_t。

(23)将语义特征向量w_h、w_t和视觉特征向量v_(h,t)共三个向量依次输入到一个单层双向循环神经网络(Bi-RNN)中，得到的输出是一个N+1维度的概率分布向量y_h,t；其中维度中的N表示视觉关系集R的大小，1表示“不相关”分类。取出概率分布向量y_h,t的组成元素中最大元素的索引作视觉分类的结果。穷取图像数据I的实体集E中的所有实体对，得到图像图像I的所有实体对之间的视觉分类结果。实体对之间的视觉分类结果构成视觉关系矩阵Μ。Μ的大小为||E||*||E||。||E||表示实体集E的大小。

(24)计算视觉关系分类的准确率和平均损失，用随机梯度下降算法进行用于生成图像场景图谱的神经网络中各层参数的反向传播得到梯度值并更新用于生成图像场景图谱的神经网络参数。

步骤3、如图3所示，生成图像描述文段；

(31)输入一张图像数据I，区域检测器输出若干个区域包围盒，从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个区域包围盒对应的特征矩阵I_r。

(32)将特征矩阵I_r用双线性插值法调整为规定的大小后通过卷积神经网络和外加的一层实体全连接神经网络层，编码得到每个区域包围盒的视觉特征向量v_i。

(33)用池化的方法将多个视觉特征向量v₁,v₂,...,v_S融合成一个文本特征向量v_r，计算方法如下：

其中S为生成的区域包围盒的数目。

(34)使用由句循环神经网络和词循环神经网络构成的层级神经网络生成图像描述文段，具体如下：

a)取文本特征向量v_r作为句循环神经网络的输入，输出若干个主题向量t_i。在这里，句循环神经网络是一个单层的LSTM结构，初始化时将隐藏层和细胞状态均初始化为零。在每一个时间步长里，句循环神经网络取一个文本特征向量v_r作为输入，产生一系列的隐层状态h₁,h₂,...,h_s。每一个隐层状态有两个用途，一是用投影矩阵对隐层状态h_i做投影，再通过一个逻辑回归分类器得到分布p_i，分布p_i的值介于CONTINUE＝0和STOP＝1之间，可以用于判断当前的句子是不是成段文本描述的最后一句；二是作为输入，输入到一个两层全连接网络的神经网络中，用来生成主题向量t_i。一个主题向量对应一个生成的句子。

b)将句循环神经网络输出的主题向量t_i作为词循环神经网络的输入，得到对应句子的具体单词。在这里，词循环神经网络由两层标准的LSTM组成，它的第一个输入和第二个输入分别是主题向量t_i和START标注，随后的输入为句子中单词的词向量。在每一个时间步长中，LSTM的隐层状态被用于预测此词汇表中单词的分布或者用于预测END这个特殊信号来表述句子的结束。最后，将词循环神经网络生成的所有句子拼接在一起，得到生成的成段图像描述文段。

(35)得到成段图像描述文段后，计算图像描述文段生成器的损失值，用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并更新层级神经网络参数。图像描述文段生成器的损失值采用损失函数计算，损失函数定义如下：

其中，x表示给定的图像，y表示图像场景图谱数据集中图像对应的标准图像描述文段，y有C个句子，第i个句子中有N_i个单词，y_ij表示是第i个句子第j个单词的词向量，p_ij表示第i个句子在词神经网络的第j个步长的输出。λ(x,y)是句子损失λ_sent和单词损失λ_word两个交叉熵的加权和。

步骤4、如图4所示，构建精细化图，定义精细化实体对的特征向量和区域特征向量的方法，精细化特征向量后，迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。

(41)构建精细化图：对于给定的图像，图中包含两种节点：区域节点(与区域包围盒一一对应)和实体对节点。其中区域节点有S个(区域节点的数量即区域包围盒的数目)，实体对节点有N*N个，N是图像中实体包围盒的数目。任取一个区域节点，如果对应区域包围盒包含某个实体对的两个实体包围盒，那么将该区域节点分别与该实体对的两个实体的节点连一条边。

(42)精细化实体对的特征向量，其计算过程如下：

其中，表示与第i个实体对节点连接的所有区域节点的特征的融合；E_r,p表示精细化图中区域节点和实体对节点之间的边的集合；函数σ_＜r,p＞表示“区域-实体对”连接的门控函数；表示精细化后的实体对特征；表示区域特征向量，即步骤(32)中的v_i；表示实体对特征向量，即步骤(21)中的v_(h,t)；表示模板向量，G表示模板向量的个数。

(43)精细化区域特征向量，其计算过程如下：

其中，表示和第k个区域节点连接的所有实体对节点的特征的融合；E_p,r表示精细化图中实体对节点与区域对节点之间的边的集合；函数σ_＜p,r＞表示“实体对-区域”连接的门控函数；表示精细化后的区域特征；表示区域特征向量，即步骤(32)中的v_i；表示实体对特征向量，即步骤(21)中的v_(h,t)；表示模板向量，G表示模板向量的个数。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于迭代精细化的图像场景图谱生成方法，其特征在于，包括以下步骤：

步骤3、用区域检测器产生出若干个区域包围盒和对应的每个区域的特征向量，融合区域特征向量得到图像描述文段的特征向量；将图像描述文段的特征向量输入到图像描述文段生成器中，以生成图像描述文段；

步骤4、构建精细化图，定义精细化实体对的特征向量和区域特征向量的方法，精细化特征向量后，迭代执行图像场景图谱生成、图像成段图像描述文段生成、精细化特征向量这三个步骤直到达到最大迭代次数为止。

2.根据权利要求1所述的图像场景图谱生成方法，其特征在于，图像场景图谱数据集包括训练集、测试集和验证集；步骤1包括如下步骤：

(11)、输入训练集的图像数据I，对数据集中的图像进行预处理，将图像的大小调整成统一的规格，设定最大迭代次数；

(12)、随机初始化图像场景图谱实体对编码、视觉关系分类过程和描述文段生成过程中各自的神经网络以及视觉关系分类矩阵M；

3.根据权利要求2所述的图像场景图谱生成方法，其特征在于，步骤2包括如下步骤：

(22)在图像数据I的实体集E中，任取两个实体，组成一个实体对p＝(h,t)，取两个实体包围盒的被预测出来的实体类别，获取对应语义特征向量w_h和w_t；

(23)将语义特征向量w_h、w_t和视觉特征向量v_(h,t)依次输入到一个单层双向循环神经网络中，得到一个N+1维度的概率分布向量y_h,t输出；取出概率分布向量y_h,t的组成元素中最大元素的索引作视觉分类的结果；穷取图像数据I的实体集中的所有实体对，得到所有实体对之间的视觉分类结果，实体对之间的视觉分类结果构成视觉关系矩阵Μ；

(24)计算视觉关系分类的准确率和平均损失，用随机梯度下降算法进行用于生成图像场景图谱的神经网络中各层参数的反向传播得到梯度值，并更新用于生成图像场景图谱的神经网络参数。

4.根据权利要求3所述的图像场景图谱生成方法，其特征在于，步骤(21)包括如下步骤：

(211)对图像数据I用训练好的物体检测器生成若干个实体包围盒，每个实体包围盒标注着被预测出来的实体类别，对应于图像场景图谱的每一个实体；

(212)取图像场景图谱的头部实体h的包围盒β_h＝(x_h,y_h,x'_h,y'_h)和尾部实体t的包围盒β_t＝(x_t,y_t,x'_t,y'_t)，其中x,y表示包围盒左上角的坐标，x',y'表示包围盒右下角的坐标，实体对(h,t)的合并包围盒为β_(h,t)＝(x_min,y_min,x_max,y_max)，其中：x_min＝min(x_h,x_t)，y_min＝min(y_h,y_t)，x_max＝max(x'_h,x'_t)，y_max＝max(y'_h,y'_t)；

(213)从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个实体对的合并包围盒β_(h,t)的对应区域的特征I_(h,t)；

(214)将每个实体对的合并包围盒的对应区域的特征I_(h,t)通过卷积神经网络和外加的一层实体全连接神经网络层，编码得到实体对的视觉特征向量v_(h,t)。

5.根据权利要求2所述的图像场景图谱生成方法，其特征在于，步骤3包括如下步骤：

(31)输入一张图像，区域检测器输出若干个区域包围盒，从步骤(13)得到的图像整体的视觉三维特征矩阵中截取出每个区域包围盒对应的特征矩阵I_r；

(32)将特征矩阵I_r通过卷积神经网络和外加的一层实体全连接神经网络层，编码得到每个区域包围盒的视觉特征向量v_i；

(33)用池化的方法将多个视觉特征向量v₁,v₂,...,v_S融合成一个文本特征向量v_r；

(34)使用层级神经网络生成图像描述文段；

(35)计算图像描述文段生成器的损失值，用随机梯度下降算法进行层级神经网络中各层参数的反向传播得到梯度值并更新层级神经网络参数。

6.根据权利要求5所述的图像场景图谱生成方法，其特征在于，所述层级神经网络由一个句循环神经网络S-RNN和一个词循环神经网络W-RNN构成，S-RNN用于决定生成问图像描述文段的句子数目和句子特征向量，而W-RNN取句子特征向量作为输入，生成翻译句子的具体单词。

7.根据权利要求5所述的图像场景图谱生成方法，其特征在于，所述层级神经网络包括句循环神经网络和词循环神经网络，步骤(34)包括：

a)取文本特征向量v_r作为句循环神经网络的输入，输出若干个主题向量t_i；

b)将句循环神经网络输出的主题向量t_i作为词循环神经网络的输入，得到对应句子的具体单词；将词循环神经网络生成的所有句子拼接在一起，得到生成的成段图像描述文段。

8.根据权利要求6所述的图像场景图谱生成方法，其特征在于，句循环神经网络是一个单层的LSTM结构，初始化时将隐藏层和细胞状态均初始化为零；在每一个时间步长里，句循环神经网络取一个文本特征向量v_r作为输入，产生一系列的隐层状态h₁,h₂,...,h_s；词循环神经网络由两层标准的LSTM组成，在每一个时间步长中，LSTM的隐层状态被用于预测此词汇表中单词的分布或者用于预测END来表述句子的结束。

9.根据权利要求1所述的图像场景图谱生成方法，其特征在于，精细化实体对的特征向量的计算过程如下：

其中，表示与第i个实体对节点连接的所有区域节点的特征的融合；E_r,p表示精细化图中区域节点和实体对节点之间的边的集合；函数σ_＜r,p＞表示“区域-实体对”连接的门控函数；表示精细化后的实体对特征；表示区域特征向量；表示实体对特征向量；表示模板向量，G表示模板向量的个数。

10.根据权利要求1所述的图像场景图谱生成方法，其特征在于，精细化区域特征向量的计算过程如下：

其中，表示和第k个区域节点连接的所有实体对节点的特征的融合；E_p,r表示精细化图中实体对节点与区域对节点之间的边的集合；函数σ_＜p,r＞表示“实体对-区域”连接的门控函数；表示精细化后的区域特征；表示区域特征向量；表示实体对特征向量；表示模板向量，G表示模板向量的个数。