CN111291212B

CN111291212B - 基于图卷积神经网络的零样本草图图像检索方法和系统

Info

Publication number: CN111291212B
Application number: CN202010077162.0A
Authority: CN
Inventors: 张玥杰; 张兆龙
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-01-24
Filing date: 2020-01-24
Publication date: 2022-10-11
Anticipated expiration: 2040-01-24
Also published as: CN111291212A

Abstract

本发明属于多媒体信息检索技术领域，具体为基于图卷积神经网络的零样本草图图像检索方法和系统。本发明提供的零样本草图图像检索系统架构包括三个重要组成部分：特征编码网络、语义保持网络和语义重构网络；本发明通过特征提取网络提取草图和图像视觉特征；通过图卷积网络同时对草图和图像的视觉信息及其标签语义信息进行处理，建立未见过类别与见过类别之间的联系；最后通过语义重构网络，增强模型泛化能力；最终，模型将未见过类别的草图作为输入，并进行检索，找到与其相似的图像。本发明采用变分自编码器从视觉信息中生成语义信息，进一步增强模型的泛化能力。

Description

基于图卷积神经网络的零样本草图图像检索方法和系统

技术领域

本发明属于多媒体信息检索技术领域，具体涉及基于图卷积神经网络的零样本草图图像检索方法和系统。

背景技术

基于草图的图像检索(Sketch-based Image Retrieval,SBIR)旨在通过手绘草图检索到用户想要的图像，已经被学界研究多年。与传统基于文本的图像检索技术(Text-based Image Retrieval,TBIR)相比，基于草图的图像检索更加方便和直观。因为，有时人们更容易去画出一个他/她想要的图像细节，而不是用文字描述它。由于草图往往十分抽象，只包含一些线条，而图像却十分具体，包含诸如颜色、纹理等细节信息。因此，草图和图像之间有着巨大差异，这种差异通常被称为语义鸿沟(Semantic Gap)。如何有效处理这一鸿沟，也成为基于草图的图像检索主要面对的挑战。随着深度学习的不断发展，神经网络表现出强大的表示能力，研究人员开始将深度神经网络应用到这个领域内，并取得不错效果。

但随着移动设备普及和互联网不断发展，网络中多媒体内容日益增长。互联网中已经积累巨大数量的多媒体数据，其中尤以图像数据最多，这使得用户想要检索的图像类型未出现在训练集中变得十分可能。在这种情况下，传统的基于草图的图像检索技术便无法发挥效果，这使得研究人员开始关注零样本条件下基于草图的图像检索。

零样本学习将训练集和测试集中的类别分离，确保测试集中的类别不会出现在训练集中，并且在训练集中通常包含辅助信息(Side Information)。通过这样的训练集、测试集划分方式，模型需要从见过的图像(训练集)和辅助信息中学习知识，并将这些知识进行泛化，进而推理出未见过图像(测试集)的类别信息。因此，将基于草图的图像检索与零样本学习结合进行研究更加符合实际应用中的场景，即想要检索的图像类别未出现在训练集中。结合后的零样本草图图像检索继承来自基于草图图像检索和零样本学习的技术难点：

1、如何有效处理草图和图像之间的不同，缩小两者之间的语义鸿沟；

2、如何有效进行知识泛化，把从见过的类别(训练集)中学到的知识进行转化，进而推理出未见过的类别(测试集)。

为解决第一个问题，研究者们通常使用深度神经网络将草图和图片映射到同一个特征空间中。因为神经网络强大的表示能力，它可以很好地处理草图和图像中的深度视觉信息。

为解决第二个问题，有效利用辅助信息，使模型更具泛化能力十分重要。早期的零样本学习中，通常使用属性标签，如颜色、条纹、外形等作为辅助信息，研究者们使用这些属性标签来推理未见过图像的类别。近些年，研究者们则直接使用类别标签的语义信息作为辅助信息，学习图像视觉信息和标签语义信息之间的映射，进而完成对未见过图像的类别的推理。随着生成模型的不断发展，有研究人员将生成网络应用到零样本学习中。受到这一思想的启发，变分自编码器(Variational Autoencoder,VAE)和生成式对抗神经网络(Generative Adversarial Network,GAN)都被应用到零样本基于草图的图像检索中。研究人员使用生成网络生成草图特征可能对应图像的特征，再计算这些特征与未见过图像特征之间的距离，选取其中距离最小的几个图像作为检索结果。也有研究人员将图卷积神经网络(Graph Convolutional Networks,GCN)应用到这一任务中，利用标签的词向量构建图，图的顶点表示草图和图像，由其特征表示；图的边表示两者之间的相似度，由两者标签的词向量之间距离计算得出。研究人员希望借助图网络对图结构的强大处理能力，使模型可以推测出未见过草图和图像之间的相似信息，进而检索出和给定草图相似的图像。

虽然之前的方法已经在零样本草图图像检索这一任务中取得较好结果，超过之前传统的草图图像检索方法。但值得注意的是，这些方法都重点解决上述难点中的一个，应用生成模型的方法，充分利用草图和图像的视觉信息，但没能充分利用辅助信息，仅仅是以类别标签为条件，去生成对象的图像特征。加上生成模型的不稳定性，模型很难得到最好效果。本发明的方法构建一个可学习的邻接矩阵，并借助图卷积神经网络处理由草图和图像组成的图，旨在通过同时充分利用视觉信息和语义信息来解决零样本草图图像检索中的两个困难。

发明内容

本发明的目的在于提出一种基于图卷积神经网络的零样本草图图像检索方法系统和，充分利用视觉信息和语义信息来提高零样本草图图像检索的性能。

本发明提出的基于图卷积神经网络的零样本草图图像检索方法，具体步骤为：

步骤一、草图和图像预处理：从草图-图像数据集中采集草图-图像对，将其转化为张量数据格式，并进行归一化处理，构建草图-图像训练集。

步骤二、草图和图像特征生成：使用深度学习方法提取草图和图像深度视觉特征。

步骤三、基于图卷积神经网络的草图-图像融合特征生成：利用图卷积神经网络同时对视觉信息和语义信息进行处理，得到更具判别性的融合特征。

步骤四、语义信息重构：利用条件变分自编码器从视觉信息中重新生成语义信息，确保得到的融合视觉信息保持原有语义信息，提高模型泛化能力。

步骤五、构建损失函数指导模型训练：通过多种损失函数，使模型提取到的深度视觉特征更具判别性。

进一步，所述步骤一包括：

步骤1.1、利用PIL库读取草图-图像数据，并将其转换为张量数据格式；

步骤1.2、将由上面步骤得到的张量数据进行归一化处理。

所述步骤二使用ResNet模型提取草图和图像的深度视觉特征。

进一步，对于草图和图像，使用孪生网络架构，并用在ImageNet上预训练的ResNet50提取每一张草图和图像的深度特征，两个孪生网络并未共享参数。

进一步，所述步骤三包括：

步骤3.1、对每批草图-图像对构建全连接图，得到图节点的特征向量；

步骤3.2、利用草图-图像视觉信息和标签语义信息得到边信息，构建邻接矩阵；

步骤3.3、根据图卷积神经网络的更新公式，对节点信息进行更新。

步骤3.1中，对应批大小为B的草图图像数据，构建的图大小为B×B。节点特征向量h_i由草图特征向量

与图像特征向量

拼接而成：

步骤3.2中，标签语义信息由标签在GloVe中的300维词向量表示。邻接矩阵中的每个元素a_ij表示节点h_i和节点h_j之间的相似度信息，其计算公式为：

其中，

为计算节点间距离的函数，由多层感知机建模，并同时考虑节点的视觉信息和语义信息。步骤3.3中，图卷积神经网络更新按照如下公式进行：

其中，H^(l)和W^(l)为图卷积神经网络第l层中的特征矩阵和可学习参数；σ为非线性激活函数如ReLU；

为邻接矩阵A的正则化，其计算公式为

进一步，所述步骤四包括：

步骤4.1、将视觉特征映射到隐空间，得到隐变量；

步骤4.2、将隐变量解码为语义信息。

步骤4.1中，编码器利用参数重构的思想，分别将视觉特征映射为隐变量的均值μ和方差σ：

μ＝W_μx^gcn (4)

logσ＝W_σx^gcn (5)

其中，W_μ和W_σ分别为两个编码器的参数，接着将均值μ和方差σ与一个标准正太分布变量

结合，得到隐变量z＝μ+σ×∈，符合均值为μ、方差为σ的正态分布。步骤4.2中，解码器在视觉信息条件下，将隐变量解码为语义信息：

进一步，所述步骤五共包含4个损失函数：分别为分类损失

特征损失

语义损失

和KL散度损失

最终，将其结合成整体损失函数

其中，λ_i(i＝1,2,3)为平衡调节因子。整体损失函数对模型进行约束和优化。

对应于上述方法，本发明还涉及基于图卷积神经网络的零样本草图图像检索系统。该系统架构主要包含三个部分：特征编码网络(Encoding Network)、语义保持网络(Semantic Preserving Network)和语义重构网络(Semantic Reconstruction Network)；其中，所述特征编码网络旨在通过两个编码方程f(·)和g(·)，分别提取草图和图像特征，并将其映射到相同特征空间中去；所述语义保持网络旨在通过图网络将语义信息编码进草图和图像特征中，并通过生成的草图、图像融合特征去指导特征编码网络的编码过程；所述语义重构网络旨在通过变分自编码器从草图和图像特征中重构语义信息，增强模型泛化能力，更好地匹配未见过的草图和图像。

进一步，所述特征编码网络采用两个ResNet50，即50层的ResNet模型分别建模f(·)和g(·)。该ResNet模型将草图S和图像I映射为2,048维的特征向量，其计算公式为：

x_S＝f(S；θ_S) (8)

x_I＝g(I；θ_I) (9)

其中，

和

分别为草图和图像对应的特征向量；θ_S和θ_I为ResNet50的参数。

进一步，所述语义保持网络主要使用图卷积神经网络对草图和图像的视觉信息、及其标签的语义信息进行处理，主要包括如下步骤：

步骤一、对于一个批大小为N的草图、图像数据，构建一个N×N的完全图。图的顶点代表一对草图和图像，图的边表示草图和图像对之间的相似度关系；步骤二、计算图的顶点i的特征h_i，计算公式为：

其中，[·,·]为拼接操作；

和

分别为草图和图像的特征向量。

步骤三、构建图的邻接矩阵A，计算图顶点i和j之间的边a^i,j，。首先计算两个顶点在语义空间上的距离d_i,j，其计算公式为：

d_i,j＝‖s_i-s_j‖₁ (11)

其中，‖·‖₁为L1距离；s_i和s_j分别为草图i和草图j标签的词向量。接着，通过一个可学习的度量方程

来计算结合视觉信息和语义信息后顶点间的综合距离。该度量方程基于一个多层感知机(Multilayer Perceptron,MLP)实现，其计算公式为：

接着，两个顶点i和j之间边a^i,j的计算公式为：

步骤四、通过图卷积神经网络更新图顶点的特征。假设图卷积神经网络的第l层N个节点构成的特征矩阵为

图卷积神经网络的卷积操作按照如下公式计算：

其中，

为邻接矩阵A的某种正则化形式；W^(l)为第l层的可学习参数；σ为一种非线性激活函数，如ReLU。

进一步，所述语义重构网络的条件变分自编码器从草图-图像的融合视觉信息中重新生成它们对应的语义信息，主要包括如下步骤：

步骤一、变分自编码器中的编码器将草图-图像的融合视觉信息映射到隐藏空间中(Latent Space)；

步骤二、变分自编码器的解码器以隐藏空间中的特征向量和草图-图像的融合视觉信息作为输入，试图重构草图-图像对应的语义信息。

本发明提出的基于图卷积神经网络的零样本草图图像检索的方法，融合草图、图像和文本的多模态信息；利用多层感知机对图网络的邻接矩阵进行学习，可以同时解决零样本草图图像检索的两个主要难题。多层感知机同时以草图和图像的视觉信息、及其对应的类标签语义信息作为输入，可同时缩减草图和图像之间的语义鸿沟，又可从见过的类别学习到的知识进行转换，推理出未见过的类别。本发明采用变分自编码器从视觉信息中生成语义信息，可进一步增强模型的泛化能力。

附图说明

图1是本发明方法的架构图。

具体实施方式

本发明首先提出一个新颖的零样本草图图像检索技术模型，该模型有效利用草图和图像的视觉信息、及其类标签的语义信息，对草图和图像进行跨模态相关性建模，得到统一空间下的深度特征表示，利用基于见过的类别标签所学到的知识，推理出未见过类别的草图和图像之间的相关性。利用所构建模型，能够有效促进零样本草图图像检索准确率的提高，提升用户体验。该模型主要包括以下几个部分：

(1)特征编码网络(Encoding Network)：本发明的特征编码网络采用孪生网络结构，分别学习两个从草图到特征向量和从图像到特征向量的映射f(·)和g(·)，这两个网络将草图和图像映射到同一个特征空间。为使它们可以更好的应对草图和图像这两个不同模态数据，两个特征编码网络并未共享权重。本发明的特征编码网络采用ResNet50作为基本网络，且可被替换为其他任何一种神经网络。

(2)语义保持网络(Semantic Preserving Network)：本发明中使用语义保持网络来生成草图和图像的融合特征表示，这样的表示可有效缩小草图和图像之间的语义鸿沟。在传统草图图像检索中，一般只采用对比损失(Contrastive Loss)或者三元组损失(Triplet Loss)来应对草图和图像之间的语义鸿沟。但这些方法只考虑视觉信息，并不能解决零样本草图图像检索中的全部挑战。零样本学习中的一个关键问题在于如何将从见过的类别中所学到的知识进行泛化，进而推理出未见过的类别信息。很多方法借助类别标签的语义信息进行知识泛化，这些语义信息暗含类别之间的关联，有助于从见过的类别推理出未见过的类别。利用图卷积神经网络可对零样本草图图像检索中存在的图结构进行处理，并同时考虑视觉信息和语义信息可有效解决草图和图像的语义鸿沟且对知识进行泛化。

(3)语义重构网络(Semantic Reconstruction Network)：本发明使用语义重构网络，从草图和图像的融合视觉信息中重新生成它们对应的标签语义信息，这样可使模型保持它们在语义空间上的关联。之前的方法大多使用多层感知机建模从视觉空间到语义空间的映射，但这种多层感知机并不具有泛化能力。而使用变分自编码器这样的生成模型，从视觉信息生成语义信息，可有效提高模型的泛化能力。

较之于当前已有的零样本草图图像检索技术而言，本发明使用图卷积神经网络可以很好地处理零样本草图图像检索任务中存在的图结构信息。同时考虑视觉信息和语义信息可有效处理草图和图像间的语义鸿沟，并可将学习到的有用知识进行泛化，从而推理出未见过类别的语义信息。有效融合视觉信息和语义信息后的草图图像特征，可以很好地表示草图和图像，进而提高零样本草图图像检索的精度。

本发明提供的基于图卷积神经网络的零样本草图图像检索方法，具体步骤如下：

步骤一、草图和图像预处理：从草图-图像数据集中采集属于同一类别的成对草图和图像，将其从图像数据格式变为深度学习中的张量数据格式，并进行归一化操作。具体来说，首先利用PIL从各个类别中读取成对的草图和图像，接着将草图和图像的每一个像素值都除以255，将数据值转换到0和1之间，并将其转换为大小为[B×C×H×W]的张量数据格式，其中B为批大小，C为通道数，H为图像高度，W为图像宽度。接着，将每个通道上的数据按照均值和方差分别为0.5进行归一化操作。由此，将所有草图和图像都转化为张量并进行归一化操作。

步骤二、草图和图像特征生成：本发明使用两个特征编码器f(·)和g(·)分别对草图和图像进行特征提取，得到D维特征向量。f(·)和g(·)采用在ImageNet大规模图像数据集上预训练过的ResNet50进行建模，最终的特征向量维度D为2,048。输入一幅草图I_s或者图像I_I，从ResNet50的最后一层卷积层conv5_x提取得到的特征X_s和X_I可以被表示为：

其中，θ_cnn为ResNet50的参数；I_*为草图或者图像；

为得到的草图和图像特征表示；B为批大小。在后续的训练过程中，ResNet50的参数θ_cnn会被学习和微调。

步骤三、基于图卷积神经网络的草图-图像融合特征生成：对于一批批大小为B的草图和图像数据，构建一个大小为B×B的完全图，图的顶点表示成对的草图和图像，图的边表示草图和图像之间的相似性关联。图中每个顶点v_i的特征向量h_i都由它所对应的草图-图像对特征向量拼接而成，计算公式如下：

其中，[·]为拼接操作，

和

分别为对应的草图特征和图像特征。进而，图中所有顶点特征向量组成的矩阵构成整个图的特征矩阵：

H＝[h₁,h₂,…,h_B] (17)

顶点之间的边表示这些草图-图像对之间的相似度信息。顶点之间的相似度信息由一个4层感知机(MLP)计算得出，每一层感知机都包含全连接层、批归一化层和激活函数层。该MLP以顶点的视觉信息h_i和草图-图像对应标签的语义信息s_i作为输入，其中标签的语义信息由标签在GloVe中的300维词向量表示，如果该标签为复合词如alarm_clock，则将该标签拆分为alarm和clock，并且用它们在GloVe中词向量的平均值作为该标签的词向量。同时，考虑视觉信息和语义信息的顶点间距离计算方式如下，首先计算顶点间视觉信息的距离

求取特征向量每一位的绝对值距离：

接着，计算顶点在语义空间上的距离d_i,j，求取每个顶点对应词向量间的L1距离：

d_i,j＝‖s_i-s_j‖₁ (19)

最后，将两个距离拼接起来，形成MLP的输入，计算求得顶点间的距离

最终，用邻接矩阵A中的每个元素a_i,j表示顶点间的相似度，并根据顶点间距离计算得出，其计算公式为：

由此，得到一批草图-图像对所构成的图表示，即图的特征矩阵H及其邻接矩阵A后，使用图卷积神经网络对图的特征矩阵进行更新，使得每个顶点都可从其邻居顶点处获得有用信息，进而在克服草图和图像间语义鸿沟的同时，又能利用语义信息构建未见过类别和见过类别间的联系。其用于更新图特征矩阵的图卷积操作按照如下公式进行：

为邻接矩阵A的正则化，其计算公式为

最终，通过图卷积神经网络，每一个顶点都得到来自其相邻顶点的信息，并将自己的特征进行更新。这样，通过图卷积神经网络得到的特征最终融合视觉信息和语义信息。

步骤四、语义信息重构：为使模型更具泛化能力，使图神经网络得到的融合特征可以更好地保持草图与图像所对应标签的语义信息，本发明使用条件变分自编码器(CVAE)对语义信息进行重构。CVAE的输入为融合特征x^gcn。根据参数重构技巧，CVAE首先用两个编码器，分别将融合特征映射到隐空间中，得到隐变量的均值μ和方差σ：

μ＝W_μx^gcn (23)

logσ＝W_σx^gcn (24)

结合，得到隐变量z＝μ+σ×∈，符合均值为μ、方差为σ的正太分布。再通过解码器D，将隐变量解码为300维的语义向量

其中，[·,·]为拼接操作。

步骤五、构建损失函数指导模型训练：本发明使用分类损失

特征损失

语义损失

和KL散度损失

来训练模型。为使最终得到的融合特征具有区分性，本发明将得到的融合特征输入到一个分类中，并利用交叉熵损失作为分类损失

对得到的融合特征进行分类。其计算公式为：

其中，l_i为真值标签；

表示图卷积神经网络输出的融合特征；θ_c为分类参数。融合特征还会被用来指导两个特征提取网络f(·)和g(·)。具体过程为，利用特征损失函数

来约束两个特征提取网络得到的特征与图神经网络得到的融合特征靠近，其计算公式为：

其中，

和

分别为f(·)和g(·)输出的草图和图像特征；

为图卷积神经网络输出的融合特征。为使通过CVAE重构后的语义信息和原始的语义信息接近，语义损失

被构建为：

其中，

和s_i分别为重构的语义信息和真实的语义信息。继承自变分编码的变分下限损失也被用于优化本发明中的模型，其计算公式为：

其中，φ为编码器的参数；θ为解码器的参数；s为标签语义信息；z为隐变量；x^gcn为图卷积神经网络输出的融合特征。最终，用于约束整个模型的损失函数为：

其中，λ_i(i＝1,2,3)为平衡调节因子，本发明中λ₁＝1，λ₂＝10，λ₃＝0.1。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于图卷积神经网络的零样本草图图像检索方法，其特征在于，包括：

步骤一、草图和图像预处理：从草图-图像数据集中采集草图-图像对，将其转化为张量数据格式，并进行归一化处理，构建草图-图像训练集；

步骤二、草图和图像特征生成：使用深度学习方法提取草图和图像深度视觉特征；

步骤三、基于图卷积神经网络的草图-图像融合特征生成：利用图卷积神经网络同时对视觉信息和语义信息进行处理，得到更具判别性的融合特征；

步骤四、语义信息重构：利用条件变分自编码器从视觉信息中重新生成语义信息，确保得到的融合视觉信息保持原有语义信息，提高模型泛化能力；

步骤五、构建损失函数指导模型训练：通过多种损失函数，使模型提取到的深度视觉特征更具判别性；

所述步骤三包括：

步骤3.3、根据图卷积神经网络的更新公式，对节点信息进行更新；

步骤3.1中，对应批大小为B的草图图像数据，构建的图大小为B×B；节点特征向量h_i由草图特征向量

与图像特征向量

拼接而成：

步骤3.2中，标签语义信息由标签在GloVe中的300维词向量表示；邻接矩阵中的每个元素a_ij表示节点h_i和节点h_j之间的相似度信息，其计算公式为：

其中，

为计算节点间距离的函数，由多层感知机建模，并同时考虑节点的视觉信息和语义信息；

步骤3.3中，图卷积神经网络更新按照如下公式进行：

为邻接矩阵A的正则化，其计算公式为

2.根据权利要求1所述的图像检索方法，其特征在于，所述步骤一包括：

步骤1.2、将由上面步骤得到的张量数据进行归一化处理。

3.根据权利要求2所述的图像检索方法，其特征在于，所述步骤二使用ResNet模型提取草图和图像的深度视觉特征；对于草图和图像，使用孪生网络架构，并用在ImageNet上预训练的ResNet50提取每一张草图和图像的深度特征，两个孪生网络并未共享参数。

4.根据权利要求1所述的图像检索方法，其特征在于，所述步骤四包括：

步骤4.1、将视觉特征映射到隐空间，得到隐变量；

步骤4.2、将隐变量解码为语义信息；

μ＝W_μx^gcn (4)

logσ＝W_σx^gcn (5)

结合，得到隐变量z＝μ+σ×∈，符合均值为μ、方差为σ的正态分布；

步骤4.2中，解码器在视觉信息条件下，将隐变量解码为语义信息：

5.根据权利要求4所述的图像检索方法，其特征在于，步骤五中共有4个损失函数，分别为分类损失

特征损失

语义损失

和KL散度损失

将其结合成整体损失函数

其中，λ_i(i＝1,2,3)为平衡调节因子；整体损失函数对模型进行约束和优化。

6.一种基于图卷积神经网络的零样本草图图像检索系统，其特征在于，主要包含三个部分：特征编码网络、语义保持网络和语义重构网络；其中：

所述特征编码网络旨在通过两个编码方程f(·)和g(·)，分别提取草图和图像特征，并将其映射到相同特征空间中去；

所述语义保持网络旨在通过图网络将语义信息编码进草图和图像特征中，并通过生成的草图、图像融合特征去指导特征编码网络的编码过程；

所述语义重构网络旨在通过变分自编码器从草图和图像特征中重构语义信息，增强模型泛化能力，更好地匹配未见过的草图和图像。

7.根据权利要求6所述的基于图卷积神经网络的零样本草图图像检索系统，其特征在于：

所述特征编码网络采用两个ResNet50，即50层的ResNet模型分别建模f(·)和g(·)；该ResNet模型将草图S和图像I映射为2,048维的特征向量，其计算公式为：

x_S＝f(S；θ_S) (8)

x_I＝g(I；θ_I) (9)

其中，

和

分别为草图和图像对应的特征向量；θ_S和θ_I为ResNet50的参数；

所述语义保持网络主要使用图卷积神经网络对草图和图像的视觉信息、及其标签的语义信息进行处理，包括如下步骤：

步骤一、对于一个批大小为N的草图、图像数据，构建一个N×N的完全图；图的顶点代表一对草图和图像，图的边表示草图和图像对之间的相似度关系；

步骤二、计算图的顶点i的特征h_i，计算公式为：

其中，[·,·]为拼接操作；

和

分别为草图和图像的特征向量；

步骤三、构建图的邻接矩阵A，计算图顶点i和j之间的边a^i,j，首先计算两个顶点在语义空间上的距离d_i,j，其计算公式为：

d_i,j＝‖s_i-s_j‖₁ (11)

其中，‖·‖₁为L1距离；s_i和s_j分别为草图i和草图j标签的词向量；通过一个可学习的度量方程

来计算结合视觉信息和语义信息后顶点间的综合距离；该度量方程基于一个多层感知机实现，其计算公式为：

两个顶点i和j之间边a^i,j的计算公式为：

步骤四、通过图卷积神经网络更新图顶点的特征；假设图卷积神经网络的第l层N个节点构成的特征矩阵为

图卷积神经网络的卷积操作按照如下公式计算：

其中，

为邻接矩阵A的某种正则化形式；W^(l)为第l层的可学习参数；σ为一种非线性激活函数；

所述语义重构网络的条件变分自编码器从草图-图像的融合视觉信息中重新生成它们对应的语义信息，包括如下步骤：

步骤一、变分自编码器中的编码器将草图-图像的融合视觉信息映射到隐藏空间中；