CN111291212B - 基于图卷积神经网络的零样本草图图像检索方法和系统 - Google Patents

基于图卷积神经网络的零样本草图图像检索方法和系统 Download PDF

Info

Publication number
CN111291212B
CN111291212B CN202010077162.0A CN202010077162A CN111291212B CN 111291212 B CN111291212 B CN 111291212B CN 202010077162 A CN202010077162 A CN 202010077162A CN 111291212 B CN111291212 B CN 111291212B
Authority
CN
China
Prior art keywords
sketch
image
semantic
network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010077162.0A
Other languages
English (en)
Other versions
CN111291212A (zh
Inventor
张玥杰
张兆龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010077162.0A priority Critical patent/CN111291212B/zh
Publication of CN111291212A publication Critical patent/CN111291212A/zh
Application granted granted Critical
Publication of CN111291212B publication Critical patent/CN111291212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于多媒体信息检索技术领域,具体为基于图卷积神经网络的零样本草图图像检索方法和系统。本发明提供的零样本草图图像检索系统架构包括三个重要组成部分:特征编码网络、语义保持网络和语义重构网络;本发明通过特征提取网络提取草图和图像视觉特征;通过图卷积网络同时对草图和图像的视觉信息及其标签语义信息进行处理,建立未见过类别与见过类别之间的联系;最后通过语义重构网络,增强模型泛化能力;最终,模型将未见过类别的草图作为输入,并进行检索,找到与其相似的图像。本发明采用变分自编码器从视觉信息中生成语义信息,进一步增强模型的泛化能力。

Description

基于图卷积神经网络的零样本草图图像检索方法和系统
技术领域
本发明属于多媒体信息检索技术领域,具体涉及基于图卷积神经网络的零样本草图图像检索方法和系统。
背景技术
基于草图的图像检索(Sketch-based Image Retrieval,SBIR)旨在通过手绘草图检索到用户想要的图像,已经被学界研究多年。与传统基于文本的图像检索技术(Text-based Image Retrieval,TBIR)相比,基于草图的图像检索更加方便和直观。因为,有时人们更容易去画出一个他/她想要的图像细节,而不是用文字描述它。由于草图往往十分抽象,只包含一些线条,而图像却十分具体,包含诸如颜色、纹理等细节信息。因此,草图和图像之间有着巨大差异,这种差异通常被称为语义鸿沟(Semantic Gap)。如何有效处理这一鸿沟,也成为基于草图的图像检索主要面对的挑战。随着深度学习的不断发展,神经网络表现出强大的表示能力,研究人员开始将深度神经网络应用到这个领域内,并取得不错效果。
但随着移动设备普及和互联网不断发展,网络中多媒体内容日益增长。互联网中已经积累巨大数量的多媒体数据,其中尤以图像数据最多,这使得用户想要检索的图像类型未出现在训练集中变得十分可能。在这种情况下,传统的基于草图的图像检索技术便无法发挥效果,这使得研究人员开始关注零样本条件下基于草图的图像检索。
零样本学习将训练集和测试集中的类别分离,确保测试集中的类别不会出现在训练集中,并且在训练集中通常包含辅助信息(Side Information)。通过这样的训练集、测试集划分方式,模型需要从见过的图像(训练集)和辅助信息中学习知识,并将这些知识进行泛化,进而推理出未见过图像(测试集)的类别信息。因此,将基于草图的图像检索与零样本学习结合进行研究更加符合实际应用中的场景,即想要检索的图像类别未出现在训练集中。结合后的零样本草图图像检索继承来自基于草图图像检索和零样本学习的技术难点:
1、如何有效处理草图和图像之间的不同,缩小两者之间的语义鸿沟;
2、如何有效进行知识泛化,把从见过的类别(训练集)中学到的知识进行转化,进而推理出未见过的类别(测试集)。
为解决第一个问题,研究者们通常使用深度神经网络将草图和图片映射到同一个特征空间中。因为神经网络强大的表示能力,它可以很好地处理草图和图像中的深度视觉信息。
为解决第二个问题,有效利用辅助信息,使模型更具泛化能力十分重要。早期的零样本学习中,通常使用属性标签,如颜色、条纹、外形等作为辅助信息,研究者们使用这些属性标签来推理未见过图像的类别。近些年,研究者们则直接使用类别标签的语义信息作为辅助信息,学习图像视觉信息和标签语义信息之间的映射,进而完成对未见过图像的类别的推理。随着生成模型的不断发展,有研究人员将生成网络应用到零样本学习中。受到这一思想的启发,变分自编码器(Variational Autoencoder,VAE)和生成式对抗神经网络(Generative Adversarial Network,GAN)都被应用到零样本基于草图的图像检索中。研究人员使用生成网络生成草图特征可能对应图像的特征,再计算这些特征与未见过图像特征之间的距离,选取其中距离最小的几个图像作为检索结果。也有研究人员将图卷积神经网络(Graph Convolutional Networks,GCN)应用到这一任务中,利用标签的词向量构建图,图的顶点表示草图和图像,由其特征表示;图的边表示两者之间的相似度,由两者标签的词向量之间距离计算得出。研究人员希望借助图网络对图结构的强大处理能力,使模型可以推测出未见过草图和图像之间的相似信息,进而检索出和给定草图相似的图像。
虽然之前的方法已经在零样本草图图像检索这一任务中取得较好结果,超过之前传统的草图图像检索方法。但值得注意的是,这些方法都重点解决上述难点中的一个,应用生成模型的方法,充分利用草图和图像的视觉信息,但没能充分利用辅助信息,仅仅是以类别标签为条件,去生成对象的图像特征。加上生成模型的不稳定性,模型很难得到最好效果。本发明的方法构建一个可学习的邻接矩阵,并借助图卷积神经网络处理由草图和图像组成的图,旨在通过同时充分利用视觉信息和语义信息来解决零样本草图图像检索中的两个困难。
发明内容
本发明的目的在于提出一种基于图卷积神经网络的零样本草图图像检索方法系统和,充分利用视觉信息和语义信息来提高零样本草图图像检索的性能。
本发明提出的基于图卷积神经网络的零样本草图图像检索方法,具体步骤为:
步骤一、草图和图像预处理:从草图-图像数据集中采集草图-图像对,将其转化为张量数据格式,并进行归一化处理,构建草图-图像训练集。
步骤二、草图和图像特征生成:使用深度学习方法提取草图和图像深度视觉特征。
步骤三、基于图卷积神经网络的草图-图像融合特征生成:利用图卷积神经网络同时对视觉信息和语义信息进行处理,得到更具判别性的融合特征。
步骤四、语义信息重构:利用条件变分自编码器从视觉信息中重新生成语义信息,确保得到的融合视觉信息保持原有语义信息,提高模型泛化能力。
步骤五、构建损失函数指导模型训练:通过多种损失函数,使模型提取到的深度视觉特征更具判别性。
进一步,所述步骤一包括:
步骤1.1、利用PIL库读取草图-图像数据,并将其转换为张量数据格式;
步骤1.2、将由上面步骤得到的张量数据进行归一化处理。
所述步骤二使用ResNet模型提取草图和图像的深度视觉特征。
进一步,对于草图和图像,使用孪生网络架构,并用在ImageNet上预训练的ResNet50提取每一张草图和图像的深度特征,两个孪生网络并未共享参数。
进一步,所述步骤三包括:
步骤3.1、对每批草图-图像对构建全连接图,得到图节点的特征向量;
步骤3.2、利用草图-图像视觉信息和标签语义信息得到边信息,构建邻接矩阵;
步骤3.3、根据图卷积神经网络的更新公式,对节点信息进行更新。
步骤3.1中,对应批大小为B的草图图像数据,构建的图大小为B×B。节点特征向量hi由草图特征向量
Figure GDA0003619081380000031
与图像特征向量
Figure GDA0003619081380000032
拼接而成:
Figure GDA0003619081380000033
步骤3.2中,标签语义信息由标签在GloVe中的300维词向量表示。邻接矩阵中的每个元素aij表示节点hi和节点hj之间的相似度信息,其计算公式为:
Figure GDA0003619081380000034
其中,
Figure GDA0003619081380000035
为计算节点间距离的函数,由多层感知机建模,并同时考虑节点的视觉信息和语义信息。步骤3.3中,图卷积神经网络更新按照如下公式进行:
Figure GDA0003619081380000036
其中,H(l)和W(l)为图卷积神经网络第l层中的特征矩阵和可学习参数;σ为非线性激活函数如ReLU;
Figure GDA0003619081380000037
为邻接矩阵A的正则化,其计算公式为
Figure GDA0003619081380000038
进一步,所述步骤四包括:
步骤4.1、将视觉特征映射到隐空间,得到隐变量;
步骤4.2、将隐变量解码为语义信息。
步骤4.1中,编码器利用参数重构的思想,分别将视觉特征映射为隐变量的均值μ和方差σ:
μ=Wμxgcn (4)
logσ=Wσxgcn (5)
其中,Wμ和Wσ分别为两个编码器的参数,接着将均值μ和方差σ与一个标准正太分布变量
Figure GDA0003619081380000041
结合,得到隐变量z=μ+σ×∈,符合均值为μ、方差为σ的正态分布。步骤4.2中,解码器在视觉信息条件下,将隐变量解码为语义信息:
Figure GDA0003619081380000042
进一步,所述步骤五共包含4个损失函数:分别为分类损失
Figure GDA0003619081380000043
特征损失
Figure GDA0003619081380000044
语义损失
Figure GDA0003619081380000045
和KL散度损失
Figure GDA0003619081380000046
最终,将其结合成整体损失函数
Figure GDA0003619081380000047
Figure GDA0003619081380000048
其中,λi(i=1,2,3)为平衡调节因子。整体损失函数对模型进行约束和优化。
对应于上述方法,本发明还涉及基于图卷积神经网络的零样本草图图像检索系统。该系统架构主要包含三个部分:特征编码网络(Encoding Network)、语义保持网络(Semantic Preserving Network)和语义重构网络(Semantic Reconstruction Network);其中,所述特征编码网络旨在通过两个编码方程f(·)和g(·),分别提取草图和图像特征,并将其映射到相同特征空间中去;所述语义保持网络旨在通过图网络将语义信息编码进草图和图像特征中,并通过生成的草图、图像融合特征去指导特征编码网络的编码过程;所述语义重构网络旨在通过变分自编码器从草图和图像特征中重构语义信息,增强模型泛化能力,更好地匹配未见过的草图和图像。
进一步,所述特征编码网络采用两个ResNet50,即50层的ResNet模型分别建模f(·)和g(·)。该ResNet模型将草图S和图像I映射为2,048维的特征向量,其计算公式为:
xS=f(S;θS) (8)
xI=g(I;θI) (9)
其中,
Figure GDA0003619081380000049
Figure GDA00036190813800000410
分别为草图和图像对应的特征向量;θS和θI为ResNet50的参数。
进一步,所述语义保持网络主要使用图卷积神经网络对草图和图像的视觉信息、及其标签的语义信息进行处理,主要包括如下步骤:
步骤一、对于一个批大小为N的草图、图像数据,构建一个N×N的完全图。图的顶点代表一对草图和图像,图的边表示草图和图像对之间的相似度关系;步骤二、计算图的顶点i的特征hi,计算公式为:
Figure GDA00036190813800000411
其中,[·,·]为拼接操作;
Figure GDA0003619081380000051
Figure GDA0003619081380000052
分别为草图和图像的特征向量。
步骤三、构建图的邻接矩阵A,计算图顶点i和j之间的边ai,j,。首先计算两个顶点在语义空间上的距离di,j,其计算公式为:
di,j=‖si-sj1 (11)
其中,‖·‖1为L1距离;si和sj分别为草图i和草图j标签的词向量。接着,通过一个可学习的度量方程
Figure GDA0003619081380000053
来计算结合视觉信息和语义信息后顶点间的综合距离。该度量方程基于一个多层感知机(Multilayer Perceptron,MLP)实现,其计算公式为:
Figure GDA0003619081380000054
接着,两个顶点i和j之间边ai,j的计算公式为:
Figure GDA0003619081380000055
步骤四、通过图卷积神经网络更新图顶点的特征。假设图卷积神经网络的第l层N个节点构成的特征矩阵为
Figure GDA0003619081380000056
图卷积神经网络的卷积操作按照如下公式计算:
Figure GDA0003619081380000057
其中,
Figure GDA0003619081380000058
为邻接矩阵A的某种正则化形式;W(l)为第l层的可学习参数;σ为一种非线性激活函数,如ReLU。
进一步,所述语义重构网络的条件变分自编码器从草图-图像的融合视觉信息中重新生成它们对应的语义信息,主要包括如下步骤:
步骤一、变分自编码器中的编码器将草图-图像的融合视觉信息映射到隐藏空间中(Latent Space);
步骤二、变分自编码器的解码器以隐藏空间中的特征向量和草图-图像的融合视觉信息作为输入,试图重构草图-图像对应的语义信息。
本发明提出的基于图卷积神经网络的零样本草图图像检索的方法,融合草图、图像和文本的多模态信息;利用多层感知机对图网络的邻接矩阵进行学习,可以同时解决零样本草图图像检索的两个主要难题。多层感知机同时以草图和图像的视觉信息、及其对应的类标签语义信息作为输入,可同时缩减草图和图像之间的语义鸿沟,又可从见过的类别学习到的知识进行转换,推理出未见过的类别。本发明采用变分自编码器从视觉信息中生成语义信息,可进一步增强模型的泛化能力。
附图说明
图1是本发明方法的架构图。
具体实施方式
本发明首先提出一个新颖的零样本草图图像检索技术模型,该模型有效利用草图和图像的视觉信息、及其类标签的语义信息,对草图和图像进行跨模态相关性建模,得到统一空间下的深度特征表示,利用基于见过的类别标签所学到的知识,推理出未见过类别的草图和图像之间的相关性。利用所构建模型,能够有效促进零样本草图图像检索准确率的提高,提升用户体验。该模型主要包括以下几个部分:
(1)特征编码网络(Encoding Network):本发明的特征编码网络采用孪生网络结构,分别学习两个从草图到特征向量和从图像到特征向量的映射f(·)和g(·),这两个网络将草图和图像映射到同一个特征空间。为使它们可以更好的应对草图和图像这两个不同模态数据,两个特征编码网络并未共享权重。本发明的特征编码网络采用ResNet50作为基本网络,且可被替换为其他任何一种神经网络。
(2)语义保持网络(Semantic Preserving Network):本发明中使用语义保持网络来生成草图和图像的融合特征表示,这样的表示可有效缩小草图和图像之间的语义鸿沟。在传统草图图像检索中,一般只采用对比损失(Contrastive Loss)或者三元组损失(Triplet Loss)来应对草图和图像之间的语义鸿沟。但这些方法只考虑视觉信息,并不能解决零样本草图图像检索中的全部挑战。零样本学习中的一个关键问题在于如何将从见过的类别中所学到的知识进行泛化,进而推理出未见过的类别信息。很多方法借助类别标签的语义信息进行知识泛化,这些语义信息暗含类别之间的关联,有助于从见过的类别推理出未见过的类别。利用图卷积神经网络可对零样本草图图像检索中存在的图结构进行处理,并同时考虑视觉信息和语义信息可有效解决草图和图像的语义鸿沟且对知识进行泛化。
(3)语义重构网络(Semantic Reconstruction Network):本发明使用语义重构网络,从草图和图像的融合视觉信息中重新生成它们对应的标签语义信息,这样可使模型保持它们在语义空间上的关联。之前的方法大多使用多层感知机建模从视觉空间到语义空间的映射,但这种多层感知机并不具有泛化能力。而使用变分自编码器这样的生成模型,从视觉信息生成语义信息,可有效提高模型的泛化能力。
较之于当前已有的零样本草图图像检索技术而言,本发明使用图卷积神经网络可以很好地处理零样本草图图像检索任务中存在的图结构信息。同时考虑视觉信息和语义信息可有效处理草图和图像间的语义鸿沟,并可将学习到的有用知识进行泛化,从而推理出未见过类别的语义信息。有效融合视觉信息和语义信息后的草图图像特征,可以很好地表示草图和图像,进而提高零样本草图图像检索的精度。
本发明提供的基于图卷积神经网络的零样本草图图像检索方法,具体步骤如下:
步骤一、草图和图像预处理:从草图-图像数据集中采集属于同一类别的成对草图和图像,将其从图像数据格式变为深度学习中的张量数据格式,并进行归一化操作。具体来说,首先利用PIL从各个类别中读取成对的草图和图像,接着将草图和图像的每一个像素值都除以255,将数据值转换到0和1之间,并将其转换为大小为[B×C×H×W]的张量数据格式,其中B为批大小,C为通道数,H为图像高度,W为图像宽度。接着,将每个通道上的数据按照均值和方差分别为0.5进行归一化操作。由此,将所有草图和图像都转化为张量并进行归一化操作。
步骤二、草图和图像特征生成:本发明使用两个特征编码器f(·)和g(·)分别对草图和图像进行特征提取,得到D维特征向量。f(·)和g(·)采用在ImageNet大规模图像数据集上预训练过的ResNet50进行建模,最终的特征向量维度D为2,048。输入一幅草图Is或者图像II,从ResNet50的最后一层卷积层conv5_x提取得到的特征Xs和XI可以被表示为:
Figure GDA0003619081380000071
其中,θcnn为ResNet50的参数;I*为草图或者图像;
Figure GDA0003619081380000072
为得到的草图和图像特征表示;B为批大小。在后续的训练过程中,ResNet50的参数θcnn会被学习和微调。
步骤三、基于图卷积神经网络的草图-图像融合特征生成:对于一批批大小为B的草图和图像数据,构建一个大小为B×B的完全图,图的顶点表示成对的草图和图像,图的边表示草图和图像之间的相似性关联。图中每个顶点vi的特征向量hi都由它所对应的草图-图像对特征向量拼接而成,计算公式如下:
Figure GDA0003619081380000073
其中,[·]为拼接操作,
Figure GDA0003619081380000074
Figure GDA0003619081380000075
分别为对应的草图特征和图像特征。进而,图中所有顶点特征向量组成的矩阵构成整个图的特征矩阵:
H=[h1,h2,…,hB] (17)
顶点之间的边表示这些草图-图像对之间的相似度信息。顶点之间的相似度信息由一个4层感知机(MLP)计算得出,每一层感知机都包含全连接层、批归一化层和激活函数层。该MLP以顶点的视觉信息hi和草图-图像对应标签的语义信息si作为输入,其中标签的语义信息由标签在GloVe中的300维词向量表示,如果该标签为复合词如alarm_clock,则将该标签拆分为alarm和clock,并且用它们在GloVe中词向量的平均值作为该标签的词向量。同时,考虑视觉信息和语义信息的顶点间距离计算方式如下,首先计算顶点间视觉信息的距离
Figure GDA0003619081380000076
求取特征向量每一位的绝对值距离:
Figure GDA0003619081380000077
接着,计算顶点在语义空间上的距离di,j,求取每个顶点对应词向量间的L1距离:
di,j=‖si-sj1 (19)
最后,将两个距离拼接起来,形成MLP的输入,计算求得顶点间的距离
Figure GDA0003619081380000081
Figure GDA0003619081380000082
最终,用邻接矩阵A中的每个元素ai,j表示顶点间的相似度,并根据顶点间距离计算得出,其计算公式为:
Figure GDA0003619081380000083
由此,得到一批草图-图像对所构成的图表示,即图的特征矩阵H及其邻接矩阵A后,使用图卷积神经网络对图的特征矩阵进行更新,使得每个顶点都可从其邻居顶点处获得有用信息,进而在克服草图和图像间语义鸿沟的同时,又能利用语义信息构建未见过类别和见过类别间的联系。其用于更新图特征矩阵的图卷积操作按照如下公式进行:
Figure GDA0003619081380000084
其中,H(l)和W(l)为图卷积神经网络第l层中的特征矩阵和可学习参数;σ为非线性激活函数如ReLU;
Figure GDA0003619081380000085
为邻接矩阵A的正则化,其计算公式为
Figure GDA0003619081380000086
最终,通过图卷积神经网络,每一个顶点都得到来自其相邻顶点的信息,并将自己的特征进行更新。这样,通过图卷积神经网络得到的特征最终融合视觉信息和语义信息。
步骤四、语义信息重构:为使模型更具泛化能力,使图神经网络得到的融合特征可以更好地保持草图与图像所对应标签的语义信息,本发明使用条件变分自编码器(CVAE)对语义信息进行重构。CVAE的输入为融合特征xgcn。根据参数重构技巧,CVAE首先用两个编码器,分别将融合特征映射到隐空间中,得到隐变量的均值μ和方差σ:
μ=Wμxgcn (23)
logσ=Wσxgcn (24)
其中,Wμ和Wσ分别为两个编码器的参数,接着将均值μ和方差σ与一个标准正太分布变量
Figure GDA0003619081380000087
结合,得到隐变量z=μ+σ×∈,符合均值为μ、方差为σ的正太分布。再通过解码器D,将隐变量解码为300维的语义向量
Figure GDA0003619081380000088
Figure GDA0003619081380000089
其中,[·,·]为拼接操作。
步骤五、构建损失函数指导模型训练:本发明使用分类损失
Figure GDA0003619081380000091
特征损失
Figure GDA0003619081380000092
语义损失
Figure GDA0003619081380000093
和KL散度损失
Figure GDA0003619081380000094
来训练模型。为使最终得到的融合特征具有区分性,本发明将得到的融合特征输入到一个分类中,并利用交叉熵损失作为分类损失
Figure GDA0003619081380000095
对得到的融合特征进行分类。其计算公式为:
Figure GDA0003619081380000096
其中,li为真值标签;
Figure GDA0003619081380000097
表示图卷积神经网络输出的融合特征;θc为分类参数。融合特征还会被用来指导两个特征提取网络f(·)和g(·)。具体过程为,利用特征损失函数
Figure GDA00036190813800000917
来约束两个特征提取网络得到的特征与图神经网络得到的融合特征靠近,其计算公式为:
Figure GDA0003619081380000098
其中,
Figure GDA0003619081380000099
Figure GDA00036190813800000910
分别为f(·)和g(·)输出的草图和图像特征;
Figure GDA00036190813800000911
为图卷积神经网络输出的融合特征。为使通过CVAE重构后的语义信息和原始的语义信息接近,语义损失
Figure GDA00036190813800000912
被构建为:
Figure GDA00036190813800000913
其中,
Figure GDA00036190813800000914
和si分别为重构的语义信息和真实的语义信息。继承自变分编码的变分下限损失也被用于优化本发明中的模型,其计算公式为:
Figure GDA00036190813800000915
其中,φ为编码器的参数;θ为解码器的参数;s为标签语义信息;z为隐变量;xgcn为图卷积神经网络输出的融合特征。最终,用于约束整个模型的损失函数为:
Figure GDA00036190813800000916
其中,λi(i=1,2,3)为平衡调节因子,本发明中λ1=1,λ2=10,λ3=0.1。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (7)

1.一种基于图卷积神经网络的零样本草图图像检索方法,其特征在于,包括:
步骤一、草图和图像预处理:从草图-图像数据集中采集草图-图像对,将其转化为张量数据格式,并进行归一化处理,构建草图-图像训练集;
步骤二、草图和图像特征生成:使用深度学习方法提取草图和图像深度视觉特征;
步骤三、基于图卷积神经网络的草图-图像融合特征生成:利用图卷积神经网络同时对视觉信息和语义信息进行处理,得到更具判别性的融合特征;
步骤四、语义信息重构:利用条件变分自编码器从视觉信息中重新生成语义信息,确保得到的融合视觉信息保持原有语义信息,提高模型泛化能力;
步骤五、构建损失函数指导模型训练:通过多种损失函数,使模型提取到的深度视觉特征更具判别性;
所述步骤三包括:
步骤3.1、对每批草图-图像对构建全连接图,得到图节点的特征向量;
步骤3.2、利用草图-图像视觉信息和标签语义信息得到边信息,构建邻接矩阵;
步骤3.3、根据图卷积神经网络的更新公式,对节点信息进行更新;
步骤3.1中,对应批大小为B的草图图像数据,构建的图大小为B×B;节点特征向量hi由草图特征向量
Figure FDA0003794670780000011
与图像特征向量
Figure FDA0003794670780000012
拼接而成:
Figure FDA0003794670780000013
步骤3.2中,标签语义信息由标签在GloVe中的300维词向量表示;邻接矩阵中的每个元素aij表示节点hi和节点hj之间的相似度信息,其计算公式为:
Figure FDA0003794670780000014
其中,
Figure FDA0003794670780000015
为计算节点间距离的函数,由多层感知机建模,并同时考虑节点的视觉信息和语义信息;
步骤3.3中,图卷积神经网络更新按照如下公式进行:
Figure FDA0003794670780000021
其中,H(l)和W(l)为图卷积神经网络第l层中的特征矩阵和可学习参数;σ为非线性激活函数如ReLU;
Figure FDA0003794670780000022
为邻接矩阵A的正则化,其计算公式为
Figure FDA0003794670780000023
2.根据权利要求1所述的图像检索方法,其特征在于,所述步骤一包括:
步骤1.1、利用PIL库读取草图-图像数据,并将其转换为张量数据格式;
步骤1.2、将由上面步骤得到的张量数据进行归一化处理。
3.根据权利要求2所述的图像检索方法,其特征在于,所述步骤二使用ResNet模型提取草图和图像的深度视觉特征;对于草图和图像,使用孪生网络架构,并用在ImageNet上预训练的ResNet50提取每一张草图和图像的深度特征,两个孪生网络并未共享参数。
4.根据权利要求1所述的图像检索方法,其特征在于,所述步骤四包括:
步骤4.1、将视觉特征映射到隐空间,得到隐变量;
步骤4.2、将隐变量解码为语义信息;
步骤4.1中,编码器利用参数重构的思想,分别将视觉特征映射为隐变量的均值μ和方差σ:
μ=Wμxgcn (4)
logσ=Wσxgcn (5)
其中,Wμ和Wσ分别为两个编码器的参数,接着将均值μ和方差σ与一个标准正太分布变量
Figure FDA0003794670780000024
结合,得到隐变量z=μ+σ×∈,符合均值为μ、方差为σ的正态分布;
步骤4.2中,解码器在视觉信息条件下,将隐变量解码为语义信息:
Figure FDA0003794670780000025
5.根据权利要求4所述的图像检索方法,其特征在于,步骤五中共有4个损失函数,分别为分类损失
Figure FDA0003794670780000026
特征损失
Figure FDA0003794670780000027
语义损失
Figure FDA0003794670780000028
和KL散度损失
Figure FDA0003794670780000029
将其结合成整体损失函数
Figure FDA0003794670780000031
Figure FDA0003794670780000032
其中,λi(i=1,2,3)为平衡调节因子;整体损失函数对模型进行约束和优化。
6.一种基于图卷积神经网络的零样本草图图像检索系统,其特征在于,主要包含三个部分:特征编码网络、语义保持网络和语义重构网络;其中:
所述特征编码网络旨在通过两个编码方程f(·)和g(·),分别提取草图和图像特征,并将其映射到相同特征空间中去;
所述语义保持网络旨在通过图网络将语义信息编码进草图和图像特征中,并通过生成的草图、图像融合特征去指导特征编码网络的编码过程;
所述语义重构网络旨在通过变分自编码器从草图和图像特征中重构语义信息,增强模型泛化能力,更好地匹配未见过的草图和图像。
7.根据权利要求6所述的基于图卷积神经网络的零样本草图图像检索系统,其特征在于:
所述特征编码网络采用两个ResNet50,即50层的ResNet模型分别建模f(·)和g(·);该ResNet模型将草图S和图像I映射为2,048维的特征向量,其计算公式为:
xS=f(S;θS) (8)
xI=g(I;θI) (9)
其中,
Figure FDA0003794670780000033
Figure FDA0003794670780000034
分别为草图和图像对应的特征向量;θS和θI为ResNet50的参数;
所述语义保持网络主要使用图卷积神经网络对草图和图像的视觉信息、及其标签的语义信息进行处理,包括如下步骤:
步骤一、对于一个批大小为N的草图、图像数据,构建一个N×N的完全图;图的顶点代表一对草图和图像,图的边表示草图和图像对之间的相似度关系;
步骤二、计算图的顶点i的特征hi,计算公式为:
Figure FDA0003794670780000041
其中,[·,·]为拼接操作;
Figure FDA0003794670780000042
Figure FDA0003794670780000043
分别为草图和图像的特征向量;
步骤三、构建图的邻接矩阵A,计算图顶点i和j之间的边ai,j,首先计算两个顶点在语义空间上的距离di,j,其计算公式为:
di,j=‖si-sj1 (11)
其中,‖·‖1为L1距离;si和sj分别为草图i和草图j标签的词向量;通过一个可学习的度量方程
Figure FDA0003794670780000049
来计算结合视觉信息和语义信息后顶点间的综合距离;该度量方程基于一个多层感知机实现,其计算公式为:
Figure FDA0003794670780000044
两个顶点i和j之间边ai,j的计算公式为:
Figure FDA0003794670780000045
步骤四、通过图卷积神经网络更新图顶点的特征;假设图卷积神经网络的第l层N个节点构成的特征矩阵为
Figure FDA0003794670780000046
图卷积神经网络的卷积操作按照如下公式计算:
Figure FDA0003794670780000047
其中,
Figure FDA0003794670780000048
为邻接矩阵A的某种正则化形式;W(l)为第l层的可学习参数;σ为一种非线性激活函数;
所述语义重构网络的条件变分自编码器从草图-图像的融合视觉信息中重新生成它们对应的语义信息,包括如下步骤:
步骤一、变分自编码器中的编码器将草图-图像的融合视觉信息映射到隐藏空间中;
步骤二、变分自编码器的解码器以隐藏空间中的特征向量和草图-图像的融合视觉信息作为输入,试图重构草图-图像对应的语义信息。
CN202010077162.0A 2020-01-24 2020-01-24 基于图卷积神经网络的零样本草图图像检索方法和系统 Active CN111291212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010077162.0A CN111291212B (zh) 2020-01-24 2020-01-24 基于图卷积神经网络的零样本草图图像检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077162.0A CN111291212B (zh) 2020-01-24 2020-01-24 基于图卷积神经网络的零样本草图图像检索方法和系统

Publications (2)

Publication Number Publication Date
CN111291212A CN111291212A (zh) 2020-06-16
CN111291212B true CN111291212B (zh) 2022-10-11

Family

ID=71023534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077162.0A Active CN111291212B (zh) 2020-01-24 2020-01-24 基于图卷积神经网络的零样本草图图像检索方法和系统

Country Status (1)

Country Link
CN (1) CN111291212B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814658B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于语义的场景语义结构图检索方法
CN111882032B (zh) * 2020-07-13 2023-12-01 广东石油化工学院 一种神经语义记忆存储方法
CN112069336B (zh) * 2020-08-04 2022-10-14 中国科学院软件研究所 一种基于场景草图的细粒度图像检索方法及系统
CN111950710A (zh) * 2020-08-12 2020-11-17 深圳市商汤科技有限公司 神经网络的优化方法、装置、电子设备及存储介质
CN112132188B (zh) * 2020-08-31 2024-04-16 浙江工业大学 一种基于网络属性的电商用户分类方法
CN112199532B (zh) * 2020-09-01 2022-10-14 中国科学院信息工程研究所 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111815631B (zh) * 2020-09-02 2020-12-11 北京易真学思教育科技有限公司 模型生成方法、装置、设备和可读存储介质
CN111967533B (zh) * 2020-09-03 2022-09-23 中山大学 一种基于场景识别的草图图像翻译方法
CN112364195B (zh) * 2020-10-22 2022-09-30 天津大学 一种基于属性引导对抗哈希网络的零样本图像检索方法
CN112070422B (zh) * 2020-11-05 2021-07-30 广州竞远安全技术股份有限公司 一种基于神经网络的安全测评师派工系统及方法
CN112381147B (zh) * 2020-11-16 2024-04-26 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
CN112329875B (zh) * 2020-11-16 2022-05-03 电子科技大学 一种基于连续吸引子网络的连续图像序列识别方法
CN112508121B (zh) * 2020-12-22 2024-03-22 南京大学 一种工业机器人感知外界的方法和系统
CN112801159B (zh) * 2021-01-21 2022-07-19 中国人民解放军国防科技大学 融合图像及其文本描述的零-小样本机器学习方法及系统
CN114840107B (zh) * 2021-04-28 2023-08-01 中国科学院软件研究所 一种草图数据重用与场景草图辅助构建方法及系统
CN113393546B (zh) * 2021-05-17 2024-02-02 杭州电子科技大学 基于服装类别及纹理图案控制的时尚服装图像生成方法
CN113255237B (zh) * 2021-07-07 2021-12-10 杭州珞珈数据科技有限公司 一种基于自动化建模引擎的服装的检索模型及其方法
CN113360701B (zh) * 2021-08-09 2021-11-02 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
CN114067215B (zh) * 2022-01-17 2022-04-15 东华理工大学南昌校区 基于节点注意力机制图神经网络的遥感图像检索方法
CN116204674B (zh) * 2023-04-28 2023-07-18 中国科学技术大学 一种基于视觉概念词关联结构化建模的图像描述方法
CN116704363B (zh) * 2023-05-22 2024-01-26 中国地质大学(武汉) 一种基于深度学习模型的土地覆盖分类方法及装置
CN117746075B (zh) * 2024-01-03 2024-05-14 上海交通大学 一种基于精细纹理特征的零样本图像检索方法、装置及计算机可读存储介质
CN117710710A (zh) * 2024-02-06 2024-03-15 湖南善禧文化股份有限公司 一种深度语义理解的图像匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110008819A (zh) * 2019-01-30 2019-07-12 武汉科技大学 一种基于图卷积神经网络的人脸表情识别方法
CN110175251A (zh) * 2019-05-25 2019-08-27 西安电子科技大学 基于语义对抗网络的零样本草图检索方法
CN110472090A (zh) * 2019-08-20 2019-11-19 腾讯科技(深圳)有限公司 基于语义标签的图像检索方法以及相关装置、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110008819A (zh) * 2019-01-30 2019-07-12 武汉科技大学 一种基于图卷积神经网络的人脸表情识别方法
CN110175251A (zh) * 2019-05-25 2019-08-27 西安电子科技大学 基于语义对抗网络的零样本草图检索方法
CN110472090A (zh) * 2019-08-20 2019-11-19 腾讯科技(深圳)有限公司 基于语义标签的图像检索方法以及相关装置、存储介质

Also Published As

Publication number Publication date
CN111291212A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111858954B (zh) 面向任务的文本生成图像网络模型
Xu et al. Data-driven shape analysis and processing
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN111460928B (zh) 一种人体动作识别系统及方法
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
Hu et al. RGB-D semantic segmentation: a review
CN114723583A (zh) 基于深度学习的非结构化电力大数据分析方法
CN115994990A (zh) 基于文本信息引导的三维模型自动建模方法
Cao et al. Skeleton-based action recognition with temporal action graph and temporal adaptive graph convolution structure
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
CN116958324A (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
Zhang et al. DHNet: Salient object detection with dynamic scale-aware learning and hard-sample refinement
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
CN116595479A (zh) 基于图双重自编码器的社区发现方法、系统、设备及介质
Chen et al. SketchTrans: Disentangled prototype learning with transformer for sketch-photo recognition
CN112861882B (zh) 一种基于频率自适应的图像-文本匹配方法及系统
Zhang [Retracted] An Intelligent and Fast Dance Action Recognition Model Using Two‐Dimensional Convolution Network Method
Wang et al. Reconstructing 3D Model from Single‐View Sketch with Deep Neural Network
Guanglong et al. [Retracted] Correlation Analysis between the Emotion and Aesthetics for Chinese Classical Garden Design Based on Deep Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant