CN112069336A - 一种基于场景草图的细粒度图像检索方法及系统 - Google Patents

一种基于场景草图的细粒度图像检索方法及系统 Download PDF

Info

Publication number
CN112069336A
CN112069336A CN202010860081.8A CN202010860081A CN112069336A CN 112069336 A CN112069336 A CN 112069336A CN 202010860081 A CN202010860081 A CN 202010860081A CN 112069336 A CN112069336 A CN 112069336A
Authority
CN
China
Prior art keywords
scene
image
sketch
graph
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010860081.8A
Other languages
English (en)
Other versions
CN112069336B (zh
Inventor
马翠霞
刘舫
左然
邓小明
王宏安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Publication of CN112069336A publication Critical patent/CN112069336A/zh
Application granted granted Critical
Publication of CN112069336B publication Critical patent/CN112069336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于场景草图的细粒度图像检索方法及系统,包括:提取场景草图与若干待检索场景图像中的图信息,分别构建场景草图与若干待检索场景图像的图结构;提取各图结构的图特征,分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数;依据所述图信息中的物体类别标签,分别计算场景草图图特征与各待检索场景图像图特征的交并比分数;根据图相似度匹配分数与交并比分数,分别计算场景草图与各待检索场景图像的特征空间距离,并依据各特征空间距离,获取检索结果。本发明利用图来表示场景草图和图像,不仅检索出与输入草图场景类别一致的图像,而且图像中物体细节信息也保持一致,使得检索出来的图像与输入保持布局一致性。

Description

一种基于场景草图的细粒度图像检索方法及系统
技术领域
本发明属于计算机视觉领域,具体涉及一种基于场景草图的细粒度图像检索方法及系统。
背景技术
草图能够直观、简洁地描述物体外形和抽象概念,在计算机视觉、多媒体应用与人机交互领域具有广泛的应用。近年来,基于草图的图像检索(Sketch-based ImageRetrieval,SBIR)技术的研究取得了巨大的进展。特别的,随着触屏电子设备技术的进步,用户可以方便简单地在手机、平板电脑等设备中绘制出想要检索的图像,基于草图的图像检索应用得到了进一步发展。现有的基于草图的图像检索方法通常将草图和图像的视觉信息映射到对象级别的语义空间,之后进行特征匹配,主要分为:实例级别的图像检索、细粒度图像检索、场景图像检索等。
目前大多数的基于草图的图像检索相关技术(参考文献:Sangkloy Patsorn,Nathan Burnell,Cusuh Ham,and James Hays."The sketchy database:learning toretrieve badly drawn bunnies."ACM Transactions on Graphics(TOG)35,no.4(2016):1-12.)都建立在实例级、类别级检索的前提下,即:输入草图与待检索的图像对象均为单个物体;并且,检索结果图像的物体与输入草图物体在类别上保持一致,即为正确的检索。传统的实例级、类别级基于草图的图像检索方法仅关注检索相同类别的图像,而通常忽略了所检索图像的形状、姿态和其他细粒度属性。相比于类别级的基于草图的图像检索,文本检索反而能够在表达类别语义性的同时,更简单地进行查询,这使得传统基于草图的图像检索未得到广泛的实际应用。
Yu等2016年提出基于草图的细粒度图像检索技术(参考文献:Yu Qian,Feng Liu,Yi-Zhe Song,Tao Xiang,Timothy M.Hospedales,and Chen-Change Loy."Sketch methat shoe."In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pp.799-807.2016.):仍然执行实例级基于草图的图像检索任务,但不仅允许用户查询具有相同类别的目标图像,还可以查询所需的实例的细粒度信息。尽管现有的研究提高了单个对象的图像检索性能和应用,但据我们所知,基于场景草图的、包含多个物体对象的细粒度图像检索仍然是一个新的探索问题。
本发明提出了基于场景草图的细粒度图像检索问题,其目的是进行场景级的(即具有多个物体和实例)基于草图的图像检索,使得输入的场景草图和检索出的图像在空间布局、各实例对象的视觉属性(如相对大小和姿势)均保持一致。与本发明提出的细粒度的场景级SBIR相比,类别级的场景级SBIR(参考文献:Xie,Yao,Peng Xu,and Zhanyu Ma."Deep zero-shot learning for scene sketch."In 2019IEEE InternationalConference on Image Processing(ICIP),pp.3661-3665.IEEE,2019.)忽略了场景布局和视觉属性等细节信息,仅保证输入草图和检索出的图像在场景类别上的一致性,例如均为室内、室外、家居、风景等场景类别。
尽管文本可以替代查询场景级图像,但是由于文本固有的歧义性,难以描述图像空间布局和各物体细粒度的细节。本发明提出的基于场景草图的细粒度图像检索可以促进新颖的SBIR应用。例如,如果用户想要从他的手机上的相册中挑选特定照片,则他可以首先在手机上绘制场景草图以表达查询意图,然后检索出所需的照片。
发明内容
为了克服现有基于草图的图像检索方法不能同时解决含有多个物体的、细粒度的图像检索问题,本发明的目的在于提出一种基于场景草图的细粒度图像检索方法(Fine-Grained Image Retrieval with Scene Sketch,简称SceneSketcher)及系统,通过一种基于图嵌入的方法来学习图像和场景草图之间的相似度,从而有效地对场景图像的多类信息进行建模,包括物体的大小、外观特征及图像全局布局信息等。
本发明解决其技术问题所采用的技术方案是:
一种基于场景草图的细粒度图像检索方法,其步骤包括:
1)提取场景草图与若干待检索场景图像中的图信息,分别构建场景草图与若干待检索场景图像的图结构,其中图结构包括若干代表单个物体特征的节点与代表两个物体之间关系的边;
2)提取各图结构的图特征,分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数;
3)依据所述图信息中的物体类别标签,分别计算场景草图图特征与各待检索场景图像图特征的交并比分数;
4)根据图相似度匹配分数与交并比分数,分别计算场景草图与各待检索场景图像的特征空间距离,并依据各特征空间距离,获取检索结果。
进一步地,所述图信息包括物体视觉特征、物体类别标签和物体空间位置。
进一步地,通过Inception-V3网络,得到物体视觉特征;通过词嵌入算法Word2Vec,得到物体类别标签;依据物体在场景草图或各待检索场景图像的位置坐标,得到物体空间位置。
进一步地,通过以下步骤分别构造若干代表单个物体特征的节点和代表两个物体之间关系的边:
1)将物体视觉特征vi、物体类别标签ci和物体空间位置pi连接起来,作为节点ni的特征向量xi,其中1≤i≤n,n为场景草图或一待检索场景图像中物体的数量;
2)计算节点ni与节点nj的正则化欧式距离,得到边ei,j=(ni,nj)的权值,其中1≤i<j≤n。
进一步地,通过一图卷积神经网络,提取各图结构的图特征。
进一步地,通过以下步骤计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数:
1)分别计算场景草图图特征GS和待检索场景图像图特征GI中两两节点之间的余弦距离,得到大小为NS×NI的相似度矩阵
Figure BDA0002647787750000031
其中S为场景草图,I为任一待检索场景图像,N为节点数;
2)获取相似度矩阵
Figure BDA0002647787750000032
每一行的最大值;
3)计算图相似度匹配分数
Figure BDA0002647787750000033
进一步地,通过以下步骤计算场景草图图特征与各待检索场景图像图特征的交并比分数:
1)分别获取场景草图与各待检索场景图像中物理类别为ct的物体并集
Figure BDA0002647787750000034
与物体并集
Figure BDA0002647787750000035
其中1≤t≤|C|,|C|为场景草图与一待检索场景图像中共同物体的数量;
2)计算交并比分数
Figure BDA0002647787750000036
进一步地,特征空间距离d(S,I)=1-λ1φGM(GS,GI)-λ2φIoU(S,I),其中λ1与λ2分别是φGM(GS,GI)与φIoU(S,I)的权重。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种基于场景草图的细粒度图像检索系统,应用一个三元组网络,包括:
1)图结构构造层,用以取场景草图与若干待检索场景图像中的图信息,分别构建场景草图与若干待检索场景图像的图结构,其中图结构包括若干代表单个物体特征的节点与代表两个物体之间关系的边;
2)图相似度匹配分数计算层,用以提取各图结构的图特征,分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数;
3)交并比分数计算层,用以依据所述图信息中的物体类别标签,分别计算场景草图图特征与各待检索场景图像图特征的交并比分数;
4)目标场景图像判断层,用以根据图相似度匹配分数与交并比分数,分别计算场景草图与各待检索场景图像的特征空间距离,并依据各特征空间距离,获取检索结果。
进一步地,所述三元组网络的损失函数Ltri=max(d(S,I+)-d(S,I-)+m,0),其中S为样本场景草图,I+为一与样本场景草图匹配的样本场景图像,I-为一与样本场景草图不匹配的样本场景图像,d(·,·)是特征空间的距离函数,m是边界阈值。
和现有技术相比,本发明的有益效果是:
1.本发明创新性地提出“基于场景草图的细粒度图像检索”这一研究问题,与单物体的SBIR相比,场景级的图像检索对扩大草图检索的应用具有实际意义;本发明针对细粒度的场景检索,不仅要求检索出与输入草图场景类别一致的图像,而且要求图像中各物体的类别、形态、大小、布局等细节信息也与输入场景草图保持一致。
2.本发明提出利用图(graph)来表示场景草图和图像,利用graph的节点显式地模拟场景中的物体实例,利用graph的边模拟场景中物体之间的关系;进一步的,本发明用图卷积神经网络对图特征进行优化,从而进行特征匹配和后续图像检索,提高基于场景草图的图像检索的性能。
3.本发明提出类别敏感的交并比分数(category-wise IoU score),以场景中的物体类别为基准,对输入草图和待检索数据库中的图像进行空间布局相似性的评估,使得检索出来的图像能更好地与输入保持布局一致性。
附图说明
图1为本发明的基于场景草图的细粒度图像检索网络结构示意图。
图2为本发明一实施例中单物体草图。
图3为本发明一实施例中输入场景草图。
图4为本发明一实施例中检索出的场景图像。
图5为本发明一实施例中检索出的最相似场景图像。
具体实施方式
为了使本技术领域的人员更好的理解本发明,以下结合附图进一步详细描述本发明所提供的SceneSketcher:基于场景草图的细粒度图像检索方法,但不构成对本发明的限制。
本发明所提出的主要方法包括首先提出基于场景草图的细粒度图像检索这一新问题、提出常见草图的图结构(graph)构建方法、建立基于图卷积神经网络(Graphconvolution network,GCN)的graph特征处理模型、提出草图与图像特征匹配的交并比(Intersection over Union,IoU)分数计算标准、建立草图与图像特征匹配的三元组网络模型。
本发明主要包括以下内容:
1)利用三种信息构建场景草图的图结构(graph):通过预训练的Inception-V3网络抽取每个草图物体的视觉特征(visual appearance);通过词嵌入算法Word2Vec得到草图物体的类别特征(category label);以草图物体的位置坐标作为空间特征(spatialposition)。最后,将得到的草图物体的视觉特征、类别特征和空间特征融合起来,构建场景草图的图结构(scene sketch graph)节点(node)。在场景草图的图结构中,对节点与节点之间的空间距离进行归一化处理,作为scene sketch graph中边(edge)的权值。如此,通过图结构显式地模拟场景中的全局信息(空间布局)和局部信息(场景中的各物体及其视觉特征、类别属性与位置大小等),分别建立场景草图和场景图像的graph,每个graph包括node和edge两部分。
2)用图卷积神经网络(Graph convolution network,GCN)分别对场景草图和待检索的图像的图结构(scene graph)进行处理,将每个graph映射为一个一维向量,此一维向量代表对该graph对应的草图或者图像进行特征提取与特征优化后得到的图特征(graphfeature)。可以用graph feature的相似程度去衡量相应场景草图与场景图像的相似度。
3)设计graph相似度匹配的算法,计算场景草图与场景图像之间的graph相似度(graph similarity score)。
4)定义类别敏感的交并比分数(category-wise IoU score),作为衡量用户输入的场景草图和待检索数据库中场景图像之间全局特征(特别是场景中物体的布局信息)相似性的度量方法。
5)最后,定义三元组网络训练的损失函数为图特征匹配分数与类别敏感的交并比分数的加权和,此损失函数中综合考虑了图像与草图之间视觉特征、物体实例与全局信息等多方面信息;之后利用三元组神经网络(Triplet network)对graph进行特征匹配,即进行基于草图的图像检索。
6)将本发明提出的基于场景草图的细粒度图像检索方法集成到交互系统,形成基于基于场景的图像检索应用平台,支持包括交互式的、实时的图像检索,能够在PC、手机、平板电脑、电子白板等多种设备和终端上进行应用。特别是当用户需要在触控设备存储的大量相似的图像中查询特定的图像时,利用本发明建立的应用平台,可以利用绘制草图场景的方式,简洁直观地查询图像,并进行实时草图修改与检索结果调整。
具体地,图1为本发明的基于场景草图的细粒度图像检索网络结构示意图,包括:
1、场景图(Scene graph)的构造过程
将graph表示为G=(N,E),其中N={ni}是graph的节点集合,E={ei,j}是边的集合,ei,j=(ni,nj)是连接节点ni与节点nj的边。节点的类别集合表示为C={ci},其中ci是节点ni的类别标签。
本发明利用三方面的信息构造graph的节点ni,步骤如下:
1)取得在ImageNet数据集上预训练得到的视觉特征提取神经网络(Inception-V3)模型,利用一个草图分类任务去再训练此模型,然后利用再训练后的模型提取2048维的视觉特征,作为节点ni的视觉vi
2)利用词向量方法(Word2Vec,参考方法https://code.google.com/archive/p/word2vec/)为每个节点ni提取300维的类别标签特征
Figure BDA0002647787750000062
3)将节点ni的物体的空间位置pi表示为一个4维的向量,向量中的四个数字分别表示该节点物体的矩形边界框(bounding box)左上角和右下角的坐标点;
4)最后,将得到的物体的视觉特征vi、物体的类别标签ci、物体的空间位置pi连接起来,形成2352维的向量,作为节点ni的特征向量xi
对于graph中的边的构造,对于两个节点ni与nj,定义边ei,j=(ni,nj)的权值Ai,j为正则化的欧式距离:
Figure BDA0002647787750000061
其中Di,j=||xj-xi||2为节点代表的物体之间的欧式距离,p,q表示节点序号。
2、图卷积神经网络(GCN)
GCN通过一个仿射函数f(·,·)从图G=(N,E)中提取特征。对于每一层GCN,其输入是上一层GCN的输出与graph的邻接矩阵A={Ai,j}。第l层的GCN基本网络的传播函数可以写作:
Figure BDA0002647787750000071
H(l)=f(H(l-1),A)
其中,A为Ai,j行程矩阵,1<l≤L,L为GCN的层数。
进一步的,本发明利用优化后的GCN传播规则(参考文献:Kipf,Thomas N.,andMax Welling."Semi-supervised classification with graph convolutionalnetworks."arXiv preprint arXiv:1609.02907(2016).),函数f(·,·)可以被表示为:
Figure BDA0002647787750000072
这里σ(·)是leaky_relu激活函数,
Figure BDA0002647787750000073
Figure BDA0002647787750000074
Figure BDA0002647787750000075
的节点的度矩阵(对角阵),W(l)是需要学习的权重矩阵。
对场景草图和场景图像的graph分别利用GCN处理后,得到提取的graph的特征GS和GI,各节点的特征分别表示为
Figure BDA0002647787750000076
Figure BDA0002647787750000077
3、图相似度匹配分数(graph similarity score)
得到graph的特征GS和GI之后,本发明设计一种图特征匹配算法来计算两个graph之间的相似度。记graph的特征GS和GI之中,节点数量分别为NS和NI。graph之间的相似度计算步骤如下:
1)利用节点与节点之间的余弦距离(Cosine Distance)表示两个节点之间的相似度。
2)分别计算GS和GI中两两节点之间的相似度,得到大小为NS×NI的相似度矩阵
Figure BDA0002647787750000078
3)对应相似度矩阵
Figure BDA0002647787750000079
的每一行,取最大值,即得到对于场景草图graph中的每个物体,在场景图像中与它最相似的物体。
4)最后,对所有的行最大值取总的最大值,即得到场景草图与场景图像的graph相似度。
Figure BDA00026477877500000710
4、类别敏感的交并比分数(category-wise IoU score)
在草图S和图像I中,记
Figure BDA00026477877500000711
Figure BDA00026477877500000712
分别为类别标签为ct的物体并集,category-wiseIoU score的计算步骤如下:
1)首先计算
Figure BDA0002647787750000081
Figure BDA0002647787750000082
的交集与并集:
Figure BDA0002647787750000083
2)对所有类别的层次上,求场景草图与场景图像的交并比:
Figure BDA0002647787750000084
其中,|C|是场景中的物体类别数量。
5、场景草图与场景图像之间距离的计算
依据graph similarity scoreφGM(GS,GI)与category-wise IoU scoreφIoU(S,I),并通过一特征空间的距离函数d(·,·),计算场景草图与场景图像的相似性。可依据一阈值检索出的与输入草图相似性最高的前若干张图像,也可直接将距离最小的场景图像,作为目标图像。
其中,
d(S,I)=1-λ1φGM(GS,GI)-λ2φIoU(S,I)
λ1与λ2分别是φGM(GS,GI)与φIoU(S,I)的权重。在本发明的实验中,设置λ1=1,λ2=0.8。
6、三元组网络损失函数
本发明可使用一三元组网络实现上述功能。三元组网络的基本原理是使得具有相同类别标签的实例特征距离较近,具有不同类别标签的实例特征距离较远。记三元组网络的输入为(S,I+,I-),这里S表示场景草图,I+是一张该场景草图对应的场景图像,I-是一张与输入草图不匹配的图像。则三元组网络的损失函数可表示为:
Ltri=max(d(S,I+)-d(S,I-)+m,0)
其中d(·,·)是特征空间的距离函数,m是边界阈值。在本发明的实验中,将阈值m设置为0.4,使得模型在大多数状态下获得稳定的性能。
下面提供本发明方法的一个具体应用实例,包括以下步骤:
1、用户输入场景草图,本示例中用户从现有单物体草图素材中选取了一批单物体草图作为对象(如图2所示),放置在画布中,构成输入的场景草图(如图3所示);
2、针对前面步骤1所述的场景草图数据与数据库中的待检索图像分别建立graph,输入至GCN网络中提取graph特征,与数据库中的图像graph特征进行比较,计算graphsimilarity score与category-wise IoU score;继续输入三元组网络进行比较;
3、模型输出检索出的与输入草图相似性最高的前五张图像,如图4右边的展示栏所示;
4、在图4中,用户可以点击查看与输入草图相似性最高那张图像,如图5所示。
实验数据
将本发明提出的方法与四种现有的经典基于草图的图像检索方法分别比较:
(1)Sketch-a-Net+RankSVM(参考文献:Yu,Qian,Yongxin Yang,Feng Liu,Yi-ZheSong,Tao Xiang,and Timothy M.Hospedales."Sketch-a-net:A deep neural networkthat beats humans."International journal of computer vision 122,no.3(2017):411-425.)。
(2)Sketch me that shoe(参考文献:Yu,Qian,Feng Liu,Yi-Zhe Song,TaoXiang,Timothy M.Hospedales,and Chen-Change Loy."Sketch me that shoe."InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.799-807.2016.)。
(3)DSSA(参考文献:Song,Jifei,Qian Yu,Yi-Zhe Song,Tao Xiang,and TimothyM.Hospedales."Deep spatial-semantic attention for fine-grained sketch-basedimage retrieval."In Proceedings of the IEEE International Conference onComputer Vision,pp.5551-5560.2017.)。
(4)SketchyScene(参考文献:Zou,Changqing,Qian Yu,Ruofei Du,Haoran Mo,Yi-Zhe Song,Tao Xiang,Chengying Gao,Baoquan Chen,and Hao Zhang."Sketchyscene:Richly-annotated scene sketches."In Proceedings of the European Conference onComputer Vision(ECCV),pp.421-436.2018.)。
Figure BDA0002647787750000091
通过实验可以看出,本发明提出的基于草图的图像检索方法性能优异。
以上对本发明所述的SceneSketcher:一种基于场景草图的细粒度图像检索方法和装置进行了详细的说明,但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说,在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims (10)

1.一种基于场景草图的细粒度图像检索方法,其步骤包括:
1)提取场景草图与若干待检索场景图像中的图信息,分别构建场景草图与若干待检索场景图像的图结构,其中图结构包括若干代表单个物体特征的节点与代表两个物体之间关系的边;
2)提取各图结构的图特征,分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数;
3)依据所述图信息中的物体类别标签,分别计算场景草图图特征与各待检索场景图像图特征的交并比分数;
4)根据图相似度匹配分数与交并比分数,分别计算场景草图与各待检索场景图像的特征空间距离,并依据各特征空间距离,获取检索结果。
2.如权利要求1所述的方法,其特征在于,所述图信息包括物体视觉特征、物体类别标签和物体空间位置;通过Inception-V3网络,得到物体视觉特征;通过词嵌入算法Word2Vec,得到物体类别标签;依据物体在场景草图或各待检索场景图像的位置坐标,得到物体空间位置。
3.如权利要求1所述的方法,其特征在于,通过以下步骤分别构造若干代表单个物体特征的节点和代表两个物体之间关系的边:
1)将物体视觉特征vi、物体类别标签ci和物体空间位置pi连接起来,作为节点ni的特征向量xi,其中1≤i≤n,n为场景草图或一待检索场景图像中物体的数量;
2)计算节点ni与节点nj的正则化欧式距离,得到边ei,j=(ni,nj)的权值,其中1≤i<j≤n。
4.如权利要求1所述的方法,其特征在于,通过一图卷积神经网络,提取各图结构的图特征。
5.如权利要求1所述的方法,其特征在于,通过以下步骤计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数:
1)分别计算场景草图图特征GS和待检索场景图像图特征GI中两两节点之间的余弦距离,得到大小为NS×NI的相似度矩阵
Figure FDA0002647787740000011
其中S为场景草图,I为任一待检索场景图像,N为节点数;
2)获取相似度矩阵
Figure FDA0002647787740000012
每一行的最大值;
3)计算图相似度匹配分数
Figure FDA0002647787740000013
6.如权利要求1所述的方法,其特征在于,通过以下步骤计算场景草图图特征与各待检索场景图像图特征的交并比分数:
1)分别获取场景草图与各待检索场景图像中物理类别为ct的物体并集
Figure FDA0002647787740000021
与物体并集
Figure FDA0002647787740000022
其中1≤t≤|C|,|C|为场景草图与一待检索场景图像中共同物体的数量;
2)计算交并比分数
Figure FDA0002647787740000023
7.如权利要求1所述的方法,其特征在于,特征空间距离d(S,I)=1-λ1φGM(GS,GI)-λ2φIoU(S,I),其中λ1与λ2分别是φGM(GS,GI)与φIoU(S,I)的权重。
8.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。
9.一种基于场景草图的细粒度图像检索系统,应用一个三元组网络,包括:
1)图结构构造层,用以取场景草图与若干待检索场景图像中的图信息,分别构建场景草图与若干待检索场景图像的图结构,其中图结构包括若干代表单个物体特征的节点与代表两个物体之间关系的边;
2)图相似度匹配分数计算层,用以提取各图结构的图特征,分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数;
3)交并比分数计算层,用以依据所述图信息中的物体类别标签,分别计算场景草图图特征与各待检索场景图像图特征的交并比分数;
4)目标场景图像判断层,用以根据图相似度匹配分数与交并比分数,分别计算场景草图与各待检索场景图像的特征空间距离,并依据各特征空间距离,获取检索结果。
10.如权利要求9所述的系统,其特征在于,所述三元组网络的损失函数Ltri=max(d(S,I+)-d(S,I-)+m,0),其中S为样本场景草图,I+为一与样本场景草图匹配的样本场景图像,I-为一与样本场景草图不匹配的样本场景图像,d(·,·)是特征空间的距离函数,m是边界阈值。
CN202010860081.8A 2020-08-04 2020-08-25 一种基于场景草图的细粒度图像检索方法及系统 Active CN112069336B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010771854 2020-08-04
CN2020107718545 2020-08-04

Publications (2)

Publication Number Publication Date
CN112069336A true CN112069336A (zh) 2020-12-11
CN112069336B CN112069336B (zh) 2022-10-14

Family

ID=73660667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010860081.8A Active CN112069336B (zh) 2020-08-04 2020-08-25 一种基于场景草图的细粒度图像检索方法及系统

Country Status (1)

Country Link
CN (1) CN112069336B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647753A (zh) * 2022-05-23 2022-06-21 华中师范大学 一种多区域空间对齐的细粒度草图检索三维模型方法
CN114840107A (zh) * 2021-04-28 2022-08-02 中国科学院软件研究所 一种草图数据重用与场景草图辅助构建方法及系统
US20230089148A1 (en) * 2021-09-17 2023-03-23 Robert Bosch Gmbh Systems and methods for interactive image scene graph pattern search and analysis
GB2612029A (en) * 2021-10-15 2023-04-26 Toshiba Kk Lifted semantic graph embedding for omnidirectional place recognition

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202189A (zh) * 2016-06-27 2016-12-07 乐视控股(北京)有限公司 一种图像搜索方法及装置
CN107220277A (zh) * 2017-04-14 2017-09-29 西北大学 基于手绘草图的图像检索算法
CN110413816A (zh) * 2013-06-14 2019-11-05 微软技术许可有限责任公司 彩色草图图像搜索
WO2020008272A1 (en) * 2018-07-02 2020-01-09 Inception Institute of Artificial Intelligence, Ltd. Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413816A (zh) * 2013-06-14 2019-11-05 微软技术许可有限责任公司 彩色草图图像搜索
CN106202189A (zh) * 2016-06-27 2016-12-07 乐视控股(北京)有限公司 一种图像搜索方法及装置
CN107220277A (zh) * 2017-04-14 2017-09-29 西北大学 基于手绘草图的图像检索算法
WO2020008272A1 (en) * 2018-07-02 2020-01-09 Inception Institute of Artificial Intelligence, Ltd. Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN111291212A (zh) * 2020-01-24 2020-06-16 复旦大学 基于图卷积神经网络的零样本草图图像检索方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUSTIN JOHNSON等: "Image Retrieval using scene graph", 《2015 IEEE CVPR》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840107A (zh) * 2021-04-28 2022-08-02 中国科学院软件研究所 一种草图数据重用与场景草图辅助构建方法及系统
US20230089148A1 (en) * 2021-09-17 2023-03-23 Robert Bosch Gmbh Systems and methods for interactive image scene graph pattern search and analysis
GB2612029A (en) * 2021-10-15 2023-04-26 Toshiba Kk Lifted semantic graph embedding for omnidirectional place recognition
CN114647753A (zh) * 2022-05-23 2022-06-21 华中师范大学 一种多区域空间对齐的细粒度草图检索三维模型方法

Also Published As

Publication number Publication date
CN112069336B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112069336B (zh) 一种基于场景草图的细粒度图像检索方法及系统
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
Xiang et al. Objectnet3d: A large scale database for 3d object recognition
CN108038122B (zh) 一种商标图像检索的方法
CN110188228A (zh) 基于草图检索三维模型的跨模态检索方法
CN110599592A (zh) 一种基于文本的三维室内场景重建方法
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及系统
Zhang et al. Fast 3d indoor scene synthesis by learning spatial relation priors of objects
CN103678593B (zh) 一种基于空间场景草图描述的交互式空间场景检索方法
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN110532409B (zh) 基于异构双线性注意力网络的图像检索方法
Liu et al. SceneSketcher-v2: Fine-grained scene-level sketch-based image retrieval using adaptive GCNs
Dai et al. Multi-granularity association learning for on-the-fly fine-grained sketch-based image retrieval
CN112330825A (zh) 一种基于二维图像信息的三维模型检索方法
Yu et al. SketchDesc: Learning local sketch descriptors for multi-view correspondence
Pu et al. Navigation and discovery in 3D CAD repositories
CN111597367A (zh) 基于视图和哈希算法的三维模型检索方法
Patil et al. Advances in Data‐Driven Analysis and Synthesis of 3D Indoor Scenes
Wang et al. Query-by-sketch image retrieval using homogeneous painting style characterization
Yang et al. Deep learning based six‐dimensional pose estimation in virtual reality
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
Wang et al. A survey of personalized interior design
CN111125308B (zh) 一种支持语义联想的轻量级文本模糊搜索的方法
CN113836382A (zh) 多维数字内容搜索
Liu et al. Retrieving indoor objects: 2D-3D alignment using single image and interactive ROI-based refinement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant