CN112069336A

CN112069336A - 一种基于场景草图的细粒度图像检索方法及系统

Info

Publication number: CN112069336A
Application number: CN202010860081.8A
Authority: CN
Inventors: 马翠霞; 刘舫; 左然; 邓小明; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-08-04
Filing date: 2020-08-25
Publication date: 2020-12-11
Anticipated expiration: 2040-08-25
Also published as: CN112069336B

Abstract

本发明提供一种基于场景草图的细粒度图像检索方法及系统，包括：提取场景草图与若干待检索场景图像中的图信息，分别构建场景草图与若干待检索场景图像的图结构；提取各图结构的图特征，分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数；依据所述图信息中的物体类别标签，分别计算场景草图图特征与各待检索场景图像图特征的交并比分数；根据图相似度匹配分数与交并比分数，分别计算场景草图与各待检索场景图像的特征空间距离，并依据各特征空间距离，获取检索结果。本发明利用图来表示场景草图和图像，不仅检索出与输入草图场景类别一致的图像，而且图像中物体细节信息也保持一致，使得检索出来的图像与输入保持布局一致性。

Description

一种基于场景草图的细粒度图像检索方法及系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于场景草图的细粒度图像检索方法及系统。

背景技术

草图能够直观、简洁地描述物体外形和抽象概念，在计算机视觉、多媒体应用与人机交互领域具有广泛的应用。近年来，基于草图的图像检索(Sketch-based ImageRetrieval，SBIR)技术的研究取得了巨大的进展。特别的，随着触屏电子设备技术的进步，用户可以方便简单地在手机、平板电脑等设备中绘制出想要检索的图像，基于草图的图像检索应用得到了进一步发展。现有的基于草图的图像检索方法通常将草图和图像的视觉信息映射到对象级别的语义空间，之后进行特征匹配，主要分为：实例级别的图像检索、细粒度图像检索、场景图像检索等。

目前大多数的基于草图的图像检索相关技术(参考文献：Sangkloy Patsorn,Nathan Burnell,Cusuh Ham,and James Hays."The sketchy database:learning toretrieve badly drawn bunnies."ACM Transactions on Graphics(TOG)35,no.4(2016):1-12.)都建立在实例级、类别级检索的前提下，即：输入草图与待检索的图像对象均为单个物体；并且，检索结果图像的物体与输入草图物体在类别上保持一致，即为正确的检索。传统的实例级、类别级基于草图的图像检索方法仅关注检索相同类别的图像，而通常忽略了所检索图像的形状、姿态和其他细粒度属性。相比于类别级的基于草图的图像检索，文本检索反而能够在表达类别语义性的同时，更简单地进行查询，这使得传统基于草图的图像检索未得到广泛的实际应用。

Yu等2016年提出基于草图的细粒度图像检索技术(参考文献：Yu Qian,Feng Liu,Yi-Zhe Song,Tao Xiang,Timothy M.Hospedales,and Chen-Change Loy."Sketch methat shoe."In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pp.799-807.2016.)：仍然执行实例级基于草图的图像检索任务，但不仅允许用户查询具有相同类别的目标图像，还可以查询所需的实例的细粒度信息。尽管现有的研究提高了单个对象的图像检索性能和应用，但据我们所知，基于场景草图的、包含多个物体对象的细粒度图像检索仍然是一个新的探索问题。

本发明提出了基于场景草图的细粒度图像检索问题，其目的是进行场景级的(即具有多个物体和实例)基于草图的图像检索，使得输入的场景草图和检索出的图像在空间布局、各实例对象的视觉属性(如相对大小和姿势)均保持一致。与本发明提出的细粒度的场景级SBIR相比，类别级的场景级SBIR(参考文献：Xie,Yao,Peng Xu,and Zhanyu Ma."Deep zero-shot learning for scene sketch."In 2019IEEE InternationalConference on Image Processing(ICIP),pp.3661-3665.IEEE,2019.)忽略了场景布局和视觉属性等细节信息，仅保证输入草图和检索出的图像在场景类别上的一致性，例如均为室内、室外、家居、风景等场景类别。

尽管文本可以替代查询场景级图像，但是由于文本固有的歧义性，难以描述图像空间布局和各物体细粒度的细节。本发明提出的基于场景草图的细粒度图像检索可以促进新颖的SBIR应用。例如，如果用户想要从他的手机上的相册中挑选特定照片，则他可以首先在手机上绘制场景草图以表达查询意图，然后检索出所需的照片。

发明内容

为了克服现有基于草图的图像检索方法不能同时解决含有多个物体的、细粒度的图像检索问题，本发明的目的在于提出一种基于场景草图的细粒度图像检索方法(Fine-Grained Image Retrieval with Scene Sketch，简称SceneSketcher)及系统，通过一种基于图嵌入的方法来学习图像和场景草图之间的相似度，从而有效地对场景图像的多类信息进行建模，包括物体的大小、外观特征及图像全局布局信息等。

本发明解决其技术问题所采用的技术方案是：

一种基于场景草图的细粒度图像检索方法，其步骤包括：

1)提取场景草图与若干待检索场景图像中的图信息，分别构建场景草图与若干待检索场景图像的图结构，其中图结构包括若干代表单个物体特征的节点与代表两个物体之间关系的边；

2)提取各图结构的图特征，分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数；

3)依据所述图信息中的物体类别标签，分别计算场景草图图特征与各待检索场景图像图特征的交并比分数；

4)根据图相似度匹配分数与交并比分数，分别计算场景草图与各待检索场景图像的特征空间距离，并依据各特征空间距离，获取检索结果。

进一步地，所述图信息包括物体视觉特征、物体类别标签和物体空间位置。

进一步地，通过Inception-V3网络，得到物体视觉特征；通过词嵌入算法Word2Vec，得到物体类别标签；依据物体在场景草图或各待检索场景图像的位置坐标，得到物体空间位置。

进一步地，通过以下步骤分别构造若干代表单个物体特征的节点和代表两个物体之间关系的边：

1)将物体视觉特征v_i、物体类别标签c_i和物体空间位置p_i连接起来，作为节点n_i的特征向量x_i，其中1≤i≤n，n为场景草图或一待检索场景图像中物体的数量；

2)计算节点n_i与节点n_j的正则化欧式距离，得到边e_i,j＝(n_i,n_j)的权值，其中1≤i<j≤n。

进一步地，通过一图卷积神经网络，提取各图结构的图特征。

进一步地，通过以下步骤计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数：

1)分别计算场景草图图特征G_S和待检索场景图像图特征G_I中两两节点之间的余弦距离，得到大小为N_S×N_I的相似度矩阵

其中S为场景草图，I为任一待检索场景图像，N为节点数；

2)获取相似度矩阵

每一行的最大值；

3)计算图相似度匹配分数

进一步地，通过以下步骤计算场景草图图特征与各待检索场景图像图特征的交并比分数：

1)分别获取场景草图与各待检索场景图像中物理类别为c_t的物体并集

与物体并集

其中1≤t≤|C|，|C|为场景草图与一待检索场景图像中共同物体的数量；

2)计算交并比分数

进一步地，特征空间距离d(S,I)＝1-λ₁φ_GM(G_S,G_I)-λ₂φ_IoU(S,I)，其中λ₁与λ₂分别是φ_GM(G_S,G_I)与φ_IoU(S,I)的权重。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种基于场景草图的细粒度图像检索系统，应用一个三元组网络，包括：

1)图结构构造层，用以取场景草图与若干待检索场景图像中的图信息，分别构建场景草图与若干待检索场景图像的图结构，其中图结构包括若干代表单个物体特征的节点与代表两个物体之间关系的边；

2)图相似度匹配分数计算层，用以提取各图结构的图特征，分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数；

3)交并比分数计算层，用以依据所述图信息中的物体类别标签，分别计算场景草图图特征与各待检索场景图像图特征的交并比分数；

4)目标场景图像判断层，用以根据图相似度匹配分数与交并比分数，分别计算场景草图与各待检索场景图像的特征空间距离，并依据各特征空间距离，获取检索结果。

进一步地，所述三元组网络的损失函数L_tri＝max(d(S,I⁺)-d(S,I^-)+m,0)，其中S为样本场景草图，I⁺为一与样本场景草图匹配的样本场景图像，I^-为一与样本场景草图不匹配的样本场景图像，d(·,·)是特征空间的距离函数，m是边界阈值。

和现有技术相比，本发明的有益效果是：

1.本发明创新性地提出“基于场景草图的细粒度图像检索”这一研究问题，与单物体的SBIR相比，场景级的图像检索对扩大草图检索的应用具有实际意义；本发明针对细粒度的场景检索，不仅要求检索出与输入草图场景类别一致的图像，而且要求图像中各物体的类别、形态、大小、布局等细节信息也与输入场景草图保持一致。

2.本发明提出利用图(graph)来表示场景草图和图像，利用graph的节点显式地模拟场景中的物体实例，利用graph的边模拟场景中物体之间的关系；进一步的，本发明用图卷积神经网络对图特征进行优化，从而进行特征匹配和后续图像检索，提高基于场景草图的图像检索的性能。

3.本发明提出类别敏感的交并比分数(category-wise IoU score)，以场景中的物体类别为基准，对输入草图和待检索数据库中的图像进行空间布局相似性的评估，使得检索出来的图像能更好地与输入保持布局一致性。

附图说明

图1为本发明的基于场景草图的细粒度图像检索网络结构示意图。

图2为本发明一实施例中单物体草图。

图3为本发明一实施例中输入场景草图。

图4为本发明一实施例中检索出的场景图像。

图5为本发明一实施例中检索出的最相似场景图像。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的SceneSketcher：基于场景草图的细粒度图像检索方法，但不构成对本发明的限制。

本发明所提出的主要方法包括首先提出基于场景草图的细粒度图像检索这一新问题、提出常见草图的图结构(graph)构建方法、建立基于图卷积神经网络(Graphconvolution network，GCN)的graph特征处理模型、提出草图与图像特征匹配的交并比(Intersection over Union,IoU)分数计算标准、建立草图与图像特征匹配的三元组网络模型。

本发明主要包括以下内容：

1)利用三种信息构建场景草图的图结构(graph)：通过预训练的Inception-V3网络抽取每个草图物体的视觉特征(visual appearance)；通过词嵌入算法Word2Vec得到草图物体的类别特征(category label)；以草图物体的位置坐标作为空间特征(spatialposition)。最后，将得到的草图物体的视觉特征、类别特征和空间特征融合起来，构建场景草图的图结构(scene sketch graph)节点(node)。在场景草图的图结构中，对节点与节点之间的空间距离进行归一化处理，作为scene sketch graph中边(edge)的权值。如此，通过图结构显式地模拟场景中的全局信息(空间布局)和局部信息(场景中的各物体及其视觉特征、类别属性与位置大小等)，分别建立场景草图和场景图像的graph，每个graph包括node和edge两部分。

2)用图卷积神经网络(Graph convolution network，GCN)分别对场景草图和待检索的图像的图结构(scene graph)进行处理，将每个graph映射为一个一维向量，此一维向量代表对该graph对应的草图或者图像进行特征提取与特征优化后得到的图特征(graphfeature)。可以用graph feature的相似程度去衡量相应场景草图与场景图像的相似度。

3)设计graph相似度匹配的算法，计算场景草图与场景图像之间的graph相似度(graph similarity score)。

4)定义类别敏感的交并比分数(category-wise IoU score)，作为衡量用户输入的场景草图和待检索数据库中场景图像之间全局特征(特别是场景中物体的布局信息)相似性的度量方法。

5)最后，定义三元组网络训练的损失函数为图特征匹配分数与类别敏感的交并比分数的加权和，此损失函数中综合考虑了图像与草图之间视觉特征、物体实例与全局信息等多方面信息；之后利用三元组神经网络(Triplet network)对graph进行特征匹配，即进行基于草图的图像检索。

6)将本发明提出的基于场景草图的细粒度图像检索方法集成到交互系统，形成基于基于场景的图像检索应用平台，支持包括交互式的、实时的图像检索，能够在PC、手机、平板电脑、电子白板等多种设备和终端上进行应用。特别是当用户需要在触控设备存储的大量相似的图像中查询特定的图像时，利用本发明建立的应用平台，可以利用绘制草图场景的方式，简洁直观地查询图像，并进行实时草图修改与检索结果调整。

具体地，图1为本发明的基于场景草图的细粒度图像检索网络结构示意图，包括：

1、场景图(Scene graph)的构造过程

将graph表示为G＝(N,E)，其中N＝{n_i}是graph的节点集合，E＝{e_i,j}是边的集合，e_i,j＝(n_i,n_j)是连接节点n_i与节点n_j的边。节点的类别集合表示为C＝{c_i}，其中c_i是节点n_i的类别标签。

本发明利用三方面的信息构造graph的节点n_i，步骤如下：

1)取得在ImageNet数据集上预训练得到的视觉特征提取神经网络(Inception-V3)模型，利用一个草图分类任务去再训练此模型，然后利用再训练后的模型提取2048维的视觉特征，作为节点n_i的视觉v_i；

2)利用词向量方法(Word2Vec，参考方法https://code.google.com/archive/p/word2vec/)为每个节点n_i提取300维的类别标签特征

3)将节点n_i的物体的空间位置p_i表示为一个4维的向量，向量中的四个数字分别表示该节点物体的矩形边界框(bounding box)左上角和右下角的坐标点；

4)最后，将得到的物体的视觉特征v_i、物体的类别标签c_i、物体的空间位置p_i连接起来，形成2352维的向量，作为节点n_i的特征向量x_i。

对于graph中的边的构造，对于两个节点n_i与n_j，定义边e_i,j＝(n_i,n_j)的权值A_i,j为正则化的欧式距离：

其中D_i,j＝||x_j-x_i||²为节点代表的物体之间的欧式距离，p,q表示节点序号。

2、图卷积神经网络(GCN)

GCN通过一个仿射函数f(·,·)从图G＝(N,E)中提取特征。对于每一层GCN，其输入是上一层GCN的输出与graph的邻接矩阵A＝{A_i,j}。第l层的GCN基本网络的传播函数可以写作：

H^(l)＝f(H^(l-1)，A)

其中，A为A_i,j行程矩阵，1<l≤L，L为GCN的层数。

进一步的，本发明利用优化后的GCN传播规则(参考文献：Kipf,Thomas N.,andMax Welling."Semi-supervised classification with graph convolutionalnetworks."arXiv preprint arXiv:1609.02907(2016).)，函数f(·,·)可以被表示为：

这里σ(·)是leaky_relu激活函数，

是

的节点的度矩阵(对角阵)，W^(l)是需要学习的权重矩阵。

对场景草图和场景图像的graph分别利用GCN处理后，得到提取的graph的特征G_S和G_I，各节点的特征分别表示为

和

3、图相似度匹配分数(graph similarity score)

得到graph的特征G_S和G_I之后，本发明设计一种图特征匹配算法来计算两个graph之间的相似度。记graph的特征G_S和G_I之中，节点数量分别为N_S和N_I。graph之间的相似度计算步骤如下：

1)利用节点与节点之间的余弦距离(Cosine Distance)表示两个节点之间的相似度。

2)分别计算G_S和G_I中两两节点之间的相似度，得到大小为N_S×N_I的相似度矩阵

3)对应相似度矩阵

的每一行，取最大值，即得到对于场景草图graph中的每个物体，在场景图像中与它最相似的物体。

4)最后，对所有的行最大值取总的最大值，即得到场景草图与场景图像的graph相似度。

4、类别敏感的交并比分数(category-wise IoU score)

在草图S和图像I中，记

与

分别为类别标签为c_t的物体并集，category-wiseIoU score的计算步骤如下：

1)首先计算

与

的交集与并集：

2)对所有类别的层次上，求场景草图与场景图像的交并比：

其中，|C|是场景中的物体类别数量。

5、场景草图与场景图像之间距离的计算

依据graph similarity scoreφ_GM(G_S,G_I)与category-wise IoU scoreφ_IoU(S,I)，并通过一特征空间的距离函数d(·,·)，计算场景草图与场景图像的相似性。可依据一阈值检索出的与输入草图相似性最高的前若干张图像，也可直接将距离最小的场景图像，作为目标图像。

其中，

d(S,I)＝1-λ₁φ_GM(G_S,G_I)-λ₂φ_IoU(S,I)

λ₁与λ₂分别是φ_GM(G_S,G_I)与φ_IoU(S,I)的权重。在本发明的实验中，设置λ₁＝1，λ₂＝0.8。

6、三元组网络损失函数

本发明可使用一三元组网络实现上述功能。三元组网络的基本原理是使得具有相同类别标签的实例特征距离较近，具有不同类别标签的实例特征距离较远。记三元组网络的输入为(S,I⁺,I^-)，这里S表示场景草图，I⁺是一张该场景草图对应的场景图像，I^-是一张与输入草图不匹配的图像。则三元组网络的损失函数可表示为：

L_tri＝max(d(S,I⁺)-d(S,I^-)+m,0)

其中d(·,·)是特征空间的距离函数，m是边界阈值。在本发明的实验中，将阈值m设置为0.4，使得模型在大多数状态下获得稳定的性能。

下面提供本发明方法的一个具体应用实例，包括以下步骤：

1、用户输入场景草图，本示例中用户从现有单物体草图素材中选取了一批单物体草图作为对象(如图2所示)，放置在画布中，构成输入的场景草图(如图3所示)；

2、针对前面步骤1所述的场景草图数据与数据库中的待检索图像分别建立graph，输入至GCN网络中提取graph特征，与数据库中的图像graph特征进行比较，计算graphsimilarity score与category-wise IoU score；继续输入三元组网络进行比较；

3、模型输出检索出的与输入草图相似性最高的前五张图像，如图4右边的展示栏所示；

4、在图4中，用户可以点击查看与输入草图相似性最高那张图像，如图5所示。

实验数据

将本发明提出的方法与四种现有的经典基于草图的图像检索方法分别比较：

(1)Sketch-a-Net+RankSVM(参考文献：Yu,Qian,Yongxin Yang,Feng Liu,Yi-ZheSong,Tao Xiang,and Timothy M.Hospedales."Sketch-a-net:A deep neural networkthat beats humans."International journal of computer vision 122,no.3(2017):411-425.)。

(2)Sketch me that shoe(参考文献：Yu,Qian,Feng Liu,Yi-Zhe Song,TaoXiang,Timothy M.Hospedales,and Chen-Change Loy."Sketch me that shoe."InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.799-807.2016.)。

(3)DSSA(参考文献：Song,Jifei,Qian Yu,Yi-Zhe Song,Tao Xiang,and TimothyM.Hospedales."Deep spatial-semantic attention for fine-grained sketch-basedimage retrieval."In Proceedings of the IEEE International Conference onComputer Vision,pp.5551-5560.2017.)。

(4)SketchyScene(参考文献：Zou,Changqing,Qian Yu,Ruofei Du,Haoran Mo,Yi-Zhe Song,Tao Xiang,Chengying Gao,Baoquan Chen,and Hao Zhang."Sketchyscene:Richly-annotated scene sketches."In Proceedings of the European Conference onComputer Vision(ECCV),pp.421-436.2018.)。

通过实验可以看出，本发明提出的基于草图的图像检索方法性能优异。

以上对本发明所述的SceneSketcher：一种基于场景草图的细粒度图像检索方法和装置进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。