CN110580302A

CN110580302A - 一种基于半异构联合嵌入网络的草图图像检索方法

Info

Publication number: CN110580302A
Application number: CN201910746354.3A
Authority: CN
Inventors: 雷建军; 宋宇欣; 彭勃; 侯春萍; 于传波; 丛润民
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-12-17
Anticipated expiration: 2039-08-13
Also published as: CN110580302B

Abstract

本发明公开了一种基于半异构联合嵌入网络的草图图像检索方法，所述方法包括以下步骤：构建由半异构特征映射部分和联合语义嵌入部分组成的半异构联合嵌入网络；所述半异构特征映射部分用于为每个域提取底部特征，所述联合语义嵌入部分用于将来自不同域的特征嵌入到共同的高级语义空间中；采用混合损失函数机制对网络进行训练，得到具有辨析力的嵌入特征；该混合损失函数机制包括对齐损失函数和草图‑边缘图对比损失函数；采用预训练阶段和联合训练阶段。本发明通过网络学习得到更多的具有辨析力的跨域特征表示，同时缩小草图域和自然图像数据域的域差异。

Description

一种基于半异构联合嵌入网络的草图图像检索方法

技术领域

本发明涉及图像检索、计算机视觉技术领域，尤其涉及一种基于半异构联合嵌入网络的草图图像检索方法。

背景技术

随着互联网技术的发展，海量图片数据不断涌入，而人们对从海量数据中搜寻有效信息的需求不断扩大。同时，近年来随着手机、平板等触摸屏技术的发展，将草图作为查询输入成为一种较为直观和容易的方式。相比于基于文本的图像检索，草图作为输入查询更能描述细粒度信息，且更为直观和简洁。因此，基于草图的图像检索(Sketch-basedImageRetrieval,SBIR)引起了研究人员的广泛的关注。

传统的基于草图的图像检索方法通常使用手工制作的特征来描述草图和自然图像。为了减小草图和自然图像域之间存在的跨域表示差异，许多传统方法首先提取自然图像的边缘图作为自然图像的替代，然后用例如：HOG(方向梯度直方图)、SIFT(尺度不变特征变换)和形状上下文的手工制作的特征分别描述草图和边缘图，最后利用词袋(Bag-of-Words,BoW)框架整合进K-最近邻(K Nearest Neighbor,KNN)排序过程来评估草图和边缘图特征之间的相似性，获得最终检索结果。Hu等人将梯度场HOG特征引入BoW框架，获得了较好的SBIR性能。Saavedra等人通过引入边缘局部方向软直方图(Soft-Histogram of EdgeLocal Orientations，SHELO)作为草图和边缘图的特征描述符，有效地提高了检索精度。Saavedra等人通过检测学习键形(Learned Keyshapes，LKS)提出了一种描述手绘草图的新方法，大幅提高了检索性能。Xu等人提出了一种学术耦合字典学习方法以解决SBIR中的跨领域学习问题。Qian等人引入了重排序和相关反馈方案，根据输入草图的初始检索结果找到更相似的自然图像。

但是在传统方法中存在一些问题：首先，手绘草图只由黑白像素点组成，缺乏颜色和纹理细节信息，而自然图像具有丰富的颜色和纹理信息。因此，草图和自然图像属于两个异构数据域，运用传统方法很难为两个不同的数据域设计一种通用的特征。此外，草图具有高度抽象性，且通常由非专业人士绘制，因此它们类内差异较大，而大多数手工制作的特征在处理手绘草图的类内变化和模糊性方面存在局限性，也会对SBIR的性能产生负面影响。

最近，许多基于卷积神经网络(Convolutional Neural Network,CNN)的框架被提出来应对SBIR中的挑战。为了更好地度量草图和自然图像域之间的跨域相似性，一些孪生网络(Siamese Network)和三分支网络(Triplet)被提出。Qi等人提出了一种基于孪生网络的草图图像检索方法，首先提取自然图像的边缘图作为自然图像的替代，通过引入对比损失，在拉近同类草图和边缘图之间的距离的同时推远不同类之间的草图和边缘图的特征距离。同时Triplet架构也被提出用于度量草图和自然图像之间的相似性。Triplet网络包括草图分支，正自然图像分支和负自然图像分支，利用排序损失函数约束草图与正自然图像之间的特征距离小于草图与负自然图像之间的特征距离。此外，在SBIR上已经开发了深度哈希方法，并且在检索性能方面取得了显著的改进。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

首先，由于草图和自然图像来自两个不同的数据域，因此草图和自然图像的特征之间存在显著的域差异。采用对比损失或三元组损失来学习跨域相似性不足以应对内在域差异。因此，如何消除或缩小两个域之间的差距并将来自不同域的特征嵌入到共同的高级语义空间中仍是SBIR的最重要的挑战之一。

其次，大多数现有方法要么通过学习草图-边缘图对的匹配关系，要么通过学习草图-自然图像对之间的匹配关系来完成基于草图的图像检索任务。这些现有方法没有充分利用草图，自然图像和边缘图之间的相关关系。即，那些利用从自然图像中提取的边缘图去替代自然图像用于检索的方法忽略了自然图像中包含的判别特征；而另外那些直接匹配草图和自然图像对的方法忽略了边缘图的辅助作用。事实上，由于边缘图是从自然图像中提取出来的，和自然图像具有一一对应关系，而边缘图和草图具有相似的特性，都仅由黑白像素点组成，可以认为边缘图和草图属于相同数据域。

因此，可将边缘图作为草图和自然图像的桥梁，用于辅助两个异构数据域在高层映射空间中的对齐。

发明内容

本发明提供了一种基于半异构联合嵌入网络的草图图像检索方法，本发明通过网络学习得到更多的具有辨析力的跨域特征表示，同时缩小草图域和自然图像数据域的域差异，详见下文描述：

一种基于半异构联合嵌入网络的草图图像检索方法，所述方法包括以下步骤：

构建由半异构特征映射部分和联合语义嵌入部分组成的半异构联合嵌入网络；所述半异构特征映射部分用于为每个域提取底部特征，所述联合语义嵌入部分用于将来自不同域的特征嵌入到共同的高级语义空间中；

采用混合损失函数机制对网络进行训练，得到具有辨析力的嵌入特征；该混合损失函数机制包括对齐损失函数和草图-边缘图对比损失函数；

采用预训练阶段和联合训练阶段。

其中，所述半异构特征映射部分和联合语义嵌入部分均包含：草图分支、自然图像分支和边缘分支，每个分支均基于VGG19构建。

进一步地，所述半异构特征映射部分中的自然图像分支和其他两个分支之间在半异构特征映射部分不共享权重，草图分支与边缘图分支共享权重，各分支底部卷积层针对各自源域数据单独学习。

其中，所述联合语义嵌入部分的不同数据域的底层特征被分别学习，在联合语义嵌入部分中，三个分支的权重完全共享。

进一步地，所述对齐损失函数定义为：

其中，I为自然图像；E为边缘图；为自然图像分支嵌入层输出特征；为边缘图分支嵌入层输出特征。。

进一步地，所述草图-边缘图对比损失函数定义为：

其中，l_sim表示相似性标签，其中1代表正草图-边缘图对，0代表负草图-边缘图对，d(·)表示欧氏距离，用于计算草图-边缘图对的特征相似度，m₁表示边距，表示草图分支嵌入层输出特征，表示边缘图正样本输出特征，表示边缘图负样本输出特征。

进一步地，所述联合训练阶段具体为：

使用混合损失函数机制中的全部损失对整个三分支网络进行联合训练；对于训练数据集中的每张草图，从相同类别中随机选择自然图像以形成正的草图-自然图像样本对，从来自其他类别中随机选择自然图像以形成负的草图-自然图像样本对。

本发明提供的技术方案的有益效果是：

1、本发明通过引入辅助边缘图信息作为桥梁，构建了草图、边缘图和自然图像之间的相关性，以缩小草图和自然图像之间的跨域间隙；

2、本发明通过设计混合损失机制，学习不同域的跨域不变表示，使得草图和自然图像域在共同的高级语义空间中充分对齐，从而有效地提高了检索性能。

附图说明

图1为一种基于半异构联合嵌入网络的草图图像检索方法的流程图；

图2为本发明提出的方法和其他方法在Sketchy-Extension数据集上的检索平均准确率对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本方法提出的半异构联合嵌入网络包含三个分支：草图分支、自然图像分支和边缘分支。每个分支基于VGG19构建。半异构联合嵌入网络按输入从前往后分为两个部分：半异构特征映射部分和联合语义嵌入部分。在网络体系结构方面，半异构特征映射部分中的卷积层和池化层，以及联合语义嵌入部分中的前两个全连接层与VGG19结构相同。半异构特征映射部分的目的是为每个域提取底部特征，联合语义嵌入部分的目的是将来自不同域的特征嵌入到共同的高级语义空间中。同时，本发明实施例提出了对齐损失及草图-边缘图对比度损失，以激励网络学习跨域不变性表示。通过设计混合损失机制，实现草图、自然图像和边缘图三者在公共高级语义空间中的充分对齐，从而提高了检索性能。

本发明实施例提出了一种新型的基于半异构联合嵌入网络的草图图像检索方法，为基于草图的图像检索任务学习更多有辨析力的跨域特征表示。通过引入从自然图像提取的边缘图作为桥梁，缩小了自然图像域和草图域之间的域间隙。本发明实施例提出的半异构三分支联合嵌入网络包括三个分支：自然图像分支，边缘图分支和草图分支。

一、半异构特征映射部分设计

半异构特征映射部分由自然图像分支，边缘图分支和草图分支组成。每个分支包含五组卷积层和池化层。半异构特征映射部分的目的是为每个域提取底层特征。因为草图和边缘图都缺乏颜色和纹理信息，同时都是由一系列抽象曲线组成，因此属于相同数据域。考虑到草图和边缘图的内在相关性，草图分支和边缘分支在半异构特征映射部分完全共享权重。同时，由于草图训练数据的规模远小于自然图像训练数据，草图和边缘图分支之间共享权重还可以部分缓解缺少草图训练数据给网络训练带来的负面影响。自然图像由于充满色彩和纹理信息，和草图属于异构数据域。

因此，自然图像分支和其他两个分支之间在半异构特征映射部分不共享权重，各分支底部卷积层针对各自源域数据单独学习。最终使得在半异构特征映射部分，每个域的底层特征得以保留。

二、联合语义嵌入部分设计

将上述草图、自然图像和边缘图通过半异构特征映射部分输出的特征图送入联合语义嵌入部分。所以联合语义嵌入部分也包含自然图像分支，边缘图分支和草图分支。联合语义嵌入部分的目的是将来自不同域的特征嵌入到共同的高级语义空间中。在该部分中，每个分支包含两个4096维的全连接层，一个经过L2归一化后的嵌入层，一个用于分类的全连接层。嵌入层也是一个全连接层，经过该全连接层得到的特征向量通过L2归一化，即特征向量中的每个元素除以该向量的L2范数，得到输出特征，再送入最后一个全连接层。如前所述，在半异构特征映射部分，不同数据域的底层特征被分别学习，然而，为了在一个共同的高级语义空间中实现自然图像域和草图域的特征对齐，在联合语义嵌入部分中，三个分支的权重完全共享。

三、用于对网络进行训练的混合损失函数机制设计

基于在共同的高级语义空间中学习的特征，本发明实施例提出一种混合损失函数机制来学习跨域不变表示，得到更有辨析力的嵌入特征。为了学习跨域不变表示，本发明实施例提出了对齐损失和草图-边缘图对比损失。同时，混合损失函数机制还包含交叉熵损失和草图-自然图像对比损失，它们是基于草图的图像检索任务中的两种典型损失。这四种损失函数相互补充，共同作用，提高了嵌入特征的区分能力。

以下将自然图像、边缘图和草图分支L2归一化的嵌入层产生的特征映射分别表示为和其中I,S,E分别代表输入的自然图像、边缘图和草图数据，f_θ(·)表示网络分支学习的映射函数，θ_I,θ_E和θ_S分别表示自然图像，边缘图和草图分支的权重。

1、对齐损失

为了缩小域差异并在高级语义空间中对齐两个域，在自然图像分支和边缘图分支之间引入对齐损失。对齐损失的目的是最小化图像及其对应边缘图在高级语义空间中的特征距离。更明确地说，虽然图像和相应的边缘图来自不同的数据域，但它们在联合嵌入部分中应该具有相同的高级语义。因此，对齐损失函数L_alignment(I,E)定义为：

对齐损失通过构建自然图像和对应边缘图之间的相关性，捕获了自然图像和对应边缘图之间的跨域不变性表示，提供了一种缩小跨域差异的新思路，实现了草图和自然图像域的共同特征学习。

2、草图-边缘图对比损失

考虑到图像与其对应的边缘图之间的一对一对应关系，在混合损失机制中引入草图与边缘图分支之间的草图-图像对比损失以进一步约束草图和自然图像对之间的匹配关系，如下所示：

l_sim表示相似性标签，其中1代表正草图-边缘图对，0代表负草图-边缘图对，d(·)表示欧氏距离，用于计算草图-边缘图对的特征相似度，m₁表示边距。在实验过程中，m₁设置为0.3。尽管旨在衡量来自相同域的输入对之间的相似性，但是因为将其融入混合损失函数机制，因此可以将其视为在高级语义空间中对齐两个域的补充。

3、交叉熵损失

为了分别学习自然图像、边缘图和草图的判别特征，在三个分支中均引入交叉熵损失L_{cross-entropy}(p,y)，其公式为：

其中，p＝(p₁,...p_K)表示一个数据样本在K个类别上的离散概率分布，表示对应于每个类别的典型独热标签y＝(y₁,...y_K)，z＝(z₁,...z_K)表示由最后一个完全连接层产生的特征向量。交叉熵损失的作用是强制网络提取每个分支的典型判别特征。

4、草图-自然图像对比损失

在基于草图的图像检索任务中，正的草图-自然图像对应该拉近，而负的草图-自然图像对应该推远。给定草图S和自然图像I，草图-自然图像对比损失可表示为：

其中，I⁺和I^-分别表示正和负的自然图像，d(·)表示欧式距离，用于计算草图-自然图像对的特征相似度，m₂表示边距。草图-自然图像对比损失有效地度量了草图与自然图像之间的跨域相似性。在实验过程中，m₂设置为0.3。

最后，对齐损失L_alignment(I,E)，草图-边缘图对比损失交叉熵损失L_{cross-entropy}(p,y)，以及草图-自然图像对比损失组合为整体损失函数L(S,I,E,pD,yD,l)，定义为：

其中，α，β，γ为不同类型损失之间的权重超参数，通过在训练集上的交叉验证，分别设置为100，10和10。所提出的混合损失函数机制构建了草图、边缘图和自然图像之间的相关性，其中自然图像特征和草图特征通过边缘图信息有效地关联。通过混合损失函数机制设计，网络能够学习得到更多的判别特征表示，并在共同特征空间中充分对齐草图和自然图像域，从而提高检索精度。

四、网络训练策略设计

网络的训练分为预训练阶段和联合训练阶段。

1、三分支预训练阶段

在预训练阶段，每个分支，包括半异构特征映射部分中的卷积层和池化层，以及联合语义嵌入部分中的全连接层，都是独立训练的。预训练阶段采用的是交叉熵损失，使用训练数据集中的相应源数据来对相应分支进行预训练。预训练旨在不学习共同嵌入的情况下，使得网络分别学习适合于识别自然图像、边缘图和草图的权重。

2、联合训练阶段

联合训练阶段共同学习三个分支的权重，通过训练整个网络获得跨域嵌入表示。该阶段使用混合损失函数机制中的全部损失L(S,I,E,pD,yD,l)对整个三分支网络进行联合训练。对于上述草图-自然图像对比损失和草图-边缘图对比损失，在数据准备阶段，应生成草图-自然图像对和草图-边缘图对。

具体操作如下：对于训练数据集中的每张草图，从相同类别中随机选择自然图像(边缘图)以形成正的草图-自然图像(边缘图)样本对，从来自其他类别中随机选择自然图像(边缘图)以形成负的草图-自然图像(边缘图)样本对。在训练过程中，正样本对和负样本对的比率设置为1：1，并且在每个训练批次中，根据该规则对正负样本对进行随机选择。

实施例2

图2给出了本发明提出的方法和其他方法在Sketchy-Extension测试集上的检索平均准确率对比图。第一列为用Siamese CNN方法得到的检索平均准确率，第二列为用GN-Triplet方法得到的检索平均准确率，第三列为用本方法得到的检索平均准确率。

从结果可以看出，本方法通过引入边缘图数据，有效缩小了草图和自然图像之间的域差异，在公共语义空间中通过学习跨域不变性表示更加充分地对齐了两个域，因此获得了更好的检索性能。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述方法包括以下步骤：

采用预训练阶段和联合训练阶段。

2.根据权利要求1所述的一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述半异构特征映射部分和联合语义嵌入部分均包含：草图分支、自然图像分支和边缘分支，每个分支均基于VGG19构建。

3.根据权利要求1所述的一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述半异构特征映射部分中的自然图像分支和其他两个分支之间在半异构特征映射部分不共享权重，草图分支与边缘图分支共享权重，各分支底部卷积层针对各自源域数据单独学习。

4.根据权利要求1所述的一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述联合语义嵌入部分的不同数据域的底层特征被分别学习，在联合语义嵌入部分中，三个分支的权重完全共享。

5.根据权利要求1所述的一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述对齐损失函数定义为：

其中，I为自然图像；E为边缘图；为自然图像分支嵌入层输出特征；为边缘图分支嵌入层输出特征。

6.根据权利要求1所述的一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述草图-边缘图对比损失函数定义为：

7.根据权利要求1所述的一种基于半异构联合嵌入网络的草图图像检索方法，其特征在于，所述联合训练阶段具体为：