CN111966849A

CN111966849A - 一种基于深度学习和度量学习的草图检索方法

Info

Publication number: CN111966849A
Application number: CN202010836521.6A
Authority: CN
Inventors: 杨震群; 魏骁勇; 张栩禄; 杨晨曦
Original assignee: Shenzhen Qianhai Xiaomeng Technology Co ltd
Current assignee: Shenzhen Qianhai Xiaomeng Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-20
Anticipated expiration: 2040-08-17
Also published as: CN111966849B

Abstract

本发明涉及图像检索领域，提供了一种基于深度学习和度量学习的草图检索系统，本发明目的在于解决草图与自然图像之间跨域检索的问题。主要方案流程主要分为六步：准备草图和自然图像数据；四元组采样和三元组组合来制作网络输入数据；搭建双三分支网络结构；确定网络对应的损失函数并训练神经网络；制作自然图像特征数据库；进行外部输入草图的检索。本发明用于通过草图检索自然图像。

Description

一种基于深度学习和度量学习的草图检索方法

技术领域

本发明涉及由计算机进行的草图图像检索方法，可用于在系统上输入草图获取目标图像，属于深度学习和度量学习技术领域。

背景技术

基于草图的图像检索开始于20世纪90年代，早期的研究者通过提取图像的底层颜色、纹理特征，如将照片与包含颜色斑点或预定义纹理的查询进行匹配。上世纪90年代的草图检索更多的是关注轮廓或线条的变化规律。后来到20世纪90年代后期至21世纪初，研究者试图用颜色的全局描述符与形状组合为用于图像检索相似性度量。

在2015年前，提取特征的方式大多是基于人工定义的规则，人工对特征描述规则的定义与测试通常情况下是一个缓慢的经验积累过程，且不具有普适性。近年来，深度学习在计算机视觉领域不断取得突破，一次一次的刷新各领域的成绩。目前，已经有大量深度学习的工作在草图检索上进行，但草图检索属于跨域问题，大量观察研究发现，这些方法虽然取得了比传统算法更高的准确率，但是模型学习到的特征大多还是底层的视觉特征，在特征表达上十分有限，对于深层语义的描述更加匮乏。在智能设备普及的今天，更好地适应跨域检索问题，研发出草图检索系统具备巨大的应用前景。

发明内容

针对上述研究问题，本发明目的在于解决草图与自然图像之间跨域检索的问题。

本发明为解决上述技术问题采用以下技术效果：

本发明提供了一种基于深度学习和度量学习的草图检索方法，包括训练步骤和检索步骤：

检索步骤A：

步骤A1.准备草图数据集；

步骤A2.根据草图搜集对应的自然图像数据集；

步骤A3.数据准备过程一，采用四元组采样：首先从草图数据集中取出一张草图，记为x_i，对应类别记为c₁，并随机从自然图像数据集中选取一张类别为c₁的自然图像，记为y_i；之后通过语义相似度计算，得到与类别c₁语义上最接近的类别，记为c₂，随机取出类别为c₂的草图与自然图像，分别记为x_j、y_j，至此，得到四元组(x_i，x_j，y_i，y_j)；

步骤A4.数据准备过程二，采用三元组组合：对步骤A3得到的四元组(x_i，x_j，y_i，y_j)进行组合，得到两组三元组，分别为草图锚三元组(x_i，y_i，y_j)、自然图像锚三元组(y_i，x_i，x_j)；

步骤A5.准备未训练的Bi-Triplet神经网络模型，将Bi-Triplet网络分为草图锚区、自然图像锚区两个区域，每个区域都为一个单独的Triplet网络，草图锚区以草图锚三元组(x_i，y_i，y_j)作为输入，自然图像锚区以自然图像锚三元组(y_i，x_i，x_j)作为输入，每个Triplet网络由三个神经网络构成，其中以草图作为输入的卷积神经网络内部权值共享，该部分简称成草图神经网络，用于草图特征提取；以自然图像作为输入的神经网络共享权值，简称为自然图像神经网络；

步骤A6.对步骤A5得到的Bi-Triplet神经网络模型定义损失函数，用于计算模型预测结果和真实标签的误差，Bi-Triplet模型损失的表达式如下：

其中d(·)表示距离度量函数，margin表示距离阈值；步骤A6.在定义损失函数后，根据损失函数的误差值对神经网络进行反向传播来修改参数；对步骤A4得到的神经网络进行多次迭代训练，每次迭代过程都通过反向传播机制小范围修改网络参数，最后得到具备实际检索能力的模型，该模型得到一个公共特征空间，该空间同时具备同域度量性与跨域度量性，该公共特征空间中，相同类别的嵌入特征相互靠近，不同类别的嵌入特征相互远离，并且同类嵌入特征会形成聚类簇；

步骤A7.对数据库中的图像使用自然图像神经网络提前提取自然图像特征并存储，以减少系统在检索阶段的处理时间；

检索阶段B

步骤B1：读取输入的草图图像；

步骤B2：利用已经训练完成的草图神经网络进行草图图像的特征提取，获取的特征记f；

步骤B3：读取图像数据库中的自然图像特征，数据库中的图像特征记为k；

步骤B4：计算输入的草图图像特征与数据库图像特征之间的距离；

步骤B5：输出与输入的草图特征距离最近的几幅图像。

上述技术方案中，步骤A5中每个Triplet网络由三个神经网络构成具体为：

草图锚区的Triplet网络为1个草图神经网络和2个自然图像神经网络；

自然图像锚区的Triplet网络为2个草图神经网络和1个自然图像神经网络。

因为本发明采用上述技术方案，因此具备以下有益效果：

现有技术无法很好的解决跨域检索问题，导致了检索效果不好，直接影响用户体验。所以本发明提供了创新性的神经网络训练方式，在三分支(Triplet)网络架构的基础上，提出了一个双路三分支(Bi-Triplet)神经网络，通过施加双向排序限制，有效地解决了跨域检索问题，从而提高了草图检索的准确性，方便用户快速获得有效信息。

本发明不同于图像检索，无需用户查找合适的查询图像，只需手工绘制目标图像的草图；由于草图和目标图像通常差异较大，本系统采取的方法能够实现更好地解决跨域检索问题，达到更高精度。

附图说明

图1为本发明流程框架简图，左边为训练阶段，右边为检索阶段；

图2四元组采样、三元组组合示意图；

图3为草图锚区、自然图像锚区示意图。

具体实施方式

具体实施流程主要分为六步：准备草图和自然图像数据；四元组采样和三元组组合来制作网络输入数据；搭建双三分支网络结构；确定网络对应的损失函数并训练神经网络；制作自然图像特征数据库；进行外部输入草图的检索。

一、准备草图和自然图像数据

采用已公开的数据集辅助模型训练是神经网络训练的通用方式，方便同领域方法间的对照，且能快速获取大量的图像数据。目前已有的草图数据集为TU-BerlinExt数据集，本发明在模型训练阶段采用该数据集作为神经网络的输入。TU-BerlinExt数据集是TU-Berlin数据集的扩展数据集，共250个草图类别，包含20000张草图图像，204489张自然图像，草图类别丰富，且自然图像与草图只有类别级对应关系，没有实例级对应关系，导致草图与自然图像的视觉差距较大，这有助于训练完成的模型适应复杂的实际情况。

二、四元组采样和三元组组合制作网络输入数据

四元组采样：首先从TU-Berlin数据集的所有草图图像中选择一张草图，记为x_i，对应类别记为c₁，并从TU-Berlin数据集的自然图中随机选取一张类别为c₁的自然图像，记为y_i；之后通过cosine相似度计算，得到与类别c₁语义上最接近的类别，记为c₂，随机取出类别为c₂的草图与自然图像，分别记为x_j、y_j，至此，得到四元组(x_i，x_j，y_i，y_j)；

三元组组合：对步骤A3得到的四元组(x_i，x_j，y_i，y_j)进行组合，得到两组三元组，分别为草图锚三元组(x_i，y_i，y_j)、自然图像锚三元组(y_i，x_i，x_j)；

重复上述过程，直至所有草图图像都已经被选择作为x_i，此时，制作完成的输入数据包含20000个草图锚三元组和20000个自然图像锚三元组。

本发明采用的采样方式能够克服简单随机采样所面临的诸多问题：1)简单随机采样没有关注样本间的相关性，而Bi-Triplet组合式采样选取的是与类别c₁语义上最接近的类别，能够增强相似类别的判断准确性。2)简单随机采样容易在训练过程中出现参数优化的梯度方向混乱，因为三元组都是随机采样得到的，几乎没有视觉关联。而Bi-Triplet组合式采样得到的草图锚三元组和自然图像锚三元组是在四元组中获得的，在视觉上具有强关联性，能够最大程度保证梯度优化方向的一致性。

三、搭建双三分支神经网络

Triplet网络通常应用于相同数据领域的检索，导致该网络只具备单一映射的能力，当应用于跨域检索时会受到较大的限制。例如在草图检索问题中，通常以草图作为锚样本，自然图像作为正负样本。正常训练的情况下，自然图像能够良好地嵌入到度量空间中，但草图的嵌入不一定符合预期。例如草图样本在映射后不一定具备较强的判别性与可度量性，导致跨域匹配时出现偏差，从而影响检索性能。该问题主要源于Triplet网络的单向排序，所以本发明提出双向排序来解决该问题。

本发明使用python编程语言采用tensorflow框架搭建网络模型。Bi-Triplet网络分为草图锚区、自然图像锚区两个区域，每个区域都为一个单独的Triplet网络，草图锚区以草图锚三元组(x_i，y_i，y_j)作为输入，自然图像锚区以自然图像锚三元组(y_i，x_i，x_j)作为输入，每个Triplet网络由三个神经网络构成，其中以草图作为输入的卷积神经网络内部权值共享，该部分简称成草图神经网络，用于草图特征提取；以自然图像作为输入的神经网络共享权值，简称为自然图像神经网络；由于草图神经网络权重共享，在具体代码实现过程中，可仅搭建一个草图神经网络；同理，自然图像神经网络在代码实现中也可仅编写一个神经网络模块。

神经网络模型结构可采用多种主流模型，本发明采用ResNet-50的模型架构，该架构采用残差模块增强模型的表达能力，模型学习能力强且数据量适中，适于在实际场景中部署，可以获得较好的准确性和较短的等待时间。在ImageNet数据集上训练完成的ResNet-50拥有较好的视觉特征提取的能力，能够很好地解决图像分类、单模态图像检索问题，但不足以解决跨域检索问题；针对该问题，本发明采用预训练ResNet-50的卷积层进行图像的深度特征提取，并固定该部分的参数，不在训练阶段进行更新；将ResNet-50的全连接层修改为输入维度2048，输出维度512，并随机初始化该部分的参数，在训练阶段对该部分的参数进行更新。

四、确定网络对应的损失函数并训练神经网络

对Bi-Triplet神经网络模型定义损失函数，可用于计算模型预测结果和真实标签的误差，Bi-Triplet模型的损失函数表达式如下：

其中d(·)表示距离度量函数，margin表示距离阈值；Bi-Triplet模型需要通过多次迭代训练优化参数；在每次迭代过程中，模型都会进行前向传播和反向传播，在反向传播过程中，根据损失函数的误差值对神经网络修改参数；多次迭代后得到具备实际检索能力的模型，该模型得到一个公共特征空间，该空间同时具备同域度量性与跨域度量性，该公共特征空间中，相同类别的嵌入特征相互靠近，不同类别的嵌入特征相互远离，并且同类嵌入特征会形成聚类簇；

五、制作自然图像特征数据库

为在模型检索过程中缩短运行时间，需要对自然图像提前提取特征并保存在数据库中，后续可直接与草图特征进行相似度计算，无需将自然图像反复输入至神经网络。具体是将TU-Berlin数据集中的所有自然图像输入到自然图像神经网络中，获取自然图像对应的512维特征，该特征代表了自然图像隐含的深度信息，包括视觉信息和语义信息等；在数据库存储过程中，需要分别存储自然图像和自然图像特征，并将两者对应关联，以方便数据查找。

六、进行外部输入草图的检索

在上一步完成后，模型已具备实际部署能力，对于任意草图输入，模型将草图图像输入到草图神经网络中，获得512维的草图特征；采用欧式距离计算草图特征与所有自然图像特征的相似度，具体公式为：

f代表草图特征；k代表数据库中的图像特征；n代表维数，对于本实施例，此处为512；d代表了草图特征与某一自然图像特征的相似度，该值越接近于0，代表相似度越高。之后根据与草图的相似度对自然图像进行排序，并将相似度最高的几副自然图像作为最后结果，显示给用户。

网络结构区别：

Bi-Triplet神经网络，即双路三分支神经网络，是本发明在Triplet网络的基础上改进的网络结构，目的是为了更好地解决跨域检索问题。但Tri plet网络通常应用于相同数据领域的检索，导致该网络只具备单一映射的能力，当应用于跨域检索时会受到较大的限制。例如在草图检索问题中，通常以草图作为锚样本，自然图像作为正负样本。正常训练的情况下，自然图像能够良好地嵌入到度量空间中，但草图的嵌入不一定符合预期。草图样本在映射到不一定具备较强的判别性与可度量性。这样会导致跨域匹配时出现偏差，从而影响检索性能。问题的瓶颈在于单向排序，所以本文提出一个双向排序来克服这个问题，为了便于描述，将实现双向排序的神经网络结构简称为Bi-Triplet网络。

采样方式区别：

Bi-Triplet网络一次前向运算需要两组三元组作为输入，分别是：草图锚三元组、自然图像锚三元组。一种最直观的采样思路是每次随机采样六个样本，分别组装两组三元组用作输入，这种策略可以简称为简单随机采样。Triplet的简单随机采样存在两个问题：一是没有关注样本间的语义相关性，二是容易出现梯度方向不一致问题。这两个问题会使得Loss在训练过程大幅震荡，影响学习效率和正确性。因此，本发明提出了一种更加有效的采样策略，称为Bi-Triplet组合式采样。

Bi-Triplet组合式采样能够克服简单随机采样所面临的两个问题：

1)简单随机采样没有关注样本间的语义相关性，而Bi-Triplet组合式采样则致力于区分语义相近的类别，理论上能够增强特征的判别性。

2)简单随机采样容易出现梯度方向不一致问题，因为两组三元组都是随机得到的，没有视觉和语义上的关联。根据已有阐述，Bi-Triplet组合式采样得的两组三元组互为“镜像组”，在视觉和语义上强关联，能够最大程度保证梯度方向的一致性。

结论：

经过Bi-Triplet网络的监督学习，最终能够得到一个公共特征空间，该空间同时具备同域度量性与跨域度量性。在该空间中，相同类别的嵌入特征相互靠近，不同类别的嵌入特征相互远离，并且同类嵌入特征会形成聚类簇。

Claims

1.一种基于深度学习和度量学习的草图检索方法，其特征在于，包括训练步骤和检索步骤：

检索步骤A：

步骤A1.准备草图数据集；

步骤A2.根据草图搜集对应的自然图像数据集；

步骤A5.准备未训练的Bi-Triplet神经网络模型，将Bi-Triplet网络分为草图锚区、自然图像锚区两个区域，每个区域都为一个单独的Triplet网络，草图锚区以草图锚三元组(x_i，y_i，y_j)作为输入，自然图像锚区以自然图像锚三元组(y_i，x_i，x_j)作为输入，每个Triplet网络由三个神经网络构成，其中以草图作为输入的卷积神经网络的权值共享，该卷积神经网络简称成草图神经网络，用于草图特征提取；以自然图像作为输入的卷积神经网络的权值共享，简称卷积神经网络为自然图像神经网络；

步骤A6.对步骤A4得到的Bi-Triplet神经网络模型定义损失函数，用于计算模型预测结果和真实标签的误差，Bi-Triplet模型损失的表达式如下：

检索阶段B

步骤B1：读取输入的草图图像；

步骤B5：输出与输入的草图特征距离最近的几幅图像。

2.根据权利要求1所述的一种基于深度学习和度量学习的草图检索方法，其特征在于，步骤A5中每个Triplet网络由三个神经网络构成具体为：