CN108595636A

CN108595636A - 基于深度跨模态相关性学习的手绘草图的图像检索方法

Info

Publication number: CN108595636A
Application number: CN201810378357.1A
Authority: CN
Inventors: 张玥杰; 黄飞; 王燕飞; 张涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-09-28

Abstract

本发明属于跨媒体相关性学习技术领域，具体为基于深度跨模态相关性学习的手绘草图的图像检索方法。本发明包括三个主要算法：深度多模态特征生成，多模态相关性学习建模，相似度排序优化。本发明利用深度学习技术来构造深度语义特征和深度视觉特征来分别描述多模态文档中的文本标注部分和图像/草图部分。基于这样的多模态文档表示，通过构建跨模态的相关性模型对整个多模态文档集合进行建模，从而对多模态文档的不同模态之间的关联进行描述。基于相关性建模后得到的相关性特征，对检索结果进行排序优化，返回与查询草图最大相似度的彩色图像和文本。

Description

基于深度跨模态相关性学习的手绘草图的图像检索方法

技术领域

本发明属于多媒体信息检索技术领域，具体涉及基于深度跨模态相关性学习的手绘草图检索方法。

背景技术

随着图像采集设备如手机、数码相机的普及以及互联网技术的发展，数字图像在过去几十年间呈爆炸增长趋势，一些图像分享网站，如Flickr，每日图像上传数量达到百万级。如何有效进行图像查找已经成为学术界和工业界的热点研究对象，许多图像检索系统也由此应运而生。早期的图像检索技术根据输入类型不同主要分为两类，第一种是基于文本的图像检索技术(Text-based Image Retrieval，TBIR)，第二种是基于内容的图像检索(Content-based Image Retrieval，CBIR)。

基于文本的图像检索技术是指根据用户输入的文本来实现检索，这种方式比较直观准确地反映了用户的真实需求。这些文本包括图像的属性，名称，拍摄地点，作者等。这种检索方式需要用户能精确地用文本表达出真实意图，同时数据库中的图像需要有相应的图像标注。而实际上不同个体对某种事物的主观理解不同，反映到文本表达也有所差别。另外依靠人工标注海量图像几乎是不可能的。一种更为有效的图像检索技术——基于内容的图像检索技术越来越受到大家的关注。基于内容的图像检索技术就是根据图像本身作为检索输入，检索出相似的图像。它往往利用图像本身的内容信息作为匹配特征，例如颜色、纹理、轮廓等。与基于文本的图像检索技术相比，基于内容的图像检索技术比较好地直接使用了图像本身包含的客观视觉特征。但是需要寻找与想要查询的图像相似的图像作为查询输入往往是非常困难的。对于大众来说，如果能用简单勾勒出的线条图像作为检索输入更为简单方便，这些需求促使了基于手绘草图的图像检索技术(Sketch-based Image Retrieval,SBIR)的发展。

基于草图的图像检索技术是根据用户手绘的线条图像作为查询输入，检索包含相似线条轮廓的彩色图像。但是草图只包含了物体粗略的轮廓信息，而彩色图像拥有更丰富准确的信息，例如颜色、纹理等，因此将草图中的线条图像与彩色图像进行匹配是非常困难的任务。尤其现有的互联网上的数据不是单模态的存在，尤其对于图像检索，目标图像往往伴有文本描述。这些信息往往容易被忽略的。若要构建有效的基于草图的图像检索系统，以下三个方面的问题需要同时被很好地解决：

1、草图、彩图和文本是三种不同模态的异构数据，如何从中抽取丰富的多模态特征，更好的表示这些模态的数据，为后续处理提供有用的信息。

2、基于草图的图像检索实质上是跨模态信息检索，需要消除不同模态数据间视觉和语义鸿沟，建立草图、彩图和文本的相关性。如何获得它们在统一空间下向量表示，能够直接进行匹配。

3、基于有效的特征表达，如何建立更加合理的相似度匹配方式，使得查询草图获得更为相关的检索结果。

为了解决第一个问题，最重要的就是充分挖掘草图和彩图的深度视觉信息和文本的深度语义信息，探索有效的特征表达，保留多模态数据的区分性信息，剔除冗余信息，更为准确和全面地描述草图、彩图和文本。

为了解决第二个问题，建立稳定的跨模态相关分析算法分析不同模态数据的关联性是非常重要的。将多模态数据投射到统一的空间中，在统一空间下进行关联建模，强化匹配样本之间的相似性，弱化不匹配样本的关联性。利用统一空间下学习到的新的特征作匹配。

为了解决第三个问题，优化传统的基于距离的匹配方式是很有意义的。通过深度挖掘检索结果中的相关性，重新优化距离函数，建立一个更加鲁棒的相似度匹配函数。

严格来说，基于草图的图像检索是基于内容的图像检索的一个分支。当前已有一些研究者对基于内容的图像检索提出不同的建模方法和匹配算法，从特征表示层面来看主要分为两个流派，一种是基于传统的特征表示方法，另一种是基于深度学习的特征表示方法。

虽然深度学习在基于内容的图像检索上取的了一些成功，但是它在草图检索上有诸多限制。主要的限制之一是在ImageNet等公开彩色图像数据集上训练的模型不能直接应用于草图上，并且缺少大量的可用于训练的草图样本。

通过以上分析可以看出，当前方法在草图检索上都取得一些进展，然而以上所有方法仍未充分考虑以下三个方面所带来的影响：

(1)充分利用多模态信息辅助检索——大多数现有的草图检索算法通常只关注草图的特征表示以及检索效率，并没有深入考虑考虑充分利用现有的多模态数据。然而现有互联网上的图像往往带有文本描述，这些多模态信息往往在检索时容易被忽略。一个有效的检索系统应该能充分利用现有的多模态数据，消除单一模态检索带来的鸿沟问题。

(2)充分挖掘跨模态相关性——基于草图的图像检索实质是跨模态信息检索，需要建立跨模态数据间的相关性。多数现有的草图检索技术只考虑草图的视觉信息。普遍的做法是使用Canny等边缘检测算法对彩色图像进行边缘检测后的类草图图像参与后续的步骤。这种做法带来的后果是使得这些类草图图像带有大量的噪声，极大的影响了检索效果。因此仅仅依靠视觉特征不能很好排除噪声和线条扭曲带来的影响，尤其草图匹配对噪声非常敏感。因此需要充分利用跨模型相关性学习方法直接对草图、彩色图像和文本标注建立相关性，学习得到更有区分性的相关性特征表示是非常重要的。

(3)深度挖掘检索结果，优化相似度度量函数——在抽取了图像的特征后，多数现有的草图检索技术通常直接将查询草图与数据库中的图像计算距离相似度进行匹配，然后按照相关性分数排序返回给用户。然而，大多数检索中，排序结果中往往伴有与查询不相关的图像，它们有时占据较高的排序位置，极大地影响了用户体验。简单的距离度量方式无法避免上面的问题。因此在原有的检索特征的基础上充分挖掘检索结果中的相关性信息，优化相似度度量方式，使得与查询草图相关的图像排序得到提升，反之，不相关的检索结果得到抑制。

因此，非常有必要借鉴当前已有的相关成熟技术，同时从各方面考虑以上问题，更加全面地分析草图检索各个环节的难点和技术缺陷。本发明就是由此激发，从局部到整体，设计一种新颖的技术框架(包括三个主要算法)涵盖，深度多模态特征的生成、跨模态相关性建模、相似度函数优化，从而建立有效的草图检索系统，最终为多媒体图像检索性能进行改进。

发明内容

本发明的目的在于提出一种基于深度跨模态相关性学习的草图检索方法，以提高基于草图的图像检索性能。

本文提出的基于深度跨模态相关性学习的手绘草图的图像检索方法包括：

步骤一、数据预处理：从多媒体数据集中采集多模态数据，得到图像数据库和图像的文本标注，整理图像文本标注数据集中不常出现或者无用的标注词，通过类草图生成算法得到彩色图像的边缘轮廓图像作为类草图构建训练集；

步骤二、提取多模态数据的深度特征：多模态数据包括文本标注、彩图和草图或/和类草图，利用深度学习的方法提取查询草图和类草图图像的深度视觉特征，彩色图像的深度视觉特征和图像文本描述的深度语义特征；

步骤三、融合多模态信息的跨模态相关性学习：基于步骤二中构建的草图、彩图和文本标注的深度特征，使用深度典型相关性分析算法构建跨模态相关性学习模型，深度挖掘草图、彩图和文本的关联信息；利用学习到的相关性模型抽取草图、彩图和文本的相关性特征；

步骤四、利用跨模态相关性建模后的草图、彩图和类草图的相关性特征，在训练集上做基于距离度量的检索，采样得到正样本和负样本优化检索相关性函数；选取检索结果排序较高的图像和对应文本作为查询样本的正样本，选取排序较低的样本作为负样本，迭代训练和优化相似度函数；

步骤五、基于深度跨模态相关性学习的草图检索：根据学习到的相关性模型抽取查询草图的相关性特征，与数据库中的提前抽取好的类草图、彩图和文本的相关性特征利用优化的相似度函数计算相似度得到查询排序列表。

进一步，所述步骤一包括：

步骤1.1、利用SE边缘检测算法检测出图像的粗略轮廓；

步骤1.2、给定由上面步骤检测出的边缘图像，利用一种非极大值抑制的方法保留重要的轮廓，抑制不明显的轮廓和噪声点。

进一步，所述步骤1.2包括：用P表示由SE边缘检测算法检测出来的粗略边缘图像，I表示原彩色图像；首先计算出边缘图像P每一个像素点的梯度得到梯度图像GP，设置(x,y)为梯度图像GP中最大梯度像素点，GP(x,y)表示(x,y) 处的梯度值，max(GP(:,:))表示当前最大的梯度值，然后执行下面的循环：

While max(GP(:,:))>th2；

While GP(x,y)>th1；

Step 1:找到以(x,y)为中心的(5╳5)邻域Ω内除(x,y)以外的最大梯度值的坐标集Φ；

Step 2:从坐标集Φ中选取离(x,y)最近的点(x’,y’)作为下一次循环的候选点，连接(x,y)和(x’,y’)，抑制梯度图像GP中坐标集Ω中的其它像素点；

Step 3:更新(x,y)＝(x’,y’)，进行下一轮循环；

End

设置(x,y)为GP中全局的最高梯度值的坐标点；

End

输出原彩色图像I的类草图图像GP。

进一步，利用基于权重融合的Skip-gram模型抽取文本的语义特征。

进一步，对于彩色图像，使用在ImageNet上预训练的AlexNet模型抽取每一张彩色图像的深度特征；

对于草图和类草图，构建草图和类草图重新训练AlexNet模型，使用重新训练的模型按照与彩图相同的方法抽取深度视觉特征；

对于文本，使用基于权值融合的深度Skip-gram模型抽取深度语义特征；包括：利用Skip-gram模型训练得到文本文档中出现的每一个词对应的特征向量；给定大规模语料库{tr1,tr2,…,tri,…,trT},tri表示标注词，W表示词典的标注词的数量.对于每一个标注词tri,Ii和Oi分别表示输入和输出向量；c表示训练样本上下文的窗口大小，通常取值为2；Skip-gram模型的目标函数为：

由于计算标准softmax函数代价很高，所以使用负采样技术近似估计 logP(tri+j|tri).

σ(*)表示sigmoid函数；m表示负样本的数量,每一个负样本都是从基于词频的噪音分布P(tw)所生成的；使用Flickr-100M数据集预训练Skip-gram模型用于提取标注特征。因此，每张图像的文本标注词都可以提取到固定维度的特征向量；给定D个标注词的词典和N张图片,每张图片I包含K个标注词汇(tr1,tr2,…,trK).每张图片I的深度语义特征DS(I)可以表示为:

SG(*)表示Skip-gram模型，输出是标注词的向量特征；当BL(Il,tri)设为 1时表示图像Il包含标注词tri,否则设为0.因此，每张图片的多个标注可以融合为统一长度的向量特征表示。

进一步，使用两个数据集分两步的训练模型；以通过步骤一得到的类草图视为草图训练样本，第一步训练利用类草图生产的方法提取ImageNet图像物体区域的边缘图像，得到1000个类别的类草图图像，以此作为训练样本重新训练 AlexNet模型；在第一步训练的基础上，以第一步训练的模型作为初始化在真实的草图训练集上微调，目的是使得模型更好地能表达真实手绘草图的信息。这里选取著名的TU-Berlin草图识别的数据集微调AlexNet模型。

进一步，步骤三使用深度典型相关性分析算法构建跨模态相关性学习模型，深度挖掘草图、彩图和文本的关联信息；包括：采用适用于三个模态数据相关性建模的MDCCA模型，分别学习草图，彩图和文本间的相关性；给定N个训练样本，每个样本分别包含三种模态数据，分别为草图、彩图和文本；采用表示草图或类草图的特征矩阵，每一列代表一张图像的特征；表示彩图的特征矩阵，每一列表示一张图像的特征；表示图像文本标注的特征矩阵，每一列表示一张图像的文本标注的特征；D_s,D_I和D_A分别是三种模态数据特征的纬度；总体的损失函数可以设置为优化三种模态数据的两两相关性：

L_M(S,I,A)＝L_D(S,I)+L_D(S,A)+L_D(A,I)

L_D(Y,Y)＝-corr(f_x(X,θ_x),f_y(Y,θ_y))

这里L_D(*,*)是DCCA传统的相关性损失函数，用于见面两种模态数据的相关性；θx和θy分别是子网络的参数；f_x(X,θ_x)表示子网络最后一层的输出； MDCCA目标是将多模态数据投射到一个公共子空间，在这个子空间中使得对应的模态特征相关性最大；假设H₁∈R^O*N和H₂∈R^O*N分别表示在公共子空间下的两种模态的特征；O和N分别是特征维度和训练样本数量,首先进行如下的变换:

其中λ₁I和λ₂I是两个规则项，用以确保和为正；给定矩阵最优的目标函数就是最大化矩阵T的前k奇异值的总和；当k＝O,总相关值实际上是T矩阵轨迹范数：

corr(H₁,H₂)＝tr(T′T)^1/2

因此，利用基于梯度的优化方法实现模型训练；要优化子网络的参数，首先需要计算corr(H₁,H₂)相对于子网络的梯度；令T＝UDV′为矩阵T的奇异值分解；梯度可以计算为：

可以用同样的方法计算，使用类草图作为训练样本。

进一步，步骤四基于步骤三的跨模态相关性建模MDCCA中抽取多模态相关性特征；对于数据库中的待查询样本，p_s∈R^O表示类草图的相关性特征, p_I∈R^O表示彩图的相关性特征，p_A∈R^O表示文本标注的相关性特征；对于查询草图,s∈R^O表示相关性特征，与类草图共享相同的MDCCA子网络；使用一种基于相似度优化的查询匹配算法，给定一个三元组包含草图q和两个带标注的彩色图像，包括一个正样本和一个负样本其中正样本是跟草图相关的目标图像，负样本是与草图不相关的图像；将草图规整到相同的维度q＝[s,s,s]∈R^3O，查询草图q和数据库图像p的相似度可以定义为：

S_W(q,p)＝q^TWp

其中W∈R^3O×3O是需要优化的相似度矩阵；目标是通过优化相似度矩阵使得草图与正样本之间的相似度大于与负样本之间的相似度；因此给定一个三元组的目标函数可以定义为：

其中m用来控制两种样本相似度的边界；使用类草图代替草图作为训练集；训练集上的总体损失函数的值是所有三元组的损失值的总和；对于训练集上的每一个样本，以类草图作为查询用相关性特征进行图像检索得到检索排序列表,选取前10的样本作为该查询类草图的正样本，随机选取排序50％-100％的样本作为负样本；按照以上方法从训练集中选取训练样本，使用Passive Aggressive algorithm最小化总体的损失函数；充分训练后，查询时可以直接用公式(3)计算查询草图和所有数据库样本计算相似度，排序后得到查询列表。

本发明的优点包括：提出一种基于深度跨模态学习的相关性学习的建模方法，融合了草图、彩图和文本的的多模态信息，使特征表达更有区分性。继而使用了一种新颖的匹配优化算法，挖掘检索结果的相关性，提升检索结果质量。本发明方法可以有效运用于针对大规模图像的草图检索系统中，提高检索相关性，增强用户体验。

附图说明

图1是本发明的流程图。

图2是构建深度跨模态相关性学习模型的示意图

图3是本发明的应用效果图

具体实施方式

本发明首先提出一个新颖的基于草图的图像检索技术模型，该模型深度发掘检索中多模态数据的深度视觉和语义特征，对查询草图和检索图像和文本进行跨模态相关性建模，得到统一空间下的深度特征表示，然后利用训练集的检索结果中的采样得到正负样本对相似度函数进行优化，得到更有区分性对相似度函数。利用所构建模型，能够有效促进提高草图检索的准确率，提升用户体验。该模型主要包括以下几个部分：

(1)深度多模态特征的生成(Deep Multimodal Feature Generation)。由于基于草图地图像检索涉及到草图、彩图和文本的跨模态匹配，首先需要将原来数据转换成特征向量。为了更好地提取各个模态数据的区分性信息，利用深度学习的方法提取查询草图和类草图图像的深度视觉特征，彩色图像的深度视觉特征和图像文本描述的深度语义特征

(2)跨模态相关性建模(Cross-modal Correlation Learning)。原来的多模态数据特征本身并没有关联性，不能直接进行匹配。因此需要将它们投射到统一空间下进行相关性学习。使用深度典型相关性分析算法构建跨模态相关性学习模型，深度挖掘草图、彩图和文本的关联信息。利用学习到的相关性模型抽取草图、彩图和文本的相关性特征。与传统的单纯考虑草图视觉特征相比，这种融合了语义信息和视觉信息的深度特征，能够更深层次地挖掘抽象的草图的区分性信息。

(3)相似度函数优化(Similarity Search Optimization)。传统的基于距离相似度的匹配方法往往并不能得到让用户满意的检索结果，实际检索结果中往往混杂有很多不相关的图像。利用在训练集上的检索结果对相似度函数进行重定义和优化提高检索匹配方式，得到一个让用户满意的检索结果。

较之于当前已有的草图检索技术而言，本发明所提出的方法在应用中存在着两大优势，即准确率高、适应性强。其准确性体现在利用深度跨模态相关学习能代替传统的视觉匹配，能更深层次挖掘草图的多层次信息，能够更好地消除用户手绘草图的模糊性，检索准确率远远高于当今的传统的视觉特征。利用一种新颖的相似性度量方式能够很好的抑制检索结果中的不相关图像，返回给用户较为一致的相关图像。适应性强体现在本文提出的特征提取方法和匹配机制，比当前的现有相关方法能够更好的适用于大规模和小规模草图数据，并且本发明并不受限于草图检索，也适用于一般的基于内容的彩色图像检索。

本发明提供的基于深度学习的草图检索方法，具体步骤如下：

步骤一、类草图图像的生成：从多媒体数据集中采集彩色图像，为了扩充草图训练样本，同时增加了待查询样本的模态多样性，采用一种两步转换的方法将彩色图像转换为类草图图像。具体来说，第一步利用SE(Structured Edge Detector)算法检测出彩色图像的粗略轮廓。SE边缘检测算法假设自然界中的图像的局部边缘结构是可预测的，即可通过大量图片统计出来。利用改进的随机森林分类器训练出彩色图像局部区域与对应的边缘结构的分类器模型。然后使用该分类器模型分别预测彩色图像中每一个图像局部区域的边缘结构图。最终，集合图像每一图像局部区域的边缘图得到彩色图像整体的边缘图，该边缘图保留了图像的主要轮廓信息，但是包含很多噪声点和对检索无益的非重要线条。相较于传统的Canny边缘检测，SE能更准确且快速检测出物体的边缘轮廓。基于检测出来的粗略轮廓图像，第二步，利用提出的一种简单高效的非极大值抑制算法筛选出重要是边缘轮廓，同时剔除非重要轮廓边缘和抑制噪声点。于是每一张彩色图片可生成一张对应的类草图图像，参与后续模型训练和相似度计算。

步骤二、深度多模态特征的生成：对于多模态数据-文本，草图/类草图和彩图,利用深度学习技术构建有区分性的深度特征表达，它同时融合了图像的底层视觉特征和高层的语义特征。具体来说，深度多模态特征包含深度语义特征(文本)和深度视觉特征(草图/类草图和草图)。为了更好地提取各个模态数据的区分性信息，利用在大规模彩图数据集上预训练的AlexNet模型的FC7层抽取彩色图片的深度视觉特征(4096维)。将上述的预训练的AlexNet模型在大规模的类草图(首先从ImageNet图像集中抽取bounding box区域，然后使用本专利中的类草图生成算法产生类草图数据)和草图数据(TU-Berlin数据集)上重新做训练和微调，利用重新训练好的AlexNet模型的FC7层抽取草图和类草图的深度视觉特征(4096维)。针对每张图片的文本描述(包含多个标注或词组)，利用基于权重融合的Skip-gram模型抽取文本中的每一个标注或词组语义特征，然后利用提出的一种基于权值融合的多标注特征表示方法融合所有标注或词组的语义特征得到深度语义特征。

步骤三、跨模态相关性建模：基于多模态数据的深度视觉特征和深度语义特征，使用深度典型相关性模型对多模态数据集进行相关性挖掘。利用神经网络将多模态数据投射到统一空间下，建立两两模态间的相关性函数。因此为了适用于草图、彩图和文本，在原来的两种模态输入模型基础上扩充为三模态输入，同时优化了两两模态间的相关性。本专利在传统的DCCA算法的基础上进行改进，使其适用多模态草图检索的场景。通常使用PCA将原来的三种不同的维度特征降维到同样的维度，作为后续相关性建模的输入。不同于传统DCCA模型，我们的MDCCA模型由三个子网络的组成，分别对应输入的三种模态数据的特征。每个子网络由若干层串联组成，每一层利用上一层的输出作为输入计算当前层的输出这里和分别表示权值矩阵和偏置矩阵。在最后一层输出的基础上建立相关性函数。我们的学习目标是优化训练网络最大化草图、彩图和文本的对应相关性，即同一样本的草图、彩图和文本之间的相似度最高。具体来说，基于草图/类草图、彩图和文本的深度特征，通过浅层的神经网络非线性转换将其映射到统一空间下，产生新的特征表示。在统一空间下，我们的学习目标是优化训练网络最大化草图、彩图和文本的对应相关性，即同一样本的草图、彩图和文本之间的相似度最高。因此总体的损失函数可以设置为优化三种模态数据的两两相关性。然而，进行充分的训练需要大规模的手绘草图，手工收集这些训练样本是不现实的，因此我们使用类草图代替真实的手绘草图作为训练样本。

步骤三使用深度典型相关性分析算法构建跨模态相关性学习模型，深度挖掘草图、彩图和文本的关联信息；包括：采用适用于三个模态数据相关性建模的MDCCA模型，分别学习草图，彩图和文本间的相关性；给定N个训练样本，每个样本分别包含三种模态数据，分别为草图、彩图和文本；采用表示草图或类草图的特征矩阵，每一列代表一张图像的特征；表示彩图的特征矩阵，每一列表示一张图像的特征；表示图像文本标注的特征矩阵，每一列表示一张图像的文本标注的特征；D_s,D_I和D_A分别是三种模态数据特征的纬度。因此总体的损失函数可以设置为优化三种模态数据的两两相关性：

L_M(S,I,A)＝L_D(S,I)+L_D(S,A)+L_D(A,I)

L_D(X,Y)＝-corr(f_x(X,θ_x),f_y(Y,θ_y)) (4)

这里L_D(*,*)是DCCA传统的相关性损失函数，用于见面两种模态数据的相关性。θ_x和θ_y分别是子网络的参数。f_x(X,θ_x)表示子网络最后一层的输出。 MDCCA目标是将多模态数据投射到一个公共子空间，在这个子空间中使得对应的模态特征相关性最大。假设H₁∈R^O*N和H₂∈R^O*N分别表示在公共子空间下的两种模态的特征。O和N分别是特征维度和训练样本数量,首先进行如下的变换:

其中λ₁I和λ₂I是两个规则项，用以确保和为正。给定矩阵最优的目标函数就是最大化矩阵T的前k奇异值的总和。当k＝O,总相关值实际上是T矩阵轨迹范数：

corr(H₁,H₂)＝tr(T′T)^1/2 (6)

因此，利用基于梯度的优化方法实现模型训练。要优化子网络的参数，

首先需要计算corr(H₁,H₂)相对于子网络的梯度。令T＝UDV′为矩阵T的奇异值分解。梯度可以计算为：

可以用同样的方法计算。然而，进行充分的训练需要大规模的手绘草图，手工收集这些训练样本是不现实的，因此我们使用类草图作为训练样本。

步骤四、相似度函数优化：步骤四基于步骤三的跨模态相关性建模MDCCA中抽取多模态相关性特征。对于数据库中的待查询样本，p_S∈R^O表示类草图的相关性特征,p_I∈R^O表示彩图的相关性特征，p_A∈R^O表示文本标注的相关性特征。对于查询草图,s∈R^O表示相关性特征，与类草图共享相同的MDCCA子网络。这里使用一种基于相似度优化的查询匹配算法。给定一个三元组包含草图q和两个带标注的彩色图像(一个是正样本和一个负样本),其中正样本是跟草图相关的目标图像，负样本是与草图不相关的图像。为了能直接进行匹配，同样将草图规整到相同的维度 q＝[s,s,s]∈R^3O。查询草图q和数据库图像p的相似度可以定义为：

S_W(q,p)＝q^TWp (9)

其中W∈R^3O×3O是需要优化的相似度矩阵。目标是通过优化相似度矩阵使得草图与正样本之间的相似度大于与负样本之间的相似度。因此给定一个三元组的目标函数可以定义为：

其中m用来控制两种样本相似度的边界。这里同样使用类草图代替草图作为训练集。训练集上的总体损失函数的值是所有三元组的损失值的总和。正负样本的选取使用了一种基于检索的方法。对于训练集上的每一个样本，以类草图作为查询用相关性特征进行图像检索得到检索排序列表,选取前10的样本作为该查询类草图的正样本，随机选取排序50％-100％的样本作为负样本。按照以上方法从训练集中选取训练样本，使用PassiveAggressive algorithm最小化总体的损失函数。充分训练后，查询时可以直接用公式(3)计算查询草图和所有数据库样本计算相似度，排序后得到查询列表重新定义基于学习的相似度函数。通过深度挖掘训练集上的检索结果，重新采样正负样本三元组，利用采样的三元组数据优化相似度函数得到更为鲁棒的相似度度量。具体来说，通过跨模态相关性学习，训练集中的每一张图像得到对应的文本、彩图和类草图的三种模态特征，基于这三种特征在训练集上进行基于检索的正负样本的采样，得到三元组数据，利用三元组数据优化重新定义的双线性的相似度函数，利用优化后的相似度函数进行查询相似度匹配。

下面结合附图，详细介绍本发明的具体实现细节。

(一)图像的采集与预处理

采集多媒体数据集的彩色图片作为图像数据库，所有的图像都统一为 JPG格式。然后将每一张图片大小规整为256*256。由于本发明只考虑每张图片有多个标注信息。对于图像的文本标注而言，得到的图像标注含有很多的无意义单词，如单词加数字没有任何含义的单词。有些图像标注多至几十个，为了让图像标注很好地描述图像的主要信息，应舍弃那些无用的、无意义的标注。因此，所采取的处理方法步骤如下：

步骤1：统计数据集标注中所有单词在数据集中出现的频率；

步骤2：过滤掉那些单词中带有数字的无意义单词；

步骤3：对于每个图像标注中在整个数据集中出现频率较少的单词，将其认为是图像中比较次要的信息，并予以删除。

通过上述步骤，便可得到处理后的图像标注。对于步骤3中去除频率较少的单词，其理由在于图像聚类里同一类图像的标注还是存在很多相同、意义相近的单词。因此按照出现频率来对其进行过滤完全合理。

(二)类草图图像的生成

图2展示利用两步前文提到的两步变换的方法转换彩色图像到类草图的过程。本发明中首先使用SE边缘检测算法检测出原彩色图像粗略的轮廓边缘。本发明中以步长为2选取32*32大小的图像区域作为随机森林的输入，用于预测其中间的16*16大小的区域的边缘结构。因此在实现中每个像素点被多次预测，取平均值作为该像素点的边缘响应值。同时，每一张图像在输入前先转换到13个特征空间(3个颜色空间，2个梯度空间和8个方向空间)。训练随机森林时，先将结构标签转换成离散标签，采用前文提到的两步映射。在第一步映射中，对于每一个图像区域随机选取256对坐标j₁≠j₂，编码它们的像素值是否相等[y(j₁)＝y(j₂)]，形成一个256维的二值的特征表示。显然这样的计算代价是巨大的，所以然后先用主成分分析算法将每个兴趣点的特征表示降至较低的维度。第二步转换中，使用k-means算法将兴趣点特征值聚类成固定的类别，分别编码为离散标签。用于预测的随机森林中一般选取1到4个决策树分别预测，每个决策树的参数学习和预测是相互独立的。最后以取平均值的方式集合不同决策树的输出。

基于上面方法得到的粗略的边缘图像，利用一种非极大值抑制的算法筛选出重要的轮廓，抑制不重要的边缘和冗余的噪声点。具体实现在上面部分已详细介绍，其中涉及到两个循环和两个阈值的选取。第一个循环条件 max(GP(:,:))>th2定义了重要的边缘的选取标准，参数th2限制了被保留线条的数量。第二个循环条件GP(x,y)>th1定义了线条的结束条件，参数th1决定了线条的长度。

(三)深度跨模态相关性学习

图2展示深度跨模态模型的示意图，具体算法过程在前面部分已经详细介绍，它主要分为三个模块：深度多模态特征生成、跨模态相关性建模和相似度函数优化。

其中，深度多模态特征生成主要利用了AlexNet模型和Skip-gram模型。提取彩图的深度视觉特征直接使用在ImageNet上训练好的模型，抽取fc7层4096 维特征作为图像特征。对于草图和类草图，使用重新训练的AlexNet模型抽取 fc7层4096维特征。重新训练AlexNet模型，首先选取ImageNet上物体区域作为训练图片构成1000个类别的图像集，然后提取它们的边缘图像构成类草图训练AlexNet模型，整个训练过程用Ubuntu 14.04下的Caffe工具包进行。然后利用TU-Berlin数据集做进一步微调。为了进行更好地训练，本发明采用了一种增加训练样本的方法，对每一张TU-Berlin数据集草图进行一些变换组合(镜像变换、膨胀、旋转、透视变换、剪裁和平移)产生30张类草图，于是产生 20000*30＝600000张250个类别的草图训练集，因此将AlexNet模型最后一层输出改为250维，对应于草图的类别。将对于文本标注，直接使用Flickr-100M中的标注集重新训练Skip-gram模型，使其更适用于标注文本的特征表示。这里特征维度设置为300，训练时窗口设置为2。在进行后一步处理前，利用PCA将深度视觉特征都降维到300维。

对于跨模态相关性的学习，本发明对于MDCCA模型每一种模态的子网络输入层后分别使用2个全联接层，每个全联接层包含800个神经元，输出层固定为100个神经元。因此相关性特征的维度为100维。由于缺少草图训练样本，本发明使用彩图对应的类草图作为替代构建草图训练集，对于特定的检索数据库，分别抽取彩图、类草图和文本标注的深度特征，使用MDCCA学习三种模态的相关，使用L-BFGS算法优化整个网络。检索时，类草图同时作为数据库图像的模态扩充，参与相似度计算。离线抽取数据库中彩图、类草图和文本标注的相关性特征[p_I,p_S,p_A]，在线抽取查询草图的相关性特征s，为了匹配维度一致，将查询草图特征扩充为[s,s,s]。

对于相似度优化，本发明采用基于检索的方法重新采样训练样本构造三元组训练集优化相似度函数。具体地，分别抽取每个样本的类草图、彩图和文本标注的相关性特征，以每个样本的类草图的相关性特征作为作为查询去检索剩余的样本，将类草图特征分别去计算彩图和文本的余弦相似度，然后将两种相似度相加得到整个样本的相似度。选取排序前十的样本作为查询类草图的相关样本，随机选取排序50％后的样本作为负样本。于是对于每一张类草图可构造十个三元组作为训练样本优化双线性相似度函数。在训练前，需要先相关性特征进行归一化处理。

由于一张图片包含多个文本标注词，因此这里提出了一种基于权值融合的多标注特征表示方法。我们的深度语义特征应该更关注相关图像间的关联性概念，如物体标注，同时剔除对检索无益的公共概念，如颜色标注.给定D个标注词的词典和N张图片,每张图片I包含K个标注词汇(tr₁,tr₂,…,tr_K).每张图片 I的深度语义特征DS(I)可以表示为:

SG(*)表示Skip-gram模型，输出是标注词的向量特征；当BL(I_l,tr_i)设为1 时表示图像I_l包含标注词tr_i,否则设为0.因此，每张图片的多个标注可以融合为统一长度的向量特征表示。

图3为利用本发明所讲述的方法实现的草图检索的效果图，最左列为用户手绘草图，中间一列为检索的排序前10的结果。分析可得，初次检索结果中往往有一些不相关的图像排序在较前的位置，重排序后，这些不相关的图像被抑制，检索结果得到提升。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度跨模态相关性学习的手绘草图的图像检索方法，其特征在于，包括：

2.根据权利要求1所述的图像检索方法，其特征在于：所述步骤一包括：

步骤1.1、利用SE边缘检测算法检测出图像的粗略轮廓；

3.根据权利要求2所述的图像检索方法，其特征在于：所述步骤1.2包括：用P表示由SE边缘检测算法检测出来的粗略边缘图像，I表示原彩色图像；首先计算出边缘图像P每一个像素点的梯度得到梯度图像GP，设置(x,y)为梯度图像GP中最大梯度像素点，GP(x,y)表示(x,y)处的梯度值，max(GP(:,:))表示当前最大的梯度值，然后执行下面的循环：

While max(GP(:,:))>th2；

While GP(x,y)>th1；

Step 3:更新(x,y)＝(x’,y’)，进行下一轮循环；

End

设置(x,y)为GP中全局的最高梯度值的坐标点；

End

输出原彩色图像I的类草图图像GP。

4.根据权利要求1所述的图像检索方法，其特征在于：所述步骤二使用CNN模型抽取图像视觉特征，利用基于权重融合的Skip-gram模型抽取文本的语义特征。

5.根据权利要求4所述的图像检索方法，其特征在于：

对于彩色图像，使用在ImageNet上预训练的AlexNet模型抽取每一张彩色图像的深度特征；

对于文本，使用基于权值融合的深度Skip-gram模型抽取深度语义特征，包括：利用Skip-gram模型训练得到文本文档中出现的每一个词对应的特征向量；给定大规模语料库{tr₁,tr₂,…,tr_i,…,tr_T},tr_i表示标注词，W表示词典的标注词的数量.对于每一个标注词tr_i,I_i和O_i分别表示输入和输出向量；c表示训练样本上下文的窗口大小，通常取值为2；Skip-gram模型的目标函数为：

使用负采样技术近似估计logP(tr_i+j|tr_i)，

σ(*)表示sigmoid函数；m表示负样本的数量,每一个负样本都是从基于词频的噪音分布P(tw)所生成的；使用Flickr-100M数据集预训练Skip-gram模型用于提取标注特征。因，此，每张图像的文本标注词都可以提取到固定维度的特征向量；给定D个标注词的词典和N张图片,每张图片I包含K个标注词汇(tr₁,tr₂,…,tr_K).每张图片I的深度语义特征DS(I)可以表示为:

SG(*)表示Skip-gram模型，输出是标注词的向量特征；当BL(I_l,tr_i)设为1时表示图像I_l包含标注词tr_i,否则设为0.因此，每张图片的多个标注可以融合为统一长度的向量特征表示。

6.根据权利要求1所述的图像检索方法，其特征在于：使用两个数据集分两步的训练模型；以通过步骤一得到的类草图视为草图训练样本，第一步训练利用类草图生产的方法提取ImageNet图像物体区域的边缘图像，得到1000个类别的类草图图像，以此作为训练样本重新训练AlexNet模型；在第一步训练的基础上，以第一步训练的模型作为初始化在真实的草图训练集上微调，目的是使得模型更好地能表达真实手绘草图的信息。这里选取著名的TU-Berlin草图识别的数据集微调AlexNet模型。

7.根据权利要求1所述的图像检索方法，其特征在于：步骤三使用深度典型相关性分析算法构建跨模态相关性学习模型，深度挖掘草图、彩图和文本的关联信息；包括：采用适用于三个模态数据相关性建模的MDCCA模型，分别学习草图，彩图和文本间的相关性；给定N个训练样本，每个样本分别包含三种模态数据，分别为草图、彩图和文本；采用表示草图或类草图的特征矩阵，每一列代表一张图像的特征；表示彩图的特征矩阵，每一列表示一张图像的特征；表示图像文本标注的特征矩阵，每一列表示一张图像的文本标注的特征；D_s,D_I和D_A分别是三种模态数据特征的纬度；总体的损失函数可以设置为优化三种模态数据的两两相关性：

L_M(S,I,A)＝L_D(S,I)+L_D(S,A)+L_D(A,I)

L_D(X,Y)＝-corr(f_x(X,θ_x),f_y(Y,θ_y))

这里L_D(*,*)是DCCA传统的相关性损失函数，用于见面两种模态数据的相关性；θ_x和θ_y分别是子网络的参数；f_x(X,θ_x)表示子网络最后一层的输出；MDCCA目标是将多模态数据投射到一个公共子空间，在这个子空间中使得对应的模态特征相关性最大；假设H₁∈R^O*N和H₂∈R^O*N分别表示在公共子空间下的两种模态的特征；O和N分别是特征维度和训练样本数量，首先进行如下的变换：

其中λ₁I和λ₂I是两个规则项，用以确保和为正；给定矩阵最优的目标函数就是最大化矩阵T的前k奇异值的总和；当k＝O，总相关值实际上是T矩阵轨迹范数：

corr(H₁，H₂)＝tr(T′T)^1/2

因此，利用基于梯度的优化方法实现模型训练；要优化子网络的参数，首先需要计算corr(H₁，H₂)相对于子网络的梯度；令T＝UDV′为矩阵T的奇异值分解；梯度可以计算为：

可以用同样的方法计算，使用类草图作为训练样本。

8.根据权利要求1所述的图像检索方法，其特征在于：步骤四基于步骤三的跨模态相关性建模MDCCA中抽取多模态相关性特征；对于数据库中的待查询样本，p_S∈R^O表示类草图的相关性特征，p_I∈R^O表示彩图的相关性特征，p_A∈R^O表示文本标注的相关性特征；对于查询草图，s∈R^O表示相关性特征，与类草图共享相同的MDCCA子网络；使用一种基于相似度优化的查询匹配算法，给定一个三元组包含草图q和两个带标注的彩色图像，包括一个正样本和一个负样本其中正样本是跟草图相关的目标图像，负样本是与草图不相关的图像；将草图规整到相同的维度q＝[s，s，s]∈R^3O，查询草图q和数据库图像p的相似度可以定义为：

S_w(q，p)＝q^TWp

其中m用来控制两种样本相似度的边界；使用类草图代替草图作为训练集；训练集上的总体损失函数的值是所有三元组的损失值的总和；对于训练集上的每一个样本，以类草图作为查询用相关性特征进行图像检索得到检索排序列表，选取前10的样本作为该查询类草图的正样本，随机选取排序50％-100％的样本作为负样本；按照以上方法从训练集中选取训练样本，使用Passive Aggressive algorithm最小化总体的损失函数；充分训练后，查询时可以直接用公式(3)计算查询草图和所有数据库样本计算相似度，排序后得到查询列表。