CN109271546A

CN109271546A - 图像检索特征提取模型建立、数据库建立及检索方法

Info

Publication number: CN109271546A
Application number: CN201810824758.5A
Authority: CN
Inventors: 管子玉; 王娟; 雷燕; 王小鹏; 刘杰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2019-01-25

Abstract

本发明公开了一种图像检索特征提取模型建立、检索数据库建立及检索方法，该方法将深度网络最后一层输出的图像特征看作是一个嵌入空间，利用自定义的目标函数通过弱标注标签的语义关系学习图像之间的相似性关系，最后利用网络模型提取的高层语义特征表示图像并进行检索。这样的训练方式避免了直接使用语义比较模糊的弱标注标签作为数据的标签来训练模型，而是从深度网络最后一层映射的特征嵌入空间中利用图片标签之间的语义相似关系来学习数据中蕴藏的图像间的语义信息。

Description

图像检索特征提取模型建立、数据库建立及检索方法

技术领域

本发明涉及图像检索领域，具体涉及一种图像检索特征提取模型建立、数据库建立及检索方法。

背景技术

图像检索作为该领域的重要问题，受到了研究人员和学者的广泛关注。当前图像检索问题中所使用到的深度模型多采用监督学习方法来训练模型，由于深度模型复杂度高、参数规模庞大，因而需要大量且质量较好的人工标注数据来训练模型。但是，上述有监督学习存在如下两个缺陷：1)由于人工标注需要耗费大量的人工和时间成本，因此对多数具体问题缺乏大规模标注数据。2)人工标注产生的强标签集存在无法描述细粒度的语义信息的先天劣势。

目前随着移动互联和社交自媒体平台的普及，多数互联网用户会在网上分享他们的图像并添加自定义标签，从而形成了大量带标签的图像数据。这些用户产生的标注信息通常包含细粒度的图像视觉内容信息，可用于提取更具区分度的细粒度视觉语义。不同于监督学习中人工标注产生的强标签，这些由用户产生的社会化标签是一种弱标签，带有这种弱标签的数据称为弱标注数据。这种数据的标注过程不受约束，致使标签集存在噪声、模糊性语义及语义缺失等情况，从而无法直接使用监督学习方法来训练模型。

发明内容

本发明的目的在于提供一种图像检索特征提取模型建立、数据库建立及检索方法，用以解决现有技术中的带有弱标签的图像无法直接使用监督学习方法进行检索的问题。

为了实现上述任务，本发明采用以下技术方案：

一种图像检索特征提取模型建立方法，用于对带有弱标签的图像建立特征提取模型，所述的方法包括：

步骤1、采集多幅带有弱标签的图像，获得图像集，收集图像集中的每幅图像对应的多个弱标签，获得每幅图像的弱标签集；

步骤2、删除每幅图像的弱标签集中视觉代表性低于阈值的弱标签，获得每幅图像预处理后的弱标签集；

步骤3、将每幅图像预处理后的弱标签集中每个弱标签映射成多维的词向量后，采用式I获得两两图像之间的相似度：

其中，s(i,j)为图像集中第i幅图像与图像集中第j幅图像之间的相似度，0≤s(i,j)≤1，sim( )为余弦相似度，0≤sim( )≤1，v_ik为第i幅图像的弱标签集中的第k个弱标签的多维的词向量，v_jl为第j幅图像的弱标签集中的第l个弱标签的多维的词向量，m为第i幅图像的预处理后的弱标签集中弱标签的总数，m≥1，n为第j幅图像的预处理后的弱标签集中弱标签的总数，n≥1；

步骤4、根据所述两两图像之间相似度的大小确定两幅图像之间是否相似，获得每幅图像的相似图像以及不相似图像；

步骤5、将由步骤4处理后的图像集划分成多个三元图像组，其中一个三元图像组包括图像A、图像A的相似图像C以及图像A的不相似图像B；

步骤6、将所述的多个三元图像组作为输入，采用反向传播算法训练深度神经网络模型，获得训练后的深度神经网络模型；

步骤7、在所述训练后的深度神经网络模型中最后一层全连接层后加入哈希化映射层，获得特征提取模型。

进一步地，所述的步骤4、根据所述图像集中两两图像之间相似度的大小确定两幅图像之间是否相似时，若两两图像之间相似度在相似阈值以上，则两幅图像相似，若两两图像之间相似度在不相似阈值以下，则两幅图像不相似，若两幅图像相似度大于不相似阈值且小于相似阈值，则这两幅图像无关联；收集每幅图像的相似图像以及不相似图像。

进一步地，所述的步骤6中深度神经网络模型包括多层卷积层、多层池化层、四层全连接层以及一层sigmoid激活函数全连接层。

进一步地，所述的深度神经网络模型中目标函数L_weak为：

L_weak＝∑max(0,λ-(dist(V_A,V_B)-dist(V_A,V_C))) 式II

其中，V_A为三元图像组中图像A输入至所述的深度神经网络模型后的输出向量，V_B为三元图像组中图像B输入至所述的深度神经网络模型后的输出向量，dist(V_A,V_B)为图像A输入至所述的深度神经网络模型后的输出向量与图像B输入至所述的深度神经网络模型后的输出向量之间的欧氏距离，dist(V_A,V_B)≥0，V_C为三元图像组中图像C输入至所述的深度神经网络模型后的输出向量，dist(V_A,V_C)为图像A输入至所述的深度神经网络模型后的输出向量与图像C输入至所述的深度神经网络模型后的输出向量之间的欧氏距离，dist(V_A,V_C)≥0，λ为图像空间向量的距离差，λ≥0。

一种图像检索特征数据库建立方法，所述的图像检索特征数据库包括多幅图像的特征向量，采用所述的特征提取模型对所述的多幅图像进行特征提取，获得所述多幅图像的特征向量。

一种图像检索方法，包括以下步骤：

采用以上所述的特征提取模型对待检索图像提取特征向量，获得待检索图像的特征向量；

计算待检索图像的特征向量与所述的数据库中所有图像的特征向量之间的海明距离，其中最小海明距离对应的图像为待检索图像的检索结果。

本发明与现有技术相比具有以下技术特点:

1、本发明提供的方法使用弱标签图像数据来训练深度网络模型，避免了浩大的人工标注数据工程，弱标签数据拥有更丰富的语义信息，可以更好地表征图像之间的相似性关系。

2、由于弱标注数据中存在噪声、语义模糊、一词多义等特点不能直接判断图片之间的相似关系，本发明提供的方法可以利用其中有用的标签语义信息并削弱噪声、一词多义、近义词以及语义模糊的影响来判断图片之间的相似关系。

4、由于弱标注标签的特点导致在训练网络时不能利用有监督的目标函数来优化网络参数，本发明提供的方法中利用了抗噪声的弱监督训练准则，可有效捕获图像弱标签之间的相似性视觉语义关系，使得具有相似视觉语义的图像靠近，不相似语义的图像互相远离。

附图说明

图1为本发明的一个实施例提供的带有弱标签的图像；

图2为本发明的一个实施例提供的又一带有弱标签的图像；

图3为本发明的一个实施例提供的待提取特征的图像；

图4为本发明的一个实施例提供的又一待提取特征的图像；

图5为本发明的一个实施例提供的待检索图像；

图6为本发明的一个实施例提供的如图5所示的待检索图像的检索结果图。

具体实施方式

图像的弱标签是指由用户产生的社会化标签，用户往往只是给出少部分的标签，而不是完整的标签列表，此外一幅图像的标签也不一定和图像有关，例如一幅标注有“car”的图像，只是表示该幅图像是在车内拍摄的，图像中并没有“car”的对象，因此弱标签往往是不准确，不完整，并且具有个性化强、噪声大和遗漏标签的特点；通常采用视觉代表性对弱标签是否为噪声或者是否准确进行评价，视觉代表性可以由弱标签的分散距离和内聚距离的距离策略获得。

以下是发明人提供的具体实施例，以对本发明的技术方案作进一步解释说明。

实施例一

步骤1、采集多幅带有弱标签的图像，获得图像集，采集图像集中的每幅图像对应的多个弱标签，获得每幅图像的弱标签集；

在本实施例中，如图1所示的带有弱标签的图像，其弱标签集合为{Show,Rescue,Truck,Fire,Museum,Dodge}，如图2所示的带有弱标签的图像，其弱标签集合为{People,House,Japan,Portrait,Youth,Okinawa}。

在本步骤中，由于弱标记标签存在与图片视觉内容非相关性的噪声，在使用这些弱标注标签之前利用《Quantifying tagrepresentativeness of visual content ofsocial images》提出的分散距离和内聚距离两个距离策略过滤掉这些噪声，内聚距离和分散距离来判别一个标签是不是具有视觉代表性，其中内聚距离是用来衡量被同一个标签标记的图像集之间的视觉内容的相似性如何，如果标签对应的图像集之间的内聚距离大于任意一组图像集的内聚距离，则说明标签是噪声，应该被删除。否则，接着判断分散距离，分散距离用来衡量这些具有视觉内容相似的图像子集与整个图像集的差别如何，如果标签对应的图像集之间的分散距离小于任意一组图像集的分散距离，则说明标签是噪声，应该被删除，否则保留标记。

在本实施例中，对如图1所示的带有弱标签的图像的弱标签集采用步骤2的方法进行预处理后，获得图1所示的图像预处理后的标签集为{Truck,Fire,Museum}，对如图2所示的带有弱标签的图像的弱标签集采用步骤2的方法进行预处理后，获得图2所示的图像预处理后的标签集为{People,Youth,Okinawa}。

其中，s(i,j)为图像集中第i幅图像与图像集中第j幅图像之间的相似度，0≤s(i,j)≤1，sim()为余弦相似度，0≤sim()≤1，v_ik为第i幅图像的弱标签集中的第k个弱标签的多维的词向量，v_jl为第j幅图像的弱标签集中的第l个弱标签的多维的词向量，m为第i幅图像的预处理后的弱标签集中弱标签的总数，m≥1，n为第j幅图像的预处理后的弱标签集中弱标签的总数，n≥1；

作为一种优选的实施方式，将每幅图像预处理后的弱标签集中每个弱标签映射成多维的词向量时，采用word2vec软件将每幅图像预处理后的弱标签集中每个弱标签映射成200维的词向量，具体参数如下：

./word2vec -train input.dat -output output.vectxt -threads 30 -sample1e-4 -negative 0 -cbow 0 -window 8 -size 200-hs 1 -binary 0

其中，-train input.dat表示训练所需的文本数据；-output output.vectxt表示训练完毕后输出的向量化形式文本数据；-size 200每个词生成的向量的维度大小是200；-window 8表示训练过程中窗口的大小为8，即考虑一个词的前8个词和后八个词，由于窗口大小会影响最后的结果，所以该参数作为优化目标之一；-cbow 0表示不使用cbow模型，默认使用Skip-Gram模型；-negative 0 -hs 1表示使用HS方法，不使用NEG方法；-sample 1e-4表示在训练过程中采样的阈值，该阈值表示样本出现的频率，频率越高其被采样的概率就越大；-threads 30表示训练时使用的线程个数，由于线程的个数会影响最后的效果，所以该参数作为优化的目标之一；-binary 0表示训练结果以二进制文件形式存储。

在本步骤中，采用式I获得两两图像之间的相似度有效地减轻了弱标注标签之间含有的“语义模糊”问题，具体体现在以下两个方面：(1)式I考虑的是两个图片对应的所有弱标注标记，很大程度上削弱了弱标签中噪声对两个图片相似性判断的影响，同时也减轻了一词多义标签的影响；(2)对于同义词、近义词来说，它们的特征向量的余弦距离通常接近，因此含有相近语义标签的图片通过该公式可算出高相似度值。

步骤4、根据所述两两图像之间相似度的大小确定两幅图像之间是否相似，获得每幅图像的相似图像以及不相似图像。

在本步骤中，根据所述两两图像之间相似度的大小确定两幅图像之间是否相似的方法可以是根据阈值确定，也可以是比较所有图像之间相似度的大小，选取最大相似度的两幅图像作为相似图像。

所述的步骤4、根据所述图像集中两两图像之间相似度的大小确定两幅图像之间是否相似时，若两两图像之间相似度在相似阈值以上，则两幅图像相似，若两两图像之间相似度在不相似阈值以下，则两幅图像不相似，若两幅图像相似度大于不相似阈值且小于相似阈值，则这两幅图像无关联，收集每幅图像的相似图像以及不相似图像。

在本步骤中，相似阈值和不相似阈值通过交叉验证的方式根据图像检索评测指标在参数集{0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9}中确定的。

在本步骤中，将所述的图像集划分为三元图像组，其中前两个图像相似，第三个图像与前两个图像不相似，由于图像集中相似图像与不相似图像的比例不同，为防止训练中使得网络参数向某一方倾斜，所以需要提前利用弱标注标签相似性度量公式计算出图像集中两两图像间的关系并且形成三元图像组，这样可以保证输入网络中的数据样本比例不会失衡。

用于提取特征的深度神经网络模型包括VGG16模型、Inception-v3网络模型等。

在本实施例中，采用改进的VGG16模型提取图像的特征，具体地，深度神经网络模型依次包括多层卷积层、多层池化层、四层全连接层以及一层sigmoid激活函数全连接层。

由于原有的VGG16模型包括13层卷积层、若干层池化层以及三个全连接层，在本实施例中，将最后一层包括1000个神经元的全连接层替换为包括512个神经元的全连接层、256个神经元的全连接层、64个神经元的全连接层，并且在最后一层全连接层即64个神经元的全连接层中加入了sigmoid激活函数，使得输出在(0,1)之间，并且每层网络参数都加了L2正则化约束。

将原有的VGG16模型的目标函数替换为式II：

L_weak＝∑max(0,λ-(dist(V_A,V_B)-dist(V_A,V_C))) 式II

其中，V_A为图像A输入至所述的深度神经网络模型后的输出向量，V_B为图像B输入至所述的深度神经网络模型后的输出向量，dist(V_A,V_B)为图像A输入至所述的深度神经网络模型后的输出向量与图像B输入至所述的深度神经网络模型后的输出向量之间的欧氏距离，dist(V_A,V_B)≥0，V_C为图像C输入至所述的深度神经网络模型后的输出向量，dist(V_A,V_C)为图像A输入至所述的深度神经网络模型后的输出向量与图像C输入至所述的深度神经网络模型后的输出向量之间的欧氏距离，dist(V_A,V_C)≥0，λ为图像空间向量的距离差，λ≥0。

目标函数将根据三元图像组间的相似性关系计算损失，三元图像组中A与C图像是相似的，B图像与A和C图像都不相似，如果A图像与B图像的距离小于A图像与C图像的距离，并且这个距离差小于参数λ，则认为该三元图像组样本产生了损失，并利用反向传播算法根据损失值计算网络参数的误差并更新参数。另外，为了使最后一层全连接层的输出特征稀疏化，所以在目标函数中对最后一层全连接层的输出特征加了L1正则化约束。

图像空间向量的距离差λ的取值范围为在本实施例中，bits为最后一层全连接层的神经元个数64，υ为sigmoid激活函数的最大值与最小值之间的差值1，因此λ的取值范围为[0,8]。

在本实施例中，通过阈值函数如公式III把sigmoid激活函数输出值都映射为1或0值，以达到哈希化的目的。

其中R表示最后一层全连接层通过sigmoid激活函数的输出特征向量，j＝1,2,…，h，h为最后一层全连接层的神经元个数。

在本发明中将深度神经网络最后一层输出的图像特征看作是一个嵌入空间，利用自定义的目标函数通过弱标注标签的语义关系学习图像之间的相似性关系，最后利用网络模型提取的高层语义特征表示图像并进行检索。这样的训练方式避免了直接使用语义比较模糊的弱标注标签作为数据的标签来训练模型，而是从深度神经网络最后一层映射的特征嵌入空间中利用图片标签之间的语义相似关系来学习数据中蕴藏的图像间的语义信息。

实施例二

一种图像检索特征数据库建立方法，所述的图像检索特征数据库包括多幅图像的特征向量，采用实施例一中所述的特征提取模型对所述的多幅图像进行特征提取，获得所述多幅图像的特征向量。

在本步骤中，通过采集尽可能多的图像作为图像数据库，将图像数据库中的每一幅图像输入所述的特征提取模型中，获得每幅图像的特征向量，收集图像数据库中所有图像的特征向量，获得图像检索特征数据库。

在本实施例中，对如图3所示的图像，提取到的图像检索特征为[1,0,0,1,1,0,.....,0,1,0,0,1]；对如图4所示的图像，提取到的图像检索特征为[1,1,0,1,1,1,.....,0,1,1,0,1]。

实施例三

一种图像检索方法，包括以下步骤：

采用实施例一所述的特征提取模型对待检索图像提取特征向量，获得待检索图像的特征向量；

计算待检索图像的特征向量与实施例二中所述的数据库中所有图像的特征向量之间的海明距离，其中最小海明距离对应的数据库中的图像为待检索图像的检索结果。

由于海明距离的计算速度大于欧氏距离的计算速度，在本步骤中，考虑到检索的效率，采用特征向量之间的海明距离对图像进行检索。

在本实施例中，对如图5所示的待检索图像输入至实施例一中特征提取模型后，输出的特征向量为：[0,1,1,0,0,1,.....,0,1,0,1,0]。

计算该图像特征[0,1,1,0,0,1,.....,0,1,0,1,0]与数据库中所有特征向量之间的海明距离，其中计算海明距离的一种方法，就是对两个位串进行异或(xor)运算，并计算出异或运算结果中1的个数。例如110和011这两个位串，对它们进行异或运算，其结果是：110⊕011＝101，异或结果中含有两个1，因此110和011之间的汉明距离就等于2。

其中与图5的特征向量之间海明距离最小的特征向量为：[1,1,1,0,1,1,.....,1,1,0,1,0]，该特征向量对应的图像如图6所示，获得如图5所示的待检索图像的检索结果为图6。

Claims

1.一种图像检索特征提取模型建立方法，其特征在于，用于对带有弱标签的图像建立特征提取模型，所述的方法包括：

2.如权利要求1所述的图像检索特征提取模型建立方法，其特征在于，所述的步骤4、根据所述图像集中两两图像之间相似度的大小确定两幅图像之间是否相似时，若两两图像之间相似度在相似阈值以上，则两幅图像相似，若两两图像之间相似度在不相似阈值以下，则两幅图像不相似，若两幅图像相似度大于不相似阈值且小于相似阈值，则这两幅图像无关联；收集每幅图像的相似图像以及不相似图像。

3.如权利要求1所述的图像检索特征提取模型建立方法，其特征在于，所述的步骤6中深度神经网络模型包括多层卷积层、多层池化层、四层全连接层以及一层sigmoid激活函数全连接层。

4.如权利要求3所述的图像检索特征提取模型建立方法，其特征在于，所述的深度神经网络模型中目标函数L_weak为：

L_weak＝∑max(0,λ-(dist(V_A,V_B)-dist(V_A,V_C))) 式II

5.一种图像检索特征数据库建立方法，其特征在于，所述的图像检索特征数据库包括多幅图像的特征向量，采用权利要求1-4中任一项权利要求所述的特征提取模型对所述的多幅图像进行特征提取，获得所述多幅图像的特征向量。

6.一种图像检索方法，其特征在于，包括以下步骤：

采用权利要求1-4中任一项权利要求所述的特征提取模型对待检索图像提取特征向量，获得待检索图像的特征向量；

计算待检索图像的特征向量与权利要求5中所述的数据库中所有图像的特征向量之间的海明距离，其中最小海明距离对应的图像为待检索图像的检索结果。