CN108399185B

CN108399185B - 一种多标签图像的二值向量生成方法及图像语义相似度查询方法

Info

Publication number: CN108399185B
Application number: CN201810023335.3A
Authority: CN
Inventors: 吴大衍; 叶明臻; 李波; 古晓艳; 王伟平; 孟丹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2021-12-21
Anticipated expiration: 2038-01-10
Also published as: CN108399185A

Abstract

本发明公开了一种多标签图像的二值向量生成方法及图像语义相似度查询方法。本发明1利用训练数据集对卷积神经网络模型进行训练，直至该卷积神经网络模型的损失值趋于稳定；然后利用训练后的卷积神经网络模型对图像数据库中的图片进行计算，得到每张图片的二值向量并进行存储；利用训练后的卷积神经网络模型计算待查询图片的二值向量，并将其与存储的二值向量进行相似度计算，根据相似度计算结果返回与该待查询图片最相似的若干图片。本发明大大提高了图像的存储效率和查询效率；而且可以根据与查询图片的多级语义相似度对目标图片进行排序。

Description

一种多标签图像的二值向量生成方法及图像语义相似度查询方法

技术领域

本发明主要应用于图像检索领域，涉及一种多标签图像的二值向量生成方法及针对多标签图像语义特征的相似度查询方法。

背景技术

近年来，随着网络技术的快速发展，每天都有成千上万的图片上传至互联网中，如何从海量的图片中根据不同用户需求快速准确地检索出相关图片已经成为研究的热点和难点。比如，基于内容的图像检索需要检索出和查询图片内容相似的目标图片，这里的“相似”指视觉或者语义相似。面向图像语义特征的哈希算法将图像高维原始特征映射到低维二进制特征的同时保留了图像语义信息，因此受到广泛关注。

目前主流的面向图像语义特征的哈希算法利用深度学习技术能够同时提取图像语义特征并学习哈希函数，但仍有以下局限：(1)绝大多数的哈希算法只能简单区分相似和不相似的图片，对于含有多级语义相似度的多标签图像效果不佳。(2)面向多标签图像的哈希算法无法有效区分相似度不同的多标签图片。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种多标签图像的二值向量生成方法及大规模多标签图像语义相似度查询方法。本发明基于卷积神经网络模型，通过精心设计的损失函数学习模型参数，实现同时提取图像原始特征并学习哈希函数，最终输出的图像二进制编码具有以下性质：

●由1、-1组成，同时提高了存储和查询效率；

●可以根据与查询图片的多级语义相似度对目标图片进行排序；

●在图像特征编码较短的情况下，仍能根据语义相似度有效区分目标图片，特别是返回结果前几条的准确率较主流算法更高。

本发明的技术方案为：

一种多标签图像的二值向量生成方法，其步骤包括：

1)利用训练数据集对卷积神经网络模型进行训练，直至该卷积神经网络模型的损失值趋于稳定；其中，每次训练时的训练数据集包括N对图片，对于第i对图片I_i，1、I_i，2，设图片I_i，1的标签数量为n_i，1，第i对图像中图片I_i，1与图片I_i，2共同关联的标签数量为n_i，2，计算所述损失值的损失函数η为

其中，n_i，1＝n_i，2时，y_i＝0，否则y_i＝1；Ones代表元素全为1的向量，||·||₁表示向量的第一范数，

表示向量间的欧式距离，|·|表示对向量每位元素进行绝对值操作，α是用来控制量化损失大小的参数，w为卷积神经网络模型的哈希层的权重向量，f(I；w)为卷积神经网络模型输出的图片I的k位二值向量，m是指汉明距离阈值参数；

2)利用训练后的卷积神经网络模型计算图片的二值向量。

一种多标签图像语义相似度查询方法，其步骤包括：

其中，n_i，1＝n_i，2时，y_i＝0，否则y_i＝1；Ones代表元素全为1的k位向量，||·||₁表示向量的第一范数，

2)利用训练后的卷积神经网络模型对图像数据库中的图片进行计算，得到每张图片的二值向量并进行存储；

3)利用训练后的卷积神经网络模型计算待查询图片的二值向量，并将其与步骤2)得到的二值向量进行相似度计算，根据相似度计算结果返回与该待查询图片最相似的若干图片。

进一步的，利用最小批次梯度下降法训练该卷积神经网络模型，使其能够最小化所述损失函数的值。

进一步的，该卷积神经网络模型包括依次连接的第一卷积层、最大池化层、第二卷积层、最大池化层、第三卷积层、第四卷积层、第五卷积层、最大池化层、第一全连接层、第二全连接层和哈希层。

进一步的，所述哈希层的哈希函数为h(x；w)＝sign(f(x；w))；其中，f(x；w)＝w^Tf′(x)，f′(x)为第二全连接层的输出向量；所述哈希层设有k个节点，每一节点设置一权重，这些权重构成权重向量w。

进一步的，α＝0.01。

进一步的，根据待查询图片的二值向量与步骤2)得到的二值向量的汉明距离，确定所述相似度。

本发明主要包括以下内容：

1)基于卷积神经网络模型设计了一种可以同时进行图像语义特征提取和哈希函数学习的框架。利用该框架，本发明可以将多标签图像映射到二值向量并保留图像间的多级语义相似度。

2)精心设计了一种基于图像标签对的损失函数。基于该损失函数可以对模型各层参数进行学习。

与现有技术相比，本发明的积极效果为：

本发明大大提高了图像的存储效率和查询效率；而且可以根据与查询图片的多级语义相似度对目标图片进行排序。本发明在图像特征编码较短的情况下，仍能根据语义相似度有效区分目标图片，特别是返回结果前几条的准确率较主流算法更高。

附图说明

图1为本发明的框架结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

一：哈希函数

定义哈希函数h(x；w)：

h(x；w)＝sign(f(x；w)) (1)

f(x；w)＝w^Tf′(x)，w为哈希层的权重向量，f′(x)为全连接层七的输出向量。哈希层由一个全连接层构成，哈希层节点个数和最终需要生成的二值向量位数k相等，k值预先设定好。

二：损失函数

通过优化损失函数的方式，实现卷积神经网络模型各层参数的学习。用于训练模型的训练数据集中，每张图像对应不同的标签，标签为人工标注得到，训练时会依据图像的标签信息对图像的相似程度进行判断。设第i对图片I_i1,I_i2分别与p₁,p₂个标签关联，令I_i1的标签数量为n_i1，则n_i1＝|p₁|，令I_i1,I_i2共同关联的标签数量为n_i2，则n_i2＝|p₁∩p₂|，当n_i1＝n_i2时，令变量y_i＝0，否则y_i＝1，针对I_i1,I_i2的损失函数定义如下：

D_H(·,·)为两个二值向量的汉明距离，m为阈值参数(m>0，后文会详细介绍m的取值)。

损失函数由两部分组成，以加号为分隔。n₁＝n₂时，y＝0，此时本发明认为两张图片非常相似，在损失函数中的体现为只要两张图像二值特征存在差异，本发明就实施惩罚；n₁≠n₂时，y＝1，此时本发明认为两张图片一般相似或者不相似，在损失函数中的体现为两张图像的相似度不同，其二值特征向量间的汉明距离应该随之变化。当N对图片作为训练集时，本发明最终需要最小化的损失函数为：

三：损失函数的转化

等式(2)中的汉明距离以离散的方式呈现，难以直接进行优化求解，为此本发明对等式(2)进行了转化。具体地，本发明将等式(2)中的汉明距离转化为欧氏距离，同时，为了使得卷积神经网络模型的输出f(I；w)逼近1或者-1，本发明引入了量化损失。此时，对等式(2)的优化可以近似为对以下公式的优化：

损失函数由三部分组成，以加号为分隔，前两部分作用与等式(2)相同，第三部分的作用是使图片特征向量的每一位逼近1或-1，其中Ones代表元素全为1的向量，向量的长度为k(和输出的二值向量长度相同)，

表示向量间的欧式距离，||·||₁表示向量的第一范数，|·|表示对向量每位元素进行绝对值操作，α(0＜α≤1)是用来控制量化损失大小的参数。将等式(4)带入等式(3)可得：

其中，I_i，1、I_i，2是第i对图像中的两图像，n_i，1是第i对图像中图像I_i，1的标签数量，n_i，2是第i对图像中图像I_i，1、I_i，2共同关联的标签数量，n_i，1＝n_i，2时，y_i＝0，否则y_i＝1；m为阈值参数。

四：模型参数的学习

卷积神经网络模型的参数包括卷积核参数以及全连接层的连接权重，确定了参数才能最终确定模型，利用模型可以提取图像的二值语义特征，最终实现海量图像的快速相似度查询匹配。模型参数的学习算法利用反向传播的思想，具体利用最小批次梯度下降法训练神经网络，使其能够最小化损失函数即式(5)的值，后续图片特征的提取都将使用训练后得到的模型式(5)可以按照加号分隔成三项(分别为Term1,Term2,Regularizer)，每项对于f_i,j的导数如下：

当当-1≤x≤0或x≥1时，，δ(x)＝1，否则，δ(x)＝0。

其中，I_i，j是第i对图像中的一个图像，j的取值为1或2，n_i，1是第i对图像中一图像的标签数量，n_i，2是第i对图像中I_i，1、I_i，2共同关联的标签数量，n_i，1＝n_i，2时，y_i＝0，否则y_i＝1，i取值范围为1～N。

五、实现细节

算法基于Caffe深度学习框架实现，如图1所示，卷积层一、卷积层二和卷积层五后面有最大池化层(ReLU层)，在模型训练中，最小批次梯度下降算法参数设置如下：batchsize＝32，momentum＝0.9，weight decay＝0.004。

本发明分别对比了α＝{0.1,0.01,0.001}的实验效果，结果表明，当α＝0.01时，检索效果最佳。

算法的最终输出是由1,-1组成的k位二值向量，当两张图片的标签完全不同时，令二值向量间的汉明距离至少为

标签有部分重叠时，令二值向量的汉明距离至少为

阈值参数m具体计算方式如下(m^*初始值为2k)：

功能：计算阈值参数m

为充分利用计算资源与存储空间，本发明从每个最小批次中，在线生成图像标签对。为获得不同批次间的图像对，每完成一次全量数据集的训练，本发明都会打乱训练集的图片顺序，具体实现方式如下(Labels(I₁)为图片I₁关联的标签数量)：

功能：在线生成图像对

实施例1

假设现在拥有人工标注好的V张图片，每张图片都有至少一个标签用来表征该图片的语义信息，这些图片将作为训练集来训练神经网络模型。

1.根据图1中的结构构建网络模型，从前到后依次是卷积层一、最大池化层一、卷积层二、最大池化层二、卷积层三、卷积层四、卷积层五、最大池化层、全连接层六、全连接层七和哈希层，其中卷积层一对图像的每个通道进行卷积操作，后面各个卷积层均对上一层的输出进行卷积操作，最大池化层对上一层的输出进行取区域最大值操作，全连接层对上一层的输出进行全连接操作，损失函数的输入是最后一个哈希层的输出。

2.从V张图片中按顺序选取v张作为网络模型的输入，根据式(5)计算模型的损失值，其中

通过最小批次梯度下降方法，对模型进行训练，得到模型中各参数的取值，模型参数包括卷积核参数、全连接层各结点连接权重。

3.随机打乱图片顺序，返回步骤2直至根据式(5)计算得到的损失值趋于稳定。确定模型中所有参数的值。

4.将图像数据库中的所有图片送入模型，得到每张图片的二值向量并进行存储。

实施例2

假设有待查询的图片，该图片不需要拥有标签信息，本发明希望在海量的图像数据库中找到何其语义最相似的图片集：

1.将其作为输入，输入到训练得到的模型中，计算得到其二值向量的值。

2.然后与数据库中的所有图片的二值向量计算汉明距离，汉明距离越小的图片与查询图片越相似。

3.根据汉明距离排序，按从小到大的顺序返回图片结果集。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。