CN108733801B

CN108733801B - 一种面向数字人文的移动视觉检索方法

Info

Publication number: CN108733801B
Application number: CN201810474540.1A
Authority: CN
Inventors: 曾子明; 秦思琪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2020-06-09
Anticipated expiration: 2038-05-17
Also published as: CN108733801A

Abstract

本发明公开一种面向数字人文的移动视觉检索方法，包括：首先构建基于深度哈希的图像语义提取模型；通过预训练对模型各处理层的参数进行初始化；构造适用于数字人文领域的损失函数；采集数字人文图像样本，并构建模型训练数据集和验证集；对图像样本进行预处理；使用构建的损失函数和数字人文训练集对模型进行训练，优化模型参数；使用完成训练的模型提取图像语义特征向量，完成图像检索流程。本发明针对数字人文移动视觉检索中的图像深度语义特征提取和数据传输规模限制两大挑战，结合深度学习和哈希方法提出基于深度哈希的数字人文移动视觉搜索方法，该方法在数字人文领域数据集上表现优异。

Description

一种面向数字人文的移动视觉检索方法

技术领域

本发明涉及数字人文、移动视觉检索等领域，特别涉及一种面向数字人文的移动视觉检索方法。

背景技术

随着移动智能终端设备的普及、大数据和云计算技术的快速发展，互联网上产生了海量的图片、视频、3D模型等视觉内容；移动设备的便携性和无线网络的泛在化使得信息检索方式趋于移动化、多媒体化，移动视觉搜索(Mobile Visual Search，MVS)技术，即通过移动智能终端采集的图像、视频或地图等视觉数据作为检索对象来获取关联信息的信息检索模式，逐渐发展起来，并且产生了巨大的市场和应用需求。而将MVS应用到数字人文领域是近几年随着图书情报学科在MVS研究的逐渐深入而出现的，目前主要应用在图书馆、档案馆、博物馆等领域，MVS在数字人文领域的应用主要包括提供展品导览、实现精准定位、提升阅读体验等

目前有关数字人文移动视觉检索的研究主要围绕以下三个方面展开：①发展方向的探讨：通过调研研究数字人文移动视觉的处理对象、基本框架、应用实践等方面的发展和前景。②基础架构的搭建：通过分析数字人文移动视觉检索的处理对象、应用场景和技术实现方法，构建基本理论框架。③应用试验：通过构建技术框架、采集数据，进行模拟实验验证相关方法的有效性。

在上述方法中，大多数并未充分考虑到图像深层语义特征的提取以及数据传输规模限制，数字人文移动视觉检索方法仍然有较大的优化空间。

发明内容

本发明要解决的技术问题在于针对现有技术中的不足，综合考虑图像深层语义特征的提取以及数据传输规模限制，运用深度哈希技术提出一种面向数字人文的移动视觉检索方法。

本发明所采用的技术方案是：一种面向数字人文的移动视觉检索方法，包含以下步骤：

步骤1，构建基于深度哈希的图像语义提取模型，该模型总共分为九个处理层：包括五个卷积层、两个全连接层、一个哈希层和一个输出层；

步骤2，对模型进行预训练，使用预训练模型参数作为各处理层的初始化参数；

步骤3，构造基于深度哈希的图像语义提取模型的损失函数；

步骤4，采集图像样本，构建模型训练集和验证集；

步骤5，图像预处理，减少图像光照、大小对模型的影响；

步骤6，使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练，优化模型参数；

步骤7，利用步骤6中训练完成的模型提取图像语义特征，使用步骤4中的验证集作为图像检索集，训练集作为目标集，计算图像间的距离，并根据距离大小进行排序，返回图像检索结果。

进一步的，所述步骤1中卷积处理层C_i包含卷积、

其中，卷积运算

通常是指使用卷积核对图像中的每个像素进行乘积求和的运算方式，W_i、b_i分别为第i个卷积层的卷积核权重向量和偏置向量；卷积运算结果通过非线性激活函数f(·)得到输出激活值；最后通过池化方法P(·)得到最终的卷积层输出结果；

全连接层定义如下：

FC_i＝f(W_i·FC_i-1+b_i)

其中，W_i、b_i分别为第i个全连接层的权重向量和偏置向量，f(·)为全连接层的激活函数；

哈希层使用基于LSH的哈希方法对特征向量进行处理，并使用激活函数保证哈希层输出在[-1,1]范围内，哈希层定义如下：

其中v为输入哈希层的特征向量，a是一个每一维均独立随机取自P稳定分布的d维向量，b为随机取自[0,w]的一个实数，w为量化宽度；f(·)为激活函数；

输出层的节点个数是模型需要预测的变量的个数，即数据集类别总数，使用输出激活函数，得到最终的输出激活值，定义如下：

Output＝f(v)

其中v为输入输出层的特征向量。

进一步的，所述步骤2中，使用ImageNet数据集对模型进行预训练。

进一步的，所述步骤3中，构造基于深度哈希的图像语义提取模型的损失函数，定义如下：

L＝L_p+L_r+φ(θ)

该损失函数包含预测损失项L_p、排序损失项L_r和正则项φ(θ)三个部分；

其中，预测损失项L_p计算模型对样本的预测值与真实值之间的误差，定义如下：

对于属于类别C_i的样本x，模型输出为f(x)＝(x₁,...,x_c)，x_i表示该样本属于类别i的得分值，C为类别总数，x_Ci即表示该样本属于实际类别C_i的概率，x_maxi为模型预测的最大概率值，-log为计算对数损失.

排序损失项主要考虑到语义排序问题，将排序因素计入损失项中，排序损失项L_r定义如下：

L_r＝-log(P(x_ci＞x_i))

其中，P(x_Ci＞x_i)即正样本得分排在负样本前面的概率；L_r排序损失可理解为：对于实际属于C_i类的单个样本x，理想结果是x_Ci＞x_i(i,C_i∈c；i≠C_i)且x_Ci趋近于1、x_i趋近于0，此时P(x_Ci＞x_i)＝1，L_r＝0；若正样本预测得分小于负样本，则需要计入排序损失项；

正则项的主要作用是提高模型的领域泛化性，定义如下：

其中，λ为正则项系数，调节正则项与其他损失项的比重，n为模型训练过程中每批(batch)训练集的样本数，1/2便于梯度计算过程中的求导，w为模型中各节点的连接权重值。

进一步，所述步骤4中，采集的图像数据样本为数字人文领域，先对样本进行分类，然后构建模型训练集和验证集，且训练集和验证集相互独立。

进一步的，所述步骤5中，采用对比度归一化方法对图像进行预处理，方法如下：

其中，图像为标准RGB格式，表示为X∈R^r×c×3，r×c为图像像素大小，数字3即RGB格式的红、绿、蓝三个颜色通道，则X_i,j,k表示第i行第j列第k个颜色通道(1为红色、2为绿色，3为蓝色通道)的像素值；

为整个图像的平均值；设置

为一个极小值以防止出现分母为0的情况。

进一步的，所述步骤6中，采用小批量梯度下降方法对模型训练过程进行优化，模型训练和优化的参数是各处理层的连接权重值和偏置值，通过模型训练使得模型中各个处理层得到最优参数值。

进一步的，所述步骤7中使用欧式距离度量图像间的距离。

进一步的，还包括步骤8，构建数字人文移动视觉检索流程的指标对步骤7中的检索流程进行评估。

进一步的，所述步骤8中，采用P@k、R@k、mAP对步骤7中的数字人文移动视觉检索流程的效率进行评估，P@k指标反映了top k个返回结果中的准确程度，R@k反映了top k个返回结果中的全面性，mAP综合反映系统的平均检索性能，各评估指标定义如下：

其中，N_k为前k个检索结果中与搜索图片相关(即与搜索图片类别相同或有相同的语义标签)的图片数，A为图片库中与搜索图片相关的样本总数；

其中，P(i)为前i个检索结果中相关样本数i_r所占比例；AP_q反映了单个查询q中返回结果的平均查准率，对于单个查询q，N为图片库中相关图片总数，n为检索返回图片数，P(i)为前i个检索结果的查准率，r(i)表示第i个返回结果是否与查询图片相关(相关则取值为1，否则为0)；Q为总查询数。

本发明的优点和有益效果：

(1)提出了一种面向数字人文的移动视觉检索方法，利用深度卷积神经网络逐层迭代和抽象的特点，使模型具备学习人文图像深层语义特征的能力，通过在神经网络结构层中嵌入哈希层的方法将深度学习和哈希算法有机结合，使模型学习到更为紧凑的图像语义特征表示，满足移动视觉搜索研究领域的图像语义特征提取和快速检索要求。

(2)提出了适用于移动视觉搜索场景的模型损失函数，考虑到移动视觉搜索的语义排序问题和模型过拟合问题，在softmax分类损失的基础上加入搜索排序损失项和L2正则项，使用该损失函数对基于深度哈希的图像语义特征提取模型进行训练，能够有效增强模型的学习能力和模型泛化性能。

附图说明

图1是本发明实施例的流程图。

具体实施方式

为了使本发明的目的、技术方案更加清楚，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的具体实施包括如下步骤：

步骤1，构建基于深度哈希的图像语义提取模型，该模型总共分为九个处理层：包括五个卷积层、两个全连接层、一个哈希层和一个输出层；各处理层的具体策略如表1：

其中，卷积处理层C_i包含卷积、激活和池化三个处理步骤，表示为：

其中，

是卷积运算方式，W_i、b_i分别为为第i个卷积层的卷积核权重向量和偏置向量；f(·)为RELU激活函数,P(·)最大池化方法；

全连接层定义如下：

FC_i＝f(W_i·FC_i-1+b_i)

其中，W_i、b_i分别为为第i个全连接层的权重向量和偏置向量，f(·)为RELU激活函数。哈希层使用基于LSH的哈希方法对特征向量进行处理，并使用Tanh作为激活函数，保证哈希层输出在[-1,1]范围内，哈希层定义如下：

其中v为输入哈希层的特征向量，a是一个每一维均独立随机取自P稳定分布的d维向量，b为随机取自[0,w]的一个实数，w为量化宽度；f(·)为Tanh激活函数。

输出层的节点个数是模型需要预测的变量的个数，即数据集类别总数，使用softmax函数作为激活函数，得到最终的输出激活值，定义如下：

Output＝softmax(v)

其中v为输入输出层的特征向量。

步骤2，模型参数初始化：使用ImageNet对步骤1中的模型进行预训练，采用预训练模型参数作为模型的初始参数；

步骤3，构造适用于数字人文领域的损失函数，如下：

L＝L_p+L_r+φ(θ)

对于属于类别C_i的样本x，模型输出为f(x)＝(x₁,...,x_c)，x_i表示该样本属于类别i的得分值，C为类别总数，x_Ci即表示该样本属于实际类别C_i的概率，x_maxi为模型预测的最大概率值，-log为计算对数损失。

L_r＝-log(P(x_ci＞x_i))

其中，P(x_Ci＞x_i)即正样本得分排在负样本前面的概率；L_r排序损失可理解为：对于实际属于C_i类的单个样本x，理想结果是x_Ci＞x_i(i,C_i∈c；i≠C_i)且x_Ci趋近于1、x_i趋近于0，此时P(x_Ci＞x_i)＝1，L_r＝0；若正样本预测得分小于负样本，则需要计入排序损失项。

正则项的主要作用是提高模型的领域泛化性，定义如下：

步骤4，在中国国家博物馆官方网站上采集数字人文领域图像样本，共有500个图片样本，包含12个人文领域类别：古钱币、瓷瓶、瓷盘、瓷碗、玉器、铜剑、佛像、铜鼎、古籍、陶俑、山水画、书法；随机选取400个样本作为训练集，其余的100个样本作为验证集。

步骤5，采用对比度归一化方法对图像进行预处理，减少移动场景下的图像噪声，方法如下：

其中，图像为标准RGB格式，表示为X∈R^r×c×3，r×c为图像像素大小，数字3即RGB格式的红、绿、蓝三个颜色通道，则X_i,j,k表示第i行第j列第k个颜色通道(1为红色、2为绿色，3为蓝色通道)的像素值，

为整个图像的平均值；设置

为一个极小值(如10-⁸)以防止出现分母为0的情况。

步骤6，使用步骤3中构建的损失函数将模型在数字人文样本训练集上进行模型训练，采用小批量梯度下降方法对模型训练过程进行优化，小批量梯度下降即模型每次迭代学习以批量样本的形式进行模型训练，一次以一个批量(mini-batch)的训练数据计算目标函数的损失并更新模型参数，主要训练的参数是模型各处理层的连接权重值和偏置值，通过模型训练使得模型中各个处理层得到最优参数值。模型训练过程的形式化表示如表2：其中，第k次迭代的学习率ε_k将随着训练的进行指数衰减，ε₀为基础学习率，γ为学习率的衰减系数，r为学习率衰减的迭代步长；假设令ε₀＝0.1，,γ＝0.1,r＝10，则表示每隔10次训练，学习率衰减为上一次训练的十分之一；L(f(x_i；θ),y_i)表示在参数θ下，模型预测样本x_i的损失函数值。

步骤7，使用步骤6中训练完成的模型提取数据集中的图像语义特征向量，使用步骤4中的验证集作为图像检索集，训练集作为目标集，使用欧式距离度量图像间的距离，并根据距离大小进行排序，返回图像检索结果。

步骤8，采用P@k＝5、P@k＝10、R@k＝5、R@k＝10、mAP来作为基于深度哈希的数字人文移动视觉检索流程的评估指标，定义如下，其中N_k为前k个检索结果中与搜索图片相关(即与搜索图片类别相同或有相同的语义标签)的图片数，A为图片库中与搜索图片相关的样本总数。P@k指标反映了top k个返回结果中的准确程度，R@k反映了top k个返回结果中的全面性，P@k和R@k在查准率(Recall)和查全率(Precision)指标的基础上进行改进，计算前k个检索结果的查全率和查准率。

通常情况下，人们更关注排在前面的检索结果，P@k、R@k仅考虑前k个检索结果的查全率和查准率，对于评估系统性能更有实际意义；

P(i)为前i个检索结果中相关样本数i_r所占比例；AP_q反映了单个查询q中返回结果的平均查准率，其中，对于单个查询q，N为图片库中相关图片总数，n为检索返回图片数，r(i)表示第i个返回结果是否与查询图片相关(相关则取值为1，否则为0)，这里的相关可定义为与搜索图片类别相同或有相同的语义标签；mAP能够综合反映系统的平均检索性能，定义如下：

其中，Q为总查询数。

为了证明本发明方法的效果，使用如下方法1和方法2与本发明进行对比：

(1)方法1：使用大型数据集ImageNet对CNN-f模型(仅包括五个卷积层、三个全连接层，没有哈希层)进行预训练，使得该模型具备一定的图像中层和高层语义信息学习能力，使用预训练模型ImageNet-CNN-f作为特征提取器直接提取图像特征向量；通过欧氏距离度量样本之间的距离，进行样本匹配并返回检索结果，计算相应的评估指标(即P@k＝5、P@k＝10、R@k＝5、R@k＝10、mAP)作为基准数据，便于与本发明进行对比；

(2)方法2：在预训练模型ImageNet-CNN-f的全连接层FC7和FC8之间嵌入一个哈希层，即构建本发明提出的基于深度哈希的图像语义特征提取模型，基于传统的softmax分类损失函数，利用目标人文数据集对模型进行训练，提取哈希层激活输出作为紧凑的图像语义特征序列，用于检索流程；使用欧氏距离度量样本之间的距离，进行样本匹配并返回检索结果；

(3)本发明方法：在方法2的基础上，采用本发明构造的包含Softmax分类损失项、排序损失项和L2正则项的模型损失函数，利用目标人数据集对模型进行重新训练，同样提取哈希层激活输出作为图像语义特征序列，并采用评估指标评估其检索效果。

实验结果数据如表1：

从上表中可以看出，本发明方法在查全率和查准率上均优于其他方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种面向数字人文的移动视觉检索方法，其特征在于，包含以下步骤：

步骤3，构造基于深度哈希的图像语义提取模型的损失函数；

所述步骤3中，构造基于深度哈希的图像语义提取模型的损失函数，定义如下：

L＝L_p+L_r+φ(θ)

对于属于类别C_i的样本x，模型输出为f(x)＝(x₁,...,x_C)，x_i表示该样本属于类别i的得分值，C为类别总数，

即表示该样本属于实际类别C_i的概率，x_maxi为模型预测的最大概率值，-log为计算对数损失；

其中，

即正样本得分排在负样本前面的概率；L_r排序损失可理解为：对于实际属于C_i类的单个样本x，理想结果是

且

趋近于1、x_i趋近于0，此时

L_r＝0；若正样本预测得分小于负样本，则需要计入排序损失项；

正则项的主要作用是提高模型的领域泛化性，定义如下：

其中，λ为正则项系数，调节正则项与其他损失项的比重，n为模型训练过程中每批训练集的样本数，1/2便于梯度计算过程中的求导，w为模型中各节点的连接权重值；

步骤4，采集图像样本，构建模型训练集和验证集；

步骤5，图像预处理，减少图像光照、大小对模型的影响；

2.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤2中，使用ImageNet数据集对模型进行预训练。

3.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤4中，采集的图像数据样本为数字人文领域，先对样本进行分类，然后构建模型训练集和验证集，且训练集和验证集相互独立。

4.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤5中，采用对比度归一化方法对图像进行预处理，方法如下：

其中，图像为标准RGB格式，表示为X∈R^r×c×3，r×c为图像像素大小，数字3即RGB格式的红、绿、蓝三个颜色通道，则X_m,n,k表示第m行第n列第k个颜色通道的像素值，其中1为红色、2为绿色，3为蓝色通道；

为整个图像的平均值；设置

为一个极小值以防止出现分母为0的情况。

5.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤6中，采用小批量梯度下降方法对模型训练过程进行优化，模型训练和优化的参数是各处理层的连接权重值和偏置值，通过模型训练使得模型中各个处理层得到最优参数值。

6.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤7中使用欧式距离度量图像间的距离。

7.根据权利要求1所述的一种面向数字人文的移动视觉检索方法，其特征在于：还包括步骤8，构建数字人文移动视觉检索流程的指标对步骤7中的检索流程进行评估。

8.根据权利要求7所述的一种面向数字人文的移动视觉检索方法，其特征在于：所述步骤8中，采用P@k、R@k、mAP对步骤7中的数字人文移动视觉检索流程的效率进行评估，P@k指标反映了top k个返回结果中的准确程度，R@k反映了top k个返回结果中的全面性，mAP综合反映系统的平均检索性能，各评估指标定义如下：

其中，N_k为前k个检索结果中与搜索图片类别相同或有相同的语义标签的图片数，A为图片库中与搜索图片相关的样本总数；

其中，P(i')为前i'个检索结果中相关样本数i_r所占比例；AP_q反映了单个查询q中返回结果的平均查准率，对于单个查询q，N为图片库中相关图片总数，n'为检索返回图片数，r(i')表示第i'个返回结果是否与查询图片相关，相关则取值为1，否则为0；Q为总查询数。