CN108647691B

CN108647691B - 一种基于点击特征预测的图像分类方法

Info

Publication number: CN108647691B
Application number: CN201810199059.6A
Authority: CN
Inventors: 谭敏; 俞俊; 张宏源
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-07-17
Anticipated expiration: 2038-03-12
Also published as: CN108647691A

Abstract

本发明公开了一种基于点击特征预测的图像分类方法。本发明步骤如下:1、借助有文本点击信息的图像数据集；利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量；2、在源点击数据集下，以最小化点击特征预测误差为目标，构建带位置约束的非线性词嵌入模型，从而实现基于视觉特征的点击特征预测，并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类；3、构建多任务、跨模态迁移深度学习框架，在同时最小化分类与预测损失下，利用源点击数据集、目标数据集训练深度视觉与词嵌入模型；4、通过反向传播算法对步骤2中的网络参数进行训练，直至整个网络模型收敛。本发明使得预测的点击特征更为准确。

Description

一种基于点击特征预测的图像分类方法

技术领域

本发明涉及细粒度图像分类及点击数据预测领域，尤其涉及基于点击特征预测的图像分类方法。

背景技术

细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)是对视觉上非常相似的目标进行区分的过程，如鸟、狗、花的种类等，这些子类图像在视觉上差距甚小。因此传统的利用图像视觉特征(如轮廓，颜色等)的分类方法无法取得令人满意的效果，并存在较大的“语义鸿沟”。

为了解决语义鸿沟，研究者们尝试引入带有语义信息的图像特征。用户点击特征便是其中之一，它是通过搜索引擎(如Google、百度、Bing等)上获取的用户点击数据得到的。通过点击数据，图像可以被表征为查询文本点击次数向量，这种特征向量具有良好的表达语义能力。

尽管点击数据具有丰富的语义信息，但目前大多数图像分类数据集不包含点击信息，且收集图片的点击数据需要大量的人工标注且不现实。为了解决这个问题，我们提出了点击特征预测的方法，并利用融合的视觉与预测点击特征进行图像分类。

预测出的点击数据具有一定的表达语义信息的能力，并降低了数据收集的难度和人工成本。将其与视觉特征相融合进行图像分类，对促进细粒度图像分类的效果具有一定的可行性和实用性，是值得研究的。此外，点击数据作为目前科研的热门方向，将其应用在图像识别领域使得本发明具有一定的前沿性和创新性，直接从图像本身预测点击特征的方法也使得该发明有更强的现实性和普适性。

发明内容

本发明提供了一种基于点击特征预测的图像分类方法，该方法将点击预测和图像分类融合在一个统一的深度神经网络中、完成了一个端到端的深度学习模型，该模型能同时完成点击特征的预测及图像的分类任务，在点击特征预测方面，利用带位置约束的损失函数使得预测出的点击特征更加准确，在图像分类任务方面，利用预测出的点击特征改善分类效果，取得了比仅利用视觉特征分类的模型更好的效果

一种基于点击特征预测的图像分类方法，其步骤如下：

步骤(1)、借助有文本点击信息的图像数据集，即源点击数据集；利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量，所述的借助有文本点击信息的图像数据集，是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量，具体如下：

步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量，其中M代表点击数据中文本的个数；

步骤(1)中的特征向量构建的过程如下：

将M个文本解析为单词，并选取点击次数最多的前N个单词作词基，N≤M,利用tf-idf算法为每张图片构建点击特征；其中具体公式如下：

其中,n_i,j是单词i出现在文本j中出现次数，而∑_in_i，j是文本j中所有单词出现次数的总和。D是文本集中的文本j出现的总数,D_i是包含单词i的文本数；

步骤(2)、在源点击数据集下，以最小化点击特征预测误差为目标，在视觉特征的词嵌入模型基础上，构建带位置约束的非线性词嵌入模型，从而实现基于视觉特征的点击特征预测，并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类，所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型，从而实现基于视觉特征的点击特征预测，具体如下：

2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x，经过一系列的空间变换矩阵和非线性操作，转化为与点击特征维度相同的预测点击特征

具体公式如下：

其中，E₁表示卷积层，包括卷积变换、池化以及线性整流单元(RELU)运算，E₂、E₃为两个全连接层，分别表征为两个词嵌入转换矩阵，f(·)表示一个非线性操作。

2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时，使用融合的点击次数向量和点击文本集误差；针对第i个图像样本，预测误差的具体公式如下：

其中，τ为权重参数，

为第i个样本真实的点击次数特征向量v_i与预测点击特征

之间的误差；而

为点击文本集误差，用来度量预测被点击数据

与真实被点击数据

的文本集之间的距离：

其中，∪、\分别表示并集与差集；将公式4重写为如下文本点击有无向量S(·)之间的误差：

S(v_i)和

分别表示真实的点击有无向量与预测的点击有无向量，x^b为向量x对应的二值化向量，S(x)为将x二值化的函数，

为S(x)中的向量，m_j代表x和x^b的维度；

2-3.将公式(5)中的文本点击有无向量S(x)，被如下光滑函数近似：

其中，T、B分别为误差阈值、带宽参数。公式6对特征小于0的部分近似为0值，大于0的部分近似为1。

步骤(3)构建多任务、跨模态迁移深度学习框架，在同时最小化分类与预测损失下，利用源点击数据集、目标数据集训练所述视觉特征的词嵌入模型；具体如下：

3-1.多任务是指在优化点击预测模型中，同时最小化预测和分类误差，使其预测的点击特征同时适用于预测和分类任务。针对此问题，构造如下多域损失函数：

其中，y_i为样本i真实类别，λ为权重参数，o_i和

代表向量的第i和y_i个元素。

3-2.跨模态：分类特征不仅是图片的视觉特征，还融合了预测的文本点击特征，图像的跨模态特征的具体公式如下：

其中，x_i是跨模态特征，z_i和

分别是经过batch normalization的视觉特征和预测的点击特征，z_i,1、z_i,2为z_i的第1、2个元素，

代表

的第1、2个元素。

3-3.跨领域：利用源点击数据集进行点击预测，并利用预测的点击特征对目标数据集进行分类。即构建了一个统一的框架实现对两种不同数据集的分类，并通过“图像－点击相关性”模型的迁移，使得没有点击数据的目标数据集也能进行基于用户点击的图像分类。该模型的多域损失函数公式如下：

其中，

表示源点击数据集中的图片，

表示目标数据集中的图片，μ为权衡不同数据集模型的参数。

步骤(4)通过反向传播算法对步骤(2)中的非线性词嵌入模型的网络参数进行训练，直至非线性词嵌入收敛，其具体过程如下：

针对以下最优化问题，通过反向传播算法迭代训练，直至模型收敛：

其中，θ^*为深度网络模型参数。

本发明有益效果：

本发明对大部分数据集没有点击信息的现实问题，提出了利用预测点击特征进行图像分类，一定程度上解决了图像识别中的“语义鸿沟”问题，同时，提出了一个统一框架将点击特征预测和图像分类融合到了一个网络模型中，实现了端对端的多任务跨模态的迁移神经网络训练。此外，点击数据作为目前的研究热点，合理的使用也使得本发明更具有科研前沿性和创新性，点击数据直接从原图像预测的特性也使得该发明有更强的现实性和普适性，我们提出的改善的点击数据预测方法也使得预测的点击特征更为准确。

附图说明

图1是本发明方法的具体流程示意图。

图2是本发明方法中预测点击特征时的非线性词嵌入模型。

图3是本发明方法中构造的网络框架示意图。

图4为本发明预测的点击特征示意图。

具体实施方式

下面结合附图对本发明做进一步具体说明。

如图1所示，本发明提供一种基于点击特征预测的图像分类方法。

步骤(1)所述的步骤(1)所述的借助有图像文本点击的数据集，利用分词技术及tf-idf为每张原数据图片构建点击特征，具体如下：

1-1.为了满足实验需求，我们利用微软提供的进行狗种分类的点击图像数据集Clickture-Dog。该数据集有344类狗的图片，我们过滤图片数少于5张的种类，最后得到283组共95,041张图片。考虑到原始图像数据噪声太多，我们对图像进行了数据清洗的操作。

1-2.首先，我们用vgg16对95,041张图片进行训练，得到一个狗图片的VGG检测器。然后我们综合利用图片的点击次数、图片的可靠性、图片的数量对图片数据进行清洗。具体过程如下：1当图片小于8张时全部保留；2当类图片数小于100张时，点击量前一半属于该类概率大于0.2则被选中，后一半大于0.4则被选中，3当图片数大于300张时，点击量前一半属于该类概率大于0.4则被选中，后一半大于0.6则被选中，4其他情况则参考《W.Feng andD.Liu,“Fine-grained image recognition from click-through logs using deepsiamese network,”in International Conference on Multimedia Modeling,2017,pp.127–138.》，点击量前一半属于该类概率大于0.3则被选中，后一半大于0.5则被选中，最后选出近32,691张图片。下表1是图片清洗前和清洗后用VGG网络得到的准确率，可以看出数据清洗后预测准确度有明显上升，证明图片清洗有效。

表1

	top1	top5
			原始图片	62.8％	86.6％
清洗后图片	67.0％	88.0％

1-3.将所选择的图片的点击矩阵与文本拿出，对点击文本进行切词处理，最终在26万多个文本中得到进39，482个单词，考虑到每个单词的点击次数和模型大小，最终选中点击量最多的1000个单词作为词基。

1-4.将每张图片视为一段文档，利用tf-idf算法，将每张图片用1000维的点击特征进行表示。考虑到目标数据只有129类，将原数据也选取到129类，并考虑到数据的平衡性，大于300张的种类只取300张，最后得到129类19,833张图片，按照2∶1∶1划分训练验证测试集。

1-5.将目标数据集中的12,358张图片同样按照2∶1∶1划分训练、验证和测试集。

步骤(2)所述的在视觉特征的词嵌入模型基础上，构建带位置约束的非线性词嵌入模型，从而实现基于视觉特征进行点击特征预测，具体如下：

构建点击特征预测通道，其中如附图中的图2所示，前半部分我们使用的传统的卷积神经网络，具体来说我们使用的是VGG-S，图片经过VGG-S得到了图片的视觉特征x_i，经过公式2转化为预测的点击特征

在这里，为了确定E₁的形式，我们比对了几种非线性词嵌入的结构，包括两个全连接层(biFC)，卷积加一个全连接层(CONV+FC)，卷积加两个全连接层(CONV+biFC)，并与传统的线性词嵌入结构(FC)进行了对比，结果如下表2。可看出，我们最终选择的卷积加两层全连接的非线性嵌入结构所预测出的点击，在分类任务上表现的更好。

表2

方法	FC	biFC	CONV+FC	CONV+biFC
					源数据(％)	63.0	68.7	68.9	69.8
目标数据(％)	44.2	54.0	51.6	56.4

在确定非线性词嵌入的结构之后，我们用公式6中的损失函数对点击特征预测通道进行训练，其中公式6中所包含的公式5中的函数S(x)，其中参数T、B，经过实验，B＝0.01、T＝0.1时，效果最好。而公式6中的参数，经过实验，τ的取值定为0.1。最终，我们比较了原始点击数据，未加入位置条件约束的点击预测以及加入位置条件约束的点击预测的特征数据，如下图4所示，可以看出，在加入了位置条件约束后，预测的点击特征更为准确了。

为了证明带位置约束的非线性词嵌入结构的效果以及融合预测点击和视觉特征的效果，我们比较了单纯的视觉特征(V)、线性的词嵌入结构预测出的点击特征(C₁)、不带位置约束的非线性词嵌入结构预测出的点击特征(C_E)、带位置约束的非线性词嵌入结构预测出的点击特征(C)，融合视觉特征与线性的词嵌入结构预测出的点击特征(V+C₁)，融合视觉特征与不带位置约束的非线性词嵌入结构预测出的点击特征(V+C_E)，融合视觉特征与带位置约束的非线性词嵌入结构预测出的点击特征(V+C)进行了对比，如下表3所示。结果证明了预测的点击数据对图像分类效果有一定的提升，并且我们提出的带位置约束的非线性词嵌入结构在融合视觉特征后表现最为优秀。

表3

方法	V	C<sub>1</sub>	C<sub>E</sub>	C	V+C<sub>1</sub>	V+C<sub>E</sub>	V+C
								源数据(％)	76.5	63.0	69.8	69.7	76.4	76.6	77.5
目标数据(％)	70.7	44.2	56.4	58.6	71.3	71.6	72.2

步骤(3)所述的构建多任务、跨模态迁移深度学习框架，同时训练视觉特征的词嵌入模型。模型中，同时最小化分类与预测损失，并将有、无点击数据的样本进行融合训练网络，具体如下：

根据附图2构建深度学习模型，最后该模型的损失函数为公式9，其中τ、B、T参数在步骤2中已经确定，而μ经过实验，最终取值为0.9。

步骤(4)所述的通过反向传播算法对步骤(2)中的网络参数进行训练，直至非线性词嵌入模型收敛，具体如下：

4-1.根据公式10的最优化问题，在已经构建好的深度学习模型上进行反向传播训练，直至非线性词嵌入模型收敛。初始时，学习率为0.001，采用mini-batch的方法，每一个batch的大小为128张图片，迭代10000次，学习率下降采用固定步数下降法，即每迭代2000次学习率乘上0.1。

4-2.测试非线性词嵌入模型。在非线性词嵌入模型训练完成后，我们用测试数据作为检测标准在最后的模型上测试了准确率，并以同样的数据在一些传统的方法上进行测试，得到的准确率对比结果见下表。从表4中可以看出，我们发明的方法对图形分类效果有明显的提升。

表4

方法	SVM	VGG<sub>img</sub>	VGG<sub>src</sub>	TDL	Ours
						原数据(％)	73.9	76.5	76.5	77.5	77.7
目标数据(％)	64.4	70.7	72.2	72.2	76.0

表中SVM是传统机器学习中的支持向量机算法，该方法使用的特征是VGG-S深度学习模型提取出的视觉特征。VGG_img是直接在传统VGG-S深度学习模型上进行分类，但参数的初始化是利用网络上公开的已经训练好的模型进行的。VGG_src同样是直接在VGG-S深度学习模型上进行训练，但是它的参数初始化时已经利用我们的原数据进行预训练，“TDL”是指直接将图像的视觉特征和预测出的点击特征融合去训练一个softmax分类器。“Ours”即本文所提出的方法。