CN106971200A

CN106971200A - 一种基于自适应迁移学习的图像记忆度预测方法

Info

Publication number: CN106971200A
Application number: CN201710147883.2A
Authority: CN
Inventors: 褚晶辉; 顾慧敏; 井佩光; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2017-07-21

Abstract

一种基于自适应迁移学习的图像记忆度预测方法：根据选择的M类图像属性特征，构建M个辅助外部数据库；对每个外部数据库提取相关特征，构成外部特征库；根据选择的M类图像属性特征，对带有图像记忆度标签的LaMem数据库进行M类底层特征提取，提取的底层特征构成底层特征库；将弱分类学习，结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成一个整体，采用交替迭代的方法求解，在最优参数下得到图像底层特征、图像属性特征和图像记忆度的关系；利用在最优参数下得到图像底层特征、图像属性特征和图像记忆度的关系，预测图像记忆度并用相关评价标准来验证预测结果。本发明将图像底层特征与图像属性特征组合预测图像记忆度，提高了预测结果。

Description

一种基于自适应迁移学习的图像记忆度预测方法

技术领域

本发明涉及一种图像记忆度预测方法。特别是涉及一种基于自适应迁移学习的图像记忆度预测方法。

背景技术

随着媒体时代的到来，我们身边充斥着各种各样的媒体信息，其中图片是一个典型的存在，人类认知的一个标志是我们能记忆大量不同图像的能力，不同图像在我们脑海中存在的时间是不一样的，而大部分人也倾向于记住和忘记相同的图片，这也是图像的一种稳定属性^[1]。图像记忆度是一个新兴的概念，来衡量一个图片在一段时间后被记住的程度。由于图像记忆度可以应用于用户界面设计，图像处理，计算机视觉和场景理解等领域而越来越受到关注。

经过观察研究发现，能被记住和被遗忘的图像具有不同的视觉特征^[2]，例如图片中含有人的图片就容易被记住，而大部分单一自然风景的图片就容易被遗忘。近些年绝大多数对图像记忆度的研究是围绕图像底层视觉特征或图像属性特征展开的，其中图像属性特征相比底层特征是更高级别的语义特征，也有更好的预测效果。然而现有的大多数研究之着眼于单独的属性特征对记忆度的影响，想要对多种属性特征进行研究，并利用底层特征与图像属性特征构建框架来提升预测能力是比较复杂的。

传统的机器学习绝大多数是从零开始，并不借鉴以前学到的知识，也不对学到的知识进行改进和发展，这很大程度上限制了机器学习的能力^[3]，提高机器学习能力的一个关键问题就在于，要让机器能够继承和发展过去学到的知识，也即掌握增量学习的能力。近年来，迁移学习(Transfer Learning)已经引起了广泛的关注和研究，从心理学的角度来看，迁移学习是人的基本学习技能，广泛存在于知识、技能和行为规范的学习中。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法^[4]，目的是迁移已有的知识来解决目标领域中仅有少量有标签甚至没有的学习问题。迁移学习大致分为三类：多任务学习、跨领域学习和不同数据分布下的学习。

发明内容

本发明所要解决的技术问题是，提供一种基于自适应迁移学习的图像记忆度预测方法，避免了对单一的图像属性进行研究，将图像底层特征与图像属性特征组合预测图像记忆度，并引入迁移学习提高了预测结果。

本发明所采用的技术方案是：一种基于自适应迁移学习的图像记忆度预测方法，包括如下步骤：

1)根据选择的M类图像属性特征，构建M个辅助外部数据库，其中M＝6；

2)对每个外部数据库提取相关特征，构成外部特征库；

3)根据选择的M类图像属性特征，对带有图像记忆度标签的LaMem数据库进行M类底层特征提取，提取的底层特征构成底层特征库；

4)将弱分类学习，结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成一个整体，采用交替迭代的方法求解，在最优参数下得到图像底层特征、图像属性特征和图像记忆度的关系；

5)利用在最优参数下得到图像底层特征、图像属性特征和图像记忆度的关系，预测图像记忆度并用相关评价标准来验证预测结果。

步骤1)所述的M类图像属性特征包括：美观性特征、语义情感特征、人脸特征、昼夜特征、室内室外特征和人工自然特征，每一类特征对应一个外部数据库。

步骤2)包括：提取每个辅助外部数据库的底层特征为其中，D_i代表第i个辅助外部数据库对应底层特征的维数，N_i代表第i个辅助外部数据库中所含图像个数，M个辅助外部数据库提取的底层特征共同构成外部特征库A＝{A₁,...,A_M}。

步骤3)包括：提取LaMem数据库的每一类底层特征为其中，D_i代表第i类底层特征的维数，N代表数据库中所含图像个数，N＝58741，M类底层特征共同构成底层特征库B＝{B₁,...,B_M}。

步骤4)所述的将弱分类学习，结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成一个整体，包括：对外部特征库进行弱分类学习，将图像内容与属性标签关联，得到每一类属性的属性探测器H_i；将底层特征库进行分组，分成训练集特征库和测试集特征库，结合迁移学习的回归模型的回归训练，采用线性回归的方法对训练集特征库进行训练；将图像记忆度的预测分为两方面，一方面是直接利用底层特征来预测图像记忆度，得到每一类底层特征到图像记忆度的映射矩阵w_i，另一方面结合迁移学习的回归模型，利用属性探测器H_i得到每类图像属性特征与图像记忆度的关系δ_i；将弱分类学习、结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成整体目标函数：

其中X_i是训练集特征库，S_i是每一个外部数据库的属性标签，y是测试集图像的记忆度分数，γ，λ和是平衡参数来平衡各部分在目标函数中的作用，参数α，β用来调节底层特征和属性特征对图像记忆度的影响，α+β＝1，是正则项，用于防止过拟合，采用交替迭代的方法求解，得到最优参数下的H_i，w_i和δ_i。

步骤5)所述的相关评价标准是采取如下两种评估方法：

(1)排序相关评估方法：得到真实记忆度排序和预测记忆度分数排序关系，采用排序相关的斯皮尔曼等级相关系数的标准来衡量两种排序之间的相关系数，相关系数的取值范围是-1～1,值越高代表两种排序越接近：

其中N是图像个数，r₁中的元素r_1i是第i张图片在真实结果中排序的位置，r₂中的元素r_2i是第i张图片在预测结果中排序的位置，RC(r₁,r₂)为相关系数；

(2)R-value：评估预测分数与实际分数间的相关系数便于回归模型比较，R-value取值范围是-1～1，其中，1代表正相关，-1代表负相关：

其中N是测试集图像个数，s_i是图像真实记忆度分数向量，是所有图像真实记忆度分数的均值；v_i是图像预测记忆度分数向量，是所有图像预测记忆度分数的均值，R-value(s,v)是相关系数。

本发明的一种基于自适应迁移学习的图像记忆度预测方法，将图像底层特征与图像属性特征组合预测图像记忆度，并引入迁移学习提高了预测结果。有益效果如下：

1、引入了迁移学习，利用外部数据库，通过提取其底层特征与属性特征进行回归训练得到图像属性检测器并利用这些检测器研究图像属性特征与图像记忆度的关系；

2、避免了对单一的图像属性进行研究，探索多个属性特征对图像记忆度的影响，同时组合图像底层特征和图像属性特征预测图像记忆度；

3、外部数据库的标签信息可以有效地减少语义鸿沟从而学习一个稳定的回归模型。

附图说明

图1是本发明一种基于自适应迁移学习的图像记忆度预测方法的流程图；

图2是标有图像记忆度分数的数据库图像样例；

图3是算法收敛图；

图4是采用本发明方法对单类图像属性特征的预测结果与对M类属性特征预测结果的对比图；

图5是本发明方法与其他方法结果对比图。

具体实施方式

下面结合实施例和附图对本发明的一种基于自适应迁移学习的图像记忆度预测方法做出详细说明。

研究表明图像属性特征相比其原始底层特征是很高级别的语义特征，对各种各样的属性特征单独进行研究都发现其对图像记忆度预测结果有很大的影响，相比于对单独一个属性的研究，可以将各种属性特征放在一起并结合图像的底层特征预测图像记忆度提出一种基于自适应迁移学习的图像记忆度预测方法。

如图1所示，本发明的一种基于自适应迁移学习的图像记忆度预测方法，包括，

1)根据选择的M类图像属性特征，构建M个辅助外部数据库，其中M＝6；所述的M类图像属性特征包括：美观性特征、语义情感特征、人脸特征、昼夜特征、室内室外特征和人工自然特征，每一类特征对应一个外部数据库。

美观性外部数据库是从美观性视觉分析数据库(Aesthetics Visual Analysis，AVA)中随机选取6750张图像构成的；语义情感外部数据库从[5]中构建的大规模视觉语义图像数据库筛选12000张图像；人脸特征外部数据库由1323张人脸图片和1508张非人脸图片构成，人脸图片是从Labeled Faces in the Wild(LFW)数据库随机选取的；昼夜特征外部数据库由428张白天图片和602张夜晚图片构成的，这些图片都来字Flickr；室内室外外部特征数据库由3350张室内图片和2024张室外图片构成，室内图片从MIT室内场景数据库[6]选取，此数据含有67类场景，每种场景随机选50张，室外图片来自SUN属性数据库[7]；人工自然外部数据库的图片来自Lazebnik等[8]创建的数据库，包括1472张自然场景图片和3013张认账场景图片。

2)对每个外部数据库提取相关特征，构成外部特征库；包括：

提取每个辅助外部数据库的底层特征为其中，D_i代表第i个辅助外部数据库对应底层特征的维数，N_i代表第i个辅助外部数据库中所含图像个数，M个辅助外部数据库提取的底层特征共同构成外部特征库A＝{A₁,...,A_M}。

3)根据选择的M类图像属性特征，对带有图像记忆度标签的LaMem数据库进行M类底层特征提取，提取的底层特征构成底层特征库；包括：

提取LaMem数据库的每一类底层特征为其中，D_i代表第i类底层特征的维数，N代表数据库中所含图像个数，N＝58741，M类底层特征共同构成底层特征库B＝{B₁,...,B_M}。

LaMem数据库包括58741张各种环境下的图片，每张图片都标记好了图像记忆度分数，附图2展示了数据库中标有记忆度分数的8幅图片。

4)将弱分类学习(Weakly Supervised Learning for classification)，结合迁移学习的回归模型和多视角一致性损失(Multi-View Consistency Loss)三部分放在同一个框架下构成一个整体，采用交替迭代的方法求解，在最优参数下得到图像底层特征、图像属性特征和图像记忆度的关系；

所述的将弱分类学习，结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成一个整体，包括：对外部特征库进行弱分类学习，将图像内容与属性标签关联，得到每一类属性的属性探测器H_i；这里采用简单的线性回归模型：

其中F(H_i)是基于外部数据库弱分类学习的损失函数，范数是矩阵所有元素的平方的和,i代表每类图像属性特征对应的数据库；

迁移学习(Transfer Learning)的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。结合迁移学习的回归模型的回归训练，将底层特征库进行分组，分成训练集特征库和测试集特征库，具体是将底层特征库分为10组，每组含有5874个图像的特征，再将每组均分构成训练集特征库X＝{X₁,...,X_M},和测试集特征库x＝{x₁，...，x_M}，其中n＝2937，采用线性回归的方法对训练集特征库进行训练。将图像记忆度的预测分为两方面，一方面是直接利用底层特征来预测图像记忆度，得到每一类底层特征到图像记忆度的映射矩阵w_i，模型表示为：

其中y＝[y₁,y₂,...y_n]是训练特征库对应图像的记忆度向量，n代表图像个数，i代表图像属性特征类别；

另一方面图像属性特征在预测图像记忆度分数中也起到了非常重要的作用，所以要结合迁移学习的回归模型，利用属性探测器H_i得到每类图像属性特征与图像记忆度的关系δ_i：

将底层特征与图像属性特征这两部分组合起来共同预测图像记忆度，结合迁移学习的回归模型是：

其中α+β＝1，G(w_i,H_i,δ_i)是图像记忆度回归模型预测误差函数，参数α,β用来调节底层特征和属性特征对图像记忆度的影响；

对于每一个图像属性，相应类型的特征值从一个特定的视角显示部分信息。在多视角学习框架下多种图像的属性可以帮助我们更好的捕捉底层数据分布的内在结构。本发明的方法中选取了M(M＝6)类图像属性特征，为了模拟不同属性之间的相互关联，引入多视角一致性损失函数：

其中L(w_i,H_i,δ_i)用来惩罚多视图一致性约束的损失，i,j代表不同的类别，加入这一部分确保不同类型的图像属性有相似的预测结果；

将弱分类学习、结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下加入正则项，构成整体目标函数：

下面具体介绍求解过程，首先将目标函数中F(H_i)，G(w_i,H_i,δ_i)，L(w_i,H_i,δ_i)函数进行化简，并对每个函数基于w_i,H_i,δ_i求导。为了使式子看起来简单，定义两个矩阵E＝[e₁,...,e_M]∈R^n×M,F＝[f₁,...,f_M]∈R^n×M,其中基于这两个矩阵再定义两个新的矩阵E_(i)＝[e₁,...,e_i-1,e_i+1,...,e_M],F_(i)＝[f₁,...,f_i-1,f_i+1,...,f_M]，代表忽略矩阵E,F的第i列向量，δ_(i),g_(i)也有相同的意思。

本发明的方法是采用交替迭代的方法来求解。首先初始化H_i和w_i，优化δ。需对目标函数中各个子函数基于δ求导，使求导函数等于零得到

其中L＝D-W,是一个拉普拉斯矩阵，是对子函数化简转化后得到的，D是对角矩阵，里面的元素是D_ii＝∑_jW_ij，W是权重矩阵，对角线上元素为0，其他为1；I是单位矩阵；

g＝[1/M,...,1/M]。

然后固定H_i和δ优化w_i，对目标函数子函数基于w_i求导，令求导后的公式等于0，得到

上面式子中变量都在前面步骤中解释过。

最后固定w_i和δ优化H_i，同样对目标函数子函数基于H_i求导，令求导后的公式等于0，可以得到

上面这个矩阵公式是一个Sylvester方程，形如AX+XB＝C的等式即为Sylvester方程。MATLAB中有专门的求解词类等式的函数lyap，其结果可以通过此函数直接得到。

将所述的求解过程重复进行直到算法收敛于一定值，求解方法中设定循环次数最多为20次，此时循环误差基本不变。在训练集中采用2倍交叉验证的方法选取合适的参数，在封装好的算法中输入一组训练集特征库X＝{X₁,...,X_M}，外部特征库A＝{A₁,...,A_M}和属性标签S_i，通过调整γ,λ,的大小得到最优参数下的w,δ和H，w＝{w₁,...,w_M}，δ和H与w的定义一样；

5)利用在最优参数下得到图像底层特征、图像属性特征和图像记忆度的关系，预测图像记忆度并用相关评价标准来验证预测结果，图像记忆度预测模型为：

其中，x＝{x₁,...,x_M}是测试集特征库。

所述的相关评价标准是采取如下两种评估方法：

(1)排序相关评估方法(Ranking Correlation，RC)：得到真实记忆度排序和预测记忆度分数排序关系，采用排序相关的斯皮尔曼等级(Spearman)相关系数的标准来衡量两种排序之间的相关系数，相关系数的取值范围是-1～1,值越高代表两种排序越接近：

实验报告

本方法中用到的数据库是LaMem数据库，是最大的带有图像记忆度标签的数据库，包含58741张图片，图片场景类型多样化。数据库中的记忆度分数利用亚马逊土耳其机器人(Amazon Mechanical Turk)这一应用程序接口获得。

实验中将本方法与以下四种方法进行对比：

LR(Liner Regression)：利用线性预测函数训练底层特征与记忆度分数之间的关系；

SVR(Support Vector Regression)：支持向量回归，将底层特征串在一起，结合RBF核函数学习非线性函数预测图像记忆度；

MRR^[9](Multiple Rank Regression)：采用多阶左投影向量和右投影向量建立回归模型；

MFHR^[10](Multi-Feature Fusion via Hierarchical Regression)：多特征基于分层回归的多媒体信息分析。

实验结果

图3验证了本发明的方法的收敛性；图4展示了采用发明的方法单独研究一类图像属性特征与采用发明的方法研究六类图像属性特征的比较结果，结果显示多类图像属性特征结合起来会使预测结果更好；图5展示了本发明的方法与其他方法性能比较结果，可以看到本发明的方法优于其他方法。实验中的四个对比方法只探究了底层特征与记忆度预测的关系。本发明的方法将底层特征同图像属性特征结合在同一框架下对图像记忆度进行预测。同时本发明的方法还采用迁移学习从外部数据库训练得到图像属性探测器，得到一个较为稳定的模型。实验结果验证了本方法的可行性与优越性。

参考文献：

[1]Khosla A,Raju A S,Torralba A,et al.Understanding and PredictingImage Memorability at a Large Scale.IEEE International Conference on ComputerVision,2015.

[2]Isola P,Xiao J,Parikh D,et al.What Makes a Photograph Memorable？.IEEE Transactions on Pattern Analysis&Machine Intelligence,36(7):1469-82,2013.

[3]戴文渊.基于实例和特征的迁移学习算法研究.上海交通大学,2008.

[4]庄福振,罗平,何清,等.迁移学习研究进展.软件学报,26(1):26-39,2015.

[5]Borth D,Ji R,Chen T,et al.Large-scale visual sentiment ontologyand detectors using adjective noun pairs.ACM International Conference onMultimedia.pages223-232,2013.

[6]Quattoni A,Torralba A.Recognizing indoor scenes.IEEE Conference onComputer Vision and Pattern Recognition,pages 413-420,2009:.

[7]Patterson G,Xu C,Su H,et al.The SUN Attribute Database:BeyondCategories for Deeper Scene Understanding.International Journal of ComputerVision,108(1):59-81,2014.

[8]Lazebnik S,Schmid C,Ponce J.Beyond Bags of Features:SpatialPyramid Matching for Recognizing Natural Scene Categories.IEEE ComputerSociety Conference on Computer Vision&Pattern Recognition,pages 2169-2178,2006.

[9]Hou C,Nie F,Yi D,et al.Efficient Image Classification via MultipleRank Regression.IEEE Transactions on Image Processing A Publication of theIEEE Signal Processing Society,22(1):340-352,2013.

[10]Yang Y,Song J,Huang Z,et al.Multi-Feature Fusion via HierarchicalRegression for Multimedia Analysis.Multimedia IEEE Transactions on,15(3):572-581,2013.

Claims

1.一种基于自适应迁移学习的图像记忆度预测方法，其特征在于，包括如下步骤：

2)对每个外部数据库提取相关特征，构成外部特征库；

2.根据权利要求1所述的一种基于自适应迁移学习的图像记忆度预测方法，其特征在于，步骤1)所述的M类图像属性特征包括：美观性特征、语义情感特征、人脸特征、昼夜特征、室内室外特征和人工自然特征，每一类特征对应一个外部数据库。

3.根据权利要求1所述的一种基于自适应迁移学习的图像记忆度预测方法，其特征在于，步骤2)包括：提取每个辅助外部数据库的底层特征为其中，D_i代表第i个辅助外部数据库对应底层特征的维数，N_i代表第i个辅助外部数据库中所含图像个数，M个辅助外部数据库提取的底层特征共同构成外部特征库A＝{A₁,...,A_M}。

4.根据权利要求1所述的一种基于自适应迁移学习的图像记忆度预测方法，其特征在于，步骤3)包括：提取LaMem数据库的每一类底层特征为其中，D_i代表第i类底层特征的维数，N代表数据库中所含图像个数，N＝58741，M类底层特征共同构成底层特征库B＝{B₁,...,B_M}。

5.根据权利要求1所述的一种基于自适应迁移学习的图像记忆度预测方法，其特征在于，步骤4)所述的将弱分类学习，结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成一个整体，包括：对外部特征库进行弱分类学习，将图像内容与属性标签关联，得到每一类属性的属性探测器H_i；将底层特征库进行分组，分成训练集特征库和测试集特征库，结合迁移学习的回归模型的回归训练，采用线性回归的方法对训练集特征库进行训练；将图像记忆度的预测分为两方面，一方面是直接利用底层特征来预测图像记忆度，得到每一类底层特征到图像记忆度的映射矩阵w_i，另一方面结合迁移学习的回归模型，利用属性探测器H_i得到每类图像属性特征与图像记忆度的关系δ_i；将弱分类学习、结合迁移学习的回归模型和多视角一致性损失三部分放在同一个框架下构成整体目标函数：

6.根据权利要求1所述的一种基于自适应迁移学习的图像记忆度预测方法，其特征在于，步骤5)所述的相关评价标准是采取如下两种评估方法：

R C (r_{1}, r_{2}) = 1 - \frac{6 \times Σ_{i = 1}^{N} {(r_{1 i} - r_{2 i})}^{2}}{N \times (N^{2} - 1)}

R - v a l u e (s, v) = \frac{Σ_{i = 1}^{N} (v_{i} - \overset{&OverBar;}{v}) (s_{i} - \overset{&OverBar;}{s})}{\sqrt{Σ_{i = 1}^{N} {(v_{i} - \overset{&OverBar;}{v})}^{2}} \sqrt{Σ_{i = 1}^{N} {(s_{i} - \overset{&OverBar;}{s})}^{2}}}