CN110569860B - 结合判别分析和多核学习的图像有趣性二分类预测方法 - Google Patents

结合判别分析和多核学习的图像有趣性二分类预测方法 Download PDF

Info

Publication number
CN110569860B
CN110569860B CN201910818316.4A CN201910818316A CN110569860B CN 110569860 B CN110569860 B CN 110569860B CN 201910818316 A CN201910818316 A CN 201910818316A CN 110569860 B CN110569860 B CN 110569860B
Authority
CN
China
Prior art keywords
image
features
formula
feature
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910818316.4A
Other languages
English (en)
Other versions
CN110569860A (zh
Inventor
孙强
王丽婷
李茂会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yingshixing Big Data Technology Co ltd
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201910818316.4A priority Critical patent/CN110569860B/zh
Publication of CN110569860A publication Critical patent/CN110569860A/zh
Application granted granted Critical
Publication of CN110569860B publication Critical patent/CN110569860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的结合判别分析和多核学习的图像有趣性二分类预测方法,输入图像数据,形成数据集;输入步骤1中数据集,确定数据集中的不寻常线索、美学线索、一般偏好线索三种线索;采用判别相关分析或多重判别相关分析进行任意特征融合;采用简单多核学习算法进行分类。本发明图像有趣性二分类预测方法兼顾了各个线索内不同有趣性特征的紧凑表达和线索间表达有趣性的多源异质特性,形成了紧凑而又有辨别力的有趣性特征集,实现了多源有趣性信息的同时表征和建模。

Description

结合判别分析和多核学习的图像有趣性二分类预测方法
技术领域
本发明属于图像分析技术领域,具体涉及一种结合判别分析和多核学习的图像有趣性二分类预测方法。
背景技术
近年来,随着各类门户网站和社交平台用户数量的日益增多,不断涌现出大规模的海量图像数据,给能满足用户使用偏好的图像检索系统提出了越来越大的挑战。其中,图像的有趣性就属于一种主要的用户偏好类型,要求图像推送平台能够按照用户的查询目标提供符合有趣性特性的图像数据,同时满足用户的语义性与情感性期望。目前,现有的图像有趣性二分类方法主要集中在图像有趣性线索(即属性)及其相关特征的探索和简单直接的利用层面,对于不同类型的有趣性线索和特征在表达图像有趣性方面的作用机理没有进行充分地挖掘和利用,大大限制了图像有趣性预测性能的提升。一方面,每个线索下不同类型的特征在描述图像有趣性时形成的特征冗余如何降低,才能产生紧凑而具有代表性的有趣性特征;另一方面,如何充分利用源于不同线索的特征集所呈现的异质特性,从而建立更合理的二分类模型来实现有效的有趣性预测。这两个问题正是在实现图像的二分类预测任务时本发明重点解决的问题。
发明内容
本发明的目的是提供结合判别分析和多核学习的图像有趣性二分类预测方法,解决现有方法有趣性特征冗余性强、不能利用不同线索的特征集实现有趣性建模的问题。
本发明所采用的技术方案是,结合判别分析和多核学习的图像有趣性二分类预测方法,包括以下步骤:
步骤1:输入图像数据,形成数据集;
步骤2,输入步骤1中数据集,确定数据集中的不寻常线索、美学线索、一般偏好线索三种线索,其中不寻常线索通过提取数据集中的熟悉度特征和局部离群系数特征表示,美学线索通过提取激励、颜色、纹理、复杂度、形状五种特征来表示,一般偏好线索通过提取Gist场景描述符、方向梯度直方图和SIFT三种特征表示线索;
步骤3:采用判别相关分析或多重判别相关分析进行步骤2中的任意特征融合;
步骤4,采用简单多核学习算法进行分类。
本发明的特征还在于,
步骤2中熟悉度特征和局部离群系数特征的提取过程如下所示:
熟悉度特征采用步骤1数据集中任意一副图像与其k近邻图像之间的平均距离表示,其中k近邻是指对于给定的一个训练集,对新的输入数据,在训练集中找到与该新的输入数据最邻近的k个数据(也就是k个邻居);
局部离群系数通过10距离邻域表示,如公式(1),
Figure BDA0002186876320000021
公式(1)中,参数ρk(O)表示点O的局部可达密度,参数
Figure BDA0002186876320000022
表示点p的邻域点Nk(p)的局部可达密度。
步骤2中激励特征通过步骤1数据集中任意一副图像亮度值与饱和度值表示,具体为:
Arousal=∑p-0.31*B(p)+0.60*S(p) (2)
公式(2)中,参数B(p)表示亮度图像的像素值,参数S(p)表示饱和度图像的像素值,参数∑p表示对像素求和;
步骤2中色彩特征通过以下三方面表示:
①以直方图为基准进行颜色特征提取,如公式(3),
Figure BDA0002186876320000023
公式(3)中参数ci表示图像颜色值,参数P表示像素的颜色值为ci的概率值,其直方图直条的个数表示为n2
设定图像中像素间距离,并将图像颜色量化为m种,得到的图像颜色相关图如公式(4)所示,
Figure BDA0002186876320000024
公式(4)中,参数
Figure BDA0002186876320000025
表示设定像素点距离为k、且颜色值为ci的像素的概率值,符号|·|表示任意两个像素之间的空间距离,参数
Figure BDA0002186876320000026
表示任意两个像素点p1和p2之间、颜色值为ci的概率值,参数d表示像素间距离;
②将图像置于HSV颜色空间,并提取HSV颜色空间3阶颜色矩全局特征以及各阶矩的均值作为特征,共计12维,具体如公式(5)所示,
Figure BDA0002186876320000031
其中参数pi,j表示原始图像第i个颜色分量图像中、灰度值为j的像素出现的概率,参数N表示图像的像素总个数,参数μi表示一阶矩均值,参数σi表示二阶矩标准差,参数Si表示三阶矩斜度,参数i={1,2,3};
③计算任意两幅图像之间的陆地移动距离:将原始图像转换至LUV颜色空间,统计此时图像的颜色直方图为H1,将LUV颜色空间等分64份,统计每份的颜色信息且每份概率值为1/64,记录此时颜色直方图为H2,颜色直方图H2对应的图像被认为是最多彩的,计算H1与H2之间的陆地移动距离EMD即为颜色特征。
步骤2中纹理特征通过以下两方面表示:
①通过浮点算法将图像灰度化,生成灰度图,如公式(6),
Gray=0.2989*R+0.5870*G+0.1140*B (6)
基于0°、45°、90°、135°四个方向、距离为1,对得到的灰度图计算纹理特征,包括能量ENE、对比度CON、逆差阵IDM、熵ENT、相关性COR,具体如公式(7)所示,
Figure BDA0002186876320000032
公式(7)中,参数μj分别表示一阶矩列的均值,参数
Figure BDA0002186876320000033
分别表示一阶矩行、列的方差,
②利用Haar小波变换来获取包含不同信息的子图,提取细节信息来表示图像纹理:
将原始图像转换颜色空间,获得HSV三分量图像,将原始图像灰度化获得灰度图像;对三分量图像IH,IS和IV,以及灰度图G进行二级小波变换;若图像IH第i级的波段系数LH,HL和HH分别表示为
Figure BDA0002186876320000041
则具体特征如下公式(8),
Figure BDA0002186876320000042
其中
Figure BDA0002186876320000043
其余两个分量图像IS,IV和灰度图G对应的特征与上述计算方法一致。
步骤2中复杂度特征通过基于信息论基础的复杂度特征和基于图像压缩理论的复杂度特征表示:
①基于信息论基础的复杂度特征,采用有关熵的概念来衡量,具体为:原始图像转换颜色空间,获得HSV三分量图;原始图像灰度化,得到灰度图像;分别对三分量及灰度图计算香农熵,如公式(9),
Figure BDA0002186876320000044
公式(9)中,参数N表示图像的像素总个数;选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度组成特征二元组,记为(i,j),其中i表示像素的灰度值0≤i≤255,j表示邻域灰度0≤j≤255,p(i,j)表示(i,j)共生的概率值;
②基于图像压缩理论的复杂度特征,具体如下:
基于显著性检测算法获得所需显著性图Is,根据公式(10)提取显著性图Is的JPEG压缩率作为特征,
Figure BDA0002186876320000045
对原始图像使用Sobel算子进行边缘检测,分别获得水平边界图Sh及垂直边界图Sv;根据公式(11)获得SI图像,
Figure BDA0002186876320000046
然后根据公式(12)计算图像的均值、均方根作为特征
Figure BDA0002186876320000047
将原始图像转换至HSV空间,分别获取三通道分量图H、S、V;将S、V两分量图相乘,获得CS=S*V灰度图;用Canny算子对水平边界图Sh及垂直边界图Sv、SI图像、CS=S*V灰度图分别进行边界检测,获得水平方向、垂直方向以及全方向上的边界图,随后根据公式(13)提取均值、标准差、JPEG压缩率,
Figure BDA0002186876320000051
公式(13)中参数pi表示各幅图像的所有像素值,参数p表示像素均值。
形状特征分别通过提取边缘直方图及不变矩特征表示:
①不变矩特征提取过程:原始图像灰度化,利用Canny边缘检测算子提取边缘信息保留边缘灰度图像;基于图像二阶、三阶矩信息,根据公式(14-4)提取边缘灰度图像的Hu不变矩特征:
Figure BDA0002186876320000052
其中M1-M7分别表示7个不变矩。
边缘直方图取过程:根据V=max(R,G,B)获得原始图像的亮度图像V;对亮度图像进行Sobel边缘检测,获得图像的轮廓边缘信息,得到边缘图像;统计边缘图像的直方图信息。
提取步骤2中Gist特征、方向梯度直方图特征和SIFT特征:
①提取Gist特征:对原始图像进行预处理,归一化为256×256的图像I;采用4个尺度,8个方向的Gabor滤波器组对图像进行滤波,得到32个大小和输入图像一致的滤波图,其中Gabor滤波器组如下所示:
Figure BDA0002186876320000053
Figure BDA0002186876320000054
其中s表示滤波器的尺度,C为常数且C>0,σ为高斯函数的标准差,θi=π(i-1)/θs,i=1,2,...,θs,θs表示s尺度下的方向总数;
将得到的每个滤波图划分为4×4个大小一致的图像块,采用窗式傅立叶变换对每个图像块进行特征提取,作为该块的特征,计算每个图像块的特征均值,并将所有块的均值串联作为整幅图像的Gist特征;
②提取方向梯度直方图(HOG)特征:根据公式(17)对原始图像I(x,y)进行归一化处理,并灰度化;
I(x,y)=I(x,y)gamma (17)
计算图像梯度,即通过使用一维离散微分模板对图像进行卷积,分别求得灰度图像在水平、垂直方向上的梯度Gh(x,y)、Gv(x,y),
Figure BDA0002186876320000061
其中水平方向梯度算子为[-1,0,1],垂直方向算子为[1,0,-1];
根据公式(19)得到梯度幅值M(x,y)与方向θ(x,y),
Figure BDA0002186876320000062
将图像均匀划分为大小为8×8的cell,将梯度方向限定在[0,π],均分为9个bin,根据计算的梯度方向与幅度,以直方图的形式统计梯度信息;对于统计的所有cell单元,相邻的2×2个cell的特征串联形成一个block的特征,并采用该向量的l2范数进行特征归一化;以block为基本单元,根据扫描步长即cell长度,对图像进行扫描,将所有块特征串联得到整幅图像的HOG特征;
③采用不同尺度的高斯函数与图像进行卷积,得到高斯金字塔图像,将相邻2个尺度的高斯图像作差获得高斯差分多尺度空间表示形式,如公式(20)所示:
Figure BDA0002186876320000063
式中,
Figure BDA0002186876320000064
为高斯函数,σ表示高斯正态分布的标准差,k'表示相邻两个尺度空间的比例因子;
将待测样本点与同尺度及上下相邻尺度,3个尺度上共26个像素点进行比较,得到DOG图像中的极值点所在的位置以及对应的尺度,计算特征点所在的16×16领域内像素的梯度幅值及方向,统计梯度直方图,并将最大幅值所对应的梯度方向作为特征点的方向;以关键点方向为主方向,以该点为中心的邻域作为窗口,将其划分为4×4大小的图像子块,在每个子块上统计8个方向上的梯度直方图,作为一个种子点;一个关键点包含16个种子点,最终得到整幅图像的SIFT特征。
步骤3.1,采用DCA对步骤2中任意两组特征融合,具体为:
两个矩阵X∈Rp×n,Y∈Rq×n,每个矩阵包含来自图像两个不同模态的n个特征向量,即对于每个样本,分别从第一、第二模态提取p、q维的特征向量;且矩阵样本是从不同的d个类别中收集的,因此矩阵的n列(n列是指矩阵X,Y的列数)被分为d个单独的组,其中ni列属于第i类,即
Figure BDA0002186876320000071
设xij∈X对应于第i类的第j个样本,
Figure BDA0002186876320000072
分别对应第i类样本和整个特征集中xij向量的平均值:
Figure BDA0002186876320000073
类间散度矩阵定义为:
Figure BDA0002186876320000074
其中,
Figure BDA0002186876320000075
若将特征中不同的类别分开,Φbx TΦbx将可以转换为对角阵,由于Φbx TΦbx是对称的半正定矩阵,可根据下式将其对角化:
Figure BDA0002186876320000076
其中P由矩阵Φbx TΦbx的正交特征向量组成,
Figure BDA0002186876320000077
是一个对角阵,
设Qd×r由矩阵P的前r个最大非零特征值对应的特征向量组成,则有:
Figure BDA0002186876320000078
Sbx的前r个特征向量可以通过映射:Q→ΦbxQ获得,具体如下:
bxQ)TSbxbxQ)=Λr×r (25)
步骤3.1.1,求第一个特征集X单位化的类间散布矩阵,通过转换矩阵Wbx=Φbx-1/2实现,同时将数据矩阵X的维数从p降到r,公式为:
Figure BDA0002186876320000081
Figure BDA0002186876320000082
其中,参数X′为矩阵X的投影,I为单位化的类间散布矩阵,r≤min(d-1,rank(X),rank(Y)),
步骤3.1.2,求解出能够使第二个特征集Y的类间散度矩阵单位化的转换矩阵,并将Y的维数从q降到r,具体如下公式所示:
Figure BDA0002186876320000083
Figure BDA0002186876320000084
步骤3.1.3,将两个特征集之间的协方差矩阵S′xy=X′Y′T对角化,采用奇异值分解(Singular Value Decomposition,SVD)将S′xy对角化,公式如下:
Figure BDA0002186876320000085
其中,Σ是对角矩阵,主对角线元素是非零值,设Wdx=UΣ-1/2,Wdy=VΣ-1/2,则有:
(UΣ-1/2)TS′xy(VΣ-1/2)=I (29)
由下公式可得到特征集转换过程:
Figure BDA0002186876320000086
Figure BDA0002186876320000087
其中
Figure BDA0002186876320000088
分别是X、Y的最终转换矩阵,
步骤3.1.4,计算
Figure BDA0002186876320000089
的类间散度矩阵如公式(31):
Figure BDA00021868763200000810
步骤3.1.5,通过串联或者求和两种策略来进行特征融合,得到最终的融合特征,如下公式所示:
Figure BDA00021868763200000811
Figure BDA00021868763200000812
步骤3.2,采用MDCA,完成对两组以上特征进行特征融合,具体为:
假设,共有m组特征需要融合,
Figure BDA0002186876320000091
按其秩降序排列,即rank(X1)≥rank(X2)≥...≥rank(Xm)。MDCA一次在两组特征上应用DCA,根据步骤3.1融合的特征向量的最大长度为min(d-1,rank(Xi),rank(Xj));在每个步骤中,具有最高秩的两个特征被融合在一起。
步骤4,采用简单多核学习算法进行分类。
步骤4.1,固定核函数的权重,采用常用的SVM算法求解拉格朗日值,具体为:
构造Lagrangian函数如下公式所示:
Figure BDA0002186876320000092
其中αi和βi是拉格朗日乘值,
求Lagrangian函数关于变量fm,b,ξ的偏导数,并将其置为0,可得:
Figure BDA0002186876320000093
将式(33)代入式(34),则可得该优化问题的对偶形式:
Figure BDA0002186876320000094
在权重确定的情况下,对偶问题的最优值如下公式所示:
Figure BDA0002186876320000095
其中
Figure BDA0002186876320000096
为对偶形式的最优解,目标值J(d)可由SVM优化算法获得,
步骤4.2,采用梯度下降法,根据目标函数的梯度下降方向更新权重值,具体为:
采用梯度下降法更新不同核函数的权重dm,求J(d)对dm的偏导数:
Figure BDA0002186876320000101
求解过程中,梯度下降法中的可行下降梯度方向必须满足等式约束,同时满足dm≥0,假设u为d中最大元素的下标,且du≠0,则J(d)的下降梯度为:
Figure BDA0002186876320000102
为了求得J(d)的最小值,梯度的下降方向必须为-▽redJ。若同时满足dm=0和[▽redJ]m>0,则无法保证dm的约束条件,此时将下降方向设为0,则d的梯度下降方向如下公式所示:
Figure BDA0002186876320000103
求得Dm后,根据d←d+γD更新d,其中步长采用基于Armijo停止准则的线性搜索方法得到。该方法的对偶间隙为:
Figure BDA0002186876320000104
当DualGap≤ε时,迭代结束,算法终止。
本发明的有益效果是:本发明结合判别分析和多核学习的图像有趣性二分类预测方法,按照不寻常性、美学性和一般偏好三类描述有趣性的重要线索分别提取多种类型的特征,使每个线索对应于多个不同类型的特征集;利用判别相关分析或多集判别相关分析技术对每个线索下同种类型的特征集进行融合,降低每种类型的有趣性特征表达的冗余度,从而产生对有趣性具有判别力的特征集;最后充分利用不同有趣性线索的多源异质性,采用简单多核学习方法对图像有趣性进行二分类。本发明兼顾了各个线索内不同有趣性特征的紧凑表达和线索间表达有趣性的多源异质特性,形成了紧凑而又有辨别力的有趣性特征集,实现了多源有趣性信息的同时表征和建模。
附图说明
图1是本发明图像有趣性二分类预测方法的流程图;
图2是不同有趣性特征集与分类方法实现有趣性预测的ROC曲线图;
图3是不同有趣性特征表征与分类方法实现有趣性预测的ROC曲线图。
图4是不同有趣性线索实现有趣性预测的ROC曲线图;
图5是不寻常性线索的不同特征类型实现有趣性预测的ROC曲线图;
图6是美学性线索的不同特征类型实现有趣性预测的ROC曲线图;
图7是一般偏好线索的不同特征类型实现有趣性预测的ROC曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明结合判别分析和多核学习的图像有趣性二分类预测方法,如图1所示,包括以下步骤:
步骤1:输入图像数据,形成数据集;
本发明采用数据集为2016年发布的预测多媒体有趣性任务比赛中提供的数据集,由Creative Commons许可的好莱坞电影预告片组成。整个数据集共包括78个预告片,将相应的预告片分割为视频镜头,取每个镜头的中间帧来作为图像数据。整个数据集共7396张图像,本发明将整个数据集按照7:3的比例分为训练集与测试集。
对于图像数据的标注工作,共有100名注释者参与,注释者分布在全球29个不同的国家,平均年龄32岁,年龄标准差为13岁,其中男女比例约为66:32,其中占比2%的人数未说明性别。
步骤2,输入步骤1中数据集,确定数据集中的不寻常线索、美学线索、一般偏好线索三种线索,其中不寻常线索通过提取数据集中的熟悉度特征和局部离群系数特征表示,美学线索通过提取激励、颜色、纹理、复杂度、形状五种特征来表示,一般偏好线索通过提取Gist场景描述符、方向梯度直方图和SIFT三种特征表示线索;
步骤2.1,提取熟悉度特征和局部离群系数特征,具体为:
计算步骤1数据集中任意一副图像与其k近邻图像之间的平均距离,平均距离越远,代表熟悉度特征越低、即图像越不寻常;其中k近邻是指对于给定的一个训练集,对新的输入数据,在训练集中找到与该新的输入数据最邻近的k个数据(也就是k个邻居),并且k个实例的多数属于某个类,就把该输入数据分类到这个类中。
利用局部离群因子(Local OutlierFactor,LOF)算法检测任意一副图像的离群程度,图像的离群程度通过离群系数来衡量,本发明采用10距离邻域计算图像的局部离群系数,如公式(1),
Figure BDA0002186876320000111
公式(1)中,参数ρk(O)表示点O的局部可达密度,参数
Figure BDA0002186876320000112
表示点p的邻域点Nk(p)的局部可达密度。
步骤2.2,通过步骤1数据集中任意一副图像亮度值与饱和度值表述图像的激励特征,如公式(2),
Arousal=∑p-0.31*B(p)+0.60*S(p) (2)
公式(2)中,参数B(p)表示亮度图像的像素值,参数S(p)表示饱和度图像的像素值,参数∑p表示对像素求和;
步骤2.3,提取颜色特征,通过以直方图为基准进行颜色特征提取、取HSV颜色空间的3阶颜色矩全局特征以及各阶矩的均值作为特征、两幅图像之间的陆地移动距离(Earth'sMover's Distance,EMD)三种来表示颜色特征:
①以直方图为基准进行颜色特征提取,如公式(3),
Figure BDA0002186876320000121
公式(3)中参数ci表示图像颜色值,参数P表示像素的颜色值为ci的概率值,其直方图直条的个数表示为n2
设定图像中像素间距离,并将图像颜色量化为m种,得到的图像颜色相关图如公式(4)所示,
Figure BDA0002186876320000122
公式(4)中,参数
Figure BDA0002186876320000123
表示设定像素点距离为k、且颜色值为ci的像素的概率值,符号|·|表示任意两个像素之间的空间距离,参数
Figure BDA0002186876320000125
表示任意两个像素点p1和p2之间、颜色值为ci的概率值,参数m表示被量化的图像颜色种数,参数d表示像素间距离;
②将图像置于HSV颜色空间,并提取HSV颜色空间3阶颜色矩全局特征以及各阶矩的均值作为特征,共计12维,具体如公式(5)所示,
Figure BDA0002186876320000124
其中参数pi,j表示原始图像第i个颜色分量图像中、灰度值为j的像素出现的概率,参数N表示图像的像素总个数,参数μi表示一阶矩均值,参数σi表示二阶矩标准差,参数Si表示三阶矩斜度,参数i={1,2,3};
③计算任意两幅图像之间的陆地移动距离:将原始图像转换至LUV颜色空间,统计此时图像的颜色直方图为H1,将LUV颜色空间等分64份,统计每份的颜色信息且每份概率值为1/64,记录此时颜色直方图为H2,颜色直方图H2对应的图像被认为是最多彩的,计算H1与H2之间的陆地移动距离EMD即为颜色特征。
步骤2.4,通过计算灰度共生矩阵(Gray-Level Co-occurrenceMatrix,GLCM)表示不同的纹理特征,具体如下两种方式:
①通过浮点算法将图像灰度化,生成灰度图,如公式(6),
Gray=0.2989*R+0.5870*G+0.1140*B (6)
基于0°、45°、90°、135°四个方向、距离为1,对得到的灰度图计算纹理特征,包括能量ENE、对比度CON、逆差阵IDM、熵ENT、相关性COR,具体如公式(7)所示,
Figure BDA0002186876320000131
公式(7)中,参数μj分别表示一阶矩列的均值,参数
Figure BDA0002186876320000132
分别表示一阶矩行、列的方差,
②利用Haar小波变换来获取包含不同信息的子图,从而提取相应的细节信息来表示图像纹理:将原始图像转换颜色空间,获得HSV三分量图像,相同的,将原始图像灰度化,获得灰度图像;对三分量图像IH,IS和IV,以及灰度图G进行二级小波变换;若图像IH第i级的波段系数LH,HL和HH分别表示为
Figure BDA0002186876320000133
则具体特征如下公式(8),
Figure BDA0002186876320000134
其中
Figure BDA0002186876320000135
其余两个分量图像IS,IV和灰度图G对应的特征与上述计算方法一致。
步骤2.5,提取图像复杂度特征,依据不同数学理论,分别提取不同的图像复杂度,具体为,基于信息论基础的复杂度特征和基于图像压缩理论的复杂度特征。
基于信息论基础的复杂度特征,采用有关熵的概念来衡量,具体为:原始图像转换颜色空间,获得HSV三分量图;原始图像灰度化,得到灰度图像;分别对三分量及灰度图计算香农熵,如公式(9),
Figure BDA0002186876320000141
公式(9)中,N表示图像的像素总个数;选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度组成特征二元组,记为(i,j),其中i表示像素的灰度值0≤i≤255,j表示邻域灰度0≤j≤255,p(i,j)表示(i,j)共生的概率值。
基于图像压缩理论的复杂度特征,采用压缩率来衡量,提取了显著性图的JPEG压缩率,SI图像的均值、均方根,以及经过Canny算子边界检测的图像的均值、标准差和压缩率作为复杂度特征。具体如下:
基于显著性检测算法获得所需显著性图Is,根据公式(10)提取显著性图Is的JPEG压缩率作为特征,
Figure BDA0002186876320000142
然后对原始图像使用Sobel算子进行边缘检测,分别获得水平边界图Sh及垂直边界图Sv;根据公式(11)获得SI图像,
Figure BDA0002186876320000143
然后根据公式(12)计算图像的均值、均方根作为特征
Figure BDA0002186876320000144
公式(12)pi表示SI图像的像素值;
将原始图像转换至HSV空间,分别获取三通道分量图H、S、V;将S、V两分量图相乘,获得一个新的CS(colorfulness)CS=S*V灰度图;用Canny算子对上述4幅图(水平边界图Sh及垂直边界图Sv、SI图像、CS=S*V灰度图)分别进行边界检测,获得水平方向、垂直方向以及全方向上的边界图,每幅图共计3个边界图,随后根据公式(13)提取均值、标准差、JPEG压缩率,
Figure BDA0002186876320000151
公式(13)中,参数pi表示各幅图像的所有像素值,参数p表示像素均值。
步骤2.6,提取形状特征,分别提取边缘直方图及不变矩特征表示。
不变矩特征提取过程:原始图像灰度化,利用Canny边缘检测算子提取边缘信息保留边缘灰度图像;基于图像二阶、三阶矩信息,根据公式(14)提取边缘灰度图像的Hu不变矩特征:
首先,在黎曼积分意义下,将二维(p+q)阶矩定义为:
Figure BDA0002186876320000152
其中,分布函数ρ(x,y)∈[0,255],
相应的(p+q)阶中心矩则定义如下:
Figure BDA0002186876320000153
其中,
Figure BDA0002186876320000154
对中心矩进行归一化:
Figure BDA0002186876320000155
其中,
Figure BDA0002186876320000156
用二阶矩和三阶矩构造出的7个不变矩组:
Figure BDA0002186876320000161
其中M1-M7分别表示7个不变矩。
边缘直方图提取过程:根据V=max(R,G,B)获得原始图像的亮度图像V;对亮度图像进行Sobel边缘检测,获得图像的轮廓边缘信息,得到边缘图像;统计边缘图像的直方图信息。
步骤2.7,提取Gist特征、方向梯度直方图特征和SIFT特征:
步骤2.7.1,提取Gist特征:对原始图像进行预处理,归一化为的图像;采用4个尺度,8个方向的Gabor滤波器组对图像进行滤波,得到32个大小和输入图像一致的滤波图,其中Gabor滤波器组如下所示:
Figure BDA0002186876320000162
Figure BDA0002186876320000163
其中s表示滤波器的尺度,C为常数且C>0,σ为高斯函数的标准差,θi=π(i-1)/θs,i=1,2,...,θs,θs表示s尺度下的方向总数;
将得到的每个滤波图划分为4×4个大小一致的图像块,采用窗式傅立叶变换对每个图像块进行特征提取,作为该块的特征,计算每个图像块的特征均值,并将所有块的均值串联作为整幅图像的Gist特征;
步骤2.7.2,提取方向梯度直方图(HOG)特征:根据公式(17)对原始图像I(x,y)进行归一化处理,并灰度化;
I(x,y)=I(x,y)gamma (17)
计算图像梯度,即通过使用一维离散微分模板对图像进行卷积,根据下式分别求得灰度图像在水平、垂直方向上的梯度Gh(x,y)、Gv(x,y),
Figure BDA0002186876320000171
其中水平方向梯度算子为[-1,0,1],垂直方向算子为[1,0,-1];
根据公式(19)得到梯度幅值M(x,y)与方向θ(x,y),
Figure BDA0002186876320000172
将图像均匀划分为大小为8×8的cell,将梯度方向限定在[0,π],均分为9个bin,根据计算的梯度方向与幅度,以直方图的形式统计梯度信息;对于统计的所有cell单元,相邻的2×2个cell的特征串联形成一个block的特征,并采用该向量的l2范数进行特征归一化;以block为基本单元,根据扫描步长即cell长度,对图像进行扫描,将所有块特征串联得到整幅图像的HOG特征。
步骤2.7.3,提取SIFT特征:
尺度空间生成与极值点检测:采用不同尺度的高斯函数与图像进行卷积,得到高斯金字塔图像,将相邻2个尺度的高斯图像作差获得高斯差分(Difference OfGaussian,DOG)多尺度空间表示形式,如公式(20)所示:
Figure BDA0002186876320000173
式中,
Figure BDA0002186876320000174
为高斯函数,σ表示高斯正态分布的标准差,k'表示相邻两个尺度空间的比例因子;
将待测样本点与同尺度及上下相邻尺度,3个尺度上共26个像素点进行比较,得到DOG图像中的极值点所在的位置以及对应的尺度。
计算特征点所在的16×16领域内像素的梯度幅值及方向,统计梯度直方图,并将最大幅值所对应的梯度方向作为特征点的方向;
以关键点方向为主方向,以该点为中心的邻域作为窗口,将其划分为4×4大小的图像子块,在每个子块上统计8个方向上的梯度直方图,作为一个种子点;一个关键点包含16个种子点,最终得到整幅图像的SIFT特征。
步骤3:采用判别相关分析(DCA)或多重判别相关分析(MDCA)进行步骤2中的任意特征融合;
步骤3.1,采用DCA对任意两组特征融合,具体为:
两个矩阵X∈Rp×n,Y∈Rq×n,每个矩阵包含来自图像两个不同模态的n个特征向量,即对于每个样本,分别从第一、第二模态提取p、q维的特征向量;且矩阵样本是从不同的d个类别中收集的,因此矩阵的n列(n列是指矩阵X,Y的列数)被分为d个单独的组,其中ni列属于第i类,即
Figure BDA0002186876320000181
设xij∈X对应于第i类的第j个样本,
Figure BDA0002186876320000182
分别对应第i类样本和整个特征集中xij向量的平均值:
Figure BDA0002186876320000183
类间散度矩阵定义为:
Figure BDA0002186876320000184
其中,
Figure BDA0002186876320000185
若将特征中不同的类别分开,Φbx TΦbx将可以转换为对角阵,由于Φbx TΦbx是对称的半正定矩阵,可根据下式将其对角化:
Figure BDA0002186876320000186
其中P由矩阵Φbx TΦbx的正交特征向量组成,
Figure BDA0002186876320000187
是一个对角阵,
设Qd×r由矩阵P的前r个最大非零特征值对应的特征向量组成,则有:
Figure BDA0002186876320000188
Sbx的前r个特征向量可以通过映射:Q→ΦbxQ获得,具体如下:
bxQ)TSbxbxQ)=Λr×r (25)
步骤3.1.1,求第一个特征集X单位化的类间散布矩阵,通过转换矩阵Wbx=Φbx-1/2实现,同时将数据矩阵X的维数从p降到r,公式为:
Figure BDA0002186876320000189
Figure BDA00021868763200001810
其中,参数X′为矩阵X的投影,I为单位化的类间散布矩阵,r≤min(d-1,rank(X),rank(Y))。
步骤3.1.2,求解出能够使第二个特征集Y的类间散度矩阵单位化的转换矩阵,并将Y的维数从q降到r,具体如下公式所示:
Figure BDA0002186876320000191
Figure BDA0002186876320000192
步骤3.1.3,将两个特征集之间的协方差矩阵S′xy=X′Y′T对角化,采用奇异值分解(Singular Value Decomposition,SVD)将S′xy对角化,公式如下:
Figure BDA0002186876320000193
其中,Σ是对角矩阵,主对角线元素是非零值,设Wdx=UΣ-1/2,Wdy=VΣ-1/2,则有:
(UΣ-1/2)TS′xy(VΣ-1/2)=I (29)
由下公式可得到特征集转换过程:
Figure BDA0002186876320000194
Figure BDA0002186876320000195
其中
Figure BDA0002186876320000196
分别是X、Y的最终转换矩阵。
步骤3.1.4,计算
Figure BDA0002186876320000197
的类间散度矩阵如公式(31):
Figure BDA0002186876320000198
步骤3.1.5,通过串联或者求和两种策略来进行特征融合,得到最终的融合特征,如下公式所示:
Figure BDA0002186876320000199
Figure BDA00021868763200001910
步骤3.2,采用MDCA,完成对两组以上特征进行特征融合,具体为:
假设,共有m组特征需要融合,
Figure BDA0002186876320000201
按其秩降序排列,即rank(X1)≥rank(X2)≥...≥rank(Xm)。MDCA一次在两组特征上应用DCA,根据步骤3.1融合的特征向量的最大长度为min(d-1,rank(Xi),rank(Xj));在每个步骤中,具有最高秩的两个特征被融合在一起。
步骤4,采用简单多核学习(Simple MKL)算法进行分类。
步骤4.1,固定核函数的权重,采用常用的SVM算法求解拉格朗日值,具体为:
构造Lagrangian函数如下公式所示:
Figure BDA0002186876320000202
其中αi和βi是拉格朗日乘值,
求Lagrangian函数关于变量fm,b,ξ的偏导数,并将其置为0,可得:
Figure BDA0002186876320000203
将式(33)代入式(34),则可得该优化问题的对偶形式:
Figure BDA0002186876320000204
在权重确定的情况下,对偶问题的最优值如下公式所示:
Figure BDA0002186876320000205
其中
Figure BDA0002186876320000206
为对偶形式的最优解,目标值J(d)可由SVM优化算法获得。
步骤4.2,采用梯度下降法,根据目标函数的梯度下降方向更新权重值,具体为:
采用梯度下降法更新不同核函数的权重dm,求J(d)对dm的偏导数:
Figure BDA0002186876320000207
求解过程中,梯度下降法中的可行下降梯度方向必须满足等式约束,同时满足dm≥0,假设u为d中最大元素的下标,且du≠0,则J(d)的下降梯度为:
Figure BDA0002186876320000211
为了求得J(d)的最小值,梯度的下降方向必须为-▽redJ。若同时满足dm=0和[▽redJ]m>0,则无法保证dm的约束条件,此时将下降方向设为0,则d的梯度下降方向如下公式所示:
Figure BDA0002186876320000212
求得Dm后,根据d←d+γD更新d,其中步长采用基于Armijo停止准则的线性搜索方法得到。该方法的对偶间隙为:
Figure BDA0002186876320000213
当DualGap≤ε时,迭代结束,算法终止。
实验仿真:
(1)不同特征组合对有趣性预测的影响
记F1为使用颜色直方图、场景描述符以及LBP等特征来描述视觉有趣性的组合;F2为SIFT与场景描述符Gist的组合来描述视觉有趣性的组合;F3使用局部离群系数、熟悉度、激励、原始图像压缩率、场景描述符Gist和SIFT来描述视觉有趣性组合;F4为本发明提取的一系列特征来描述有趣性的组合,F1、F2、F3和F4四个组合均进行SVM分类。图2及表1为实验的ROC曲线与相应的ACC和AUC指标。
表1不同特征组合的评价指标值
Figure BDA0002186876320000214
Figure BDA0002186876320000221
通过对比发现F1、F2对应的ACC均能达到88%,AUC值同样可达到94%;F3对应的ACC比F2提高了约1%,AUC提高了约3%,表明在Gist、SIFT特征的基础上,引入LOF系数、熟悉度、激励、原始图像压缩率等特征对于描述有趣性有一定程度的提升作用。F4特征组合在F3的基础上,添加了纹理、形状、局部特征,并利用边缘检测技术和显著图等方式来获取更高层次的复杂度特征,可见本发明有趣性特征组合在描述有趣性方面比F1、F2、F3所用特征更全面、更有效,所训练的模型泛化能力更好。
(2)特征融合对有趣性预测的影响
本发明基于三个有趣性线索,提取了一组有趣性特征,将所提特征的串联组合记为F4;利用DCA或MDCA对不同类型的特征进行融合,其次将不同类型的特征串联来分别描述美学、不寻常和一般偏好这三个线索,将此串联组合记为F5;最后利用三个具体特征来表示三个线索,进行简单多核分类,记为F6。图3及表2为实验的ROC曲线及对应的ACC、AUC值。
表2不同特征组合的评价指标值
Figure BDA0002186876320000222
通过对比发现:F4、F5、F6对应的ROC曲线靠近左上角,即接近(0,1)点,AUC值均可达到89%以上。F5代表经过融合后的特征组合,其ACC比未融合特征F4提高了0.017,AUC同样有提高,融合后的特征维度从1361维降至257维,大大减少了计算复杂度。F6表示融合特征经过简单多核进行分类,相比于F5,采用单核分类,模型泛化能力提升不是特别明显,在分类准确率上提高了0.031。结果表明采用相关判别分析方法进行特征融合,以及通过多核进行线索级的融合在模型有效性方面有积极作用,其中特征级的融合带来了明显的计算效率提升。
(3)不同线索对有趣性预测的影响:本发明选取了三个有趣性线索,分别记为cue1、cue2和cue3,其中不同线索分别使用不同类型的特征进行表述,下面实验分析了三个有趣性线索单独作用时对于整体预测方案的贡献程度。图4及表3为实验的ROC曲线以及对应的ACC、AUC值。
表3不同线索的评价指标值
Figure BDA0002186876320000223
Figure BDA0002186876320000231
实验发现在描述有趣性的三个线索中,美学及一般偏好对于有趣性的预测具有良好的分类准确率,且训练得到的模型泛化能力较好,AUC值均在90%以上,ACC也可达到85%以上。而对于不寻常线索来说,其ACC与AUC值均较低,分别为0.535、0.559。结果表明视觉上被判定为美的图像,即符合美学规则的图像有很大可能也被认为是有趣的;而满足一般偏好的图像更容易被判定为有趣;对于本发明所提不寻常特征并不能有效地描述有趣性,需要继续利用算法捕捉更接近语义层次的不寻常性来反映其所引发的有趣性,或者重新验证不寻常线索对于一般有趣性的贡献程度。
(4)不同类型特征对有趣性预测的影响
分别分析不寻常、美学和一般偏好线索中的不同类型的特征对有趣性预测的贡献程度。其中不寻常线索包括局部离群因数(lof)和熟悉度(familiarity);美学线索包括激励(arousal)、颜色(color)、纹理(texture)、复杂度(complexity)和形状特征(shape);一般偏好线索包括SIFT特征、HOG特征和Gist特征。图5及表4为不寻常线索中两种不同类型特征,即lof和familiarity的ROC曲线以及对应的ACC、AUC值。
表4不同特征类型的评价指标值
Figure BDA0002186876320000232
图6及表5为美学线索中五种不同类型特征,即arousal、color、texture、complexity和shape的ROC曲线和对应的ACC、AUC值。
表5不同特征类型的评价指标值
Figure BDA0002186876320000233
Figure BDA0002186876320000241
图7及表6为一般偏好线索中三种不同类型特征,即SIFT、HOG和Gist特征的ROC曲线以及对应的ACC、AUC值。
表6不同特征类型的评价指标值
Figure BDA0002186876320000242
实验发现不寻常线索在三个线索中对有趣性预测任务的贡献度最小,其中局部离群系数效果最差,ACC与AUC值均未过半,表明其在分类时,效果与随机猜测近似。
选取的五种类型的特征组合在一起来表征美学线索是有效的,不同类型的特征之间具有互补性,特征单独作用时最高的AUC值为颜色特征(0.756),最高的ACC值为复杂度特征(0.703),而结合后的AUC及ACC分别提高了0.158、0.153,就分类准确率来说,复杂度与颜色特征更有效,表明以接近人类感知方式的角度提取特征在一定程度上能够捕获有趣性;效果较次的为纹理及形状特征,可在主要特征的基础上起到辅助分类的作用。就模型性能来说,颜色、纹理特征更能够反映一般的有趣性,训练得到的信息更泛化、适应力较强;性能较次的为激励特征与复杂度,同样可通过与其他特征相结合来提升模型的有效性。选取的三种类型的特征直接组合在一起来表征一般偏好线索有一定程度的提升效果,特征单独作用时最高的AUC值为HOG特征(0.940),最高的ACC值为SIFT特征(0.772),而结合后的AUC及ACC分别提高了0.019、0.118。相比于SIFT及HOG特征,Gist特征效果较差,但在三个组合时仍然带来了准确率的提升。

Claims (8)

1.结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,包括以下步骤:
步骤1:输入图像数据,形成数据集,所述数据集中包括训练集和测试集,训练集和测试集的的比例不小于7:3;
步骤2,输入步骤1中数据集,确定数据集中的不寻常线索、美学线索、一般偏好线索三种线索,
其中不寻常线索通过提取数据集中的熟悉度特征和局部离群系数特征表示,美学线索通过提取激励、颜色、纹理、复杂度、形状五种特征来表示,一般偏好线索通过提取Gist场景描述符、方向梯度直方图和SIFT三种特征表示;
步骤3:采用判别相关分析或多重判别相关分析进行步骤2中的任意特征融合;
步骤4,采用简单多核学习算法进行分类,具体为:
步骤4.1,固定核函数的权重,采用常用的SVM算法求解拉格朗日值,具体为:
构造Lagrangian函数如下公式所示:
Figure FDA0003821843230000011
其中αi和βi是拉格朗日乘值,
求Lagrangian函数关于变量fm,b,ξ的偏导数,并将其置为0,可得:
Figure FDA0003821843230000021
将式(33)代入式(34),则可得该优化问题的对偶形式:
Figure FDA0003821843230000022
在权重确定的情况下,对偶问题的最优值如下公式所示:
Figure FDA0003821843230000023
其中
Figure FDA0003821843230000024
为对偶形式的最优解,目标值J(d)可由SVM优化算法获得,
步骤4.2,采用梯度下降法,根据目标函数的梯度下降方向更新权重值,具体为:
采用梯度下降法更新不同核函数的权重dm,求J(d)对dm的偏导数:
Figure FDA0003821843230000025
求解过程中,梯度下降法中的可行下降梯度方向必须满足等式约束,同时满足dm≥0,假设u为d中最大元素的下标,且du≠0,则J(d)的下降梯度为:
Figure FDA0003821843230000026
为了求得J(d)的最小值,梯度的下降方向必须为
Figure FDA0003821843230000031
若同时满足dm=0和
Figure FDA0003821843230000032
则无法保证dm的约束条件,此时将下降方向设为0,则d的梯度下降方向如下公式所示:
Figure FDA0003821843230000033
求得Dm后,根据d←d+γD更新d,其中步长采用基于Armijo停止准则的线性搜索方法得到,该方法的对偶间隙为:
Figure FDA0003821843230000034
当DualGap≤ε时,迭代结束,算法终止。
2.根据权利要求1所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,所述步骤2中熟悉度特征和局部离群系数特征的提取过程如下所示:
所述熟悉度特征采用步骤1数据集中任意一副图像与其k近邻图像之间的平均距离表示,其中k近邻是指对于给定的一个训练集,对新的输入数据,在训练集中找到与该新的输入数据最邻近的k个数据(也就是k个邻居);
所述局部离群系数通过10距离邻域表示,如公式(1),
Figure FDA0003821843230000035
公式(1)中,参数ρk(O)表示点O的局部可达密度,参数
Figure FDA0003821843230000036
表示点p的邻域点Nk(p)的局部可达密度。
3.根据权利要求1所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,所述步骤2中激励特征通过步骤1数据集中任意一副图像亮度值与饱和度值表示,具体为:
Arousal=∑p-0.31*B(p)+0.60*S(p) (2)
公式(2)中,参数B(p)表示亮度图像的像素值,参数S(p)表示饱和度图像的像素值,参数∑p表示对像素求和;
所述步骤2中色彩特征通过以下三方面表示:
①以直方图为基准进行颜色特征提取,如公式(3),
Figure FDA0003821843230000041
公式(3)中参数ci表示图像颜色值,参数P表示像素的颜色值为ci的概率值,其直方图直条的个数表示为n2
设定图像中像素间距离,并将图像颜色被量化为m种,得到的图像颜色相关图如公式(4)所示,
Figure FDA0003821843230000042
公式(4)中,参数
Figure FDA0003821843230000043
表示设定像素点距离为k、且颜色值为ci的像素的概率值,符号|·|表示任意两个像素之间的空间距离,参数
Figure FDA0003821843230000044
表示任意两个像素点p1和p2之间、颜色值为ci的概率值,参数d表示像素间距离;
②将图像置于HSV颜色空间,并提取HSV颜色空间3阶颜色矩全局特征以及各阶矩的均值作为特征,共计12维,具体如公式(5)所示,
Figure FDA0003821843230000045
其中参数pi,j表示原始图像第i个颜色分量图像中、灰度值为j的像素出现的概率,参数N表示图像的像素总个数,参数μi表示一阶矩均值,参数σi表示二阶矩标准差,参数Si表示三阶矩斜度,参数i={1,2,3};
③计算任意两幅图像之间的陆地移动距离:将原始图像转换至LUV颜色空间,统计此时图像的颜色直方图为H1,将LUV颜色空间等分64份,统计每份的颜色信息且每份概率值为1/64,记录此时颜色直方图为H2,颜色直方图H2对应的图像被认为是最多彩的,计算H1与H2之间的陆地移动距离EMD即为颜色特征。
4.根据权利要求3所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,所述步骤2中纹理特征通过以下两方面表示:
①通过浮点算法将图像灰度化,生成灰度图,如公式(6),
Gray=0.2989*R+0.5870*G+0.1140*B (6)
基于0°、45°、90°、135°四个方向、距离为1,对得到的灰度图计算纹理特征,包括能量ENE、对比度CON、逆差阵IDM、熵ENT、相关性COR,具体如公式(7)所示,
Figure FDA0003821843230000051
公式(7)中,参数μj分别表示一阶矩列的均值,参数
Figure FDA0003821843230000052
分别表示一阶矩行、列的方差,
②利用Haar小波变换来获取包含不同信息的子图,提取相应的细节信息来表示图像纹理:
将原始图像转换颜色空间,获得HSV三分量图像,将原始图像灰度化获得灰度图像;对三分量图像IH,IS和IV,以及灰度图G进行二级小波变换;若图像IH第i级的波段系数LH,HL和HH分别表示为
Figure FDA0003821843230000061
则具体特征如下公式(8),
Figure FDA0003821843230000062
其中
Figure FDA0003821843230000063
其余两个分量图像IS,IV和灰度图G对应的特征与上述计算方法一致。
5.根据权利要求4所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,所述步骤2中复杂度特征通过基于信息论基础的复杂度特征和基于图像压缩理论的复杂度特征表示:
①基于信息论基础的复杂度特征,采用有关熵的概念来衡量,具体为:原始图像转换颜色空间,获得HSV三分量图;原始图像灰度化,得到灰度图像;分别对三分量及灰度图计算香农熵,如公式(9),
Figure FDA0003821843230000064
公式(9)中参数N表示图像的像素总个数;选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度组成特征二元组,记为(i,j),其中i表示像素的灰度值0≤i≤255,j表示邻域灰度0≤j≤255,p(i,j)表示(i,j)共生的概率值;
②基于图像压缩理论的复杂度特征,具体如下:
基于显著性检测算法获得所需显著性图Is,根据公式(10)提取显著性图Is的JPEG压缩率作为特征,
Figure FDA0003821843230000071
对原始图像使用Sobel算子进行边缘检测,分别获得水平边界图Sh及垂直边界图Sv;根据公式(11)获得SI图像,
Figure FDA0003821843230000072
然后根据公式(12)计算图像的均值、均方根作为特征
Figure FDA0003821843230000073
将原始图像转换至HSV空间,分别获取三通道分量图H、S、V;将S、V两分量图相乘,获得CS=S*V灰度图;用Canny算子对水平边界图Sh及垂直边界图Sv、SI图像、CS=S*V灰度图分别进行边界检测,获得水平方向、垂直方向以及全方向上的边界图,随后根据公式(13)提取均值、标准差、JPEG压缩率,
Figure FDA0003821843230000074
公式(13)中参数pi表示各幅图像的所有像素值,参数p表示像素均值。
6.根据权利要求5所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,所述形状特征分别通过提取边缘直方图及不变矩特征表示:
①不变矩特征提取过程:原始图像灰度化,利用Canny边缘检测算子提取边缘信息保留边缘灰度图像;基于图像二阶、三阶矩信息,根据公式(14-4)提取边缘灰度图像的Hu不变矩特征:
Figure FDA0003821843230000081
其中M1-M7分别表示7个不变矩;
边缘直方图提取过程:根据V=max(R,G,B)获得原始图像的亮度图像V;对亮度图像进行Sobel边缘检测,获得图像的轮廓边缘信息,得到边缘图像;统计边缘图像的直方图信息。
7.根据权利要求6所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,提取步骤2中所述Gist特征、方向梯度直方图特征和SIFT特征:
①提取Gist特征:对原始图像进行预处理,归一化为256×256的图像I;采用4个尺度,8个方向的Gabor滤波器组对图像进行滤波,得到32个大小和输入图像一致的滤波图,其中Gabor滤波器组如下所示:
Figure FDA0003821843230000082
Figure FDA0003821843230000083
其中s表示滤波器的尺度,C为常数且C>0,σ为高斯函数的标准差,θi=π(i-1)/θs,i=1,2,...,θs,θs表示s尺度下的方向总数;
将得到的每个滤波图划分为4×4个大小一致的图像块,采用窗式傅立叶变换对每个图像块进行特征提取,作为该块的特征,计算每个图像块的特征均值,并将所有块的均值串联作为整幅图像的Gist特征;
②提取方向梯度直方图特征:根据公式(17)对原始图像I(x,y)进行归一化处理,并灰度化;
I(x,y)=I(x,y)gamma (17)
计算图像梯度,即通过使用一维离散微分模板对图像进行卷积,分别求得灰度图像在水平、垂直方向上的梯度Gh(x,y)、Gv(x,y),
Figure FDA0003821843230000091
其中水平方向梯度算子为[-1,0,1],垂直方向算子为[1,0,-1];
根据公式(19)得到梯度幅值M(x,y)与方向θ(x,y),
Figure FDA0003821843230000092
将图像均匀划分为大小为8×8的cell,将梯度方向限定在[0,π],均分为9个bin,根据计算的梯度方向与幅度,以直方图的形式统计梯度信息;对于统计的所有cell单元,相邻的2×2个cell的特征串联形成一个block的特征,并采用该向量的l2范数进行特征归一化;以block为基本单元,根据扫描步长即cell长度,对图像进行扫描,将所有块特征串联得到整幅图像的HOG特征;
③采用不同尺度的高斯函数与图像进行卷积,得到高斯金字塔图像,将相邻2个尺度的高斯图像作差获得高斯差分多尺度空间表示形式,如公式(20)所示:
Figure FDA0003821843230000101
式中,
Figure FDA0003821843230000102
为高斯函数,σ表示高斯正态分布的标准差,k'表示相邻两个尺度空间的比例因子;
将待测样本点与同尺度及上下相邻尺度,3个尺度上共26个像素点进行比较,得到DOG图像中的极值点所在的位置以及对应的尺度,计算特征点所在的16×16领域内像素的梯度幅值及方向,统计梯度直方图,并将最大幅值所对应的梯度方向作为特征点的方向;以关键点方向为主方向,以该点为中心的邻域作为窗口,将其划分为4×4大小的图像子块,在每个子块上统计8个方向上的梯度直方图,作为一个种子点;一个关键点包含16个种子点,最终得到整幅图像的SIFT特征。
8.根据权利要求7所述的结合判别分析和多核学习的图像有趣性二分类预测方法,其特征在于,所述步骤3具体为:
步骤3.1,采用DCA对步骤2中任意两组特征融合,具体为:
两个矩阵X∈Rp×n,Y∈Rq×n,每个矩阵包含来自图像两个不同模态的n个特征向量,即对于每个样本,分别从第一、第二模态提取p、q维的特征向量;且矩阵样本是从不同的d个类别中收集的,因此矩阵的n列(n列是指矩阵X,Y的列数)被分为d个单独的组,其中ni列属于第i类,即
Figure FDA0003821843230000103
设xij∈X对应于第i类的第j个样本,
Figure FDA0003821843230000104
分别对应第i类样本和整个特征集中xij向量的平均值:
Figure FDA0003821843230000105
类间散度矩阵定义为:
Figure FDA0003821843230000111
其中,
Figure FDA0003821843230000112
若将特征中不同的类别分开,Φbx TΦbx将可以转换为对角阵,由于Φbx TΦbx是对称的半正定矩阵,可根据下式将其对角化:
Figure FDA0003821843230000113
其中P由矩阵Φbx TΦbx的正交特征向量组成,
Figure FDA0003821843230000114
是一个对角阵,
设Qd×r由矩阵P的前r个最大非零特征值对应的特征向量组成,则有:
Figure FDA0003821843230000115
Sbx的前r个特征向量可以通过映射:Q→ΦbxQ获得,具体如下:
bxQ)TSbxbxQ)=Λr×r (25)
步骤3.1.1,求第一个特征集X单位化的类间散布矩阵,通过转换矩阵Wbx=Φbx-1/2实现,同时将数据矩阵X的维数从p降到r,公式为:
Figure FDA0003821843230000116
Figure FDA0003821843230000117
其中,参数X′为矩阵X的投影,I为单位化的类间散布矩阵,r≤min(d-1,rank(X),rank(Y)),
步骤3.1.2,求解出能够使第二个特征集Y的类间散度矩阵单位化的转换矩阵,并将Y的维数从q降到r,具体如下公式所示:
Figure FDA0003821843230000118
Figure FDA0003821843230000119
步骤3.1.3,将两个特征集之间的协方差矩阵S′xy=X′Y′T对角化,采用奇异值分解(Singular Value Decomposition,SVD)将S′xy对角化,公式如下:
Figure FDA0003821843230000121
其中,Σ是对角矩阵,主对角线元素是非零值,设Wdx=UΣ-1/2,Wdy=VΣ-1/2,则有:
(UΣ-1/2)TS′xy(VΣ-1/2)=I (29)
由下公式可得到特征集转换过程:
Figure FDA0003821843230000122
Figure FDA0003821843230000123
其中
Figure FDA0003821843230000124
分别是X、Y的最终转换矩阵,
步骤3.1.4,计算
Figure FDA0003821843230000125
的类间散度矩阵如公式(31):
Figure FDA0003821843230000126
步骤3.1.5,通过串联或者求和两种策略来进行特征融合,得到最终的融合特征,如下公式所示:
Figure FDA0003821843230000127
Figure FDA0003821843230000128
步骤3.2,采用MDCA,完成对两组以上特征进行特征融合,具体为:
假设,共有m组特征需要融合,
Figure FDA0003821843230000129
按其秩降序排列,即rank(X1)≥rank(X2)≥...≥rank(Xm),MDCA一次在两组特征上应用DCA,根据步骤3.1融合的特征向量的最大长度为min(d-1,rank(Xi),rank(Xj));在每个步骤中,具有最高秩的两个特征被融合在一起。
CN201910818316.4A 2019-08-30 2019-08-30 结合判别分析和多核学习的图像有趣性二分类预测方法 Active CN110569860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818316.4A CN110569860B (zh) 2019-08-30 2019-08-30 结合判别分析和多核学习的图像有趣性二分类预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818316.4A CN110569860B (zh) 2019-08-30 2019-08-30 结合判别分析和多核学习的图像有趣性二分类预测方法

Publications (2)

Publication Number Publication Date
CN110569860A CN110569860A (zh) 2019-12-13
CN110569860B true CN110569860B (zh) 2022-10-04

Family

ID=68777122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818316.4A Active CN110569860B (zh) 2019-08-30 2019-08-30 结合判别分析和多核学习的图像有趣性二分类预测方法

Country Status (1)

Country Link
CN (1) CN110569860B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126504A (zh) * 2019-12-27 2020-05-08 西北工业大学 多源不完备信息融合图像目标分类方法
CN111783837B (zh) * 2020-06-05 2023-08-15 西安电子科技大学 一种基于多核学习的特征融合方法
CN111666956A (zh) * 2020-06-09 2020-09-15 齐鲁工业大学 一种多尺度特征提取及融合方法及装置
CN111753920B (zh) * 2020-06-30 2022-06-21 重庆紫光华山智安科技有限公司 特征构建方法、装置、计算机设备及存储介质
CN112365552A (zh) * 2021-01-11 2021-02-12 成都职业技术学院 一种结合奇异值分解和小波包变换的图像压缩方法
CN113139576B (zh) * 2021-03-22 2024-03-12 广东省科学院智能制造研究所 一种结合图像复杂度的深度学习图像分类方法及系统
CN114750155B (zh) * 2022-04-26 2023-04-07 广东天太机器人有限公司 一种基于工业机器人的物件分类控制系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013049153A2 (en) * 2011-09-27 2013-04-04 Board Of Regents, University Of Texas System Systems and methods for automated screening and prognosis of cancer from whole-slide biopsy images
CN106156798A (zh) * 2016-07-25 2016-11-23 河海大学 基于环形空间金字塔和多核学习的场景图像分类方法
CN106778788A (zh) * 2017-01-13 2017-05-31 河北工业大学 对图像进行美学评价的多特征融合方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013049153A2 (en) * 2011-09-27 2013-04-04 Board Of Regents, University Of Texas System Systems and methods for automated screening and prognosis of cancer from whole-slide biopsy images
CN106156798A (zh) * 2016-07-25 2016-11-23 河海大学 基于环形空间金字塔和多核学习的场景图像分类方法
CN106778788A (zh) * 2017-01-13 2017-05-31 河北工业大学 对图像进行美学评价的多特征融合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
利用多分辨率直方图特征分类数字X光乳腺图像;刘欣悦等;《光学精密工程》;20060425(第02期);全文 *
基于感兴趣区域多特征加权融合的图像检索算法;唐朝霞等;《微电子学与计算机》;20110605(第06期);全文 *

Also Published As

Publication number Publication date
CN110569860A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110569860B (zh) 结合判别分析和多核学习的图像有趣性二分类预测方法
Yang et al. Canonical correlation analysis networks for two-view image recognition
CN108596154B (zh) 基于高维特征选择与多级融合的遥感图像分类方法
CN109543602B (zh) 一种基于多视角图像特征分解的行人再识别方法
CN109344618B (zh) 一种基于深度森林的恶意代码分类方法
CN110084159A (zh) 基于联合多级空谱信息cnn的高光谱图像分类方法
CN109726725B (zh) 一种基于大间隔类间互异性多核学习的油画作者识别方法
CN108154094B (zh) 基于子区间划分的高光谱图像非监督波段选择方法
CN111785329A (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Wang et al. Laplacian LRR on product Grassmann manifolds for human activity clustering in multicamera video surveillance
Pu et al. Estimation of crowd density in surveillance scenes based on deep convolutional neural network
Guo et al. Network pruning for remote sensing images classification based on interpretable CNNs
CN106778885A (zh) 基于局部流形嵌入的高光谱图像分类方法
Cerri et al. SHREC'13 Track: Retrieval on Textured 3D Models.
Jiang et al. Supervised dictionary learning for blind image quality assessment using quality-constraint sparse coding
Zhang et al. Image classification by search with explicitly and implicitly semantic representations
CN111680579B (zh) 一种自适应权重多视角度量学习的遥感图像分类方法
Song et al. Quaternionic extended local binary pattern with adaptive structural pyramid pooling for color image representation
Li et al. Codemaps-segment, classify and search objects locally
CN106156728B (zh) 基于光谱空间分解和噪声成分分析的超光谱图像降维方法及系统
CN108985346B (zh) 融合低层图像特征及cnn特征的现勘图像检索方法
CN111414958B (zh) 一种视觉词袋金字塔的多特征图像分类方法及系统
Liu et al. A band influence algorithm for hyperspectral band selection to classify moldy peanuts
Wang et al. A multi-label hyperspectral image classification method with deep learning features
Tian et al. Support vector machine with mixture of kernels for image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230103

Address after: 210046 C4-402 Zidong International Creative Park, Maqun Street, Qixia District, Nanjing, Jiangsu

Patentee after: Nanjing yingshixing Big Data Technology Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Patentee before: XI'AN University OF TECHNOLOGY

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A binary classification prediction method for image interest based on discriminant analysis and multi kernel learning

Effective date of registration: 20230411

Granted publication date: 20221004

Pledgee: Nanjing Zidong sub branch of Bank of Nanjing Co.,Ltd.

Pledgor: Nanjing yingshixing Big Data Technology Co.,Ltd.

Registration number: Y2023980037739

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20221004

Pledgee: Nanjing Zidong sub branch of Bank of Nanjing Co.,Ltd.

Pledgor: Nanjing yingshixing Big Data Technology Co.,Ltd.

Registration number: Y2023980037739

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A binary classification prediction method for image interest based on discriminant analysis and multi-core learning

Granted publication date: 20221004

Pledgee: Nanjing Zidong sub branch of Bank of Nanjing Co.,Ltd.

Pledgor: Nanjing yingshixing Big Data Technology Co.,Ltd.

Registration number: Y2024980006644

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20221004

Pledgee: Nanjing Zidong sub branch of Bank of Nanjing Co.,Ltd.

Pledgor: Nanjing yingshixing Big Data Technology Co.,Ltd.

Registration number: Y2024980006644

PC01 Cancellation of the registration of the contract for pledge of patent right