CN111325290B

CN111325290B - 一种基于多视融合多示例学习的国画图像分类方法

Info

Publication number: CN111325290B
Application number: CN202010202342.7A
Authority: CN
Inventors: 李大湘; 李阳; 孟锐; 陈梦思; 王小毓
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2023-06-06
Anticipated expiration: 2040-03-20
Also published as: CN111325290A

Abstract

本发明涉及图像分类技术领域，公开了一种基于多视融合多示例学习的国画图像分类方法，包括以下步骤：S1、分类器训练；S11、输入训练图像集；S12、对训练图像集T中的每一幅图像IMG_i，进行分块，将图像集构造成三个不同的多示例包；S13、多视特征提取；S14、SoftMax分类器训练；S2、分类识别阶段；用多视融合多示例学习分类器θ来预测待识别图像属于每类的后验概率，以实现对国画进行分类识别，这种国画图像分类方法，更能表达图像所包含的各种高层语义及相互关系，能让不同性质的图像视觉特征在国画图像分类中发挥相同的作用，降低用户使用本技术方案的难度。

Description

一种基于多视融合多示例学习的国画图像分类方法

技术领域

本发明涉及图像分类技术领域，特别涉及一种基于多视融合多示例学习的国画图像分类方法。

背景技术

许多传统书画现存数量很少且十分珍贵，且大部分作品分布于世界各地的博物馆中。但随着计算机网络的发展与普及，通过数字化形式浏览和查阅中国古书画，人们不但能欣赏到优秀的、大师级的国画作品，而且国画鉴定人员还可以获得更多的信息，提高真伪鉴定的准确性。另外，由于国画的种类繁多，自古到今有大量的名人名作出现，随着数字化技术的发展，国画数字图像的数量也将会以惊人的速度增长，数字博物馆或数字图书馆为了便于大家查找或浏览各自感兴趣的国画图像，就得建立高效的存储与管理系统。因此,对国画图像的特征提取与自动分类技术进行研究，具有重要应用价值。

随着互联网技术和国画事业的蓬勃发展，如何对海量的艺术作品实现高效的管理和检索成为迫切需要解决的问题。国画作为中国文化艺术的瑰宝，受到人们越来越多的关注，早期的国画图像分类技术局限在人工标注，工作量庞大，且标注精度不高。因此，通过计算机自动分析国画图像内容以实现对国画的数字化管理技术应运而生，其中，国画图像分类技术是数字化管理系统的重要组成部分，具有重要应用价值。

国画是使用毛笔和墨在绢、宣纸、帛上作的画，属于中国传统绘画形式之一，它用其特有的笔墨绘画技巧为人们展示对象的神色、形态、风韵。国画的分类方式多样，按照内容，可分为花鸟画、古树画、江南水乡、人物画、水墨画等。国画注重意境，讲究借景抒情或托物言志，因此，对于不同的绘画内容，国画的表现手法也大不相同文献[1]徐茜.浅析国画艺术的意境表现手法[J].大众文艺,2012(22):25-26。

目前对国画图像分类的相关算法可分为两种：基于浅层特征和基于深度学习的分类方法.文献[2]Lee,SG,Cha,et al.Style classification andvisualization ofartpainting's genre using self-organizing maps[J].Human centric computing andinformation sciences,2016,6(7):1-11.基于颜色的统计计算提取图像全局特征，并通过分隔绘画对象提取图像结构特征，实现分类.文献[3]M.J.Sun,D.Zang,Z.Wang,etal.Monte Carlo Convex Hull Model for Classification ofTraditional

Chinese Paintings[J].Neuro computig,2016,171(1):788-797.采用蒙特卡洛凸壳特征选择模型来整合基础特征描述子，再使用支持向量机对不同艺术家的作品实现分类。文献[4]高峰,聂婕,黄磊,段凌宇等.基于表现手法的国画分类方法研究[J].计算机学报.2017,40(12)：2871-2882.提出融合SIFT特征检测子和边缘检测得到国画关键区域，对关键区域视觉特征及内部领域差异性进行描述得到图像特征，采用融合不同维度特征，级联分类策略实现分类。文献[5]陈俊杰,杜雅娟,李海芳,中国画的特征提取及分类[J].计算机工程与应用,2008,44(15):166-169.分析国画图像的多维低阶特征与高阶语义之间的相关性,采用支持向量机实现语义分类。文献[6]J.Li,J.Z.Wang.Studing digitalimageryofancientpaintings by mixtures ofstachastic odels[J].IEEE Transactionson Image Processing,2004,13(3):340-35.设计了对中国画分类的通用框架，用混合二维多分辨率马尔科夫模型(MHMM)来表示不同艺术家的笔画属性实现分类。文献[7]盛家川,基于小波变换的国画特征提取及分类[J]，计算机科学，2014,41(2):317-319.提出在小波域内利用不同分辨率及频带的图像结构所展现的艺术风格的不同表现形式来获得国画艺术深度信息的方法，再利用3种不同的分类器进行分类.文献[8]J.C.Sheng,J.M.Jiang,Recognition of Chinese artists via windowed and entropy balanced fusion inclassification oftheir authored ink and washpaintings(IWPs)[J].PatternRecognition,2014,47(2):612-622提出提取基于直方图的局部特征来表示国画图像风格，并设计了一种窗口和熵平衡的融合方案优化分类结果。这类方法通常是利用人工经验或特征转换来抽取特征，对算法性能带来了限制，基于深度学习的方法克服了此问题，文献[9]KevinAlfianto Jangtjik,Trang-Thi Ho,Mei-Chen Yeh,et al.ACNN-LSTM frameworkfor authorship classification of paintings[C].2017IEEE InternationalConference on Image Processing,Beijing:China,2017:2866-2870.提出构造国画图像的多尺度金字塔，再学习SH-CNN模型返回多个标签，采用自适应融合方法实现分类。文献[10]M.J.Sun,D.Zhang,J.C.Ren,et al.Brushstroke based sparse hybridconvolutional neural networks for author classification ofChinese ink-washpaintings[C].2015IEEE Internatio-nal Conference on Image Processing(ICIP),Quebec,Canada.2015:626-630.提出基于稀疏编码混合深度学习神经网络的方法从中国水墨画的笔划中提取不同画家作画风格特征从而实现分类。文献[11]盛家川，李玉芝.国画的艺术目标分割及深度学习与分类[J].中国图象图形学报，2018，23(8):1193-1206.将国画对象通过最大相似度区域合并分割成艺术目标，利用深度卷积神经网络(O-CNN)描述其语义特征，最后引入支持向量机对艺术目标进行分类.国画中基于深度学习使上述算法在分类精度和速度都有所提高，但是对国画图像局部表现手法的分析研究较少。

随着数字化技术的发展，中国画数字图像的数量越来越多，且还在以惊人的速度增长，特别是随着中国画图像数字博物馆或数字图书馆的建立，则利用计算机对中国画数字图像进行自动分类，在国画管理与真伪鉴定应用中具有重要意义。为了帮助中国画鉴定人员提高真伪鉴定的效率与准确性。本发明研究了一种基于多示例学习(MIL)的国画图像分类方法，实现对国画图像风格类型及细节信息的自动捕获，建立国画风格分类模型，实现国画图像自动分类功能。项目的研究成果也可用于刑侦、打击文物走私等领域，在保护我国的珍贵文化遗产中具有重要意义。

随着互联网技术和国画事业的蓬勃发展，如何对海量数字化的艺术作品实现高效的分类与管理，已成为数字图书馆与数字博物馆迫切需要解决的问题。国画作为中国文化艺术的瑰宝，受到人们越来越多的关注，早期的国画图像分类技术局限在人工标注，工作量庞大且标注精度不高。因此，通过计算机自动分析国画图像的手笔手法与绘画风格，以实现对国画的数字化管理应运而生，其中，图画国像自动分类作为管理系统的重要组成部分，具有重要意义。

近年来，随着多媒体、计算机、通信、Internet技术的迅速发展，已有国画图像分类方法主要是基于内容的方法，即根据国画图像所包含的色彩、纹理、形状等信息，直观地比较国画图像特征之间的相似度，从而实现分类。这些方法并不试图分析国画图像所表达的语义知识,很难满足国画图像分类的应用需求。所以，基于内容的国画图像分类存在着很多问题有待解决。实际上，传统的低层视觉特征并不能很好的表达国画图像的内在语义，人们判断国画图像的相似性并非仅仅建立在图像视觉特征的相似性上，而主要根据国画图像的局部表现手法及整体风格，而不是简单的颜色、形状、纹理等全局特征。

要实现国画图像自动分类，要解决的技术问题有：

(1)国画图像的特征提取问题。由于“语义鸿沟”的存在，在国画图像分类时，单纯利用国画图像的全局视觉特征，很难全方位地反映国画图像的局部表现手法而实现风格分类。

(2)没有考虑不同特征存在性质差异的问题。在国画图像特征提取，通常是把不同性质的底层视觉特征串联起来作为一个整体来使用，没有将不同性质的特征分开处理，因为不同性质的特征其提取原理不同，在数值上会存在很大的差异，则导致不同特征因数值上的较大差异而发生特征淹没的问题，即数值小的特征被数值大的特征淹没掉，在分类过程中发挥不出应有的作用。

(3)国画图像的语义学习问题。与传统的自然场景图像不同，国画图像的特点是“以形写神”，其语义信息更加抽象和丰富。因此，为了在国画图像的底层特征与高层语义之间对立可靠的联系，就得设计鲁棒的机器学习方法。

总之，要对国画图像实现自动分类与管理，已经成为中国画数字博物馆与数字图书馆领域一个极具挑战性且亟待解决的关键问题，具有重要应用价值。

发明内容

本发明提供一种基于多视融合多示例学习的国画图像分类方法，更能表达图像所包含的各种高层语义及相互关系，能让不同的特征在国画图像分类中发挥相同的作用，降低用户使用本技术方案的难度。

本发明提供了一种基于多视融合多示例学习的国画图像分类方法，包括以下步骤：

S1、分类器训练

S11、输入训练图像集T＝{(IMG_i,y_i):i＝1,2,...,N}，其中IMG_i表示第i幅图像，y_i∈{1,2,...,C}表示第i个图像标记,C表示图像类别数，N表示训练图像的数量；

S12、对训练图像集T中的每一幅图像IMG_i，进行分块，并提取每个分块的三种不同性质的局部视觉特征，将图像集构造成三个不同的多示例包，即颜色包Bc_i、纹理包Bt_i与形状包Bs_i，得到三种多示例学习MIL训练数据集Tc、Tt与Ts；

S13、多视特征提取

分别基于三种多示例学习MIL训练数据集Tc、Tt与Ts，计算每个多示例包的单视特征，单视特征即颜色特征

纹理特征/>

与形状特征/>

然后，将三种单视特征串联融合在一起记为b_i，称为多视特征；

S14、SoftMax分类器训练

基于所有训练图像的多视特征b_i与标记y_i，组织成训练数据集

由训练数据集

中的所有多视特征与标记，采用SoftMax回归算法，训练得到最终的多视融合多示例学习分类器θ；

S2、分类阶段

设IMG表示任意一幅待分类的国画图像，首先获得它的多视特征，然后，用多视融合多示例学习分类器θ来预测任意一幅待分类的国画图像属于每个图像类别的后验概率，对它进行分类识别。

上述步骤S12中构造三个不同的多示例包的具体方法为：

S121、采用金字塔有重叠网格分块的方法对图像进行自动分块；

输入图像IMG、分块的高度H、宽度W、步长Stp和图像缩小比率α；

根据分块的高度H、宽度W和步长Stp对输入图像IMG进行分块；

将分块后的图像IMG按比率α进行缩小，当图像IMG缩小到设定像素时，停止分块；

S122、提取每个分块的颜色、纹理和形状三种不同性质的底层视觉特征，构造成三个不同的多示例包。

上述步骤S122中的颜色、纹理和形状三种不同性质的底层视觉特征提取的具体方法为：

S1221、HSV非均匀量化颜色直方图特征提取；

采用更符合人眼色彩视觉特征的HSV颜色模型，首先将图像的r,g,b值转换为h,s,v值，h∈[0,360]，v∈[0,1]，s∈[0,1]，根据HSV模型的特性作如下的非均匀量化：

(1)黑色：对于亮度v<0.1的颜色认为是黑色；

(2)白色：对于饱和度s<0.1且亮度v>0.9的颜色认为是白色；

(3)彩色：把位于黑色与白色区域之外的颜色，依色度Hue的不同，以20，40，75，155，190，270，295，316为分界点，划分为8个区间，再结合饱合度s以0.6为分界点，每个区间分成2种颜色，则形成16种不同的彩色信息；

S1222、Gabor纹理特征提取；

根据尺度和方向建立Gabor滤波器组，Gabor滤波器组包括多个Gabor滤波器；

Gabor滤波器组与每个分块图像在空域卷积，每个分块图像得到多个Gabor滤波器输出；

利用每个分块图像输出系数的均值与方差，得到多维的特征向量作为该分块图像块的纹理特征；

S1223、SIFT描述子形状特征提取；

对于每个图像分块，为了使SIFT描述子对图像旋转具有不变性，计算每个图像分块每个像素的梯度模值与方向角；

使用每个图像分块所有像素的梯度模值及方向角，统计每个图像分块所有像素的梯度方向直方图；梯度方向直方图的峰值则代表了每个图像分块梯度的主方向；将坐标轴旋转为该图像分块的主方向，再使用多个种子点，且在每个种子多个邻域计算多个方向的梯度方向直方图，则对于任一个分块，产生多个数据，即多维的SIFT描述子，用于表示图像块的局部结构形状特征。

上述步骤S13中多视特征提取的具体步骤为：

第一步：基于自适应非线性投影的单视特征提取

设由颜色特征组成的多示例训练包为：

Tc＝{(Bc_i,y_i):i＝1,2,...,N} (1)

式(1)中，Bc_i＝{Cx_ij|j＝1,...,n_i}表示第i幅图像IMG_i对应的颜色多示例包，n_i表示第i幅图像IMG_i被划分的块数，Cx_ij表示第i幅图像的第j个示例；N表示图像总数；则采用如下所述自适应非线性投影方法提取Tc中每个多示例包的单视特征；

构造视觉投影空间；

将Tc中所有多示例包的所有示例排在一起，称为示例集，记作

IntSet＝{Xc_t|t＝1,2,...,P.} (2)

其中

为示例的总数，采用K-Means聚类方法对IntSet中所有示例聚成K类，称每个聚类中心为视觉单词，所有视觉单词放在一起，记为Ω＝{w₁,w₂,...,w_K}，称Ω为视觉投影空间，K表示聚类中心的个数，w_k为第k个聚类中心k＝1,2,...,K；

自适应非线性投影单视特征提取；

为了获得每幅国画图像颜色多示例包所对应的单视特征，设计一个自适应非线性投影函数，用于提取多示例包的单视特征，由此将多示例包转化成单个代表向量，然后用监督学习方法求解多示例学习MIL问题，具体技术方案如下：

设Ω＝{w₁,w₂,...,w_K}表示从多示例训练包Tc构建的视觉投影空间，其中w_k表示第k个视觉单词，K表示视觉单词的总数，首先，定义w_k与多示例包Bc_i＝{Cx_i,j|j＝1,2,...,n_i}之间的最大与最小欧氏距离为：

然后，多示例包Bc_i的单视特征计算方法定义为：

其中,s(w_k,Bc_i)由二个值组成，即exp(-D_min(w_k,Bc_i)/δ)与exp(-D_max(w_k,Bc_i)/δ)，它们反映的是当前多示例包Bc_i包含有视觉单词w_k的似然概率，因为在图像分类问题中，最大似然与最小似然具有相同的重要性，所以在单视特征提取过程中同时使用二者，以提高图像分类的精度，值得注意的是：在式(4)中，δ是一个必须预先设定的尺度因子，它的功能就是用于调节s(w_k,Bc_i)在取值区间[0,1]内分布的合理性，以提高国画图像分类精度；

为了增加算法的自适应能力，本发明设计了如下自适应计算方案，即“尺度因子自适应方案”，具体技术方案步骤如下：

IntSet＝{Xc_t|t＝1,2,...,P.} (5)

其中

为示例的总数；

对于IntSet中每一个示例Xc_t，在视觉投影空间Ω＝{w₁,w₂,...,w_K}中计算与示例Xc_t最近邻视觉单词之间的欧氏距离，记为Dist(Xc_t)，则尺度因子δ为：

第二步：多视特征计算即单视特征融合

训练图像集除了生成式(1)所示的“颜色包”之外，还有纹理示例包与形状示例包，记为：

同理，采用上述相同方法，也可求得任意纹理包Bt_i与形状包Bs_i的单视特征，记为：

然后，将

与/>

串联融合在一起，则称为多视特征，记为：

总之，通过上述多视特征提取方法，将图像的3种多示例包转化成一个特征向量，从而得到图像IMG_i的最终特征表示b_i，若颜色、纹理与形状训练集Tc、Tt、Ts所对应的视觉单词个数均为K时，则融合之后的多视特征

是一个3K维的特征列向量。

上述步骤S14中SoftMax分类器训练方法具体为：

设T＝{(IMG_i,y_i):i＝1,2,...,N}为训练图像集，其中IMG_i表示第i幅图像，y_i∈{1,2,...,C}表示其标号,C表示图像类别数，N表示训练图像的数量，通过多包建模及多视特征提取，则转化成训练数据集

其中b_i表示由式(9)得到的多视特征，L_i＝[p_i1,...,p_ic,...,p_iC]^T∈R^C×1表示标签向量，即当图像的标签y_i＝c时，则L_i第c个维度上的值p_ic＝1，其他所有维度上的值全为0，对于任意图像的多视特征b，根据SoftMax回归算法原理，通过式(10)所示函数h_θ(b)来计算其属于每个图像类别的后验概率p(c|b；θ),c＝1,2,...,C，即：

其中θ＝[θ₁,θ₂,…,θ_C]^T∈R^C×d表示模型参数，d表示特征维度，p(c|b；θ)表示多视特征b属于第c类的后验概率c＝1,2,...,C，

表示归一化函数，SoftMax回归算法就是通过对训练数据集/>

进行有监督学习，从而得到参数θ＝[θ₁,θ₂,…,θ_C]^Τ的最优估计，称θ为用于国画图像分类的多视融合多示例学习分类器。

与现有技术相比，本发明的有益效果在于：

(1)MIL与传统的有监督单示例学习框架不同，它的训练样本称为包(bag)，每个包中含有数量不等的示例(instance),所以，包中的多个示例比起单个示例来说，更能表达图像所包含的各种高层语义及相互关系，特别适合处理训练样本标注信息不完整、图像语义模糊与训练样本存在歧义等情况的模糊学习问题。

(2)本发明设计的底层特征分开的多包多示例建模技术方案，不同特征将被分开处理，可以避免不同性质的特征在数值上存在较大差异而导致特征淹没，能让不同的特征在国画图像分类中发挥相同的作用。应用实验也证明了本发明设计的多包多示例建模方案在MIL中是有效的，性能优于传统的单包多示例建模方案。

(3)设计自适应多视特征提取技术方案，不但可以利于图像的不同视觉属性从不同的角度对国画图像进行鉴别区分及语义表征，而且还让整个算法具有较强的自适应能力，降低用户使用本技术方案的难度。应用实验证明：将3种单视特征串联融合起来，得到最终的多视特征用于对国画图像进行表征，较之基于单视特征的国画图像分类，性能也更好。

附图说明

图1为本发明提供的一种基于多视融合多示例学习的国画图像分类方法中金字塔分块多包多示例建模流程示意图。

图2为本发明提供的一种基于多视融合多示例学习的国画图像分类方法中多视特提取流程示意图。

具体实施方式

下面结合附图1-2，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明提供的一种基于多视融合多示例学习的国画图像分类方法，包括以下步骤：

1)训练阶段

输入：训练图像集T＝{(IMG_i,y_i):i＝1,2,...,N}，K-Means聚类数量K；

输出:基于SoftMax多示例分类器θ；

Step 1：金字塔分块多包多示例建模：

对T中任意图像IMG_i，用图1所示方法，将其转化成三种不同的多示例包，即颜色包Bc_i、纹理包Bt_i与形状包Bs_i，则得到三种MIL训练集，记为式(2.1)形式；

Step 2：多视特征提取

首先，采用单视特征提取所述技术方案，分别基于三种MIL训练数据Tc、Tt与Ts，计算每个多示例包的单视特征

与/>

Step 3:SoftMax分类器训练

首先，基于所有训练图像的多视特征b_i与标签y_i，组织成训练数据集

然后，由/>

中的数据与标签，采用SoftMax回归算法，训练得到最终的多视融合多示例学习分类器θ。

2)分类阶段

设IMG表示任意一幅待分类的国画图像.首先,采用上述相同方法计算它的多视特征，然后，用分类器θ来预测它属于每类的后验概率，以实现对它进行分类识别。

1、输入模块：训练图像集T＝{(IMG_i,y_i):i＝1,2,...,N}，聚类个数K；

2、金字塔分块多包多示例建模模块

对训练图像集T中的每一幅图像IMG_i，采用金字塔方式进行分块，并提取每个分块3种不同性质的局部视觉特征，将图像构造成3个不同的多示例包；

3、自适应多视特征提取模块

首先，采用聚类方法构造视觉投影空间，然后，新设计了一个自适应“投影特征”计算方法，用提取多示例包的多视特征，用来作为多示例包的表征向量。

4、基于SoftMax多示例学习模块

基于SoftMax算法，设计了一种多视融合多示例学习算法，用于训练国画图像分类器θ；

5、输出模块：分类器θ。

一、金字塔多包多示例建模模块具体方法

为了能将国画图像不同性质的底层视觉特征分开对待，本发明设计了一种多包多示例建模方案。首先，采用“金字塔有重叠网格分块”的方法对图像进行自动分块；然后，再提取每个分块的颜色、纹理、形状等不同性质的底层视觉特征，分别建立成3个多示例包，从而将国画图像分类问题转化成MIL问题。具体是：

算法：金字塔分块多包多示例建模技术方案

输入：图像IMG，分块的高度H与宽度W，步长Stp,图像缩小比率α；

输出：多个多示例包

Step1：当图像I的高度大于50，且宽度大于50

Forr＝1:Stp:图像I的高度-H

For c＝1:Stp:图像I的高度-W

①局部块R＝IMG(r:r+H,c:c+W)；

②提取R的3种底层视觉特征，作为示例添加到相应的多示例包中；

End r

End c

Step2：将图像I按比率α进行缩小，返回Step1；

Step3：建模结束，输出图像I对应的3个由不同视觉特征构成的多示例包。

如图1所示，是多包多示例建模示意图，应用实验中，块大小H与W均设置为16像素，块从左往右、从上往下移动步长Stp设置为6像素，图像缩小比率α设置为0.5，当图像缩小到50像素或以下时，则分块停止。

设Img为任意一幅国画图像，其被划分成为m个子块{R_j:j＝1,2,...,m}，则将Img图像分别由颜色、纹理与形状等三种不同的底层视觉特征组织成3个多示例包，记为：

/>

其中Cx_j表示R_j的HSV颜色直方图特征；Tx_j表示R_j的Gabor纹理特征；Sx_j表示R_j的128维SIFT描述子特征。该基于金字塔分块的多包多示例建模技术方案，较之传统基于“图像分割”的单包多示例建模方案，优点有：

(1)简单高效，且普适性与鲁棒性更强，能够从不同的分辨率获取图像的局部信息；

(2)底层特征分开的多包MIL建模，不同特征将被分开处理，一则可避免特征在数值上的较大差异而导致特征淹没，二则可利于后续的多视结构化特征提取与融合。

在上述多包多示例建模过程中，将图像划分不同的小块之后，要提取每个小块3种不同的底层视觉特征，这3种特征的具体提取方法分别是：

1、HSV非均匀量化颜色直方图特征提取方法

RGB颜色空间与人眼的感知差别很大，本发明采用更符合人眼色彩视觉特征的HSV颜色模型，首先将图像的r,g,b值转换为h,s,v值(h∈[0,360]，v∈[0,1]，s∈[0,1])，根据HSV模型的特性作如下改进的非均匀量化：

(1)黑色：对于亮度v<0.1的颜色认为是黑色；

(2)白色：对于饱和度s<0.1且亮度v>0.9的颜色认为是白色；

(3)彩色：把位于黑色与白色区域之外的颜色依色度(Hue)的不同，以20，40，75，155，190，270，295，316为分界点，划分为8个区间，再结合饱合度s以0.6为分界点，分成2种，则形成16种不同的彩色信息。.

通过上述方法将HSV颜色空间量化成18种代表色，有效地压缩了颜色特征，且能更好地符合人眼对颜色的感知特性。然后，统计每个分块区域这18种颜色出现的频率，从而得到18维的HSV颜色直方图，用于描述图像区域的颜色特征，即对图像第j个分块R_j可得到它的18维HSV颜色直方图特征，记为：记为：

Cx_j＝{C_i:i＝1,2,..,18} (12)

2、Gabor纹理特征提取方法：

Gabor纹理提取方法的主要思想是：不同纹理一般具有不同的中心频率及带宽，根据这些频率和带宽可以设计一组Gabor滤波器对纹理图像进行滤波，每个Gabor滤波器只允许与其频率相对应的纹理顺利通过，而使其他纹理的能量受到抑制，从各滤波器的输出结果中分析和提取纹理特征，用于之后的分类或分割任务。Gabor滤波器提取纹理特征主要包括两个过程：①设计滤波器(例如函数、数目、方向和间隔)；②从滤波器的输出结果中提取有效纹理特征集。Gabor滤波器是带通滤波器，它的单位冲激响应函数(Gabor函数)是高斯函数与复指数函的乘积。它是达到时频测不准关系下界的函数，具有最好地兼顾信号在时频域的分辨能力。

利用Gabor滤波器组，实现纹理特征提取的步骤如下：

(1)建立Gabor滤波器组：选择4个尺度，6个方向，这样组成了24个Gabor滤波器；

(2)Gabor滤波器组与每个图像块在空域卷积，每个图像块可以得到24个滤波器输出；

(3)每个图像块经过Gabor滤波器组的24个输出，利用这些输出系数的“均值”与“方差”，共48维的特征向量作为该图像块的纹理特征。

通过上述方法，对图像第j个分块R_j可得到它的48维Gabor纹理特征，记为：

Tx_j＝{(u_t,σ_t)|t＝1,2,...,24} (13)

其中，u_t,σ_t分别表示第t个滤波器输出系数的均值与方差。

3、SIFT描述子形状特征提取方法

对于每个16×16的图像小块R(x,y)，为了使SIFT描述子对图像旋转具有不变性。可以计算每个像素的梯度模值与方向角，如下：

然后，使用该小块所有像素的梯度及方向分布的特性，统计小块R(x,y)所有像素的梯度方向角直方图。梯度直方图的范围是0～360度，其中每10度一个方向，总共36个方向。直方图的峰值则代表了该小块R(x,y)梯度的主方向；最后，为了给每个小块R(x,y)建立一个描述符，且使其不随光照、视角变化而变化。将坐标轴旋转为该小块R(x,y)的主方向，再使用4×4共16个种子点，且在每个种子4×4的邻域计算8个方向的梯度方向直方图，则对于第j个分块R_j，可以产生128个数据，即128维的SIFT描述子，用于表示图像块R_j的局部结构形状特征。记为：

Sx_j＝{h_t|t＝1,2,...,128} (15)。

二、自适应多视特征提取模块具体方法

设T＝{(IMG_i,y_i):i＝1,2,...,N}表示国画图像分类训练图像集,其中N表示训练图像的数量，y_i∈{1,2,...,C}表示第i幅图像IMG_i的类别标号，C表示图像类别数。由上述“多包多示例建模模块”所述技术方案，每幅训练图像将生成3个不同性质的“多示例包”，则可以获得3种不同的训练数据集，记为：

其中Bc_i、Bt_i与Bs_i分别表示第i幅图像IMG_i对应的颜色、纹理与形状特征对应的“多示例包”，n_i表示其被划分的块数。

不防将不同性质底层特征组成的“多示例包”当作观察国画图像的一个视角(view)，本发明设计了一种多视特征提取方法，以从多个视角描述国画图像的性质而提高分类精度。

本发明提出的多视特征提取技术方案，其主要包括如下2个步骤，即：

第一步：基于自适应非线性投影的单视特征提取

这里不妨设由颜色特征组成的多示例训练包为：

Tc＝{(Bc_i,y_i):i＝1,2,...,N} (1)

其中Bc_i＝{Cx_ij|j＝1,...,n_i}表示第i幅图像IMG_i对应的颜色多示例包，n_i表示其被划分的块数，

为包中的第j个示例(如18维的HSV直方图)。则采用如下所述自适应非线性投影方法提取Tc中每个多示例包的单视特征。

构造视觉投影空间

IntSet＝{Xc_t|t＝1,2,...,P.} (2)

其中

为示例的总数。采用K-Means聚类方法对IntSet中所有示例聚成K类，称每个聚类中心为视觉单词，所有聚类中心放在一起，记为Ω＝{w₁,w₂,...,w_K}，本发明称Ω为视觉投影空间，K表示聚类中心的个数，w_k(k＝1,2,...,K)为第k个聚类中心；

自应用非线性投影单视特征提取

为了获得每幅国画图像颜色“多示例包”所对应的单视特征，本发明设计一个自适应非线性投影函数，用于提取多示例的单视特征，由此将多示例包转化成单个“代表向量”，然后用后续有监督学习方法求解MIL问题。具体技术方案如下：

设Ω＝{w₁,w₂,...,w_K}表示从多示例训练包T_c构建的“视觉投影空间”，其中w_k表示第k个视觉单词”，K表示视觉单词”的总数。首先，定义w_i与多示例包Bc_i＝{Cx_i,j|j＝1,2,...,n_i}之间的最大与最小欧氏距离为：

然后，多示例包Bc_i的单视特征计算方法定义为(本发明要保护的技术点1)：

其中,s(w_t,Bc_i)由二个值组成，即exp(-D_min(w_t,Bc_i)/δ)与exp(-D_max(w_t,Bc_i)/δ)，它们反映的是当前多示例包Bc_i包含有视觉单词”w_k的似然概率，因为在图像分类问题中，最大似然与最小似然具有相同的重要性，所以在本发明的单视特征提取过程中同时使用二者，以提高图像分类的精度。值得注意的是：在式(2.5)中，δ是一个必须预先设定的尺度因子，它的功能就是用于调节s(w_t,Bc_i)在取值区间[0,1]分布的合理性，以提高国画图像分类精度。

但是，如果该尺度因子δ设置不合理，则会影响算法的分类精度；同时，要让非专业的普通用户去设置一个合理的δ，也非常困难。所以，本发明为了增加算法的自适应能力，设计了如下自适应计算方案，即“尺度因子自适应方案”，具体技术方案步骤如下：

IntSet＝{Xc_t|t＝1,2,...,P.} (5)

其中

为示例的总数；

对于IntSet中每一个示例Xc_t，在Ω＝{w₁,w₂,...,w_K}中计算与它最近邻视觉单词”之间的欧氏距离，记为Dist(Xc_t)，则尺度因子δ为：

通过上述方法，本发明的算法能自动根据示例分布的疏密程度,自动调节尺度因子δ,使多示例包对应的单视特征分布更加合理，从而增加算法的自适应能力，应用实验中验证了使用该方案自适应尺度因子δ，一则可降低用户使用整个算法的难度，二则该方案也极大地增强了整个算法的自适应能力与鲁棒性。

第二步：多视特征(即单视特征融合)

由图1所示多包多示例建模技术方案，训练图像集除了可以生成式(3)所示的“颜色包”之外，还有“纹理”与“形状”等多示例包，记为：

然后，将

与/>

串联融合在一起，则称为多视特征，记为：

总之，通过上述多视特征提取方法，可以将图像的3个多示例包被转化成一个特征向量，从而得到图像IMG_i的最终特征表示b_i。若颜色、纹理与形状训练集Tc、Tt、Ts所对应的”视觉单词”个数均为K时，则融合之后的多视特征

是一个3K维的特征列向量。本发明设计的多视特征提取方法，其优势是：

①将多个多示例包转化成单个的特征向量，由此将多包MIL转化成有监督学习问题，从而能用标准的有监督学习方法对多包MIL问题进行求解；

视特征在构造过程中利用了多个包中所有视觉特征及其相互关系，相当于“视觉语义融合特征”，能更加有效地表征国画图像所蕴含的语义信息，在图像分类问题中更具语义区分能力。

上述多视特征提取流程如图2所示。

三、基于SoftMax的多示例学习模块

设T＝{(IMG_i,y_i):i＝1,2,...,N}为训练图像集，其中IMG_i表示第i幅图像，y_i∈{1,2,...,C}表示其标号,C表示图像类别数，N表示训练图像的数量。通过图1所示多包建模及图2所示多视特征提取，则转化成训练数据集

其中b_i表示由式(9)得到的多视特征(不防设其为一个d维的列向量)，L_i＝[p_i1,...,p_ic,...,p_iC]^T∈R^C×1表示标签向量，即当图像的标签y_i＝c时，则L_i第c个维度上的值p_ic＝1，其他所有维度上的值全为0。对于任意图像的多视特征b，根据SoftMax]回归算法原理，可以通过式(10)所示函数h_θ(b)来计算其属于每个图像类别的后验概率p(c|b；θ),c＝1,2,...,C，即：

其中θ＝[θ₁,θ₂,…,θ_C]^T∈R^C×d表示模型参数，d表示特征维度，p(c|b；θ)表示多视特征b属于第c(c＝1,2,...,C)类的后验概率，

表示归一化函数。SoftMax回归算法就是通过对训练数据集/>

进行有监督学习，从而得到参数θ＝[θ₁,θ₂,…,θ_C]^Τ的最优估计，本发明中称θ为用于国画图像分类的多视融合多示例学习分类器。

本发明在深入分析和研究传统中国画在数字化后所形成的数字图像的基础上，包括艺术风格、绘画技巧，用笔手法以及数字表示等领域，对国画图像特征提取技术进行了深入研究。其重点是设计多尺度多视角特征提取技术，用于对国画的图像的内在语义进行表示，然后，设计一种决策融合的国画图像分类算法，用于在国画图像底层视觉特征与高层语义之间建立联系。涉及的主要技术如下：①多尺度国画图像局部特征提取方法；②多角度多视特征提取方法；③基于SoftMax的决策融合机器学习方法。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。