CN103761295B

CN103761295B - 基于图片自动分类的艺术类图片的定制化特征量提取方法

Info

Publication number: CN103761295B
Application number: CN201410021554.XA
Authority: CN
Inventors: 贾志华; 杨子君; 那维; 杨昊; 杨晟; 葛侬
Original assignee: BEIJING ARTRON ART PRINTING Co Ltd; BEIJING RUITIAN TECHNOLOGY Co Ltd; BEIJING ARTRON CULTURE DEVELOPMENT Co Ltd
Current assignee: ARTRON ART (GROUP) CO.,LTD.; BEIJING ARTRON ART PRINTING Co.,Ltd.; Beijing Reelsky Data Technology Ltd.; Beijing Yachang art data Co.,Ltd.
Priority date: 2014-01-16
Filing date: 2014-01-16
Publication date: 2017-01-11
Anticipated expiration: 2034-01-16
Also published as: CN103761295A

Abstract

本发明提供基于图片自动分类的艺术类图片的定制化特征量提取方法，包括图片自动分类和特征量智能提取：图片自动分类首先提取已分类图片库的通用特征量，然后构建出艺术类图片的待验证分类模型，待验证分类模型被验证满足要求后可用于对未分类图片进行自动分类；特征量智能提取首先通过分类模型对待分类图片库进行自动分类，然后对不同类别的艺术类图片进行定制化特征量的智能提取以用于图像搜索。本发明可实现对未分类的艺术类图片进行分类精度高的自动分类，比传统的方法更能准确反映图片的特征，从而大大提高了艺术类图像的搜索精度。

Description

基于图片自动分类的艺术类图片的定制化特征量提取方法

技术领域

本发明涉及艺术类图片特征量的智能提取方法，具体涉及基于图片自动分类的艺术类图片的定制化特征量提取方法。

背景技术

随着互联网尤其是移动互联网中多媒体内容的日益丰富，单纯以文字为基础的搜索系统已不能满足用户对多媒体内容的搜索。基于内容的多媒体信息检索一直是相关领域关注和研究的热点和关键技术。基于内容的多媒体信息检索目前仍然存在大量的技术难点没有得到有效解决，其中典型的难点之一就是如何弥合人脑与电脑对图片解读方式的巨大鸿沟。

数字化后的图像数据的是一组天文数字级别的数组，以一幅256×256的低分辨率图像为例，每个像素点的可能取值有256(红)×256(绿)×256(蓝)＝16,777,216种，则这样一副图片的像素组合有16,777,216×256×256＝1,099,511,627,776种；而一幅1024×1024的高清晰度图像的像素组合更有高达16,777,216×1024×1024＝17,592,186,044,416种。此外，图像的稍加处理或变换(如图像的放大或缩小、局部图、色彩变化、旋转、对比度/亮度的增强或减弱、图片内物体交换位置，等等)在数字化上会引起巨大变化，会使视觉上相似的图片在数字化的数据上截然不同。

在千万级数量的艺术类图片库的范围里，若采用传统图片识别方法，这样做不仅效率低，不能保障正确性，还要浪费大量的人力、物力，因此采用传统人工识别方式进行艺术图片研究整理是不现实的。本发明针对不同独特风格的艺术类图片提出一种定制化特征量的提取方法。

发明内容

有鉴于此，本发明提供基于图片自动分类的艺术类图片的定制化特征量提取方法，针对不同类别的艺术类图片进行定制化特征提取，由于能更好地反映出图片的特征而取得了更好的艺术类图片搜索效果。

本发明采用的技术方案具体为：基于图片自动分类的艺术类图片的定制化特征量提取方法，包括图片自动分类的步骤和特征量智能提取的步骤：所述图片自动分类的步骤为首先提取已分类的艺术类图片库的通用特征量，然后根据所述通用特征量构建出同一类别的艺术类图片的待验证分类模型，所述待验证分类模型被验证满足要求之后，用于对未分类的艺术类图片进行自动分类；所述特征量智能提取的步骤为首先通过已验证满足要求的分类模型对未分类的艺术类图片进行自动分类，然后对不同类别的艺术类图片进行定制化特征量的智能提取，最后将提取到的特征量存储到特征量数据库中，用于艺术类图片的搜索。

所述定制化特征量提取方法具体包含如下步骤：

步骤1、选取已分类的艺术类图片库的一部分作为图片训练集，统一提取通用特征量，所述通用特征量包括颜色特征量、纹理特征量和形状特征量；

步骤2、对所述通用特征量进行分析，获得同一类别艺术类图片的共性，建立艺术类图片特征量与艺术类图片分类之间的对应关系，构建待验证的分类模型；

步骤3、选取已分类的艺术类图片库中除图片训练集外的部分或全部作为图片验证集，将所述待验证的分类模型应用到图片验证集中，对所述待验证的分类模型进行验证，若验证误差满足预先设定的阈值，则得到已验证的分类模型；否则重复步骤1-2，对所述待验证的分类模型进一步修正，直至验证误差满足预先设定的阈值；

步骤4、用所述已验证的分类模型对未分类的艺术类图片进行分类，得出艺术类图片的类别信息。

所述步骤2中的待验证的分类模型的构建具体为：

设图片训练集P＝{p₀，p₁，...，p_n-1}，F为图片p_i的特征量提取函数，图片p_i的特征量fea(i)＝F(p_i)，其中n为所述图片训练集中图片的数量，i∈{0,1,…，n-1}；

提取每幅图片p_i的特征量，构成特征量矩阵FEA，则

其中m为每幅图片p_i特征量的维数，f_i,j为图片p_i特征量的第j-1个分量，即fea(i)＝[f_i,0f_i,1……f_i,m-1]；

而所述图片训练集P中的图片已知的分类信息C为：

C = [\begin{matrix} c_{0} \\ c_{1} \\ . \\ . \\ . \\ c_{g - 1} \end{matrix}]

即c₀～c_g-1为艺术类图片的已知的g类分类信息；

为保证模型的稳定性，首先对所述特征量矩阵FEA进行降维处理，将所述特征量矩阵FEA由n×m变为n×l矩阵，其中l是降维后的特征量维数；

以降维后的所述特征量矩阵FEA的值为观测值，已知的图片分类信息C为多元因变量，确定所述待验证的图片分类模型中的未知参数，从而构建所述待验证的图片分类模型。

所述待验证的图片分类模型为多元线性回归模型、级别回归模型、人工神经网络或者决策树中的一种。

所述降维处理具体为：通过计算图片训练集P中向量的信息熵和皮尔森相关系数，去除影响分类模型稳定性的信息熵小和强相关的向量，实现对特征量矩阵FEA的降维处理。

所述信息熵IV(c_j)的计算方法具体为：

a)用等距分段的方法对特征量进行分段；

b)计算证据权重：

{WOE}_{i} (c_{j}) = \ln \frac{n_{i} (c_{j}) / n (c_{j})}{Σ_{k &NotEqual; j} n_{i} (c_{k}) / Σ_{k &NotEqual; j} n (c_{k})} - - - (2)

其中，WOE_i(c_j)是第i段数据段中第j个分类的证据权重，n_i(c_j)是第j个分类在第i段中的观测数，n(c_j)是第j个分类在整个图片训练集P中的观测数，∑_k≠jn_i(c_k)是非j的其他分类在第i段中的观测数之和，∑_k≠jn(c_k)是非j的其他分类在整个图片训练集P中的观测数之和；

c)计算信息熵：

I V (c_{j}) = Σ_{i = 0}^{n_{s}} {(n_{i} (c_{j}) - Σ_{k &NotEqual; j} n_{i} (c_{k})) * {WOE}_{i} (c_{j})} - - - (3)

当IV(c_j)小于0.10时予以去除，以实现特征量矩阵FEA的降维。

特征量之间的相关性用皮尔森相关系数p衡量，任意两个连续变量x和y的皮尔森相关系数p为：

p = \frac{Σ_{i = 0}^{N - 1} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{{[Σ_{i = 0}^{N - 1} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i = 0}^{N - 1} {(y_{i} - \overset{&OverBar;}{y})}^{2}]}^{\frac{1}{2}}} - - - (4)

其中，和分别表示变量x和y的均值，当p的绝对值大于0.90时为强相关，予以去除，以实现特征量矩阵FEA的降维。

所述步骤4具体为：将所述已验证的图片分类模型应用于未分类的艺术类图片，对所述图片集进行自动分类，确定分类信息，根据所述分类信息提取所述图片的定制化特征量，所述定制化特征量的提取过程具体为：

1)设p_x为未分类的艺术类图片，首先提取p_x的通用特征量，组成向量{f_x，0，f_x，1，...，f_x，m-1}；然后通过所述降维规则对向量{f_x，0，f_x，1，...，f_x，m-1}进行降维处理，去除影响图片稳定性的分量，得到降维后的特征向量{f_x，0，f_x，1，...，f_x，l-1}；最后用所述已验证的图片分类模型的得出p_x的分类信息c_px：

如果得出的类别信息c_px与已知的图片类别信息C的误差满足预先设定的阈值要求，则可确定图片p_x的类别信息c_x，并根据c_x对图片p_x进行定制化特征量的提取；否则进一步修订步骤3确定的所述已验证的分类模型；

2)根据所述图片p_x的类别信息c_x对所述图片p_x提取定制化特征量，替换通用特征量，代入所述特征量矩阵FEA中，得到定制化特征量矩阵FEA_c，如公式(5)所示：

使用降维后的特征向量{f_x，0，f_x，1，...，f_x，l-1}对公式(5)进行降维处理，得到降维后的定制化特征矩阵FEA_cl，如公式(6)所示：

将FEA_cl存储到特征量数据库中，用于图像搜索。

本发明产生的有益效果是：

定制化特征量提取可以有效弥补人与计算机对艺术类图片的不同理解的鸿沟，让图片搜索的结果更符合人的视觉理解，提高了艺术类图片搜索的准确性；

对不同类别的艺术类图片进行定制化特征量的提取，更加准确地反映不同类型艺术品图片的内容和特点，提高了对海量艺术类图片基于内容的搜索查询的精度；

定制化的特征量体现了待搜索艺术类图像的主要视觉特征，通过降维提高了搜索速度；

定制化的特征量提取与图片分类技术结合可用于艺术类图片的管理，有效推进了艺术类图片服务向大众艺术的普及。

附图说明

当结合附图考虑时，能够更完整更好地理解本发明。此处所说明的附图用来提供对本发明的进一步理解，实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明基于图片自动分类的艺术类图片的定制化特征量提取方法的架构图；

图2-a为本发明基于图片自动分类的艺术类图片的定制化特征量提取方法的一种实施例的原图片；

图2-b为本发明基于图片自动分类的艺术类图片的定制化特征量提取方法的一种实施例的提取形状图片；

图2-c为本发明基于图片自动分类的艺术类图片的定制化特征量提取方法的一种实施例的去除背景图片。

具体实施方式

下面结合附图及实施例对本发明的技术方案作进一步详细的说明。

首先，图片训练集和图片验证集均属于已分类的艺术类图片库中的图片子集，其中训练集用于待验证的艺术类图片分类模型的构建，验证集用于分类模型的验证，一般来讲，图片集中的一部分作为图片训练集用于构建分类模型，其余的所有已分类图片均作为图片验证集对所构建的模型加以验证，当然，也可以仅选择其中的部分图片对其进行验证。训练集和验证集实现其功能的具体方法为：

首先提取训练集的通用特征量，得出特征量矩阵FEA并对其降维，然后对FEA和已知的图片分类信息C构建出待验证的分类模型；

验证集对上述分类模型进行验证，如果验证误差满足预先设定的阈值，则可运用该模型对分类信息未知的艺术类图片进行自动分类。该阈值可以通过经验设置，也可以按照图片分类的统计学规律进行计算得到。

本发明基于图片自动分类的艺术类图片的定制化特征量提取方法主要包括图片自动分类和特征量智能提取两个步骤。其中：

图片自动分类的主要功能是根据已分类的图片训练集建立艺术图片分类的待验证模型，该待验证模型经图片验证集验证满足事先设定的阈值要求之后，即可用于对未分类的艺术类图片进行自动分类。

特征量智能提取模块的主要功能是首先通过已验证的分类模型对未分类的艺术类图片进行自动分类，确定该艺术类图片的类别信息，然后根据不同的艺术品种类进行定制化特征量的智能提取，将提取到的特征量存储到特征量数据库中，用于图像搜索。

基于图片自动分类的艺术类图片的定制化特征量提取方法，方法的架构如图1所示，具体包含如下步骤：

步骤1、统一提取已知分类图片库的通用特征量，所述通用特征量包括颜色特征量、纹理特征量和形状特征量；

其中颜色特征量是对于图像在色彩视觉特性上的特征抽取，通过在一幅图像的RGB或是LUV的像素取值进行统计的方法，从而量化为一维或是多维的向量，获取各个级别的所述颜色特征量。常用的颜色特征量的提取方法是色彩统计直方图，即通过数理统计的方法找到各个级别的特征量，公式(1)是在RGB域的一个简单的统计直方图的计算方法：

h i s t_{red}_{k} = Σ_{i = 1}^{r o w} Σ_{j = 1}^{c o l} P i x e l_r e d (k = 1, ..., 256)

h i s t_{green}_{k} = Σ_{i = 1}^{r o w} Σ_{j = 1}^{c o l} P i x e l_g r e e n (k = 1, ..., 256) - - - (1)

h i s t_{blue}_{k} = Σ_{i = 1}^{r o w} Σ_{j = 1}^{c o l} P i x e l_b l u e (k = 1, ..., 256) .

其中：

row和col表示图片像素的行数和列数，即图片的宽度和高度；

hist_red_k表示统计直方图中第(i,j)个像素点的红色分量；

hist_green_k表示统计直方图中第(i,j)个像素点的绿色分量；

hist_blue_k表示统计直方图中第(i,j)个像素点的蓝色分量。

hist_red_k、hist_green_k和hist_blue_k的数值越高，代表色彩群在全图中的突出性越高，通过对色彩统计直方图的分析获得色彩从突出、到中等、再到非主体的分布情况，使提取的色彩矢量维数远低于其原始维数，在保证色彩特征量精度的同时提高了搜索的速度。

除色彩统计直方图之外，还有其他很多方法可以得到色彩特征量，如采用多叉树的方法可以进行不同级别的色彩分布统计，从而实现总体到细节的渐进色彩分布。

纹理特征是相邻像素点之间的重复性规律，纹理特征量的提取首先通过数学变换的方法找到各个频域不同级别的模式分布，级别越高代表高频率重复纹理性的特征越明显，级别越低代表低频率重复纹理性的特征越明显，不同级别的频率分布组成一幅图像的独特纹理分布图。因为特征量的多少直接影响搜索查询的速度，所以特征量提取时要使特征量高度量化以保证精炼度。

纹理特征量的提取可以采用共生矩阵纹理分析方法。共生矩阵用两个位置的像素的联合概率密度来定义，它不仅反映亮度的分布特性，也反映具有同样亮度或接近亮度的像素之间的位置分布特性，是有关图像亮度变化的二阶统计特征。它是定义一组纹理特征的基础。选择合适的位置算子，计算出共生矩阵，然后根据共生矩阵可以计算如下的纹理描述特征：

1.一致性：

2.熵：-∑∑h_ij logh_ij；

3.最大概率：

4.对比度：∑∑(i-j)²h_ij；

5.逆矩差：

其中，i、j是共生矩阵中元素的位置，h_ij为位置(i,j)对应的元素值。

除共生矩阵纹理分析方法之外，还有其他很多方法可以得到纹理特征量，比如通过对图像进行某种特定的变换处理来得到，而这些变换可以是频域转换、小波变换、多种滤波器，或是由模型训练出的系数定义的变换等等。

形状特征量是具有明显物体的图像中关键的特征量，形状特征量的提取是通过形状模板匹配的方法找到各个方向各个级别的模式分布。各个方向的模板匹配形成总体的形状分布，不同级别的模板匹配代表形状的精细程度分布。基于不同方法的多种形状特征量提取，常用的方法是使用各种方向的边缘匹配模板找到图像中的不同方向的边缘，然后将边缘链接为获取物体的整体形状。形状特征量的本质是图像中的高频分量，因此边缘滤波器实际上是用高频滤波器来提取高频分量所对应的像素点，并且通过一些事先设定的规则把这些点连接起来，从而得到图像中的形状特征量，常用的边缘滤波器有以下几种：

[\begin{matrix} + 1 & 0 & - 1 \\ + 1 & 0 & - 1 \\ + 1 & 0 & - 1 \end{matrix}] [\begin{matrix} + 1 & 0 & - 1 \\ + 2 & 0 & - 2 \\ + 1 & 0 & - 1 \end{matrix}] [\begin{matrix} + 1 & - 1 & - 1 \\ + 2 & + 1 & - 1 \\ + 1 & - 1 & - 1 \end{matrix}] [\begin{matrix} + 5 & - 3 & - 3 \\ + 5 & 0 & - 3 \\ + 5 & - 3 & - 3 \end{matrix}]

[\begin{matrix} + 1 & + 1 & 0 \\ + 1 & 0 & - 1 \\ 0 & - 1 & - 1 \end{matrix}] [\begin{matrix} + 2 & + 1 & 0 \\ + 1 & 0 & - 1 \\ - 1 & - 1 & - 2 \end{matrix}] [\begin{matrix} + 2 & + 1 & - 1 \\ + 1 & + 1 & - 1 \\ - 1 & - 1 & - 1 \end{matrix}] [\begin{matrix} + 5 & + 5 & - 3 \\ + 5 & 0 & - 3 \\ + 5 & - 3 & - 3 \end{matrix}] .

形状特征量通过形状模板匹配的方法找到各个方向各个级别的模式分布，通过各个方向的模板匹配形成总体的形状分布，其中不同级别的模板匹配代表形状的精细程度分布。特征量越多搜索查询的速度将会越慢，因此形状特征量提取时，特征量的高度量化可以保证精炼度。

根据已分类的不同类别的艺术类图片，对通用特征量的提取可以采用不同的提取方法，提取到的所有有效通用特征量构成特征量矩阵FEA。

步骤2、对所述通用特征量进行分析，获得同一类别艺术类图片的共性，建立艺术类图片特征量与艺术类图片分类之间的对应关系，提取定制的特征量，构建待验证的分类模型，模型的构建具体为：

提取每幅图片p_i的特征量，构成特征量矩阵FEA，则

而所述图片训练集P中的图片分类信息C为已知，可设：

C = [\begin{matrix} c_{0} \\ c_{1} \\ . \\ . \\ . \\ c_{g - 1} \end{matrix}]

即c₀～c_g-1分别是如表1中所示的艺术类图片的已知的g类分类信息。

下面以多元线性回归为例，说明模型构建、降维的具体过程，但是本申请的分类模型构建不仅限于采用多元回归模型(MultinomialRegression),其他成熟的模型构建方法也同样可以应用到本申请中，如级别回归模型(Ordinal Logistic Regression)、人工神经网络(NeuralNetwork)以及决策树(DecisionTree)等。

以特征量矩阵FEA的值为观测值，已知的图片分类信息C为多元因变量，根据图片特征量得出图片分类信息的问题即转化为多元线性回归模型的求解问题，设：

C＝b₀+b₁x₁+b₂x₂+…+b_m-1x_m-1 (2)

为保证回归的稳定性，首先对特征量矩阵FEA进行降维处理，所述降维处理具体为：通过计算图片训练集P中向量的信息熵和皮尔森相关系数，去除影响分类模型稳定性的信息熵小和强相关的向量，实现对特征量矩阵FEA进行降维处理，其中：

1、信息熵降维具体为：

a)用等距分段的方法对特征量进行分段；

b)计算证据权重：

{WOE}_{i} (c_{j}) = \ln \frac{n_{i} (c_{j}) / n (c_{j})}{Σ_{k &NotEqual; j} n_{i} (c_{k}) / Σ_{k &NotEqual; j} n (c_{k})} - - - (3)

c)计算信息熵：

I V (c_{j}) = Σ_{i = 0}^{n_{s}} {(n_{i} (c_{j}) - Σ_{k &NotEqual; j} n_{i} (c_{k})) * {WOE}_{i} (c_{j})} - - - (4)

通常来说，IV(c_j)的值小于0.02时无预测力，在0.02到0.10之间时有很弱的预测力，在0.10到0.30之间有中等预测力，大于0.30时有很强的预测力。因此在信息熵小于0.10时可以予以去除，在0.10和0.30之间时可以根据情况选择是否去除，大于0.30时予以保留，从而实现特征量矩阵FEA的降维。

2、强相关降维具体为：

p = \frac{Σ_{i = 0}^{N - 1} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{{[Σ_{i = 0}^{N - 1} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i = 0}^{N - 1} {(y_{i} - \overset{&OverBar;}{y})}^{2}]}^{\frac{1}{2}}} - - - (5)

其中，和分别表示变量x和y的均值，通常来说，当p的绝对值大于0.9时可以认为是强相关，予以去除，实现特征量矩阵FEA的降维。可以将以上降维规则记录下来，对未分类图片的特征量矩阵也根据该规则进行相同的降维处理。设将所述特征量矩阵FEA由n×m变为n×l矩阵，其中l是降维后的特征量维数，则公式(2)可以进一步简化为：

c＝b₀+b₁x₁+b₂x₂+…+b_l-1x_l-1 (6)

基于最大似然法则，对公式(6)的方程进行数据拟合，确定未知参数{b0，b1，...，b_l-1}，构建出所述待验证的图片分类模型。

步骤3、选取已分类的艺术类图片库中除图片训练集外的一部分或全部作为图片验证集，将所述待验证的分类模型应用到图片验证集中，对所述待验证的分类模型进行验证，若验证误差满足预先设定的阈值要求，则得到已验证的分类模型；否则重复步骤1-2，对所述待验证的分类模型进一步修正，直至验证误差满足预先设定的阈值；

其中该阈值可以通过经验设定，也可以通过计算各分类图片的多维空间距离之后得到。

步骤4、用所述已验证的分类模型对未分类的艺术类图片进行分类，得出艺术类图片的类别信息，具体为：

将所述已验证的图片分类模型应用于未分类的艺术类图片，对所述图片集进行自动分类，确定分类信息，根据所述分类信息提取所述图片的定制化特征量，所述定制化特征量的提取过程具体为：

1)设p_x为未分类的艺术类图片，首先提取p_x的通用特征量，组成向量{f_x，0，f_x，1，...，f_x，m-1}；然后根据前述的降维规则去除影响图片稳定性的分量，得到降维后的特征向量{f_x，0，f_x，1，...，f_x，l-1}；最后用所述已验证的图片分类模型的参数{b₀，b₁，...，b_l-1}得出p_x的分类信息，如公式(7)所示：

c_px＝b₀+b₁f_x，1+b₂f_x，2+…+b_l-1f_x，l-1 (7)

如果得出的类别信息c_px与已知的图片类别信息C的误差满足预先设定的阈值要求，则可确定图片p_x的类别信息c，并根据c_x对图片p_x进行定制化特征量的提取；否则进一步修订步骤3确定的所述已验证的分类模型；

2)用提取的定制化特征量替换通用特征量，代入所述特征量矩阵FEA中，得到定制化特征量矩阵FEA_c，如公式(8)所示：

使用降维后的特征向量{f_x，0，f_x，1，...，f_x，l-1}对公式(8)进行降维处理，得到降维后的定制化特征矩阵FEA_cl，如公式(9)所示：

将FEA_cl存储到特征量数据库中，用于图像搜索。

不同独特风格的艺术类图片具有不同的特点，如油画：色彩丰富，纹理细腻，内容复杂；国画：色彩独特，线条明显，纹理独特；剪纸：色彩单一但不定，线条显著，纹理特殊；壁画、唐卡、脸谱：色彩独特，线条复杂多变，纹理独特但风格统一；摄影：色彩丰富，纹理复杂，内容涵盖不一，风格不一。已知的艺术类图片库的分类信息见表1。

表1艺术类图片训练集分类表

由此可知，不同类别的艺术图片有着不同的特点，如果用统一的方法去提取特征量，则不能精确反映图片的特征，以图2-(a-c)所示的艺术类图片中的玉器为例，进一步说明定制化特征量智能提取的必要性。

图2-a为一个玉器的原图，从图像搜索的目的角度来看，关注的重点一定是玉器本身，但图2-a中的图像背景占了大部分图片空间，因此如果用通用的方法来提取特征量，图像背景的信息必然会实质性地掩盖玉器的信息，如果以此特征量作为查询依据，最终的查询结果极有可能找到的是背景相似的图片，而不是与玉器相似的图片。因此，对于针对艺术类图片库的搜索而言，在已经对其进行自动分类的前提下，就可以进行定制化的特征量提取。在图2-b中，首先经过分类模型判定其分类信息为器物类中的玉石，其次根据分类模型提取玉器的形状特征量，然后在2-c中把去掉背景图像，经过这样的处理以后再提取到的特征量，就能够更加准确地反映图片的内容。

如上所述，对本发明的实施例进行了详细地说明，显然，只要实质上没有脱离本发明的发明点及效果、对本领域的技术人员来说是显而易见的变形，也均包含在本发明的保护范围之内。

Claims

1.基于图片自动分类的艺术类图片的定制化特征量提取方法，其特征在于，包括图片自动分类的步骤和特征量智能提取的步骤：所述图片自动分类的步骤为首先提取已分类的艺术类图片库的通用特征量，然后根据所述通用特征量构建出同一类别的艺术类图片的待验证分类模型，所述待验证分类模型被验证满足要求之后，用于对未分类的艺术类图片进行自动分类；所述特征量智能提取的步骤为首先通过已验证满足要求的分类模型对未分类的艺术类图片进行自动分类，然后对不同类别的艺术类图片进行定制化特征量的智能提取，最后将提取到的特征量存储到特征量数据库中，用于艺术类图片的搜索；

具体包含如下步骤：

步骤3、选取已分类的艺术类图片库的除图片训练集外的部分或全部作为图片验证集，将所述待验证的分类模型应用到图片验证集中，对所述待验证的分类模型进行验证，若验证误差满足预先设定的阈值，则得到已验证的分类模型；否则重复步骤1-2，对所述待验证的分类模型进一步修正，直至验证误差满足预先设定的阈值；

步骤4、用所述已验证的分类模型对未分类的艺术类图片进行分类，得出艺术类图片的类别信息；

所述步骤2中待验证的分类模型的构建具体为：

提取每幅图片p_i的特征量，构成特征量矩阵FEA，则

而所述图片训练集P中的图片已知的分类信息C为：

C = [\begin{matrix} c_{0} \\ c_{1} \\ . \\ . \\ . \\ c_{g - 1} \end{matrix}]

即c₀～c_g-1为艺术类图片的已知的g类分类信息；

以降维后的所述特征量矩阵FEA的值为观测值，已知的图片分类信息C为多元因变量，确定待验证图片分类模型中的未知参数，从而构建所述待验证图片分类模型。

2.根据权利要求1所述的基于图片自动分类的艺术类图片的定制化特征量提取方法，其特征在于，所述待验证图片分类模型为多元线性回归模型、级别回归模型、人工神经网络或者决策树中的一种。

3.根据权利要求1所述的基于图片自动分类的艺术类图片的定制化特征量提取方法，其特征在于，所述降维处理具体为：通过计算图片训练集P中向量的信息熵和皮尔森相关系数，去除影响分类模型稳定性的信息熵小和强相关的向量，实现对特征量矩阵FEA的降维处理。

4.根据权利要求2所述的基于图片自动分类的艺术类图片的定制化特征量提取方法，其特征在于，所述信息熵IV(c_j)的计算方法具体为：

a)用等距分段的方法对特征量进行分段；

b)计算证据权重：

{WOE}_{i} (c_{j}) = \ln \frac{n_{i} (c_{j}) / n (c_{j})}{Σ_{k &NotEqual; j} n_{i} (c_{k}) / Σ_{k &NotEqual; j} n (c_{k})} - - - (2)

其中，WOE_i(c_j)是第i段数据段中第j个分类的证据权重，n_i(c_j)是第j个分类在第i段中的观测数，n(c_j)是第j个分类在整个图片训练集P中的观测数，Σ_k≠jn_i(c_k)是非j的其他分类在第i段中的观测数之和，Σ_k≠jn(c_k)是非j的其他分类在整个图片训练集P中的观测数之和；

c)计算信息熵：

I V (c_{j}) = Σ_{i = 0}^{n_{s}} {(n_{i} (c_{j}) - Σ_{k &NotEqual; j} n_{i} (c_{k})) * {WOE}_{i} (c_{j})} - - - (3)

当IV(c_j)小于0.10时予以去除，以实现特征量矩阵FEA的降维。

5.根据权利要求3所述的基于图片自动分类的艺术类图片的定制化特征量提取方法，其特征在于，特征量之间的相关性用皮尔森相关系数p衡量，任意两个连续变量x和y的皮尔森相关系数p为：

p = \frac{Σ_{i = 0}^{N - 1} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{{[Σ_{i = 0}^{N - 1} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i = 0}^{N - 1} {(y_{i} - \overset{&OverBar;}{y})}^{2}]}^{\frac{1}{2}}} - - - (4)

6.根据权利要求1所述的基于图片自动分类的艺术类图片的定制化特征量提取方法，其特征在于，所述步骤4具体为：将所述已验证的图片分类模型应用于未分类的艺术类图片，对图片集进行自动分类，确定分类信息，根据所述分类信息提取所述图片的定制化特征量，所述定制化特征量的提取过程具体为：

1)设p_x为未分类的艺术类图片，首先提取p_x的通用特征量，组成向量{f_x，0，f_x，1，...，f_x，m-1}；然后通过降维规则对向量f_x，0，f_x，1，...，f_x，m-1}进行降维处理，去除影响图片稳定性的分量，得到降维后的特征向量f_x，0，f_x，1，...，f_x，l-1}；最后用已验证的图片分类模型的得出p_x的分类信息c_px：

将FEA_cl存储到特征量数据库中，用于图像搜索。