CN102054178B

CN102054178B - 一种基于局部语义概念的国画图像识别方法

Info

Publication number: CN102054178B
Application number: CN201110023315.4A
Authority: CN
Inventors: 鲍泓; 冯松鹤; 张南; 娄海涛; 王迪菲; 潘卫国
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2011-01-20
Filing date: 2011-01-20
Publication date: 2016-08-17
Anticipated expiration: 2031-01-20
Also published as: CN102054178A

Abstract

本发明涉及一种基于局部语义概念的国画图像识别方法，包括以下步骤：1)利用扫描设备对待识别的国画作品进行图像采集，并存入计算机中；2)通过随机抽取器将采集到的国画作品图像分成训练样本集和测试样本集；3)通过视觉注意力模型分别提取训练样本集和测试样本集内国画作品图像中的显著区域图像；4)对训练样本集内的国画作品图像和相应的显著区域图像，建立国画作品图像词包模型；5)根据词包模型空间金字塔模型，并生成相应的两个空间金字塔特征直方图；6)采用串行合并的方法对步骤5)中生成的两个空间金字塔特征直方图进行融合；7)利用聚类方法、K近邻法、神经网络和支持向量机方法中的一种以上分类方法对测试样本集中待识别的国画图像进行识别，用识别准确率和混淆矩阵的方式输出识别结果。

Description

一种基于局部语义概念的国画图像识别方法

技术领域

本发明涉及一种图像识别方法，特别是关于一种基于局部语义概念的国画图像识别方法。

背景技术

近年来，基于语义图像分类和标注技术已经成为与CBIR(基于内容的图像检索)密切相关的研究热点，因其将图像按照高层的语义进行合理的分类，不仅会大大提高基于语义的图像检索的性能，且能在一定程度上弥补“语义鸿沟”。不同于传统的数字图像，国画作品所涵盖的语义信息更加丰富，也更加抽象。若能实现国画图像的自动分类及标注，则其在数字化书画博物馆领域能得到广泛的应用，并成为数字化图书馆等重大研究项目中的关键技术。

图像场景分类的目的是将图像整体归类到某一场景类别中去。国内外现有的研究工作大多集中于自然图像的场景分类，即研究如何自动地实现将待识别图像归类到一组语义类别中去(如海滩，山脉等)的课题。针对中国书画的数字图像研究领域，国画图像分类方法的主要集中在基于低层视觉特征的表示，并利用支持向量机、决策树算法等实现国画图像的自动分类，目前尚未发现针对国画图像的基于中层语义建模的图像分类方法。

为了弥合语义鸿沟以及应对复杂场景的图像识别问题，研究者通过实现对图像的场景进行语义建模，来达到图像场景分类的目的。基于局部语义概念的图像中层表示方法因其不依赖图像分割的结果而表现出良好的分类性能，目前成为主流方法。

2005年Fei-Fei提出了一种新的用于自然场景分类的贝叶斯层次化模型。不同于前人的工作，该方法不需要专门标注的训练样本集，而是通过局部区域的聚类形成词包来表示图像，最终在一个包含13类大规模的复杂场景集上实验得到了满意的分类性能。2005年的Quelhas和2006年的Bosch分别提出了结合Bag of words和pLSA模型，两者的区别在于提取局部描述子的方法不同。前者是基于稀疏的SIFT描述子，后者是密集的SIFT描述子。2006年Perronin提出了基于Bag of words和GMM(GaussianMixture Models，高斯混合模型)的图像分类思路，该方法能描述所有的被承认图像类别的图像内容，并且能通过训练典型的类样本数据学习得到改进后自适应的类字典。前人基于可视词典的方法都是用单一的直方图来描述图像，而该方法的创新点在于用一系列的直方图来描述一幅图像。

上述几种方法虽然有效，但是均没有考虑和利用图像中的空间结构信息，在复杂的自然图像场景分类系统中，这种空间结构的语境信息(如邻近的局部对象间的空间关系或某些场景中物体的绝对位置)可进一步提高分类器的性能，有助于得到更好的分类结果。2006年Lazebnik提出了高于Bag of Words的空间金字塔匹配的分类算法。该方法通过将图像划分成渐渐变小的子区域和计算每个子区域块的局部特征直方图，然后利用得到的这些局部特征直方图表示图像。“空间金字塔”是对无序的特征包的图像表示方法的一种简单、高效计算的扩展结果，并且在非常有挑战性的场景分类问题上表现出重要的、深远的改进性能。但该方法对于背景区域大的图像样本库，分类结果会存在偏差。

发明内容

针对上述问题，本发明的目的是提出了一种全局图像特征和局部图像特征相融合的基于局部语义概念的国画图像识别方法。

为了实现上述目的，本发明采用以下技术方案：1、一种基于局部语义概念的国画图像识别方法，其包括以下步骤：1)利用扫描设备对待识别的国画作品进行图像采集，并存入计算机中；2)通过随机抽取器将采集到的国画作品图像分成训练样本集和测试样本集；3)通过视觉注意力模型分别提取训练样本集和测试样本集内国画作品图像中的显著区域图像；4)对训练样本集内的国画作品图像和相应的显著区域图像，分别建立国画作品图像的词包模型；5)根据训练样本集内建立的国画作品图像词包模型和相应的显著区域图像词包模型，分别构建国画作品图像的空间金字塔模型和相应的显著区域图像的空间金字塔模型，并生成相应的两个空间金字塔特征直方图；6)采用串行合并的方法对步骤5)中生成的两个空间金字塔特征直方图进行融合；7)利用聚类方法、K近邻法、神经网络和支持向量机方法中的一种以上分类方法对测试样本集中待识别的国画图像进行识别，用识别准确率和混淆矩阵的方式输出识别结果。

所述步骤2)中训练样本集和测试样本集的生成方法包括：①定义国画图像的类别，类别编号为1～n，n为自然数；②假设用于待识别的国画作品图像代表集为P，记为{P₁，P₂，P₃}。其中P₁表示花鸟画，记为A_i为其中的一幅国画图像，P₂表示人物画，记为P₂＝{B₁，B₂，...，B_i}，B_i为其中的一幅国画图像，P₃表示山水画，记为P₃＝{C₁，C₂，...，C_i}，C_i为其中的一幅国画图像；③分别从P₁、P₂和P₃中随机选取设定数量的图像作为训练样本集Q，记为{P₁′，P₂′，P₃′}，用于生成国画图像识别的模型；将P₁、P₂和P₃中剩余的图像作为测试样本集，用于校准。

所述步骤4)中建立国画图像的词包模型，包含以下步骤：①国画图像的灰度化，分别对训练样本集和显著区域图像中彩色国画图像按如下公式进行灰度化处理：Gray(i，j)＝0.11*R(i，j)+0.59*G(i，j)+0.3*B(i，j)；其中i，j是一个像素点在图像中的位置，R(i，j)是i，j所表示的像素点颜色的红色分量，G(i，j)，B(i，j)分别表示绿色和蓝色分量，Gray(i，j)表示该点转换后的灰度级别；②分别对步骤①得到的灰度图像选取SIFT(Scale-invariant feature transform，尺度不变特征转换)描述子的关键点，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，生成SIFT特征向量，并根据需要对SIFT特征向量进行光照归一化处理；③根据步骤②得到的国画原图和国画显著区域图像的SIFT特征向量来，分别构建视觉词汇表；视觉词汇表包含K个视觉单词，K为自然数，一般取值为500-1200，建议K取为1000；④利用得到的两个视觉词汇表，进行局部语义概念特征的提取和表示，即计算某一个SIFT关键点邻域内的SIFT特征与视觉词汇表中的每个视觉单词所对应SIFT特征的欧氏距离，用最近邻的视觉单词来定义该SIFT关键点，将所有的SIFT关键点映射到视觉词汇表中，用视觉单词的标号描述这幅图像，即得到该图像的局部语义概念特征采用直方图特征表示法来表示该图像的局部语义概念特征。

所述步骤4)的②中选取SIFT描述子的关键点的步骤如下：A、对国画原图采用网格采样法进行采样；B、对国画显著区域图像采用尺度空间极值检测方法。

所述步骤5)中构建空间金字塔模型包括以下步骤：①将国画图像在二维图像空间中划分为不同大小的子图像区域，形成空间金字塔分块；空间金字塔层数为2-5；②对形成的空间金字塔分块图像构建相应的空间金字塔特征直方图。

所述步骤6)中，对两个空间金字塔特征直方图的融合包括以下两种方法之一：一种是将两组特征向量首尾相连生成一个联合向量作为新的特征向量，在更高维的向量空间进行特征提取，即串行组合；另一种是利用复向量将同一样本的两组特征向量合并在一起，在复向量空间进行特征提取，即并行组合。

所述步骤7)中采用支持向量机方法进行分类时的步骤如下：①分类器模型的生成；采用LIBSVM-fast工具包进行识别实验，训练生成分类器模型所需的参数为options＝’-t4-s0-b1-c1’，其表示的含义是核函数为交叉核函数，SVM类型为C-svc；C-svc惩罚系数为1，且需要概率估计；②输出测试样本集中待识别国画图像的结果；利用步骤3)～6)处理测试样本集中待识别的国画图像，得到对应的特征向量，并将其输入训练好的分类器模型，根据分类器模型的公式即可得到图像的分类结果；③识别结果评价方法包括识别准确率和混淆矩阵两种方法。

本发明由于采取以上技术方案，其具有以下优点：本发明和Lazebnik等人提出的自然场景图像分类方法相比，引入提取全局国画图像(全局图像)中的局部显著区域图像(局部图像)，针对全局图像和局部图像利用不同的方法提取图像中SIFT描述子关键点信息，并且实现了全局图像和局部图像的局部语义概念特征的融合，这样同时对全局国画图像和局部显著图像进行局部语义概念特征信息的分析，能够获取更多有助于分类识别和更具辨别力的特征信息，因此能提高国画图像分类识别的准确率。本发明和James.Wang以及蒋树强等提出的利用低层视觉特征实现的国画场景图像分类方法相比具有更强的扩展性。并且将中层语义建模分类方法拓展了到国画图像的应用领域。

附图说明

图1是本发明的模块框图

图2是本发明输入的国画原图

图3是本发明提取国画原图中的显著区域图像

图4是本发明的词包表示模型流程图

图5是本发明国画原图局部描述子SIFT特征的算法流程图

图6是本发明均匀网格采样方法示意图

图7是本发明一幅国画图像均匀网格采样实例示意图

图8是本发明国画显著区域图像局部描述子SIFT特征的算法流程图

图9是本发明构建国画图像空间金字塔图例

图10是本发明的分类识别流程示意图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

中国画根据绘画的内容，大致分人物画、山水画和花鸟走兽画三大类。其中每一个大类又可以分为不同的小类，比如：人物画是以人物为主要描绘对象的画科，按其取材的差异可分为宗教人物画和世俗人物画，还可细分为肖像画、故事画、风俗画等。本发明基于局部语义概念的国画图像识别方法包括以下步骤：

1)如图1所示，利用扫描设备将待识别的若干幅国画作品扫描出来，存入计算机中，扫描设备可以采用各种已有技术设备，本实施例采用的扫描设备是Expression10000XL平板式扫描仪，保存图像的参数为：24位颜色深度，400dpi分辨率，JPEG图像文件格式。

2)将采集到的各幅国画作品图像输入随机抽取器，随机抽取器对输入的国画作品图像分成训练样本集和测试样本集，分类的步骤如下：

①定义国画图像的类别，类别编号为1、2、…、n，n为自然数，本实施例根据绘画的内容，将国画分为花鸟画、人物画和山水画三大类，即n＝3，(以下以n＝3为例进行说明，但不限于此)。

②假设用于待识别的国画作品图像代表集为P，记为{P₁，P₂，P₃}。其中P₁表示花鸟画，记为A_i为其中的一幅国画图像，P₂表示人物画，记为P₂＝{B₁，B₂，...，B_i}，B_i为其中的一幅国画图像，P₃表示山水画，记为P₃＝{C₁，C₂，...，C_i}，C_i为其中的一幅国画图像，其中i为对应图像的数量。。

③分别从P₁、P₂和P₃中随机选取设定数量的图像作为训练样本集Q，记为{P₁′，P₂′，P₃′}，用于生成国画图像识别的模型；将P₁、P₂和P₃中剩余的图像作为测试样本集，用于校准。

3)将步骤2)中分出的训练样本集和测试样本集的原图(如图2所示)输入视觉注意力模型，视觉注意力模型从训练样本集Q中提取国画图像中的显著区域图像集Q_显(如图3所示)：寻找图像中显著目标的过程符合人类视觉神经系统选择视觉场景中显著目标的生物机理，尽可能多的保留国画中的有助于分类的主要语义区域，剔除一些冗余区域，本发明中的视觉注意力模型可以采用Itti-Koch(人名)的视觉注意力模型，也可以采用JonathanHarel(人名)的GBVS(Graph-Based Visual Saliency基于图的显著性分析)算法，但不限于此。Itti-Koch模型主要分为视觉特征的提取和显著图的计算两步，GBVS算法是对经典的Itti-Koch模型的改进。

4)如图4所示，根据步骤3)得到的训练样本集Q和显著区域图像集Q_显，建立国画图像的词包模型的过程如下：

①国画图像的灰度化，分别对训练样本集Q和显著区域图像Q_显中彩色国画图像进行灰度化处理，分别记为Q′和Q_显′，具体灰度处理的步骤包括：

将一个彩色图像转换成一个灰度图像，按如下常规公式进行转换：

Gray(i，j)＝0.11*R(i，j)+0.59*G(i，j)+0.3*B(i，j)

其中i，j是一个像素点在图像中的位置，R(i，j)是i，j所表示的像素点颜色的红色分量，同理G(i，j)，B(i，j)分别表示绿色和蓝色分量，Gray(i，j)表示该点转换后的灰度级别。最后将该像素点RGB分量值都设为Gray(i，j)即可。按照上述方法可将彩色图像中转化为灰度图像。

②分别对步骤①得到的Q′和Q_显′中的灰度图像选取SIFT(Scale-invariantfeature transform，尺度不变特征转换)描述子的关键点，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，生成SIFT特征向量，并根据需要对SIFT特征向量进行光照归一化处理。

其中，局部描述子SIFT特征的提取方法分成两部分，一个是对国画原图进行局部描述，另一个是对国画显著区域图像进行局部描述：

如图5所示，对于Q′中图像采用均匀网格采样的方法选取SIFT特征关键点，网格采样方法就是对将图像按M*M像素大小的网格进行采样(如图6所示)，其中M为2的整数次幂，建议M为8或16，确保将图像划分为一定数量的网格；设图像的宽和高分别为Width和Hight，则：

X＝(Width％M)/2+1；

Y＝(Hight％M)/2+1；

X，Y为开始进行网格采样的起点坐标，一共生成(Width/X)*(Hight/Y)个均匀网格，将均匀网格的交叉点作为SIFT特征关键点，选取以关键点为圆心，M为半径的圆为邻域，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，生成SIFT特征向量(如图7所示)。

如8所示，对Q_显′图像采用的是尺度空间极值检测的方法选取SIFT特征关键点，即在图像二维平面空间和DoG(Difference-of-Gaussian高斯核差分)尺度空间中同时检测局部极值以作为特征关键点，以使特征具备良好的独特性和稳定性。DoG算子定义为两个不同尺度的高斯差分核，其具有计算简单的特点，是归一化LoG(Laplacian-of-Gaussian拉普拉斯-高斯)算子的近似。

DoG算子如下式所示：

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)＝L(x，y，kσ)-L(x，y，σ)

式中G(x，y，kσ)是二维高斯函数，k表示尺度因子比例系数，σ代表了高斯正态分布的方差，I(x，y)表示原图像，L代表了图像的尺度空间。

其中，L(x，y，σ)定义如下：

L(x，y，σ)＝G(x，y，σ)*I(x，y)

将图像I(x，y)与不同尺度因子下的高斯核G(x，y，σ)进行卷积操作是为了得到在不同尺度空间下的稳定特征点。

其中，G(x，y，kσ)定义如下：

G (x, y, σ) = \frac{1}{2 π σ^{2}} e^{- (x^{2} + y^{2}) / 2 σ^{2}}

式中，(x，y)代表图像的像素位置，σ称为尺度空间因子，其值越小则表征该图像被平滑的越少，相应的尺度也就越小，大尺度对应于图像的概貌特征，小尺度对应于图像的细节特征。

③如图4所示，在步骤②得到的SIFT特征向量来构建视觉词汇表：使用K-Means算法聚类训练样本集Q上生成的所有的SIFT特征向量，每个聚类中心视为一个视觉单词，从而生成了一个由K个视觉单词构成的视觉词汇表。该视觉词汇表中视觉单词的编号亦可称为局部语义概念。K为自然数，一般取值为500-1200，建议K取为1000。该视觉词汇表仅在训练过程中生成。同理，也在Q_显上构建视觉词汇表。

④利用上述步骤③处理训练样本集Q后得到的视觉词汇表，以及处理显著区域图像Q_显得到的视觉词汇表，分别对Q和Q_显中图像进行局部语义概念特征的提取和表示：

首先，计算某一个SIFT关键点邻域内的SIFT特征与视觉词汇表中的每个视觉单词所对应SIFT特征的欧氏距离，用最近邻的视觉单词来定义该SIFT关键点。然后，依次处理给定一幅图像中各个SIFT关键点，将所有的SIFT关键点映射到视觉词汇表中，用视觉单词的标号描述上述这幅图像，即得到该图像的局部语义概念特征。最后，采用直方图特征表示法来表示该图像的局部语义概念特征，即该图像的视觉单词分布概率直方图。

5)如图9所示，在步骤3)得到的训练样本集Q和显著区域图像集Q_显上分别构建空间金字塔模型，其包括以下步骤：

①国画图像的空间金字塔分块，其具体为；

将国画图像整体在二维图像空间划分为不同大小的子图像区域，形成图像空间金字塔G。

设G的层数为L，l表示空间金字塔G的第l层，l＝0，1，......，L-1。子图像区域数为D，r表示子图像区域标号，r＝0，1，......，D-1。

D＝(2^l)×(2^l)

当l＝0时，表示处于金字塔最底层，此时图像划分的字块数目为1。L一般取值为3-5，建议取为4。

②构建空间金字塔特征直方图，其具体为；

首先，将图像空间金字塔G中的各层各个子块图像表示为局部语义概念特征直方图，然后对这些特征直方图赋予以合适的权值后进行串行组合，形成一个总的特征直方图，即空间金字塔特征直方图。本实施例中权值为2^L-l+1。

设空间金字塔G第l层上第r个子图像区域的直方图为(其中r表示子图像区域标号，r＝0，1，......，D-1)，H^l代表空间金字塔G第l层上串行组合后的直方图；H为该图像经过空间金字塔分块表示后，形成总的特征直方图。

H^{1} = [H_{0}^{1}, H_{1}^{1}, . . ., H_{r}^{1}]

H = \frac{1}{2^{L} * H^{0}} + Σ_{l = 1}^{L - 1} (\frac{1}{2^{L - l + 1} * H^{l}})

l＝1，2，...，L-1

同理，也在Q_显上构建国画显著区域图像的空间金字塔特征直方图。

6)将步骤5)的②中在训练样本集Q上构建的空间金字塔特征直方图和在显著区域图像集Q_显构建的空间金字塔特征直方图进行融合。其包括以下步骤：

①依次采用步骤4)、5)分别处理步骤2)中得到Q和步骤3)中得到Q_显。

步骤2)得到了训练样本集Q；步骤3)生成了显著区域图像Q_显，利用步骤4)和步骤5)，分别处理Q和Q_显后得到的相应的空间金字塔特征直方图，步骤5)实现空间金字塔特征直方图的融合。这样融合目的就是既包含了全局特征和又包含了局部特征，得到更好的识别效果。

根据训练样本集Q＝{q₁，q₂，...，q_e}，e表示训练样本集中图像的数量。那么，利用步骤4)和步骤5)处理Q后得到的特征直方图为H_原＝{H_原1，H_原2，...，H_原e}。

同理，利用步骤4)和步骤5)处理国画图像的显著区域Q_显后得到的特征直方图为H_显＝{H_显1，H_显2，...，H_显e}。

②将①中生成的特征直方图H_原和H_显进行串行合并。

目前，存在的特征融合方法，一种是将两组特征向量首尾相连生成一个联合向量作为新的特征向量，在更高维的向量空间进行特征提取，即串行组合；另一种是利用复向量将同一样本的两组特征向量合并在一起，在复向量空间进行特征提取，即并行组合。本发明此处用到的是串行组合的方法，最终融合后的结果：H＝{H_原，H_显}。

7)如图10所示，选择利用现有的聚类方法、K近邻法、神经网络以及支持向量机等方法中的一种或几种分类方法，对测试样本集中待识别的国画图像进行识别，用识别准确率和混淆矩阵的方式输出识别结果，其具体步骤如下：

①分类器模型的生成

将从训练样本集Q中提取的特征向量H、训练样本集Q对应的类别标签H_label，以及相关参数options作为训练分类器模型的输入，分类器模型model作为结果输出。该发明采用LIBSVM-fast工具包进行识别实验，但不限于此，在仿真环境MatlabR2008A软件平台上，可利用如下函数模型表示：

model＝svmtrain(H，H_label，options)；

其中，H_label＝{label1，label2，...，label_e}，label_e取值范围为1～n，此处n＝3，分别代表花鸟画、山水画和人物画。

Options(操作参数)：可用的选项表示含义如下：

-t核函数类型：设置核函数类型。可选类型有

0——线性核 1——多项式核

2——RBF核 3——sigmoid核

4——intersection核

-s 设置svm类型

0——C-svc 1——V-svc

2——One-class-svm 3——ε-SVR

4——γ-SVR

-b概率估计：是否计算SVC或SVR的概率估计，可选值为0或1，默认为0。

-c cost：设置C-svc、ε-SVR、γ-SVR中惩罚系数C，默认值为1。

参数options＝’-t4-s0-b1-c1’，表示的含义是核函数为intersectionkernel，SVM类型为C-svc；C-svc惩罚系数为1，且需要概率估计。

②输出测试样本集中待识别国画图像的结果，其具体为：

利用步骤3)～6)处理测试样本集中待识别的国画图像，得到对应的特征向量，并将其输入训练好的分类器模型，根据分类器模型的公式即可得到图像的分类结果。

依次利用步骤3)～6)处理测试样本集C_pQ中的待识别的国画图像，得到对应的特征直方图向量H和H_label。测试样本集C_pQ的H、H_label以及步骤7)的①中生成的model作为输入，该测试样本集C_pQ测试结果为识别的准确率。该发明采用LIBSVM-fast工具包进行识别实验，但不限于此，在仿真环境MatlabR2008A软件平台中，可利用如下函数模型表示：

[VP]＝svmpredict(H_label，H，model，libsvm_options)；

此处，libsvm_options＝’-b 1’含义为需要概率估计。输出结果V含义为预测得到该测试样本集的类别标号，P为预测该测试样本集的识别准确率。

③识别结果评价方法

最终识别结果评价的方法有两种，识别准确率和混淆矩阵。假定识别准确率为p，定义如下公式：

P＝n/N；

其中，n为正确识别图像数，N为待识别的图像总数。

混淆矩阵是模式识别中较为常用的精度评价工具，在图像精度评价中，主要用于比较分类结果和真实结果，可以把分类结果的精度显示在一个混淆矩阵里面。一个完美的分类模型就是，若一个目标对象实际上属于类别A，也预测成类别A，处于类别B，也就预测成B。但实际上，模型往往会出现类别A的对象预测为类别B，对一些原本是类别B的对象，却预测为类别A。那么，这个模型到底预测对了多少预测错了多少，混淆矩阵就把所有这些信息，都归到一个表里(如表2所示)：

表2混淆矩阵

其中，对角线上的n_AA、n_BB、n_CC为每类预测正确的数目；而非对角线上的为该类预测相应类别的错误的数目，如n_BA为B预测为A的数目；n_AC为A预测为C的数目。

本发明将用在国画图像的分类，其性能可通过如下实际国画图像完成的分类实验给出，实验数据集是源自《中国绘画全集》画册扫描的国画图像库，它包含国画图像1303幅(其中训练样本数639，测试样本数664，约满足1∶1)，每幅图像大小为512*(长和宽的最大值不超过512)，彩色图像，jpg格式。设计分类实验的样本集，详细情况如下，其中A代表花鸟类，B代表人物类，C代表山水类。

训练样本集：A262幅；B157幅；C220幅；

测试样本集：A261幅；B103幅；C300幅；

分类器选用目前主流的支持向量机分类器，版本为Fast-Libsvm-2.84-1，实验中的参数options＝’-t4-s0-b1-c1’，实验结果如下(如表3所示)：

表3国画图像分类识别结果表

表中的方法1是仅利用全局国画原图像特征识别方法；方法2是仅利用局部国画局部显著区域图像特征识别方法；方法3是本方法提出的方法，融合全局特征和局部特征的识别方法。

表4、表5和表6分别为方法1、方法2和方法3识别结果对应的混淆矩阵。

表4方法1对应的混淆矩阵

表5方法2对应的混淆矩阵

表6方法3对应的混淆矩阵

由表3知，本发明方法提出的方法综合利用了国画图像的全局特征信息和局部特征信息来进行国画图像的识别，较前两种方法而言，提高了国画识别准确率。由表4、表5、表6知，方法3在A类和B类国画图像的正确识别数目上较方法1和方法2有均有提高，同时也可为步骤4)③中参数K和步骤5)①中的参数L的选取提供了依据，即最优K和L的选择是以更高的识别准确率和更多的正确识别数目为目的。

本发明虽然得到了更理想的识别结果，如能够考虑颜色、纹理及其他特征，将进一步提高准确率，有助于国画图像的自动分类及其标注和检索。

Claims

1.一种基于局部语义概念的国画图像识别方法，其包括以下步骤：

1)利用扫描设备对待识别的国画作品进行图像采集，并存入计算机中；

2)通过随机抽取器将采集到的国画作品图像分成训练样本集和测试样本集；

3)通过视觉注意力模型分别提取训练样本集和测试样本集内国画作品图像中的显著区域图像；

4)对训练样本集内的国画作品图像和相应的显著区域图像，分别建立国画作品图像的词包模型；

5)根据训练样本集内建立的国画作品图像词包模型和相应的显著区域图像词包模型，分别构建国画作品图像的空间金字塔模型和相应的显著区域图像的空间金字塔模型，并生成相应的两个空间金字塔特征直方图；

6)采用串行合并的方法对步骤5)中生成的两个空间金字塔特征直方图进行融合；

7)利用聚类方法、K近邻法、神经网络和支持向量机方法中的一种以上分类方法对测试样本集中待识别的国画图像进行识别，用识别准确率和混淆矩阵的方式输出识别结果。

2.如权利要求1所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤2)中训练样本集和测试样本集的生成方法包括：

①定义国画图像的类别，类别编号为1～n，n为自然数；

②假设用于待识别的国画作品图像代表集为P，记为{P₁,P₂,P₃}。其中P₁表示花鸟画，记为A_i为其中的一幅国画图像，P₂表示人物画，记为P₂＝{B₁,B₂,...,B_i}，B_i为其中的一幅国画图像，P₃表示山水画，记为P₃＝{C₁,C₂,...,C_i}，C_i为其中的一幅国画图像；

③分别从P₁、P₂和P₃中随机选取设定数量的图像作为训练样本集Q，记为{P₁',P₂',P₃'}，用于生成国画图像识别的模型；将P₁、P₂和P₃中剩余的图像作为测试样本集用于校准。

3.如权利要求1或2所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤4)中建立国画图像的词包模型，包含以下步骤：

①国画图像的灰度化，分别对训练样本集和显著区域图像中彩色国画图像按如下公式进行灰度化处理：

Gray(i,j)＝0.11*R(i,j)+0.59*G(i,j)+0.3*B(i,j)

其中i,j是一个像素点在图像中的位置，R(i,j)是i,j所表示的像素点颜色的红色分量，G(i,j),B(i,j)分别表示绿色和蓝色分量，Gray(i,j)表示该点转换后的灰度级别；

②分别对步骤①得到的灰度图像选取SIFT(Scale-invariant feature transform,尺度不变特征转换)描述子的关键点，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，生成SIFT特征向量，并根据需要对SIFT特征向量进行光照归一化处理；

③根据步骤②得到的国画原图和国画显著区域图像的SIFT特征向量来，分别构建视觉词汇表；视觉词汇表包含K个视觉单词，K为自然数，取值为500-1200；

④利用得到的两个视觉词汇表，进行局部语义概念特征的提取和表示，即计算某一个SIFT关键点邻域内的SIFT特征与视觉词汇表中的每个视觉单词所对应SIFT特征的欧氏距离，用最近邻的视觉单词来定义该SIFT关键点，将所有的SIFT关键点映射到视觉词汇表中，用视觉单词的标号描述这幅图像，即得到该图像的局部语义概念特征采用直方图特征表示法来表示该图像的局部语义概念特征。

4.如权利要求3所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤4)的②中选取SIFT描述子的关键点的步骤如下：

A、对国画原图采用网格采样法进行采样；

B、对国画显著区域图像采用尺度空间极值检测方法。

5.如权利要求1所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤5)中构建空间金字塔模型包括以下步骤：

①将国画图像在二维图像空间中划分为不同大小的子图像区域，形成空间金字塔分块；空间金字塔层数为2～5；

②对形成的空间金字塔分块图像构建相应的空间金字塔特征直方图。

6.如权利要求1或2或4或5所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤6)中，对两个空间金字塔特征直方图的融合包括以下两种方法之一：

一种是将两组特征向量首尾相连生成一个联合向量作为新的特征向量,在更高维的向量空间进行特征提取，即串行组合；

另一种是利用复向量将同一样本的两组特征向量合并在一起，在复向量空间进行特征提取,即并行组合。

7.如权利要求3所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤6)中，对两个空间金字塔特征直方图的融合包括以下两种方法之一：

8.如权利要求1或2或4或5或7所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤7)中采用支持向量机方法进行分类时的步骤如下：

①分类器模型的生成

采用LIBSVM-fast工具包进行识别实验，训练生成分类器模型所需的参数为options＝'-t 4-s 0-b 1-c 1'，其表示的含义是核函数为交叉核函数，SVM类型为C-svc；C-svc惩罚系数为1，且需要概率估计；

②输出测试样本集中待识别国画图像的结果；

利用步骤3)～6)处理测试样本集中待识别的国画图像，得到对应的特征向量，并将其输入训练好的分类器模型，根据分类器模型的公式即可得到图像的分类结果；

③识别结果评价方法包括识别准确率和混淆矩阵两种方法。

9.如权利要求3所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤7)中采用支持向量机方法进行分类时的步骤如下：

①分类器模型的生成

②输出测试样本集中待识别国画图像的结果；

③识别结果评价方法包括识别准确率和混淆矩阵两种方法。

10.如权利要求6所述的一种基于局部语义概念的国画图像识别方法，其特征在于：所述步骤7)中采用支持向量机方法进行分类时的步骤如下：

①分类器模型的生成

②输出测试样本集中待识别国画图像的结果；

③识别结果评价方法包括识别准确率和混淆矩阵两种方法。