CN106845510B

CN106845510B - 基于深度层级特征融合的中国传统视觉文化符号识别方法

Info

Publication number: CN106845510B
Application number: CN201610976349.8A
Authority: CN
Inventors: 吴晓雨; 杨成; 谭笑; 马禾; 朱贝贝; 杨磊
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2020-04-07
Anticipated expiration: 2036-11-07
Also published as: CN106845510A

Abstract

基于深度层级特征融合的中国传统视觉文化符号识别方法，属于图像处理与计算机视觉技术领域。首先利用深度学习中卷积神经网络来训练分类模型；其次在训练好的模型中提取各层的视觉文化符号特征，并利用Softmax回归来计算每一层的权重，将每一层的特征合并成一个长向量，作为每一类图像的图像特征表示；再将提取后的特征经过PCA降维并归一化后送入到浅层学习SVM中进行分类；最后再利用集成学习的思想，将深度学习的识别结果和深浅结合的识别结果利用回归树结合，得到最终的分类结果。

Description

基于深度层级特征融合的中国传统视觉文化符号识别方法

技术领域

本发明涉及基于深度层级特征融合的中国传统视觉文化符号识别方法，属于图像处理与计算机视觉技术领域。

背景技术

中国传统视觉文化符号是中华民族千百年来的历史和文化遗产，也是中华传统文化的一种标志。它凝结着中国人的智慧和力量，成为世界能够解读中国的一种方式，它能代表中国、影响世界。对中国传统文化符号的研究有着深远的意义，目前，全球化的必然趋势，使得传统文化面临着重大冲击，所以对中国传统文化的重新审视和继承是客观必然的，而传统文化符号作为传统文化的一种符号、标志，有着更深远的作用。

而目前文化符号主要以图像的形式呈现给公众，其中图像是视觉信息的最基本表现形式，具有内容丰富、反映直观等特点而广泛存在于各行各业的应用之中。且随着数字设备的应用以及互联网技术的发展，视觉图像数据正以惊人的速度增长，其内容和形式呈现出多样化，因此如何利用计算机对这些大量的数据进行智能化处理成为一个迫切需要研究的问题。

现有技术一的技术方案：根据不同视觉文化符号的特点，提取有利于分类的底层特征。如根据不同文化符号的轮廓，提取了轮廓特征，采用的算法是HOG，轮廓特征可以有效地提取图像中感兴趣目标的边缘信息。根据各种文化符号的表面的本质属性，提取纹理特征，采用的算法是LBP。根据不同文化符号之间颜色的巨大区别性，提取颜色特征。文中是在RGB空间提取的颜色特征。将提取的轮廓特征(HOG)、纹理特征(LBP)和颜色特征(RGB)结合，将总体特征送入支持向量机(SVM)中训练模型，并进行分类。但是底层特征对于图像的噪声，模糊图像，角度以及其他的客观因素不具有很好的鲁棒性。所以还可以提取HOG轮廓特征和RGB空间的颜色特征以及SIFT等底层特征，并将这些底层特征转化为具有语义信息的中层特征。文中将提取到的底层特征通过K-means算法聚类，并利用词包模型(Bag-of-Words)的思想以及空间金字塔匹配原理(SPM)，构造具有空间位置信息的视觉文化符号特征的词袋模型。统计金字塔每一层次每一区域的词频，形成统计直方图作为该区域的特征，并利用最大池化的方法(Max-pooling)将每一层每一区域中的特征提取最大值，最后合并成一个能够作为每一类文化符号的特征表达的大向量，最后将向量送入SVM中进行训练和测试，完成文化符号的分类。

现有技术一的缺点：

在这种模式下，特征提取主要是人工提取特征。人工提取特征是一件非常费力、启发式(需要先验知识)的方法，能不能选取好很大程度上靠经验和运气，而且它的调节需要大量的时间。且这种浅层模型提取出来的浅层特征对复杂问题分类的效率不高，需要选择SVM等具有优越性能的分类器，因为SVM可以将低维空间转化为高维空间来解决一些复杂的分类问题。除此之外，也可以利用深度学习卷积神经网络来处理模式识别的问题。

现有技术二(基于深度学习)的技术方案：

基于浅层学习中手工提取特征的缺点，目前有利用深度学习中卷积神经网络来处理视觉文化符号的分类问题。主要是利用Caffe框架，对已经在大量数据上训练好的成熟模型(如Caffenet,Alexnet)进行fine-tuning，并且详细介绍了网络中各种参数的调整策略。

卷积神经网络(Convolutional Neural Networks,CNN)是一种受视觉神经机制的启发而设计的多层感知器，每层由多个二维平面组成，而每个平面由多个独立神经元组成。这种网络结构对图像各种变化有着很强的适应性，如比例缩放、平移、倾斜或者其他形式的变形等。

CNN中卷积核的大小、移动步长以及采样因子都可以手动调整。全连接层将最后的卷积或采样层的输出组合成一个一维特征向量。整个网络的最后一层同样也是全连接层，每个输出神经元代表一个分类类别。采用Softmax函数作为最后一层的激活函数，因此，每个神经元的输出代表了类别的概率。所谓卷积神经网络，就是会自动的对于一张图片学习出最好的卷积核以及这些卷积核的组合方式，也就是对于一张图片的任务来说，求出最好的图片对于本任务的特征的表达，然后来进行判断。相对于其他图像分类算法，卷积神经网络使用相对较少的预处理，这是因为它专也于滤波器的学习，而传统的算法则过多的在乎手工特征的设计。不需要依赖于先验知识以及目前手工特征设计困难是卷积神经网络相比于传统算法的主要优势。

现有技术二的缺点：

(1)传统做法中，就是将最后的特征送入到最后一层，就是说网络会将它认为没用的信息过滤掉，但是过滤掉的信息不一定是没用的，对图像细节也是具有一定的表达能力的，所以不足之处是会有特征的丢失。

(2)传统的神经网络最后一层连的是Softmax，Softmax逻辑回归模型利用梯度下降方法对参数更新，这样的话，在收敛速度上会有点慢，因为有参数更新的过程。而且它是通过求最小代价函数的方式来寻求最优概率组合。在分类效果上逻辑回归易受离群数据干扰，这对分类的准确率有影响。

总的来说，目前基于模式识别的文化符号分类方法可概括分为浅层学习和深度学习方法，但正如上面所述的每类方法又有自身的缺点，尤其是基于深度学习的文化符号识别方法研究甚少。为了克服现有技术的不足,本发明提出了基于深度层级特征融合的中国传统视觉文化符号识别方法。

发明内容

本发明主要针对中国传统的视觉文化符号，并对其做识别和分类等智能化处理，文化符号的分类就是根据图像内容的理解，将不同类别分开，基于机器视觉的方法可以自动对数据集中各类图像进行注释和分类，以替代人的视觉判读。

本发明不仅可以有利于对文化符号的二次内容挖掘同时也促进了中国传统文化的传播。根据图像内容的理解，对图像进行分类和识别是计算机视觉领域的重要组成部分，能够有效地对数字图像的内容进行分析，获取图像中的关键信息，将不同的类别分开并给出正确的判断，对现实的工作生活及社会的发展也具有重要的意义。例如，利用搜索引擎在互联网上对图像数据快速地检索，如百度搜图、淘宝搜图等以图搜图的搜索方式，可以大大提高人们的工作效率，方便了人们的生活。

本发明分析浅层学习和深度学习的各自优缺点：基于浅层学习的分类方法主要是将数据集经过预处理、特征提取、特征选择、特征编码，再到分类。而中间的特征提取、特征选择和特征编码三部分，概括起来就是特征表达，如图1所示。良好的特征表达，对最终算法的准确性起了非常关键的作用，但是这块实际中一般都是人工完成的。靠人工提取特征。然后将提取到的特征送入分类器(如SVM，随机森林等)进行模型的训练和识别；但是，不可否认传统的分类器如SVM有较强的理论基础且具有优越的分类性能；基于深度学习的识别方法，特征提取是完全由算法自身完成，学到隐含在数据对背后的规律，无需人工干预。基于卷积神经网络的模式识别方法主要首先设计卷积与池化层、全连接层、分类器来构建文化符号识别的神经网络，其中卷积与池化层和全连接层用来提取特征，分类器用来对文化符号分类识别。然后利用包含不同文化符号特征的带标签的数据库训练该神经网络，并用随机梯度下降法进行权重参数矩阵和偏移量的调整，最后将测试数据送入已经训练好的模型中进行识别。但是目前深度学习主要利用最后一层特征存在细节特征的丢失且Softmax分类性能欠佳，因此，本发明基于深度层级特征融合的中国传统视觉文化符号识别方法，首先利用深度学习中卷积神经网络来训练分类模型；其次在训练好的模型中提取各层的视觉文化符号特征，并利用Softmax回归来计算每一层的权重，将每一层的特征合并成一个长向量，作为每一类图像的图像特征表示；再将提取后的特征经过PCA降维并归一化后送入到浅层学习SVM中进行分类；最后再利用集成学习的思想，将深度学习的识别结果和深浅结合的识别结果利用回归树结合，得到最终的分类结果。

本发明与现有的技术相比具有如下优点：

1.利用深度学习卷积神经网络来作为特征提取器，因为传统的神经网络是特征层层过滤，只选用最后一层所谓的经过层层过滤后的精华特征作为图像的表达，但是中间过滤掉的特征不一定都是噪声，会有一部分特征的遗漏和丢失。为了避免特征的遗漏和丢失，提取层级特征，也就是将卷积神经网络训练的模型中每一层的特征都提取。综合后作为图像的表达。

2.传统的神经网络最后一层分类层使用softmax方式，softmax是逻辑回归的一种多分类方式，该回归模型利用梯度下降方法对参数更新，求最小代价函数的方式寻求最优概率组合，而SVM不用计算代价函数，省略了更新参数的过程，收敛速度更快。在分类效果上逻辑回归易受离群数据干扰，而SVM最大优势是抗噪声的能力，以及可以采用核函数进行维度变化，变到高维上进行分类，它基于结构风险最小化理论在特征空间中建构最优分割超平面，使得学习达到全局最优。

3.考虑到深度学习卷积神经网络中Softmax作为分类器和浅层学习中SVM分类器的优势互补，利用集成学习的思想，将将两个弱分类器，以一定权重组合起来，形成最终决策的强分类器。

归纳起来，本发明系统搭建简单，算法具备完全自动化、结果准确的特性。

附图说明

当结合附图考虑时，通过参照下面的详细描述，能够更完整更好地理解本发明以及容易得知其中许多伴随的优点，但此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，如图其中：

图1为基于浅层学习的图像识别过程示意图；

图2为本发明总体框架图；

图3本发明的特征权重示意图；

图4本发明的深度学习中卷积神经网络结构图；

图5本发明的深浅结合具体操作图；

下面结合附图和实施例对本发明进一步说明。

具体实施方式

显然，本领域技术人员基于本发明的宗旨所做的许多修改和变化属于本发明的保护范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当称元件、组件被“连接”到另一元件、组件时，它可以直接连接到其他元件或者组件，或者也可以存在中间元件或者组件。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

为便于对本发明实施例的理解，下面将做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例1：如图1、图2、图3、图4、图5所示，基于深度层级特征融合的中国传统视觉文化符号识别方法，具体包括如下步骤：

步骤1：系统首先获取中国传统视觉文化符号数据，将获取到的数据转化成lmdb格式，再送入已经准备好的卷积神经网络中进行训练和测试，此时得到识别结果A；

步骤2：将训练好的模型保存为***.caffemodel的形式，之后再从已经训练好的模型中提取每一层的特征，共有5个卷积层，3个全连层；

步骤3：将步骤2中提取到每层的特征，利用空间金字塔的思想赋予相应的权重。权重通过Softmax回归求得。然后将每一层的特征串行合并成一个长向量；

步骤4：将步骤3中得到的长向量通过PCA降维并归一化；

步骤5：将降维后的特征送入到SVM中进行模型训练和识别，此时得到识别结果B；

步骤6：将步骤1和步骤5中得到的识别结果A和B利用集成学习的思想，使用回归树将两者结合，得到最后的识别结果。

2.步骤1利用深度学习来训练模型并测试如下所述：

步骤11：首先对中国传统文化符号的原始数据进行清洗并扩充，并统一成256*256的尺寸，随机抽取4/5作为训练集，其余为测试集，再转化成lmdb格式；

步骤12：将步骤11中lmdb格式的数据送入到Alexnet网络中，利用Fine-tuning对已经用大量数据(如Imagenet)训练好的模型进行微调，即修改网络文件中的最后一层的层名称以及根据分类需求更改输出节点值。训练过程中根据训练输出日志中的loss值和accuracy值，来调整网络参数，以得到更好的训练模型；

步骤13：再利用步骤12中训练好的模型对待测数据进行测试，得到识别结果A；

3.步骤2特征提取过程如下所述：

步骤21：利用步骤1中训练好的模型，以及对应的Alexnet网络层文件提取每一层的特征；

步骤22：Alexnet网络共包含5个卷积层和3个全连层，最后一层是输出层，所以只提取前7层的特征。其中5个卷积层输出的是一系列的二维特征图谱，fc6和fc7(如图4所示)输出的是4096维的向量。分别将训练集和测试集在网络中每一层的特征提取出来，其中前5层从每层的一系列特征图谱中对应像素位置取最大像素值，得到最大值特征图谱作为该层的特征；

4.步骤3每层特征的权重系数求法如下：

步骤31：利用逻辑回归求出权重系数，由于是监督学习，已知标签(label)，和输入特征，可根据公式2，公式3，可以求出相应的权重系数。

步骤32：将各层的特征串行合并成长向量作为特征表达。

5.步骤4将特征降维以及归一化步骤如下：

步骤41：将步骤32得到的特征长向量利用PCA进行降维，将训练集特征降维过程中的特征值矩阵保存下来，然后将测试集特征在该特征值矩阵上做投影，完成训练集和测试集特征的降维。所降维数根据贡献率和识别率综合确定，根据贡献率来定位所降维数的大致范围，最后根据识别率确定范围中最合适的维数；

步骤42：将降维后的特征利用min-max归一化方法进行归一化(公式4)，得到最后的特征表达。

5.步骤5训练模型和测试按如下过程进行：

步骤51：将步骤42得到的特征送入SVM中进行训练，使用的核函数是直方图交叉核函数(公式5)，得到用于识别的模型，完成训练；

步骤52：最后将步骤51得到的模型和待测数据送入到SVM中完成最后的识别，得到识别结果B；

6.步骤6识别结果A和B结合按如下过程进行：

步骤61：因为深度学习与浅层学习中的SVM都是输出划为某一类的概率，把这些概率当成回归树特征，原始图片类别当成回归树的标签(label)，训练一个回归树模型，再用测试集测试，得到最终结果。

实施例2：如图1、图2、图3、图4、图5所示，

图像分类主要包括两个过程：一是特征提取过程，二是分类器设计。由于神经网络(特征学习)能够自行从原始图像学习到具有普适性的特征,传统分类器又具有优越的分类性能。这就很自然的想到将神经网络(特征学习)和传统分类器相结合,使得整个模式识别系统的流程都是全自动的(automatic)和可训练的(trainable)。

卷积神经网络可以看做是特征提取与分类器的结合体，单从它的各个层的映射来看，类似于一个特征提取的过程，提取了不同层次的特征。但如果映射来映射去，最后就映射到几个标签上，则它又有了分类的功能。这样的话，可以将浅层学习和深度学习结合，利用深度学习中卷积神经网络作为特征提取器，(把CNN看成是一个特征提取的手段)。

将每一层的特征提取、加权、合并后加以利用，避免特征遗漏。

那既然是特征提取，就必然要搭配一些好的分类器了，传统的神经网络最后一层连的是softmax，softmax回归模型利用梯度下降方法对参数更新，求最小代价函数的方式寻求最优概率组合，而SVM不用计算代价函数，省略了更新参数的过程，收敛速度更快。

除此之外，SVM最大优势是抗噪声的能力，以及可以采用核函数进行维度变化，变到高维上进行分类，它基于结构风险最小化理论在特征空间中建构最优分割超平面，使得学习达到全局最优。基于以上思想，需要将卷积神经网络的最后一层softmax替换成SVM。

同时，传统的卷积神经网络是将最后一层的特征送入到最后的Softmax分类器中，特征通过层层筛选，然后将最后“有用”的特征用来作为图像的表达，那么这样会造成特征的丢失和遗漏，那么怎样将中间特征也利用上，并且将最后一层分类器换成浅层学习中更有效的分类器，以及利用Softmax分类器和SVM分类器的优势互补借鉴集成学习的思想将浅层学习和深度学习的识别结果利用回归树结合是本文的重点。

图2是本发明的整体框架流程图；

基于深度层级特征融合的中国传统视觉文化符号识别方法，具体包括如下步骤：

1.数据准备，

1.1数据清洗，

将原始数据中严重不符合本类图像特征的、十分模糊且gif动图删掉；

1.2数据扩充，

(1)旋转，

将1.1中的数据做±5°、±10°、±15°的旋转，并将旋转后的空白区域填充黑色。然后再做镜像处理。

(2)光照，

在HSV空间：色调H保持不变，色彩亮度V增加20％，色彩饱和度S减少10％；

(3)裁剪，

按照1.3中将数据统一尺寸256*256后，进行crop裁剪，裁剪窗口大小是227*227，步长是4；

1.3格式转换，

将经过数据扩充中，经过(1)(2)处理后的数据随机抽取4/5作为训练集，其余1/5作为测试集。并将所有图像统一调整成256*256的大小，并转换成lmdb的格式，分别为“train.lmdb”和“test.lmdb”。同时将“train.lmdb”转换成均值文件“train_mean.binaryproto”。

2.深度学习模块，

2.1利用卷积神经网络训练模型并测试，

(1)模型训练，

然后将训练数据“train.lmdb”以及均值文件“train_mean.binaryproto”送入到卷积神经网络中，本申请主要使用的是在大数据下训练好的Alexnet网络，即“bvlc_alexnet.caffemodel”。然后使用fine-tuning的方法微调网络，这样的话，可以使模型训练的更快。需要将“train.prototxt”中的最后一层的名称“fc8”改成“fc8_tan”，并且将输出节点1000改为9(因为只有9类)。而其他层直接拿过来用即可。接下来开始训练模型，此时需要用的环境是在Linux下，使用Caffe框架，并采用型号为Titan x内存为12GB的GPU来加速网络的训练。然后根据训练日志中的loss值和准确率来调整网络参数。将训练好的模型保存为“alexnet_***.caffenetmodel”。其中***是迭代次数；

(2)测试，

调用上一步中已经训练好的模型对待测数据进行测试，得到识别结果A；

3.浅层学习模块，

3.1.提取每层特征并赋予权重，

(1)提取每层特征，

Alexnet网络共包含5个卷积层和3个全连层，最后一层是输出层，所以只提取前7层的特征。其中5个卷积层输出的是一系列的二维特征图谱，fc6和fc7输出的是4096维的向量。分别将训练集和测试集在网络中每一层的特征提取出来，其中前5层从每层的一系列特征图谱中对应像素位置取最大像素值，得到最大值特征图谱作为该层的特征，提取后的特征保存为"***.feature"，其中***是层名称(如conv1,conv2,conv3,conv4,conv5,fc6,fc7)；

(2)对每层特征进行加权，

对于每一层的特征，因为深度学习提取的层次不一样，所以借鉴空间金字塔(SPM)的思想，对每一层赋予一定的权重，如图2和图3里的α，β，γ，α，β，γ为系数，通过softmax算法训练该权重；因为每一层存在多个特征，如图2和图3里的{w₁，w₂，w₃，w₄，…，w_n}，其中w_n是第n个特征图谱的特征。先采用max pooling或average pooling的形式进行归一，再结合已有的样本标签(label)，通过softmax算法得到统计学里的每层的权重值，也就是多类别下的逻辑回归。

二分类逻辑回归算法使用如下的sigmoid函数作为拟合假设函数：

其中，由于是监督学习，则h_θ(x)是取不同特征x时的可能发生概率值，θ是待求的权重系数即α，β，γ，T这里代表转置，x是输入数据特征，即输入相应的每层特征。

对于多分类问题，假设训练集由m个已标记的样本构成：{(x⁽¹⁾，y⁽¹⁾)，...，(x^(m)，y^(m))}，其中输入特征x⁽ⁱ⁾即图2和图3中的{w₁，w₂，w₃，w₄，…，w_n}，x⁽¹⁾是样本1的特征向量，x^(m)是样本m的特征向量，类标记y⁽ⁱ⁾∈{1，2，...，k}，，k为类别(实际图片类型)。y⁽¹⁾是样本1的类别，y^(m)是样本m的类别。θ为模型参数(也即α，β，γ)，对于给定的特征输入x，想用假设函数针对每一类别j估算概率值p(y＝j|x)。也就是说，估计x的每一种分类结果出现的概率，使用p(yⁱ)表示第i个样本分别取不同的类别1，……，k时的概率值。因此，假设函数将要输出一个k维的向量来表示这k个估计的概率值。具体地说，假设函数h_θ(x)形式如下：

损失函数如下，其中当K取2，即二分类问题，得到的是二分类逻辑回归的损失函数：

其中是e是自然底数，i是样本编号，j是类别编号，k是总类别数，m是总样本数。x作为输入特征，即图2和图3中{w₁，w₂，w₃，w₄，…，w_n}(将其池化(pooling)变成一个总特征，也即一个w值)。如此每一层可以认为是一个特征，将这个特征作为输入x，图片类型为k个分类，从而经过最优化损失函数可以得到每一层不同的权重。

最后将提取到的每层特征以及其权重合并成一个长向量，作为图像的特征表达。

3.2.特征降维及归一化，

(1)特征降维，

将3.1(2)中得到的特征长向量通过PCA降维，首先对训练集的特征进行降维，将降维过程中的特征值矩阵以及降维后的特征保存下来，在对测试集特征的降维时，直接将测试集特征投影到刚才保存的特征值矩阵中，这样完成测试集特征的降维，所降维数根据贡献率和识别率综合确定；

(2)归一化，

将降维后的特征进行归一化，使用的方法是min-max归一化方法，公式是：

其中，x为n维原始特征，min为每一维度对应的最小值，max为每一维度对应的最大值，x^*为降维后的特征。

3.3.将得到的特征送入SVM中进行训练和测试，

(1)模型训练和测试，

将3.2(2)得到的特征送入到浅层学习中，本文中是送入到SVM中进行训练和测试。浅层学习中，实验环境是在Windows系统下，在Visual Studio 2010下，从Libsvm库中调用SVM进行模型的训练，得到模型，再将得到的模型和待测数据再送回SVM中进行测试，得到测试结果B；

(2)核函数的使用，

使用的核函数时直方图交叉核函数，即：

其中，M是特征向量的维度，i是第i张图像，x^(k)是特征向量在k维度下对应的特征值，

是第i张图片在k维下的特征值。

4.联合输出模块，

因为深度学习与浅层学习中的SVM都是输出划为某一类的概率，把这些概率当成回归树特征，原始图片类别当成回归树的标签(label)，训练一个回归树模型，再用测试集测试，得到最终结果。

如上所述，对本发明的实施例进行了详细地说明，但是只要实质上没有脱离本发明的发明点及效果可以有很多的变形，这对本领域的技术人员来说是显而易见的。因此，这样的变形例也全部包含在本发明的保护范围之内。

Claims

1.基于深度层级特征融合的中国传统视觉文化符号识别方法，其特征在于首先利用深度学习中卷积神经网络来训练分类模型；其次在训练好的模型中提取各层的视觉文化符号特征，并利用Softmax回归来计算每一层的权重，将每一层的特征合并成一个长向量，作为每一类图像的图像特征表示；再将提取后的特征经过PCA降维并归一化后送入到浅层学习SVM中进行分类；最后再利用集成学习的思想，将深度学习的识别结果和深浅结合的识别结果利用回归树结合，得到最终的分类结果；具体包括如下步骤：

步骤1：系统首先获取中国传统视觉文化符号数据，将获取到的数据转化成lmdb数据格式，再送入已经准备好的卷积神经网络中进行训练和测试，利用深度学习来训练模型并测试，此时得到识别结果A；

步骤2：将训练好的模型保存为***.caffemodel的形式，之后再从已经训练好的模型中提取每一层的特征，共有5个卷积层，3个全连层，进行特征提取；

步骤3：将步骤2中提取到每层的特征，利用空间金字塔的思想赋予相应的权重；每层权重通过Softmax回归求得；然后将每一层的特征串行合并成一个长向量；

步骤4：将步骤3中得到的长向量通过PCA降维并归一化；

步骤5：将降维后的特征送入到SVM中进行训练模型和测试，此时得到识别结果B；

步骤6：将步骤1和步骤5中得到的识别结果A和B利用集成学习的思想，使用回归树将两者结合，得到最后的识别结果；

步骤1利用深度学习来训练模型并测试如下所述：

步骤12：将步骤11中lmdb格式的数据送入到Alexnet网络中，利用Fine-tuning对已经用大量数据(如Imagenet)训练好的模型进行微调，即修改网络文件中的最后一层的层名称以及根据分类需求更改输出节点值；训练过程中根据训练输出日志中的损失值和准确度值，来调整网络参数，以得到更好的训练模型；

步骤2特征提取过程如下所述：

步骤22：Alexnet网络共包含5个卷积层和3个全连层，最后一层是输出层，所以只提取前7层的特征；其中5个卷积层输出的是一系列的二维特征图谱，fc6和fc7输出的是4096维的向量；分别将训练集和测试集在网络中每一层的特征提取出来，其中前5层从每层的一系列特征图谱中取最大值作为该层的特征；

步骤3每层特征的权重系数求法如下：

步骤31：利用逻辑回归求出权重系数，由于是监督学习，已知标签(label)，和输入特征，可根据公式2、公式3，可以求出相应的权重系数；

公式2：

损失函数：

公式3：

其中，e是自然底数，i是样本编号，j是类别编号，k为类别数，m是已标记的训练样本：{(x⁽¹⁾，y⁽¹⁾，...，(x^(m)，y^(m))}，其中x⁽ⁱ⁾是输入特征，类标记y⁽ⁱ⁾∈{1，2，...，k}，p(yⁱ)表示第i个样本分别取不同的类别1,……，k时的概率值，θ为模型参数(也即α，β，γ)；

步骤32：将各层的特征串行合并成长向量作为特征表达；

步骤4将特征降维以及归一化步骤如下：

步骤41：将步骤32得到的特征长向量利用主成分分析方法PCA进行降维，将训练集特征降维过程中的特征值矩阵保存下来，然后将测试集特征在该特征值矩阵上做投影，完成训练集和测试集特征的降维；所降维数根据贡献率和识别率综合确定，根据贡献率来定位所降维数的大致范围，最后根据识别率确定范围中最合适的维数；

步骤42：将降维后的特征利用min-max归一化方法进行归一化，得到最后的特征表达；

步骤5训练模型和测试按如下过程进行：

步骤51：将步骤42得到的特征送入支持向量机SVM中进行训练，使用的核函数是直方图交叉核函数，见公式5，得到用于识别的模型，完成训练；

公式5：

其中，M是特征向量的维度，i是第i张图像，x^(k)是特征向量在k维度下对应的特征值,

是第i张图片在k维下的特征值；

步骤6识别结果A和B结合按如下过程进行：