CN103116766B

CN103116766B - 一种基于增量神经网络和子图编码的图像分类方法

Info

Publication number: CN103116766B
Application number: CN201310090274.XA
Authority: CN
Inventors: 杨育彬; 唐晔; 潘玲燕
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-03-20
Filing date: 2013-03-20
Publication date: 2015-11-18
Anticipated expiration: 2033-03-20
Also published as: CN103116766A

Abstract

本发明公开了基于增量神经网络和子图编码的图像分类方法，包含如下步骤：局部特征抽取；增量码书网络学习；基于子图的特征编码；图像空间聚合；分类器学习及模型预测；本发明能够高效地学习码书，同时保留视觉单词之间的空间关系，很大程度上缩减了传统算法的时间复杂性，此外，本发明中基于子图的特征编码能充分利用视觉单词之间的空间关系进行特征编码，抽取更加丰富的语义信息，并最终使分类系统在提升计算效率的同时，获得优异的分类性能，因此具有较高的使用价值。

Description

一种基于增量神经网络和子图编码的图像分类方法

技术领域

本发明属于图像分类领域，特别是一种基于增量神经网络和子图编码的图像分类方法。

背景技术

在当前的信息化社会中，以图像为代表的数字媒体资源已达到海量规模，成为当前信息处理和信息资源建设的主体。传统的技术手段已经无法适应这种需求，这对图像的组织、分析、检索和管理等技术都提出了全新的挑战。图像分类作为对图像的机器理解的基础技术，近些年来一直是模式识别、计算机视觉、信息检索、人工智能、机器学习和数据挖掘等多个重要研究领域中持续的前沿性研究热点。图像分类是指根据图像的内容将其归为特定的语义类别的方法，其能自动提取图像的语义信息并有效管理。图像语义分类技术可直接应用到海量图像检索、图像语义标注、图像信息过滤等图像语义理解相关的其他技术领域，并带动上述领域相关技术的发展。尽管国内外许多研究者投身于图像分类技术的研究，目前的图像分类还面临多种挑战。比如：怎样自动获得丰富的高层语义信息；如何鲁棒地处理光照、位置、遮挡以及噪声数据的情形；如何高效处理大规模图像数据等等。当前基于码书的图像分类框架得到广泛的研究，已成为图像分类领域的主流方法。此框架主要包含以下步骤：特征抽取，码书学习，特征编码表示，汇合，分类模型学习及预测。其中码书学习步骤对整体的计算性能和分类效果起到至关重要的作用。因此，此发明旨在改进现有码书的学习模型，使其计算高效，并蕴涵更丰富的信息，同时结合发明中提出的新型特征编码方式，到达改善基于码书的图像分类框架处理大规模数据的能力。

发明内容

发明目的：本发明为了解决现有技术中的问题，提出了一种基于增量神经网络和子图编码的图像分类方法，从而改善传统方法处理大规模图像分类任务的能力。

发明内容：本发明公开了基于增量神经网络和子图编码的图像分类方法，包含如下步骤：

训练阶段：步骤1，局部特征抽取：对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合；训练图像是带有类标的图像，类标用于标记图像所属类别；采用稠密抽样的策略，通过16像素×16像素网格划分采样，在每个采样点抽取128维灰度SIFT描述子，最后将抽取的局部特征集合的一个子集作为码书学习的训练集；

步骤2，增量码书网络学习：在局部特征集合中随机抽取部分局部特征作为训练集，以竞争神经网络模型训练码书，此方法属于在线学习技术，计算效率高，同时不需要预先确定码书大小，能根据不同数据集自适应的学习合适大小的码书；具体的网络演化过程包括增加、删除节点及边，边权重更新和相似度阈值修改。最终形成的码书网络不仅包含视觉单词的信息还保留了它们之间的空间关系。

步骤3，训练图像表示：包含基于子图的特征编码和图像空间聚合两个子步骤。

基于子图的特征编码，对训练图像中抽取的局部特征进行编码，利用学习到的码书编码，首先寻找与局部特征距离最近的k个视觉单词＜o₁,...,o_k＞，进一步将与以上k各单词有边相连的部分单词挑选出来，与这k个单词构成子图G'，通过相应的权重向量为子图中每个单词赋予合适的权重，完成最后的编码；图像空间聚合，对于训练图像的所有局部特征的编码结果进行空间聚合操作，以形成整张图像的特征向量，采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作。总共将图像空间分为三层：level0、level1、level2。level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块及位于中心位置的等大小的1块，level2把level1的每块再按相同方式分为5小块，构成25小块，共有31块；最后将所有分块的特征向量串接成整个图像的特征向量，假设获得的码书含M个视觉单词，M取正整数，则图像的特征向量维度为31×M。若用α∈R^M表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到30的整数，则均值聚合的操作定义为：其中h_m表示第m块空间聚合操作的结果向量。

步骤4，分类模型学习：将步骤3中形成的训练图像特征向量及其对应分类类标作为SVM(SupportVectorMachine，支持向量机)分类器的输入，采用直方图相交核SVM分类模型，完成分类模型的参数学习，得到SVM分类模型；

分类阶段包括：

步骤5，局部特征抽取：对于待分类图像进行局部特征描述子抽取，采用稠密抽样的策略，通过网格划分采样，进行SIFT描述子抽取；

步骤6，待分类图像表示：包含基于子图的特征编码和图像空间聚合两个子步骤，首先对待分类图像的局部特征进行基于子图的特征编码：利用学习到的码书编码，首先寻找与局部特征距离最近的k个视觉单词＜o₁,...,o_k＞，进一步将与以上k各单词有边相连的部分单词挑选出来，对于这k个单词，如果其有边相连的拓扑邻居数少于参数β，则提取其所有拓扑邻居单词，否则按照与输入特征的距离从小到大至多抽取参数β个拓扑邻居单词，与这k个单词构成子图G'，通过相应的权重向量为子图中每个单词赋予合适的权重，完成最后的编码，参数β取值范围为大于等于3的整数。然后进行待分类图像的所有局部特征的编码结果空间聚合：采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作。总共将图像空间分为三层：level0、level1、level2。level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块及位于中心位置的等大小的1块，level2把level1的每块再按相同方式分为5小块，构成25小块，共有31块；最后将所有分块的特征向量串接成整个图像的特征向量，假设获得的码书含M个视觉单词，M取正整数，则图像的特征向量维度为31×M。若用α∈R^M表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到30的整数，则均值聚合的操作定义为：其中h_m表示第m块空间聚合操作的结果向量。

步骤7，模型预测，将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型，以此预测待分类图像的类别。

步骤2增量码书网络学习具体包括如下步骤：

从局部特征集合中随机取n个训练图像作为训练集X，X＝[x₁,...,x_n]∈R^m×n，其中x_i∈R^m表示一个局部特征，m表示局部特征的维数，首先随机从训练集中选取两个特征向量作为权重向量创建两个节点V＝{v₁,v₂}，并设置这两个节点获胜次数为0；初始化网络的边集

从训练集中随机挑选新输入的特征向量x，计算当前网络中距离x最近的两个节点v_w1,v_w2作为获胜节点，若用w_i表示节点i的权重向量，则

v_{w 1} = {argmin}_{i &Element; V} || x - w_{i} ||, v_{w 2} = {argmin}_{i &Element; V \ {v_{w 1}}} || x - w_{i} ||,

其中V表示网络顶点集，V\{v_w1}表示顶点集中去除获胜节点v_w1构成的顶点集，并对相应的边及节点进行信息更新。

通过比较输入特征x与获胜节点之间的距离和自适应阈值和预定义阈值，确定输入特征是否属于网络的已有知识。即如果且则认为输入特征属于网络已有知识。其中节点自适应阈值T_i计算如下：

其中T_i表示第i个节点为获胜节点时的阈值，N_i表示第i个节点的邻居节点集，w_i,w_j表示第i，j节点的权重向量，表示空集；如果输入特征不属于已有知识，则创建获胜次数为0的新节点表示输入特征x，将新节点的权重向量初始化为此输入特征x。然后再随机选取下一个输入特征向量对网络进行更新。

如果输入向量x属于网络已有知识，则将网络中已有的边的年龄加1，如果获胜节点之间没有边连接，则在它们之间创建一条边，设置其年龄为0；如果获胜节点之间有边连接，将获胜节点之间的边年龄重置为0；然后进行一轮边年龄遍历，当边的年龄大于最大边年龄age_MAX时，其取值为正整数，将此条边删除；将第一个获胜节点的获胜次数加1，并对第一个获胜节点及其拓扑邻居的权重向量按下面的式子更新：

w_{v_{w 1}} = w_{v_{w 1}} + \frac{1}{M_{v_{w 1}}} (x - w_{v_{w 1}}),

w_{v_{w i}} = w_{v_{w i}} + \frac{1}{M_{ν_{w 1}} \exp ({|| w_{v_{w 1}} - w_{v_{w i}} ||}_{2}^{2})} (x - w_{v_{w i}}),

其中，是v_w1的获胜次数；下标v_w1表示第一个获胜节点，下标v_wi表示第一个获胜节点的第i个拓扑邻居，为对应节点的权重向量，表示第i个节点对应的权重向量，x是局部特征向量；当累积输入的局部特征向量数目达到移除节点时间λ的整数倍时，λ取值范围为正整数，进行噪声节点的删除过程，包括以下步骤：删除拓扑邻居数少于等于1的节点；对于含有2个拓扑邻居的节点，如果其获胜次数少于参数c乘以所有节点的平均获胜次数，c取值范围为(0,+∞)，则将其删除；保留其他节点；如果网络收敛或者达到迭代次数ζ，则停止学习；否则随机选取另一个局部特征向量对网络进行更新。

以上学习算法能根据不同数据集学习合适大小的码书，摒除了传统方法需要人为确定码书大小的弊端。

步骤3和6中基于子图的特征编码包括：

首先寻找与局部特征距x离最近的k个视觉单词，并按距离升序排序，记为＜o₁,...,o_k＞；对于＜o₁,...,o_k＞中的每个单词至多抽取参数β个拓扑邻居，进一步将所有抽取的邻居单词与这k个单词构成子图G'(V',E')，其中V',E'分别表示子图的顶点集和边集，通过如下权重向量为子图中每个单词赋予合适的权重，完成最后的编码S；

S_{I n d e x (w_{j}^{'})} = \frac{2^{| V^{'} |}}{2^{j} \times d (x, w_{j}^{'})} (j &Element; 1, ..., | V^{'} |),

其中，w′j表示子图G'中第j个单词权重向量，Index(w'_j)表示第j个单词在编码S中的序号，d(x,w'_j)是局部特征向量x与第j个单词权重w'_j的距离，|V'|表示子图G'中节点数。本发明是为大规模图像分类而提出的方法。本发明具有以下特征：1)码书网络的在线学习机制使其克服了传统学习方式不能直接处理大规模数据的弊端，同时本发明的方法能利用网络形式保留单词之间的联系；2)本发明的码书网络学习不需要人工预先确定码书大小；3)基于子图的特征编码充分的利用单词及其之间的关系进行编码，使编码结果具有更丰富的语义信息，有利于分类精度的提升。

有益效果：本发明能够直接处理大规模图像数据，因此具有较高的使用价值。

附图说明

图1为本发明流程图。

图2为本发明中码书网络学习步骤子流程图。

图3为本发明中基于子图的特征编码步骤子流程图。

图4为本发明中训练图像表示及待分类图像表示中空间聚合子步骤的空间划分图。

具体实施方式：

如图1所示，本发明公开了基于增量神经网络和子图编码的图像分类方法，包含如下步骤：

步骤1，局部特征抽取：对于训练图像抽取局部特征描述子，采用稠密抽样的策略，通过16像素×16像素网格划分采样，在每个采样点抽取128维灰度SIFT描述子，最后将抽取的局部特征集合的一个子集作为码书学习的训练集。

步骤2，增量码书网络学习：从局部特征集合中随机抽取部分局部特征作为码书的训练集，以竞争神经网络模型训练码书，此方法属于在线学习技术，计算效率高，同时不需要预先确定码书大小，能根据不同数据集自适应的学习合适大小的码书；具体的网络演化过程包括增加、删除节点及边，边权重更新和相似度阈值修改。最终形成的码书网络不仅包含视觉单词的信息还保留了它们之间的空间关系。

步骤3，训练图像表示：包括基于子图的特征编码和图像汇合操作两个子步骤：首先对训练图像中抽取的局部特征进行编码；然后对训练图像的所有局部特征的编码结果进行空间聚合操作，以形成整张图像的特征向量，采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量。

步骤4，分类模型学习，将步骤3中形成的训练图像特征向量及其对应分类类标作为SVM分类器的输入，采用直方图相交核SVM分类模型，完成分类模型的参数学习。

测试阶段：步骤5，局部特征抽取：对于待分类图像进行局部特征描述子抽取，采用稠密抽样的策略，通过16像素×16像素网格划分采样，在每个采样点抽取128维灰度SIFT描述子；

步骤6，待分类图像表示：包含基于子图的特征编码和图像空间聚合两个子步骤，首先对待分类图像的局部特征进行编码；然后进行待分类图像的局部特征的编码结果空间聚合操作，以形成整张图像的特征向量，采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量；

步骤1和步骤5中利用16像素×16像素网格划分采样，在每个采样点计算8个方向上的像素梯度信息，最终形成128维的SIFT描述子。SIFT描述子是指D.Lowe提出的尺度不变特征变换局部特征描述算子，具有对旋转、尺度缩放、亮度变化保持不变性及快速、准确匹配等特点。

步骤2增量码书网络学习流程如图2所示，步骤8是计算距离输入特征向量x最近的两个单词节点作为获胜节点v_w1,v_w2，按欧氏距离计算：

v_{w 1} = {argmin}_{i &Element; V} | | x - w_{i} | |, v_{w 2} = {argmin}_{i &Element; V \ {v_{w 1}}} | | x - w_{i} | |,

其中V表示网络顶点集，V\{v_w1}表示顶点集中去除获胜节点v_w1构成的顶点集，w_i表示节点i的权重向量；步骤9是将输入特征x与获胜节点之间的距离和相应的阈值进行比较，进而判断输入特征x是否为已有知识，其中阈值包括两种：预先定义的阈值参数T_p和获胜节点的自适应阈值T_p其取值为正实数，其作用在于当初始网络的两个节点相距甚远时控制新节点的插入，自适应阈值能根据网络当前结构自适应地度量相似性，按下式计算：

其中T_i表示第i个节点为获胜节点时的阈值，N_i表示第i个节点的邻居节点集，w_i,w_j表示第i，j节点的权重向量，表示空集；步骤10是利用利用输入特征x的相关信息更新获胜节点v_w及其拓扑邻居的权重向量：

w_{v_{w 1}} = w_{v_{w 1}} + \frac{1}{M_{v_{w 1}}} (x - w_{v_{w 1}}),

w_{v_{w i}} = w_{v_{w i}} + \frac{1}{M_{v_{w 1}} \exp (| | w_{v_{w 1}} - w_{v_{w i}} | |_{2}^{2})} (x - w_{v_{w i}});

其中，是v_w1的获胜次数；下标v_w1表示第一个获胜节点，下标v_wi表示第一个获胜节点的第i个拓扑邻居，为对应节点的权重向量，x是局部特征向量；步骤11是进行噪声节点的删除操作，当累积输入的局部特征向量数目达到移除节点时间λ的整数倍时，λ取值范围为正整数，进行噪声节点的删除过程，包括以下步骤：删除拓扑邻居数少于等于1的节点；对于含有2个拓扑邻居的节点，如果其获胜次数少于参数c乘以所有节点的平均获胜次数，c取值范围为(0,+∞)，则将其删除；保留其他节点；步骤12是判断网络是否收敛，如果网络中所有单词的累积变化小于规定的正实数ε，或者整个迭代学习达到预先定义的迭代次数ζ，则停止学习。

步骤3与步骤6训练及待分类图像表示包含相同的两个子步骤：基于子图的特征编码和图像空间聚合，基于子图的特征编码流程如图3所示，步骤13是寻找与局部特征距x离最近的k个视觉单词，按照欧氏距离计算；步骤14是提取子图G'(V',E')的过程，即抽取＜o₁,...,o_k＞的拓扑邻居，为了控制编码结果的稀疏性，每个单词至多抽取参数β个拓扑邻居；步骤15是通过给子图G'(V',E')中的单词赋予合适的权重，形成编码结果，即按下式给出编码结果S：

S_{I n d e x (w_{1}^{'})} = \frac{2^{| V^{'} |}}{2^{j} \times d (x, w_{1}^{'})} (j &Element; 1, ..., | V^{'} |)

其中，w′j表示子图G'中第j个单词权重向量，Index(w'_j)表示第j个单词在编码S中的序号，d(x,w'_j)是局部特征向量x与第j个单词权重w'_j的距离，|V'|表示子图G'中节点数。按此公式编码遵循了给距离输入特征x近的单词更高权重的原则，因此编码结果保持了局部性的特点；图像空间聚合旨在捕捉图像空间信息，用以获取更具辨识性的图像整体特征描述，以提高最后分类准确度，采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作。总共将图像空间分为三层：level0、level1、level2，level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块及位于中心位置的等大小的1块，level2把level1的每块再按相同方式分为5小块，构成25小块，共有31块；最后将所有分块的特征向量串接成整个图像的特征向量，假设获得的码书含M个视觉单词，M取正整数，则图像的特征向量维度为31×M。若用α∈R^M表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到30的整数，则均值聚合的操作定义为：其中h_m表示第m块空间聚合操作的结果向量。

步骤4中假设SVM模型的训练图像集I，通过前面的步骤每张训练图像会形成类似直方图描述的特征向量；依据前人的工作，对于类直方图特征

h_{1} = {h_{1}^{(1)}, ..., h_{d}^{(1)}}, h_{2} = {h_{1}^{(2)}, ..., h_{d}^{(2)}},

直方图相交核，即

κ_{H I} (h_{1}, h_{2}) = Σ_{i = 1}^{d} m i n (h_{i}^{(1)}, h_{i}^{(2)})

计算高效并且往往具有更好的分类效果，于是采用直方图相交核SVM分类器。具体应用时，参数优化可以采用交叉验证的方式，选取合适的参数值。参数确定后，便可直接应用SVM分类器进行类别预测。

步骤7中利用直方图相交核SVM分类模型，可以快速预测待分类图像类别。

实施例：

本实施例分为训练阶段和分类阶段，下面分别介绍各实施例部分的主要流程：

训练阶段流程：

1.局部特征抽取：对一组训练图像集I进行局部特征抽取，局部特征描述子能有效的表示图像的局部信息，为形成后续的整体图像描述提供了基础。本发明采用SIFT特征作为图像的局部特征。另外，抽取图像局部特征时，还需要确定取样策略，即稠密取样还是稀疏取样(感兴趣点取样)。这两种取样方式是通过一种图像内取样点的数目来划分的，如果只从一副图像的一些感兴趣点取样，取样点数目比较少，则称之为稀疏取样；如果通过某种策略从图像中广泛抽取取样点，则称之为稠密抽样。从前人的工作来看，稠密取样能获取足够的统计信息，这对图像分类任务来说至关重要，所以采用稠密取样的策略。参见文献E.Nowak,F.Jurie,andB.Triggs.Samplingstrategiesforbag-of-featuresimageclassification[C]//In9thEuropeanConferenceonComputerVision,2006,490-503.具体地，我们通过16像素×16像素网格划分采样，进行128维灰度SIFT特征抽取。SIFT特征是指D.Lowe提出的尺度不变特征变换局部特征描述算子，具有对旋转、尺度缩放、亮度变化保持不变性及快速、准确匹配等特点。实际计算过程中,为了增强匹配的稳定性,Lowe建议对每个关键点使用2×2邻域内共16个种子点来描述,即最终形成128维SIFT特征向量。然后将这一组训练图像集I中抽取的所有局部特征存储好，为码书学习提供训练样本。

2.增量码书网络学习：

本发明在局部特征集合中随机取50000个局部特征作为码书学习的训练集。利用增量式神经学习来快速构建有效的码书网络。此学习方法是一种非监督学习算法，因此不需要图像的类标信息。此步骤的目的在于尽可能学习能保留完整图像局部特征空间信息的码书，为后续高层语义的抽取提供基础。

增量神经学习是指以在线学习的方式训练神经网络。这里采用一种改进的竞争神经网络模型，网络节点之间形成竞争关系，输入特征将对距离其最近的节点及其邻居进行权重更新。算法需要确定五个输入参数：最大边年龄age_MAX；移除节点时间λ；预定义相似度阈值T_p；比例参数c；预先定义的迭代次数ζ。可以根据需要的网络结构(比如节点数目，边的稠密度)调节相应参数。本发明中采用如下参数设置：最大边年龄age_MAX＝50，移除节点时间λ＝300，预定义相似度阈值T_p＝128，比例参数c＝0.001，预先定义的迭代次数ζ＝100000。本发明提出的增量码书网络学习过程具体如下：

首先随机从训练集X中选取两个特征向量x₁,x₂作为权重向量创建两个节点V＝{v₁,v₂}，并设置这两个节点获胜次数为0；初始化网络的边集

然后从训练集X中随机挑选新输入的特征向量x，计算当前网络中距离x最近的两个节点v_w1,v_w2作为获胜节点，若用w_i表示节点i的权重向量，则

v_{w 1} = {argmin}_{i &Element; V} | | x - w_{i} | |, v_{w 2} = {argmin}_{i &Element; V \ {v_{w 1}}} | | x - w_{i} | |,

首先通过将输入特征x与获胜节点v_w1,v_w2之间的距离与自适应阈值和预定义阈值T_p的较小者进行比较，确定输入特征x是否属于网络的已有知识。即如果

{|| x - v_{w 1} ||}_{2}^{2} < m i n (T_{v_{w 1}}, T_{p})

且

{|| x - v_{w 2} ||}_{2}^{2} < m i n (T_{v_{w 2}}, T_{p}),

则认为输入特征x属于网络已有知识。其中节点自适应阈值T_i计算如下：

其中T_i表示第i个节点为获胜节点时的阈值，N_i表示第i个节点的邻居节点集，w_i,w_j表示第i，j节点的权重向量，表示空集；T_p取值为128，当T_p取值过大，只由自适应阈值决定输入特征x是否属于网络已有知识，当初始的两个节点相距较远时，网络倾向于把新输入特征都作为已有知识，当T_p取值过小，只有T_p决定输入特征x是否属于网络已有知识，则不具备自适应性。如果输入特征x不属于已有知识，则创建获胜次数为0的新节点v表示输入特征x，将新节点的权重向量初始化为此输入特征x，将新节点v加入当前网络。然后再随机选取下一个输入特征向量，重复上述步骤更新网络。

如果输入向量x属于网络已有知识，则将网络中已有的边的年龄加1，如果获胜节点之间没有边连接，则在它们之间创建一条边，设置其年龄为0；如果获胜节点之间有边连接，将获胜节点之间的边年龄重置为0；然后进行一轮边年龄遍历，当边的年龄大于最大边年龄age_MAX时，最大边年龄age_MAX取值为正整数，本实施例取值为50，将此条边删除；当age_MAX取值过大时，网络中的边和节点将增加，导致网络结构庞大，提供冗余的信息，当age_MAX取值太小时，网络中的边和节点将大大减少，网络结构过于简单，不能提供足够的信息支持后续分类；将第一个获胜节点的获胜次数加1，并对第一个获胜节点及其拓扑邻居的权重向量按下面的式子更新：

w_{v_{w 1}} = w_{v_{w 1}} + \frac{1}{M_{v_{w 1}}} (x - w_{v_{w 1}}),

w_{ν_{w i}} = w_{v_{w i}} + \frac{1}{M_{v_{w 1}} \exp ({|| w_{v_{w 1}} - w_{v_{w i}} ||}_{2}^{2})} (x - w_{v_{w i}}),

其中，是v_w1的获胜次数；下标v_w1表示第一个获胜节点，下标v_wi表示第一个获胜节点的第i个拓扑邻居，为对应节点的权重向量，x是局部特征向量；

当累积输入的局部特征向量数目达到移除节点时间λ的整数倍时，进行噪声节点的删除过程，λ取值300，当λ取值过大时，删除操作次数太少，形成稠密的网络结构，当λ取值过小时，删除次数过于频繁，网络结构将过于简单；当节点的拓扑邻居太少，便被认为是噪声节点，删除过程包括以下步骤：删除拓扑邻居数少于等于1的节点；对于含有2个拓扑邻居的节点，如果其获胜次数少于参数c乘以所有节点的平均获胜次数，M_i表示节点i的获胜次数，N表示网络中节点数，当则将其删除；保留其他节点；本实施例c取值为0.001，当c取值过大，则会删除更多节点，当c取值过小，则含2个拓扑邻居的节点几乎不会被删除；如果网络收敛或者达到迭代次数ζ，ζ取值为100000，则停止学习；否则随机选取另一个局部特征向量对网络进行更新；当ζ取值过大，则算法计算效率降低且分类精度不会提高，当ζ取值过小，则算法还没收敛就停止，学习过程不充分。网络收敛的判断标准是网络的整体变化小于规定的正实数ε，采用累积单词变化来衡量，若令Δ_G表示网络整体变化，则其中分别表示单词i此次和上次的权重向量，当Δ_G小于ε时，便认为网络达到收敛。

随着对训练数据集X的处理，竞争神经网络自适应地增加和删除节点，所以此学习算法能根据不同数据集学习合适大小的码书，摒除了传统方法需要人为确定码书大小的弊端。

3.训练图像表示：

首先进行基于子图的特征编码，大部分研究表明：如果编码结果具有局部性和稀疏性，那么分类结果将有所提升。编码结果的局部性是指只用距离输入特征x最近的几个单词编码，编码结果的稀疏性是指编码产生的向量是稀疏的，即大部分维度取值为0，只有少数几个维度取非零值。可以看出局部性与稀疏性有紧密联系，局部性一般能推导出稀疏性。另外，本发明中的码书网络不仅包含了单词的信息，还包含单词之间的关系信息，相关实验表明，有效利用单词之间的关系信息将提高分类效果。此步骤需要确定二个输入参数：局部邻居数k；最大拓扑邻居数β。本发明中采用如下参数设置：局部邻居数k＝6，最大拓扑邻居数β＝4。首先寻找与局部特征距x离最近的k个视觉单词，并按与输入特征x距离升序排序，记为＜o₁,...,o_k＞；对于＜o₁,...,o_k＞中的每个单词，如果其拓扑邻居数少于参数β，则提取其所有拓扑邻居，否则按照与输入特征x的距离从小到大至多抽取参数β个拓扑邻居；其中可能存在重复抽取的单词，所以需要进行重复判断，进一步将所有抽取的邻居单词与这k个单词构成子图G'(V',E')，通过对参数k与β的控制，可以方便的控制整个子图节点的数目，保证编码结果的局部性和稀疏性。k取值过大时，编码结果不能保证局部性，k取值过小时，编码的信息又过于简单；β控制抽取的每个单词的拓扑邻居数，以防止有某些单词和很多单词有连接。具体选取时，强调结构信息可以使β大于k；强调近邻作用可以使β小于k；通过如下权重向量为子图中每个单词赋予合适的权重，完成最后的编码S；

S_{I n d e x (w_{j}^{'})} = \frac{2^{| V^{'} |}}{2^{j} \times d (x, w_{1}^{'})} (j &Element; 1, ..., | V^{'} |)

其中，w′j表示子图G'中第j个单词权重向量，Index(w'_j)表示第j个单词在编码S中的序号，d(x,w'_j)是局部特征向量x与第j个单词权重w'_j的距离，|V'|表示子图G'中节点数。

然后进行图像空间聚合操作，有效的利用图像空间信息，能增强图像整体描述的辨识力，进而提高分类效果。图像空间聚合旨在捕捉图像空间信息，用以获取更具辨识性的图像整体特征描述：本发明采用分层分块的重叠金字塔空间划分，如图4所示，总共将图像空间分为三层：level0、level1、level2；level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块及位于中心位置的等大小的1块，level2把level1的每块再按相同方式分为5小块，构成25小块，共有31块。对于其中的每一块，需要进行特征信息统计，采用均值聚合操作。最后将所有分块的特征向量串接成整个图像的特征描述，假设获得的码书含M个视觉单词，M取正整数，则图像的特征向量维度为31×M，就本发明的相关实验结果而言，M一般处于400到800之间。若用α∈R^M表示特征编码结果，y_m表示空间上属于第m块的特征，，m取值为0到30的整数，则均值聚合的操作定义为：其中h_m表示第m块空间聚合操作的结果向量。所以训练图像I_r形成了一个特定的直方图特征向量。

4.分类模型学习：由于类直方图的特点，利用直方图相交核SVM分类器能高效处理这种特征输入。具体应用时，参数优化可以采用交叉验证的方式，选取合适的参数值。这里的参数就是指SVM库中标准模型的参数。

5.局部特征抽取：对待分类图像I_o抽取局部特征，和训练图像局部特征抽取方式相同，通过16像素×16像素网格划分采样，每个关键点使用2×2邻域内共16个种子点来描述,最终形成128维灰度SIFT特征向量，从I_o可以得到多个局部特征向量。

6.待分类图像表示：和训练图像表示方法相同，包含基于子图的特征编码和图像空间聚合两个子步骤。首先寻找与局部特征距x离最近的k个视觉单词，并按与输入特征x距离升序排序，记为＜o₁,...,o_k＞；对于＜o₁,...,o_k＞中的每个单词，如果其拓扑邻居数少于参数β，则提取其所有拓扑邻居，否则按照与输入特征x的距离从小到大至多抽取参数β个拓扑邻居；其中可能存在重复抽取的单词，所以需要进行重复判断，进一步将所有抽取的邻居单词与这k个单词构成子图G'(V',E')，通过对参数k与β的控制，可以方便的控制整个子图节点的数目，保证编码结果的局部性和稀疏性。通过如下权重向量为子图中每个单词赋予合适的权重，完成最后的编码S；

S_{I n d e x (w_{j}^{'})} = \frac{2^{| V^{'} |}}{2^{j} \times d (x, w_{j}^{'})} (j &Element; 1, ..., | V^{'} |)

然后进行图像空间聚合操作，采用分层分块的重叠金字塔空间划分，总共将图像空间分为三层：level0、level1、level2；level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块及位于中心位置的等大小的1块，level2把level1的每块再按相同方式分为5小块，构成25小块，共有31块。对于其中的每一块，需要进行特征信息统计，采用均值聚合操作。最后将所有分块的特征向量串接成整个图像的特征描述，假设获得的码书含M个视觉单词，M取正整数，则图像的特征向量维度为31×M，就本发明的相关实验结果而言，M一般处于400到800之间。若用α∈R^M表示特征编码结果，y_m表示空间上属于第m块的特征，，m取值为0到30的整数，则均值聚合的操作定义为：其中h_m表示第m块空间聚合操作的结果向量。所以训练图像I_r形成了一个特定的直方图特征向量。

7.模型预测：将作为训练阶段中的直方图核SVM分类模型的输入，通过计算预测待分类图像类别。

本发明提供了一种基于增量神经网络和子图编码的图像分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于增量神经网络和子图编码的图像分类方法，其特征在于，包括训练阶段和分类阶段：

训练阶段包括：

步骤1，局部特征抽取：抽取训练图像集中的每一幅训练图像的局部特征描述子生成训练图像集的局部特征集合；训练图像是带有类标的图像，类标用于标记图像所属类别；

步骤2，增量码书网络学习：从局部特征集合中随机抽取部分局部特征作为训练集进行码书网络的学习，训练竞争神经网络，并用竞争神经网络表示码书；

步骤3，训练图像表示：包含基于子图的特征编码和图像空间聚合步骤；

步骤4，分类模型学习：将步骤3中得到的训练图像特征向量及其对应分类类标作为直方图相交核SVM分类器的输入完成分类模型的参数学习，得到SVM分类模型；

分类阶段包括：

步骤5，局部特征抽取：抽取待分类图像的局部特征描述子生成待分类图像的局部特征集合；

步骤6，待分类图像表示：首先对待分类图像的局部特征进行基于子图的特征编码：首先寻找码书中与局部特征距离最近的k个视觉单词＜o₁,...,o_k＞，k是近邻单词数，取值范围[1,100]，将与以上k个单词有边相连的单词取出，与k个单词构成子图G'，通过相应的权重向量为子图中每个单词赋予权重完成最后的编码；

然后进行待分类图像的局部特征的编码结果空间聚合：采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量；

步骤7，图像分类，将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型，从而完成图像的分类。

2.根据权利要求1所述的一种基于增量神经网络和子图编码的图像分类方法，其特征在于，步骤2增量码书网络学习具体包括如下步骤：

首先从局部特征集合中随机选取部分局部特征作为训练集，随机从训练集中选取两个局部特征向量作为权重向量创建竞争神经网络的顶点集合V＝{v₁,v₂}，v₁和v₂表示竞争神经网络中的节点，并设置这两个节点获胜次数为0；初始化竞争神经网络的边集

从训练集中随机挑选另一个的局部特征向量x作为输入，计算当前竞争神经网络中距离x最近的两个节点v_w1,v_w2作为获胜节点，将局部特征向量x与获胜节点之间的距离和相应的自适应阈值T_i及预定义阈值进行比较，确定局部特征向量x是否属于竞争神经网络已有知识，自适应阈值计算如下：

其中T_i表示第i个节点为获胜节点时的阈值，N_i表示第i个节点的邻居节点集，w_i,w_j表示第i，j节点的权重向量，表示空集，j∈V\{i}表示顶点集V中去除第i个节点所剩余的节点集合；

如果局部特征向量x不属于竞争神经网络已有知识，则创建获胜次数为0的新节点表示局部特征向量x，将新节点的权重向量初始化为该局部特征向量x，然后随机选取另一个局部特征向量对竞争神经网络进行更新；

如果局部特征向量x属于竞争神经网络已有知识，则将竞争神经网络中已有的边的年龄加1，如果获胜节点之间没有边连接，则在它们之间创建一条边，设置其年龄为0；如果获胜节点之间有边连接，将获胜节点之间的边年龄重置为0；然后进行一轮边年龄遍历，当边的年龄大于最大边年龄age_MAX时，最大边年龄age_MAX取值为正整数，将此条边删除；将第一个获胜节点的获胜次数加1，并对第一个获胜节点及其拓扑邻居的权重向量按下式更新：

w_{v_{w 1}} = w_{v_{w 1}} + \frac{1}{M_{v_{w 1}}} (x - w_{v_{w 1}}),

w_{v_{w i}} = w_{v_{w i}} + \frac{1}{M_{v_{w 1}} \exp (| | w_{v_{w 1}} - w_{v_{w i}} | |_{2}^{2})} (x - w_{v_{w i}}),

其中，是v_w1的获胜次数，v_w1表示第一个获胜节点，v_wi表示第一个获胜节点的第i个拓扑邻居，为第一个获胜节点的权重向量，表示第一个获胜节点的第i个拓扑邻居对应的权重向量，x是局部特征向量；

当累积输入的局部特征向量数目达到移除节点时间λ的整数倍时，λ取值范围为正整数，进行噪声节点的删除过程，包括以下步骤：删除拓扑邻居数少于等于1的节点；对于含有2个拓扑邻居的节点，如果其获胜次数少于参数c乘以所有节点的平均获胜次数，c取值范围为(0,+∞)，则将其删除；保留其他节点；如果网络收敛或者达到迭代次数ζ，ζ为正整数，则停止学习；否则随机选取另一个局部特征向量对网络进行更新；训练好竞争神经网络后，用竞争神经网络的节点表示码书的视觉单词，用竞争神经网络的边表示码书中视觉单词之间的联系，从而实现用竞争神经网络表示码书。

3.根据权利要求2所述的一种基于增量神经网络和子图编码的图像分类方法，其特征在于，步骤3训练图像表示包括：首先对训练图像的局部特征进行基于子图的特征编码：首先寻找码书中与局部特征距离最近的k个视觉单词，并按距离升序排序，记为＜o₁,...,o_k＞；对于＜o₁,...,o_k＞中的每个单词至多抽取参数β个拓扑邻居，β为正整数，将所有抽取的拓扑邻居单词与这k个单词构成子图G'(V',E')，通过如下权重向量为子图中每个单词赋予权重，完成最后的编码S：

S_{I n d e x (w_{j}^{'})} = \frac{2^{| V^{'} |}}{2^{j} \times d (x, {w^{'}}_{j})}, (j &Element; 1, ..., | V^{'} |),

其中，w′_j表示子图G'中第j个单词权重向量，Index(w'_j)表示第j个单词在编码S中的序号，d(x,w'_j)是局部特征向量x与第j个单词权重w'_j的距离，|V'|表示子图G'中节点数；

然后进行训练图像的局部特征的编码结果空间聚合：采用分层分块的金字塔空间划分，对于每一块进行均值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量。

4.根据权利要求1所述的一种基于增量神经网络和子图编码的图像分类方法，其特征在于，步骤1和步骤5中，进行局部特征描述子抽取采用稠密抽样的策略，通过网格划分采样，进行SIFT描述子抽取。