CN105701502B

CN105701502B - 一种基于蒙特卡罗数据均衡的图像自动标注方法

Info

Publication number: CN105701502B
Application number: CN201610007726.7A
Authority: CN
Inventors: 柯逍; 杜明智; 周铭柯
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-01-06
Filing date: 2016-01-06
Publication date: 2020-11-10
Anticipated expiration: 2036-01-06
Also published as: CN105701502A

Abstract

本发明涉及一种基于蒙特卡罗数据均衡的图像自动标注方法，在公共图像库上通过对训练样本图像进行区域分割，分割后具有不同特征描述的区域对应一个标注词，再对各个不同类别的图像集进行蒙特卡罗数据均衡，提取均衡之后各个图像的多尺度特征，最后将提取后的特征向量输入到鲁棒性最小二乘增量极限学习机中进行分类训练，得到图像自动标注中的分类模型。对于待标注的图像，通过对其进行区域分割后，采用相同的多尺度特征融合提取方法，将提取后的特征向量输入到最小二乘增量极限学习机中，即可得到最终的图像标注结果。相比传统图像自动标注方法，本发明的方法能更有效地对图像进行标注，时效性强，可用于大规模图像的自动标注，具有实际应用意义。

Description

一种基于蒙特卡罗数据均衡的图像自动标注方法

技术领域

本发明涉及涉及计算机视觉和图像处理领域，特别是一种基于蒙特卡罗数据均衡的图像自动标注方法。

背景技术

图像理解即图像的语义理解，它把图像作为对象，知识作为核心，着重研究图像中存在着的目标、目标之间的相互关系以及图像中所描绘的基于人们认知的场景。图像语义理解的最终目标就是用来满足人们对图像的不同需求，充分理解图像中所隐含的语义内容是实现图像管理的重要步骤。早些时候，图像语义库的构建往往都是通过人工的形式来完成的。但是随着图像数量呈现爆炸式的增长，如果依然还是采用人工的方式对图像的语义进行标注的话，那么将会耗费巨大的人力物力，不具备现实可行性。此外，由于人的主观意向上存在的一定的差别，不同经历以及不同背景的人对同一副图像往往有不同的理解，所以人工标注往往存在着不稳定和不确定的因素。因此，图像自动标注的研究开始受到人们的重视，简单来说，图像自动标注的核心思想就是通过人工智能实现机器自动地将可以表达出图像蕴含信息的词汇添加到图像描述中。图像标注的自动实现可以最大限度的降低人工成本和机器资源，极大的提高图像管理效率和图像理解的认识。

图像自动标注的实现过程大致可以分为以下两个阶段：

(1)训练阶段：首先要对给定的图像数据库中的训练样本进行一定方式的标注，其次通过学习图像中诸如纹理，形状，颜色等底层视觉特征知识，然后与高层的图像语义之间的做一个映射关系，最后建立好相应的模型并且将模型的参数调到最优，便可以得到了一个图像自动标注系统。

(2)标注阶段：给定相应图像测试集，采用与训练过程中相同的特征提取方式，将其输入到步骤(1)所构建好的模型中，通过某种度量算法，选择与其最接近的一个或者多个标注词进行标注。

近年来随着人工智能技术以及机器学习的快速发展，出现了多种图像自动标注模型。根据在建模方法上采用的不同思想，我们可以把图像自动标注模型大致分为两个类别。第一类图像自动标注模型是基于统计概率思想，第二类图像自动标注模型是基于分类思想。

在图像标注模型中应用比较广的一个方法就是从统计概率的角度出发，通过诸如图像的纹理、形状、颜色、边缘等底层视觉特征的提取，计算出其与某类或者某些关键词之间的相关性或联合概率，最后将概率最大或者关联程度最高的一个或者多个关键词作为该图的标注词。代表性的方法有TM(Translation Model)机器翻译模型。该方法将图像的底层视觉特征和文本关键词当做图像的两种语言，图像的自动标注过程就变为一个语言的翻译过程。算法的思想可以描述为：将训练集图像分割为若干个区域，对集合中的区域进行聚类，将每一种聚类称之为斑点，那么图像的标注问题就转化从图像的视觉特征到文本关键词之间的翻译工作，例如将德语翻译成法语一样。该方法相比共生模型来说，性能上有了一定的提高，但是这种算法有一个弊端就是，标注结果往往倾向于频率高的词汇，对频率低的词汇标注效果很不理想。

基于分类的方法是图像自动标注模型中应用最广的另一个方法。在基于分类思想的算法中，图像中的每一个类别或者说标签都是一个语义关键词，将图像的自动标注过程和图像的多分类做一个等价的转换。基于支持向量机的图像自动标注法(Support VectorMachine，SVM)是最为经典的一个分类图像标注模型，它将多分类的问题转化为多个二分类的问题。首先利用每个已有的标签分别去训练处多个二分类模型，对于每一个二分类模型，其每个正例图像都取该对应于该标签的图像区域或者图像，而把其余的所有图像当做反例进行训练。在对测试图像进行标注的时候，分别将其输入到各个二分类的模型中，采用加权投票的方法，选择出关键词得票数最高的几个作为该图像的标签。因为SVM问题通常是一个凸二次规划问题，求解的过程中需要花费较大的代价，并且随着分类数的几何增长，这种代价将不断增大，并且该方法并未考虑到图像区域和关键词的对应关系，导致的标注效果不是很理想。

发明内容

有鉴于此，本发明的目的是提供一种基于蒙特卡罗数据均衡的图像自动标注方法，以克服现有技术中存在的缺陷，并实现对待测试图像的快速准备标注。

本发明采用以下方案实现：一种基于蒙特卡罗数据均衡的图像自动标注方法，包括以下步骤：

步骤S1：对公共图像库中的训练集图像进行自动分割；

步骤S2：采用综合距离图像特征匹配方法(CDIFM)对分割后的图像进行自动匹配，将具有相同特征与相似特征的图像归为一类，并且贴上相应的标注词；不同类别的图像集具有不同描述的标注词；

步骤S3：对具有不同标注词的各个类别图像集进行蒙特卡罗数据集均衡(MC-BDS)，每个类别的图像具有同一标注词，不同类别的图像集的描述词不同；

步骤S4：分别提取各个类别图像集中图像的多尺度融合特征(MSFF)，再进行特征直方图统计，形成最终的特征向量；

步骤S5：将提取后的图像特征输入到鲁棒性最小二乘增量极限学习机(RLSI-ELM)中进行分类训练，得到图像自动标注过程中的分类模型；

步骤S6：对公共图像库中待标注的图像进行自动分割，提取相应的融合特征，形成最终的特征向量，并将提取后得到的特征向量输入到所述步骤S5中的分类模型中，得到最终的图像标注结果。

进一步地，所述步骤S2中采用的综合距离图像特征匹配方法(CDIFM)包括以下步骤：

步骤S21：选择一个分割后的区域作为种子图像：选择分割后标注词为bear的一个分割区域作为种子图像，并令该种子图像为X_bear；设置一个置信因子τ，当两个区域的特征相似度距离小于所述置信因子时，则所述两个区域同属于一个类别，即所述两个区域具有相同的关键词描述；

步骤S22：从图像库中选择含有标注词为bear的图像集φ(Y)＝{Y₁,Y₂.....Y_k}(1≤k≤n)，其中n表示的是图像库中的图像个数；假设满足该要求的某一张图像Y_k，其分割后的区域为

由于每张主题照片的关键词不超过5个，则分割区域控制在5个之内，并且分割的准则根据该张图片的标注词个数；

步骤S23：设X_bear的多尺度融合特征向量为X_bear＝{x_bear1,x_bear2.......x_bearm}，m代表其特征维度，其中多尺度下的HOG特征向量为ω维，LBP的特征向量维数为σ维，HSV的特征向量维数为δ维，满足ω+σ+δ＝m；则该样本的特征向量描述为：X_bear＝[x_bear,1...x_bear,ω|x_bear,ω+1..x_bear,ω+σ|x_bear,ω+σ+1..x_{bear,ω+σ+δ}]，并采用同样的方式表示X_c(1≤c≤5)区域的特征向量，设X_c＝[x_c,1...x_c,ω|x_c,ω+1..x_c,ω+σ|x_c,ω+σ+1..x_c,ω+σ+δ]；

再给出以下的数学定义：

上述式中：定义

表示X_bear，X_c两者的综合特征距离，d₁表示两者多尺度HOG特征下的欧式特征距离，d₂表示两者LBP特征下的曼哈顿特征距离，d₃表示两者HSV特征下的直方特征距离，λ₁,λ₂,λ₃分别表示不同特征距离的影响因子；当

时，X_c区域为X_bear的最佳匹配分割区域，并将该区域加入该种子图像集之中；返回步骤S22，计算φ(Y)中的所有元素；若φ(Y)中的元素均计算过，则进入下一步；

步骤S24：返回步骤S21，重复步骤S21、步骤S22、步骤S23的计算，直到所有的标注词所对应的图像全部正确的被归类后结束。

进一步地，所述步骤S3包括以下步骤；

步骤S31：设φ(S)＝[s₁,s₂.....s_c]，表示图像分类集合，c表示类别的个数；此外，为了方便阐述该算法，采用sum(s_j)(1≤j≤c)表示该类别对应的图像集数目，表示分类均衡数；对于数据集，若对应的图像集数目大于或者等于分类均衡数则不进行数据均衡；若任一类别对应的图像集数目低于分类均衡数，则需要进行数据集均衡，并且均衡的大小为

步骤S32：设φ(X)＝{X₁,X₂......X_n}，表示任一类别的训练集图像集合，X_i(1≤i≤n)表示该类别中的任一图像样本，X_i＝[x_i1,x_i2........x_im]表示该样本在多尺度特征融合下的图像特征描述；其中多尺度下的HOG特征向量为ξ维，LBP的特征向量维数为ψ维，HSV的特征向量维数为ζ维(满足ζ+ξ+ψ＝m)，则该样本的特征向量描述为：

X_i＝[x_i1,x_i2.....x_iξ|x_i,ξ+1,x_i,ξ+2...x_i,ξ+ψ|x_i,ξ+ψ+1,x_i,ξ+ψ+2...x_i,ξ+ψ+ζ]

给出如下数学定义：

上述式中：定义

为关于图像特征的一个全新度量标准-加权复合特征距离，d_i-ho表示多尺度下HOG特征的空间度量，d_il-z表示LBP特征的空间度量，d_v-f表示HSV特征度量，μ,η,ρ分别表示不同特征度量下的调节因子，按照上式的计算结果，分别对求得的加权复合特征距离的大小进行排序，再令

设T_min所对应的图像特征描述为X_min＝[x_min1,x_min2........x_minm]，该描述为样本的基准特征量，并且令α＝x_min1+x_min2......+x_minm/m，表示图像特征的均衡步长；

步骤S33：令k表示当前均衡的样本累计数，初始值设为0，并且不大于样本均衡扩充数s_e；采用Box-Muller方法产生高斯随机向量Y_i＝[y_i1,y_i2.......y_im]，其基本思想是先得到服从均匀分布的随机数，再将服从均匀分布的随机数转变为服从高斯分布，该方法能够在较短时间内产生所需的随机数；再令X_e＝X_min+αe^βY_i，表示一个与训练图像具有同样特征维数大小的向量，则设此时的X_e＝[x_e1,x_e2......x_em]；

步骤S34：计算

如果

则将X_e称为合理的均衡样本，并把该样本加入该类图像的训练集合之中，即此时φ(X)＝{X₁,X₂......X_n,X_e}，并令k＝k+1，如果k≤s_e，则返回至所述步骤S33，如果k＞s_e，则返回至所述步骤S31，选择另一个待均衡类别的图像集。

特别说明：步骤S3中的α，主要是用于控制每一次新产生均衡图像能有较大的变化，因为如果和原来该类别对应的数据集的图像特征差别不大的话，我们可以认为无非是对一幅图像或者该类别的系列图像进行多次的复制扩充，这样对于整个分类结果没有任何实质性的改变，因为所描述的特征绝大多数是重复的，没有新的学习内容，对分类器的泛化能力并未有明显的改善。β称之为碰撞因子，其主要的作用主要在于使得均衡的图像集具备合理性，因为我们期望的一个事实是均衡之后的图像所提取的特征在该类别的集合中不能产生较大的波动，若是大大超过或者远远小于该类别图像的特征度量标准(本发明中采用的是加权复合特征距离)，那么可能会导致均衡之后的图像并不属于该类别，这样会直接导致机器学习上的混乱，不止没有提高分类的效果，反而会降低分类效果。因此新均衡后的图像其特征上应该满足和同类别的图像数据集在特征度量上不应该差别很大，并且和不同类别的图像数据集特征度量上应该具有较大的差异。这就是能够合理均衡图像集的一个准则，即类内特征度量区别较小，类间区别度量较大，并且能够在类内的最小特征度量和类内的最大特征度量之间比较均匀的分布。

进一步地，所述步骤S32中，对训练的图像的进行多尺度的融合特征提取，采用的提取方法包括以下步骤：

步骤S321：选取一个合适的识别窗口(window)以及合适的块(block)和胞体单元(cell)，通过块的不断滑动，提取窗口内的局部HOG特征，并进行均衡化处理，得到该窗口内的HOG特征描述；

步骤S322：提取步骤S321中的识别窗口的LBP特征，和HOG特征提取方式的不同在于：此时的各个块之间没有重叠，计算出该窗口内的LBP特征直方图；该特征作为该窗口的纹理特征描述，并将提取后的特征进行均衡化处理；

步骤S323：提取步骤S321中的识别窗口中基于全局的HSV颜色特征，作为对该窗口的全局颜色特征描述，同样进行均衡化处理；

步骤S324：构建高斯金字塔，通过对尺度参数的调节，获得该数字图像的两组(octave)图像，再对第二组图像(interval)进行降采样，得到第二层(octave)图像，并用同样的方式获得第二层图像中的两组图像；举个例子来说，第n+1组图像的第一层是由第n组图像的最后一层图像通过隔点采样的方式得到的，按照步骤S321的方法，计算不同尺度下的HOG特征；

步骤S325：将不同尺度下的HOG图像特征描述向量，以及识别原始尺度中识别窗口内的LBP纹理特征和HSV颜色特征进行串联，作为该幅图像的最终特征描述，即为多尺度特征融合。

特别说明：步骤S321-S325所描述的多尺度特征融合(MSFF)的提取方法与步骤S4所描述的多尺度特征融合具有一致性。

进一步地，所述步骤S5中的采用鲁棒性最小二乘增量极限学习机进行分类训练包括以下步骤：

步骤S51：引进最小二乘极限学习机数学模型，该模型的数学表达式如下所示：

式中：F_LS-ELM的第一项表达式表示经验风险，第二项表达式表示置信风险，k是用于调节置信风险的因子，x_i表示样本，h(x_i)表示输入层的样本到隐藏层的一个映射，对于隐层节点个数为l的单隐层ELM网络，h(x_i)的维数为L维；用β_j表示的是链接隐层和第j个节点的输出权值，对于多分类问题，假设有m个类别，那么相对应的就有m个输出节点，此时对应的β＝[β₁,β₂........β_m]；若任一个样本x_i，对应的类别是第p(1≤p≤m)类，则其输出向量可以表示为t_i＝[t_i,1,t_i,2,.....t_i,p.......t_i,m]^T，其中满足t_i,p＝1，其余位置上的值为0。ε_i＝[ε_i1,ε_i2..........ε_im]^T表示对应于样本x_i的置信风险传递误差；如果无特别声明，上述公式右上角的T均代表的是向量的转置；为求解上述问题引进广义拉格朗日函数：

α_i＝[α_i,1,α_i,2......α_i,m]^T，表示拉格朗日乘子；利用拉格朗日的对偶性，原问题的求解等价于其对偶优化问题的求解；根据Karush-Kuhn-Tucker最优化条件有：

由上述的3个式子，最终可以求得分类器输出函数为：其中f(x)＝[f₁(x),f₂(x)......f_m(x)]^T以及

针对多分类的问题，其分类标签为：

label(x)＝arg maxf_i(x)i＝1,2...m

步骤S52：设HOG特征的尺度空间规模为d，每一个尺度下的HOG特征维数为p维，则多尺度下的HOG特征描述为φ(Multi-HOG)＝[x_1,1..x_1,p|x_2,1..x_2,p|...x_d,p]；设各个尺度下的特征抑制因子为V＝[v₁,v₂...v_d]，其中v₁代表尺度1下的HOG特征抑制因子，v_d代表尺度d下HOG特征的影响因子；设样本的多级LBP特征为φ(LBP)＝[x_lpb,1,x_lpb,2..x_lpb,o]，o表示多级LBP的特征维数，多级LBP特征的抑制因子为v_lbp，全局HSV颜色特征为φ(HSV)＝[x_hsv,1,x_hsv,2..x_hsv,z]，z为全局HSV颜色空间的特征维数，其特征抑制因子为v_hsv；其中，V、v_lbp以及v_hsv称为特征抑制因子。其主要的目的是在于防止高维数的特征对低维数的特征产生特征淹没，这样直接导致的一个结果是尽管在特征提取上有多个不同特征的相互融合，但是往往起着决定性作用的仍然是其中的部分特征，这样便不能很好的利用特征之间互补的思想，通过采用不同的特征抑制因子，可以使得各个特征之间能够得到均衡的，有效的利用，避免了特征掩盖行为的发生。

换句话说，本步骤的思想就是针对原始特征空间做一个有效的映射，则映射后的空间为

其中о表示的是在各自空间上的一个抑制算法，抑制因子的空间为φ(r)＝[V,v_lbp,v_hsv]，新的ELM模型RLSI-ELM描述如下：

步骤S53：确定隐层节点个数l。

进一步地，所述步骤S53包括以下步骤：

步骤S531：首先随机产生一个由输入层到隐层的权重矩阵，然后随机产生一个具有l_begin个节点的单隐层极限学习机网络，其中l_begin是一个远小于训练样本个数n的正整数；确定一个残差因子σ，σ为一个很小的双精度实数；确定一个步长因子s，s为一个正整数；

步骤S532：通过RLSI-ELM算法，计算对应该网络的输出权重矩阵β₁；

步骤S533：计算此时该网络对应的残差E(error₁)＝||Hβ₁-T||，设置初始计数值c＝1；

步骤S534：当l_c＜n时，令c＝c+1；

步骤S535：增加s×l_c个隐层节点，此时的隐层节点个数为：l_c+1＝l_c+sl_c；根据此时的隐层节点个数，仍然采用RLSI-ELM算法计算此时输出权重矩阵β₂；

步骤S536：根据E(error₂)＝||Hβ₂-T||，计算此时的残差；当l_c+1＜n并且||E(error₂)-E(error₁)||＞σ时，返回至所述步骤S534，否则结束该算法，确定该网络的隐层节点个数。

与现有技术相比，本发明具有以下有益效果：针对传统图像自动标注方法存在检测速度慢、训练时间长、识别精度不高以及对低频词汇敏感等问题，本发明提出一种基于蒙特卡罗数据均衡的图像自动标注方法，利用提出的鲁棒性最小二乘增量极限学习机特有的快速训练能力以及其强大的泛化能力，并基于对机器学习与计算机视觉的认识，提出了用于完成图像自动标注的机器学习模型，得到了一种全新的图像自动标注方法，该方法具有简单，实现灵活，实用性较强。该方法实现了对海量图像的准确快速标注，通过对公共图像库corel-5k图像实现自动标注，取得一个良好的标注效果，相比传统方法，本发明所提出的方法在训练速度、标注速度、标注精度均有所改善，并且对低频词汇具有较强的鲁棒性。

附图说明

图1为本发明中基于蒙特卡罗数据均衡的图像自动标注的流程图。

图2为本发明一实施例中采用基于蒙特卡罗数据均衡的图像自动标注方法在公共图像库corel-5k进行标注的结果示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供一种基于蒙特卡罗数据均衡的图像自动标注方法，如图1所示，包括以下步骤：

步骤S1：对公共图像库中的训练集图像进行自动分割；

在本实施例中，所述步骤S2中采用的综合距离图像特征匹配方法(CDIFM)包括以下步骤：

再给出以下的数学定义：

上述式中：定义

在本实施例中，所述步骤S3包括以下步骤；

给出如下数学定义：

上述式中：定义

步骤S34：计算

如果

在本实施例中，所述步骤S32中，对训练的图像的进行多尺度的融合特征提取，采用的提取方法包括以下步骤：

在本实施例中，所述步骤S5中的采用鲁棒性最小二乘增量极限学习机进行分类训练包括以下步骤：

针对多分类的问题，其分类标签为：

label(x)＝arg maxf_i(x)i＝1,2...m

步骤S53：确定隐层节点个数l。

在本实施例中，所述步骤S53包括以下步骤：

步骤S534：当l_c＜n时，令c＝c+1；

如图2所示，为本发明实施例中的实验结果图，为了验证算法的有效性，本次实验在公共图像库corel-5k上进行测试，分别和传统人工标注结果进行对比。图2的9幅图像是发明提出的图像自动标注模型的标注结果，每一幅图像中标注的五个结果分别按照得分大小降序排列。在图像自动标注结果的一栏中。我们用黑色加粗的字体表示的是自动标注的结果之中具有和原始图像中人工标注结果相同含义的标注词，而使用斜体字体来表示自动标注结果之中和原始人工标注结果不同的标注词。在这里，我们并没有选择完全被标注正确的那些图像，而是选择了部分能够比较好反应本发明模型特点的一些图像。从图2中可以看出，本发明一些图表的标注结果虽然和原始图像上的人工标注结果有区别，但是确实对原始图像标注结果的有益补充，能够更加准确的描述图像的语义信息。例如第一幅图像人工标注上并未将bird这一关键词给标注上，而从图像的场景来看，bird显然要作为一个重要的关键词来描述该幅图像的场景。在第三幅图像中，从人的视觉角度分析，显然用sea这个关键词相比原始图片中的water更有说服力，并且原始图像中也疏漏了sky等从图像中可以直接得到的关键词。此外，在对抽象概念maui，kauai等描述上，原始图像中的信息并不能对其进行准确的描述，或者说，单从人的视觉角度来出发，图像上无法得到这些信息。因此，也从另一个角度说明了人工标注存在的一些问题，可能存在漏标注，并且不同人对同一副图像的认识也存在一定的主观差异，同一幅图像，不同的人可能给出不同的标注结果。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于蒙特卡罗数据均衡的图像自动标注方法，其特征在于：包括以下步骤：

步骤S1：对公共图像库中的训练集图像进行自动分割；

步骤S2：采用综合距离图像特征匹配方法对分割后的图像进行自动匹配，将具有相同特征与相似特征的图像归为一类，并且贴上相应的标注词；不同类别的图像集具有不同描述的标注词；

步骤S3：对具有不同标注词的各个类别图像集进行蒙特卡罗数据集均衡，每个类别的图像具有同一标注词，不同类别的图像集的描述词不同；

步骤S4：分别提取各个类别图像集中图像的多尺度融合特征，再进行特征直方图统计，形成最终的特征向量；

步骤S5：将提取后的图像特征输入到鲁棒性最小二乘增量极限学习机中进行分类训练，得到图像自动标注过程中的分类模型；

步骤S6：对公共图像库中待标注的图像进行自动分割，提取相应的融合特征，形成最终的特征向量，并将提取后得到的特征向量输入到所述步骤S5中的分类模型中，得到最终的图像标注结果；

其中，所述步骤S2中采用的综合距离图像特征匹配方法包括以下步骤：

步骤S23：设X_bear的多尺度融合特征向量为X_bear＝{x_bear1,x_bear2.......x_bearm}，m代表其特征维度，其中多尺度下的HOG特征向量为ω维，LBP的特征向量维数为σ维，HSV的特征向量维数为δ维，满足ω+σ+δ＝m；则样本的特征向量描述为：X_bear＝[x_bear,1...x_bear,ω|x_bear,ω+ ₁..x_bear,ω+σ|x_bear,ω+σ+1..x_{bear,ω+σ+δ}]，并采用同样的方式表示X_c(1≤c≤5)区域的特征向量，设X_c＝[x_c,1...x_c,ω|x_c,ω+1..x_c,ω+σ|x_c,ω+σ+1..x_c,ω+σ+δ]；

再给出以下的数学定义：

上述式中：定义

2.根据权利要求1所述的一种基于蒙特卡罗数据均衡的图像自动标注方法，其特征在于：所述步骤S3包括以下步骤；

步骤S31：设φ(S)＝[s₁,s₂.....s_c]，表示图像分类集合，c表示类别的个数，采用sum(s_j)(1≤j≤c)表示该类别对应的图像集数目，

表示分类均衡数；对于数据集，若对应的图像集数目大于或者等于分类均衡数则不进行数据均衡；若任一类别对应的图像集数目低于分类均衡数，则需要进行数据集均衡，并且均衡的大小为

步骤S32：设φ(X)＝{X₁,X₂......X_n}，表示任一类别的训练集图像集合，X_i(1≤i≤n)表示该类别中的任一图像样本，X_i＝[x_i1,x_i2........x_im]表示该样本在多尺度特征融合下的图像特征描述；其中多尺度下的HOG特征向量为ξ维，LBP的特征向量维数为ψ维，HSV的特征向量维数为ζ维满足ζ+ξ+ψ＝m，则该样本的特征向量描述为：

给出如下数学定义：

T_Xi＝μd_i-ho+ηd_il-z+ρd_v-f

上述式中：定义

为关于图像特征的一个全新度量标准-加权复合特征距离，d_i-ho表示多尺度下HOG特征的空间度量，d_il-z表示LBP特征的空间度量，d_iv-f表示HSV特征度量，μ,η,ρ分别表示不同特征度量下的调节因子，按照上式的计算结果，分别对求得的加权复合特征距离的大小进行排序，再令

步骤S33：令k表示当前均衡的样本累计数，初始值设为0，并且不大于样本均衡扩充数s_e；采用Box-Muller方法产生高斯随机向量Y_i＝[y_i1,y_i2.......y_im]，再令X_e＝X_min+αe^βY_i，表示一个与训练图像具有同样特征维数大小的向量，则设此时的X_e＝[x_e1,x_e2......x_em]；其中，β表示高斯随机向量权重的调节因子；

步骤S34：计算

如果

3.根据权利要求2所述的一种基于蒙特卡罗数据均衡的图像自动标注方法，其特征在于：所述步骤S32中，对训练的图像的进行多尺度的融合特征提取，采用的提取方法包括以下步骤：

步骤S321：选取一个识别窗口以及块和胞体单元，通过块的不断滑动，提取窗口内的局部HOG特征，并进行均衡化处理，得到该窗口内的HOG特征描述；

步骤S322：提取步骤S321中的识别窗口的LBP特征，和HOG特征提取方式的不同在于：各个块之间没有重叠，计算出该窗口内的LBP特征直方图；该特征作为该窗口的纹理特征描述，并将提取后的特征进行均衡化处理；

步骤S324：构建高斯金字塔，通过对尺度参数的调节，获得数字图像的两组图像，再对第二组图像进行降采样，得到第二层图像，并用同样的方式获得第二层图像中的两组图像；

4.根据权利要求1所述的一种基于蒙特卡罗数据均衡的图像自动标注方法，其特征在于：所述步骤S5中的采用鲁棒性最小二乘增量极限学习机进行分类训练包括以下步骤：

式中：F_LS-ELM的第一项表达式表示经验风险，第二项表达式表示置信风险，k是用于调节置信风险的因子，x_i表示样本，h(x_i)表示输入层的样本到隐藏层的一个映射，对于隐层节点个数为l的单隐层ELM网络，h(x_i)的维数为L维；用β_j表示的是链接隐层和第j个节点的输出权值，对于多分类问题，假设有m个类别，那么相对应的就有m个输出节点，此时对应的β＝[β₁,β₂........β_m]；若任一个样本x_i，对应的类别是第p(1≤p≤m)类，则其输出向量可以表示为t_i＝[t_i,1,t_i,2,.....t_i,p.......t_i,m]^T，其中满足t_i,p＝1，其余位置上的值为0；ε_i＝[ε_i1,ε_i2..........ε_im]^T表示对应于样本x_i的置信风险传递误差；

引进广义拉格朗日函数：

由上述的3个式子，最终可以求得分类器输出函数为：

其中f(x)＝[f₁(x),f₂(x)......f_m(x)]^T以及

其中，I＝[1,1,...,1]^T；

针对多分类的问题，其分类标签为：

label(x)＝arg max f_i(x),i＝1,2...m

步骤S52：设HOG特征的尺度空间规模为d，每一个尺度下的HOG特征维数为p维，则多尺度下的HOG特征描述为φ(Multi-HOG)＝[x_1,1..x_1,p|x_2,1..x_2,p|...x_d,p]；设各个尺度下的特征抑制因子为V＝[v₁,v₂...v_d]，其中v₁代表尺度1下的HOG特征抑制因子，v_d代表尺度d下HOG特征的影响因子；设样本的多级LBP特征为φ(LBP)＝[x_lpb,1,x_lpb,2..x_lpb,o]，o表示多级LBP的特征维数，多级LBP特征的抑制因子为v_lbp，全局HSV颜色特征为φ(HSV)＝[x_hsv,1,x_hsv, ₂..x_hsv,z]，z为全局HSV颜色空间的特征维数，其特征抑制因子为v_hsv；其中，V、v_lbp以及v_hsv称为特征抑制因子；则映射后的空间为

其中

表示的是在各自空间上的一个抑制算法，抑制因子的空间为φ(r)＝[V,v_lbp,v_hsv]，新的ELM模型RLSI-ELM描述如下：

步骤S53：确定隐层节点个数l。

5.根据权利要求4所述的一种基于蒙特卡罗数据均衡的图像自动标注方法，其特征在于：所述步骤S53包括以下步骤：

步骤S531：首先随机产生一个由输入层到隐层的权重矩阵，然后随机产生一个具有l_begin个节点的单隐层极限学习机网络，其中l_begin是一个小于训练样本个数n的正整数；确定一个残差因子σ，σ为一个双精度实数；确定一个步长因子s，s为一个正整数；

步骤S534：当l_c＜n时，令c＝c+1；