CN103488744A

CN103488744A - 一种大数据图像分类方法

Info

Publication number: CN103488744A
Application number: CN201310432630.1A
Authority: CN
Inventors: 金连文; 陶大鹏; 王永飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-09-22
Filing date: 2013-09-22
Publication date: 2014-01-01
Anticipated expiration: 2033-09-22
Also published as: CN103488744B

Abstract

本发明公开了一种大数据图像分类方法，包括如下步骤：1）收集图像样本作为训练集；2）寻找大数据图像分类最优的投影矩阵；3）对无标注数据进行投影；4）对投影后的样本采用最小距离分类器分类。利用本发明提出的方法能够有效利用样本分布的局部几何信息，并提取分类的鉴别信息，减少大数据图像分类对人工标注样本的依赖，有效减少训练过程中的存储成本，其分类准确度高于有代表性的基于线性判别分析的图像分类方法。

Description

一种大数据图像分类方法

技术领域

本发明涉及一种模式识别与人工智能技术领域中的图像分类技术，特别涉及一种大数据图像分类方法，该方法是一种监督学习图像分类的方法。

背景技术

随着移动互联网的迅速发展，带有数字摄像头智能手机、平板电脑越来越多的进入人们的生活，很容易产生大量的个人数字图像。虽然利用时间和目录对图像进行管理是一种常见的方法，但是缺乏语义层面对图片进行有效的管理。因此利用监督学习方法，通过学习人工标注数据，以获得图像分类模型，然后对没有标注的图像进行自动图像分类。由于图像通常的特征维数非常高，因此降维方法有助于识别性能的提高。

传统的全局线性降维的方法主要是基于线性的，其中线性判别分析被广泛地应用在模式分类问题上。线性判别分析法主要通过最大化类间距离的同时使类内样本间距离最小，从而实现不同类别之间的可分性。但是，大数据图像分类面临着类别数巨大，需要分类的样本数量巨大等困难。线性判别分析对于大数据而言，使用成本是比较高的，为了获得一定的分类性能，它需要人工大量的标注样本。这使得图像分类软件开发成本大量增加，需要人工大量的标注样本。

因此，寻找一个需要标注少量样本即可得到满足要求的自动图像分类方法是非常必要的。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种大数据图像分类方法，该方法只需要少量人工标注样本。

本发明的目的通过下述技术方案实现：一种大数据图像分类方法，具体实现方式：

1）收集图像样本作为训练集X，即X=[x₁,x₂,…,x_N]∈R^D×N，样本维数为D，样本数量为N，每个样本有相应的类别标志C_i∈Z。

2）建立局部优化目标函数：

对每一个已标注的样本x_i，我们可以找到类内样本

的k₁近邻和类间样本的k₂近邻来形成一个局部块，即：

X_{i} = [x_{i}, x_{i^{1}}, . . . x_{i^{k_{1}}}, x_{i_{1}}, . . . x_{i_{k_{2}}}] &Element; R^{D \times (k_{1} + k_{2} + 1)},

另外，我们定义R_ij为第j个样本相对第i个样本里的位置顺序。我们希望每个局部块的新的低维空间表达，即：

Y_{i} = [y_{i}, y_{i^{1}}, . . . y_{i^{k_{1}}}, y_{i_{1}}, . . . y_{i_{k_{2}}}] &Element; R^{d \times (k_{1} + k_{2} + 1)},

满足类间样本距离足够大同时类内样本位置顺序信息尽可能的保留。

我们对类间样本距离建立（1）式：

M (y_{i}) = Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{p}} | |}^{2}, - - - (1)

我们对类内样本的位置顺序信息建立（2）式：

R (y_{i}) = Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i^{j}} | |}^{2} {(w_{i})}_{j}, - - - (2)

其中，(w_i)_j表示区别小距离和大距离之间的惩罚因子，当原始空间的距离小时，我们赋予低维子空间较大的权重，当距离大时，我们赋予较小的权重。

惩罚因子定义如下：

由于局部块X_i是近似线性的，由公式(1)(2)和一个权衡系数γ，可以得到局部优化的目标函数(4)：

\arg \min_{y_{i}} (Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i^{j}} | |}^{2} {(w_{i})}_{j} - γ Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{p}} | |}^{2}), - - - (4)

其中，γ∈[0,1]是一个用于整合类内样本和类间样本贡献值的权衡系数。

公式(4)可以进一步化为以下形式：

\begin{matrix} \underset{y_{i}}{\arg \min} Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i_{j}} | |}^{2} {(w_{i})}_{j} - γ Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{j}} | |}^{2} \\ = \underset{Y_{i}}{\arg \min} tr (Y_{i} L_{i} Y_{i}^{T}), \end{matrix}, - - - (5)

其中，tr()是迹算子

L_{i} = [\begin{matrix} - e_{k_{1} + k_{2}}^{T} \\ I_{k_{1} + k_{2}} \end{matrix}] diag (v_{i}) [\begin{matrix} {- e}_{k_{1} + k_{2}} & I_{k_{1} + k_{2}} \end{matrix}],

3）建立全局优化目标函数：

通过样本选择矩阵，低维空间块表达Y_i的坐标是从全局坐标Y=U^TX=[y₁,y₂,…y_N]∈R^d×N中选择出来的，即

Y_i=YS_i, (5)

这里S_i∈R^N×(K+1)是选择矩阵。令F_i={i,i₁,…i_K}为索引集，则选择矩阵的定义如下：

根据公式(6)，公式(5)可以写为：

\underset{Y}{\arg \min} tr ({YS}_{i} L_{i} S_{i}^{T} Y^{T}), - - - (7)

通过对公式(8)的局部优化求和，我们可以得到整体调整公式(9)：

\begin{matrix} \underset{Y}{\arg \min} Σ_{i = 1}^{N} tr ({YS}_{i} L_{i} S_{i}^{T} Y^{T}) \\ = \underset{Y}{\arg \min} tr (YL Y^{T}), \end{matrix}- - - (8)

因Y=U^TX，而U^TU=I_d。I_d是d×d的单位矩阵。因此公式(9)可以写成：

\begin{matrix} \underset{Y}{\arg \min} tr (U^{T} XL X^{T} U) \\ s . t . U^{T} {XX}^{T} U = I_{d}, \end{matrix}, - - - (9)

s.t.U^TXX^TU=I_d,

4）利用拉格朗日乘数法，我们可以将求公式(10)的问题转换为求广义特征值α问题。投影矩阵U由式子XLX^Tα=λXX^Tα的d个最小特征值对应的d个特征向量和得到。

5）通过对无标注数据集Xu进行投影，即Y_u=U^TX_u，并对Y_u采用最小距离分类器（Minimum Euclidean Distance Classifier，MEDC）分类，可以获得图像分类的结果。

本发明的工作原理：

本发明一种大数据图像分类方法，通过对的标注数据形成的块做局部近似线性的假设，并在块上设计不同类别间的样本距离足够大，相同类别的样本位置顺序信息尽可能的保留的目标函数，最后在所有块上目标函数的基础上建立全局优化目标函数，以此获得新的分类投影矩阵。

本发明相对于现有技术具有如下的优点及效果：

1、这样设计与传统的全局线性降维方法相比，能够充分利用样本分布的局部几何信息和样本的整体分布特性，因此可以有效提高图像分类的准确度。

2、本发明可以用少量样本获得很好的识别率，因此减少了大数据图像分类对人工标注样本的依赖。

3、相对于传统的全局线性降维方法，采用本发明可以有效减少训练过程中的存储成本。

附图说明

图1是本发明实施例的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

为了清楚说明本发明对于图像分类有效性，如图1所示，在本实施例中进行了手写数字图像分类试验，并与经典的线性判别分析（LDA）进行对比。试验数据选择常见的USPS数据集，该数据由0到9，总共10个类别，9298个样本，具体实施步骤如下：（将实施例与图1结合来具体阐述试验步骤以及列举试验结果）：

步骤1：每个类别收集10个图像样本，总共100个样本作为训练集X，即X=[x₁,x₂,…,x_N]∈R^D×N，样本维数为D=256维，每个样本有相应的类别标志C_i∈Zⁿ。剩下的样本作为测试数据集Xu。

2）建立局部优化目标函数：

对每一个已标注的样本x_i，我们可以找到类内样本

的k₁近邻和类间样本

的k₂近邻来形成一个局部块，即：

X_{i} = [x_{i}, x_{i^{1}}, . . . x_{i^{k_{1}}}, x_{i_{1}}, . . . x_{i_{k_{2}}}] &Element; R^{D \times (k_{1} + k_{2} + 1)} .

另外，我们定义R_ij为第j个样本相对第i个样本里的位置顺序。我们希望每个局部块的新的低维空间表达，即

Y_{i} = [y_{i}, y_{i^{1}}, . . . y_{i^{k_{1}}}, y_{i_{1}}, . . . y_{i_{k_{2}}}] &Element; R^{d \times (k_{1} + k_{2} + 1)},

我们对类间样本距离建立（1）式：

M (y_{i}) = Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{p}} | |}^{2}, - - - (10)

我们对类内样本的位置顺序信息建立（2）式：

R (y_{i}) = Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i^{j}} | |}^{2} {(w_{i})}_{j}, - - - (11)

惩罚因子定义如下：

由于局部块X_i是近似线性的，由公式(1)(2)和一个权衡系数γ，可以列出如下局部优化的目标函数(4)：

\arg \min_{y_{i}} (Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i^{j}} | |}^{2} {(w_{i})}_{j} - γ Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{p}} | |}^{2}), - - - (13)

其中γ取0.3。

公式(4)可以进一步化为以下形式：

\begin{matrix} \underset{y_{i}}{\arg \min} Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i_{j}} | |}^{2} {(w_{i})}_{j} - γ Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{j}} | |}^{2} \\ = \underset{Y_{i}}{\arg \min} tr (Y_{i} L_{i} Y_{i}^{T}), \end{matrix} - - - (5)

其中，tr()是迹算子，

L_{i} = [\begin{matrix} - e_{k_{1} + k_{2}}^{T} \\ I_{k_{1} + k_{2}} \end{matrix}] diag (v_{i}) [\begin{matrix} {- e}_{k_{1} + k_{2}} & I_{k_{1} + k_{2}} \end{matrix}],

3）建立全局优化目标函数：

通过样本选择矩阵，每个局部块的新的低维空间表达Y_i的坐标是从训练集低维表达Y中选择出来的，（即Y=U^TX=[y₁,y₂,…y_N]∈R^d×N），可以用下式描述：

Y_i=YS_i, (14)

这里S_i∈R^N×(K+1)是选择矩阵。令F_i={i,i₁,…i_K}为指标集，则选择矩阵的定义如下：

根据公式(6)，公式(5)可以写为：

\underset{Y}{\arg \min} tr ({YS}_{i} L_{i} S_{i}^{T} Y^{T}), - - - (16)

\begin{matrix} \underset{Y}{\arg \min} Σ_{i = 1}^{N} tr ({YS}_{i} L_{i} S_{i}^{T} Y^{T}) \\ = \underset{Y}{\arg \min} tr (YL Y^{T}), \end{matrix}- - - (17)

令Y=U^TX，而U^TU=I_d。I_d是d×d的单位矩阵。因此公式(9)可以写成：

\begin{matrix} \underset{Y}{\arg \min} tr (U^{T} XL X^{T} U) \\ s . t . U^{T} {XX}^{T} U = I_{d}, \end{matrix} - - - (18)

4）利用拉格朗日乘数法，我们可以将求公式(10)的问题转换为求广义特征值α问题。投影矩阵U由式子XLX^Tα=λXX^Tα的d=24个最小特征值对应的d=24个特征向量得到。

5）通过对测试数据X_u进行投影，即Y_u=U^TX_u，并对Y_u采用最小距离分类器（Minimum Euclidean Distance Classifier，MEDC）分类，可以获得图像分类的结果。

方法	线性判别分析（LDA）	本专利方法
			识别率	80.9%	84.3%

表1

表1为本发明与线性判别分析在USPS数据集上的实验结果，显示了本专利方法与基于线性判别分析（LDA）的分类结果对比。可以看出，在分类准确度上，本专利方法有明显优势。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种大数据图像分类方法，包括以下步骤：

1）收集图像样本作为训练集X，即：X=[x₁,x₂,…,x_N]∈R^D×N，其中x₁，x₂，…,x_N，代表样本，D为样本维数，N为样本数量，每个样本有相应的类标志C_i；

2）寻找大数据图像分类最优的投影矩阵U；

3）通过对无标注数据集X_u进行投影，并获得新的样本特征集Y_u，即：Y_u=U^TX_u；

4）对投影后样本特征集Y_u采用最小距离分类器分类，获得图像分类的结果；

其特征在于，所述寻找大数据图像分类最优的投影矩阵，包括以下步骤：

步骤1、建立局部优化目标函数；

步骤2、建立全局优化目标函数；

步骤3、利用拉格朗日乘数法：将新的全局优化目标的问题转换为求广义特征值α问题，大数据图像分类最优的投影矩阵U由式子XLX^Tα=λXX^Tα的前d个最小特征值对应的d个特征向量得到。

2.根据权利要求1所述的大数据图像分类方法，其特在在于，所述步骤1包括：对每一个已标注的样本xi，找到同类样本

的共k₁近邻和不同类别样本

的共k₂近邻来形成一个局部块，即：

X_{i} = [x_{i}, x_{i^{1}}, . . . x_{i^{k_{1}}}, x_{i_{1}}, . . . x_{i_{k_{2}}}] &Element; R^{D \times (k_{1} + k_{2} + 1)};

定义Ri_j为第j个样本相对第i个样本里的位置顺序，设定每个局部块的新的低维空间表达，即：

Y_{i} = [y_{i}, y_{i^{1}}, . . . y_{i^{k_{1}}}, y_{i_{1}}, . . . y_{i_{k_{2}}}] &Element; R^{d \times (k_{1} + k_{2} + 1)},

满足不同类别样本距离足够大，同时同类样本位置顺序信息尽可能的保留；

对不同类别样本在新的投影空间的距离建立（1）式：

M (y_{i}) = Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{p}} | |}^{2}, - - - (19)

对同类样本在新的投影空间的位置顺序信息建立（2）式：

R (y_{i}) = Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i^{j}} | |}^{2} {(w_{i})}_{j}, - - - (20)

其中，(w_i)_j表示区别小距离和大距离之间的惩罚因子，当原始空间的距离小时，赋予低维子空间较大的权重，当距离大时，赋予较小的权重；

所述惩罚因子的定义如下：

其中，Nk₁(x_i)表示x_i的k₁个同类近邻样本集，||||为求2范数符号；

由于局部块X_i是近似线性的，利用公式(1)、公式(2)和权衡系数γ，得到局部优化的目标函数，所述目标函数的表达式如下：

\arg \min_{y_{i}} (Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i^{j}} | |}^{2} {(w_{i})}_{j} - γ Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{p}} | |}^{2}), - - - (22)

其中，权衡系数γ∈[0,1]，所述目标函数式(4)的意义是在局部块上，满足不同类别样本距离和足够大，同时同类样本位置顺序信息尽可能的保留；

对公式(4)进行进一步简化，得到公式(5)：

\begin{matrix} \underset{y_{i}}{\arg \min} Σ_{j = 1}^{k_{1}} {| | y_{i} - y_{i_{j}} | |}^{2} {(w_{i})}_{j} - γ Σ_{p = 1}^{k_{2}} {| | y_{i} - y_{i_{j}} | |}^{2} \\ = \underset{Y_{i}}{\arg \min} tr (Y_{i} L_{i} Y_{i}^{T}), \end{matrix} - - - (5)

其中，tr()是迹算子，

L_{i} = [\begin{matrix} - e_{k_{1} + k_{2}}^{T} \\ I_{k_{1} + k_{2}} \end{matrix}] diag (v_{i}) [\begin{matrix} {- e}_{k_{1} + k_{2}} \end{matrix} I_{k_{1} + k_{2}}],

3.根据权利要求1所述的大数据图像分类方法，其特征在于，所述步骤2包括：通过样本选择矩阵，每个局部块的新的低维空间表达Y_i的坐标从训练集低维表达Y中选择出来，即：Y=U^TX=[y₁,y₂,…y_N]∈R^d×N，所述低维空间表达Y_i的表达式如下：

Y_i=YS_i, (23)

其中，S_i∈R^N×(K+1)是选择矩阵，K=k₁+k₂；令F_i={i,i₁,…i_K}为索引集，则选择矩阵的定义如下：

将公式(6)代入公式(5)得到公式(8)：

\underset{Y}{\arg \min} tr ({YS}_{i} L_{i} S_{i}^{T} Y^{T}), - - - (25)

通过对公式(8)的局部优化累加求和，得到全局优化目标公式(9)：

\begin{matrix} \underset{Y}{\arg \min} Σ_{i = 1}^{N} tr ({YS}_{i} L_{i} S_{i}^{T} Y^{T}) \\ = \underset{Y}{\arg \min} tr (YL Y^{T}), \end{matrix}- - - (26)

由于Y=U^TX，全局优化目标公式(9)写成：

\begin{matrix} \underset{Y}{\arg \min} tr (U^{T} XL X^{T} U) \\ s . t . U^{T} {XX}^{T} U = I_{d} \end{matrix}, - - - (27)

其中，U^TXX^TU=I_d，I_d是d×d的单位矩阵。