CN102129570B

CN102129570B - 用于动态视觉的基于流形正则化的半监督分类器设计方法

Info

Publication number: CN102129570B
Application number: CN 201010034352
Authority: CN
Inventors: 樊明宇; 乔红; 区志财
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-01-19
Filing date: 2010-01-19
Publication date: 2013-02-13
Anticipated expiration: 2030-01-19
Also published as: CN102129570A

Abstract

本发明是一种用于动态视觉的基于流形正则化的半监督分类器设计方法，该分类器在动态视觉环境下的训练数据来源：由用户采集的带有类别信息的数据包含目标的正类样本和不包含目标的负类样本，计算机在视频中随机采集的无类别信息的数据；利用数据的局部线性重构系数，定义了分类器在样本数据集上的连续性正则项，使得分类器对无类别信息数据的利用效率得到了提高。并且在求解分类器系数的优化问题中对函数复杂度和函数连续性正则项的定义设定为1范数的形式，从而优化问题的解得是分类器系数的稀疏解，即训练得到的分类器也是稀疏的。使得分类器在动态视觉任务中的实时性得到了提高。

Description

用于动态视觉的基于流形正则化的半监督分类器设计方法

技术领域

本发明属于机器视觉领域，是涉及一种用于动态视觉信息分类的分类器设计方法。

背景技术

随着模式识别和机器学习技术的发展，机器视觉在现实生活中的应用越来越多。其主要方法是利用摄像头来获取动态的视频信息，然后利用计算机来模拟人的视觉功能，对采集的视觉信息进行处理并且加以理解。因为机器视觉具有处理速度快，信息量大等特点，使其在身份认证，物体的检测和识别，机器人，以及汽车的辅助驾驶系统中有着广泛的应用。

目前动态视觉在跟踪和识别领域已经有了很大的发展。从机器视觉的应用作为一个光机电一体的实际应用来看，成功与否的决定因素从来都是一个综合实力的评估。随着硬件技术的飞速发展，如今在机器视觉上的竞争焦点已经不再局限于硬件本身，而是更多的转向与之搭配的软件或者算法。纵观绝大多数动态视觉识别和跟踪的技术产品，在售出的时，动态视觉产品所使用环境，功能都已经固化其中很难再更改。如果用户想根据自身所处的环境，和对特定的目标进行识别和跟踪是很难实现的。同时，采集用于训练分类器所需要的正、负类的数据样本是一项繁琐和困难的任务，由产品的用户来在短时间内指定许多带有类别信息的样本是一件不方便也不现实的事情。

传统的基于流形正则化的半监督分类方法(Manifold basedregularization method)可以利用少数的带有类别信息的样本和很多无类别信息的样本来构造分类器。用户在使用该分类器时，只需要指定若干正类别样本和负类别样本，然后由计算机随机采样得到许多无指定类别信息的样本即可进行分类器的构造，与此同时，分类器的效果可以得到显著地提高。但是现有的流形正则化半监督分类方法对分类器的连续性正则项的定义并不是最优的。并且是求解分类器时的优化问题是基于2范数，不能够保证解的稀疏性(Sparsity)，即分类器的稀疏性，这对分类器在实际应用时的速度是一个制约。

发明内容

(一)要解决的问题

本发明的目的在于解决现有技术求解分类器的优化问题是基于2范数，不能够保证分类器的稀疏性，影响实际应用分类器的速度的问题，为此，本发明提供一种用于动态视觉的基于流形正则化的半监督分类器设计方法。

(二)技术方案

为达到上述目的，本发明提供用于动态视觉的基于流形正则化的半监督分类器设计方法，该方法包括以下步骤：

步骤1：用户在动态视觉系统的常用环境下拍摄视频，视频信息中必须含有需要识别的目标和平常使用时的背景环境；

步骤2：由用户在该视频中采集包含目标正样本和不包含目标的负样本；该正样本和负样本的集合表示为P＝{(x_i，y_i)，i＝1，…l}，x_i是以向量形式的样本数据，y_i表示x_i的分类信息，y_i＝1表示x_i属于正类样本，y_i＝-1表示x_i数据属于负类样本，l是整数代表了带分类信息样本的个数；

步骤3：由计算机自动地对给定视频的重采样得到多个不含类别信息的样本，不含类别信息样本的集合表示为，U＝{x_l+j，j＝1，…u}，u是整数代表了无分类信息样本的个数，令样本数据集Γ＝P∪U；

步骤4：对于样本数据集Γ＝{(x_i，y_i)，x_l+j，i＝1，…l，j＝1，…u}，确定样本数据集中样本数据的邻居关系；

步骤5：用优化算法计算x_i及与x_i具有邻居关系的邻居样本两者的重构权重或相似度向量w_i：

w_{i} = \underset{w}{\arg \min} φ (w_{i}) = \underset{w}{\arg \min} {| | x_{i} - Σ_{j = 1}^{l + u} w_{ij} x_{j} | |}_{2},

其中，对w_i的限制条件为

Σ_{j = 1}^{l + u} w_{ij} = 1,

并且w_ij≥0、如果x_i和x_j不是邻居关系，则计算机自动地指定w_ij＝0，从而得到关于Γ的权系数矩阵W＝(w₁，…，w_u+l)；

步骤6：对任意样本数据x的一般的分类器表示为

f (x) = Σ_{i = 1}^{u + l} α_{i} k_{σ} (x, x_{i}) + b,

其中α_i和b是待定的分类器系数，核函数k_σ(x，x_i)定义为k_σ(x，x_i)＝exp(-‖x-x_i‖²/σ²)，σ是一个给定的非零实数，利用最优化数值计算方法求解待定的分类器系数α_i和b的1范数的优化问题如下公式表示：

(α^{*}, b^{*}) = \underset{α &Element; R^{u + l}, b &Element; R}{\arg \min} \frac{1}{l} Σ_{i = 1}^{l} {(Σ_{j = 1}^{u + l} α_{j} k_{σ} (x_{j}, x_{i}) + b - y_{i})}^{2} + γ_{A} Σ_{i = 1}^{u + l} \sqrt{k_{σ} (x_{i}, x_{i})} | α_{i} | + γ_{I} Σ_{i = 1}^{u + l} | A_{ii} | | α_{i} |,

由上述公式得到待定分类器的系数值为

α^{*} = {(α_{1}^{*}, \cdot \cdot \cdot, α_{u + l}^{*})}^{T}, b^{*},

从而得到样本数据的分类器函数f(x)，其中γ_A和γ_I是给定的正权值，A_ii是矩阵KLK第i个对角元素，核矩阵K的第i行j列位置上的元素是k_σ(x_i，x_j)，矩阵L＝D-W，D是第i个对角元

D_{ii} = Σ_{j = 1}^{u + l} w_{ij}

的对角矩阵；

步骤7：获得分类器f(x)之后，从摄像头获得当前时刻的一帧图像剪裁成N个m×n大小的图像小块并转化为向量形式，形成采样数据集X＝{x₁，…，x_N}，将采样数据集X中的所有样本分别代入分类器f(x)中，如果对采样数据集X中的某个样本数据的分类器的输出值大于零并且是所有输出值中最大的，则该样本所对应的区域就是动态视觉系统所关注的需要识别目标所在区域。

其中，核函数k_σ(x_i，x_j)的另外一种形式是k_σ(x_i，x_j)＝(＜x_i，x_j＞+1)^σ，其中参数σ在该定义下只能是整数。

(三)有益效果

本发明的有益效果是克服现有方法的不足，以用户需求为导向，具有输入参数少，训练样本要求低，在线分类时的速度快等特点。在构造分类器的过程中不但能够利用到数据的类别信息，还能够利用到所有样本数据所包含的结构信息，所以f(x)的分类识别效果远好于仅利用已分类样本数据构造出来的传统分类器。同时我们在分类器的设计中对正则项采用了基于1范数的罚，根据稀疏性理论，重新定义的构造分类器的优化问题最终可以得到具有稀疏性的解，即分类器的构成会变得相对简单。由于不需要用户大量地指定样本数据的类别信息，同时可以根据用户的需要来重新设定需要识别的目标，因此算法对于用户是简单易用的。

附图说明

图1是本发明训练分类器的流程图。

图2是利用本发明正在工作中的动态视觉跟踪系统。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明是通过以下技术方案实现的，包括一下步骤：

第一步：用户在动态视觉系统的常用环境下拍摄的视频，视频信息中必须包括需要识别的目标和平常使用时的背景环境。

第二步：由用户在视频中手动采集少量样本，包含识别目标的正类样本和不包含目标的负类样本。

第三步：由计算机自动地对给定视频的重采样得到许多的不含类别信息样本。

第四步：使用第二步和第三步得到的样本数据来训练，生成分类器f(x)。

所述的第一步具体如下：

第一步比较简单，用户在动态视觉系统常用的环境要求下，拍摄一些常见，普通的工作视频。这些视频中应当包括所需要识别目标，背景也是常见的工作环境。

所述的第二步具体如下：

从视频中手动找出包含所需要识别目标的图像帧，对某一帧的图像，由用户指定包含识别目标的m×n矩形图像区域，计算机自动把代表该图像区域的像素信息转化成为3×m×n维空间中的向量并且作为正类样本数据。然后用户在不包含目标任何部分的区域指定尺寸为m×n矩形图像，这些图像区域的象素信息同样被自动转化成为3×m×n维空间中的向量，作为负类样本数据。假设用户采集的带类别信息的样本数据集合为P＝{(x_i，y_i)，i＝1，…l}。向量x_i表示第i个指定的图像样本向量，y_i表示x_i的分类信息，y_i＝1表示x_i中包含目标即正类样本，y_i＝-1表示x_i中不包含目标即负类样本。

其中m和n的取值是整数，分别表示用户指定矩形区域的长和宽。在数字图像数据中，m×n的矩形区域包含m×n个像素，在每个像素点上又包含3个数值信息来表示颜色(R红G绿B蓝)。因此大小为m×n的彩色数字图像区域可以转化成一个有3×m×n个元素的向量。由于采集有分类信息数据过程比较复杂，尤其是采集正类样本数据所需要的精度稍微高一些，即过大的l会影响到用户的体验。因此这里l不必很大，一般可以设置为10-20。

所述的第三步具体如下：

计算机在视频中随机地采集m×n大小的图像区域并且用上述同样方法转换成向量形式，作为无分类信息的样本数据。这一步处理完毕后，得到的这些无分类信息的样本向量的集合表示为U＝{x_l+j，j＝1，…u}。u是一个跟视频长短有关的整数，u代表了无分类信息样本的个数，一般可以设置为1000或者更大。

所述的第四步具体如下：

如图1示出训练分类器的流程，已有带分类信息样本数据P＝{(x_i，y_i)，i＝1，…l}和无分类信息样本数据U＝{x_i，i＝l+1，…，l+u}，令样本数据集合Γ＝P∪U，下面的过程就是利用样本数据Γ来构造分类器f(x)。

1)对于样本数据集Γ＝{(x_i，y_i)，x_l+j，i＝1，…l，j＝1，…u}，确定样本数据集中样本数据的邻居关系，即是计算Γ中任何两个样本数据之间的欧式距离，例如x_i和x_j之间的欧式距离通过公式‖x_i-x_j‖来计算，从而得到一个大小为(l+u)×(l+u)的距离矩阵Dist，它的第i行j列位置上的元素Dist_ij＝‖x_i-x_j‖。距离矩阵的作用是在第二步中，根据两点间距离的大小来判断此两个样本数据之间是否是邻居关系。

2)对于一个确定大小的正整数k，对于任何一个样本数据x_i，如果x_j是x_i在样本集Γ中的k最接近的样本数据之一，那么定义该两个样本是邻居。不妨假设x_i邻居的集合是{x_i1，…，x_ik}。

3)用优化算法计算向量形式的样本数据x_i及与x_i具有邻居关系的邻居样本两者的重构权重或相似度向量w_i：计算每个样本由其邻居线性重构的权重。对任意的样本数据x_i它被邻居线性重构权重向量w_i的计算方法是求解优化问题，如下公式表示：

w_{i} = \underset{w}{\arg \min} φ (w_{i}) = \underset{w}{\arg \min} | | x_{i} - Σ_{j = 1}^{l + u} w_{ij} x_{j} | | - - - (1)

其中w_i是一个有u+l元素的列向量，对w_i的限制条件为

Σ_{j = 1}^{l + u} w_{ij} = 1,

并且w_ij≥0、如果x_i和x_j不是邻居关系，则计算机自动地指定有w_ij＝0。对所有的样本数据都计算完毕后，可以得到一个大小为(l+u)×(l+u)的相似性矩阵W＝(w₁，…，w_u+l)＝(w_ij)。

根据表示定理(Representer Theorem)，分类器具有普遍的数学表达形式

f (x) = Σ_{i = 1}^{u + l} α_{i} k_{σ} (x, x_{i}) + b,

其中α＝(α₁，…，α_u+l)^T和b是待求的分类器参数，k_σ(x₁，x₂)＝exp(-‖x₁-x₂‖²/σ²)是高斯核函数，σ是一个给定的非零实数。为了利用带分类信息的样本，同时利用不带分类信息样本的结构信息来构造一个较好的分类器，流形正则化方法提出求解如下问题：

α^{*} = \underset{α &Element; R^{l + u}}{\arg \min} \frac{1}{l} Σ_{i = 1}^{l} {(f (x_{i}) - y_{i})}^{2} + γ_{A} {| | f | |}_{K}^{2} + γ_{I} {| | f | |}_{I}^{2} - - - (2)

其中‖f‖_K ²是函数f(x)在希尔伯特泛函空间中的复杂度度量，‖f‖_I ²是函数f(x)在流形，即样本数据集上的连续程度的度量，γ_A和γ_I都是给定的正实数。已知K是(l+u)×(l+u)的核矩阵并且第i行j列位置上的元素是k_σ(x_i，x_j)，矩阵L＝D-W，D是一个对角矩阵并且第i个对角元

D_{ii} = Σ_{j = 1}^{u + l} w_{ij} .

为了获得稀疏的系数表示，即系数{α₁，…，α_u+l}中有很多项同时为零，本发明提出将正则项‖f‖_K ²和‖f‖_I ²同时用1范数来定义，具体的做法是定义两个正则项分别为

{| | f | |}_{K}^{2} = Σ_{i = 1}^{u + l} \sqrt{k (x_{i}, x_{i})} | α_{i} |

和

{| | f | |}_{I}^{2} = Σ_{i = 1}^{u + l} | A_{ii} | | α_{i} |,

其中A_ij是矩阵KLK第i个对角元素。于是，利用最优化的数值计算方法求解如下最优化问题可以得到分类器的系数

α^{*} = {(α_{1}^{*}, \cdot \cdot \cdot, α_{u + l}^{*})}^{T}, b^{*},

(α^{*}, b^{*}) = \underset{α &Element; R^{u + l}, b &Element; R}{\arg \min} \frac{1}{l} Σ_{i = 1}^{l} {(Σ_{j = 1}^{u + l} α_{j} k_{σ} (x_{j}, x_{i}) + b - y_{i})}^{2} + γ_{A} Σ_{i = 1}^{u + l} \sqrt{k_{σ} (x_{i}, x_{i})} | α_{i} | + γ_{I} Σ_{i = 1}^{u + l} | A_{ii} | | α_{i} | - - - (3)

问题由公式(3)的求解方法和理论可以参考著名凸优化数值计算方法(CVX)。计算得结果是稀疏的系数

α^{*} = {(α_{1}^{*}, \cdot \cdot \cdot, α_{u + l}^{*})}^{T}, b^{*},

从而得到样本数据的分类器函数f(x)，不妨设α^*中有P项系数不为零{α_ij ^*，j＝1，…P}(P＜u+l)，于是有所求分类器为

f (x) = Σ_{j = 1}^{P} α_{ij}^{*} k_{σ} (x, x_{ij}) + b^{*} .

使用本分类器的动态视觉系统：图2示出利用本发明正在工作中的动态视觉跟踪系统，第一步，对当前帧图像进行裁剪得到样本；第二步，利用分类器f(x)获得目标在当前帧所在的位置。获得分类器f(x)之后，从摄像头获得当前时刻的一帧图像剪裁成N个m×n大小的图像小块并转化为向量形式{x_i，i＝1，…，N}，形成采样数据集X＝{x₁，…，x_N}。将采样数据集X中的所有样本分别代入分类器f(x)中，如果对样本数据某一采样的分类器的输出值大于零并且是分类器所有输出最大的，则该样本所对应的区域就可以认为是动态视觉系统所关注的目标所在区域。

本发明和现有技术的方法相比，传统的分类方法不能利用无分类信息的数据，因此效果不如流形正则化半监督分类器的效果好。本发明的方法基于流形正则化的半监督分类器，改进了它的光滑度度量方式[公式(2)]，同时采用了基于1范数的优化问题[公式(3)]，求得稀疏的分类器表示。这样的分类器能够更快更好地执行动态视觉中的任务。

利用本发明方法的动态视觉系统可以广泛的应用于机器人工业，交通，军事，海关，银行，宾馆，企业，政府等部门出入口等需要进行自动人脸识别的场所。尤其是用户会需要识别未能预先设置的场景下寻找新的目标时，是很方便又易用的技术工具。

在机器人跟踪人脸所使用的动态系统实例中，我们使用了该分类器作为跟踪程序的核心算法。具体的分类器参数设置为，但不局限于，核函数k_σ(x₁，x₂)＝exp(-‖x₁-x₂‖²/σ²)中σ＝0.35，邻居范围k＝7，正则化参数λ_A＝0.05和λ_I＝0.8。首先分别采集50个正类和负类的样本数据，正类样本数据都转换自80×60的矩形图像区域并且包含了一个人脸；负类样本数据同样转换自80×60的矩形图像区域并且不包含人脸的任何部分。然后通过对我们拍摄的视频的随机采样，收集了2000个无分类信息的样本。使用这些采集得到的样本数据集，按照公式(3)计算出分类器f(x)。

当前时刻的一帧图像分辨率为800×600剪裁成100个80×60大小的图像小块，形成采样数据集X＝{x₁，…，x₁₀₀}。将所有样本分别代入分类器f(x)中，如果分类器的输出值大于零并且是所有输出最大的，则该区域就可以认为是动态视觉系统所关注的人脸所在区域。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种用于动态视觉的基于流形正则化的半监督分类器设计方法，其特征在于，该方法的步骤为：

步骤5：用优化算法计算x_i及与x_i具有邻居关系的邻居样本两者的重构权重或相似度向量w_i，其中w_i＝(w_i1，…，w_i(l+u))^T为l+u维列向量：

定义以w_i为自变量的多元函数

则w_i的值可以通过求解最优化问题得到，即

该优化问题中，对w_i的限制条件为

并且w_ij≥0、如果x_i和x_j不是邻居关系，则计算机自动地指定w_ij＝0，对所有样本x_i，i＝1，…，l+u按照如上的方法计算得到w_i，i＝1，…，l+u，从而得到关于Γ的权系数矩阵W＝(w₁，…，w_u+l)；

步骤6：对任意样本数据x的一般的分类器表示为

(α^{*}, b^{*}) = \underset{α &Element; R^{u + l}, b &Element; R}{\arg \min} \frac{1}{l} Σ_{i = 1}^{l} {(Σ_{j = 1}^{u + l} α_{j} k_{σ} (x_{j}, x_{i}) + b - y_{i})}^{2} + γ_{A} Σ_{i = 1}^{u + l} \sqrt{k_{σ} (x_{i}, x_{i})} | α_{i} | + γ_{I} Σ_{i = 1}^{u + l} | A_{ii} | | α_{i} |,

由上述公式得到待定分类器的系数值为

从而得到样本数据的分类器函数f(x)，其中γ_A和γ_I是给定的正权值，A_ii是矩阵KLK第i个对角元素，核矩阵K的第i行j列位置上的元素是k_σ(x_i，x_j)，矩阵L＝D-W，D是第i个对角元的对角矩阵；

2.如权利要求1所述的分类器设计方法，其特征在于，核函数k_σ(x_i，x_j)的另外一种形式是k_σ(x_i，x_j)＝(<x_i，x_j>+1)^σ，其中参数σ在该定义下只能是整数。