CN107341440A

CN107341440A - 基于多任务度量多核学习的室内rgb‑d场景图像识别方法

Info

Publication number: CN107341440A
Application number: CN201710318192.4A
Authority: CN
Inventors: 牛振兴; 郑昱; 焦志成; 徐浩隽; 亓林
Original assignee: Kunshan Innovation Institute of Xidian University
Current assignee: Kunshan Innovation Institute of Xidian University
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2017-11-10

Abstract

本发明涉及一种基于多任务度量多核学习的室内RGB‑D场景图像识别方法，包括以下步骤：分别对室内RGB‑D场景图像中的彩色图像和对应的深度图像提取全局特征，对彩色图像特征和对应深度图像特征构建一个映射函数，将这两种图像特征同时映射到修正空间中，形成修正彩色图像特征和修正深度图像特征，最后，针对这两种修正特征，构建多核室内场景分类器模型，对待分类场景图像进行分类。本发明直接针对室内RGB‑D场景图像本身进行识别，避免了因物体存在的多样性而造成的识别错误和因物体识别错误而造成的场景判断错误，提高了室内RGB‑D场景图像类别识别的准确率。

Description

基于多任务度量多核学习的室内RGB-D场景图像识别方法

技术领域

本发明属于模式识别和图像处理技术领域，具体涉及一种基于多任务度量多核学习的室内RGB-D场景图像识别方法。

背景技术

场景识别是模式识别和图像处理技术领域中最受关注的课题之一。传统的场景识别通常利用彩色图像来完成室外场景识别的任务。由于场景元素的复杂性，室内场景识别长久以来一直没有得到重视。近年来，随着微软Kinect摄像头的出现，场景的景深信息可以方便地获取。这样，摄像机在获得普通彩色图像(RGB图像)的同时，还可以获得标志景深信息的深度图像(Depth图像)，这为室内场景识别提供了可能。近年来，已经有学者利用这种新型的RGB-D图像对室内场景识别进行了研究。Dahua Lin,Sanja Fidler和RaquelUrtasun在文章“Holistic scene understanding for 3d object detection with rgbdcameras.”(ICCV,2013)中提出了一种利用图像分割和几何学知识提取RGB-D图像中的三维目标，然后基于这些目标完成室内场景识别。Shaohua Wan,Changbo Hu,J.K.Aggarwal在文章“Indoor Scene Recognition from RGB-D Images by Learning Scene Bases.”(ICPR,2014)中通过利用场景中的目标和性质，对室内场景的属性进行了定义，提出了一种基于场景元素的室内场景识别方法。

上述方法的不足之处是：都利用RGB-D图像便于目标识别的特性，先将场景中的目标物体都识别出来，然后根据目标物体来分析这是哪一种室内场景。这种技术路线的最大缺点是：很多物体很可能出现在多种场景中。例如：这些方法中往往认为茶杯会出现在餐厅中，所以，当识别出某场景中含有茶杯这个物体，就认为该场景为餐厅。然而，在现实中，由于人们习惯的不同，茶杯可能出现在客厅，也有可能出现在卧室。而现有的技术路线这种根据物体定义场景的方法无法克服该缺点。而且现有技术路线也没有直接利用彩色图像(RGB图像)和深度图像(Depth图像)之间的联系，从而导致图像场景识别的准确率不高。

发明内容

为了解决现有技术中存在的图像场景识别准确率低的问题，本发明提供了一种基于多任务度量多核学习的室内RGB-D场景图像识别方法。

实现本发明目的的技术思路是，将彩色图像和深度图像分别提取全局特征；利用多任务度量学习将两种图像类型的特征映射到同一个修正特征空间中；采用多核学习分类器将组合特征进行分类，完成室内场景识别。本发明要解决的技术问题通过以下技术方案实现：

基于多任务度量多核学习的室内RGB-D场景图像识别方法，该方法包括以下步骤：

步骤一，将室内RGB-D场景图像训练集中的每一幅RGB-D场景图像的每一张彩色图像和与彩色图像对应的深度图像通过卷积神经网络分别提取彩色图像特征和对应深度图像特征；

所述彩色图像特征和对应深度图像特征均为全局特征；

步骤二，通过多任务度量学习方法构建映射函数，得到特征映射矩阵，然后将所述彩色图像特征和所述对应深度图像特征同时通过所述特征映射矩阵映射到修正特征空间中，并得到修正彩色图像特征和修正深度图像特征；

步骤三，将所述修正彩色图像特征和所述修正深度图像特征一一对应，然后将所述修正彩色图像特征和所述修正深度图像特征的特征向量拼接为一个特征向量，形成修正RGB-D图像特征；再通过多核学习方法，对修正RGB-D图像特征进行学习，得到多核室内场景分类器模型；

步骤四，通过步骤一将待识别的室内RGB-D场景图像提取待识别彩色图像特征和待识别对应深度图像特征，然后通过步骤二中的所述特征映射矩阵将待识别彩色图像特征和待识别对应深度图像特征映射到修正特征空间中并形成待识别修正彩色图像特征和待识别修正深度图像特征，并将待识别修正彩色图像特征和待识别修正深度图像特征一一对应并拼接成待识别修正RGB-D图像特征，最后将待识别修正RGB-D图像特征输入到所述多核室内场景分类器模型中，得到分类结果，完成室内场景图像的识别。

进一步的，所述步骤二的具体步骤为：

(1)通过多任务度量学习构建用于衡量两个不同彩色图像或两个不同深度图像的距离的度量函数，距离度量函数为：

其中，x_i表示一个彩色图像样本或深度图像样本，x_s表示与x_i不同的一个彩色图像样本或深度图像样本，d_t表示两个不同彩色图像样本之间的马氏距离或两个不同深度图像样本之间的马氏距离；T表示完成同一室内场景识别的任务的数量，且T＝2；M₀表示公共度量矩阵，M_t表示所述完成同一室内场景识别的任务私有的度量矩阵，M₀+M_t表示多任务度量学习中彩色图像或深度图像的度量矩阵，且M₀+M_t＝L^ΤL，L为所述特征映射矩阵；

其中，所述完成同一室内场景识别的任务包括使用彩色图像特征完成室内场景识别的任务和使用对应深度图像特征完成室内场景识别的任务；

t＝1或2，当t＝1时，M₁表示使用彩色图像特征完成室内场景识别的任务私有的度量矩阵，当t＝2时，M₂表示使用对应深度图像特征完成室内场景识别的任务私有的度量矩阵；多任务度量学习中的彩色图像的度量矩阵为M₍₁₎＝M₀+M₁，多任务度量学习中的深度图像的度量矩阵为M₍₂₎＝M₀+M₂；

(2)构造优化函数学习公共度量矩阵M₀和私有的度量矩阵M_t，优化函数为：

且

ξ_i,j,k≥0

其中，x_i表示一个彩色图像样本或深度图像样本，x_j表示与x_i属于同一室内场景类别的另一个彩色图像样本或深度图像样本，x_k表示与x_i属于不同室内场景类别的一个彩色图像样本或深度图像样本，I表示单位矩阵，γ₀和γ_t表示优化项的权重系数，ξ_i,j,k表示松弛变量；

所述优化函数为一个凸函数，通过标准的次梯度下降法优化所述优化函数得到所述公共度量矩阵M₀和所述完成同一室内场景识别的任务私有的度量矩阵M_t；

(3)通过u＝Lu_ori将所述彩色图像特征和所述对应深度图像特征同时通过所述特征映射矩阵映射到修正特征空间中，并得到修正彩色图像特征和修正深度图像特征；

其中，u表示修正彩色图像特征或修正深度图像特征，u_ori表示所述彩色图像特征或所述对应深度图像特征。

进一步的，所述步骤三的具体步骤为：

(1)将所述修正彩色图像特征和所述修正深度图像特征一一对应，然后将对应后的修正彩色图像特征和修正深度图像特征的特征向量直接拼接为一个特征向量，形成修正RGB-D图像特征；

(2)将所述修正RGB-D图像特征输入核函数，形成多核学习的最终核K：

其中，x和z表示任意两个修正RGB-D图像特征，E表示核函数的数目，K_j表示第j个高斯基础核，β_j表示核之间的系数；

(3)将最终核K输入线性分类器进行学习，学习出多核室内场景分类器模型：

其中，N表示修正RGB-D图像特征的数量，K表示最终核函数，α_i、b表示学习得到的系数

与现有技术相比，本发明的有益效果：

1、本发明直接针对室内RGB-D场景图像本身进行识别，而不是先识别场景中的物体，再根据物体判断场景，避免了(1)因物体存在的多样性而造成的识别错误；(2)因物体识别错误而造成的场景判断错误。

2、本发明利用多任务度量学习将彩色图像和深度图像同时映射到一个更有分辨力的修正特征空间中，多任务的设定保证了本发明可以同时利用彩色图像的颜色信息和深度图像的景深信息，克服了传统方法中，不能很好的结合两种信息的缺点。

3、本发明利用多核学习对映射后的特征进行分类，从而完成识别的任务。由于映射后的特征本质上是一个多模态的特征，它同时包含了彩色图像的颜色信息和深度图像的景深信息，传统的方法只会把这个特征当做一个完整的样本表示，而利用多核学习，可以对该特征使用不同的核函数进行决策，最后将不同的决策有效结合起来，充分利用两种的模态的信息，而且，对不同的模态的特征使用不同的核函数也更适应这一类多模特征的表示方式，从而使得场景识别的识别率得到明显提升。

附图说明

图1是本发明流程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

一、特征提取步骤

(1)将同一室内场景的彩色图像和深度图像作为一组图像对，构成该场景的RGB-D图像，将所有的室内RGB-D场景图像构成图像训练集。

(2)根据卷积神经网络AlexNet模型，搭建七层深度神经网络来分别提取每一张彩色图像和每一张深度图像的全局特征：

将彩色图像或深度图像作为神经网络的输入层；

定义第一、三、五层为卷积层，分别对上一层的输出结果进行卷积运算；

定义第二、四、六层为子采样层，分别对上一层的输出结果进行子采样运算；

定义第七层为全连接层，将第六层子采样层的输出作为输入，构建一个全连接的单层神经网络，该网络输出为4096维特征向量，该特征向量即作为图像的全局特征。

二、映射函数构建步骤

(3)将所有的彩色图像特征分为一组，所有的对应深度图像特征分为一组。将使用这两组特征完成室内场景识别作为两个相关的任务。

(4)对上述两个任务使用多任务度量学习获得特征空间中彩色图像或深度图像的度量矩阵M＝M₀+M_t，其中M₀表示公共度量矩阵，M_t表示完成同一室内场景识别的任务私有的度量矩阵。

(5)将特征空间中彩色图像或深度图像的度量矩阵M分解为M＝L^ΤL，L即为需要的特征映射矩阵,L^T为L的转置矩阵；将彩色图像特征和对应深度图像特征同时通过特征映射矩阵映射到修正特征空间中，并得到修正彩色图像特征和修正深度图像特征。

三、多核分类器学习步骤

(6)将步骤(5)中映射到修正特征空间中的修正彩色图像特征和修正深度图像特征一一对应，然后将每个室内场景的修正彩色图像特征和修正深度图像特征的两种特征向量直接拼接为一个特征向量，作为该室内场景的修正RGB-D图像特征；

(7)将所有室内场景的修正RGB-D图像特征输入核函数，形成多核学习的最终核。核函数的定义为：

其中，x和z是任意两个修正RGB-D图像特征，E是核函数的数目，K_j是第j个基础核，在这里，我们的基础核选用高斯核，β_j指核之间的系数；

(8)将步骤(7)形成的最终核输入线性分类器进行学习，学习出多核室内场景分类器，表达式为：

其中，N表示修正RGB-D图像特征的数量,K是最终核函数，α_i，b是学习到的系数。

四、场景图像分类步骤

(9)利用步骤一中的方法提取待识别的室内RGB-D场景图像的全局特征；

(10)利用步骤二中构建的特征映射矩阵将待识别的室内RGB-D场景图像的全局特征映射到修正特征空间中；

(11)利用步骤三中学习到的多核分类器模型对待识别修正RGB-D图像特征进行分类，完成室内场景图像识别。

上述步骤的具体实施步骤如下：

一、特征提取部分

步骤1，RGB-D图像训练集构成：

在图像集中，每一个室内场景应有一张彩色图像(RGB图像)和与之一一对应的一张深度图像(Depth图像)。将同一室内场景的彩色图像和深度图像作为一组图像对，构成该室内场景的RGB-D场景图像，将所有的RGB-D场景图像集合起来，构成训练集。

步骤2，提取图像全局特征：

根据卷积神经网络AlexNet模型，搭建七层深度神经网络来分别提取每一张彩色图像的彩色图像特征和每一张深度图像的对应深度图像特征，彩色图像特征和对应深度图像特征均为全局特征：在该模型中，本实施例使用已经预训练好的模型参数：

(1)将彩色图像或深度图像作为神经网络的输入层；由于彩色图像和深度图像都是二维矩阵，因此输入层实质为一个二维矩阵；

(2)定义第一、三、五层为卷积层，分别对上一层的输出结果进行卷积运算；其卷积运算的计算公式为：

其中，表示本层输入的特征图，即上一层神经网络的输出；表示本层的输出；表示该层的权值；表示该层的偏差；S_j表示选择输入特征图的集合；

(3)定义第二、四、六层为子采样层，分别对上一层的输出结果进行子采样运算；其卷积运算的计算公式为：

其中，表示本层输入的特征图，即上一层神经网络的输出；表示本层的输出；down表示下采样操作；表示该层的权值；表示该层的偏差；

(4)定义第七层为全连接层，将第六层子采样层的输出作为输入，构建一个全连接的单层神经网络，该网络输出为4096维特征向量，该特征向量即作为图像的全局特征。

二、映射函数构建

步骤3，在得到所有图像的全局特征之后，将所有的彩色图像特征分为一组，所有的对应深度图像特征分为一组。将使用彩色图像特征完成室内场景识别定义为一个任务，而将使用对应深度图像特征完成室内场景识别定义为另外一个任务，而这两个任务是使用同一个室内场景的不同类型图像特征完成识别，所以，这两个任务是有关联的，因此，可以使用多任务学习的策略对这两个任务同时学习。

步骤4，使用多任务度量学习获得特征空间中度量矩阵，同时将彩色图像特征和对应深度图像特征映射到修正特征空间中。

(1)构造一个新的度量函数来衡量两个不同彩色图像或两个不同深度图像之间的距离，其距离度量函数为：

其中，x_i表示一个彩色图像样本或深度图像样本，x_s表示与x_i不同的一个彩色图像样本或深度图像样本，d_t表示两个不同彩色图像样本之间的马氏距离或两个不同深度图像样本之间的马氏距离，即构造的度量函数，构造该距离度量函数的目的是使得在该度量下，同一个室内场景中的图像距离最小。T表示完成同一室内场景识别的任务的数量，本实施例中有彩色图像和深度图像两种图像，完成同一室内场景识别的任务包括使用彩色图像特征完成室内场景识别的任务和使用对应深度图像特征完成室内场景识别的任务，所以T＝2。M₀表示公共度量矩阵，M_t表示完成同一室内场景识别的任务私有的度量矩阵，M₀+M_t表示多任务度量学习中的彩色图像或深度图像的度量矩阵，即需要学习的矩阵。

(2)构造优化函数学习度量矩阵。为了对线性变化矩阵M₀和M_t进行求解，构造一个优化函数使得同一个室内场景中的图像距离最小，优化函数为：

且

ξ_i,j,k≥0

其中，x_i表示一个彩色图像样本或深度图像样本，x_k表示与x_i属于不同室内场景类别的一个彩色图像样本或深度图像样本，x_j表示与x_i属于同一室内场景类别的另一个彩色图像样本或深度图像样本，I表示单位矩阵，γ₀和γ_t表示优化项的权重系数，ξ_i,j,k表示松弛变量；T表示完成同一室内场景识别的任务的数量，本实施例中有彩色图像和深度图像两种图像，完成同一室内场景识别的任务包括使用彩色图像特征完成室内场景识别的任务和使用对应深度图像特征完成室内场景识别的任务，所以T＝2。该优化函数是一个凸函数，利用标准的次梯度下降法优化即可得到M₀和M_t。F表示斐波那契范数。

(3)上一步优化得到公共度量矩阵M₀；完成同一室内场景识别的任务私有的度量矩阵M_t，其中当t＝1时，M₁表示使用彩色图像特征完成室内场景识别的任务私有的度量矩阵，当t＝2时，M₂表示使用对应深度图像特征完成室内场景识别的任务私有的度量矩阵。将M₀与M_t相加，得到多任务度量学习中的彩色图像或深度图像的度量矩阵M，M为线性变换矩阵，其中多任务度量学习中的彩色图像的度量矩阵为M₍₁₎＝M₀+M₁，多任务度量学习中的深度图像的度量矩阵为M₍₂₎＝M₀+M₂。

步骤5，将特征空间中度量矩阵M分解为M＝L^ΤL，L即为需要的特征映射矩阵,L^T为L的转置矩阵。其中，通过计算彩色图像的特征映射矩阵L₁，通过计算深度图像的特征映射矩阵L₂。通过u＝Lu_ori将彩色图像特征和对应深度图像特征同时通过特征映射矩阵映射到修正特征空间中，并得到修正彩色图像特征和修正深度图像特征。

三、多核室内场景分类器学习

步骤6，将步骤5中映射到修正特征空间中的修正彩色图像特征和修正深度图像特征一一对应，然后将每个室内场景的修正彩色图像特征和修正深度图像特征的两种特征向量直接拼接为一个特征向量，作为该室内场景的修正RGB-D图像特征，修正RGB-D图像特征的维数是修正彩色图像特征和修正深度图像特征的两倍。

步骤7，构建一个核函数，将所有室内场景的修正RGB-D图像特征输入核函数，形成多核学习的最终核。核函数的定义为：

步骤8，将步骤7形成的最终核输入线性分类器进行学习，学习出多核室内场景分类器。多核室内场景分类器模型表达式为：

其中，N表示修正RGB-D图像特征的数量，K是最终核函数，α_i，b是学习到的系数。

四、场景图像分类

步骤9，利用第一步中的方法提取待识别的室内RGB-D场景图像的待识别彩色图像特征和待识别对应深度图像特征；

步骤10，利用第二步中构建的特征映射矩阵将待识别彩色图像特征和待识别对应深度图像特征映射到修正特征空间中，并形成修正特征空间中的待识别修正RGB-D图像特征；

步骤11，利用第三步学习到的多核室内场景分类器对修正空间中的待识别修正RGB-D图像特征进行分类，完成室内场景图像识别。

本发明的效果可以通过以下仿真实验做进一步的说明：

1.仿真条件

本发明是在中央处理器为Intel(R)i5 2.80GHZ、内存32G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。

2.仿真内容

仿真1，本发明在NYUDv2(NYU Depth Dataset V2，纽约大学深度图

像数据库第二版)图像集上进行室内场景识别仿真实验。实验结果如表1：

表1.NYUDv2图像集上不同方法下室内场景识别的准确率

由表1可见，该数据库一共有十一种室内场景，在NYUDv2图像集上进行室内场景识别实验，本发明的平均准确率是十种方法中最高的。

仿真2，本发明在B3DO(Berkeley 3-D Object Dataset，伯克利3D目标数据库)图像集上进行室内场景识别仿真实验。实验结果如表2：

表2.B3DO图像集上不同方法下室内场景识别的准确率

由表2可见，该数据库一共有六种室内场景，在B3DO图像集上进行室内场景识别实验，本发明的平均准确率是十种方法中最高的。

综上所述，这是因为本发明有效地将彩色图像和深度图像同时映射到一个更有分辨力的修正空间中，克服了传统方法中，不能很好的结合两种模态信息的缺点；而且利用多核分类器，将不同的决策有效结合起来，更加充分地利用了两种模态的信息。由此获得高于其他九种方法的准确率，进一步验证了本发明的先进性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.基于多任务度量多核学习的室内RGB-D场景图像识别方法，其特征在于：该方法包括以下步骤：

所述彩色图像特征和对应深度图像特征均为全局特征；

2.根据权利要求1所述的基于多任务度量多核学习的室内RGB-D场景图像识别方法，其特征在于：所述步骤二的具体步骤为：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msub> <mi>M</mi> <mn>0</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>M</mi> <mi>T</mi> </msub> </mrow> </munder> <msub> <mi>&gamma;</mi> <mn>0</mn> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mn>0</mn> </msub> <mo>-</mo> <mi>I</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mo>&lsqb;</mo> <msub> <mi>&gamma;</mi> <mi>t</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>M</mi> <mi>t</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </munder> <msubsup> <mi>d</mi> <mi>t</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </munder> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>&rsqb;</mo> </mrow> 1

且

<mrow> <msubsup> <mi>d</mi> <mi>t</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>d</mi> <mi>t</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow>

ξ_i,j,k≥0

M₀，M₁，...，M_T≥0

3.根据权利要求2所述的基于多任务度量多核学习的室内RGB-D场景图像识别方法，其特征在于：所述步骤三的具体步骤为：

<mrow> <mi>K</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>E</mi> </munderover> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <msub> <mi>K</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>E</mi> </munderover> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow>

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> </mrow>

其中，N表示修正RGB-D图像特征的数量，K表示最终核函数，α_i、b表示学习得到的系数。