CN105550687A

CN105550687A - 一种基于isa模型的rgb-d图像的多通道融合特征提取方法

Info

Publication number: CN105550687A
Application number: CN201510873318.5A
Authority: CN
Inventors: 杨淑媛; 张金剑; 龙贺兆; 焦李成; 刘红英; 马文萍; 熊涛; 刘芳; 侯彪; 刘志; 刘林瓒
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-05-04

Abstract

本发明公开了一种RGB-D图像多通道融合特征提取方法。其步骤为：(1)使用Kinect获取数据，将用于训练的RGB-D图像分为彩色可见光，彩色深度，灰度深度三个通道。(2)分别对每个通道内图像数据进行分块，零均值化和白化操作。(3)对每个通道数据依次训练第一层和第二层独立子空间ISA网络。(4)利用RGB-D图像的三通道特征构造融合空间。(5)利用训练好的ISA网络提取三个通道的特征(6)利用构造好的融合空间得到RGB-D图像的多通道融合特征。本发明可以用于互联网和安防等行业中对人体姿态，动作和行为的识别。

Description

一种基于ISA模型的RGB-D图像的多通道融合特征提取方法

技术领域:

本发明涉及图像处理领域，尤其涉及一种对RGB-D图像进行特征提取的方法，可广泛用于互联网和安防等领域。

背景技术:

在计算机视觉和机器学习领域，近几年不断涌现出了许多新进展。从神经科学出发，对图像进行多层次特征抽取，进行线性或非线性转换，并建立区域层次结构对特征进行提取。在机器人自主导航领域，使用多种传感器后进行多特征融合已经是该领域的研究热点问题并且取得了良好的效果。

本发明利用深度学习理论提取RGB-D图像的多层次特征。深度学习理论的动机在于模拟人脑解释如图像、声音和文本等数据。随着深度学习理论的逐渐成熟，基于深度学习的语音和图像识别在识别精度和效率上有了很大突破。

常用于针对RGB图像的特征提取方法有分梯度SIFT(尺度不变特征转换)、PCA-SIFT(主成分分析-尺度不变特征转换)和GLOH等。针对深度图像的特征提取算法则并不多见，实际中的算法多使用彩色图像。独立子空间分析ISA是在独立分量分析ICA基础上建立起来的，比ICA更能反映出数据的本质特征，所提取的特征具有更好的不变性，并且模型训练速度更快。

发明内容:

本发明的目的是提出一种新的基于RGB-D图像的多通道融合特征提取方法，充分挖掘彩色和深度信息。应用深度学习理论，对异质图像进行特征学习，并运用有效融合手段，设计出基于RGB-D图像的特征提取方法，对RGB-D图像进行有效描述。

为了实现上述目的，本发明首先使用Kinect获取RGB-D图像，通过图像增强技术，得到彩色可见光图，彩色深度图与灰度深度图作为三通道图像。分别进行分块和预处理，采用两层堆栈ISA模型实现多层次特征提取。最后再使用度量学习构造融合空间，对三通道特征进行融合，从而得到RGB-D图像的特征描述子。本发明的具体步骤描述如下。

(1)输入所有RGB-D图像(用于训练的数据和用于特征提取的数据)，彩色图和深度图均设置为320*240,30fbps。其中彩色图直接使用，将深度图的深度值转为彩色深度图和灰度深度图并用RGB模型表示，得到三通道图像。

(2)对所有数据都分块，分块可以根据实际情况选择时间和空间维度是否重叠。

(3)对所有数据零均值化和白化，得到处理好的用于训练和用于提取特征的三通道数据。

(4)分别对三通道用于训练的数据随机选取，训练堆叠ISA网络。先训练第一层，之后固定第一层，输入相同的数据，得到输出后零均值化和白化，输入第二层网络进行训练。得到该通道训练好的堆叠ISA网络。共进行3次，对每一通道专门训练各自的网络。

(5)使用度量学习方法构造转换矩阵。输入用于训练的数据，使用训练好的三通道堆叠ISA网络，将其输出作为样本，对于相同RGB-D视频的三通道高层特征作为相似样本，对于不同RGB-D视频的特征作为非相似样本，使用凸优化全局度量学习算法构造融合空间，训练转换矩阵M。在融合空间内将三通道特征合并。

(6)进行特征提取。对于用于特征提取的视频，进过(1)到(3)的处理，得到三通道数据，使用(4)中训练好的网络，得到三通道特征，使用(5)中得到的矩阵，得到融合特征。

本发明与现有方法相比，具有以下优点：

由于本发明使用特征学习方法，因此可以根据三种不同图像的不同特点进行特征提取。

由于本发明使用了特征融合方法，使得最终提取出来的特征包含了三个通道两种模式下的图像信息。

由于本发明使用了深度学习方法，可以使用海量无标签互联网数据训练网络，并且对数据进行多层转换，使特征提取更为有效。

附图说明:

图1是本发明的流程图。

图2是具体的分块示意图。

图3是两层ISA算法训练框图。

图4是ISA算法特征提取框图。

图5是度量学习算法框图。

具体实施方式:

步骤1：将获取的RGB-D图像增强为彩色可见光图，彩色深度图和灰度深度图。

1a)获取彩色和深度数据：

从3D体感摄影机Kinect直接获取的是彩色和深度图，也就是RGB-D图像，其中深度数据流设置为图像分辨率320*240，30fps。设置最小探测范围常量和最大探测范围常量，分别为900和4095，Kinect直接传来每个像素的深度值是视场中物体离摄像机的距离。深度数据流中深度帧的每个像素占16位、2个字节，每个像素的深度值占用了该16位中的13位。每个像素的深度值存储在第3至15位中，需要将人物索引位移除，得到深度数据，即：I_Depth＝F_Depth＞＞3，其中F_Depth表示传回的深度数据，I_Depth表示深度帧中每个像素的深度值；

1b)获取灰度深度图I_gdepth：

将彩色影像的格式转化为BGR32类型，其中BGR32类型的每个像素占32位，R、G、B分别占8位，剩余8位留用。分别对深度帧的R、G、B三个通道的每个像素的深度值进行转换：

I_Grey＝(I_Depth/4095)×255，

其中I_Grey表示灰度深度图I_gdepth单个通道的每个像素的灰度值；

1c)获取彩色深度图I_cdepth。先将深度数据值I_Grey转换为色调和饱和度HSI模型，之后转换为RGB模式显示深度数据。任何不在范围内的都设置为白色。

将深度值除以深度探测最大值4095，然后乘以255，赋值给H。即H＝(I_Depth/4095)×255。之后将HSI模型转为RGB模型，设S、I分量的值在[0,1]内，R、G、B分量的值也在[0,1]内，则由HSI模型向RGB模型的转换公式如下：

(1)当0°≤H＜120°时，

B＝I(1-S)

G＝3I-(B+R)

(2)当120°≤H＜240°时，

R＝I(1-S)

B＝3I-(R+G)

(3)当240°≤H＜360°时，

R＝3I-(B+R)

G＝I(1-S)

1d)获取彩色可见光图像I_color，设置为与深度图相同的320*240，30fps。

步骤2：对视频进行分块。

2a)对视频进行分块时总体上分为时间维度和空间维度。参见图2，其中时间维度为一维，空间维度为2维，将视频分成16×16×10的小块。对于视频每一帧长宽在分块后有剩余的情况，则将剩余部分舍弃；

2b)分块可以根据实际情况选择在时间和空间上是否重叠，重叠越多，精度越高，但是训练和测试时间就越长；

可以选择：

1、时间维度和空间维度都不重叠，如图2(a)；

2、空间维度重叠而时间维度不重叠，如图2(b)；

3、时间维度重叠，而空间维度不重叠，如图2(c)；

4、时间维度和空间维度均重叠，如图2(d)。

2c)分别对彩色可见光图I_color，彩色深度图I_cdepth，灰度深度图I_gdepth进行取块，并将每一个图像块拉成列向量x∈R²⁵⁶⁰，依次存放在矩阵中，其中v表示取块的数目，v＝30000～60000。

步骤3：对视频数据预处理。

3a)求矩阵的去均值矩阵X：

X = \tilde{X} - \hat{X},

其中表示矩阵的列均值矩阵，X表示矩阵的去均值矩阵，每一列的值为矩阵对应列的均值；

3b)采用PCA白化算法求得矩阵X的白化矩阵

步骤4：利用训练堆叠ISA网络。

4a)从中分离出彩色可见光图训练集X_color，彩色深度图训练集X_cdepth，灰度深度图训练集X_gdepth，并对每一训练集分别进行4b)到4e)的操作，训练相应的ISA网络权值W；

4b)利用训练集训练第一层ISA网络的权值W，W通过解决以下优化问题得到：

\{\begin{matrix} \min Σ_{t = 1}^{T} Σ_{i = 1}^{m} \sqrt{Σ_{q = 1}^{k} V_{i q} {(Σ_{j = 1}^{2560} W_{q j} x_{j}^{t})}^{2}} \\ s . t . {WW}^{T} = I \end{matrix}

其中，表示相应训练集第j的行，第t列的值，W_qj表示ISA网络权值矩阵W∈R^k×2560第q行，第j列的值，k表示ISA网络简单单元的数量，V_iq表示ISA网络矩阵V∈R^m×k第i行，第q列的值，m是ISA网络复杂单元的数量，T表示训练集的列数，I表示单位矩阵。优化问题通过梯度下降算法求解。

4c)将相应训练集输入ISA网络，得到ISA网络的第一层输出值Y_ISA1，并重复步骤3进行零均值和白化操作；

4d)拼接k个块的输出Y_ISA1组成第二层的输入向量，x_ISA2＝[y_ISA1；y_ISA2...y_ISAk]，其中k＝3～5，根据视频长度而定；

4e)重复步骤4b)，利用x_ISA2，训练第二层ISA网络权值矩阵W₂；

步骤5：训练度量学习算法。

5a)构造相似标签集合S：

本发明将RGB-D视频的可见光图，彩色深度图，灰度深度图的第二层输出Y_ISA2定义为同一类。对于n个RGB-D视频来讲，每个RGB-D视频分为三个通道：可见光图，彩色深度图和灰度深度图。通过三个ISA网络得到3n个特征，对属于同一个RGB-D视频的三通道特征定义成相似特征，对每个RGB-D视频来说有2个，由此构造相似特征标签矩阵S，S＝{(x_i,x_j)|x_i和x_j属于同一类}；

5b)构造非相似标签集合D：

本发明将不同RGB-D视频的所有通道特征都定义成不同类别。对于n个RGB-D视频间的特征都是不相似的，对于一个特征来说有3(n-1)个，由此来构造不相似特征标签矩阵D，D＝{(x_i,x_j)|x_i和x_j不属于同一类}；

5c)构造样本集合C：

对于所有RGB-D视频的所有特征，共有3n个，全部视为样本空间C＝{x₁,x₂,....,x_n}，其中n是样本的个数，包括彩色可见光图像特征x_icolor，彩色深度图特征x_icdepth，灰度深度图特征x_igdepth；

5d)训练度量学习算法。

对于度量矩阵A∈R^m×n，两个样本点x和y的距离平方表示为：

d_{A}^{2} (x, y) = | | x - y | |_{A}^{2} = {(x - y)}^{T} A (x - y),

根据S中的相似约束对和D中的非相似约束对，该方法将距离度量学习表示成如下的凸优化问题：

\begin{matrix} \max_{A &Element; R^{m \times n}} \underset{(x_{i}, x_{j}) &Element; D}{Σ} | | x_{i} - x_{j} | |_{A}^{2} \\ \begin{matrix} s . t . & A &GreaterEqual; 0, \underset{(x_{i}, x_{j}) &Element; D}{Σ} | | x_{i} - x_{j} | |_{A}^{2} \leq 1 \end{matrix} \end{matrix}

其中，A≥0表示A为半正定矩阵，是为了保证两点距离不为负和三角不等式成立。

令A＝M^TM，则x和y的距离平方为通过求解凸规划问题得到特征空间到度量空间的转换矩阵M。

步骤6：使用特征提取网络：

6a)将输入的图像序列I_RGB和I_Depth使用步骤1，得到三通道图像I_color，I_cdepth，I_gdepth；

6b)将三通道图像使用步骤2得到分块的数据X_color，X_cdepth，X_gdepth；

6c)对三通道使用步骤3预处理；

6d)对三通道数据X_color，X_cdepth，X_gdepth，分别输入步骤4训练好的网络，得到输出后，合并成矩阵X＝[Y_ISA2；Y_ISA2；Y_ISA2]；

6e)对矩阵X使用步骤5中得到的转换矩阵M，转换到融合空间Y_Meric＝XM；

6f)对于Y_Meric中单个的视频，彩色可见光图像特征为y_icolor，彩色深度图特征为y_icdepth，灰度深度图特征为y_igdepth，合并得到单个RGB-D视频特征y_RGBDi＝[y_color；y_cdepth；y_gdepth]，对Y_Meric中所有视频，得到特征矩阵Y＝[y_RGBD1,y_RGBD2...y_RGBDn]。

Claims

1.一种基于ISA模型的RGB-D图像的多通道融合特征提取方法，包含以下步骤：

(1)将获取的RGB-D图像增强为彩色图I_color，彩色深度图I_cdepth和灰度深度图I_gdepth三通道图像；

(2)依次对彩色图I_color，彩色深度图I_cdepth和灰度深度图I_gdepth从时间和空间维度进行分块，分块根据实际情况选择：时间和空间均重叠，时间重叠空间不重叠，时间不重叠空间重叠或时间和空间均不重叠。将数据块转为列向量x∈R^s，依次存放在矩阵中，其中s表示列向量的长度，v表示取块的数目，v＝30000～60000；

(3)求矩阵的去均值矩阵X，并采用白化算法求得矩阵X的白化矩阵

(4)依次从中分离出彩色可见光图训练集X_color，彩色深度图训练集X_cdepth，灰度深度图训练集X_gdepth，并训练三通道堆叠ISA网络；

(5)利用训练好的三通道堆叠ISA网络抽取彩色图I_color，彩色深度图I_cdepth和灰度深度图I_gdepth三通道图像的特征并征构造融合空间。

2.根据权利要求1所述的RGB-D图像多通道融合特征提取方法，其中步骤(1)所述的将获取的RGB-D图像增强为彩色图I_color，彩色深度图I_cdepth和灰度深度图I_gdepth三通道图像，按如下步骤进行：