CN106056141A

CN106056141A - 一种使用空间稀疏编码的目标识别与角度粗估计算法

Info

Publication number: CN106056141A
Application number: CN201610363559.XA
Authority: CN
Inventors: 卞红雨; 陈奕名; 金月; 柳旭
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-10-26
Anticipated expiration: 2036-05-27
Also published as: CN106056141B

Abstract

本发明提供一种使用空间稀疏编码的目标识别与角度粗估计算法，首先取不同目标的等间隔角度(15°)的图像作为训练集，获取并根据标准差筛选每个图像的空间碎片；继而对每幅独立的图像中的碎片，进行白化与PCA相结合的预处理；然后利用空间碎片分开训练每个目标的字典(子字典)；去除每个子字典中无用的基之后，将子字典整体合并成一个大字典，使用此大字典重获训练集图像碎片的稀疏编码系数，并统计每幅图像内的碎片使用大字典中各个基的次数，以此作为各幅训练图像的特征向量；最后通过计算测试目标图像在大字典中的基的使用次数向量(特征向量)与训练集中各幅图像的特征向量的相关系数，实现目标分类与角度粗估计。

Description

一种使用空间稀疏编码的目标识别与角度粗估计算法

技术领域

本发明涉及一种数字图像处理技术，尤其涉及一种使用空间稀疏编码的目标识别与角度粗估计算法。

背景技术

人眼在对物体进行识别分类的时候存在几种参量：颜色，形状，位置，姿态，光照条件，观测点，干扰或者噪声分布等。大数据背景下，如何有效的抽象出这些参量已然成为目标识别分类的首要问题，稀疏表达是当前应对这个问题较为有效的方法。

针对计算机视觉应用领域，传统方法有DCT,小波等，以上方法旨在利用大量图像训练出一个过完备字典进而对目标图像进行稀疏编码。其得到的字典是预先设定好的，而手动设定一个好的字典非常困难，此外其复杂度和几何特性在表征不同信号时变化很大，考虑自适应得到字典的方法，PCA就是其中一个代表。PCA方法通过学习的方式，计算正交的主方向，通过将原始信号表示在以主方向为基准的空间上使问题得到简化。但是PCA对字典中的“基”要求较为苛刻，须其严格正交，限制了解决问题的灵活性，稀疏表达由此而来，稀疏编码将原始信号表达为字典元素的一个线性组合。

针对目标识别及分类问题多使用正交基，或者之间相关性很小的特征，其目的是尽可能的减小整个算法系统的冗余性，因此分类器也多集中于SVM或者浅层神经网络。多伦多大学教授通过研究深度学习网络，伴随着硬件处理器性能的飞跃，使得深度学习网络能够突飞猛进，其中关键技术就是解决每层神经网络中的传递误差问题。后续学者发现如果使用完备的特征或者欠完备的特征来训练网络，其隐层数量会被限制在一个很小的范围内，同时准确率也无法达到要求，因此具有过完备基的稀疏编码被应用于深度学习的目标分类中。

如上所说，稀疏编码在目标识别与分类中多与神经网络联系在一起。两个近期文献实现了使用稀疏编码对目标进行分类与人体步态识别，都是与神经网络并行使用的，然而少有人只通过过完备基实现直接对目标进行分类。这样做的好处是，免去对深度神经网络的训练过程，节约大量的运算时间，但是相应的需要对稀疏编码本身进行较大改进；一种是针对过完备基的改进，由于基在客观上的过完备性，必将存在信息冗余，要使得其较好的区分独立物体，困难较大；还有一种是由编码系数着手，过完备基其系数在编码后会有较高的稀疏性，每种物体的系数稀疏性不同，所对应的稀疏表达也就不同，因此通过辨别系数的稀疏分布可以达到分类的目的。

发明内容

本发明的目的是为了提供一种使用空间稀疏编码的目标识别与角度粗估计算法，将系数编码应用于提取目标独有的具有稀疏性的基，并使用这些独有的基构成的字典来稀疏表示目标图像，进而实现目标分类及角度粗估计。

本发明的目的是这样实现的：包括测试和训练两个阶段，具体其步骤是：

(1)训练阶段取不同目标的等间隔角度的图像作为训练集，并将训练集中的图像十字等分成四个象限；

(2)在每个象限中提取相同数量标准差最大的图像碎片：在每个区域中选择个标准差最大的n×n的图像碎片，每幅图像选取m个n×n大小的图像碎片；

(3)对训练集中每个目标的图像碎片分别进行白化与PCA相结合的预处理，得到图像碎片数据集的矩阵为每个图像碎片预处理后的数据向量；

(4)通过对预处理后的碎片稀疏表示训练出属于每个目标的子字典：

(5)去除子字典中未用到的基函数，更新子字典；

(6)将每个目标的子字典合并构成一个大字典；

(7)利用大字典对训练图像碎片进行稀疏编码，同时获取训练集图像的特征向量：利用得到的大字典对各训练图像碎片进行稀疏编码，求解大字典的系数；

(8)测试阶段首先重复步骤(1)到步骤(7)；

(9)计算测试图像和训练集中相应图像四个象限的相关系数：

对测试图像的特征向量与训练图像的特征向量做相关，一幅图像有对应四个象限的四个特征向量，分别将这四个特征向量与训练图像集中的每幅图像的四个特征向量根据公式一一对应做相关，得到相关系数，其中：X_i与Y_i分别表示两个待比较向量，表示向量X_i的均值，表示向量Y_i的均值；

(10)分别计算训练集中对应的每幅图像的相关系数均值，确定测试图像分类结果：取训练集每幅图像四个相关系数的均值，所有平均相关系数中的最大值对应的训练样本所属目标种类为测试图像分类结果；

(11)确定测试图像的角度估计范围：根据最大相关训练图像的已知角度，结合训练图像集的图像角度间隔Δang，将测试图像的角度估计为在最大相关训练图像对应角度的左右Δang范围中。

本发明还包括这样一些结构特征：

1.步骤(3)是依次进行PCA降维、白化、与PCA维数还原，免去对深度神经网络的训练过程：

一、采用PCA降维，保留数据的主变化方向，具体操作是对输入n²×m维实矩阵A的协方差矩阵A·A^T进行特征分解：

式中λ_i为协方差矩阵A·A^T的特征值，u₁是λ₁的特征向量，u₂是λ₂的特征向量，以此类推；

以惯常经验法则保留99％的方差，即令ω＝99选取满足以下条件的最小l值，

\frac{Σ_{j = 1}^{l} λ_{j}}{Σ_{j = 1}^{n^{2}} λ_{j}} &GreaterEqual; ω %

得到

二、将输入数据矩阵A线性投影到U_l上，得到降维后的数据A_low，A_low＝U_l ^TA。

然后提取n×n大小的像素碎片，一共有M个训练碎片，则训练图像中所有的碎片序列将被表示为n²×M维实矩阵A，通过对输入数据矩阵进行奇异值分解得到正交矩阵和并得到：

其中表示实数域，σ₁≥σ₂≥…≥σ_p≥0；

将数据A经过线性投影变换为U^TA后数据各维之间的协方差变为零，再计算得到各维数据的方差均为1的白化矩阵A′，A′＝diag(1/σ₁,…,1/σ_p)U^TA；

三、将数据还原回到初始的维度n，先使A_low′与矩阵U维数统一，将第n²-l+1行至n²行补零，结果记为矩阵A_w，由X＝U·A_w将数据映射回原坐标空间，得到最终白化与PCA相结合的预处理后的矩阵X：

式中：为每个图像碎片预处理后的数据向量，表示实数域。

2.步骤(4)具体是：

已知目标函数J：

式中：m为每种目标训练集中所有图像提取的碎片数，x_i为第i个图象碎片预处理后数据向量，k为字典所包含的basis的个数，a_i,j为当表示第i个图像碎片时字典中第j个基的系数，为字典中第j个基，第一项为m个图像碎片的重建误差，表征编码描述图像的效果，第二项为系数的稀疏惩罚项；采用梯度下降法使目标函数J的最小化，每个图像碎片可通过完备的基与系数线性稀疏表示，在训练字典的过程中，使用梯度下降法对系数和基函数轮流更新，从而得到编码字典

3.步骤(5)包括：首先为每一个图像碎片的编码系数α_i,j以α为比例设置元素阈值α·a_imax，a_imax表示第i个图像碎片中稀疏编码后最大的系数根据式对稀疏编码系数进行软稀疏，将数值较小的系数置零，相当于将稀疏表示时作用很小的成分去除，最后基于软稀疏后的系数检查字典中基的使用情况，去除那些系数为零的基，更新子字典。

与现有技术相比，本发明的有益效果是：本发明提供了一种使用空间稀疏编码的目标识别与角度粗估计算法，增加图像碎片的空间选取方式，并使用PCA与白化相结合的预处理算法增加识别准确率。最终利用系数的稀疏性，使用大字典的系数分布来实现分类与角度粗估计。传统方法以神经网络与稀疏编码相结合的方式实现目标分类，本发明直接使用稀疏编码对目标进行分类，跳过深度神经网络部分，免去了对深度神经网络的训练过程，节约了大量的运算时间。此外本算法实现了目标不同角度的粗略估计，这在以往的研究中极少出现。

附图说明

图1为本发明的算法流程图；

图2为本发明的空间碎片提取图像；

图3为本发明的输入灰度图像；

图4为本发明的灰度图像全部碎片；

图5为本发明的提取灰度图像部分碎片；

图6为本发明的图像碎片预处理结果；

图7为本发明的子字典系数；

图8为本发明的更新子字典系数；

图9为本发明的大字典生成过程；

图10为本发明的大字典生成结果；

图11为本发明的实验结果表。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

本发明旨在以稀疏编码的方式来对目标进行特征学习，进而对目标进行分类识别，同时对图像所对应的目标角度进行粗略的估计。算法首先取不同目标的等间隔角度(15°)的图像作为训练集，获取并根据标准差筛选每个图像的空间碎片；继而对每幅独立的图像中的碎片，进行白化与PCA相结合的预处理；然后利用空间碎片分开训练每个目标的字典(子字典)；去除每个子字典中无用的基之后，将子字典整体合并成一个大字典，使用此大字典重获训练集图像碎片的稀疏编码系数，并统计每幅图像内的碎片使用大字典中各个基的次数，以此作为各幅训练图像的特征向量；最后通过计算测试目标图像在大字典中的基的使用次数向量(特征向量)与训练集中各幅图像的特征向量的相关系数，实现目标分类与角度粗估计。

结合图1，本发明包括分为测试和训练两个阶段，具体步骤如下：

(1)训练阶段将训练集中的图像十字等分成四个区域(象限)

首先取不同目标的等间隔角度(15°)的图像作为训练集，将训练集中的图像分别十字等分成四个区域(象限)。

(2)在每个象限中提取相同数量标准差最大的图像碎片

在每个区域中选择个标准差最大的n×n的图像碎片,每幅图像选取m个n×n大小的图像碎片。其中空间碎片提取过程(图2所示)，输入灰度图像(图3所示)，灰度图像全部碎片(图4所示)，提取的灰度图像部分碎片(图5所示)。

(3)对训练集中每个目标的图像碎片分别进行白化与PCA相结合的预处理

首先采用PCA(principal components analysis)降维，保留数据的主变化方向，具体操作是对输入n²×m维实矩阵A的协方差矩阵A·A^T进行特征分解，

其中λ_i为协方差矩阵A·A^T的特征值，u₁是λ₁的特征向量，u₂是λ₂的特征向量，以此类推。

\frac{Σ_{j = 1}^{l} λ_{j}}{Σ_{j = 1}^{n^{2}} λ_{j}} &GreaterEqual; ω %

得到

再将输入数据矩阵A线性投影到U_l上，得到降维后的数据A_low，A_low＝U_l ^TA。

然后提取n×n大小的像素碎片，一共有M个训练碎片，则训练图像中所有的碎片序列将被表示为n²×M维实矩阵A。通过对输入数据矩阵进行奇异值分解得到正交矩阵和并得到:

其中表示实数域，σ₁≥σ₂≥…≥σ_p≥0。

将数据A经过线性投影变换为U^TA后数据各维之间的协方差变为零，即消除了各维数据之间的相关性。再计算得到各维数据的方差均为1的白化矩阵A′，A′＝diag(1/σ₁,…,1/σ_p)U^TA。

最后将数据还原回到初始的维度n，先使A_low′与矩阵U维数统一，将第n²-l+1行至n²行补零，结果记为矩阵A_w。由X＝U·A_w将数据映射回原坐标空间，得到最终白化与PCA相结合的预处理后的矩阵其中为每个图像碎片预处理后的数据向量。图像碎片预处理结果(图7所示)。

(4)通过对预处理后的碎片稀疏表示训练出属于每个目标的子字典

预处理后的图像碎片数据集为我们通过采用梯度下降法作为最优化算法求解目标函数的最小值，得到编码字典其中，m为每种目标训练集中所有图像提取的碎片数，x_i为第i个碎片预处理后数据向量，k为字典所包含的basis的个数，a_i,j为当表示第i个碎片时字典中第j个基的系数，为字典中第j个基。第一项为m个碎片的重建误差，表征编码描述图像的效果。第二项为系数的稀疏惩罚项。参考有关文献，选择作为本算法的稀疏惩罚函数，其中σ为系数的权重，λ为惩罚系数，是一个正的常数。可知当系数a_i,j越大时，稀疏惩罚函数值越大，目标函数的值越大。当系数值a_i,j为零时不会有惩罚，惩罚项的值为零。因此稀疏惩罚项约束了系数向量，使其中的非零元素及数值较大的元素尽可能的少。

当采用梯度下降法使目标函数：最小化后，每个图像碎片就可以通过完备的基与系数线性稀疏表示。在训练字典的过程中，使用梯度下降法对系数和基函数轮流更新。首先固定基函数，采用梯度下降法更新一次系数，再固定系数，更新一次基函数，使目标函数值逐渐向最小值逼近。每完成一次更新计算一次目标函数值J。梯度下降法需要调整步长使达到收敛的时间得以缩短。根据梯度下降法使用和分别以更新系数时步长speed与更新基函数时步长eta的速度更新系数a_i,j和基由于初始字典中基的个数人为设定，设置个数适当多一些用以保证字典的冗余性和超完备性。

(5)去除子字典中未用到的基函数更新子字典

在字典训练初步完成之后，我们同时得到了一系列系数向量，每个系数向量对应一个图像碎片。每个系数向量中总会有一些元素值与其他元素相比很小，也就意味着那些系数对应的基在表示这幅图像碎片时所起的作用很小，因此我们可以去掉这些成分而不会影响稀疏表示图像碎片时的重建效果。我们将其称为软系数阈值。具体操作首先为每一个图像碎片的编码系数α_i,j以α为比例设置元素阈值α·a_imax，a_imax表示第i个图像碎片中稀疏编码后最大的系数。相当于每次阈值都与当前图像碎片的编码稀疏的最大值相关，根据式：对稀疏编码系数进行软稀疏。将数值较小的系数置零，相当于将稀疏表示时作用很小的成分去除。最后基于软稀疏后的系数检查字典中基的使用情况，去除那些系数为零的基。更新前联合大字典系数(图7所示)，软稀疏更新后联合大字典系数(图8所示)。

(6)将每个目标的子字典合并构成一个大字典

在每个目标子字典训练完成之后，我们将所有目标的子字典合并为一个大字典。大字典合并过程(图9所示)，大字典合并结果(图10所示)。

(7)利用大字典对训练图像碎片进行稀疏编码，同时获取训练集图像的特征向量

利用得到的大字典对各训练图像碎片进行稀疏编码，求解大字典的系数，此时的大字典已经固定，只需采用梯度下降法求解系数，用于目标分类与角度粗估计(图9所示)，也即利用系数的稀疏性，使用大字典的系数分布来实现分类与角度粗估计。

(8)测试阶段首先重复步骤(1)到步骤(7)处理

(9)计算测试图像和训练集中相应图像四个象限的相关系数

对测试图像的特征向量与训练图像的特征向量做相关，一幅图像有对应四个象限的四个特征向量，分别将这四个特征向量与训练图像集中的每幅图像的四个特征向量根据公式一一对应地做相关，X_i与Y_i分别表示两个待比较向量，表示向量X_i的均值，表示向量Y_i的均值。

(10)分别计算训练集中对应的每幅图像的相关系数均值，确定测试图像分类结果

取训练集每幅图像四个相关系数的均值，所有平均相关系数中的最大值对应的训练样本所属目标种类为测试图像分类结果。

(11)确定测试图像的角度估计范围

由上一步得到最大相关训练图像，根据最大相关训练图像的已知角度，结合训练图像集的图像角度间隔Δang，将测试图像的角度估计为在最大相关训练图像对应角度的左右Δang范围中，即角度分辨率相当于Δang。本算法目标分类及角度粗估计结果(图11所示)。

Claims

1.一种使用空间稀疏编码的目标识别与角度粗估计算法，其特征在于：包括测试和训练两个阶段，具体其步骤是：

(5)去除子字典中未用到的基函数，更新子字典；

(6)将每个目标的子字典合并构成一个大字典；

(8)测试阶段首先重复步骤(1)到步骤(7)；

(9)计算测试图像和训练集中相应图像四个象限的相关系数：

2.根据权利要求1所述的一种使用空间稀疏编码的目标识别与角度粗估计算法，其特征在于：步骤(3)是依次进行PCA降维、白化、与PCA维数还原，免去对深度神经网络的训练过程：

\frac{Σ_{j = 1}^{l} λ_{j}}{Σ_{j = 1}^{n^{2}} λ_{j}} &GreaterEqual; ω %

得到

p＝min{n²,M}

其中表示实数域，σ₁≥σ₂≥…≥σ_p≥0；

将数据A经过线性投影变换为U^TA后数据各维之间的协方差变为零，再计算得到各维数据的方差均为1的白化矩阵A'，A'＝diag(1/σ₁,…,1/σ_p)U^TA；

三、将数据还原回到初始的维度n，先使A_low'与矩阵U维数统一，将第n²-l+1行至n²行补零，结果记为矩阵A_w，由X＝U·A_w将数据映射回原坐标空间，得到最终白化与PCA相结合的预处理后的矩阵X：

式中：为每个图像碎片预处理后的数据向量，表示实数域。

3.根据权利要求1或2所述的一种使用空间稀疏编码的目标识别与角度粗估计算法，其特征在于：步骤(4)具体是：

已知目标函数J：

4.根据权利要求1或2所述的一种使用空间稀疏编码的目标识别与角度粗估计算法，其特征在于：步骤(5)包括：首先为每一个图像碎片的编码系数α_i,j以α为比例设置元素阈值α·a_imax，a_imax表示第i个图像碎片中稀疏编码后最大的系数根据式对稀疏编码系数进行软稀疏，将数值较小的系数置零，相当于将稀疏表示时作用很小的成分去除，最后基于软稀疏后的系数检查字典中基的使用情况，去除那些系数为零的基，更新子字典。

5.根据权利要求3所述的一种使用空间稀疏编码的目标识别与角度粗估计算法，其特征在于：步骤(5)包括：首先为每一个图像碎片的编码系数α_i,j以α为比例设置元素阈值α·a_imax，a_imax表示第i个图像碎片中稀疏编码后最大的系数根据式对稀疏编码系数进行软稀疏，将数值较小的系数置零，相当于将稀疏表示时作用很小的成分去除，最后基于软稀疏后的系数检查字典中基的使用情况，去除那些系数为零的基，更新子字典。