CN108629371B

CN108629371B - 一种对二维时频数据的数据降维方法

Info

Publication number: CN108629371B
Application number: CN201810408401.9A
Authority: CN
Inventors: 于雪莲; 曲学超; 徐丽; 唐永昊; 赵林森
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2020-06-16
Anticipated expiration: 2038-05-02
Also published as: CN108629371A

Abstract

本发明公开了一种对二维时频数据的数据降维方法，应用于二维数据的降维和压缩。该方法主要流程：首先，对样本数据中心化；然后将中心化的数据映射到高维空间，并在高维空间使用核函数构建映射数据的协方差；最后利用双边二维主成分分析算法对协方差进行降维，得到特征投影变换矩阵。该算法不仅充分利用了原始数据中的非线性特征，而且所得特征投影矩阵系数量较少，这样既提高了识别率、数据压缩率，又减少了计算量。

Description

一种对二维时频数据的数据降维方法

技术领域

本发明涉及到二维数据的非线性特征的线性化，并提取线性化特征的主元，通过主元实现数据的降维与重构。主要应用于基于雷达时频分布、人脸特征等二维图像特征的目标识别与分类。

背景技术

主成分分析(Principal Component Analysis，PCA)把含有冗余信息的高维数据转化为少数低维数据即主成分，其中每个主成分包含原始数据几乎全部有效信息。这样将错综复杂的数据分析问题转化为只需研究少数主成分的问题，不仅能够更深入地分析问题，而且分析过程也变得很容易。其基本思想是在最小均方误差约束下寻找一个最能够代表原始数据主要特征的投影变换矩阵，在新的投影空间中不仅能降低原始数据的维数的而且还能保持其绝大部分信息。整个变换过程坚持两个原则：(1)最近重构性：使用降维后的数据，重新构建原始数据时误差之和最小；(2)最大可分性：数据在低维投影空间中尽量分开。事实上，可以证明这两原则是等价的。

PCA在处理二维时频数据时，需要将其转换为列向量，这样不仅破坏了时频数据的完整性，而且也会面临所求解高维列向量协方差矩阵不稳定、特征向量不精确等弊端。而二维主成分分析(Two-dimensional Principal Component Analysis，2DPCA)直接对二维数据进行降维识别，这样虽然很好地避免了将二维时频数据转换为一维向量所带来的诸多缺点。但是2DPCA对数据进行的是单边投影，仅考虑了右乘投影变换矩阵的情况，这样实际上仅仅利用了二维时频数据的行向量信息，而丢失了列向量信息。这样得到的投影变换矩阵维度(或系数量)比PCA的得到投影变换矩阵维度(或系数量)大很多。在基于该变换投影矩阵进行特征提取和分类时，计算量将会很大，耗时很长。双边二维主成分分析(BilateralTwo-dimensional Principal Component Analysis，B2DPCA)是H.Kong等人在2005年针对2DPCA在识别中存在的诸多缺点而提出的。该算法中的一些概念仍与PCA和2DPCA中的概念相同，而且变换过程中仍坚持最近重构性和最大可分性这两个原则。最大不同之处主要是构造了左投影矩阵和右投影矩阵，充分利用二维数据样本的行和列信息，并把样本投影到两个不同的空间，可以有效地消除数据行与列的冗余信息，降低了投影变换矩阵维度(或系数量)，更重要的是该方法充分地考虑了数据的行与列相关信息，也使得分类变得简单易行。但是，该方法还存在不能利用数据中蕴含的非线性特征，因此利用该方法获得的主元进行目标识别分类时，并未充分利用原始数据中含有的特征，若将数据中非线性特征线性化可以进一步提高识别率。而核主成分分析(Kernel Principal Component Analysis，KPCA)通过非线性函数将数据非线性映射到高维空间，使得低维非线性特征线性化，对高维空间线性化特征进行降维时充分利用了原始空间中的非线性特征。但是KPCA处理二维数据时，仍会遇到PCA处理二维数据时存在的问题。在对二维数据降维时，为了即保证不破坏二维数据的完整性，又充分利用到原始数据中蕴含的利于分类的非线性特征，本发明提出了核双边二维主成分分析(Kernel Two-dimensional Principal Component Analysis，KB2DPCA)算法，该算法即实现了对数据进行双边降维，降低投影矩阵系数量，又通过核函数将数据中非线性特征线性化，充分利用线性化后的特征进行分类，进一步提高了识别率。

发明内容

本发明针对双边二维主成分分析算法对二维数据降维时，不能利用数据中蕴含的非线性特征，识别率不能达到理想的情况。而核主成分分析对二维数据进行降维时虽然利用了原始数据中蕴含的非线性特征，但是要求将二维数据转化为列向量，会产生破坏数据完整性、高维向量协方差不精确等新问题。

本发明技术方案为：一种对二维时频数据的数据降维方法，该方法包括以下步骤：

步骤1：中心化二维时频数据观测样本矩阵A_i∈R^m×Rⁿ,其中i＝1,2,…,M，M是二维时频样本矩阵的个数：

式中，R^m×Rⁿ表示矩阵的大小，

表示观测样本矩阵A_i的第j列，其中j＝1,2,…,n；

步骤2：通过非线性映射函数φ，将观测样本矩阵

列向量非线性地射到高维空间F；得到

在高维空间的坐标为

A_i在高维空间的坐标为：

步骤3：在空间F中计算映射样本φ(A_i)的协方差矩阵

步骤4：通过核函数κ，计算步骤2中观测样本列向量在高维空间映射的内积：

式中，

分别是A_i的第s、t列；核函数κ的具体形式和参数，根据所处理的样本数据的特点来确定；

步骤5：根据步骤4，步骤3协方差矩阵

可用核函数κ来表示：

式中，由核函数构建的矩阵称之为核矩阵K_i：

步骤6：对步骤5中的核矩阵K_i进行双边降维，得到其变换投影矩阵B_i；

首先，根据最小重构误差求出最优左投影矩阵U_opt∈R^m×l及最优右投影矩阵V_opt∈R^n×r：

然后，再由最优投影矩阵求出K_i的变换投影矩阵B_i

得到A_i∈R^m×Rⁿ降维结果B_i∈R^l×r，实现了数据的压缩。

步骤2中通过非线性映射函数φ，将观测样本矩阵

列向量非线性地映射到高维空间

将

中包含的非线性特征线性化，在进行主元分析时，可以充分利用到这些特征，利于提高识别率、数据的压缩；

步骤4中通过核函数κ，计算出步骤2中观测样本列向量在高维空间映射的内积；这样不仅避开了确定映射函数φ具体形式的难题，而且避免了在高维空间直接求映射函数内积的难题；

步骤6中根据双边二维主成分分析算法，对步骤5中的核矩阵K_i进行双边降维，得到其变换投影矩阵B_i。B_i不仅包含了K_i的几乎全部有效信息，而且维数明显小于后者，因此使用本方法获得的变换投影矩阵B_i，比KPCA、B2DPCA获得的投影变换矩阵作为分类特征，不仅包含了更利于识别分类的信息，而且计算量更小，极大地降低了分类时长。

附图说明

图1本发明实施步骤流程图。

具体实施方式

以下使用本发明算法对雷达高分辨距离像的小波变换二维时频表示数据进行降维，获得其投影变换矩阵。以该实施例来详细说明本发明的实施方式，以便对如何应用本发明技术手段来解决技术问题有更加深刻的理解，以期达到良好地解决实际问题目的，并据以实施。本发明核双边二维主成分分析算法，本发明实施步骤流程如图1所示，各步骤具体按照以下方式实施：

步骤1：中心化每一幅距离像时频表示样本A_i∈R^m×Rⁿ(i＝1,2,…,M，M是时频样本矩阵的个数)：

本发明用到的高分辨距离像(HRRP)数据是由国内某研究所使用高分辨宽带雷达外场实测数据，包括“雅克-42”中型喷气飞机、“奖状”小型喷气机、“安-26”小型螺旋桨飞机等共三种目标的HRRP数据。每个目标的HRRP数据是一个780行256列的矩阵。其中，行数780代表有780幅距离像，列数256代表每幅距离像有256个距离单元。每一幅距离像的小波变换时频表示数据结构为A_i∈R²⁵⁶×R²⁵⁶。

步骤2：通过非线性映射函数φ，将时频表示观测样本矩阵

列向量非线性地射到高维空间F，得到

在高维空间的坐标为

步骤3：在空间F中计算映射样本φ(A_i)的协方差矩阵

步骤4：通过余弦核函数

计算步骤2中观测样本列向量

在高维空间映射的内积。其中核函数的参数σ取4。

步骤5：用核函数κ表示步骤3中协方差矩阵

步骤6：根据双边二维主成分分析算法，对步骤5中的核矩阵K_i进行双边降维，得到其变换投影矩阵B_i。先由式(0-7)求得最优投影矩阵，根据实测实验结果，本数据对应的左右投影矩阵所取主元数分别为5和8，即U_opt∈R^2565×，V_opt∈R^256×8。得到的变换投影矩阵B_i∈R^5×8。B_i不仅含有K_i中包含的几乎全部有效信息，而且与由单边二维主成分分析获得的变换投影矩阵R^256×8相比系数量由2048降为40，降低了大约50倍。与双边二维主成分分析算法相比，虽然系数量相同，但是本发明提出的算法从分利用了原始数据蕴含的非线性特征，因此识别率会更好。

由于直接将时频表示数据A_i∈R²⁵⁶×R²⁵⁶转化为列向量则所得列向量的维数高达65536维，这样该列向量的协方差及特征向量的精度很难得到保障，为了避开该问题，根据图像处理有关知识，在保证转化后的结果尽可能多地保持原始数据包含的有效识别特征时，使用均值为零的正态随机分布矩阵，将时频分析数据转换为504维列向量，再根据实验对比结果可知投影矩阵的主元取20时识别率较高，这样KPCA算得到的变换投影矩阵B_i∈R¹ ^×20。虽然该矩阵系数量比本发明提出的算法所得的特征投影矩阵系数量少20，但是前者得到的特征矩阵所含有效信息少于后者所得特征矩阵包含的有效信息。

由训练时频表示样本求得的左右最优投影矩阵，计算出测试样本的投影变换矩阵B_i′，再通过对比测试样本与观测样本的欧氏距离，使用最近邻分类器对测试样本分类。表1给出了基于KPCA、2DPCA、B2DPCA、KB2DPCA的识别率。数据为高分辨距离像的小波变换时频表示。表的第一行训测比是指观测样本数目与测试样本数目的比例。由表1可知本发明提出的KB2DPCA算法取得了最高的识别率。

表1