CN113762411A

CN113762411A - 自适应动态聚类最小二乘支持向量机的移动目标识别方法

Info

Publication number: CN113762411A
Application number: CN202111094489.XA
Authority: CN
Inventors: 李玉丽; 吴宗亮; 张涛; 张富麒; 李坤
Original assignee: Research Institute Of Yibin University Of Electronic Science And Technology; Yibin University
Current assignee: Research Institute Of Yibin University Of Electronic Science And Technology; Yibin University
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-07

Abstract

本发明公开了自适应动态聚类最小二乘支持向量机的移动目标识别方法，包括：首先利用目前最先进的自适应动态聚类方法对不同类别的训练样本集分别进行聚类，然后抽取每一个聚类的中心作为最小二乘支持向量机的新的训练样本，从而达到对训练样本稀疏化的目的。该方法对样本新的稀疏化方法中，并没有删减任何训练样本，对训练样本的稀疏化是通过自适应动态聚类来完成的，迭代次数少，计算量也小，所产生的积累误差也会变得很小，易于硬件实现。

Description

自适应动态聚类最小二乘支持向量机的移动目标识别方法

技术领域

本发明涉机器学习技术领域，更具体的涉及自适应动态聚类最小二乘支持向量机的移动目标识别方法。

背景技术

基于数据的机器学习是现代智能技术中十分重要的一个方面，主要研究如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律，利用这些规律去分析客观对象，对未来数据或无法观测的数据进行预测。现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物，因此基于数据的机器学习在从现代科学、技术到现代社会、经济等各领域中都有着十分重要的应用。当我们把要研究的规律抽象成分类关系时，基于数据的机器学习问题就是模式识别。

基于数据的统计是我们面对数据而又缺乏具体理论模型时最基本的(也是唯一的)分析手段，传统统计模式识别的方法都是在样本数目足够多的前提下进行研究的，所提出的各种方法只有在样本数趋向于无穷大时其性能才可以有理论上的保证。而在多数实际应用中，样本数目通常是有限的，这时很多方法都难以取得理想的效果。VladimirN.Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题(例如经验风险最小化方法和有序风险最小化方法等)，由于当时这些研究尚不十分完善，在解决模式识别问题中往往趋于保守，且数学理解上比较艰涩，而直到20世纪90年代以前并没有提出能够将其理论付诸实现的较好的方法，加之当时正处于其他学习方法飞速发展的时期，因此这些研究一直没有得到充分的重视。进入20世纪90年代后，有限样本情况下的机器学习理论才逐渐成熟起来，并形成了一个基于统计学习理论(Statistical Learning Theory，SLT)的较完善的理论体系。而同时，神经网络等新兴的机器学习方法则遇到了一些重要的困难，比如如何确定网络结构的问题、过学习与欠学习的问题、局部极小点的问题等。在这种情况下，试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。

进入21世纪后，在统计学习理论的基础上众多科研人员发展出了一种新的模式识别方法——支持向量机(Support Vector Machine，SVM)，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。虽然统计学习理论和支持向量机方法中尚有很多问题需要进一步研究，但国内外很多学者认为，它们正在成为继模式识别和神经网络研究之后机器学习领域的研究热点，并将推动机器学习理论和技术有重大发展。

随着统计学习理论的深入发展，在机器学习领域提出了很多新的基于支持向量机的模型。其中，最受广大学者青睐的模型就是Suykens等人提出的最小二乘支持向量机(Least Squares Support Vector Machine，LS-SVM)，其核心思想就是用等式约束替换标准支持向量机中的不等式约束，由于此时采用了等式约束，所以原来需要求解一个二次归划的问题就转换成了求解一个线性方程组的问题，这样，求解的难度大大降低。由于最小二乘支持向量机的简单性和有效性，在很短的时间里已广泛应用于很多领域。

LS-SVM虽然优点很多，但是其本身所固有的缺陷也很突出，这种缺陷在很多时候往往限制了LS-SVM的推广性能。对于最小二乘支持向量机的这种固有缺陷，目前世界上也没有很好的解决办法。

发明内容

本发明实施例提供自适应动态聚类最小二乘支持向量机的移动目标识别方法，包括：

获取移动目标的一维距离像样本集合；

以样本之间的二阶Renyi熵和二阶Renyi熵聚类精度β作为聚类的参数，采用不同的聚类方法对不同类别移动目标的的训练样本集合进行自适应动态聚类处理；

将二阶Renyi熵较小的若干个样本聚成一类，通过聚类，将样本集合划分成若干个小的子集，利用事先设定的β值，将样本集合中二阶Renyi熵小于β的若干个样本聚成一类，获得新的聚类；

抽取每个新的聚类的类中心向量，作为最小二乘支持向量机的新的训练样本集合；

利用新的训练样本集合对最小二乘支持向量机进行训练；

利用最小二乘支持向量机对移动目标进行分类识别。

进一步，获取不同类别移动目标的一维距离像样本集合包括：

采集逆合成孔径雷达对飞行中的三种飞机目标安-26、奖状和雅克-42所成的一维距离像；

合成孔径雷达交替发射窄带和宽带两种波形，宽带信号的带宽为400MHz，采样点数为256；

录取7段数据，每段数据含有26000个宽带和窄带信号；

宽带信号为全去斜后的正交双通道信号，每段数据含有260个正交双通道信号，即每段数据含有260幅一维距离像；

三种飞机各取一段的130幅一维距离像作为训练样本，另外130幅一维距离像为测试样本。

进一步，还包括对不同移动目标的一维距离像预处理：

将每一幅距离像用其总能量归一化；

利用Fourier变换的平移不变性，将一维距离像作Fourier变换对齐；

根据实数Fourier变换的共轭对称性，选取一维距离像Fourier变换的一半作为输入向量。

进一步，不同的聚类方法包括：基于自适应自组织映射分析的动态聚类方法，分级动态聚类方法，基于迭代自组织数据分析技术的动态聚类方法。

进一步，采用基于迭代自组织数据分析技术的动态聚类方法对不同类别的训练样本集分别进行自适应动态聚类处理步骤包括：

从样本集合X中随机选取一个样本，并把该样本定义为x_r其中1≤r≤N，然后，把样本集合X中的其它每个样本分别和x_r相结合，从而构成若干个新的子集，即：Ω_i＝{x_i,x_r}(1≤i≤N且i≠r)；

计算每个子集Ω_i的二阶Renyi熵，并把其最小值H_R2min找出来；如果H_R2min小于事先设定的聚类熵精度β，将H_R2min所对应的样本子集Ω_r作为未完成聚类的集合；如果H_R2min大于或等于β，那么样本x_r为一个独立的已经完成的新的聚类；

将样本集合X中不属于未完成聚类的集合Ω_r中的每个样本分别，加入到Ω_r中，从而又构成若干个新的子集；

计算出每个子集的二阶Renyi熵，计算出最小值H_R2min；如果H_R2min小于事先设定的聚类熵精度β，找出H_R2min所对应的子集，该子集是在原来Ω_r的基础上扩充了一个样本得到的，如果H_R2min大于或等于β，那么原来未扩充的Ω_r就是一个独立的已经完成的新的聚类；

重复操作，直到由未完成聚类的集合Ω_r所构成的若干个新子集的H_R2min大于或等于事先设定的聚类熵精度β后退出循环、并将Ω_r作为一个新的聚类保存起来；

将训练样本集合X属于已经完成的新的聚类Ω_r中的样本全部去掉，对样本集合X进行缩减；

重复操作，直到样本集合X中的样本数目为零为止；

抽取每个聚类的类中心向量即

其中，1≤i≤M，

为聚类Ω_i的类中心向量，作为最小二乘支持向量机某一类别的新的训练样本，类中心向量

用聚类Ω_i中的样本的算术平均值来进行计算。

进一步，最小二乘支持向量机的核函数包括高斯核函数，且选用交叉验证算法估计所述高斯核函数的核函数参数σ²和惩罚因子r。

本发明实施例提供自适应动态聚类最小二乘支持向量机的移动目标识别方法，与现有技术相比，其有益效果如下：

首先利用目前最先进的自适应动态聚类方法对不同类别的训练样本集分别进行聚类，然后抽取每一个聚类的中心作为最小二乘支持向量机的新的训练样本，从而达到对训练样本稀疏化的目的。在本发明所提出的新的稀疏化方法中，并没有删减任何训练样本，对训练样本的稀疏化是通过自适应动态聚类来完成的。

在最小二乘支持向量机中，求解核相关矩阵的逆的问题是通过迭代式增量法进行求解的。但是如果不同类别的训练样本集的训练样本数目过多，那么就算采用迭代式增量法，由于迭代次数过多，计算量也非常大，同时因为迭代次数过多，所产生的积累误差也会变得很大，从而引起识别率的下降。本发明所提出的基于自适应动态聚类最小二乘支持向量机的目标识别技术，由于对不同类别的训练样本集进行了合理地稀疏化，因此很好地克服了上述缺陷，使得最小二乘支持向量机真正走向了实用化。

本发明所提出的方法具有自适应性，因此推广能力好，该方法不但可以应用于飞机等移动目标的识别之中，也可以应用到人脸表情识别以及车牌号识别和智能语音识别等领域中去。同时，本发明所提出的方法很好地解决了核相关矩阵的求逆问题，因此该方法在现实中可操作性好，便于硬件实现。

附图说明

图1为本发明实施例提供的自适应动态聚类最小二乘支持向量机的移动目标识别方法中机器学习过程；

图2为本发明实施例提供的自适应动态聚类最小二乘支持向量机的移动目标识别方法中分类器识别过程；

图3为本发明实施例提供的自适应动态聚类最小二乘支持向量机的移动目标识别方法中最优分类面示意图；

图4为本发明实施例提供的自适应动态聚类最小二乘支持向量机的移动目标识别方法中三种飞机的平面航迹：图(a)表示安-26平面航迹，图(b)表示奖状平面航迹，图(c)表示雅克-42平面航迹；

图5为本发明实施例提供的自适应动态聚类最小二乘支持向量机的移动目标识别方法中三种飞机各一段的前100幅距离像：图(a)表示安-26一段的前100幅距离像，图(b)表示奖状一段的前100幅距离像，图(c)表示雅克-42一段的前100幅距离像。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1～5，本发明实施例提供自适应动态聚类最小二乘支持向量机的移动目标识别方法，该方法包括：

取移动目标的一维距离像样本集合；

其中，将二阶Renyi熵较小的若干个样本聚成一类，通过聚类，将样本集合划分成若干个小的子集，利用事先设定的β值，将样本集合中二阶Renyi熵小于β的若干个样本聚成一类，获得新的聚类；

利用新的训练样本集合对最小二乘支持向量机进行训练；

利用最小二乘支持向量机对移动目标进行分类识别。

一、技术原理

1、最小二乘支持向量机

构建最小二乘支持向量机的主要目的就是求解如图3所示的最优分类面，从而使分类器的结构化风险最小。

设有训练样本集(x_i,y_i)，其中i＝1,2,…,l，x∈R^d，y∈{+1,-1}是训练样本的类别标号。现在通过一个非线性映射Φ，将训练样本x从原始输入空间映射到一个高维特征空间F中，即Φ:R^d→F,x→Φ(x)。此时，输入的训练样本由原来的x转变为Φ(x)，d维空间中的样本集{x_i}_1≤i≤l，由非线性映射到高维特征空间F后，得到高维样本集{Φ(x_i)}_1≤i≤l。最小二乘支持向量机模型的目标就是构造一个如下形式的分类器：

g(x)＝sgn(w^TΦ(x)+b) (1)

使得样本x能被函数g(x)正确分类，其中sgn()是符号函数。利用LS-SVM算法在高维特征空间F中寻找最优分类超平面就是求解下面的优化问题：

并且满足等式约束：

y_i[w^TΦ(x_i)+b]＝1-ξ_i (3)

其中ξ_i∈R是分类误差，r＞0为惩罚系数，它实际上起控制对错分样本惩罚的程度的作用，如果训练数据中含有较大的噪声，应该选择较小的r。从统计学习理论的角度来说，式(2)的第一项可以看作是置信范围，它影响着学习机器的复杂程度；而第二项则可以认为是经验风险，它影响着学习机器的学习精度。

为了求目标函数J(式(2))的最小值，现在构造Lagrange函数L如下：

其中α_i是Lagrange乘子系数，也称为支持值，因为是等式约束，所以其值可正可负。为了求Lagrange函数L的最小值，现将函数L分别对变量w、b、ξ_i和α_i求偏导，并且令偏导数等于0，可以得到如下优化条件：

其中i＝1,2,…,l，令函数k是满足Mercer条件的内积核函数，即：

k(x_i,x_j)＝(Φ(x_i)·Φ(x_j))＝Φ(x_i)^TΦ(x_j)，1≤i,j≤l (9)

把式(5)和(7)代入式(8)消掉w和ξ_i，并考虑式(9)可得：

由于i＝1,2,…,l，所以可以把式(10)拓展成由l个方程构成的线性方程组，式(10)只是该线性方程组中的第i个方程而已。把Lagrange乘子向量α以及参数b看成待求变量，那么就可以把式(6)和(10)写成如下矩阵形式：

其中Y＝[y₁,y₂,…,y_l]^T，α＝[α₁,α₂,…,α_l]^T，

在这里重点交代一下矩阵A的组成：

其中I是l阶单位矩阵，Ω＝(y_iy_jk(x_i,x_j))，1≤i,j≤l，为了方便文中描述，不妨把矩阵A称为核相关矩阵。求解方程组(11)可以得到：

一般来说，Ω是一个半正定实对称矩阵，其逆很有可能不存在，但是如果给其对角线每个元素都加上一个干扰项

那么所得到的核相关矩阵A的逆一般情况下是存在的，这也正是最小二乘支持向量机的高明之处。最后，可以得到最小二乘支持向量机的分类函数：

由上述推理可以看出，Suykens等人提出的最小二乘支持向量机用等式约束(如式(3))替换了标准支持向量机中的不等式约束，以及把目标函数J中的经验风险(如式(2)中的第2项)修改为分类误差的平方求和项，从而把标准支持向量机中的二次规划问题巧妙地转换成求解一个线性方程组，使得求解最优分类面的难度大大降低。不过令人遗憾的是，在最小二乘支持向量机算法框架下的训练样本缺乏稀疏性，即所有的训练样本都成了支持向量，原因为：1、其目标函数J中引入了分类误差平方求和项

2、支持值α_i的大小与训练点处的分类误差ξ_i成正比，如(7)式所示，所以往往会出现所有的训练样本都成了支持向量，因为支持值α_i一般不等于零。

本发明所提出的研究方法首先应用于飞机等移动目标的识别之中，后面可以把所提出的研究方法进一步应用到人脸表情识别、智能语音识别、智能图像识别，等等中去。本发明所提出的实施方法具体阐述如下。

2、自适应动态聚类

本发明采用下面所述的三种自适应动态聚类方法，这三种聚类方法分别简述如下：

(1)基于迭代自组织数据分析技术(Iterative Self-Organizing Data AnalysisTechniques，ISODATA)的动态聚类方法。该方法具有以下非常好的优点：第一，它不是每调整一个样本的类别就更新一次各类的均值，而是在把所有全部样本调整完后才重新计算各类的均值，这样可以大幅度提高计算效率；第二，ISODATA方法在动态聚类过程中引入了对类别的评判准则，可以根据这些准则自动地将某些类别合并或分裂，从而使得聚类结果更加合理，也在一定程度上突破了事先给定类别数目的限制。

(2)分级动态聚类方法。该方法是把所有N个没有类别标签的样本分成一些合理的类，在最极端的情况下，最多可以分成N类，即每个样本自成1类；最少可以只有1个类，即全部样本都归为1类。该方法可以从N类到1类逐级地进行动态类别划分，求得一系列类别数从多到少的划分方案，然后根据一定的指标选择中间某个适当的划分方案作为聚类的结果。

(3)基于自适应自组织映射分析(Self-Organizing Map Analysis，SOMA)的动态聚类方法。该方法的基本原理阐述如下，通过自组织学习过程将样本集里面的所有样本都映射到神经元平面上，从而可以得到各个样本的像和各个节点的原像，并在节点平面上统计各个节点的原像数目(称作像密度)。根据自组织映射神经网络的性质，按照像密度图把样本集分类，将像密度较高且较集中的节点分为一类。SOMA方法不但无须事先确定聚类数目，而且能够更好地适应不同的样本分布情况，是一种有效的动态聚类方法。

二、具体实施方式

本发明所提出的方法首先应用于飞机等移动目标的识别之中，后面可以把所提出的方法进一步应用到人脸表情识别、智能语音识别、智能图像识别，等等中去。

1、实验数据描述

在本发明中，以西安电子科技大学雷达信号处理国防重点实验室提供的外场实测数据为本发明的实验数据。本外场实测数据是逆合成孔径雷达(Inverse SyntheticAperture Radar，ISAR)对飞行中的三种飞机目标——安-26、奖状和雅克-42所成的一维距离像。ISAR交替发射窄带(脉冲时宽为1us)和宽带两种波形：窄带系统主要用于跟踪目标和产生宽带本振定时信号；宽带信号的带宽为400MHz(理论上的距离分辨率为0.375m)，采样点数为256(其经过快速Fourier变换后所得到的一维距离像的像点数也为256)。每种飞机共录取了7段数据(如图4所示)，每段数据含有26000个宽带和窄带信号(相邻间隔2.5ms)。宽带信号为全去斜后的正交双通道信号(其经过快速Fourier变换即为一维距离像)，每段数据含有260个正交双通道信号，即每段数据含有260幅一维距离像。实验数据为三种飞机各取一段的130幅一维距离像(总数为390幅)作为训练样本，另外130幅一维距离像为测试样本(总数为390幅)。在对上述实测数据进行训练前，做如下两步预处理：

(1)归一化。将每一幅距离像用其总能量归一化。

(2)距离对准。利用Fourier变换的平移不变性，将一维距离像作Fourier变换即可对齐，这可减弱距离像对目标距离的敏感性。同时，据实数Fourier变换的共轭对称性，可取距离像Fourier变换的一半(128维)作为输入向量进行实验。

这里所获得的三种飞机的数据为：安-26的1、2、4、7段，奖状的1、2、4、7段，雅克-42的1、2、4、5段。每段数据含有260个正交双通道信号(即每段数据含有260幅一维距离像)，为了形象地把三种飞机的一维距离像描述出来，现在将三种飞机各取一段的前100幅距离像，如图5所示。

图5三种飞机各一段的前100幅距离像：(a)安-26；(b)奖状；(c)雅克-42。

本发明首先对安-26、奖状和雅克-42三种飞机的训练样本集按照上文所提到的动态聚类方法分别进行自适应动态聚类处理，然后抽取每一个聚类的中心作为最小二乘支持向量机的新的训练样本，利用新的训练样本对最小二乘支持向量机进行学习之后，最后再利用最小二乘支持向量机进行多类分类识别。

2、参数设定

熵是对热力学系统中随机程度的一种度量，这个概念最早用来研究热力学中的气体。后来科学家香农创建了信息论，第一次引入了熵的概念来研究信息在信道中的传输。在信息论里面，信息由一个所谓的信息源输出。根据人们的实践经验，一个事件给予人们信息量的多少，与这一事件发生的概率(可能性)的大小有关。一个小概率事件的发生，给予人们的信息量就很多。相反，一个大概率事件的出现，给人们的信息量就很少。因此，用I(A)＝-logp(A)(其中p(A)表示事件A发生的概率)来度量事件A给出的信息量，称为事件A的自信息量。设某信息源输出几个相互独立的消息为x_i(i＝1,2,…,N)，每个消息出现的概率为p_i(i＝1,2,…,N)，则用H_i＝-p_i logp_i来度量一次实验或一个消息所给出的平均信息量。整个事件的平均信息量为：

H称之为信息熵或香农熵。香农熵是对信息源输出信息的随机性的一种度量，这种度量是基于所有可能输出状态的概率p_i。当所有状态出现的概率都相同时，熵最大，这时对应系统的随机程度越高。相反，当某个状态i出现的概率为p_i＝1时，熵为0，这时对应的系统为确定性系统。

数学家Renyi进一步扩展了香农熵的概念，针对概率密度函数，他提出了更加灵活地度量不确定性的定义。概率密度函数为p(x)的α(α≥0,α≠1)阶Renyi熵的定义如下：

本发明将采用二阶Renyi熵，因为对于高斯核函数，二阶Renyi熵的计算可以进行简化。二阶Renyi熵的表达式如下：

H_R2＝-log∫p²(x)dx (18)

其中∫p²(x)dx可以用下式进行估计：

其中{x_i|i＝1,…,N}是参与计算的全体样本数据。所以，二阶Renyi熵可以用下面的公式近似计算：

基于上述理论，本发明对于二阶Renyi熵的计算，采取高斯核函数。

3、采用ISODATA聚类方法对不同类别的训练样本集分别进行自适应动态聚类处理步骤：

设有一个训练样本集合X＝{x_i|i＝1,2,…,N}，X中的所有样本都属于同一个类别。现在从集合X中随机选取l(1＜l＜N)个样本构成一个子集Y，并计算它的二阶Renyi熵H_R2，可以用H_R2来度量该子集的信息冗余度。如果H_R2越大，说明子集Y所包含的平均信息量越大，那么表示其样本之间的信息冗余度也就越小，它里面样本之间的相似程度也就越低，子集Y也就相对较分散；如果H_R2越小，说明子集Y所包含的平均信息量越小，那么其样本之间的信息冗余度也就越大，它里面样本之间的相似程度也就越高，子集Y也就相对较集中。

因此，根据上文所提到的基于迭代自组织数据分析技术的动态聚类方法(即ISODATA动态聚类方法)，以样本之间的二阶Renyi熵作为聚类的参数，对集合X中的样本进行聚类，把二阶Renyi熵较小的若干个样本聚成一类。通过聚类，就可以把样本集合X划分成若干个小的子集，每个子集中的若干个样本具有较小的二阶Renyi熵。

为了达到自适应动态聚类的目的，本发明引进了一个参数β，称其为二阶Renyi熵聚类精度，简称聚类熵精度。β的值事先进行设定，那么就可以把样本集合X中二阶Renyi熵小于β的若干个样本聚成一类。并且β越大，相应的聚类数目也就越小，而每一个聚类中所包含的样本也就越多；β越小，相应的聚类数目也就越大，而每一个聚类中所包含的样本也就越少。当然了，目前的模式识别领域中，动态聚类的算法很多，但是基于ISODATA的动态聚类方法操作简捷，便于理解，不失为一种可取的方法。

下面给出基于ISODATA动态聚类最小二乘支持向量机的移动目标识别方法的具体实现步骤：

Step1：首先从样本集合X中随机选取一个样本，并把该样本定义为x_r(1≤r≤N)。然后，把样本集合X中的其它每个样本分别(不是依次)和x_r相结合，从而构成若干个新的子集，此时每个子集中包含有两个样本，即：Ω_i＝{x_i,x_r}(1≤i≤N且i≠r)，这样的子集共有N-1个。再来计算每个子集Ω_i的二阶Renyi熵，并把其最小值H_R2min找出来。如果H_R2min小于事先设定的聚类熵精度β，那么就把H_R2min所对应的样本子集找出来，在这里不妨把该子集设为Ω_r，此时Ω_r含有两个样本，Ω_r就是要寻找的某个聚类，但Ω_r是一个并未完成聚类的集合；如果H_R2min大于或等于β，那么样本x_r就是一个独立的已经完成的新的聚类，但该聚类中只包含一个样本x_r。

Step2：把在样本集合X中的，但并不属于未完成聚类的集合Ω_r中的每个样本分别(不是依次)加入到Ω_r中，从而又构成若干个新的子集。然后，计算出每个子集的二阶Renyi熵，并把其最小值H_R2min找出来。如果H_R2min小于事先设定的聚类熵精度β，那么就把H_R2min所对应的子集找出来，该子集是在原来Ω_r的基础上扩充了一个样本得到的，在这里用扩充以后的Ω_r(即此时H_R2min所对应的子集)来替代原来未扩充的Ω_r，但此时的Ω_r仍旧是一个未完成聚类的集合；如果H_R2min大于或等于β，那么原来未扩充的Ω_r就是一个独立的已经完成的新的聚类。

Step3：重复Step2操作，直到由未完成聚类的集合Ω_r所构成的若干个新子集的H_R2min大于或等于事先设定的聚类熵精度β，此时退出循环。那么这个时候，样本集合Ω_r才是一个独立的已经完成的新的聚类，并且把Ω_r作为一个新的聚类保存起来。

Step4：在训练样本集合X中，把属于已经完成的新的聚类Ω_r中的样本全部去掉，对样本集合X进行缩减，把缩减了以后的样本集合仍旧用X表示。设Ω_r中有n个样本，那么缩减了以后的样本集合X的样本数目变为：N＝N-n。

Step5：重复上面4个步骤，直到样本集合X中的样本数目为零为止。此时也就完成了所有的聚类。这时，最初由N个训练样本组成的集合X就被划分成若干个小的聚类，可以表示为：X＝{Ω₁,Ω₂,…,Ω_M}，Ω_i(1≤i≤M)为某一个聚类，需要强调的是M为聚类的数目，一般情况下，肯定M＜N。

Step6：上述步骤处理完以后，我们抽取每个聚类的类中心向量即

(1≤i≤M，

为聚类Ω_i的类中心向量)，作为最小二乘支持向量机某一类别的新的训练样本，到此为止，最初的训练样本集合X也就缩减成了集合

由于新的训练样本的数目等于聚类的数目，由此就达到了不删减训练样本而稀疏化的目的。在这里需要强调是，类中心向量

可以用聚类Ω_i中的样本的算术平均值来进行计算。

3、实验结果

本次实验中对最小二乘支持向量机采用高斯核函数，而且核函数参数σ²和惩罚因子r的选择对实验结果有影响，这里选用交叉验证算法估计参数σ²和r在某一范围内每个参数的联合精度，以确定实际问题的最佳参数，选取适当的LS-SVM模型。本次实验利用LS-SVM算法对三种飞机目标的雷达一维距离像进行分类识别的时候，通过多次实验后发现，当σ²∈[0.1,0.5]，r∈[100,200]时，实验结果相对稳定，差别不大且识别率高，所以在本次实验中取σ²＝0.2，r＝100。为了参数统一起见，在计算二阶Renyi熵时，高斯核函数中的参数σ²也设置为σ²＝0.2。

实验一：奖状的第2段距离像和雅克-42的第1段距离像。把每种飞机所选段的所有260幅一维距离像全部作为实验数据，按隔一取一的方式划分为训练样本集和测试样本集，那么总训练样本集中有260个训练样本，每类各130个训练样本，总测试样本集样本数同总训练样本集。在实验一中，以奖状飞机为正类，雅克飞机为负类，采用本发明所提出的新的LS-SVM稀疏化算法，实验结果如表1所示。在表1中参变量设置为：β⁺表示正类的聚类熵精度；β^-表示负类的聚类熵精度；N⁺表示正类训练样本稀疏化以后的样本数；N^-表示负类训练样本稀疏化以后的样本数；N^*表示稀疏化以后总的训练样本数；η⁺表示N⁺与稀疏化前所有正类训练样本数的比值；η^-表示N^-与稀疏化前所有负类训练样本数的比值；η^*表示N^*与稀疏化前总训练样本数的比值。

实验二：实验数据同实验一。以奖状飞机为正类，雅克飞机为负类，采用普通的LS-SVM稀疏化算法，现在将该算法叙述如下。利用实验一所给出的正负两类飞机总的训练样本集，首先采用LS-SVM算法求解出每个训练样本的支持值，接着把绝对值相对较小的支持值所对应的训练样本删掉，然后利用剩余的训练样本求出LS-SVM的最优分类函数，最后再采用该分类函数对测试样本进行检测。本发明之所以采取上述操作手段，目的主要是为了比较和说明问题，实验结果如表2所示。在表2中，参变量的设置同表1。

实验三：安-26的第4段距离像和雅克-42的第1段距离像。对训练和测试样本集的划分同实验一。在这里，以安型飞机为正类，雅克飞机为负类，采用本发明所提出的新的LS-SVM稀疏化算法，实验结果如表3所示。在表3中，参变量的设置同表1。

实验四：实验数据同实验三。以安型飞机为正类，雅克飞机为负类，采用普通的LS-SVM稀疏化算法，具体实施方案同实验二，实验结果如表4所示。在表4中，参变量的设置同表1。

为了对实验结果进行比较，上述实验一和实验二稀疏化以后总的训练样本数N^*设置为相同；实验三和实验四稀疏化以后总的训练样本数N^*设置为相同。

表1奖状和雅克飞机的新稀疏化算法的实验结果

表2奖状和雅克飞机的普通稀疏化算法的实验结果

表3安型和雅克飞机的新稀疏化算法的实验结果

表4安型和雅克飞机的普通稀疏化算法的实验结果

观察表1和表2可以看出，本发明所提出的新的LS-SVM稀疏化算法还是具有明显的优势。在表1中，当总的训练样本由260个稀疏到10个时，正负两类依然都能获得100％的识别率，从而在保持识别率不变的情况下，大大缩减了训练样本的规模。

给定一个训练样本集合，如果该集合中有很多个训练样本的支持值的绝对值相差并不大，若采用把支持值的绝对值相对较小的训练样本删除掉的LS-SVM稀疏化策略，训练样本如果删除少了，达不到稀疏化的目的，训练样本如果删除多了，可能会导致分类识别率大幅度下滑。表4中的安型飞机的实验结果对这一现象做出了有力证明。

观察表4可以发现，随着训练样本的减少，雅克飞机的识别率也有所下滑，但是其下滑幅度并不大。这是因为雅克飞机各训练样本的支持值的绝对值大的很大，小的很小，泾渭分明，并且这些训练样本支持值的绝对值的和集中到了少量训练样本上，所以采用把支持值的绝对值相对较小的训练样本删除掉的LS-SVM稀疏化算法，对雅克飞机的识别结果影响不是很大。

采用本发明所提出的新的LS-SVM稀疏化算法，可以把正类训练样本集与负类训练样本集分别合理地划分成若干个小的聚类，然后抽取出每个聚类的类中心向量作为稀疏化以后的训练样本。由于每个聚类中的训练样本相似程度高，而且类中心向量中包含有丰富的特征信息，所以不但避免了稀疏化以后分类识别率的迅速下滑，如表3中，当总的训练样本由260个稀疏到19个的时候，仍旧能保持较高的平均识别率；而且如果适当地调整聚类熵精度β⁺和β^-，对正类与负类训练样本集合分别进行合理地聚类，甚至可以在负类(雅克飞机)识别率不降低的情况下，而正类(安型飞机)的识别率有所提高，如表4中第3号实验结果。综上所述，本发明所提出的稀疏化算法是成功的，可取的。

以上公开的仅为本发明的几个具体实施例，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims

1.自适应动态聚类最小二乘支持向量机的移动目标识别方法，其特征在于，包括：

获取移动目标的一维距离像样本集合；

利用新的训练样本集合对最小二乘支持向量机进行训练；

利用最小二乘支持向量机对移动目标进行分类识别。

2.如权利要求1所述的自适应动态聚类最小二乘支持向量机的移动目标识别方法，其特征在于，所述获取不同类别移动目标的一维距离像样本集合包括：

合成逆合成孔径雷达交替发射窄带和宽带两种波形，宽带信号的带宽为400MHz，采样点数为256；

录取7段数据，每段数据含有26000个宽带和窄带信号；

3.如权利要求2所述的自适应动态聚类最小二乘支持向量机的移动目标识别方法，其特征在于，还包括对不同移动目标的一维距离像预处理：

将每一幅距离像用其总能量归一化；

4.如权利要求1所述的自适应动态聚类最小二乘支持向量机的移动目标识别方法，其特征在于，所述不同的聚类方法包括：基于自适应自组织映射分析的动态聚类方法，分级动态聚类方法，基于迭代自组织数据分析技术的动态聚类方法。

5.如权利要求4所述的自适应动态聚类最小二乘支持向量机的移动目标识别方法，其特征在于，所述采用基于迭代自组织数据分析技术的动态聚类方法对不同类别的训练样本集分别进行自适应动态聚类处理步骤包括：

计算每个子集Ω_i的二阶Renyi熵，并把其最小值H_R2min找出来；如果H_R2min小于事先设定的聚类熵精度β，将H_R2min所对应的样本子集Ω_r作为未完成聚类的集合，如果H_R2min大于或等于β，那么样本x_r为一个独立的已经完成的新的聚类；

计算出每个子集的二阶Renyi熵，计算出最小值H_R2min，如果H_R2min小于事先设定的聚类熵精度β，找出H_R2min所对应的子集，该子集是在原来Ω_r的基础上扩充了一个样本得到的，如果H_R2min大于或等于β，那么原来未扩充的Ω_r就是一个独立的已经完成的新的聚类；

重复操作，直到样本集合X中的样本数目为零为止；

抽取每个聚类的类中心向量即

其中，1≤i≤M，

用聚类Ω_i中的样本的算术平均值来进行计算。

6.如权利要求1所述的自适应动态聚类最小二乘支持向量机的移动目标识别方法，其特征在于，所述最小二乘支持向量机的核函数包括高斯核函数，且选用交叉验证算法估计所述高斯核函数的核函数参数σ²和惩罚因子r。