CN108509935B

CN108509935B - 一种基于随机森林算法的雷达工作模式识别方法

Info

Publication number: CN108509935B
Application number: CN201810324493.2A
Authority: CN
Inventors: 翁鑫锦; 郝一飞; 贺星; 彭晓燕
Original assignee: University of Electronic Science and Technology of China
Current assignee: NORTH AUTOMATIC CONTROL TECHNOLOGY INSTITUTE
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2020-01-03
Anticipated expiration: 2038-04-12
Also published as: CN108509935A

Abstract

本发明属于认知电子对抗技术领域，具体的说是一种基于随机森林的雷达工作模式识别方法。本发明主要包括：根据雷达的工作模式获得雷达信号的标签集和样本集，对获得的样本集和标签集合进行学习，学习的目标是获得使损失函数最小的最终分类器，包括数据预处理、训练集获取、特征选取和对训练集进行学习。本发明可以准确对雷达的工作模式进行识别，方法简单，速度更快，效果良好。

Description

一种基于随机森林算法的雷达工作模式识别方法

技术领域

本发明属于认知电子对抗技术领域，具体的说是一种基于随机森林(RandomForest,RF)的雷达工作模式识别方法。

背景技术

认知电子战中，快速准确估计目标雷达的工作模式有助于学习目标行为，是认知系统对目标威胁估计和干扰效能估计的关键和主要依据，也是对目标制定精确干扰策略的重要保证。雷达的工作模式是由多种参数共同决定，且大部分的参数都是重叠的，对于某些工作模式不能够仅仅依赖简单的基本规则进行定义识别。在传统的雷达工作模式识别方法中，仍有大量的数据并未挖掘进行利用，而且基于简单规则的识别方法存在可靠性欠缺的问题。对于存在模式差异同时参数部分重叠的工作模式之间存在难以准确识别的问题。目前在认知雷达对抗领域中，机器学习算法的引入研究较为缺乏，所以对机器学习算法的研究是比较重要而且前沿的领域。

发明内容

本发明的目的，是在工作模式识别准确率、数据挖掘和新数据识别等问题上，提出一种基于机器学习算法中的随机森林分类算法进行雷达工作模式识别工作。

基于树的机器学习学习方法在数据挖掘中有较大的优势，并且具有可解释强、学习能力强等优点，并且能够进行准确的分类工作。随机森林适用于高维、非线性的特征参数，具有较强的鲁棒性和很好的抗噪声能力，能很好的避免过拟合，对新数据只需利用训练好的模型便能进行准确的预测。在分类问题上，随机森林是机器学习领域最重要的分类算法之一。因为雷达工作模式的特点，在雷达的信号数据库中各个工作模式是确定的并且是离散值，因此我们将对雷达工作模式识别的任务建模为一个多分类模型。随机森林算法在雷达工作模式识别的引入不仅能够提高识别的正确率，还对雷达的信号参数数据进行有效的挖掘利用，并且对未知的新数据拥有较好的泛化能力。

本发明的技术方案为：

基于随机森林的雷达工作模式识别问题本质上是机器学习中的分类问题，数学上是一个映射c：X→Y，c是真实Y的估计。用于训练的分类器的样本形式是(x,c(x))，其中x∈X为雷达数据库中已知样本，c(x)为该样本所属的真实类别。随机森林的目的在于构造一个目标函数f，尽可能的逼近真实的函数c，从而达到能够准确预测雷达工作模式。具体的雷达工作模式识别原理如图1所示。

基于随机森林的雷达工作模式识别的原理是：假设X＝{x₁,x₂,x₃,...,x_n}是雷达数据库中样本集合，Y＝{C₁,C₂,C₃,...,C_n}是类别标签构成的集合。把已知的数据样本X与Y输入到分类器中进行训练，选择相应的损失函数作为优化目标，将待识别信号特征X输入到训练好的分类器中，即可得到对应的工作模式。模型的学习过程就是不断地优化损失函数，使得损失函数降到最小。针对多分类问题，选择典型的交叉熵损失函数L(y，y′)作为算法中的损失函数。

其中y为样本的真实值，y'为预测值，N表示样本的个数。

如表1所示，分类模型最终得到结果的情况可以总结为一个混淆矩阵的形式，利用混淆矩阵对分类模型进行评价。机器学习领域中评价分类模型一般选取分类预测的准确率，但准确率往往不能全面体现模型的分类能力和泛化能力，所以引入F1指标(F1measure)评价指标。

表1分类问题混淆矩阵表

F1measure＝2PR/(P+R)

其中P为精确率，R为召回率，计算公式为：

P＝TP/(TP+FP)

R＝TP/(TP+FN)

其中TP(True Positive)为真正例个数，FP(False Positive)为假正例个数，FN(False Negative)为假反例个数。

具体识别流程如图2所示，具体操作如下：

因随机森林属于监督学习算法，所以需要预先通过实验得到训练样本对模型进行学习训练。具体的训练集生成及模型假设具体流程如下：

S1、假设目标雷达具有五种工作模式，包括：海面搜索、海面跟踪、固定跟踪、SAR和A-S测距等。根据雷达手册在每个工作模式下产生相应的信号，并加入噪声。

S2、发射不同模式的雷达信号，信号的标签集合为Y＝{C₁,C₂,C₃,…,C_n}，通过侦查接收雷达信号，对信号进行预处理并采样，获得样本集X＝{x₁,x₂,x₃,…,x_n}。

S3、获得样本集X和标签集合Y后，将数据集X和标签集Y输入随机森林模型进行学习。

S4、S1～S3完成了训练数据集的生成，接下来的工作是对获得的样本集X和标签集合Y进行学习。学习的目标是获得使损失函数最小的最终分类器f(x)：

s.t.min(L(y,f(x)))

G_m(x)为决策树基本分类器，α_m为决策树基本分类器的权值，m为决策树的个数。学习流程如图3所示，具体操作如下：

S5、数据预处理：因雷达数据之间关联性较强，所以在此不采用归一化的数据处理方法。在此只对集合X中缺失较多的样本进行删除。对于存在缺省少量特征数据的样本，用零值进行填充。

S6、训练集获取：从样本集x中的行、特征列两个维度上进行有放回的随机采样(booststrap)，得到训练数据集X_i，i＝1,2,…,n。

S7、特征选取：根据样本数和特征数，用建立决策树的方法获取最佳的分割特征，其中树桩点使用Gini指数进行特征选取。其中Gini指数公式如下：

其中K表示工作模式的类别数，p_k表示样本点属于第k类的概率。基尼指数Gini(X,A)表示经特征A＝a分割后，集合X的不确定性。基尼指数数值越大，样本集合的不确定性也就越大。其中概率p_k常用极大似然估计进行计算。

p_k＝|C_k|/|X|

这里，|X|是样本的总数，|C_k|是X中属于第k类的样本子集。

在特征集中选取使得基尼指数Gini(D,A)最小的特征A生成树桩点，若Gini(D,A)足够小，则生成决策树G_m(x)，否则，递归步骤S7生成树桩点。

S8、对训练集进行学习：根据S7生成的树桩点构建树G_m(x)并对样本集进行分类，计算该树分类误差e_m，根据分类误差e_m计算该树的权值α_m。

α_m＝log((1-e_m)/e_m)/2

进一步更新树集f(x)，公式如下所示：

f_m+1(x)＝f_m(x)+α_mG_m(x)

S9、得到新的树集f_m+1(x)后，对数据集X进行分类，计算损失函数值，如损失函数值并未达到指标值，则返回S6。

S10、重复执行步骤S6～S9，直至损失函数值最优。

S11、得到训练好的随机森林模型后，输入需要识别的信号参数，将预测结果作为识别结果。

本发明的有益效果为，本发明可以准确对雷达的工作模式进行识别，方法简单，速度更快，效果良好。

附图说明

图1雷达工作模式识别原理图；

图2模式识别工作流程图；

图3算法学习流程图；

图4不同工作模式与PRI的对应取值图；

图5算法识别结果展示图；

图6特征重要性的分布图；

图7利用重要特征的识别结果展示图。

具体实施方式

下面结合附图对上述基于随机森林的雷达模式识别算法方案进行验证，为能有良好的实验效果，对算法模型提出如下条件：

1.雷达未知的工作模式是能被学习的性能能够得到提升；

2.具体的识别规则无需表述出来；

3.有具体的数据作为算法模型的输入，供学习算法从中学习。

如表2所示，不同的工作模式的特征参数取值具有较大的模糊性，基于传统的识别规则很容易导致特征参数列表的膨胀，并且作战环境中，侦查到的信号存在噪声，导致参数的估计存在误差，进一步局限了传统识别规则的正确率。所以为了验证随机森林算法的泛化能力，仿真时，对每个工作模式的信号都随机加入高斯噪声。

表2不同工作模式的规范参数表

基于随机森林算法的识别效果仿真：

仿真情况1：选取每种工作模式下的样本300个，将SAR、A-S测距、海面搜索、固定跟踪和海面跟踪等五个工作模式进行编号，顺序对应为0、1、2、3、4。生成的部分仿真样本数据如表3所示。

表3仿真部分样本表

在模型训练前选取仿真样本数据的60％作为训练样本数据，40％的数据作为测试数据。根据表可以知道，加入噪声的特征参数的取值范围浮动大，不同工作模式之间的取值部分混叠。比如不同工作模式和对应的PRI值的分布情况存在较大的混叠情况，具体情况如图4所示。

将数据输入算法模型中学习，得到的结果在测试集上正确率达到了98％，可以得出该方法具有较好的性能和泛化能力的结论。具体结果如图5所示。同时RF算法能得到特征重要性的分布，具体见图6所示。从图中可以看出，每个CPI内脉冲数、Tor内脉冲总数、频率视数、脉压比这四个特征在决定工作模式时占的权重比较大。

仿真情况2：根据仿真情况1的特征重要性结果图6，选取其中的四个比较重要的特征，即CPI内脉冲数、Tor内脉冲总数、频率视数和脉压比，作为数据的特征参数进行输入。得到的效果和仿真情况1的效果基本一样。因此该方法具有较好的特征筛选能力，能够有效抵抗噪声数据，算法的表现力非常好。识别结果如图7所示。

Claims

1.一种基于随机森林算法的雷达工作模式识别方法，其特征在于，包括以下步骤：

S1、设定目标雷达具有五种工作模式，分别为：海面搜索、海面跟踪、固定跟踪、SAR和A-S测距，根据雷达手册在每个工作模式下产生相应的发射信号，并加入噪声；

S2、发射不同模式的雷达信号，信号的标签集合为Y＝{C₁,C₂,C₃,…,C_n}，通过侦查接收雷达信号，对信号进行预处理并采样，获得样本集X＝{x₁,x₂,x₃,…,x_n}；

S3、对获得的样本集X和标签集合Y进行学习，学习的目标是获得使损失函数最小的最终分类器f(x)：

s.t.min(L(y,f(x)))

G_m(x)为决策树基本分类器，α_m为决策树基本分类器的权值，m为决策树的个数，L(·)函数为交叉熵损失函数；

S4、数据预处理：集合X中缺失超过设定阈值的样本进行删除；对于存在缺省少量特征数据的样本，用零值进行填充；

S5、训练集获取：从样本集X中的行、特征列两个维度上进行有放回的随机采样，得到训练数据集X_i，i＝1,2,…,n；

S6、特征选取：根据样本数和特征数，用建立决策树的方法获取最佳的分割特征，其中树桩点使用基尼指数进行特征选取，基尼指数公式如下：

其中K表示工作模式的类别数，p_k表示样本点属于第k类的概率，基尼指数Gini(X,A)表示经特征A＝a分割后，集合X的不确定性，基尼指数数值越大，样本集合的不确定性也就越大，其中概率p_k用极大似然估计进行计算：

p_k＝|C_k|/|X|

|X|是样本的总数，|C_k|是X中属于第k类的样本子集；

在特征集中选取使得基尼指数Gini(D,A)最小的特征A生成树桩点，若Gini(D,A)足够小，则生成决策树G_m(x)，否则，递归步骤S7生成树桩点；

S7、对训练集进行学习：根据S6生成的树桩点构建树G_m(x)并对样本集进行分类，计算该树分类误差e_m，根据分类误差e_m计算该树的权值α_m：

α_m＝log((1-e_m)/e_m)/2

更新分类器f(x)，公式如下所示：

f_m+1(x)＝f_m(x)+α_mG_m(x)

S8、得到新的分类器f_m+1(x)后，对数据集X进行分类，计算损失函数值，如损失函数值并未达到指标值，则返回S5；

S9、重复执行步骤S5～S8，直至损失函数值最优；

S10、得到训练好的随机森林模型后，输入需要识别的信号参数，将预测结果作为识别结果。