CN115099332A

CN115099332A - 一种基于混合森林的雷达数据实时处理方法及系统

Info

Publication number: CN115099332A
Application number: CN202210711522.7A
Authority: CN
Inventors: 陈欣鹏; 宋彬杰; 杨小龙; 张翊; 王瑞杰; 兴龙; 陈永明; 郑立峰; 于雨
Original assignee: PLA Army Academy of Artillery and Air Defense
Current assignee: PLA Army Academy of Artillery and Air Defense
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-23

Abstract

本发明一种基于混合森林的雷达数据实时处理方法及系统，方法包括：通过Bagging算法根据训练数据集进行循环采样操作，以得到混合森林框架中各分支的抽中样本集合X_s和异常样本集合X_u，样本特征转换得到分支特征拓展矩阵，利用PCA算法处理所述抽中样本集合X_s，以得到分支旋转矩阵，通过降维混合矩阵处理得到新分支训练数据集，利用所述新分支训练数据集训练各支分类器，以得到经训练的混合森林；在预测阶段，对混合降维矩阵处理测试数据集，预测其中各样本的类别标签，依据众数原则的投票模型选择取得票数多的类别作为各样本的投票结果。本发明解决了数据量庞大和依赖人工操作导致雷达效率低及精准度不高的技术问题。

Description

一种基于混合森林的雷达数据实时处理方法及系统

技术领域

本发明涉及雷达数据处理技术，更具体涉及一种基于混合森林的雷达数据实时处理方法及系统。

背景技术

随着我国应用雷达数量日益增加，同时应军事和民用需求，雷达跟踪数据检测越来越频繁，目前所使用的人工监视的方式完成雷达跟踪数据采集处理，在应对24小时监测时，变得不切实际。同时，目前国内测控与传感器数据接收的地面跟踪接收系统大部分都是数据维度较大，数据对比不便，耗费大量的精力和时间，不利于设备实时监控和故障的快速解决。现代大数据和人工智能技术的发展，为该问题提供了一个科学有效的解决方法，但尚存在一定的局限性：1.跟踪的实时有效数据包括任务数据和装备状态数据，整合后单个样本维度较高；2.正常跟踪的样本数据量远大于异常样本，处理难度大。

现阶段的雷达实时数据处理，仍然需要大量的专家经验，采用人工处理的方法，对海量的数据进行处理，尤其在面对24小时雷达跟踪时，现阶段的处理方式，需要消耗大量的人力。在军事系统，军用雷达跟踪接收系统，实时记录测数据和当前设备状态时，信息全面、记录密度大，常需要人工分析。记录的数据维度较大，数据对比不便，耗费大量的精力和时间，不利于雷达跟踪和故障的快速解决。

申请号为201810489421.3的现有发明专利《一种雷达有源干扰的识别方法及系统》对接收到的有源干扰进行变分模态分解，得到不同的模态分量；计算每个固有模态分量相应的矩形积分双谱，组合成特征参量；通过随机森林分类器实现雷达有源干扰方式的识别。由该现有专利的说明书中可知，该专利技术方案为采用随机森林的生成及决策树的生长得到随机森林分类器，以进行雷达干扰信号的识别，该现有专利的技术方案与本申请存在显著区别，同时，该现有申请并未公开本申请的混合降维矩阵等具体技术特征，此外，该现有专利主要应用场景为识别排除雷达干扰，可知该现有专利的应用场景以及解决的技术问题与本申请迥异，亦无法达到本申请的技术效果。

综上，现有技术存在数据量庞大和依赖人工操作导致雷达效率低及精准度不高的技术问题。

发明内容

本发明所要解决的技术问题在于如何解决现有技术数据量庞大和依赖人工操作导致雷达效率低及精准度不高的技术问题。

本发明是采用以下技术方案解决上述技术问题的：一种基于混合森林的雷达数据实时处理方法包括：

S1、获取训练数据集、训练样本标签集、集成模型分支数量及特征选择率，通过Bagging算法根据训练数据集进行循环采样操作，以得到混合森林框架中各分支的抽中样本集合X_s和异常样本集合X_u，对所述抽中样本集合X_s和所述异常样本集合X_u进行样本特征转换，以得到分支特征拓展矩阵，利用PCA算法处理所述抽中样本集合X_s，以得到分支旋转矩阵，通过降维混合矩阵处理得到新分支训练数据集，利用所述新分支训练数据集训练各支分类器，以得到经训练的混合森林；

S2、向模型输入预置测试样本集，以确定所述混合降维矩阵，并通过对应的特征选择矩阵、特征拓展矩阵及选择矩阵处理所述测试样本集中的测试数据，以所述各支分类器分类样本，对分类结果投票，以票数最多的分类结果作为最终模型预测结果；

S3、向所述混合森林输入跟踪历史数据集，据以定期训练所述混合森林，以生成新混合降维矩阵，以经训练的所述混合森林判定每秒跟踪数据及跟踪状态中的异常样本，据以识别异常任务跟踪弧段，以进行故障报警并处理故障。

本发明对混合森林模型进行训练，得到最新的混合降维矩阵，在预测阶段，对混合降维矩阵处理测试数据集，预测其中各样本的类别标签，依据众数原则的投票模型选择取得票数多的类别作为各样本的投票结果。该方法能够根据前期采集数据，智能化对采集的数据规范化处理，即可实现海量数据的规范和筛选，节约大量的时间，实现雷达跟踪的快速解决。本发明利用混合森林的提高模型各分支间多样性的特点，同时利用模型分支的异常跟踪样本和未选择弱特征来提高各基分类器对数据中有用信息的可挖掘性，从而提升模型的分类精度和对异常跟踪情况的识别能力。

在更具体的技术方案中，所述步骤S1包括：

S11、基于所述树的特征选择算法，利用预置逻辑构造模型的所述特征选择矩阵；

S12、通过Bagging算法得到分支的所述抽中样本集合X_s和所述异常样本集合X_u；

S13、根据所述抽中样本集合X_s和所述异常样本集合X_u，以预置逻辑处理得到分支的所述特征拓展矩阵A_a；

S14、以下述逻辑处理计算样本

和

之间的余弦相似度

，其中，d∈{1,......,n}，n为数据集中样本的维度，

代表抽中样本集里的第i个样本的第d个特征，

代表异常样本集里的第j个样本的第d个特征，且i∈{1,...,N}，j∈{1,...,U}；

S15、以下述逻辑将所述余弦相似度

添加至所述所述特征拓展矩阵A_a的第i行第j列：

S16、将主成分分析算法PCA应用于所述特征选择矩阵和所述特征拓展矩阵处理后的数据集[X_s*(I-A_s),A_a]上，经过训练得到主成分的系数R₁,...,R_m；

S17、选择因子构成所述主成分分析算法PCA所生成的选择矩阵:

，其中，

是第i(i＝{1,2,...,m})个旋转系数里的第j(j＝{1,2,...,p})个旋转因子。

S18、经过旋转矩阵的特征转换后，所得到的最终的数据集预处理结果为：

X_f＝[X_s*A_s,[X_s*(I-A_s),A_a]A_r]

S19、根据所述最终的数据集预处理结果训练得到所述分支分类器T_i。

本发明在训练阶段，对混合森林模型进行训练，得到最新的混合降维矩阵。混合森林保留了传统集成模型的特征选择与样本重采样的过程，而对未被选择的特征和被标志为跟踪异常的样本在各分支中并未直接使用，而是通过生成新特征的方法来保证模型各分支之间的差异性。同时提出通过样本特征化转换过程(SFTP)，将异常跟踪样本转化为拓展特征的方法，提高模型对异常样本的敏感性。

在更具体的技术方案中，所述步骤S11包括：

S111、通过所述训练数据集生成极端随机森林；

S121、计算每个特征的平均重要性值作为该特征强弱的度量指标；

S131、选择具有较高平均重要性的特征作为特征子集供训练分类器。

在更具体的技术方案中，所述步骤S12包括：

S121、利用Bagging算法重采样所述训练数据集，据以产生抽中的样本集合和未被抽中的样本集合；

S122、对于抽中集合中的每个样本，计算其与异常样本集合中每个样本的相似度作为每个被选中样本的拓展特征。

在更具体的技术方案中，所述步骤S1中利用所述树的特征选择方法以下述逻辑划分并定义样本的特征空间:

X＝[X*A_s,X*(I-A_s)]

，其中，“*”表示两个矩阵对应元素的乘积，即两个矩阵的Hadamard积，I是一个N行n列的单位矩阵，A_s表示通过特征选择算法得到的特征选择矩阵。

在更具体的技术方案中，所述步骤S1中还包括：基于所述树的特征选择算法，利用下述逻辑构造模型的所述特征选择矩阵：

。

在更具体的技术方案中，所述步骤S13中，将两个样本之间的相似度作为特征值添加到样本集特征向量中，得到的新分支训练数据集X_a可以定义为：

X_a＝[X_s*A_s,X_s*(I-A_s),A_a]

其中，A_a为分支数据集的特征拓展矩阵，它的定义如下：

在更具体的技术方案中，所述步骤S2包括：

S21、确定所述测试数据集的所述混合降维矩阵A_s,A_a和A_r

S22、利用所述混合降维矩阵A_s,A_a和A_r处理测试数据集S_s；

S23、预测S_s中各样本的类别标签；

S24、依据众数原则的投票模型选择取得票数多的类别作为各所述样本的投票结果。

本发明在预测阶段，对混合降维矩阵处理测试数据集，预测其中各样本的类别标签，依据众数原则的投票模型选择取得票数多的类别作为各样本的投票结果。该方法能够根据前期采集数据，智能化对采集的数据规范化处理，即可实现海量数据的规范和筛选，提高了雷达数据处理效率。

在更具体的技术方案中，所述步骤S3包括：

S31、输入标注的跟踪历史数据集；

S32、训练所述混合森林，生成最新的混合降维矩阵；

S33、以完成训练的模型预测每秒产生的实时跟踪数据，据以判断每秒的跟踪状态是否为异常；

S34、若是，则模型识别出异常跟踪任务弧段，并进行故障告警；

S35、利用所述故障报警通知技术人员到场处理设备问题并完成异常样本类别标注；

S36、若否，持续预测所述实时跟踪数据。

本发明通过采用标注的跟踪历史数据集训练混合森林，更新混合降维矩阵，同时通过对异常跟踪任务弧段的识别，进行故障异常报警，以对雷达进行维护排除异常故障，本发明定期对模型开展训练以及故障维护操作，确保了模型的实效性、准确性以及雷达系统的可靠性。

在更具体的技术方案中，一种基于混合森林的雷达数据实时处理系统包括：

混合森林训练模块，用以获取训练数据集、训练样本标签集、集成模型分支数量及特征选择率，通过Bagging算法根据训练数据集进行循环采样操作，以得到混合森林框架中各分支的抽中样本集合X_s和异常样本集合X_u，对所述抽中样本集合X_s和所述异常样本集合X_u进行样本特征转换，以得到分支特征拓展矩阵，利用PCA算法处理所述抽中样本集合X_s，以得到分支旋转矩阵，通过降维混合矩阵处理得到新分支训练数据集，利用所述新分支训练数据集训练各支分类器，以得到经训练的混合森林；

预测模块，用以向模型输入预置测试样本集，以确定所述混合降维矩阵，并通过对应的特征选择矩阵、特征拓展矩阵及选择矩阵处理所述测试样本集中的测试数据，以所述各支分类器分类样本，对分类结果投票，以票数最多的分类结果作为最终模型预测结果，所述预测模块与所述混合森林训练模块连接；

实时跟踪处理模块，用以向所述混合森林输入跟踪历史数据集，据以定期训练所述混合森林，以生成新混合降维矩阵，以经训练的所述混合森林判定每秒跟踪数据及跟踪状态中的异常样本，据以识别异常任务跟踪弧段，以进行故障报警并处理故障，所述实时跟踪处理模块与所述混合森林训练模块及所述预测模块连接。

本发明相比现有技术具有以下优点：本发明对混合森林模型进行训练，得到最新的混合降维矩阵，在预测阶段，对混合降维矩阵处理测试数据集，预测其中各样本的类别标签，依据众数原则的投票模型选择取得票数多的类别作为各样本的投票结果。该方法能够根据前期采集数据，智能化对采集的数据规范化处理，即可实现海量数据的规范和筛选，节约大量的时间，实现雷达跟踪的快速解决。本发明利用混合森林的提高模型各分支间多样性的特点，同时利用模型分支的异常跟踪样本和未选择弱特征来提高各基分类器对数据中有用信息的可挖掘性，从而提升模型的分类精度和对异常跟踪情况的识别能力。

本发明通过采用标注的跟踪历史数据集训练混合森林，更新混合降维矩阵，同时通过对异常跟踪任务弧段的识别，进行故障异常报警，以对雷达进行维护排除异常故障，本发明定期对模型开展训练以及故障维护操作，确保了模型的实效性、准确性以及雷达系统的可靠性。本发明解决了现有技术中存在的数据量庞大和依赖人工操作导致雷达效率低及精准度不高的技术问题。

附图说明

图1为本发明实施例1的混合森林算法的基本原理图；

图2为本发明实施例1的混合森林的集成框架示意图；

图3为本发明实施例1的样本特征化原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

混合森林

本文针对雷达跟踪实时数据提出一种基于随机森林算法进行改进的算法模型，而所使用的基分类器为树模型分类器，在此称之为混合森林。混合森林的特点是提高模型各分支间的多样性，同时利用模型分支的异常跟踪样本和未选择弱特征来提高各基分类器对数据中有用信息的可挖掘性，从而提升模型的分类精度和对异常跟踪情况的识别能力。

森林简介

如图1所示，图中虚线方框外的是传统随机森林的基本思路，方框内是混合森林在传统算法的基础上所做的改进。混合森林保留了传统集成模型的特征选择与样本重采样的过程，而对未被选择的特征和被标志为跟踪异常的样本在各分支中并未直接使用，而是通过生成新特征的方法来保证模型各分支之间的差异性。同时提出通过样本特征化转换过程(SFTP)，将异常跟踪样本转化为拓展特征的方法，提高模型对异常样本的敏感性。

如图2所示，先通过特征选择的方法选择集成模型各分支的固定特征，然后采用Bagging算法得到模型的不同分支，同时根据不同分支未被抽取到的样本通过样本特征化转换过程将标志为异常的跟踪样本转化为拓展特征(SFTP b，b∈{1,2,...,B})。随后，通过特征降维技术(主成分分析算法)对各分支未选择特征和拓展特征组成的集合进行降维，得到各分支的新特征。最后对样本固定特征和新特征构成的特征集进行训练，生成各分支分类器。

样本特征化转换

如图3所示，在通过Bagging算法对训练数据集进行重采样后，会产生抽中的样本集合和未被抽中的样本集合，对于抽中集合中的每个样本，计算其与异常样本集合中每个样本的相似度作为每个被选中样本的拓展特征。这种由样本空间信息转换成特征空间信息的做法具有可解释性：在对每个选中样本进行分类的过程中，将样本间的相似度作为样本特征实际上就是在该特征结点分裂的时候，判断选中样本与转化的异常样本之间是否足够相似，若是，则把样本输出为同类样本，否则输出为异类样本。本文采用余弦相似度来度量两个样本之间的相似度，用该值作为拓展特征。选择使用余弦相似度来度量样本间的相似度的原因是，余弦相似度是从方向上区分差异，对绝对数值并不敏感，更适合在多维度的数据上使用。

混合降维矩阵

混合降维矩阵是混合森林在对训练数据进行预处理时所产生的，主要包括模型在特征选择阶段所生成的特征选择矩阵，分支对异常数据集进行样本特征化转换过程所生成的特征拓展矩阵，以及对未选中特征和拓展特征组成的特征子集进行降维时生成的旋转矩阵。通过对未选中特征与拓展特征进行降维压缩所生成的新特征与前面特征选择所选中的特征是同等重要的，都是强特征，因此混合降维矩阵对数据集进行处理后，所生成的新特征集合为等权特征集。

混合森林使用了基于树的特征选择方法，首先通过训练数据集生成极端随机森林，并计算每个特征的平均重要性值作为该特征强弱的度量指标，然后选择具有较高平均重要性的特征作为特征子集用于训练分类器。假设混合森林的输入是训练数据集S_t，它的样本数量为N，并且x＝[x₁,...,x_n]表示n维数据集中的一个样本。同时X作为代表训练数据集的矩阵，是一个N行n列的矩阵，而Y是关于训练数据集类别标签的向量，是一个长度为N的向量，且Y＝[y₁,...,y_N]^T。经过基于树的特征选择方法划分的样本的特征空间可以重新定义为:

X＝[X*A_s,X*(I-A_s)] (3-1)

其中，“*”表示两个矩阵对应元素的乘积，即两个矩阵的Hadamard积，I是一个N行n列的单位矩阵，A_s表示通过特征选择算法得到的特征选择矩阵，它是一个N行n列的矩阵，其定义如下：

(3-2)

其中，

(3-3)

在本实施例中，随机森林:随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

Bagging：Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型，然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子，被称为模型平均(modelaveraging)。采用这种策略的技术被称为集成方法。

主成分分析法：主成分分析(Principal Component Analysis，PCA)，是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

余弦相似度：余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

Hadamard积：哈达玛积(Hadamard product)是矩阵的一类运算，若A＝(a_ij)和B＝(b_ij)是两个同阶矩阵，若c_ij＝a_ij×b_ij,则称矩阵C＝(c_ij)为A和B的哈达玛积，或称基本积。

假设训练数据集为S_t，在模型的每个分支对训练数据集进行有放回的随机采样后，得到抽中的样本集合X_s。经过B次重采样后，可分别得到B个分支数据集(抽中的样本集合)，B为模型分支的数量。在每个分支中，抽中样本集的样本数量为N，则抽中样本集X_s用N行n列的矩阵代替。则抽中样本集X_s中的样本

和标志为异常的样本集合X_u中的样本

之间的余弦相似度

可定义为：

其中，d∈{1,......,n}，n为数据集中样本的维度，

代表抽中样本集里的第i个样本的第d个特征，

代表异常样本集里的第j个样本的第d个特征，且i∈{1,...,N}，j∈{1,...,U}。将两个样本之间的相似度作为特征值添加到样本集特征向量中，得到的新分支训练数据集X_a可以定义为：

X_a＝[X_s*A_s,X_s*(I-A_s),A_a] (3-5)

其中，A_a为分支数据集的特征拓展矩阵，它的定义如下：

主成分分析算法(PCA)[9]能有效地对复杂数据集进行降维，在降维过程中同时具备去除噪声的特性，能有效减少集成模型中基分类器过拟合发生的可能性。将PCA应用于特征选择矩阵和特征拓展矩阵处理后的数据集[X_s*(I-A_s),A_a]上，经过训练得到主成分的系数R₁,...,R_m(m为经过PCA算法降维后得到的新特征的个数，m≤n*(1-α)+U)，其中每个主成分系数都是n*(1-α)+U行1列的列向量，即：

p＝n*(1-α)+U，

是第i(i＝{1,2,...,m})个旋转系数里的第j(j＝{1,2,...,p})个旋转因子。最后由选择因子构成PCA所生成的选择矩阵A_r，它可以表示为:

经过旋转矩阵的特征转换后，所得到的最终的数据集预处理结果为：

(3-8) X_f＝[X_s*A_s,[X_s*(I-A_s),A_a]A_r]

基于混合森林的雷达跟踪数据处理

数据来源

雷达跟踪数据和设备状态数据分别记录在先控制单元和设备监控数据库中，以测角文件和格式化数据的形式实时生成。模型对跟踪数据的分类为二分类，即正常跟踪和异常跟踪两类，其中正常跟踪样本数远大于异常跟踪样本数量。对于首次模型训练，挑选最新的跟踪数据进行人工标注，形成模型的训练数据集和训练样本的标签集，后期的跟踪数据标定可根据模型的预测情况，对警报的问题圈次样本进行人工标注，其余样本自动标志为正常跟踪样本。这样做的原因是：若出现问题跟踪圈次，则出现的异常跟踪样本将连续多个同圈次内出现，异常圈次内的多个异常样本同时识别不出来的可能性极小。

混合森林输入的训练数据集S_t，由x＝[x₁,...,x_n]表示n维数据集中的一个样本，即每秒设备生产的跟踪数据和设备状态数据的记录合集。而Y是关于训练数据集类别标签的向量，根据每秒的跟踪情况进行标注，表示为Y＝[y₁,...,y_N]^T。

跟踪数据处理的基本流程

混合森林对跟踪数据进行处理的基本流程如算法1所示，在模型的训练过程中，模型输入训练数据集X和对应的样本类别标签Y，并确定模型的分支数量B和特征选择率α。首先模型根据训练数据集和对应的样本类别标签，采用基于树的特征选择算法得到特征选择矩阵A_s。然后用Bagging算法对训练数据集进行采样，重复B次，得到各分支的抽中的样本集合X_s和异常样本集合X_u，并分别对B个分支的分支样本做如下处理：1、通过样本特征化转换过程，由抽中数据集和异常数据集得到分支的特征拓展矩阵；2、通过PCA算法处理分支的抽中样本集，得到分支的旋转矩阵。最后，通过混合降维矩阵处理得到新的分支训练数据集，并使用数据集训练各基分类器，得到经过训练的混合森林。

在模型的测试阶段，首先向模型输入测试样本集，确定混合降维矩阵，并通过对应的特征选择矩阵、特征拓展矩阵和选择矩阵对测试数据进行处理。然后由训练阶段所生成的各分支分类器对样本进行分类，最后对分类结果进行投票，得到票数最多的分类结果为模型最终的预测结果。

算法1混合森林算法伪代码

跟踪数据实时处理

为确保模型的实效性和准确性，需要定期对模型开展训练，输入标注的跟踪历史数据集，训练混合森林，生成最新的混合降维矩阵。在对跟踪数据的实时预测阶段，完成训练的模型对每秒产生的实时跟踪数据进行精准预测，对每秒的跟踪状态进行判断。若预测的实时样本类别标签为异常，则模型识别出异常跟踪任务弧段，并进行故障告警，通知技术人员到场处理设备问题并完成异常样本类别标注。

综上，本发明对混合森林模型进行训练，得到最新的混合降维矩阵，在预测阶段，对混合降维矩阵处理测试数据集，预测其中各样本的类别标签，依据众数原则的投票模型选择取得票数多的类别作为各样本的投票结果。该方法能够根据前期采集数据，智能化对采集的数据规范化处理，即可实现海量数据的规范和筛选，节约大量的时间，实现雷达跟踪的快速解决。本发明利用混合森林的提高模型各分支间多样性的特点，同时利用模型分支的异常跟踪样本和未选择弱特征来提高各基分类器对数据中有用信息的可挖掘性，从而提升模型的分类精度和对异常跟踪情况的识别能力。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。