CN113780351A

CN113780351A - 一种基于随机森林的卫星接收机故障诊断方法

Info

Publication number: CN113780351A
Application number: CN202110913148.4A
Authority: CN
Inventors: 王崇旭; 洪诗聘; 何伟
Original assignee: Beijing Automation Control Equipment Institute BACEI
Current assignee: Beijing Automation Control Equipment Institute BACEI
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-12-10

Abstract

本发明提供了一种基于随机森林的卫星接收机故障诊断方法，所述方法包括：S10、采集卫星接收机在多种工况下的试验数据；S20、得到平衡分类采样的数据；S30、得到预处理后的样本数据；S40、得到包含数据特征和数据值的第一采样样本和第二采样样本；S50、生成决策树；S60、判断生成决策树的数量是否达到预设数量，若是，将多个决策树组合成为随机森林，并转至S70，否则，转至S40；S70、得到随机森林故障诊断训练模型；S80、得到参数寻优后的随机森林故障诊断训练模型；S90、得到验证后的随机森林故障诊断训练模型的准确率，以完成卫星接收机的故障诊断。本发明能够解决现有故障诊断技术无法对卫星接收机进行准确的故障诊断的技术问题。

Description

一种基于随机森林的卫星接收机故障诊断方法

技术领域

本发明涉及卫星导航故障诊断技术领域，尤其涉及一种基于随机森林的卫星接收机故障诊断方法。

背景技术

全球卫星导航技术在国民经济和国防军事等领域的应用日渐深入，各项功能持续完善，用户对卫星导航精度和可靠性的要求越趋增高。由于卫星接收机是一个较为复杂的系统，且测试过程所处的环境、干扰因素不同，任何部件(系统内部元器件、传感器、执行机构等硬件及软件)都有可能在系统长期运行过程中发生故障甚至失效。产品一旦出现故障无法及时发现，将会导致测试周期延长、人员精力损耗，更有可能带来军事、政治和经济上的巨大损失，造成较为严重的后果。

随着机器学习、人工智能技术的产生，将这些先进的算法用于故障诊断领域已经得到了成功应用。但卫星接收机自身复杂的特殊性，其测试数据包含较多噪声，且数据集维度高，仅靠较少特征无法判定其工作状态。因此，现有故障诊断技术无法对卫星接收机进行准确的故障诊断。

发明内容

本发明提供了一种基于随机森林的卫星接收机故障诊断方法，能够解决现有故障诊断技术无法对卫星接收机进行准确的故障诊断的技术问题。

根据本发明的一方面，提供了一种基于随机森林的卫星接收机故障诊断方法，所述方法包括：

S10、采集卫星接收机在多种工况下的试验数据，并分别将每种工况下的试验数据打上标签进行标识；

S20、对多种工况下的试验数据进行平衡分类采样，得到平衡分类采样的数据；

S30、对平衡分类采样的数据进行预处理，得到预处理后的样本数据；

S40、将预处理后的样本数据随机分为训练集和测试集，对训练集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第一采样样本，对测试集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第二采样样本；

S50、对包含数据特征和数据值的第一采样样本进行训练，生成决策树；

S60、判断生成决策树的数量是否达到预设数量，若是，将多个决策树组合成为随机森林，并转至S70，否则，转至S40；

S70、采用投票法对随机森林进行判断，得到随机森林故障诊断训练模型；

S80、采用网格搜索方法对随机森林故障诊断训练模型进行参数寻优，得到参数寻优后的随机森林故障诊断训练模型；

S90、利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型，从而得到验证后的随机森林故障诊断训练模型的准确率，以完成卫星接收机的故障诊断。

优选的，在S90中，通过下式得到验证后的随机森林故障诊断训练模型的准确率：

式中，ACC为验证后的随机森林故障诊断训练模型的准确率，TP为验证后的随机森林故障诊断训练模型将正例标签数据分类为正例的数量，TN为验证后的随机森林故障诊断训练模型将正例标签数据分类为反例的数量，FN为验证后的随机森林故障诊断训练模型将反例标签数据分类为反例的数量，FP为验证后的随机森林故障诊断训练模型将反例标签数据分类为正例的数量。

优选的，在S20中，对多种工况下的试验数据进行平衡分类采样，得到平衡分类采样的数据包括：利用随机稀释法对正常工况的试验数据进行欠采样，利用SMOTE算法对故障工况的试验数据进行过采样，得到平衡分类采样的数据。

优选的，在S30中，对平衡分类采样的数据进行预处理，得到预处理后的样本数据包括：对平衡分类采样的数据进行归一化、数值化以及单位化处理，得到预处理后的样本数据。

优选的，在S40中，将预处理后的样本数据随机分为训练集和测试集，对训练集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第一采样样本，对测试集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第二采样样本包括：

S41、将预处理后的样本数据随机分为训练集和测试集；

S42、对训练集中的数据特征进行随机采样，对训练集中的数据值进行重采样，得到包含数据特征和数据值的第一采样样本；

S43、对测试集中的数据特征进行随机采样，对测试集中的数据值进行重采样，得到包含数据特征和数据值的第二采样样本。

优选的，在S90中，利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型包括：采用10折交叉验证方法，利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型。

优选的，多种工况包括正常工况和故障工况，其中，正常工况包括正常运行状态，故障工况包括试验数据丢帧状态、功率字跳变过大状态和滤波器损坏状态。

根据本发明的又一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法。

应用本发明的技术方案，对不同工况下的试验数据进行平衡分类采样，有效地解决了样本数据分布不平衡的问题；对平衡分类采样的数据进行预处理，便于后续模型计算，且提高了随机森林故障诊断训练模型的分类准确率；对随机森林故障诊断训练模型进行参数寻优，进一步提高了随机森林故障诊断训练模型的分类准确率。本发明的方法能够克服现有技术的缺陷，从而更快速、准确地解决卫星接收机系统长时间运行过程中的故障检测和分类。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施例，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明的一种实施例提供的基于随机森林的卫星接收机故障诊断方法的流程图；

图2示出了根据本发明的一种实施例提供的基本分类器迭代次数的学习曲线图；

图3示出了根据本发明的一种实施例提供的交叉验证的折线图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

如图1所示，本发明提供了一种基于随机森林的卫星接收机故障诊断方法，所述方法包括：

本发明对不同工况下的试验数据进行平衡分类采样，有效地解决了样本数据分布不平衡的问题；对平衡分类采样的数据进行预处理，便于后续模型计算，且提高了随机森林故障诊断训练模型的分类准确率；对随机森林故障诊断训练模型进行参数寻优，进一步提高了随机森林故障诊断训练模型的分类准确率。本发明的方法能够克服现有技术的缺陷，从而更快速、准确地解决卫星接收机系统长时间运行过程中的故障检测和分类。

根据本发明的一种实施例，多种工况包括正常工况和故障工况，其中，正常工况包括正常运行状态，故障工况包括试验数据丢帧状态、功率字跳变过大状态和滤波器损坏状态。试验数据丢帧状态，即传出的数据不连续；功率字跳变过大状态，即不同定位系统功率受到一定程度的干扰；滤波器损坏状态，即数据显示情况为功率字为0。

根据本发明的一种实施例，在S20中，对多种工况下的试验数据进行平衡分类采样，得到平衡分类采样的数据包括：利用随机稀释法对正常工况的试验数据进行欠采样，以对数量类别较多的数据进行稀释；利用SMOTE算法对故障工况的试验数据进行过采样，以对数量类别较少的数据进行补充，从而得到平衡分类采样的数据。

通过上述设置，有效地解决了样本数据分布不平衡的问题，可以使训练集和测试集中每个工况类别的样本数大致相同。

其中，SMOTE算法以欧式距离为标准，计算每个数据到少数类别样本的距离，得到k近邻，从而补充数据。

根据本发明的一种实施例，在S30中，对平衡分类采样的数据进行预处理，得到预处理后的样本数据包括：对平衡分类采样的数据进行归一化、数值化以及单位化处理，得到预处理后的样本数据，以便于后续模型计算，且提高了随机森林故障诊断训练模型的分类准确率。

根据本发明的一种实施例，在S40中，将预处理后的样本数据随机分为训练集和测试集，对训练集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第一采样样本，对测试集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第二采样样本包括：

S41、将预处理后的样本数据随机分为训练集和测试集；

其中，随机采样也就是无放回的采样方法，从n个特征指标随机采样m(m＜＝n)个特征。重采样也就是Bootstrap采样方法。数据值不能采用无放回的采样方法，因为如果数据值无放回采样，会导致每棵树用的数据样本完全不同，结果会产生偏差，每个决策树之间的相似性过小，造成投票结果差，从而使得模型偏差较大，所以数据值采样采用Bootstrap方法进行重采样，该方法是有放回方式，也就是有一些数据会被重复采样。举例来说，对于一个含有p个数据特征的数据集x来说，每次有放回的选取一个数据特征，重复p次，会形成一个新的数据集x₁，重复上述操作t次，就会形成t个不同的数据样本集合x₁，…，x_n。

在本发明的S50中，对包含数据特征和数据值的第一采样样本进行训练，生成决策树具体包括：从根节点开始，根据基尼系数最小化准则，对一个多维样本特征寻找样本特征空间的最优特征和最优特征值，将这些样本特征逐个分给下一层的子节点，从上而下递归生成子树。

其中，对于数据集D，假设数据集D有K个不同工况类别的特征，C_k为第k个工况类别特征的数量，则数据集D的基尼系数Gini(D)的计算公式如下：

在本发明的S70中，投票法采用少数服从多数方法，其计算公式如下：

式中，Label(x)为随机森林，I(C_m,n)为指示函数，M为决策树的数量，N为故障类别的数量，m为第m个决策树，n为第n个故障类别。

根据本发明的一种实施例，在S90中，利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型包括：采用10折交叉验证方法，利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型。

根据本发明的一种实施例，在S90中，通过下式得到验证后的随机森林故障诊断训练模型的准确率：

其中，验证后的随机森林故障诊断训练模型的准确率通过混淆矩阵获得，混淆矩阵的公式如下：

式中，CM为混淆矩阵，A为正例，B为反例。

下面以卫星接收机具有四种工况，每种工况数据样本均为1500组为例，对本发明的方法进行具体说明。在本实施例中，卫星接收机具有正常运行状态、试验数据丢帧、功率字跳变过大和滤波器损坏共四种工况。

步骤一、分别以阿拉伯数字1至4对每种工况数据样本进行标识；其中，数据样本中的每组数据为20维，分别包括定位状态、钟差、钟漂、PDOP值、北斗功率字、GPS功率字和卫星通道载噪比等。

步骤二、对四种工况下的试验数据进行平衡分类采样，得到平衡分类采样的数据，并对平衡分类采样的数据进行预处理，得到预处理后的样本数据。

步骤三、在预处理后的样本数据中随机选取70％作为训练集，30％作为测试集，对训练集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第一采样样本，对测试集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第二采样样本；其中，样本中前20维作为基于随机森林的卫星接收机故障诊断模型的输入，第21维作为基于随机森林的卫星接收机故障诊断模型的输出。

步骤四、对包含数据特征和数据值的第一采样样本进行训练，生成决策树；在本实施例中，将决策树作为基本分类器，每一个基本分类器都在一个随机的训练集上，采用bagging算法组合多个决策树分类的结果，通过网格搜索方法调节基本分类器迭代次数，从而确定随机森林模型中决策树(ntree)的数量范围。本实施例中决策树的范围设为[1,100]，经过网格搜索调节参数的基本分类器迭代次数的学习曲线如图2所示，由图2可知，在基本分类器个数(决策树的数量)大于20时，分类准确率维持在85％以上。

步骤五、利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型，从而得到验证后的随机森林故障诊断训练模型的准确率为90.2％，以完成卫星接收机的故障诊断。

在本实施例中，采用一次10折交叉验证得到的准确性对比图如图3所示，由图3可知，基于随机森林故障诊断训练模型的准确率维持在88％以上。经过参数寻优后的随机森林在保证最优的模型分类准确率的同时大大降低了模型的过拟合问题，从而更准确、可靠地实现对卫星接收机试验数据的故障检测和分类。

为不失一般性，在本实施例中采用10组10折交叉验证，其模型分类准确率取均值，模型及其他典型分类算法准确率对比如表1所示，采用现有SVM算法得到的准确率为73.5％，采用决策树算法得到的准确率为84％，采用本发明的方法得到的准确率为90.2％，如表1所示。本发明的方法相较于SVM算法准确率提高了16.7％，较决策树算法的准确率提高了6.2％，说明了本发明的方法对于卫星接收机试验数据故障诊断的准确率更高。

表1不同算法故障诊断结果对比

各种工况下的分类准确率如表2所示。其中，滤波器损坏相对来说分类准确率较高，为93.3％，这也和其为硬件故障较易识别有关。

表2各工况下分类准确率结果对比

本发明的故障诊断方法是基于多棵决策树的集成学习方法进行的故障诊断，具有分类效果好、能够处理高维度数据、抗过拟合能力强等优点，能够很好地对卫星导航测试数据进行分类，从而达到故障诊断的目的。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于随机森林的卫星接收机故障诊断方法，其特征在于，所述方法包括：

S70、采用投票法对随机森林进行判断，得到随机森林故障诊断训练模型；S80、采用网格搜索方法对随机森林故障诊断训练模型进行参数寻优，得到参数寻优后的随机森林故障诊断训练模型；

2.根据权利要求1所述的方法，其特征在于，在S90中，通过下式得到验证后的随机森林故障诊断训练模型的准确率：

3.根据权利要求1所述的方法，其特征在于，在S20中，对多种工况下的试验数据进行平衡分类采样，得到平衡分类采样的数据包括：利用随机稀释法对正常工况的试验数据进行欠采样，利用SMOTE算法对故障工况的试验数据进行过采样，得到平衡分类采样的数据。

4.根据权利要求1所述的方法，其特征在于，在S30中，对平衡分类采样的数据进行预处理，得到预处理后的样本数据包括：对平衡分类采样的数据进行归一化、数值化以及单位化处理，得到预处理后的样本数据。

5.根据权利要求1所述的方法，其特征在于，在S40中，将预处理后的样本数据随机分为训练集和测试集，对训练集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第一采样样本，对测试集中的数据特征和数据值进行采样，得到包含数据特征和数据值的第二采样样本包括：

S41、将预处理后的样本数据随机分为训练集和测试集；

6.根据权利要求1所述的方法，其特征在于，在S90中，利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型包括：采用10折交叉验证方法，利用包含数据特征和数据值的第二采样样本对参数寻优后的随机森林故障诊断训练模型进行验证，得到验证后的随机森林故障诊断训练模型。

7.根据权利要求1所述的方法，其特征在于，多种工况包括正常工况和故障工况，其中，正常工况包括正常运行状态，故障工况包括试验数据丢帧状态、功率字跳变过大状态和滤波器损坏状态。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一所述方法。