CN108304854A

CN108304854A - 一种基于随机森林的异常数据处理方法

Info

Publication number: CN108304854A
Application number: CN201711181398.3A
Authority: CN
Inventors: 宋凯; 徐鹏; 李阳; 苏日新; 赵丹
Original assignee: JIANGNAN ELECTROMECHANICAL DESIGN RESEARCH INSTITUTE; Harbin Institute of Technology
Current assignee: JIANGNAN ELECTROMECHANICAL DESIGN RESEARCH INSTITUTE; Harbin Institute of Technology
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-07-20

Abstract

一种基于随机森林的异常数据处理方法，通过将被动恢复数据后获取输出数据变为主动删减包含失效信息的失效决策树，该方法通过有效的改善了信息缺失或信息失效引起无法准确获取输出信息而导致的可靠性与准确性下降的情况，减少了由于应用恢复数据引起的检测准确度下降及不确定增加等问题。通过本发明的实施，可以在系统某个参数或某些参数存在异常情况下，仍能准确输出数据，提高系统在输入异常情况下的输出信息可靠性与准确性。

Description

一种基于随机森林的异常数据处理方法

技术领域

本发明涉及一种基于随机森林的异常数据处理方法。

背景技术

由于规模庞大、结构复杂、零件种类多、影响因素多的特点，使得复杂系统的故障发生概率较大，当输入部分存在信息缺失或信息异常的情况下，传统方法往往会由于系统处于失效状态而无法获取输出结果。为保证系统在数据丢失或数据异常情况下，仍然能够根据不完整的输入信息获取准确的输出结果，一旦某个或某些输入信息由于故障或者可靠性下降等因素导致信息失效，仍然能根据现存有效信息保证输出信息能够可靠且准确的获取。现常用的方法大多是采用数据恢复的方法，通过历史数据趋势或各零部件的相关性获取失效零部件的最佳估计值，再根据该估计值与其余真实值获取其输出值或决策结果，该信息会由于存在估计信息，使得输出信息的可靠性下降，其输出误差及不确定度也会随着其可靠性的下降而增大。

发明内容

为解决上述技术问题，本发明提供了一种基于随机森林的异常数据处理方法，通过将被动恢复数据后获取输出数据变为主动删减包含失效信息的失效决策树，该方法通过有效的改善了信息缺失或信息失效引起无法准确获取输出信息而导致的可靠性与准确性下降的情况，减少了由于应用恢复数据引起的检测准确度下降及不确定增加等问题。

本发明通过以下技术方案得以实现。

本发明提供的一种基于随机森林的异常数据处理方法，包括以下步骤：

步骤一：获取样本集，应用自助法对样本集进行有放回的采样，进行自助法样本扩充，对每一个样本构建一个与其规模相同的自助法样本；

步骤二：对每一个自助法样本分别建立一个决策树模型，在每个决策树的全部特征值中再进行无放回的随机选取，构建一个属性子集，并在每一步应用属性子集中最优属性进行决策树分枝；

步骤三：对每一棵树的决策结果通过数据融合获取其权重，当获取失效信息后，对每棵树的信息进行判断，若第i个决策树的属性子集中包含该失效属性，则判断该树的决策结果为失效，则令属性权重ω′’_i＝0，其余正常属性权重不变，即ω′‘_i＝ω_i。

步骤四：对权重进行重新分配，取失效信息δ＝[l₁,l₂,…,l_n]为输入失效信息所对应的属性参数，ξ＝[f₁,f₂,…,f_k]代表该决策树所使用的属性参数，表示该决策树内部的失效信息，当时取权重值为0，当时进行重新分配；

步骤五：对各决策树权重值需重新进行归一化处理，如式1所示，其中i为目标决策树编号，k为决策树总个数；

步骤六：对所获取的多个权重值进行加权融合获取其最终的决策结果。

在步骤三进行数据融合时使用神经网络进行数据融合。

在步骤三中进行数据融合时使用相关向量机进行数据融合。

在步骤四中，当时，若所面临的问题为分类问题，则将不包含失效信息的决策树权重置为1。

在步骤四中，当时，若所面临的问题为回归问题，则保持原决策树的权重不变。

在步骤六中，若所面临的问题为分类问题，则将权重为1的决策树输出结果进行汇总，输出为所有决策树中预测概率总和最大的那一个类。

在步骤六中，若所面临的问题为回归问题，则将所有决策树的结果进行加权平均，其权重根据正常权重在训练过程中所占比例进行重新分配，其结果为最终的预测输出结果。

本发明的有益效果在于：本发明通过随机森林的方法进行模型建模，通过删除包含失效信息的多余决策树，并根据有效决策树的结果经有效的权值分配，获取其输出信息。通过本发明的实施，可以在系统某个参数或某些参数存在异常情况下，仍能准确输出数据，提高系统在输入异常情况下的输出信息可靠性与准确性。

附图说明

图1是本发明的数据处理方法训练过程示意图；

图2是本发明的数据处理方法测试过程示意图；

图3是基于神经网络的最终参数获取方法示意图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1-图3所示，一种基于随机森林的异常数据处理方法，包括以下步骤：

在步骤三进行数据融合时使用神经网络进行数据融合。

在步骤三中进行数据融合时使用相关向量机进行数据融合。

以一个特定的复杂系统为例，需有一样本集set₁作为训练样本，记做X₁(包含m个特征属性值与n个样本)其输出结果记做Y₁(可为单参数或多参数)。则其训练步骤如下：

首先，将样本X₁进行自助法扩建，有放回的选取n个样本重新构建新的自助法样本。根据实际需求，分别构建k个自助法样本数量。该样本作为根节点的样本。此处，k值越大，则输出精度越高。如果当前节点达到终止条件，则将当前节点标记为叶节点；若未达到终止条件，则从n维特征属性值中随机选取出k个属性值作为决策树分枝的备选变量，从中选取最优特征属性值对该节点进行二分。随后，重复进行节点标记直到所有节点都已经被训练或被标记为叶节点。最后，重复训练操作直到所有决策树都已经被训练过。

此时，每个决策树均会获取一个输出值,记做y＝[y₁,y₂,…,y_n]。若是分类问题则训练结束。若是回归问题，则由神经网络进行训练获取各决策树的属性权重，记做ω＝[ω₁,ω₂,…,ω_n]。使得Y₁＝ω*y。

获取一组测试数据集set₂作为输入数据，将失效信息所在位置标记为δ＝[l₁,l₂,…,l_n]。其测试过程如下:

首先，将该组数据直接传入每个决策树中，每个决策树根据训练好的模型获取其预测值。随后，对失效信息进行判断，若失效信息F为则该信息中存在丢失信息，将该决策树权重置为0，即ω′’_i＝0；若则根据其针对的问题有所区别：如果是分类问题，则将不包含失效信息的决策树权重置为1；回归问题则保持原有权重不变。最后，重复权重重置操作直至所有决策树都给予预测值并重置权重。如果是分类问题，则将权重为1的决策树输出结果进行汇总，输出为所有决策树中预测概率总和最大的那一个类；如果是回归问题，则将所有决策树的结果进行加权平均，其权重需根据正常权重在训练过程中所占比例进行重新分配，其结果为最终的预测输出结果。

本发明通过随机森林的方法进行模型建模，通过删除包含失效信息的多余决策树，并根据有效决策树的结果经有效的权值分配，获取其输出信息。通过本发明的实施，可以在系统某个参数或某些参数存在异常情况下，仍能准确输出数据，提高系统在输入异常情况下的输出信息可靠性与准确性。

Claims

1.一种基于随机森林的异常数据处理方法，其特征在于包括以下步骤：

步骤三：对每一棵树的决策结果通过数据融合获取其权重，当获取失效信息后，对每棵树的信息进行判断，若第i个决策树的属性子集中包含该失效属性，则判断该树的决策结果为失效，则令属性权重ω”_i＝0，其余正常属性权重不变，即ω”_i＝ω_i。

步骤四：对权重进行重新分配，取失效信息δ＝[l₁,l₂,…,l_n]为输入失效信息所对应的属性参数，ξ＝[f₁,f₂,…,f_k]代表该决策树所使用的属性参数，F＝δ∩ξ表示该决策树内部的失效信息，当时，取权重值为0，当时进行重新分配；

2.如权利要求1所述的基于随机森林的异常数据处理方法，其特征在于：在步骤三进行数据融合时使用神经网络进行数据融合。

3.如权利要求1所述的基于随机森林的异常数据处理方法，其特征在于：在步骤三中进行数据融合时使用相关向量机进行数据融合。

4.如权利要求1所述的基于随机森林的异常数据处理方法，其特征在于：在步骤四中，当时，若所面临的问题为分类问题，则将不包含失效信息的决策树权重置为1。

5.如权利要求1所述的基于随机森林的异常数据处理方法，其特征在于：在步骤四中，当时，若所面临的问题为回归问题，则保持原决策树的权重不变。

6.如权利要求1所述的基于随机森林的异常数据处理方法，其特征在于：在步骤六中，若所面临的问题为分类问题，则将权重为1的决策树输出结果进行汇总，输出为所有决策树中预测概率总和最大的那一个类。

7.如权利要求1所述的基于随机森林的异常数据处理方法，其特征在于：在步骤六中，若所面临的问题为回归问题，则将所有决策树的结果进行加权平均，其权重根据正常权重在训练过程中所占比例进行重新分配，其结果为最终的预测输出结果。