CN115795380A

CN115795380A - 一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法

Info

Publication number: CN115795380A
Application number: CN202211492179.8A
Authority: CN
Inventors: 李晓理; 刘明华; 赵金元; 李桂海; 刘正明; 王康
Original assignee: Beijing Ruitai Zhilian Technology Co ltd; Beijing University of Technology
Current assignee: Beijing Ruitai Zhilian Technology Co ltd; Beijing University of Technology
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-14

Abstract

本发明公开了一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，该方法对烟气制酸脱硫过程进行分析，结合大量的生产监测数据，采用最大信息系数分析方法对风机出口O₂浓度、风机出口烟气温度、一级动力波入口压力、炉内压力、风机入口流量、转化器入口温度等工艺变量进行相关性分析，获得影响SO₂转化率和硫酸产量等指标的关键变量。然后，针对关键变量，对其原始数据的变化趋势进行分析，利用孤立森林算法对数据集中的异常值、离群值进行识别并剔除，得到缺失数据集。最后，采用加权随机森林算法对缺失数据集进行拟合预测，补偿其中的缺失数据，实现对烟气制酸过程数据的清洗及优化，从而达到提升脱硫效率和硫酸产量的目的。

Description

一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法

技术领域

本发明属于数据处理领域，特别涉及一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法。

背景技术

铜、铅、铝、镁等有色金属是我国国民经济和国防工业发展的重要战略物资，同时也是制造飞机、火箭、导弹、计算机等诸多设备的原材料。随着我国工业进程的不断加快和国民经济的快速发展，各个行业对有色金属资源的需求量越来越大。因此，有色金属的生产在我国的工业生产中已经占据了重要的位置。然而，在自然界中，大部分的有色金属矿物以硫化物的形式存在，冶炼时会产生大量的含有SO₂的烟气。含有SO₂的烟气直接排放到大气中，会造成空气污染、土壤酸化等一系列环境问题，同时SO₂作为3类致癌物也对人类的健康造成极大的威胁。因此，在环境保护意识日益提高的今天，如何对烟气中的SO₂进行有效的控制，成为亟待解决的课题。由于冶炼烟气中SO₂浓度高、变化范围广，目前已有一套比较成熟的烟气脱硫工艺——烟气制酸。冶炼烟气制酸工业是通过对烟气中的SO₂的回收，生产高浓度的硫酸。

烟气制酸是一个复杂多变量、强耦合的非线性过程，其运行过程的数据是实现烟气制酸过程状态监测、操作优化控制以及故障诊断等环节的重要依据，是提高硫酸生产效率和生产水平的信息基础。由于烟气制酸过程运行环境复杂，设备众多，各个环节的耦合性较强，检测设备得到的数据可能受到严重的污染，容易出现数据缺失、离群等异常情况，给烟气制酸过程数据分析和处理带来极大的困难。因此，准确地剔除数据中的离群值并将其中缺失的数据补偿，对于烟气制酸过程的后续建模及控制具有重要意义。

目前，针对数据集中异常值的特征难以识别的问题，多种异常数据识别方法被广泛提出，其中包括基于数据的概率分布、密度及其之间的距离等方法，具体方法有拉依达法则、四分位数法、DBSCAN聚类等方法。然而，基于概率分布的分析方法仅适用于已知分布特性的数据，基于聚类算法的异常值检测方法仅能找出数据的全局离群值，难以识别出局部数据的异常特征。针对缺失数据集的补偿问题，广泛采用的方法有插值法、支持向量机回归、BP神经网络拟合法等。然而，插值法过于依赖历史数据和相邻数据的质量，无法对任意集中的异常数据进行准确补偿。而采用神经网络对数据进行补偿需要确保训练网络的数据的有效性，还需要其他算法辅助判断。实际的烟气制酸过程中，异常数据不仅包含单个变量的异常特征，而且包含多个变量数据的同步或异步等多种特征，现有的异常数据补偿方法还无法进行有效补偿。

因此，基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法中，孤立森林可以快速、准确地识别异常数据并对其进行剔除，加权随机森林可以根据变量之间的关系，采用回归树集成学习的方法对数据的变化趋势进行拟合预测，有效补偿剔除的异常数据。通过对异常数据的识别、剔除、补偿，得到有价值的数据集，进一步提高后续建模和控制的精度，从而保证烟气制酸系统平稳运行，提高SO₂转化率和硫酸产量。

发明内容

本发明提出一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，该方法以某铜厂冶炼厂的烟气制酸生产过程实际数据作为输入，通过最大信息系数分析方法选择对SO₂转化率和硫酸产量影响较大的数据变量。采用孤立森林算法建立异常数据识别模型，对所提取的关键变量数据集中的离群值、异常值进行识别并剔除。而后采用加权随机森林算法建立缺失数据补偿模型，补偿缺失数据集中的缺失数据，得到有价值的数据集，实现对烟气制酸过程数据的清洗及优化。

一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，其特征在于，包括以下步骤：

步骤1：烟气制酸过程监测系统在某铜厂冶炼产生的烟气制取硫酸过程中，对生产过程进行实时监控和数据采集。

步骤2：采用最大信息系数分析方法对过程变量和产能指标之间的相关性进行分析，得到影响SO₂转化率和硫酸产量的关键变量。

步骤3：根据关键变量数据的变化趋势，设计基于孤立森林的异常数据识别模型，识别并剔除数据集中的离群值。

步骤4：建立基于加权随机森林的拟合预测模型对缺失数据集进行拟合预测，补偿其中的缺失数据，得到有价值的数据集。

本发明实施例的基于孤立森林和加权随机森林的烟气制酸清洗及优化方法，以某铜厂冶炼厂烟气制酸运行过程数据为研究对象，对风机出口O₂浓度、风机出口烟气温度、一级动力波入口压力、炉内压力、风机入口流量、转化器入口温度等工艺变量与SO₂转化率、硫酸产量等产能指标进行相关性分析，选取对后续建模和控制精度影响较大的关键变量。对所选取关键变量数据的变化趋势进行分析，建立基于孤立森林的异常数据识别模型，对数据集中的异常数据进行识别并剔除。而后建立基于加权随机森林的缺失数据补偿模型，补偿剔除的缺失数据，为后续建模和控制提供有价值的数据集，提高控制和建模的精度，进一步保证烟气制酸系统的平稳运行，提高SO₂转化率和硫酸产量。

另外，根据本实施例的一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，还具有如下附加的技术特征：

在步骤2中需要根据实际的生产过程数据，利用最大信息系数分析方法对烟气流量、转化器各层入口温度、风机出口压力等过程变量与SO₂转化率和硫酸产量等产能指标之间的相关性进行分析，提取最大信息系数绝对值大于0.75的关键变量。该分析方法通过计算两个变量之间的互信息来进一步计算两个变量之间的最大信息系数，计算公式如下：

B(n)＝n^0.6 (12)

其中，变量X为SO₂转化率，变量Y为烟气制酸过程中的各个变量，I[X；Y]为变量X和变量Y之间的互信息，p(X,Y)为变量X和变量Y之间的联合概率，p(X)为变量X的概率分布，p(Y)为变量Y的概率分布，MIC[X；Y]为变量X和变量Y之间的最大信息系数，n为数据量。B(n)为一个变量，其大小与数据量相关。由此得到影响SO₂转化率的关键变量。同理可得到影响硫酸产量的关键变量。

采用最大信息系数分析方法对变量之间的相关性进行分析的主要步骤如下：

(1)给定i和j的值，对变量X和变量Y构成的散点图进行i列j行网格化，并求出最大的互信息值。

(2)对最大的互信息值进行归一化。

(3)选择不同尺度下互信息的最大值作为MIC值。

在步骤3中，建立基于孤立森林的异常数据识别模型，对所提取的影响SO₂转化率和硫酸产量的关键变量数据集中的离群值、异常值进行识别并剔除。孤立森林算法对样本点进行多重二元分割，直到每个样本点或者少数样本点被分割到同一区域。正常数据往往需要经过多次分割，处于高密度区域；异常数据需要经过少数分割，处于低密度区域。

烟气制酸数据集经过异常数据识别模型处理过后形成不同的高低密度区域，通过计算数据异常值评分来表征数据所在区域，并对评分高的数据进行剔除，计算方法如下：

其中，C(u)为烟气制酸数据集中所有数据的平均路径长度，S(h_ij,u)为烟气制酸变量数据异常值评分，u为烟气制酸数据样本数量，h_ij为烟气制酸数据x_ij的路径长度，ξ为欧拉常数，E(h_ij)为数据x_ij在n棵孤立树中的平均路径长度。

按照上述计算方法，当S(h_ij,u)的值接近0.5时，不能明显分辨出该数据在烟气制酸数据集中是否为异常值；当S(h_ij,u)的值接近0时，判定该数据为正常数据；当S(h_ij,u)的值接近1时，判定该数据为异常值。根据每个数据的异常值分数，将其从烟气制酸数据集中剔除。在进行异常值识别及剔除实验时的步骤如下：

(1)从步骤2中提取的关键变量数据集中随机选择容量为n的样本，作为训练孤立树的训练集。

(2)在训练集中随机选择变量Q作为根节点，并随机在Q的取值范围内选择一个切割点T。

(3)将变量值大于等于T的样本放在左节点，小于T的样本放在右节点。

(4)对于左右节点的数据重复步骤(2)和步骤(3)，直到满足结束条件，完成孤立森林模型的建立。结束的条件为以下三种情况之一：

①达到最大限度树的高度；

②节点上的样本对应特征的值全部相等；

③节点只有一个样本。

在步骤4中，建立基于加权随机森林的缺失数据补偿模型，对缺失数据集进行拟合预测，补偿其中的缺失数据，实现对烟气制酸过程数据的清洗及优化。

加权随机森林通过对基学习器赋予不同的权重实现对基学习器的预测结果加权，提高随机森林的预测精度。加权随机森林回归采用袋外数据的预测平均绝对误差百分比MAPE作为评估指标来评价基学习器的预测能力，对其赋予权重。

其中，MAPE为烟气制酸数据的随机森林回归模型袋外数据的预测平均绝对误差百分比，t为袋外数据数量，y_i为烟气制酸数据真实值，f(x_i)为随机森林回归预测值，MAPE_i为第i棵回归树的预测平均绝对误差百分比，w_i为第i棵回归树的权重，n为随机森林算法中回归树的数量。当MAPE_i的值越大，则该学习器的预测精度越低，w_i的值会相应地降低，表明该学习器对预测结果的影响变小。加权随机森林算法的具体步骤如下：

(1)从烟气制酸数据训练矩阵T中有放回地抽取一个子样本矩阵作为回归树的训练样本，其大小与训练矩阵大小相同。

(2)每个烟气制酸数据样本的特征维度为M，指定一个常数m，m<<M。随机地从M个特征中选取m个特征子集，每次回归树进行分裂时，从这m个特征中选择最优的。

(3)每棵树都尽最大程度的生长，并且没有剪枝过程，直到达到树的高度则停止生长。

(4)在训练第i棵回归树的时候，将袋外数据作为测试集输入该回归树中，分别计算该回归树的预测平均绝对误差百分比MAPE_i和权重w_i。

(5)重复以上步骤，完成n棵回归树的构建和训练。

最后，n棵加权回归树集成得到加权随机森林，得到最后的模型输出为：

其中，w_i为第i棵回归树的权重，T_i为第i棵回归树的预测结果。

附图说明

图1是孤立森林模型图。

图2是随机森林回归模型图。

图3是孤立森林算法流程图。

图4是加权随机森林算法流程图。

具体实施方式

下面详细说明本发明的实施例，本实施例在本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

步骤2：采用最大信息系数分析方法对过程变量和产能指标之间的相关性进行分析，得到影响SO₂转化率和硫酸产量的关键变量。将关键变量作为后续数据清洗、建模和控制的主要对象。

步骤3：分析关键变量数据的变化趋势，设计基于孤立森林的异常数据识别模型，识别并剔除数据集中的离群值。

步骤4：建立基于加权随机森林的拟合预测模型对缺失数据集进行拟合预测，补偿其中的缺失数据，得到有价值的数据集，实现烟气制酸过程数据的清洗及优化。

Claims

1.一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，其特征在于，包括以下步骤：

步骤1：烟气制酸过程监测系统在铜厂冶炼产生的烟气制取硫酸过程中，对生产过程进行实时监控和数据采集；

步骤2：基于步骤1的实时监控和数据采集，采用最大信息系数分析方法对过程变量和产能指标之间的相关性进行分析，得到影响SO₂转化率和硫酸产量的关键变量；

步骤3：根据步骤2获取的关键变量数据的变化趋势，设计基于孤立森林的异常数据识别模型，识别并剔除数据集中的离群值、异常值；

步骤4：建立基于加权随机森林的拟合预测模型，对缺失数据集进行拟合预测，补偿其中的缺失数据，得到有价值的数据集。

2.根据权利要求1所述的一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，其特征在于，根据实际的生产过程数据，提取影响SO₂转化率和硫酸产量的关键变量，比如烟气流量、转化器各层入口温度、风机出口压力等；利用最大信息系数分析方法对变量之间的相关性进行分析，通过计算两个变量之间的互信息计算两个变量之间的最大信息系数，计算公式如下；

B(n)＝n^0.6 (3)

其中，变量X为SO₂转化率，变量Y为烟气制酸过程中的各个变量，I[X；Y]为变量X和变量Y之间的互信息，p(X,Y)为变量X和变量Y之间的联合概率，p(X)为变量X的概率分布，p(Y)为变量Y的概率分布，MIC[X；Y]为变量X和变量Y之间的最大信息系数，n为数据量；B(n)为一个变量，其大小与数据量相关；由此得到影响SO₂转化率的关键变量；同理可得到影响硫酸产量的关键变量；

采用最大信息系数分析方法对变量之间的相关性进行分析的步骤如下：

步骤1：给定i和j的值，对变量X和变量Y构成的散点图进行i列j行网格化，并求出最大的互信息值；

步骤2：对最大的互信息值进行归一化；

步骤3：选择不同尺度下互信息的最大值作为MIC值；

根据上述方法分析烟气制酸过程变量与SO₂转化率、硫酸产量之间的相关性，提取相关性较大的变量作为数据清洗的对象。

3.根据权利要求1所述的一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，其特征在于，建立基于孤立森林的异常数据识别模型，对所提取的影响SO₂转化率和硫酸产量的关键变量数据集中的离群值、异常值进行识别并剔除；

孤立森林算法对样本点进行多重二元分割，直到每个样本点或者少数样本点被分割到同一区域；正常数据往往需要经过多次分割，处于高密度区域；异常数据需要经过少数分割，处于低密度区域；

其中，C(u)为烟气制酸数据集中所有数据的平均路径长度，S(h_ij,u)为烟气制酸变量数据异常值评分，u为烟气制酸数据样本数量，h_ij为烟气制酸数据x_ij的路径长度，ξ为欧拉常数，E(h_ij)为数据x_ij在n棵孤立树中的平均路径长度；

按照上述计算方法，当S(h_ij,u)的值接近0.5时，不能明显分辨出该数据在烟气制酸数据集中是否为异常值；当S(h_ij,u)的值接近0时，判定该数据为正常数据；当S(h_ij,u)的值接近1时，判定该数据为异常值；根据每个数据的异常值分数，将其从烟气制酸数据集中剔除；在进行异常值识别及剔除实验时的步骤如下：

步骤1：从权利要求2中提取的关键变量数据集中随机选择容量为n的样本，作为训练孤立树的训练集；

步骤2：在训练集中随机选择变量Q作为根节点，并随机在Q的取值范围内选择一个切割点T；

步骤3：将变量值大于等于T的样本放在左节点，小于T的样本放在右节点；

步骤4：对于左右节点的数据重复步骤2和步骤3，直到满足结束条件，完成孤立森林模型的建立；结束条件为以下三种情况之一：

1)达到最大限度树的高度；

2)节点上的样本对应特征的值全部相等；

3)节点只有一个样本。

4.根据权利要求1所述的一种基于孤立森林和加权随机森林的烟气制酸数据清洗及优化方法，其特征在于，建立基于加权随机森林的缺失数据补偿模型，对缺失数据集进行拟合预测，补偿其中的缺失数据，实现对烟气制酸过程数据的优化；

传统的随机森林通过对所有回归树，即基学习器的输出结果求均值得到预测结果，影响随机森林的预测精度；加权随机森林通过对基学习器赋予不同的权重实现对基学习器的预测结果加权，提高随机森林的预测精度；加权随机森林回归采用袋外数据的预测平均绝对误差百分比MAPE作为评估指标来评价基学习器的预测能力，对其赋予权重；

其中，MAPE为烟气制酸数据的随机森林回归模型袋外数据的预测平均绝对误差百分比，t为袋外数据数量，y_i为烟气制酸数据真实值，f(x_i)为随机森林回归预测值，MAPE_i为第i棵回归树的预测平均绝对误差百分比，w_i为第i棵回归树的权重，n为随机森林算法中回归树的数量；当MAPE_i的值越大，则该学习器的预测精度越低，w_i的值会相应地降低，表明该学习器对预测结果的影响变小；加权随机森林算法的具体步骤如下：

步骤1：从烟气制酸数据训练矩阵T中有放回地抽取一个子样本矩阵作为回归树的训练样本，其大小与训练矩阵大小相同；

步骤2：每个烟气制酸数据样本的特征维度为M，指定一个常数m，m<<M；随机地从M个特征中选取m个特征子集，每次回归树进行分裂时，从这m个特征中选择最优的；

步骤3：每棵树都尽最大程度的生长，并且没有剪枝过程，直到达到树的高度则停止生长；

步骤4：在训练第i棵回归树的时候，将袋外数据作为测试集输入该回归树中，分别计算该回归树的预测平均绝对误差百分比MAPE_i和权重w_i；

步骤5：重复以上步骤，完成n棵回归树的构建和训练；