CN116467911A

CN116467911A - 基于多工况信息融合的蒸发过程出口溶液浓度估算方法

Info

Publication number: CN116467911A
Application number: CN202310394457.4A
Authority: CN
Inventors: 谢森; 华禹洋; 楼志江; 卢山; 刁旭东
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-07-21
Anticipated expiration: 2043-04-13
Also published as: CN116467911B

Abstract

基于多工况信息融合的蒸发过程出口溶液浓度估算方法，采用PC机内分析单元、降维单元、聚类单元、平衡单元、建模单元作为估算的应用软件，蒸发过程出口溶液浓度的估算方法包括五个步骤。本发明在机理建模基础上，将其预测结果用以补全离线化验的实际浓度，解决了输入与输出之间数据量不平衡的问题，提升了数据驱动估计模型的准确性，为保证工业过程关键变量实时控制、产品质量提升、能耗优化等方面给予了强有力技术支持；为具有数据缺失获取难度大、相关变量维度高、数据特征非线性、多工况运行等特点的类似工业过程预估问题提供了一种良好的解决方案。由于上述，因此，本发明有着良好的应用前景。

Description

基于多工况信息融合的蒸发过程出口溶液浓度估算方法

技术领域

本发明涉及计算方法技术领域，特别是一种基于多工况信息融合的蒸发过程出口溶液浓度估算方法。

背景技术

利用拜耳法制取氧化铝，具体生产中，是将苛性碱与铝土矿中的氧化铝反应，形成铝酸钠，然后再经过溶出、分解、蒸发和焙烧等工艺，进而获得氧化铝。在氧化铝生产过程中，蒸发工艺是用来除去循环母液中的多余水分和一些杂质、然后再进入溶出流程。如果蒸发过程出口、蒸发母液浓度无法满足溶出过程生产所需，则会严重制约溶出过程正常运行，甚至影响整个氧化铝产品质量。

实际情况下，由于氧化铝生产蒸发过程是多设备级联耦合协同生产，且存在物料传质传热等复杂关联特性，因此会使其出口溶液浓度具有强非线性和大时滞性。目前技术中，在实际生产现场，通常是采用人工取样并在实验室离线分析的方式获取浓度信息，该过程大约耗时4小时以上，不但存在费时费力的缺点，而且溶液浓度不能及时反应操作参数带来的变化，难以为实时生产控制起到指导作用。此外，由于受到入料条件变化、出口产品质量需求改变、生产控制性能下降、设备故障检修等影响，生产运行工况存在多变和不确定等特点，也制约了过程建模的有效性和准确性。因此，提供一种能提高蒸发过程出口溶液浓度数据获取效率机准确性的技术显得尤为必要。

发明内容

为了克服现有氧化铝生产中，获取蒸发过程出口溶液浓度数据的方式，由于技术所限，存在费时费力、难以为实时生产控制起到指导作用、制约了过程建模有效性和准确性，会对生产带来不利影响的弊端，本发明提供了一种在机理建模基础上，将其预测结果用以补全离线化验的实际浓度，解决了输入与输出之间数据量不平衡的问题，提升了数据驱动估计模型的准确性，为保证工业过程关键变量实时控制、产品质量提升、能耗优化等方面给予了强有力技术支持的基于多工况信息融合的蒸发过程出口溶液浓度估算方法。

本发明解决其技术问题所采用的技术方案是：

基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，采用PC机内分析单元、降维单元、聚类单元、平衡单元、建模单元作为估算的应用软件，蒸发过程出口溶液浓度的估算方法包括如下步骤，步骤A：通过分析单元，基于氧化铝生产的蒸发过程机理分析，建立面向平衡原理、工业知识的出口溶液浓度机理估计模型，使大量实时获取的相关变量数据与关键变量的估计值相匹配，以匹配输入变量和输出变量的关系；步骤B：通过降维单元，利用最大信息系数原理对原始输入的数据进行降维，筛选出与关键变量相关性强的辅助变量，减弱数据的冗余性使之更易于模型的训练；步骤C：通过聚类单元，基于谱聚类对降维后的数据进行聚类分析，根据数据特点将所有生产工况分类，并将工况标签与数据结合；步骤D：通过平衡单元，采用ADASYN方法对工况分类后的数据进行平衡处理，丰富极端工况下的数据样本量，使得每种工况下的样本均匀分布，确保数据驱动模型的有效性；步骤E：通过建模单元，针对不同工况，建立CATBoost模型以获得出口溶液浓度的估计值。

进一步地，所述步骤A中，具体的，是基于平衡原理与工业知识，构建的氧化铝生产蒸发过程各个蒸发器和各个闪蒸器的机理模型，并通过蒸发水量计算获得溶液浓度，具体包括如下分步骤，S1：基于各变量间的关联耦合关系，确定料液比热和密度等物性参数，获取蒸发器设备出口溶液流量、浓度；S2：组建各个蒸发器的平衡模型，求解得到蒸汽量；S3：比较实际蒸汽量与S2计算获得的蒸汽量的偏差，若符合运行要求，则根据蒸发全过程出口溶液流量与入口溶液浓度计算总蒸汽量，否则，原计算中涉及的蒸汽量被之后计算的蒸汽量代替，再转至S1、直至满足符合运行要求。

进一步地，所述步骤B中，具体的，筛选比较计算获得的每个相关变量与出口溶液浓度的最大信息系数值，保留前几个值较大的变量数据作为数据驱动模型的训练数据。

进一步地，所述步骤C中，具体的，是采用谱聚类对不同生产工况进行分类，将蒸发过程所有数据看成空间中的点，将这些点用边连接起来，距离较远的两个点之间的边权重较低，而距离较近的两个点之间的权重较高，通过对所有数据点组成的图进行切图，让切图后的不同子图间边权重和尽可能小，而子图内的边权重和尽可能高。

进一步地，所述步骤C中，基于谱聚类的工况分类，具体包括如下分步骤：S1：根据邻接矩阵生成方式构建邻接矩阵W和度矩阵D；S2：计算拉普拉斯矩阵L；S3：构建标准化后的拉普拉斯矩阵D^-12LD^-12；S4：计算D^-12LD^-12最小的K个特征值所各自对应的特征向量f；S5：将特征向量f组成的矩阵按行标准化，组成n×k₁维矩阵F；S6、将F中的每一行作为一个K₁维样本，共n个样本，通过K-means聚类，其中，k值的选取将极大影响聚类的效果，因此，计算CH和轮廓系数两种指标来判断最佳k值，值越大表示聚类效果越好；S7：得到最终簇的划分得到最合适的分类工况数。

进一步地，所述步骤D中，ADASYN能自适应合成抽样对不同少数样本赋予不同的权重，生成不同数量的样本，可以显著减少分类不平衡带来的偏差。

进一步地，所述步骤E中，CATBoost数据驱动模型实现出口溶液浓度估计，能解决XGBoost中梯度偏差以及预测偏移的问题，从而减少过拟合的发生，提高算法的准确性和泛化能力，具体应用中，已构建的不同工况的类别标签与数值特征进行组合，能丰富数据集的特征维度，除了工况标签，还可以将生产现场的温度、流量等类别特征作为CATBoost模型输入，以自动组合方式提升估计的精度，实现多工况信息融合场景下的出口溶液浓度估计。

本发明有益效果是：本发明在分析单元、降维单元、聚类单元、平衡单元、建模单元，及相应方法共同作用下，具有以下优点，其一：详细分析了蒸发过程运行机理，通过平衡原理和工业知识，建立了过程机理估计模型，其估计结果使实时获取的过程变量数据与对应的出口溶液浓度估计值相匹配，平衡了原始数据集输入与输出数据量，有利于数据驱动模型有效性提升；其二：基于MIC最大信息系数、谱聚类和ADASYN，进行工况分类，将含有冗余维度且样本量不足的浓度数据按数据特征分到不同工况，在扩充了极端工况的样本量后，将工况标签与原始数据集结合，极大提高了数据驱动模型的估计精度，缩短了模型的训练时间；其三：利用可自动处理类别标签的CATBoost模型实现多工况生产环境下的出口溶液浓度估计，提高了估计建模的可行性。本发明为具有数据缺失获取难度大、相关变量维度高、数据特征非线性、多工况运行等特点的类似工业过程预估问题提供了一种良好的解决方案。同时，本方法不仅估计效果较好，且训练时间短，可以快速的完成关键变量的估计，是一种有效的出口浓度估计模型，因此，有着良好的应用前景。

附图说明

图1为本发明实施实例中基于工况分类的估计模型的结构示意图。

图2为本发明实施实例中实际和估计的出口溶液浓度对比图。

图3为本发明实施实例中不同模型误差曲线对比图。

图4为本发明实施实例中各种模型的误差分布图。

具体实施方式

图1所示，基于多工况信息融合的蒸发过程出口溶液浓度估算方法，采用PC机内分析单元、降维单元、聚类单元、平衡单元、建模单元作为估算的应用软件，蒸发过程出口溶液浓度的估算方法包括如下步骤，步骤A：通过分析单元，基于热量平衡原理(热量平衡原理指反应器入口的与出口的热量是相等的)与工业知识(氧化铝生产蒸发工艺原理及专家经验)，构建氧化铝生产蒸发过程各个蒸发器和各个闪蒸器的机理模型，使大量实时获取的相关变量数据(流量、温度等实时检测的过程数据)与关键变量(出口溶液浓度，即铝酸钠溶液浓度)的估计值相匹配，以匹配输入变量(过程实时检测变量)和输出变量(出口溶液浓度)的关系，通过蒸发器和各个闪蒸器蒸发水量计算获得溶液浓度。具体的基于设定的如下数据：(1)闪蒸器的蒸汽、料液在加热管中均匀分布；(2)整个生产过程只考虑蒸发器和各个闪蒸器的饱和蒸汽；(3)忽略蒸发器和各个闪蒸器结垢引起的溶质质量变化，结合物料平衡(生产过程投入的物料量与产出的物料量相等)和热量平衡原理、工业知识，分别建立各蒸发器和各闪蒸器的机理模型。氧化铝生产的五效蒸发器、六效蒸发器和一级闪蒸器的机理模型公式如下所示，其他设备以此类推。五效蒸发器，其溶质(铝酸钠溶质)平衡模型公式为：F_iC_i＝F₀₂C₀+F_i+1C_i+1；溶液(铝酸钠溶液)平衡模型公式为：热量(蒸汽和溶液传递的热量)平衡模型公式为：/>六效蒸发器，溶质平衡模型公式为：F₀₁C₀＝F_iC_i；溶液平衡模型公式为：F₀₁ρ₀＝F_iρ_i+V_i；热量平衡模型公式为：/>一级闪蒸器，溶质平衡模型公式为：/>溶液平衡模型公式为：/>热量平衡模型公式为：/>建立的蒸发全流程机理模型如下：/>；式中，通过蒸发水量计算出口溶液浓度，针对蒸汽,V和/>是二次蒸汽流量；V₀是新蒸汽流量；H和/>是蒸汽热焓；H₀是新蒸汽热焓；T_Vi是二次蒸汽温度；针对物料，F和F^s是物料流量；T和T^s物料温度；cp和cp^s是物料比热；ρ和ρ^s是密度；F₀是总进料流量；F₀₂和F₀₁是进五效蒸发器和进六效蒸发器的物料流量；针对冷凝水，T_n′是冷凝水温度；cp_w是水的比热；k_i是传热系数；A_i是传热面积；Q^loss是热损失；W_z是蒸水量。具体的，基于构建的出口溶液浓度与蒸水量模型，考虑了溶液水分对出口溶液浓度起一定决定作用，因此，利用平衡原理和工业运行知识确定出口溶液浓度机理估计模型，具体包括如下分步骤：S1：基于各变量间的关联耦合关系，确定料液(铝酸钠溶液)比热和密度等物性参数，获取蒸发器设备出口溶液流量、浓度；S2：组建各个蒸发器的平衡模型，求解得到蒸汽量；S3：比较实际蒸汽量与S2计算获得的蒸汽量的偏差，若符合运行要求，则根据蒸发全过程出口溶液流量与入口溶液浓度计算总蒸汽量；否则，原计算中涉及的蒸汽量被之后计算的蒸汽量代替，再转至S1、直至满足符合运行要求。该步骤的具体作用：建立出口溶液浓度机理估计模型，使关键变量的估计值与实时获取的相关变量数据相匹配，为后续步骤提供足够的输入数据。

图1所示，步骤B：通过降维单元，利用最大信息系数原理对原始输入的数据(从生产现场实时采集的过程变量，如流量、温度等)进行降维，筛选出与关键变量相关性强的辅助变量(也就是，筛选比较计算获得的每个相关变量与出口溶液浓度的最大信息系数值，辅助变量意思：在大多数过程实时检测变量中筛选出与出口溶液浓度相关性较强的变量，辅助后续出口溶液浓度估计，所以称之为辅助变量)，减弱数据的冗余性使之更易于模型(溶液浓度估算模型)的训练(也就是，保留前几个值较大的变量数据作为数据驱动模型的训练数据)。具体的，首先寻找一种最优的离散化方式，把互信息取值转换成一种度量方式，给定i和j，对X和Y构成的散点图进行i列j行网格化，并求出最大的互信息值I(x；y)，表示为：

其中，p(X,Y)为联合概率，x和y是输入与输出变量，p(X)和p(Y)为其对应的概率,最大信息系数针对两个变量之间的关系，将其离散在二维空间中，并且使用散点图来表示，将当前二维空间在x和y方向分别划分为一定的区间数，然后查看当前的散点在各个方格中落入的情况，也就完成了较为困难的联合概率的计算。继之，对最大的互信息值进行归一化，可表示为：

再选择不同尺度下互信息的最大值作为MIC值，表示为：

其中，x和y是输入与输出变量，a和b是在x和y方向上的划分格子的个数，B是变量，通常B的大小设置为数据量的0.6次方左右。最后，比较计算获得的每个相关变量与出口溶液浓度的MIC(最大信息系数)值，保留前几个值较大的变量数据作为数据驱动模型(CATBoost模型)的训练数据。该步骤的具体作用：筛选出与关键变量相关性更强的辅助变量，减弱数据的冗余性使之更易于数据驱动模型的训练。

图1所示，步骤C：通过聚类单元，基于谱聚类算法对降维后的数据进行聚类分析，根据数据特点将所有生产工况分类(根据数据特征，生产工况包括更普遍的日常工况与较少发生的极端工况两大类，每类中又可根据数据特点细分为不同的日常与极端工况，如：日常工况1、2、3等，极端工况1、2、3等)，并将工况标签(如：日常工况1、2、3等或极端工况1、2、3等)与数据结合采用谱聚类对不同生产工况进行分类。具体的，将蒸发过程所有数据看成空间中的点，将这些点用边连接起来，距离较远的两个点之间的边权重较低，而距离较近的两个点之间的权重较高，通过对所有数据点组成的图进行切图，让切图后的不同子图间边权重和尽可能小，而子图内的边权重和尽可能高。其中，对于一个图G，通常用点集合V和边集合E来描述，G＝(V,E)。定义权重w_ij为点v_i和v_j之间的权重，考虑为无向图，w_ij＝w_ji。对于有边连接的两个点v_i和v_j，w_ij＞0；对于没有边连接的两个点v_i和v_j，w_ij＝0。图中任意一个点v_i，它的度d_i定义为与它相连的所有边权重之和利用每个点的度的定义，得到一个n×n的度矩阵D，作为一个对角矩阵只有主对角有值，对应第i行为第i点的度；利用所有点之间的权重，得到图的临近矩阵W，也是一个n×n矩阵，第i行的第j个值对应权重w_ij，而拉普拉斯矩阵L＝D-W。基于谱聚类的工况分类包括如下分步骤：S1：根据邻接矩阵生成方式构建邻接矩阵W和度矩阵D(通常包括∈邻近法、K临近法、全连接法)；S2：计算拉普拉斯矩阵L；S3：构建标准化后的拉普拉斯矩阵D^-1/²LD^-1/²；S4：计算D^-1/²LD^-1/²最小的K个特征值所各自对应的特征向量f；S5：将特征向量f组成的矩阵按行标准化，组成n×k₁维矩阵F；S6：将F中的每一行作为一个K₁维样本，共n个样本。通过K-means聚类，其中，k值的选取将极大影响聚类的效果，因此，计算CH和轮廓系数两种指标来判断最佳k值，值越大表示聚类效果越好；S7、得到最终簇的划分/>该步骤的具体作用：为数据添加工况标签，加强数据特点，区分不同类型的数据，使数据驱动模型可以快速的学习数据的特点而进行高精度估计。

图1所示，步骤D：通过平衡单元，采用ADASYN方法(针对不平衡学习的自适应合成抽样方法)对工况分类后的数据进行平衡处理，丰富极端工况(极端工况数据样本指在数据分类中所占比例较少的数据，产生的原因可能是设备故障突然停车或外部环境干扰运行条件突变等)下的数据样本量，使得每种工况下的样本均匀分布，确保数据驱动模型的有效性。原始数据经过了聚类处理划分为不同类别，无法保证每个类中的样本量相同，易出现多数类的样本在总样本占据的比重过大，少数类因样本太少而被忽视的情况。最终，训练出来的估计模型更偏向于多数类而导致性能下降。因此，需要对不平衡的数据进行处理，采用ADASYN方法平衡不同工况下数据样本量，ADASYN自适应合成抽样对不同少数样本赋予不同的权重，生成不同数量的样本，可以显著减少分类不平衡带来的偏差。具体的，包括如下分步骤。S1：计算需要合成的样本数量G＝(m_l-m_s)×β，其中，m_l为多数类样本数量，m_s为少数类样本数量，β∈[0,1]随机数，若β等于1，采样后正负比例大致为1:1。S2：计算K临界中多数类占比r_i＝Δi/K，Δi(i＝1,2,3,...,m_s)为K近邻中多数类样本数；S3：对r_i标准化S4、根据样本权重，计算每个少数类样本需生成新样本的数目/>S5：根据g计算每个少数样本需生成的数目，根据SMOTE算法生成样本s_i＝x_i+(x_zi-x_i)×λ，s_i为合成样本，x_i是少数类样本中第i个样本，x_zi是x_i的K近邻中随机选取一个少数类样本λ∈[0,1]的随机数。该步骤的具体作用：平衡不同工况下的数据样本量，使得每种工况下的样本均匀分布，可以提高数据驱动模型的适用性。

图1所示，步骤E：通过建模单元，针对不同工况，建立CATBoost模型以获得出口溶液浓度的估计值；使用CATBoost数据驱动模型(CATBoost采用一种既能减少过度拟合，又能利用全部数据进行训练的有效策略)实现出口溶液浓度估计，其作为一种能很好地处理类别型特征的梯度提升算法，还可以解决XGBoost(优化的分布式梯度增强库)中梯度偏差以及预测偏移的问题，从而减少过拟合(过拟合指数据驱动模型可以为训练数据提供准确的估计，但在训练数据外的数据集上却不能很好的进行精确估计)的发生，提高算法的准确性和泛化能力，对已构建的不同工况的类别标签与数值特征进行组合，丰富数据集的特征维度。具体包括如下分步骤，S1：随机排列包含工况标签训练集的行，CATBoost执行多次随机排列再聚合；S2：将随机排列后的数据逐行转化为具有数值型特征的数值。以该样本前类别为均值，同时加入优先级权重系数(先验值)。假设σ＝(σ₁,σ₂,...,σ_n)是随机排列序列，公式如下，

其中，[·]代表指示函数，P代表先验概率，对应回归任务，计算标签的平均值作为先验值；/>和/>是通过自变量X_k的目标y_k计算得到的特征；/>目标变量的值；α代表优先级的权重系数，即平滑操作，防止低频次特征带来的影响，可有效解决预测漂移的问题。同时，已构建的不同工况的类别标签与数值特征进行组合，丰富数据集的特征维度。具体的，除了工况标签，还可以将生产现场的温度、流量等类别特征作为CATBoost模型输入，以自动组合方式提升估计的精度，实现多工况信息融合场景下的出口溶液浓度估计。该步骤的具体作用：针对不同工况，建立CATBoost模型以获得出口溶液浓度的估计值。

图1所示，为了使本发明的技术方案更好理解，本发明通过下述具体的实施方式、结合说明书附图对本发明作进一步的解释。以下示例不限制其适用范围，只为便于解释本发明。基于多工况信息融合的蒸发过程出口溶液浓度估算方法，具体流程如下：选取中国一氧化铝厂连续变化的800个蒸发过程实时运行数据及部分出口溶液浓度数据作为实施案例的数据来源。在全部36个相关变量中，仅有四闪苛碱(出口溶液浓度)需要人工采样、离线化验的方式获得，约4个小时一次。如图1所示，首先建立面向平衡原理和工业知识的设备及流程机理模型，将实时数据与出口溶液浓度估计值相匹配，使得原始数据集的输入与输出数据量平衡。再利用最大信息系数原理将36个变量减少至10个，如：六效料温、进六效原液流量、四效汽温等。经过数据降维，极大减弱了原始数据的复杂性，极大加快后续聚类与模型训练速度，并提高模型的适应性。此外，基于谱聚类方法对降维后的数据进行聚类，并参考不同工况数的轮廓图，可以发现，在工况数为3时出现了拐点，意味着3为此数据的最佳聚类簇数。因此，将原始数据集聚类为3种工况，并为每行数据加上对应的工况标签。利用ADASYN方法对数据量进行平衡，平衡前的工况分布情况为：工况1，445例；工况0，248例；工况2，107例。数据平衡之后工况分布情况为：工况0，439例；工况1，445例；工况2，457例。可以看出，经过数据平衡之后不同工况对应的样本数量大致一致，将减小因数据不平衡而导致的模型估计误差。最后，将处理好的数据带标签输入给CATBoost模型。本例中使用了Python(编程语言)中的optuna(自动超参数优化软件框架)进行了100次实验，CATBoost模型参数确定如下：迭代次数450次，树的深度14，学习率0.1476，其他参数设置为CATBoost模型的默认值。为了进一步说明本发明的有效性及可行性，采用BP神经网络、支持向量回归(SVR)和XGBoost进行了估计对比实验。对比实验中，BP神经网络的隐藏层数为100。SVR模型的惩罚系数为1，核函数为RBF径向核函数，核函数常数为0，核函数最高项次数为3。XGBoost模型的学习率0.1，L1正则项为0，L2正则项为1，树的最大深度为10，基学习器数为100个。从图2可以明显看出，与其他经典模型相比，本发明所述模型的出口溶液浓度更符合实际浓度数据的变化趋势，误差更小，甚至与XGBoost模型相比，仍然有不小的提升，说明本发明所述出口溶液浓度估计方法在多工况、多变量耦合关联的情况下，具有较高的估计精度。

图3中，比较了不同浓度估计模型的估计误差，可以看出本发明涉及的模型的误差曲线相比其他曲线的波动更小，并未出现其他模型所含有的偶尔发生的离群点的现象，说明本发明所述方法的估计效果较好且稳定，适用于实际浓度估计，估计准确率较高。从图4中，可以看出，本发明所提出的估计模型的误差相比于其他模型的估计误差在小误差范围内分布更广。为了更直接的说明本发明所述模型的估计准确性，计算估计结果的均方误差(MSE)、均绝对误差(MAE)和均方根误差(RMSE)作为本发明所述估计模型与其他估计模型对比的评价指标，计算公式如下：是第i个样本的计算值；y_i是第i个样本的估计值；N是总的样本个数。结果如表1所示。

表1各种模型预测性能指标的比较

预测模型	RMSE	MSE	MAE
				CATBoost	0.8716	0.7596	0.6352
XGBoost	1.0687	1.1420	0.7871
				BP	1.5661	2.4527	1.2662
SVR	1.8267	3.3368	1.4560

从表1可以看出，本发明所述估计模型的计算获得的RMSE(均方根误差)、MAE(平均绝对误差)、MAPE(绝对百分误差)三项指标均为所有模型中最小，表示其估计结果最符合实际浓度值的变化趋势且浓度估计值也更加准确。本方法计得到的RMSE为0.8716，与XGBoost获得的RMSE相比减少18.5％。而在MSE指标上这种差距更为明显，SVR模型计算得到的MSE值为3.3368，本方法的MSE值则仅有0.7596，较SVR获得的MSE降低了77.2％。在MAE和MAPE中，本方法的值同样相比于其他模型为最小。以上结果充分说明，本发明所述估计模型在各个方面都优于其他经典数据驱动估计模型。该步骤的具体作用：进行对比实验，显示所提出的方法的有效性。

图1、2、3、4所示，通过上述技术方案，本申请详细分析了蒸发过程运行机理，通过平衡原理和工业知识，建立了过程机理估计模型，其估计结果使实时获取的过程变量数据与对应的出口溶液浓度估计值相匹配，平衡了原始数据集输入与输出数据量，有利于数据驱动模型有效性提升。且基于MIC最大信息系数、谱聚类和ADASYN，进行工况分类，将含有冗余维度且样本量不足的浓度数据按数据特征分到不同工况，在扩充了极端工况的样本量后，将工况标签与原始数据集结合，极大提高了数据驱动模型的估计精度，缩短了模型的训练时间。再者，利用可自动处理类别标签的CATBoost模型实现多工况生产环境下的出口溶液浓度估计，提高了估计建模的可行性。本发明为具有数据缺失获取难度大、相关变量维度高、数据特征非线性、多工况运行等特点的类似工业过程预估问题提供了一种良好的解决方案。同时，本方法不仅估计效果较好，且训练时间短，可以快速的完成关键变量的估计，是一种有效的出口浓度估计模型，为保证氧化铝稳定生产起到了有利技术支持。

需要说明的是，尽管上述内容已经示出和描述了本发明的实施例，但并非实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，形成本领域技术人员可以理解的其他实施方式，因此，本发明的保护范围由所附权利要求及其等同物限定。

Claims

1.基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，采用PC机内分析单元、降维单元、聚类单元、平衡单元、建模单元作为估算的应用软件，蒸发过程出口溶液浓度的估算方法包括如下步骤，步骤A：通过分析单元，基于氧化铝生产的蒸发过程机理分析，建立面向平衡原理、工业知识的出口溶液浓度机理估计模型，使大量实时获取的相关变量数据与关键变量的估计值相匹配，以匹配输入变量和输出变量的关系；步骤B：通过降维单元，利用最大信息系数原理对原始输入的数据进行降维，筛选出与关键变量相关性强的辅助变量，减弱数据的冗余性使之更易于模型的训练；步骤C：通过聚类单元，基于谱聚类对降维后的数据进行聚类分析，根据数据特点将所有生产工况分类，并将工况标签与数据结合；步骤D：通过平衡单元，采用ADASYN方法对工况分类后的数据进行平衡处理，丰富极端工况下的数据样本量，使得每种工况下的样本均匀分布，确保数据驱动模型的有效性；步骤E：通过建模单元，针对不同工况，建立CATBoost模型以获得出口溶液浓度的估计值。

2.根据权利要求1所述的基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，步骤A中，具体的，是基于平衡原理与工业知识，构建的氧化铝生产蒸发过程各个蒸发器和各个闪蒸器的机理模型，并通过蒸发水量计算获得溶液浓度，具体包括如下分步骤，S1：基于各变量间的关联耦合关系，确定料液比热和密度等物性参数，获取蒸发器设备出口溶液流量、浓度；S2：组建各个蒸发器的平衡模型，求解得到蒸汽量；S3：比较实际蒸汽量与S2计算获得的蒸汽量的偏差，若符合运行要求，则根据蒸发全过程出口溶液流量与入口溶液浓度计算总蒸汽量，否则，原计算中涉及的蒸汽量被之后计算的蒸汽量代替，再转至S1、直至满足符合运行要求。

3.根据权利要求1所述的基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，步骤B中，具体的，筛选比较计算获得的每个相关变量与出口溶液浓度的最大信息系数值，保留前几个值较大的变量数据作为数据驱动模型的训练数据。

4.根据权利要求1所述的基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，步骤C中，具体的，是采用谱聚类对不同生产工况进行分类，将蒸发过程所有数据看成空间中的点，将这些点用边连接起来，距离较远的两个点之间的边权重较低，而距离较近的两个点之间的权重较高，通过对所有数据点组成的图进行切图，让切图后的不同子图间边权重和尽可能小，而子图内的边权重和尽可能高。

5.根据权利要求4所述的基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，步骤C中，基于谱聚类的工况分类，具体包括如下分步骤：S1：根据邻接矩阵生成方式构建邻接矩阵W和度矩阵D；S2：计算拉普拉斯矩阵L；S3：构建标准化后的拉普拉斯矩阵D^-12LD^-12；S4：计算D^-12LD^-12最小的K个特征值所各自对应的特征向量f；S5：将特征向量f组成的矩阵按行标准化，组成n×k₁维矩阵F；S6、将F中的每一行作为一个K₁维样本，共n个样本，通过K-means聚类，其中，k值的选取将极大影响聚类的效果，因此，计算CH和轮廓系数两种指标来判断最佳k值，值越大表示聚类效果越好；S7：得到最终簇的划分C(c₁,c₂,...,c_k2)，得到最合适的分类工况数。

6.根据权利要求1所述的基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，步骤D中，ADASYN能自适应合成抽样对不同少数样本赋予不同的权重，生成不同数量的样本，可以显著减少分类不平衡带来的偏差。

7.根据权利要求1所述的基于多工况信息融合的蒸发过程出口溶液浓度估算方法，其特征在于，步骤E中，CATBoost数据驱动模型实现出口溶液浓度估计，能解决XGBoost中梯度偏差以及预测偏移的问题，从而减少过拟合的发生，提高算法的准确性和泛化能力，具体应用中，已构建的不同工况的类别标签与数值特征进行组合，能丰富数据集的特征维度，除了工况标签，还可以将生产现场的温度、流量等类别特征作为CATBoost模型输入，以自动组合方式提升估计的精度，实现多工况信息融合场景下的出口溶液浓度估计。