CN116776252A

CN116776252A - 一种改进Mallow's Cp变量选择的工业过程软测量方法和系统

Info

Publication number: CN116776252A
Application number: CN202310600720.0A
Authority: CN
Inventors: 王兆静; 李贺; 阮晓莉; 颜小运; 童一凡
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-19

Abstract

本发明公开了一种改进Mallow's Cp变量选择的工业过程软测量方法和系统，解决工业生产过程辅助变量过多，数据冗余的问题，并且对传统的Mallow's Cp算法进行优化，以缩短算法时间复杂度。该方法首先用随机森林算法对变量重要性进行排序，然后根据排列的顺序，从一个变量开始，依次递增变量个数，并在这个过程中计算每个子集的Cp值，从而选择出一组最优子集。选择出最优子集后，该方法使用最优子集来训练支持向量回归(SVR)模型，并通过测试数据评估模型的性能。本方法通过结合随机森林、Mallow's Cp算法和SVR回归等多种机器学习方法，能够有效地提高机器学习模型的性能和泛化能力，适用于各种需要进行变量重要性排序和建立连续型变量预测模型的实际问题。

Description

一种改进Mallow′s Cp变量选择的工业过程软测量方法和系统

技术领域

本发明涉及工业过程软测量领域，特别是一种基于Mallow′s CP算法的变量选择方法，用于优化SVR的工业过程软测量。

背景技术

在工业过程控制和优化过程中，软测量是一种重要的技术手段，它可以通过计算机技术，对工业生产过程中的各种参数和变量进行实时监测和预测来实现对过程的控制和优化，软测量技术广泛应用于化工、石化、食品、制药、能源等行业中，可以提高生产效率，产品质量和工厂安全性。尤其在工业过程中，软测量技术尤为重要。

工业过程软测量是一种基于数据驱动的建模方法，通常使用多元线性回归模型进行建模，其中包括多个输入变量和一个输出变量。可以通过采集过程中的各种测量数据来对工业过程进行监控和预测，由于工业过程存在大量的变量，在建立软测量模型的过程中，变量选择是一个重要的步骤，选择最佳的变量组合可以提高建模的准确性和鲁棒性，降低建模的复杂度和成本。传统的变量选择方法通常是基于统计学的方法，如逐步回归分析和主成分分析以及皮尔逊系数等。然而，这些方法都不能很好的处理非线性关系，而且容易出现过拟合问题，并且在处理大量变量时计算量较大。

发明内容

本发明提供了一种Mallow′s cp以及优化mallow′s Cp算法的变量选择方法，优化后的方法通过随机森林算法对变量重要性进行排序，然后采用依次递增的方式增加子集个数并计算子集的Cp值，最后选择cp值最小的子集作为一组最佳变量，从而使得变量选择过程更加高效。用以上方法优化支持向量回归(SVR)，以实现最佳的工业过程软测量，该方法包括以下步骤：

S1，获取工业过程中的数据集X，所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据；

S2，对数据集X中各特征对应的数据样本进行标准化，并对数据集中特征对应的数据样本划分为训练集和测试集；

S3，利用随机森林算法对所有变量特征进行排序，以确定各特征的重要性；

S4，按照特征重要性从高到低的顺序，依次增加特征数量，并通过Mallow′s Cp计算每个特征组合的Cp值；

S5，选择Cp值最小的特征子集作为最佳特征子集；

S6，利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模；

S7，利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量，得到相应的预测目标值。

进一步的，S2中标准化处理的具体实现方式如下；

标准化处理包括对数据集中各特征对应的数据样本进行标准差归一化，标准差归一化是将数据集中特征对应得数据样本转换为以0为中心的数据分布，具体公式如下：

x_std＝(x-min(x))/(max(x)-min(x))

其中，x为数据集中某个数值型特征对应的数据样本的原始值，x_std为该特征对应的数据样本标准差归一化后的值，min(x)为该特征对应的数据样本中的最小值，max(x)为该特征对应的数据样本中的最大值。

进一步的，步骤S3的具体实现方式如下：

(3.1)从变量特征中采样得到n个随机子集，每个子集的大小相同；

(3.2)对于每个随机子集，使用决策树算法进行训练，在每个节点上，从随机子集中选择一个随机样本和一组随机特征进行分裂；

(3.3)对于每个决策树，通过基尼指数计算每个特征的重要性，为每个特征分配一个分数，这些分数用来对特征重要性进行排序；

(3.4)通过组合所有决策树的预测结果，进行投票或平均，得到最终预测结果。

进一步的，步骤S4中Mallow′s Cp的定义如下：

其中，Cp表示Mallow′s Cp值，MSE表示均方误差，即实际值与模型预测值之间的差的平方和除以样本数量，P表示模型中使用的特征的数量，N表示样本数量，S²表示残差平方和的无偏估计，N表示样本数量。

进一步的，S²的计算公式如下：

其中，SSE是残差平方和。

进一步的，其特征在于：S6的具体实现方式如下；

(6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差，其约束问题为：

s.t.|w·x_i+b-y_i|-ε≤ξ_i，ξ_i≥0

其中，w·x_i+b代表预测值，w代表权重向量，x_i表示第i个样本数据，b是偏置项，y_i是实际值，|w·x_i+b-y_i|表示误差绝对值，ε代表精度，ξ_i代表损失，参数C代表着正则化参数，N表示样本数量；如果(x_i，y_i)的预测误差绝对值小于等于ε，则ξ_i＝0，如果(x_i，y_i)的预测误差绝对值大于ε，则ξ_i＝|w·x_i+b-y_i|-ε；

(6.2)参数调优：使用交叉验证技术调整SVR模型的超参数，以提高模型的泛化能力。

进一步的，还包括步骤S8，对离线建好的SVR模型进行泛化能力评估，具体包括使用均方误差MSE和决定系数对SVR模型的性能进行评估；

(2.4.1)均方误差MSE的公式为：

(2.4.2)决定系数的R²公式为：

式中y_i为实际值，y_ipre为模型预测值，n代表样本个数，代表目标变量的平均值。

本发明还提供一种改进Mallow′s Cp变量选择的工业过程软测量系统，包括如下模块：

数据集获取模块，用于获取工业过程中的数据集X，所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据；

标准化处理模块，用于对数据集X中各特征对应的数据样本进行标准化，并对数据集中特征对应的数据样本划分为训练集和测试集；

排序处理模块，用于利用随机森林算法对所有变量特征进行排序，以确定各特征的重要性；

Cp值计算模块，用于按照特征重要性从高到低的顺序，依次增加特征数量，并通过Mallow′s Cp计算每个特征组合的Cp值；

最佳特征子集选择模块，用于选择Cp值最小的特征子集作为最佳特征子集；

模型训练模块，用于利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模；

预测模块，用于利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量，得到相应的预测目标值。

进一步的，Mallow′s Cp的定义如下：

其中，Cp表示Mallow′s Cp值，MSE表示均方误差，即实际值与模型预测值之间的差的平方和除以样本数量，P表示模型中使用的特征的数量，N表示样本数量，S²表示残差平方和的无偏估计，N表示样本数量；

S²的计算公式如下：

其中，SSE是残差平方和。

进一步的，模型训练模块的具体实现方式如下；

s.t.|w·x_i+b-y_i|-ε≤ξ_i，ξ_i≥0

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明提出的Mallow′s Cp算法，是一种基于最小二乘原理的变量选择方法，与传统的逐步回归方法相比，本发明提出的方法在选择变量时更加准确，能够有效地避免过拟合问题的发生，提高软测量模型的泛化能力和稳定性，有效缩短了算法运行时间和提高了软测量模型的准确度。

(2)本发明提出的采用随机森林优化Mallow′s Cp的变量选择方法，可以快速、精准的选择出最佳的变量组合，能够有效的提高软测量模型的准确性和稳定性。

(3)本发明使用SVR进行建模，可以更好的适应工业过程软测量中的非线性关系，提高软测量模型的准确性和稳定性。

附图说明

图1是本发明实施例提供的基于随机森林优化Mallow′s Cp变量选择的工业过程软测量流程图；

图2是本发明实施例提供的青霉素发酵过程实例图；

图3本发明实施例提供的SVR拟合效果示意图；

图4本发明实施例提供的最终输出值和真实值对比示意图；

图5本发明实施例提供的部分最终输出值和真实值对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了解决工业生产过程中存在的辅助变量过多和数据冗余的问题，本发明提供了一种改进Mallow′s Cp的变量选择方法，该方法通过结合随机森林、Mallow′s Cp算法和SVR模型，能够有效地提高机器学习模型的性能和泛化能力，适用于各种需要进行变量重要性排序和建立连续型变量预测模型的实际问题。该方法首先使用随机森林算法对变量重要性进行排序，然后根据排列的顺序，从一个变量开始，依次递增变量个数，并在这个过程中计算每个子集的Cp值，从而选择出一组最佳特征子集。选择出最优子集后，该方法使用最佳特征子集来训练SVR回归模型，并通过测试数据评估模型的性能。图1表示本发明的流程图，以下为具体实施例。

(1)数据处理和特征选择(1.1)获取工业过程中的数据集X，所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征x和目标变量以及每个特征对应的采集到的数条样本数据，具体地：

获取工业过程数据，组成原始数据集其中N代表采样个数，M代表变量特征的个数；

(1.2)对数据集X中每个特征对应的样本数据进行标准化，并对数据集中的样本数据划分为训练集和测试集，具体地：

(1.2.1)数据标准化计算方法为：

标准化处理包括对所述数据集中各项数据进行标准差归一化，与均值归一化类似，标准差归一化是将数据集中特征对应的数据样本转换为以0为中心的数据分布，但它使用的是标准化的方法。具体公式如下：

x_std＝(x-min(x))/(max(x)-min(x))

(1.2.2)对标准化后的数据x_std进行预处理，并按训练集和测试集7比3的比率将样本数据拆分为训练集和测试集。

(1.3)利用随机森林算法对训练集中的变量特征进行排序，以确定各特征的重要性，具体地：

(1.3.1)从训练集中采样得到n个随机子集，每个子集的大小相同；

(1.3.2)对于每个随机子集，使用决策树算法进行训练。在每个节点上，从随机子集中选择一个随机样本和一组随机特征进行分裂；

(1.3.3)对于每个决策树，通过基尼指数计算每个特征的重要性，为每个特征分配一个分数。这些分数可以用来对特征重要性进行排序；

(1.3.4)通过组合所有决策树的预测结果，进行投票或平均，得到最终预测结果。

(1.4)按照特征重要性从高到低的顺序，依次增加特征数量，并通过Mallow′s Cp计算每个特征组合的Cp值。具体地：

(1.4.1)Mallow′s Cp算法基于均方误差(MSE)和模型复杂度来评估SVR模型，Cp值表示包含数据集中所有特征的完整模型的MSE与最优模型MSE之间的差异。选择Cp值最小的子集作为一组最佳特征，从而使得特征选择过程更加高效。

(1.4.2)定义Mallow′s Cp准则。

Mallow’s Cp是一个评估模型预测精度的准则，它的定义如下：

其中，Cp表示Mallow’s Cp值，MSE表示均方误差，即实际值与预测值之间的差的平方和除以样本数量，P表示模型中使用的特征的数量，S²表示残差平方和的无偏估计，即将残差平方和除以自由度，N表示样本数量。

(1.4.3)S²公式为：

其中，SSE是残差平方和，P是模型中特征的数量。由此可以看出，MSE和S²都是残差平方和的一种标准化形式，只是分母上的自由度不同，MSE分母为N，而S²分母为N-p-1，因此在Mallow′s Cp公式中，为了简化计算，通常使用MSE的无偏估计代替S²。

(1.5)选择Cp值最小的特征子集作为最终选择的特征子集，具体地：

通过步骤(1.4)中计算的每个组合的Cp值，选择Cp值最小的一组特征作为最终选择的最佳特征组合。

(2)训练模型和模型评估。

(2.1)利用支持向量回归(SVR)算法对所述特征子集进行建模，具体地：

(2.1.1)训练模型：通过步骤(1.5)选择的一组最佳特征对应的训练集去训练SVR模型。SVR模型的目标是最小化模型预测目标值与实际的目标测量值之间的误差，其约束问题为：

s.t.|w·x_i+b-y_i|-ε≤ξ_i，ξ_i≥0

(2.1.2)参数调优：使用交叉验证技术调整SVR模型的超参数(包括C和ξ_i)，以提高模型的泛化能力。最终选择核函数类型为线性核。

(2.2)利用所述步骤(1.5)选择的一组最佳特征子集对应的测试集在步骤(2.1)建好的SVR模型上进行软测量。具体地：

根据选择的一组最佳特征子集对应的测试集在训练好的SVR模型上，对目标变量进行在线软测量，得到相应的预测值。

(2.3)对所述建好的SVR模型进行泛化能力评估，具体地：

使用评估指标，均方误差(MSE)、决定系数等，对SVR模型的性能进行评估。

(2.3.1)均方误差(MSE)公式为：

(2.3.2)决定系数R²公式为：

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

一种改进Mallow′s Cp变量选择的工业过程软测量系统，包括如下模块：

各模块的具体实现方式与各步骤相应，本发明不予撰述。

一种计算机可读存储介质，包括存储的计算机程序，计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例提供的基于随机森林优化Mallow’s Cp变量选择的工业过程软测量方法。

本发明实施例利用随机森林优化Mallow′s Cp的变量选择方法，可以快速、精准的选择出最佳的变量组合，能够有效的提高软测量模型的准确性和稳定性。通过使用SVR进行建模，可以更好的适应工业过程软测量中的非线性关系，提高软测量模型的精确性和性能。

以下结合具体的应用场景对本发明所能取得的有益效果做进一步的解释说明。

在如下应用场景中，通过青霉素发酵过程对上述基于随机森林优化Mallow′s Cp变量选择的工业过程软测量方法进行验证。

青霉素发酵过程的机理比较复杂，涉及到多个生物和化学反应。对于青霉素发酵过程而言，青霉菌在发酵罐中需要提供适当的营养物质和生长条件，比如碳源、氮源、磷源等，才能生长和产生青霉素。发酵过程中，pH值、温度和氧气含量等因素也会影响青霉素的生产，青霉素生产过程如图2所示。

基于随机森林优化Mallow′s Cp变量选择的工业过程软测量方法可以通过对这些变量进行监测和分析，建立起一个准确的模型，来预测青霉素的产量和生产过程的状态。本发明中青霉素浓度作为目标变量，菌体浓度、二氧化碳浓度、PH值等16种变量作为辅助特征变量，具体描述汇总于表1中。

表1青霉素发酵过程变量

序号	变量
		1	Aeration rate
2	Agitator power
		3	Substrate feed rate
4	Substrate feed temperature
		5	Substrate concentration
6	Dissolved oxygen concentration
		7	Biomass concentration
8	Volume
		9	Carbon dioxide concentration
10	PH
		11	Temperature
12	Generated heat
		13	Acid flow rate
14	Base flow rate
		15	Cooling water flow rate
16	Hot water flow rate

在此案例中，每0.5小时收集一次样本，共采集400小时的数据，共有800个样本数据，采取前560个样本数据作为训练集，后240个样本数据作为测试集。

首先采用随机森林算法对变量重要性进行排序，排序结果如表2；

表2采用随机森林算法排序结果

然后利用Mallow′s Cp算法按表2的排列顺序，从一个变量开始，依次递增变量个数，并在这个过程中计算每个子集的Cp值，从而选择出一组最佳变量子集，最终选择的变量子集如表3。

表3最终选择的变量子集

序号	变量
		1	Generated heat
2	Biomass concentration
		3	Volume
4	Substrate feed rate
		5	Generated heat
6	Substrate concentration
		7	Carbon dioxide concentration
8	Base flow rate

利用上述选择的最佳变量子集来训练SVR模型，并通过测试数据评估模型的性能。得到的拟合效果图如图3，拟合效果显示几乎所有的数据都在回归线上，说明本发明对目标变量预测效果很好。误差结果数据和算法时间如表4，可见本发明提出的算法误差率极低且算法时间效率很高。

表4误差结果数据和算法时间

算法	MSE	R2	TIME
				随机森林+Mallow’s Cp+SVR	0.00277	0.98908	0.81673秒

本发明一种改进Mallow′s cp变量选择的工业过程软测量变量选择方法，最终通过测试数据评估模型的性能，得到预测值和真实值对比图如图4和图5，从中可以看出真实值和预测值之间的误差很小，由此也表明本发明的软测量准确性很高，具有很好的使用价值。

Claims

1.一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于，包括如下步骤：

S4，按照特征重要性从高到低的顺序，依次增加特征数量，并通过Mallow's Cp计算每个特征组合的Cp值；

S5，选择Cp值最小的特征子集作为最佳特征子集；

2.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于：S2中标准化处理的具体实现方式如下；

x_std＝(x-min(x))/(max(x)-min(x))

3.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于：步骤S3的具体实现方式如下：

4.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于：步骤S4中Mallow's Cp的定义如下：

其中，Cp表示Mallow's Cp值，MSE表示均方误差，即实际值与模型预测值之间的差的平方和除以样本数量，P表示模型中使用的特征的数量，N表示样本数量，S²表示残差平方和的无偏估计，N表示样本数量。

5.如权利要求4所述的一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于：S²的计算公式如下：

其中，SSE是残差平方和。

6.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于：S6的具体实现方式如下；

s.t.|w·x_i+b-y_i|-ε≤ξ_i,ξ_i≥0

其中，w·x_i+b代表预测值，w代表权重向量，x_i表示第i个样本数据，b是偏置项，y_i是实际值，|w·x_i+b-y_i|表示误差绝对值，ε代表精度，ξ_i代表损失，参数C代表着正则化参数，N表示样本数量；如果(x_i,y_i)的预测误差绝对值小于等于ε，则ξ_i＝0，如果(x_i,y_i)的预测误差绝对值大于ε，则ξ_i＝|w·x_i+b-y_i|-ε；

7.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法，其特征在于：还包括步骤S8，对离线建好的SVR模型进行泛化能力评估，具体包括使用均方误差MSE和决定系数对SVR模型的性能进行评估；

(2.4.1)均方误差MSE的公式为：

(2.4.2)决定系数的R²公式为：

8.一种改进Mallow's Cp变量选择的工业过程软测量系统，其特征在于，包括如下模块：

Cp值计算模块，用于按照特征重要性从高到低的顺序，依次增加特征数量，并通过Mallow's Cp计算每个特征组合的Cp值；

9.如权利要求8所述的一种改进Mallow's Cp变量选择的工业过程软测量系统，其特征在于：Mallow's Cp的定义如下：

其中，Cp表示Mallow's Cp值，MSE表示均方误差，即实际值与模型预测值之间的差的平方和除以样本数量，P表示模型中使用的特征的数量，N表示样本数量，S²表示残差平方和的无偏估计，N表示样本数量；

S²的计算公式如下：

其中，SSE是残差平方和。

10.如权利要求8所述的一种改进Mallow's Cp变量选择的工业过程软测量系统，其特征在于：模型训练模块的具体实现方式如下；

s.t.|w·x_i+b-y_i|-ε≤ξ_i,ξ_i≥0