CN116776252A - 一种改进Mallow's Cp变量选择的工业过程软测量方法和系统 - Google Patents
一种改进Mallow's Cp变量选择的工业过程软测量方法和系统 Download PDFInfo
- Publication number
- CN116776252A CN116776252A CN202310600720.0A CN202310600720A CN116776252A CN 116776252 A CN116776252 A CN 116776252A CN 202310600720 A CN202310600720 A CN 202310600720A CN 116776252 A CN116776252 A CN 116776252A
- Authority
- CN
- China
- Prior art keywords
- value
- model
- data
- mallow
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 47
- 240000000982 Malva neglecta Species 0.000 title claims abstract description 39
- 235000000060 Malva neglecta Nutrition 0.000 title claims abstract description 39
- 238000000691 measurement method Methods 0.000 title claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000007637 random forest analysis Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 238000005259 measurement Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 28
- 238000009776 industrial production Methods 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract 2
- 229930182555 Penicillin Natural products 0.000 description 10
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 10
- 229940049954 penicillin Drugs 0.000 description 10
- 238000005457 optimization Methods 0.000 description 7
- 238000010187 selection method Methods 0.000 description 7
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 6
- 238000000855 fermentation Methods 0.000 description 6
- 230000004151 fermentation Effects 0.000 description 6
- 239000000758 substrate Substances 0.000 description 5
- 229910002092 carbon dioxide Inorganic materials 0.000 description 3
- 239000001569 carbon dioxide Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 239000002028 Biomass Substances 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000228143 Penicillium Species 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000005273 aeration Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000498 cooling water Substances 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000001094 effect on targets Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种改进Mallow's Cp变量选择的工业过程软测量方法和系统,解决工业生产过程辅助变量过多,数据冗余的问题,并且对传统的Mallow's Cp算法进行优化,以缩短算法时间复杂度。该方法首先用随机森林算法对变量重要性进行排序,然后根据排列的顺序,从一个变量开始,依次递增变量个数,并在这个过程中计算每个子集的Cp值,从而选择出一组最优子集。选择出最优子集后,该方法使用最优子集来训练支持向量回归(SVR)模型,并通过测试数据评估模型的性能。本方法通过结合随机森林、Mallow's Cp算法和SVR回归等多种机器学习方法,能够有效地提高机器学习模型的性能和泛化能力,适用于各种需要进行变量重要性排序和建立连续型变量预测模型的实际问题。
Description
技术领域
本发明涉及工业过程软测量领域,特别是一种基于Mallow′s CP算法的变量选择方法,用于优化SVR的工业过程软测量。
背景技术
在工业过程控制和优化过程中,软测量是一种重要的技术手段,它可以通过计算机技术,对工业生产过程中的各种参数和变量进行实时监测和预测来实现对过程的控制和优化,软测量技术广泛应用于化工、石化、食品、制药、能源等行业中,可以提高生产效率,产品质量和工厂安全性。尤其在工业过程中,软测量技术尤为重要。
工业过程软测量是一种基于数据驱动的建模方法,通常使用多元线性回归模型进行建模,其中包括多个输入变量和一个输出变量。可以通过采集过程中的各种测量数据来对工业过程进行监控和预测,由于工业过程存在大量的变量,在建立软测量模型的过程中,变量选择是一个重要的步骤,选择最佳的变量组合可以提高建模的准确性和鲁棒性,降低建模的复杂度和成本。传统的变量选择方法通常是基于统计学的方法,如逐步回归分析和主成分分析以及皮尔逊系数等。然而,这些方法都不能很好的处理非线性关系,而且容易出现过拟合问题,并且在处理大量变量时计算量较大。
发明内容
本发明提供了一种Mallow′s cp以及优化mallow′s Cp算法的变量选择方法,优化后的方法通过随机森林算法对变量重要性进行排序,然后采用依次递增的方式增加子集个数并计算子集的Cp值,最后选择cp值最小的子集作为一组最佳变量,从而使得变量选择过程更加高效。用以上方法优化支持向量回归(SVR),以实现最佳的工业过程软测量,该方法包括以下步骤:
S1,获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
S2,对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;
S3,利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;
S4,按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow′s Cp计算每个特征组合的Cp值;
S5,选择Cp值最小的特征子集作为最佳特征子集;
S6,利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;
S7,利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。
进一步的,S2中标准化处理的具体实现方式如下;
标准化处理包括对数据集中各特征对应的数据样本进行标准差归一化,标准差归一化是将数据集中特征对应得数据样本转换为以0为中心的数据分布,具体公式如下:
x_std=(x-min(x))/(max(x)-min(x))
其中,x为数据集中某个数值型特征对应的数据样本的原始值,x_std为该特征对应的数据样本标准差归一化后的值,min(x)为该特征对应的数据样本中的最小值,max(x)为该特征对应的数据样本中的最大值。
进一步的,步骤S3的具体实现方式如下:
(3.1)从变量特征中采样得到n个随机子集,每个子集的大小相同;
(3.2)对于每个随机子集,使用决策树算法进行训练,在每个节点上,从随机子集中选择一个随机样本和一组随机特征进行分裂;
(3.3)对于每个决策树,通过基尼指数计算每个特征的重要性,为每个特征分配一个分数,这些分数用来对特征重要性进行排序;
(3.4)通过组合所有决策树的预测结果,进行投票或平均,得到最终预测结果。
进一步的,步骤S4中Mallow′s Cp的定义如下:
其中,Cp表示Mallow′s Cp值,MSE表示均方误差,即实际值与模型预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,N表示样本数量,S2表示残差平方和的无偏估计,N表示样本数量。
进一步的,S2的计算公式如下:
其中,SSE是残差平方和。
进一步的,其特征在于:S6的具体实现方式如下;
(6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差,其约束问题为:
s.t.|w·xi+b-yi|-ε≤ξi,ξi≥0
其中,w·xi+b代表预测值,w代表权重向量,xi表示第i个样本数据,b是偏置项,yi是实际值,|w·xi+b-yi|表示误差绝对值,ε代表精度,ξi代表损失,参数C代表着正则化参数,N表示样本数量;如果(xi,yi)的预测误差绝对值小于等于ε,则ξi=0,如果(xi,yi)的预测误差绝对值大于ε,则ξi=|w·xi+b-yi|-ε;
(6.2)参数调优:使用交叉验证技术调整SVR模型的超参数,以提高模型的泛化能力。
进一步的,还包括步骤S8,对离线建好的SVR模型进行泛化能力评估,具体包括使用均方误差MSE和决定系数对SVR模型的性能进行评估;
(2.4.1)均方误差MSE的公式为:
(2.4.2)决定系数的R2公式为:
式中yi为实际值,yipre为模型预测值,n代表样本个数,代表目标变量的平均值。
本发明还提供一种改进Mallow′s Cp变量选择的工业过程软测量系统,包括如下模块:
数据集获取模块,用于获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
标准化处理模块,用于对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;
排序处理模块,用于利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;
Cp值计算模块,用于按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow′s Cp计算每个特征组合的Cp值;
最佳特征子集选择模块,用于选择Cp值最小的特征子集作为最佳特征子集;
模型训练模块,用于利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;
预测模块,用于利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。
进一步的,Mallow′s Cp的定义如下:
其中,Cp表示Mallow′s Cp值,MSE表示均方误差,即实际值与模型预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,N表示样本数量,S2表示残差平方和的无偏估计,N表示样本数量;
S2的计算公式如下:
其中,SSE是残差平方和。
进一步的,模型训练模块的具体实现方式如下;
(6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差,其约束问题为:
s.t.|w·xi+b-yi|-ε≤ξi,ξi≥0
其中,w·xi+b代表预测值,w代表权重向量,xi表示第i个样本数据,b是偏置项,yi是实际值,|w·xi+b-yi|表示误差绝对值,ε代表精度,ξi代表损失,参数C代表着正则化参数,N表示样本数量;如果(xi,yi)的预测误差绝对值小于等于ε,则ξi=0,如果(xi,yi)的预测误差绝对值大于ε,则ξi=|w·xi+b-yi|-ε;
(6.2)参数调优:使用交叉验证技术调整SVR模型的超参数,以提高模型的泛化能力。
通过本发明所构思的以上技术方案,与现有技术相比,能够取得以下有益效果:
(1)本发明提出的Mallow′s Cp算法,是一种基于最小二乘原理的变量选择方法,与传统的逐步回归方法相比,本发明提出的方法在选择变量时更加准确,能够有效地避免过拟合问题的发生,提高软测量模型的泛化能力和稳定性,有效缩短了算法运行时间和提高了软测量模型的准确度。
(2)本发明提出的采用随机森林优化Mallow′s Cp的变量选择方法,可以快速、精准的选择出最佳的变量组合,能够有效的提高软测量模型的准确性和稳定性。
(3)本发明使用SVR进行建模,可以更好的适应工业过程软测量中的非线性关系,提高软测量模型的准确性和稳定性。
附图说明
图1是本发明实施例提供的基于随机森林优化Mallow′s Cp变量选择的工业过程软测量流程图;
图2是本发明实施例提供的青霉素发酵过程实例图;
图3本发明实施例提供的SVR拟合效果示意图;
图4本发明实施例提供的最终输出值和真实值对比示意图;
图5本发明实施例提供的部分最终输出值和真实值对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了解决工业生产过程中存在的辅助变量过多和数据冗余的问题,本发明提供了一种改进Mallow′s Cp的变量选择方法,该方法通过结合随机森林、Mallow′s Cp算法和SVR模型,能够有效地提高机器学习模型的性能和泛化能力,适用于各种需要进行变量重要性排序和建立连续型变量预测模型的实际问题。该方法首先使用随机森林算法对变量重要性进行排序,然后根据排列的顺序,从一个变量开始,依次递增变量个数,并在这个过程中计算每个子集的Cp值,从而选择出一组最佳特征子集。选择出最优子集后,该方法使用最佳特征子集来训练SVR回归模型,并通过测试数据评估模型的性能。图1表示本发明的流程图,以下为具体实施例。
(1)数据处理和特征选择(1.1)获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征x和目标变量以及每个特征对应的采集到的数条样本数据,具体地:
获取工业过程数据,组成原始数据集其中N代表采样个数,M代表变量特征的个数;
(1.2)对数据集X中每个特征对应的样本数据进行标准化,并对数据集中的样本数据划分为训练集和测试集,具体地:
(1.2.1)数据标准化计算方法为:
标准化处理包括对所述数据集中各项数据进行标准差归一化,与均值归一化类似,标准差归一化是将数据集中特征对应的数据样本转换为以0为中心的数据分布,但它使用的是标准化的方法。具体公式如下:
x_std=(x-min(x))/(max(x)-min(x))
其中,x为数据集中某个数值型特征对应的数据样本的原始值,x_std为该特征对应的数据样本标准差归一化后的值,min(x)为该特征对应的数据样本中的最小值,max(x)为该特征对应的数据样本中的最大值。
(1.2.2)对标准化后的数据x_std进行预处理,并按训练集和测试集7比3的比率将样本数据拆分为训练集和测试集。
(1.3)利用随机森林算法对训练集中的变量特征进行排序,以确定各特征的重要性,具体地:
(1.3.1)从训练集中采样得到n个随机子集,每个子集的大小相同;
(1.3.2)对于每个随机子集,使用决策树算法进行训练。在每个节点上,从随机子集中选择一个随机样本和一组随机特征进行分裂;
(1.3.3)对于每个决策树,通过基尼指数计算每个特征的重要性,为每个特征分配一个分数。这些分数可以用来对特征重要性进行排序;
(1.3.4)通过组合所有决策树的预测结果,进行投票或平均,得到最终预测结果。
(1.4)按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow′s Cp计算每个特征组合的Cp值。具体地:
(1.4.1)Mallow′s Cp算法基于均方误差(MSE)和模型复杂度来评估SVR模型,Cp值表示包含数据集中所有特征的完整模型的MSE与最优模型MSE之间的差异。选择Cp值最小的子集作为一组最佳特征,从而使得特征选择过程更加高效。
(1.4.2)定义Mallow′s Cp准则。
Mallow’s Cp是一个评估模型预测精度的准则,它的定义如下:
其中,Cp表示Mallow’s Cp值,MSE表示均方误差,即实际值与预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,S2表示残差平方和的无偏估计,即将残差平方和除以自由度,N表示样本数量。
(1.4.3)S2公式为:
其中,SSE是残差平方和,P是模型中特征的数量。由此可以看出,MSE和S2都是残差平方和的一种标准化形式,只是分母上的自由度不同,MSE分母为N,而S2分母为N-p-1,因此在Mallow′s Cp公式中,为了简化计算,通常使用MSE的无偏估计代替S2。
(1.5)选择Cp值最小的特征子集作为最终选择的特征子集,具体地:
通过步骤(1.4)中计算的每个组合的Cp值,选择Cp值最小的一组特征作为最终选择的最佳特征组合。
(2)训练模型和模型评估。
(2.1)利用支持向量回归(SVR)算法对所述特征子集进行建模,具体地:
(2.1.1)训练模型:通过步骤(1.5)选择的一组最佳特征对应的训练集去训练SVR模型。SVR模型的目标是最小化模型预测目标值与实际的目标测量值之间的误差,其约束问题为:
s.t.|w·xi+b-yi|-ε≤ξi,ξi≥0
其中,w·xi+b代表预测值,w代表权重向量,xi表示第i个样本数据,b是偏置项,yi是实际值,|w·xi+b-yi|表示误差绝对值,ε代表精度,ξi代表损失,参数C代表着正则化参数,N表示样本数量;如果(xi,yi)的预测误差绝对值小于等于ε,则ξi=0,如果(xi,yi)的预测误差绝对值大于ε,则ξi=|w·xi+b-yi|-ε;
(2.1.2)参数调优:使用交叉验证技术调整SVR模型的超参数(包括C和ξi),以提高模型的泛化能力。最终选择核函数类型为线性核。
(2.2)利用所述步骤(1.5)选择的一组最佳特征子集对应的测试集在步骤(2.1)建好的SVR模型上进行软测量。具体地:
根据选择的一组最佳特征子集对应的测试集在训练好的SVR模型上,对目标变量进行在线软测量,得到相应的预测值。
(2.3)对所述建好的SVR模型进行泛化能力评估,具体地:
使用评估指标,均方误差(MSE)、决定系数等,对SVR模型的性能进行评估。
(2.3.1)均方误差(MSE)公式为:
(2.3.2)决定系数R2公式为:
式中yi为实际值,yipre为模型预测值,n代表样本个数,代表目标变量的平均值。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
一种改进Mallow′s Cp变量选择的工业过程软测量系统,包括如下模块:
数据集获取模块,用于获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
标准化处理模块,用于对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;
排序处理模块,用于利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;
Cp值计算模块,用于按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow′s Cp计算每个特征组合的Cp值;
最佳特征子集选择模块,用于选择Cp值最小的特征子集作为最佳特征子集;
模型训练模块,用于利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;
预测模块,用于利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。
各模块的具体实现方式与各步骤相应,本发明不予撰述。
一种计算机可读存储介质,包括存储的计算机程序,计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例提供的基于随机森林优化Mallow’s Cp变量选择的工业过程软测量方法。
本发明实施例利用随机森林优化Mallow′s Cp的变量选择方法,可以快速、精准的选择出最佳的变量组合,能够有效的提高软测量模型的准确性和稳定性。通过使用SVR进行建模,可以更好的适应工业过程软测量中的非线性关系,提高软测量模型的精确性和性能。
以下结合具体的应用场景对本发明所能取得的有益效果做进一步的解释说明。
在如下应用场景中,通过青霉素发酵过程对上述基于随机森林优化Mallow′s Cp变量选择的工业过程软测量方法进行验证。
青霉素发酵过程的机理比较复杂,涉及到多个生物和化学反应。对于青霉素发酵过程而言,青霉菌在发酵罐中需要提供适当的营养物质和生长条件,比如碳源、氮源、磷源等,才能生长和产生青霉素。发酵过程中,pH值、温度和氧气含量等因素也会影响青霉素的生产,青霉素生产过程如图2所示。
基于随机森林优化Mallow′s Cp变量选择的工业过程软测量方法可以通过对这些变量进行监测和分析,建立起一个准确的模型,来预测青霉素的产量和生产过程的状态。本发明中青霉素浓度作为目标变量,菌体浓度、二氧化碳浓度、PH值等16种变量作为辅助特征变量,具体描述汇总于表1中。
表1青霉素发酵过程变量
序号 | 变量 |
1 | Aeration rate |
2 | Agitator power |
3 | Substrate feed rate |
4 | Substrate feed temperature |
5 | Substrate concentration |
6 | Dissolved oxygen concentration |
7 | Biomass concentration |
8 | Volume |
9 | Carbon dioxide concentration |
10 | PH |
11 | Temperature |
12 | Generated heat |
13 | Acid flow rate |
14 | Base flow rate |
15 | Cooling water flow rate |
16 | Hot water flow rate |
在此案例中,每0.5小时收集一次样本,共采集400小时的数据,共有800个样本数据,采取前560个样本数据作为训练集,后240个样本数据作为测试集。
首先采用随机森林算法对变量重要性进行排序,排序结果如表2;
表2采用随机森林算法排序结果
然后利用Mallow′s Cp算法按表2的排列顺序,从一个变量开始,依次递增变量个数,并在这个过程中计算每个子集的Cp值,从而选择出一组最佳变量子集,最终选择的变量子集如表3。
表3最终选择的变量子集
序号 | 变量 |
1 | Generated heat |
2 | Biomass concentration |
3 | Volume |
4 | Substrate feed rate |
5 | Generated heat |
6 | Substrate concentration |
7 | Carbon dioxide concentration |
8 | Base flow rate |
利用上述选择的最佳变量子集来训练SVR模型,并通过测试数据评估模型的性能。得到的拟合效果图如图3,拟合效果显示几乎所有的数据都在回归线上,说明本发明对目标变量预测效果很好。误差结果数据和算法时间如表4,可见本发明提出的算法误差率极低且算法时间效率很高。
表4误差结果数据和算法时间
算法 | MSE | R2 | TIME |
随机森林+Mallow’s Cp+SVR | 0.00277 | 0.98908 | 0.81673秒 |
本发明一种改进Mallow′s cp变量选择的工业过程软测量变量选择方法,最终通过测试数据评估模型的性能,得到预测值和真实值对比图如图4和图5,从中可以看出真实值和预测值之间的误差很小,由此也表明本发明的软测量准确性很高,具有很好的使用价值。
Claims (10)
1.一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于,包括如下步骤:
S1,获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
S2,对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;
S3,利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;
S4,按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow's Cp计算每个特征组合的Cp值;
S5,选择Cp值最小的特征子集作为最佳特征子集;
S6,利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;
S7,利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。
2.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:S2中标准化处理的具体实现方式如下;
标准化处理包括对数据集中各特征对应的数据样本进行标准差归一化,标准差归一化是将数据集中特征对应得数据样本转换为以0为中心的数据分布,具体公式如下:
x_std=(x-min(x))/(max(x)-min(x))
其中,x为数据集中某个数值型特征对应的数据样本的原始值,x_std为该特征对应的数据样本标准差归一化后的值,min(x)为该特征对应的数据样本中的最小值,max(x)为该特征对应的数据样本中的最大值。
3.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:步骤S3的具体实现方式如下:
(3.1)从变量特征中采样得到n个随机子集,每个子集的大小相同;
(3.2)对于每个随机子集,使用决策树算法进行训练,在每个节点上,从随机子集中选择一个随机样本和一组随机特征进行分裂;
(3.3)对于每个决策树,通过基尼指数计算每个特征的重要性,为每个特征分配一个分数,这些分数用来对特征重要性进行排序;
(3.4)通过组合所有决策树的预测结果,进行投票或平均,得到最终预测结果。
4.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:步骤S4中Mallow's Cp的定义如下:
其中,Cp表示Mallow's Cp值,MSE表示均方误差,即实际值与模型预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,N表示样本数量,S2表示残差平方和的无偏估计,N表示样本数量。
5.如权利要求4所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:S2的计算公式如下:
其中,SSE是残差平方和。
6.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:S6的具体实现方式如下;
(6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差,其约束问题为:
s.t.|w·xi+b-yi|-ε≤ξi,ξi≥0
其中,w·xi+b代表预测值,w代表权重向量,xi表示第i个样本数据,b是偏置项,yi是实际值,|w·xi+b-yi|表示误差绝对值,ε代表精度,ξi代表损失,参数C代表着正则化参数,N表示样本数量;如果(xi,yi)的预测误差绝对值小于等于ε,则ξi=0,如果(xi,yi)的预测误差绝对值大于ε,则ξi=|w·xi+b-yi|-ε;
(6.2)参数调优:使用交叉验证技术调整SVR模型的超参数,以提高模型的泛化能力。
7.如权利要求1所述的一种改进Mallow's Cp变量选择的工业过程软测量方法,其特征在于:还包括步骤S8,对离线建好的SVR模型进行泛化能力评估,具体包括使用均方误差MSE和决定系数对SVR模型的性能进行评估;
(2.4.1)均方误差MSE的公式为:
(2.4.2)决定系数的R2公式为:
式中yi为实际值,yipre为模型预测值,n代表样本个数,代表目标变量的平均值。
8.一种改进Mallow's Cp变量选择的工业过程软测量系统,其特征在于,包括如下模块:
数据集获取模块,用于获取工业过程中的数据集X,所述数据集X包括工业过程中通过传感器测得的多个影响目标测量值的变量特征和目标测量值以及每个特征对应的采集到的数条样本数据;
标准化处理模块,用于对数据集X中各特征对应的数据样本进行标准化,并对数据集中特征对应的数据样本划分为训练集和测试集;
排序处理模块,用于利用随机森林算法对所有变量特征进行排序,以确定各特征的重要性;
Cp值计算模块,用于按照特征重要性从高到低的顺序,依次增加特征数量,并通过Mallow's Cp计算每个特征组合的Cp值;
最佳特征子集选择模块,用于选择Cp值最小的特征子集作为最佳特征子集;
模型训练模块,用于利用最佳特征子集对应的训练集对支持向量回归SVR模型进行离线建模;
预测模块,用于利用离线建模好的SVR模型对最佳特征子集对应的测试集进行软测量,得到相应的预测目标值。
9.如权利要求8所述的一种改进Mallow's Cp变量选择的工业过程软测量系统,其特征在于:Mallow's Cp的定义如下:
其中,Cp表示Mallow's Cp值,MSE表示均方误差,即实际值与模型预测值之间的差的平方和除以样本数量,P表示模型中使用的特征的数量,N表示样本数量,S2表示残差平方和的无偏估计,N表示样本数量;
S2的计算公式如下:
其中,SSE是残差平方和。
10.如权利要求8所述的一种改进Mallow's Cp变量选择的工业过程软测量系统,其特征在于:模型训练模块的具体实现方式如下;
(6.1)SVR模型的目标是最小化模型预测值与真实值之间的误差,其约束问题为:
s.t.|w·xi+b-yi|-ε≤ξi,ξi≥0
其中,w·xi+b代表预测值,w代表权重向量,xi表示第i个样本数据,b是偏置项,yi是实际值,|w·xi+b-yi|表示误差绝对值,ε代表精度,ξi代表损失,参数C代表着正则化参数,N表示样本数量;如果(xi,yi)的预测误差绝对值小于等于ε,则ξi=0,如果(xi,yi)的预测误差绝对值大于ε,则ξi=|w·xi+b-yi|-ε;
(6.2)参数调优:使用交叉验证技术调整SVR模型的超参数,以提高模型的泛化能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310600720.0A CN116776252A (zh) | 2023-05-25 | 2023-05-25 | 一种改进Mallow's Cp变量选择的工业过程软测量方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310600720.0A CN116776252A (zh) | 2023-05-25 | 2023-05-25 | 一种改进Mallow's Cp变量选择的工业过程软测量方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116776252A true CN116776252A (zh) | 2023-09-19 |
Family
ID=87987005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310600720.0A Withdrawn CN116776252A (zh) | 2023-05-25 | 2023-05-25 | 一种改进Mallow's Cp变量选择的工业过程软测量方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776252A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688388A (zh) * | 2024-01-30 | 2024-03-12 | 武汉纺织大学 | 一种基于数据增强与预测联合学习的软测量方法与系统 |
-
2023
- 2023-05-25 CN CN202310600720.0A patent/CN116776252A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688388A (zh) * | 2024-01-30 | 2024-03-12 | 武汉纺织大学 | 一种基于数据增强与预测联合学习的软测量方法与系统 |
CN117688388B (zh) * | 2024-01-30 | 2024-04-30 | 武汉纺织大学 | 一种基于数据增强与预测联合学习的软测量方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11795516B2 (en) | Computer-implemented method, computer program product and hybrid system for cell metabolism state observer | |
US20200202051A1 (en) | Method for Predicting Outcome of an Modelling of a Process in a Bioreactor | |
CN108090500B (zh) | 食用菌发酵生产过程关键参量的软测量方法 | |
Arauzo-Bravo et al. | Automatization of a penicillin production process with soft sensors and an adaptive controller based on neuro fuzzy systems | |
Pani et al. | A survey of data treatment techniques for soft sensor design | |
CN110046377B (zh) | 一种基于异构相似度的选择性集成即时学习软测量建模方法 | |
CN116776252A (zh) | 一种改进Mallow's Cp变量选择的工业过程软测量方法和系统 | |
US20220282199A1 (en) | Multi-level machine learning for predictive and prescriptive applications | |
CN114223034A (zh) | 用于确定细胞培养过程中的过程变量的方法 | |
WO2023019883A1 (zh) | 利用细胞代谢网络监测生物制造过程的方法 | |
CN110084301B (zh) | 一种基于隐马尔可夫模型的多工况过程工况辨识方法 | |
CN116307067A (zh) | 一种基于历史数据修正的法定节假日电量综合预测方法 | |
US20230419225A1 (en) | Method and Apparatus for Process Optimization | |
CN106599391B (zh) | 基于三角形角度值动态加权的关联向量机软测量建模方法 | |
CN116258087B (zh) | 冰铜品位软测量方法、装置、电子设备及存储介质 | |
CN111142488B (zh) | 基于工况比对驱动的流程工业优化方法 | |
CN113988311B (zh) | 质量变量的预测方法、装置、终端及存储介质 | |
CN115829099A (zh) | 基于anfis及随机分形搜索算法的黄酒发酵预测方法及系统 | |
CN113253682B (zh) | 非线性化工过程故障检测方法 | |
CN114707424A (zh) | 基于质量相关慢特征分析算法的化工过程软测量方法 | |
CN115035962A (zh) | 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法 | |
CN114841000B (zh) | 一种基于模态共有特征分离的软测量建模方法 | |
Chen et al. | Dynamic modeling of biotechnical process based on online support vector machine | |
Sun et al. | Research and application of amino nitrogen content soft sensor modeling method in the process of chlortetracycline fermentation | |
CN117229905A (zh) | 一种生物饲料发酵管控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230919 |