CN114841073A - 基于局部标签传播的即时学习半监督软测量建模方法 - Google Patents

基于局部标签传播的即时学习半监督软测量建模方法 Download PDF

Info

Publication number
CN114841073A
CN114841073A CN202210537382.6A CN202210537382A CN114841073A CN 114841073 A CN114841073 A CN 114841073A CN 202210537382 A CN202210537382 A CN 202210537382A CN 114841073 A CN114841073 A CN 114841073A
Authority
CN
China
Prior art keywords
sample
model
data
ridge regression
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210537382.6A
Other languages
English (en)
Inventor
王平
尹贻超
李雪静
邓晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202210537382.6A priority Critical patent/CN114841073A/zh
Publication of CN114841073A publication Critical patent/CN114841073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于局部标签传播的即时学习半监督软测量建模方法,该方法通过局部标签传播算法充分提取未标记样本中的信息,通过整体优化即时学习算法建立关于查询数据的在线模型,并作为约束项加入局部标签传播算法中。对于采集的查询数据,首先根据已被标记的历史数据,通过整体优化即时学习算法建立局部模型,然后在所有的历史样本中选择出查询数据的相似样本,最后通过基于局部模型约束的局部标签传播算法计算查询数据的输出预测值。本发明不仅能够很好地处理工业过程的非线性、时变性及多重共线性问题,还可以有效利用大量的未被标记的历史数据,提高历史样本的利用率及软测量模型的预测精度。

Description

基于局部标签传播的即时学习半监督软测量建模方法
技术领域
本发明属于工业过程检测技术领域,涉及工业过程软测量技术,具体地说,涉及了一种基于局部标签传播的即时学习半监督软测量建模方法。
背景技术
在现代工业生产过程中,许多重要质量变量(例如:油品黏度、组分等)难以实时测量,给化工过程控制与优化带来很大影响。因为化工生产过程存在样品现场取样困难、分析仪器成本高以及分析时间滞后等问题,在实际生产过程中,往往难以使用在线分析仪表和离线化验等方式对质量变量进行实时测量,无法对质量变量形成闭环控制。因此,质量变量如何实时获取成为过程控制首先要解决的问题。由此,软测量进入了过程工业控制领域的研究视线。
常用的数据驱动软测量建模方法包括主元回归(Principal ComponentRegression,简称:PCR)、偏最小二乘回归(Partial Least Square Regression,简称:PLSR)以及人工神经网络(Artificial Neural Network,简称:ANN)。上述软测量算法建立的模型属于离线模型,模型建立后不会随着生成过程的改变而自适应调整,无法跟踪生产状态的变化,从而导致预测精度逐渐下降。因此,软测量模型的自动维护成为了算法研究与改进的重点。因此,为了适应现代化工生产过程表现出的多模态特性和时变特性,各种在线建模算法已经被广泛应用于生产过程的监控与质量变量预测。
目前,主流的在线软测量建模算法包括:滑动窗算法(Moving windowalgorithm)、递归算法(Recursive learning)、时间差分算法(Time difference,TD)以及即时学习算法(Just in time learning,JITL)。其中,前三种都是根据时间相关性更新模型,属于时间自适应算法;即时学习算法是基于空间相关性对模型进行更新和维护,属于空间自适应算法。相比其他算法,即时学习算法的优势在于可以更好的适应生产过程中的突变现象,并且由于该算法对每个样本都建立局部模型,因此,也可以很好的描述过程变量之间的非线性关系。
虽然最近已经有很多基于即时学习框架的建模方法被提出,并且取得了不错的效果,但大部分方法只能利用已被标记的历史数据。然而,由于质量变量的采样频率低,时延大的问题,被标记的样本往往只占所有历史数据的小部分。因此,仅利用少量的标记样本不仅浪费了大量的未标记样本,还可能无法准确的反映辅助变量与质量变量之间的潜在关系。由上可知,采用传统即时学习算法建立的模型存在样本利用率低且预测精度差的问题。
发明内容
本发明针对现有即时学习技术存在的无法利用未标记的历史样本等上述问题,提供一种基于局部标签传播的即时学习半监督软测量建模方法(Just in time learningalgorithm based on local label propagation,LLPJITL),将即时学习方法扩展到半监督领域,可以高效的提取未标记样本中蕴含的信息,提高了模型优化效率与预测精度。
为了达到上述目的,本发明提供了一种基于局部标签传播的即时学习半监督软测量建模方法,其具体步骤为:
(一)通过工业传感器以及实验室化验分析等方式分别获取辅助变量以及质量变量的真实值,共得到n个历史样本
Figure BDA0003646637560000021
m1=m+1,m为辅助变量的数量。其中,前nl个历史样本为已被标记的样本
Figure BDA0003646637560000022
剩余的nu个样本为未被标记的样本
Figure BDA0003646637560000023
(二)将已采集到的数据作为初始训练数据集
Figure BDA0003646637560000024
对初始训练数据集
Figure BDA0003646637560000025
按照公式(1)进行标准化处理,使其均值为0、方差为1,得到训练数据集
Figure BDA0003646637560000026
Xstd为数据X标准化处理后得到的数据,
Figure BDA0003646637560000027
为变量值标准化处理后得到的变量值,公式(1)表示为:
Figure BDA0003646637560000028
式中,函数mean(·)表示计算矩阵各行的均值,函数std(·)表示计算矩阵各行的标准差;
(三)对于新采集的查询数据
Figure BDA0003646637560000029
按照公式(1)进行标准化处理
Figure BDA00036466375600000210
并且将其按照未被标记的样本加入到历史数据库
Figure BDA00036466375600000211
(四)根据历史数据中已被标记的样本
Figure BDA00036466375600000212
首先通过改进的协同表示算法(Improved collaborative representation learning algorithm,ICRL)计算出样本集
Figure BDA00036466375600000213
中的样本与
Figure BDA0003646637560000031
的相似度权重
Figure BDA0003646637560000032
然后通过局部加权岭回归算法(Weighted ridge regression,WRR)建立关于查询数据
Figure BDA0003646637560000033
的局部模型,模型系数为
Figure BDA0003646637560000034
(五)在历史数据
Figure BDA0003646637560000035
中,根据欧式距离选择出空间上距离查询数据
Figure BDA0003646637560000036
最近的k1个历史样本,作为空间近邻样本集
Figure BDA0003646637560000037
(包含
Figure BDA0003646637560000038
);然后,将所有空间近邻样本的k2个时序近邻样本作为时间近邻样本集
Figure BDA0003646637560000039
k=k1×k2;最后,合并空间以及时间近邻样本集,得到
Figure BDA00036466375600000310
的双重近邻样本
Figure BDA00036466375600000311
klp为双重近邻样本的数量;
(六)根据近邻样本
Figure BDA00036466375600000312
通过基于局部模型约束的标签传播算法计算查询数据
Figure BDA00036466375600000313
的输出值
Figure BDA00036466375600000314
(七)当通过实验室化验分析等方式得到查询数据xq真实输出值yq时,将样本[xq,yq]加入到训练数据集
Figure BDA00036466375600000315
中,并且重新进行标准化处理,以扩充历史数据中所包含的工作区间;否则,维持训练数据集
Figure BDA00036466375600000316
中所包含空间不变。
进一步的,所述步骤(四)中,利用已被标记的样本
Figure BDA00036466375600000317
通过改进的协同表示算法计算出样本集
Figure BDA00036466375600000318
中的样本与
Figure BDA00036466375600000319
的相似度权重
Figure BDA00036466375600000320
的具体步骤为:
利用样本集
Figure BDA00036466375600000321
建立离线岭回归模型,优化目标为:
Figure BDA00036466375600000322
式中,
Figure BDA00036466375600000323
为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数;
求解优化目标,得出离线岭回归模型的岭回归系数θ0的解析表达式为:
θ0=(XLXL T0×I)-1XLYL (3)
式中,XL T为数据XL的转置,I为单位矩阵;
根据离线岭回归模型的岭回归系数θ0通过公式(4)计算出各输入变量的权重矩阵
Figure BDA00036466375600000324
公式(4)表示为:
Figure BDA0003646637560000041
式中,θ0(1)为岭回归系数θ0的第一个元素,θ0(m)为岭回归系数θ0的第m个元素,
Figure BDA0003646637560000042
为模型系数θ0所有元素绝对值的和;
建立查询数据
Figure BDA0003646637560000043
与样本集
Figure BDA0003646637560000044
之间的改进协同表示模型,优化目标为:
Figure BDA0003646637560000045
式中,λICRL
Figure BDA0003646637560000046
的正则项系数,
Figure BDA0003646637560000047
为对角矩阵,对角元素为各样本与查询数据之间的欧氏距离;
通过公式(6)计算协同表示系数β,公式(6)表示为:
Figure BDA0003646637560000048
利用协同表示系数β通过公式(7)得出样本集
Figure BDA0003646637560000049
与查询数据
Figure BDA00036466375600000410
的相似度矩阵Wsample,公式(7)表示为:
Figure BDA00036466375600000411
式中,β(1)为岭回归系数β的第一个元素,β(nl)为岭回归系数β的第nl个元素,Sβ为模型系数β所有元素绝对值的和;
进一步的,所述步骤(四)中,通过局部加权岭回归算法建立关于查询数据
Figure BDA00036466375600000412
的局部模型,并且得到局部模型系数θJITL的具体步骤为:
根据样本集
Figure BDA00036466375600000413
以及其与查询数据
Figure BDA00036466375600000414
的相似度矩阵Wsample,加权岭回归算法的优化目标如公式(8)所示:
Figure BDA00036466375600000415
式中,λWRR为模型系数
Figure BDA00036466375600000416
的正则项系数;
通过公式(9)计算局部模型的模型系数θJITL,公式(9)表示为:
Figure BDA00036466375600000417
进一步的,步骤(六)中,通过基于局部模型约束的标签传播算法计算查询数据
Figure BDA0003646637560000051
的输出值
Figure BDA0003646637560000052
的具体步骤为:
根据已经选择出的双重近邻样本集
Figure BDA0003646637560000053
以及局部模型系数θJITL,基于局部模型约束的标签传播算法的优化目标为:
Figure BDA0003646637560000054
式中,
Figure BDA0003646637560000055
Figure BDA0003646637560000056
中样本的伪标签,Ylp,i,Ui分别为相似样本集
Figure BDA0003646637560000057
中第i个样本的输出值和权重,无标签样本的输出值和权重均为0,
Figure BDA0003646637560000058
为第i和第j样本之间的相似度,
Figure BDA0003646637560000059
为加权岭回归模型系数,λ为局部模型约束的系数;
通过公式(11)可以计算所有相似样本
Figure BDA00036466375600000510
的输出预测值,同时得到了查询数据
Figure BDA00036466375600000511
的输出值
Figure BDA00036466375600000512
公式(11)表示为:
Figure BDA00036466375600000513
与现有技术相比,本发明的有益效果在于:
本发明提供的基于局部标签传播的即时学习半监督软测量建模方法,将标签传播即时学习算法融合,并且对标签传播算法进行了改进,具体地,一方面,将标签传播的范围限制在查询样本附近,提高了标签传播的效率,减少了样本点之间的伪连接;另一方面,通过即时学习算法建立局部模型,并且作为约束项融合到标签传播算法的优化目标中。相比现有其他算法,本发明将即时学习与标签传播相结合,不仅可以充分利用未标记的历史数据建立软测量模型,同时,还可以适应具有非线性以及时变特性的过程,提高了模型效率与预测精度。
附图说明
图1为本发明所述基于局部标签传播的即时学习半监督软测量建模方法的流程图;
图2为本发明实施例所述硫磺回收(简称:SRU)的过程原理图;
图3为本发明实施例所述硫磺回收过程数据的真实输出曲线图;
图4为本发明所述基于局部标签传播的即时学习半监督软测量建模方法对硫磺回收过程数据的预测偏差示意图;
图5为现有局部加权偏最小二乘算法对硫磺回收过程数据的预测偏差示意图。
具体实施方式
下面,通过示例性的实施方式对本发明进行具体描述。然而应当理解,在没有进一步叙述的情况下,一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。
本发明针对工业过程中的时变、多模态特性,以及工业数据中普遍存在的标记样本数量少的问题,提供了一种基于局部标签传播的即时学习半监督软测量建模方法,通过即时学习算法建立关于查询数据的局部模型,克服了时变以及多模态问题;通过局部标签传播算法计算未标记样本的伪标签,解决了已标记样本数量较少的问题。另外,本发明通过整体优化即时学习算法建立局部模型,减少了算法中的可调参数,优化了建模过程,提高了样本权重的可靠性以及软测量模型的预测精度。以下对本发明所述基于局部标签传播的即时学习半监督软测量建模方法进行详细说明。
本发明实施例提供了一种基于局部标签传播的即时学习半监督软测量建模方法,其具体步骤为:
(一)通过工业传感器以及实验室化验分析等方式分别获取辅助变量以及质量变量的真实值,共得到n个历史样本
Figure BDA0003646637560000061
m1=m+1,m为辅助变量的数量。其中,前nl个历史样本为已被标记的样本
Figure BDA0003646637560000062
剩余的nu个样本为未被标记的样本
Figure BDA0003646637560000063
(二)将已采集到的数据作为初始训练数据集
Figure BDA0003646637560000064
对初始训练数据集
Figure BDA0003646637560000065
按照公式(1)进行标准化处理,使其均值为0、方差为1,得到训练数据集
Figure BDA0003646637560000066
XL为数据X标准化处理后得到的数据,
Figure BDA0003646637560000067
为变量值标准化处理后得到的变量值,公式(1)表示为:
Figure BDA0003646637560000068
式中,函数mean(·)表示计算矩阵各行的均值,函数std(·)表示计算矩阵各行的标准差;
(三)对于新采集的查询数据
Figure BDA0003646637560000069
按照公式(1)进行标准化处理
Figure BDA00036466375600000610
并且将其按照未被标记的样本加入到历史数据库
Figure BDA00036466375600000611
中;
(四)根据历史数据中已被标记的样本
Figure BDA0003646637560000071
首先通过改进的协同表示算法计算出样本集
Figure BDA0003646637560000072
中的样本与xq的相似度权重
Figure BDA0003646637560000073
然后通过局部加权岭回归算法建立关于查询数据
Figure BDA0003646637560000074
的局部模型,模型系数为
Figure BDA0003646637560000075
具体地,利用已被标记的样本
Figure BDA0003646637560000076
通过改进的协同表示算法计算出样本集
Figure BDA0003646637560000077
中的样本与
Figure BDA0003646637560000078
的相似度权重
Figure BDA0003646637560000079
的具体步骤为:
利用样本集
Figure BDA00036466375600000710
建立离线岭回归模型,优化目标为:
Figure BDA00036466375600000711
式中,
Figure BDA00036466375600000712
为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数;
求解优化目标,得出离线岭回归模型的岭回归系数θ0的解析表达式为:
θ0=(XLXL T0×I)-1XLYL (3)
式中,XL T为数据XL的转置,I为单位矩阵;
根据离线岭回归模型的岭回归系数θ0通过公式(4)计算出各输入变量的权重矩阵
Figure BDA00036466375600000713
公式(4)表示为:
Figure BDA00036466375600000714
式中,θ0(1)为岭回归系数θ0的第一个元素,θ0(m)为岭回归系数θ0的第m个元素,
Figure BDA00036466375600000715
为模型系数θ0所有元素绝对值的和;
建立查询数据
Figure BDA00036466375600000716
与样本集
Figure BDA00036466375600000717
之间的改进协同表示模型,优化目标为:
Figure BDA00036466375600000718
式中,λICRL
Figure BDA00036466375600000719
的正则项系数,
Figure BDA00036466375600000720
为对角矩阵,对角元素为各样本与查询数据之间的欧氏距离;
通过公式(6)计算协同表示系数β,公式(6)表示为:
β=(XL TWvarXLICRLD)-1XL TWvarxq (6)
利用协同表示系数β通过公式(7)得出样本集
Figure BDA00036466375600000721
与查询数据
Figure BDA00036466375600000722
的相似度矩阵Wsample,公式(7)表示为:
Figure BDA0003646637560000081
式中,β(1)为岭回归系数β的第一个元素,β(nl)为岭回归系数β的第nl个元素,Sβ为模型系数β所有元素绝对值的和;
通过局部加权岭回归算法建立关于查询数据
Figure BDA0003646637560000082
的局部模型,并且得到局部模型系数θJITL的具体步骤为:
根据样本集
Figure BDA0003646637560000083
以及其与查询数据
Figure BDA0003646637560000084
的相似度矩阵Wsample,加权岭回归算法的优化目标如公式(8)所示:
Figure BDA0003646637560000085
式中,λWRR
Figure BDA0003646637560000086
的正则项系数;
通过公式(9)计算局部模型的模型系数θJITL,公式(9)表示为:
Figure BDA0003646637560000087
(五)在历史数据
Figure BDA0003646637560000088
中,根据欧式距离选择出空间上距离查询数据
Figure BDA0003646637560000089
最近的k1个历史样本,作为空间近邻样本集
Figure BDA00036466375600000810
(包含
Figure BDA00036466375600000811
);然后,将所有空间近邻样本的k2个时序近邻样本作为时间近邻样本集
Figure BDA00036466375600000812
k=k1×k2;最后,合并空间以及时间近邻样本集,得到
Figure BDA00036466375600000813
的双重近邻样本
Figure BDA00036466375600000814
klp为双重近邻样本的数量;
(六)根据近邻样本
Figure BDA00036466375600000815
通过基于局部模型约束的标签传播算法计算查询数据
Figure BDA00036466375600000816
的输出值
Figure BDA00036466375600000817
具体步骤为:
根据已经选择出的双重近邻样本集
Figure BDA00036466375600000818
以及局部模型系数θJITL,基于局部模型约束的标签传播算法的优化目标为:
Figure BDA00036466375600000819
式中,
Figure BDA00036466375600000820
Figure BDA00036466375600000821
中样本的伪标签,Ylp,i,Ui分别为相似样本集
Figure BDA00036466375600000822
中第i个样本的输出值和权重,无标签样本的输出值和权重均为0,
Figure BDA00036466375600000823
为第i和第j样本之间的相似度,
Figure BDA0003646637560000091
为加权岭回归模型系数,λ为局部模型约束的系数;
通过公式(11)可以计算所有相似样本
Figure BDA0003646637560000092
的输出预测值,同时得到了查询数据
Figure BDA0003646637560000093
的输出值
Figure BDA0003646637560000094
公式(11)表示为:
Figure BDA0003646637560000095
(七)当通过实验室化验分析等方式得到查询数据xq真实输出值yq时,将样本[xq,yq]加入到训练数据集
Figure BDA0003646637560000096
中,并且重新进行标准化处理,以扩充历史数据中所包含的工作区间;否则,维持训练数据集
Figure BDA0003646637560000097
中所包含空间不变。
本发明实施例上述方法,通过局部标签传播算法高效的获取未标记的历史数据中蕴含的信息,并根据已被标记的历史样本,通过整体优化即时学习算法建立局部模型,获取已标记样本中的信息,最后将两种信息融合。对于采集的查询数据,首先根据已被标记的历史数据,通过整体优化即时学习算法建立在线模型,然后在所有的历史样本中选择出查询数据的相似样本,最后,根据选择出的相似样本,通过基于在线模型约束的局部标签传播算法计算查询数据的输出预测值。本发明不仅能够很好地处理工业过程的非线性、时变性及多重共线性问题,还可以有效利用大量未被标记的历史数据,提高历史样本的利用率及软测量模型的预测精度。
为了说明本发明上述基于局部标签传播的即时学习软测量建模方法的效果,以下结合具体实施例对本发明做出进一步说明。
实施例:以硫磺回收的过程数据为例进行说明。
硫磺回收是一种重要的炼油加工装置(SRU)。在酸性气体流释放到大气中之前,它会去除其中的环境污染物,并且回收其中含有的硫元素。为了更好的除去硫化物,必须将硫化氢与二氧化硫的浓度比例控制在1:2。可以通过建立硫化氢(H2S)和二氧化硫(SO2)浓度与空气供给比之间的闭环控制达到这一目的,但这需要实时监控硫化氢与二氧化硫的浓度。此外,又由于这两种酸性气体对硬件仪表具有很强的腐蚀性,因此需要经常更换和维护仪表,这大大增加了生产成本。因此,可以通过软测量模型实时预测SO2和H2S的浓度,本文以预测SO2的浓度为例。表1给出了五个辅助变量的解释,其在过程中的位置如图1所示。数据集来自实际工业生产过程,历史样本的数量为10072,按采样时间排列,前7001作为测试样本,剩余的3071为测试样本,测试集实际的输出曲线如图2所示。另外,考虑到实际生产过程中质量变量的采样效率低、时延大的问题,假设所有的历史样本中仅有八分之一的样本具有标签(既包含输入数据,也包含输出数据),其他历史样本均为无标签样本(仅包含输入数据)。
表1
辅助变量 变量描述
X<sub>1</sub> MEA气体流量
X<sub>2</sub> MEA区第一空气流量
X<sub>3</sub> MEA区第二空气流量
X<sub>4</sub> SWS气体流量
X<sub>5</sub> SWS区空气流量
接下来结合硫磺回收生产过程对本发明的具体步骤进行阐述:
1、将已采集到的数据作为训练数据集,并且进行预处理;
首先,对所有样本进行预处理,删除其中的异常样本,共得到7001个历史数据
Figure BDA0003646637560000101
其中,前875个为有标签样本
Figure BDA0003646637560000102
剩余的6126个为无标签样本
Figure BDA0003646637560000103
然后,考虑到过程的动态特性,对所有样本按照下式进行维度扩展,扩展后的样本维度为20;最后,进行标准化处理得到最终训练数据集
Figure BDA0003646637560000104
则:
Figure BDA0003646637560000105
u(t)=(x1(t),x2(t),x3(t),x4(t),x5(t))
式中,
Figure BDA0003646637560000106
表示软测量模型对二氧化硫浓度的预测值,fSRU(·)代表二氧化硫浓度与X1~X5的潜在关系。
2、采集新数据并进行标准化处理;
对于新采集的查询数据
Figure BDA0003646637560000107
按照训练集标准进行标准化处理
Figure BDA0003646637560000108
并且将其按照未被标记的样本加入到历史数据库
Figure BDA0003646637560000109
中;
3、根据已被标记的历史数据建立局部模型;
根据历史数据中已被标记的样本
Figure BDA00036466375600001010
首先通过改进的协同表示算法计算出样本集
Figure BDA00036466375600001011
中的样本与
Figure BDA00036466375600001012
的相似度权重
Figure BDA00036466375600001013
然后通过局部加权岭回归算法建立关于查询数据xq的局部模型,模型系数为
Figure BDA00036466375600001014
4、在所有历史样本中,选择出查询数据的双重近邻样本;
在历史数据
Figure BDA0003646637560000111
中,根据欧式距离选择出空间上距离查询数据
Figure BDA0003646637560000112
最近的k1个历史样本,作为空间近邻样本集
Figure BDA0003646637560000113
(包含
Figure BDA0003646637560000114
);然后,将所有空间近邻样本的k2个时序近邻样本作为时间近邻样本集
Figure BDA0003646637560000115
k=k1×k2;最后,合并空间以及时间近邻样本集,得到
Figure BDA0003646637560000116
的双重近邻样本
Figure BDA0003646637560000117
klp为双重近邻样本的数量;
5、通过基于局部模型约束的标签传播算法计算查询数据的输出值;
根据近邻样本
Figure BDA0003646637560000118
通过基于局部模型约束的标签传播算法计算查询数据
Figure BDA0003646637560000119
的输出值
Figure BDA00036466375600001110
当获得输出变量的真实值yq时,将样本[xq;yq]添加到训练数据集
Figure BDA00036466375600001111
中,并且重新进行标准化处理;
本发明所述方法(简称:LLPJ I TL)与传统局部加权偏最小二乘(简称:LWPLS)算法对硫磺回收数据输出变量的预测偏差值如图3、图4所示。由图3、图4可以看出,本发明所述方法与传统方法相比,具有更高的预测精度。
上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (4)

1.一种基于局部标签传播的即时学习半监督软测量建模方法,其特征在于,其具体步骤为:
(一)通过工业传感器以及实验室化验分析等方式分别获取辅助变量以及质量变量的真实值,共得到n个历史样本
Figure FDA0003646637550000011
为辅助变量的数量。其中,前nl个历史样本为已被标记的样本
Figure FDA0003646637550000012
剩余的nu个样本为未被标记的样本
Figure FDA0003646637550000013
(二)将已采集到的数据作为初始训练数据集
Figure FDA0003646637550000014
对初始训练数据集
Figure FDA0003646637550000015
按照公式(1)进行标准化处理,使其均值为0、方差为1,得到训练数据集
Figure FDA0003646637550000016
Xstd为数据X标准化处理后得到的数据,
Figure FDA0003646637550000017
为变量值标准化处理后得到的变量值,公式(1)表示为:
Figure FDA0003646637550000018
式中,函数mean(·)表示计算矩阵各行的均值,函数std(·)表示计算矩阵各行的标准差;
(三)对于新采集的查询数据
Figure FDA0003646637550000019
按照公式(1)进行标准化处理
Figure FDA00036466375500000110
并且将其按照未被标记的样本加入到历史数据库
Figure FDA00036466375500000111
中;
(四)根据历史数据中已被标记的样本
Figure FDA00036466375500000112
首先通过改进的协同表示算法计算出样本集
Figure FDA00036466375500000113
中的样本与
Figure FDA00036466375500000114
的相似度权重
Figure FDA00036466375500000115
然后通过局部加权岭回归算法建立关于查询数据
Figure FDA00036466375500000116
的局部模型,模型系数为
Figure FDA00036466375500000117
(五)在历史数据
Figure FDA00036466375500000118
中,根据欧式距离选择出空间上距离查询数据
Figure FDA00036466375500000119
最近的k1个历史样本,作为空间近邻样本集
Figure FDA00036466375500000120
(包含
Figure FDA00036466375500000121
);然后,将所有空间近邻样本的k2个时序近邻样本作为时间近邻样本集
Figure FDA00036466375500000122
最后,合并空间以及时间近邻样本集,得到
Figure FDA00036466375500000123
的双重近邻样本
Figure FDA00036466375500000124
klp为双重近邻样本的数量;
(六)根据近邻样本
Figure FDA00036466375500000125
通过基于局部模型约束的标签传播算法计算查询数据
Figure FDA00036466375500000126
的输出值
Figure FDA00036466375500000127
(七)当通过实验室化验分析等方式得到查询数据xq真实输出值yq时,将样本[xq,yq]加入到训练数据集
Figure FDA00036466375500000128
中,并且重新进行标准化处理,以扩充历史数据中所包含的工作区间;否则,维持训练数据集
Figure FDA00036466375500000129
中所包含空间不变。
2.如权利要求1所述的基于局部标签传播的即时学习半监督软测量建模方法,其特征在于,步骤(四)中,利用已被标记的样本
Figure FDA0003646637550000021
通过改进的协同表示算法计算出样本集
Figure FDA0003646637550000022
中的样本与
Figure FDA0003646637550000023
的相似度权重
Figure FDA0003646637550000024
的具体步骤为:
利用样本集
Figure FDA0003646637550000025
建立离线岭回归模型,优化目标为:
Figure FDA0003646637550000026
式中,
Figure FDA0003646637550000027
为离线岭回归模型的岭回归系数,λ0为离线岭回归模型的正则项系数;
求解优化目标,得出离线岭回归模型的岭回归系数W0的解析表达式为:
θ0=(XLXL T0×I)-1XLYL (3)
式中,XL T为数据XL的转置,I为单位矩阵;
根据离线岭回归模型的岭回归系数θ0通过公式(4)计算出各输入变量的权重矩阵
Figure FDA0003646637550000028
公式(4)表示为:
Figure FDA0003646637550000029
式中,θ0(1)为岭回归系数θ0的第一个元素,θ0(m)为岭回归系数θ0的第m个元素,
Figure FDA00036466375500000210
为模型系数θ0所有元素绝对值的和;
建立查询数据
Figure FDA00036466375500000211
与样本集
Figure FDA00036466375500000212
之间的改进协同表示模型,优化目标为:
Figure FDA00036466375500000213
式中,λICRL
Figure FDA00036466375500000214
的正则项系数,
Figure FDA00036466375500000215
为对角矩阵,对角元素为各样本与查询数据之间的欧氏距离;
通过公式(6)计算协同表示系数β,公式(6)表示为:
Figure FDA00036466375500000216
利用协同表示系数β通过公式(7)得出样本集
Figure FDA00036466375500000217
与查询数据
Figure FDA00036466375500000218
的相似度矩阵Wsample,公式(7)表示为:
Figure FDA00036466375500000219
式中,β(1)为岭回归系数β的第一个元素,β(nl)为岭回归系数β的第nl个元素,Sβ为模型系数β所有元素绝对值的和;
3.如权利要求2所述的基于局部标签传播的即时学习半监督软测量建模方法,其特征在于,步骤(四)中,通过局部加权岭回归算法建立关于查询数据
Figure FDA0003646637550000031
的局部模型,并且得到局部模型系数θJITL的具体步骤为:
根据样本集
Figure FDA0003646637550000032
以及其与查询数据
Figure FDA0003646637550000033
的相似度矩阵Wsample,加权岭回归算法的优化目标如公式(8)所示:
Figure FDA0003646637550000034
式中,λWRR为模型系数
Figure FDA0003646637550000035
的正则项系数;
通过公式(9)计算局部模型的模型系数θJITL,公式(9)表示为:
Figure FDA0003646637550000036
4.如权利要求3所述的基于局部标签传播的即时学习半监督软测量建模方法,其特征在于,步骤(六)中,通过基于局部模型约束的标签传播算法计算查询数据
Figure FDA0003646637550000037
的输出值
Figure FDA0003646637550000038
的具体步骤为:
根据已经选择出的双重近邻样本集
Figure FDA0003646637550000039
以及局部模型系数θJITL,基于局部模型约束的标签传播算法的优化目标为:
Figure FDA00036466375500000310
式中,
Figure FDA00036466375500000311
Figure FDA00036466375500000312
中样本的伪标签,Ylp,i,Ui分别为相似样本集
Figure FDA00036466375500000313
中第i个样本的输出值和权重,无标签样本的输出值和权重均为0,
Figure FDA00036466375500000314
为第i和第j样本之间的相似度,
Figure FDA00036466375500000315
为加权岭回归模型系数,λ为局部模型约束的系数;
通过公式(11)可以计算所有相似样本
Figure FDA00036466375500000316
的输出预测值,同时得到了查询数据
Figure FDA00036466375500000317
的输出值
Figure FDA00036466375500000318
公式(11)表示为:
Figure FDA00036466375500000319
CN202210537382.6A 2022-05-17 2022-05-17 基于局部标签传播的即时学习半监督软测量建模方法 Pending CN114841073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210537382.6A CN114841073A (zh) 2022-05-17 2022-05-17 基于局部标签传播的即时学习半监督软测量建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210537382.6A CN114841073A (zh) 2022-05-17 2022-05-17 基于局部标签传播的即时学习半监督软测量建模方法

Publications (1)

Publication Number Publication Date
CN114841073A true CN114841073A (zh) 2022-08-02

Family

ID=82569049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210537382.6A Pending CN114841073A (zh) 2022-05-17 2022-05-17 基于局部标签传播的即时学习半监督软测量建模方法

Country Status (1)

Country Link
CN (1) CN114841073A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738866A (zh) * 2023-08-11 2023-09-12 中国石油大学(华东) 一种基于时间序列特征提取的即时学习的软测量建模方法
CN116821695A (zh) * 2023-08-30 2023-09-29 中国石油大学(华东) 一种半监督神经网络软测量建模方法
CN117272244A (zh) * 2023-11-21 2023-12-22 中国石油大学(华东) 一种融合特征提取和自适应构图的软测量建模方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738866A (zh) * 2023-08-11 2023-09-12 中国石油大学(华东) 一种基于时间序列特征提取的即时学习的软测量建模方法
CN116738866B (zh) * 2023-08-11 2023-10-27 中国石油大学(华东) 一种基于时间序列特征提取的即时学习的软测量建模方法
CN116821695A (zh) * 2023-08-30 2023-09-29 中国石油大学(华东) 一种半监督神经网络软测量建模方法
CN116821695B (zh) * 2023-08-30 2023-11-03 中国石油大学(华东) 一种半监督神经网络软测量建模方法
CN117272244A (zh) * 2023-11-21 2023-12-22 中国石油大学(华东) 一种融合特征提取和自适应构图的软测量建模方法
CN117272244B (zh) * 2023-11-21 2024-03-15 中国石油大学(华东) 一种融合特征提取和自适应构图的软测量建模方法

Similar Documents

Publication Publication Date Title
CN114841073A (zh) 基于局部标签传播的即时学习半监督软测量建模方法
CN108764517B (zh) 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质
Zhou et al. A model for real-time failure prognosis based on hidden Markov model and belief rule base
CN112101480B (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN109508818B (zh) 一种基于LSSVM的在线NOx预测方法
CN111444942B (zh) 一种高炉铁水硅含量智能预报方法及系统
CN111325403B (zh) 一种公路隧道机电设备剩余寿命预测方法
CN111340110B (zh) 一种基于工业过程运行状态趋势分析的故障预警方法
CN114282443B (zh) 基于mlp-lstm有监督联合模型的剩余使用寿命预测方法
CN111639823A (zh) 一种基于特征集构建的建筑冷热负荷预测方法
CN114117919B (zh) 基于样本协同表示的即时学习的软测量建模方法
CN114528764A (zh) 基于整体优化的即时学习的软测量建模方法及装置
CN115096357A (zh) 一种基于ceemdan-pca-lstm的室内环境质量预测方法
CN114897103A (zh) 一种基于近邻成分损失优化多尺度卷积神经网络的工业过程故障诊断方法
Li et al. Data cleaning method for the process of acid production with flue gas based on improved random forest
CN116821695B (zh) 一种半监督神经网络软测量建模方法
CN113988415A (zh) 一种中长期电力负荷预测方法
Li et al. Data-driven modeling and operation optimization with inherent feature extraction for complex industrial processes
CN113707240B (zh) 基于半监督非线性变分贝叶斯混合模型的成分参数鲁棒软测量方法
Wu et al. Time series online prediction algorithm based on least squares support vector machine
CN115186584A (zh) 一种融合注意力机制和自适应构图的宽度学习半监督软测量建模方法
Cui et al. Prediction of Aeroengine Remaining Useful Life Based on SE-BiLSTM
Khodabakhsh et al. Stream analytics and adaptive windows for operational mode identification of time-varying industrial systems
Xue Research on two-sided combined forecasting method of economic supply and demand based on big data analysis
CN114841000B (zh) 一种基于模态共有特征分离的软测量建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination