CN102708294B - 基于半监督局部线性回归的自适应参数软测量方法 - Google Patents

基于半监督局部线性回归的自适应参数软测量方法 Download PDF

Info

Publication number
CN102708294B
CN102708294B CN201210147645.9A CN201210147645A CN102708294B CN 102708294 B CN102708294 B CN 102708294B CN 201210147645 A CN201210147645 A CN 201210147645A CN 102708294 B CN102708294 B CN 102708294B
Authority
CN
China
Prior art keywords
semi
data
local linear
supervised
linear smoothing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210147645.9A
Other languages
English (en)
Other versions
CN102708294A (zh
Inventor
阎威武
李哲
王国良
陈世和
张曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Original Assignee
Shanghai Jiaotong University
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Electric Power Research Institute of Guangdong Power Grid Co Ltd filed Critical Shanghai Jiaotong University
Priority to CN201210147645.9A priority Critical patent/CN102708294B/zh
Publication of CN102708294A publication Critical patent/CN102708294A/zh
Application granted granted Critical
Publication of CN102708294B publication Critical patent/CN102708294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于半监督局部线性回归的自适应参数软测量方法,首先以局部线性回归散点平滑方法为理论基础,通过将未标记样本引入其目标方程的方法将其改造为一种半监督的学习方法;然后利用一种计算标记样本集估计斜率的方法,自适应估计出一个当前标记样本集的最优高斯核宽参数;最后利用该自适应参数选择方法实现半监督局部线性回归学习方法的参数选择,并基于滚动时间窗的方式实现软测量模型的在线更新。本发明充分利用了未标记样本的价值。针对半监督局部线性回归的特点,可以有效地去除标记样本测量误差带来的影响,提高预测精度。运用滚动时间窗的方法实时更新软测量模型,使得模型能够更好地适应输入数据的变化。

Description

基于半监督局部线性回归的自适应参数软测量方法
技术领域
本发明涉及的是一种软测量仪表技术领域的方法,具体是一种基于半监督局部线性回归的自适应参数软测量方法。
背景技术
软测量仪表指的是一种利用计算机建模技术进行工业过程控制变量测量的方法,该方法与传统的传感器在线测量和人工离线测量的方法不同,具有投入成本低、维护简单、可靠性高的优点。目前存在的软测量方法一般都是基于监督学习方法建立的,监督学习方法仅仅使用标记样本进行模型的训练,因此大大浪费了那些在实际中能够大量轻易获得的,实际反映工业过程运行情况的未标记样本的价值。如果能够在软测量模型的建模中使用这些未标记样本,是应该可以提高软测量方法的测量精度的。
半监督学习是目前存在的一种较好地利用了标记样本和未标记样本的学习方法,它以标记样本作为基础,并在学习过程中辅以未标记样本,从而达到减少标记样本需求量,利用未标记样本改进学习效果的目的。随着数据采集和存储技术的飞速发展,在实际工业过程中,收集大量未标记样本已相当容易,而获取大量有标记的样本则相对较为困难,这是因为获得这些标记可能需要消耗大量的人力物力,所以在一般的以监督学习为基础的软测量建模中只能利用数量非常有限的标记样本,这有可能使模型出现不够准确的问题。因此,如果在软测量方法中引入半监督学习方法是应该可以有效提高测量精度和结果可靠度的。
软测量领域中的半监督学习问题是一类回归问题,所以在软测量方法中应当使用基于半监督回归的学习方法对模型进行训练,而如果要将软测量方法运用到实际生产中,就必须考虑软测量模型的更新问题,使得模型能够更好地匹配模型输入数据的变化,避免模型的过学习问题出现。
发明内容
本发明针对传统软测量方法中存在的未利用未标记样本和模型不能有效更新的问题,提供一种基于半监督局部线性回归算法的在线软测量方法,该方法以局部线性回归散点平滑方法为理论基础,通过将未标记样本引入其流形正则化函数,将其改变为一种半监督回归方法,利用该回归方法对标记样本和未标记样本进行软测量建模,进行控制变量的预测或测量。
本发明是通过以下技术方案实现的,本发明首先以局部线性回归散点平滑方法为理论基础,局部线性回归散点平滑方法是一种监督回归方法,它只能利用标记样本进行变量的预测,所以如果将未标记样本引入其流形正则化函数进行模型求解的话,就会使其变为一种能够同时利用标记样本和未标记样本的回归学习方法,称为半监督局部线性回归学习方法;此外,本发明还在其基础上提供了一种适用于半监督局部线性回归的自适应参数选择方法,使得模型能够更加有效地过滤掉标记样本中测量误差带来的影响;最后将自适应参数的半监督局部线性回归方法使用基于滚动时间窗的方式,实现软测量模型的在线更新。
半监督局部线性回归本质上是为了求得某数据点上的局部线性系数向量,该局部线性系数构成的线性方程可以满足该数据点附近的临近数据点,所以通过该局部线性系数可以预测该数据点附近的变量值。
所述的半监督局部线性回归学习方法是指:假设xi∈X,i=1,2,…,n为输入数据集X中的数据点,βi∈B,i=1,2,…,n分别为各数据点上的局部线性系数向量,其中n为总数据个数,B为所有局部线性系数向量组成的系数矩阵,则通过求解下式可以得到某输入数据点xi的局部线性系数向量
β i = [ Σ j = 1 l w ij x ji x ji T + γ Σ j = 1 n w ij ( x ii x ii T + x ji x ji T ) ] - 1 ( Σ j = 1 l w ij x ji y j + γ Σ j = 1 n w ij ( x ii x ij T + x ji x jj T ) β j )
其中l为标记数据个数,n为总数据个数;wij为某两个数据点xi和xj之间的相似度(距离),15这里wij由高斯核函数给出,即h为高斯核宽,可以调节相似数据点的范围;除此以外,βi的计算公式中γ为半监督系数,该值越大代表未标记样本利用越多,越小代表未标记样本利用越少,当该值为0时,算法退化为监督算法。该方法是一个迭代的算法,迭代计算得到所有数据点上的局部线性系数后,则数据点的局部线性系数中的常数项一般为该点的预测值或测量值。
所述的适应于半监督局部线性回归的自适应参数选择方法是指:通过计算标记样本集中标记样本的估计斜率,来自适应得到一个半监督局部线性回归中高斯核函数的高斯核宽h,从而选取一个合适的高斯核宽使方法预测精度提高,具体步骤如下:首先对部分事先已经获得的输入数据进行离线实验,找出一个适应于这些数据的最优高斯核宽,记为ho;再通过下式计算这些数据的估计斜率,
k = Σ i = 1 v | y i - y i - 1 n i - n i - 1 | · n i - n i - 1 n v - n 1 = Σ i = 1 v | y i - y i - 1 | n v - n 1
记为k0,其中yi为标记样本集中某一标记样本的标记值,ni为标记样本集中某一标记样本在全部数据集(包括标记样本和未标记样本)中的顺序编号(按获取时间排序),v为标记样本集中标记样本的个数。当标记样本集更新以后,按上式重新计算估计斜率k,则自适应的高斯核宽再利用该参数进行半监督局部线性回归的变量预测。
所述的在线更新是指:对标记数据集XL,全部数据集X和预测集随着数据的读取,一边进行数据的处理和预测,同时更新这个三个数据集。基于滚动时间窗的方法是指按时间来对数据集进行更新,即如果获取一个数据点是标记样本,则将其加入到标记数据集中,并从标记数据集中去掉一个最早的数据以使标记数据集中的标记样本数目维持在一个定制,并不断通过对实时变化的标记数据集和全部数据进行软测量模型的建模和预测,实现模型的不断更新,更适应于新获取的数据,避免模型的过学习问题。具体过程是这样的:首先利用XL和X进行基于半监督局部线性回归的软测量模型建立,并对数据点进行预测得到测量结果,更新接着读取新数据,更新XL和X,重新进行基于半监督局部线性回归的软测量模型建立和结果预测,不断循环下去直到预测终止。
与现有技术相比,本发明具有如下有益效果:
1.通过半监督学习方法将未标记样本运用到软测量模型的建立中,充分利用了未标记样本的价值。
2.针对半监督局部线性回归的特点,提供的自适应参数方法可以有效地去除标记样本测量误差带来的影响,提高预测精度。
3.根据实际中数据是不断产生的特点,运用滚动时间窗的方法实时更新软测量模型,使得模型能够更好地适应输入数据的变化。
本发明在工业软测量建模方法领域有着广泛的应用前景。
附图说明
图1是本发明的方法流程图。
图2是基于局部线性回归的软测量仿真效果图。
图3是基于半监督局部线性回归的软测量仿真效果图。
图4是基于半监督局部线性回归的非自适应参数在线软测量仿真效果图。
图5是基于半监督局部线性回归的自适应参数在线软测量仿真效果图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例包括以下步骤:首先,初始化标记数据集XL、全部数据集X,预测集初始化时间窗宽及半监督系数γ0和高斯核宽h0;接着读取输入数据,判断是否为标记样本,更新数据集,根据适用于半监督局部线性回归的自适应参数选择方法选取一个合适的高斯核宽h;最后利用h进行半监督局部线性回归软测量模型的建立和结果预测,更新预测集,以此循环下去直到算法中止。
输入:标记样本集XL、全部数据集X。
①初始化系数矩阵B,预测集选定滚动窗大小,建立标记数据集XL,全部数据集X,设定适当的h0和γ0
②读取数据点。如果数据不是标记数据,转③。如果数据是标记数据,判断XL是否已满,未满则将其加入到XL末尾,在XL中保存该数据点x、标记y和该数据在总数据中的序列数n。如果XL已满,将XL中的数据左移,丢掉先前的最早数据,将新数据点加到XL末尾。
③计算当前标记数据集的平均斜率估计值
k = Σ i = 1 v | y i - y i - 1 n i - n i - 1 | · n i - n i - 1 n v - n 1 = Σ i = 1 v | y i - y i - 1 | n v - n 1
根据k计算设定回归参数h=h′,γ=γ0
④假设当前总数据的个数为m,取出最新的n个数据点,令t=X(m-n-1:m),迭代循环计算n次。
Wu=diag(G(ti-t,1/2h0))
Xuij=[ones(n,1)(ti-t)T]T
Xuii=[ones(n,1)zeros(n,1)]T
Xuji=[ones(n,1)tT-ti]T
Wl=diag(G(ti-l,1/h))
Xlji=[ones(v,1)Xl T-ti]T
B i = [ W lji W l X lji T + γ ( X uii W u X uii T + X uji W u X uji T ) ] - 1
( X lji W l Y + γ ( X uii W u diag ( X uij T B ) + X uji W u diag ( X uii T B ) ) )
其中i为迭代次数,为高斯核函数。
⑤将Bm-n添加到利用中的预测值与标记数据集对参数h0进行校正。
⑥重复②。
输出:预测集
利用Gong函数产生仿真数据对本发明提供的方法进行研究。Gong函数是一个经常被用于回归效果检验的仿真函数,它的原型如下式
y = 1 x sin 15 x
其中x为软测量模型的输入数据,y为测量的真实值,这里仿真的输入数据x范围从0.5到1.5,共产生数据点800个,标记数据点为80个,标记数据点占总数据点的十分之一。为使仿真更真实,标记数据点集上加有方差为0.1的白噪声以模拟测量误差。
本实施例使用均方误差和MSE来对预测效果进行检验,MSE值越小,代表预测误差越小,预测效果越好,它的计算公式如下式
MSE = Σ i = 1 n ( y i - y i ^ ) 2
其中yi为变量真实值,为变量预测值。为体现半监督算法的优点和自适应参数选择方法的优点,本实施例分别做了在离线情况下的局部线性回归与半监督局部线性回归的对比实验、非自适应参数与自适应参数的对比实验。两组对比实验的实验结果分别如表1和表2所示。
表1局部线性回归与半监督局部线性回归对比实验结果
表2非自适应参数与自适应参数在线半监督局部线性回归对比实验结果
图2和图3分别为局部线性回归与半监督局部线性回归的预测效果图,从两张图上可以看出在局部线性算法中加入未标记数据变为半监督算法后,明显地改善了仿真效果,不仅整体误差变小,而且半监督算法在曲线的波峰和波谷段都拥有良好的预测效果,证明加入未标记数据后的半监督算法平滑效果提高非常明显,从表1的MSE上也可以看出半监督算法的效果更好一些。
图4和图5分别为非自适应参数半监督局部线性回归和自适应参数半监督局部线性回归的预测效果图,从图上可以看出来当半监督局部线性回归的高斯核宽自适应于仿真曲线的斜率变化时,可以得到一个更好的预测效果,该方法有效地过滤掉了标记样本上白噪声带来的影响。从表2的MSE上也可以看出自适应参数方法可以有效地提高在线半监督局部线性回归算法的预测精度。
这里需要注意的是,因为前一组对比实验是基于离线算法的,所谓离线算法是与在线算法相对的,它不对模型进行实时更新,而是利用全部的数据点仅仅建立一次模型来进行变量的预测,所以它与在线算法相比,可利用的数据点更多,在总数据点并不太多的情况下效果要比在线算法要好,这从表1和表2的对比上可以看出来,但是随着输入数据点的不断增多,它不能像在线算法一样对模型进行更新,容易产生模型过学习问题,造成预测效果降低。因为本实施例仿真数据比较少,所以产生表1和表2的情况。

Claims (4)

1.一种基于半监督局部线性回归的自适应参数软测量方法,其特征在于,首先将未标记样本引入局部线性回归的流形正则化函数进行模型求解,得到半监督局部线性回归的学习方法;接着采用适用于半监督局部线性回归的自适应参数选择方法,使得模型能够过滤掉标记样本中测量误差带来的影响;最后将自适应参数的半监督局部线性回归方法基于滚动时间窗的方式,实现软测量模型的在线更新;
所述的适用于半监督局部线性回归的自适应参数选择方法是指:通过计算标记样本集中标记样本的估计斜率,来自适应得到一个半监督局部线性回归中高斯核函数的高斯核宽h,从而选取一个合适的高斯核宽使方法预测精度提高;
所述的适用于半监督局部线性回归的自适应参数选择方法,具体步骤如下:首先对部分事先已经获得的输入数据进行离线实验,找出一个适应于这些数据的最优高斯核宽,记为ho;再通过下式计算这些数据的估计斜率,
k = Σ i = 1 v | y i - y i - 1 n i - n i - 1 | · n i - n i - 1 n v - n 1 = Σ i = 1 v | y i - y i - 1 | n v - n 1
记为k0,其中yi为标记样本集中某一标记样本的标记值,ni为标记样本集中某一标记样本在全部数据集中的顺序编号,v为标记样本集中标记样本的个数;当标记样本集更新以后,按上式重新计算估计斜率k,则自适应的高斯核宽再利用自适应的高斯核宽进行半监督局部线性回归的变量预测,其中,所述全部数据集包括标记样本和未标记样本,所述顺序编号按获取时间排序。
2.根据权利要求1所述的基于半监督局部线性回归的自适应参数软测量方法,其特征在于,所述的在线更新是指:对标记数据集XL,全部数据集X和预测集随着数据的读取,进行数据的处理和预测,同时更新这三个数据集。
3.根据权利要求1所述的基于半监督局部线性回归的自适应参数软测量方法,其特征在于,所述的基于滚动时间窗的方法是指按时间来对数据集进行更新,即如果获取一个数据点是标记样本,则将其加入到标记数据集中,并从标记数据集中去掉一个最早的数据以使标记数据集中的标记样本数目维持在一个定值,并不断通过对实时变化的标记数据集和全部数据进行软测量模型的建模和预测,实现模型的不断更新,更适应于新获取的数据,避免模型的过学习问题。
4.根据权利要求2或3所述的基于半监督局部线性回归的自适应参数软测量方法,其特征在于,所述的基于滚动时间窗的方法是指按时间来对数据集进行更新,具体过程是这样的:首先利用XL和X进行基于半监督局部线性回归的软测量模型建立,并对数据点进行预测得到测量结果,更新接着读取新数据,更新XL和X,重新进行基于半监督局部线性回归的软测量模型建立和结果预测,不断循环下去直到预测终止。
CN201210147645.9A 2012-05-11 2012-05-11 基于半监督局部线性回归的自适应参数软测量方法 Active CN102708294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210147645.9A CN102708294B (zh) 2012-05-11 2012-05-11 基于半监督局部线性回归的自适应参数软测量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210147645.9A CN102708294B (zh) 2012-05-11 2012-05-11 基于半监督局部线性回归的自适应参数软测量方法

Publications (2)

Publication Number Publication Date
CN102708294A CN102708294A (zh) 2012-10-03
CN102708294B true CN102708294B (zh) 2015-04-01

Family

ID=46901050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210147645.9A Active CN102708294B (zh) 2012-05-11 2012-05-11 基于半监督局部线性回归的自适应参数软测量方法

Country Status (1)

Country Link
CN (1) CN102708294B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013214967A1 (de) * 2013-07-31 2015-02-19 Robert Bosch Gmbh Verfahren und Vorrichtung zum Adaptieren eines datenbasierten Funktionsmodells
CN103984915B (zh) * 2014-02-28 2017-11-24 中国计量学院 一种监控视频中行人重识别方法
CN104778298B (zh) * 2015-01-26 2017-09-19 江南大学 基于egmm的高斯过程回归软测量建模方法
CN108764295B (zh) * 2018-04-28 2021-05-28 江南大学 一种基于半监督集成学习的软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
WO2019213860A1 (en) 2018-05-09 2019-11-14 Jiangnan University Advanced ensemble learning strategy based semi-supervised soft sensing method
CN110083065B (zh) * 2019-05-21 2020-07-10 浙江大学 一种基于流式变分贝叶斯有监督因子分析的自适应软测量方法
CN111428882A (zh) * 2020-03-27 2020-07-17 联想(北京)有限公司 一种处理方法及计算机设备
CN112650063B (zh) * 2020-12-30 2022-04-29 浙江大学 一种基于半监督增量高斯混合回归的自适应软测量方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067828A (zh) * 2007-06-12 2007-11-07 中南大学 焦炉火道温度集成建模与软测量方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067828A (zh) * 2007-06-12 2007-11-07 中南大学 焦炉火道温度集成建模与软测量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MR Rwebangira等.Local Linear Semi-supervised Regression.《Technical Report CMU-CS-09-106》.2009,1-32. *
基于滚动时间窗的最小二乘支持向量机回归估计方法及仿真;阎威武等;《上海交通大学学报》;20040430;第38卷(第4期);第524-526,532页 *

Also Published As

Publication number Publication date
CN102708294A (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN102708294B (zh) 基于半监督局部线性回归的自适应参数软测量方法
Eslamian et al. Estimating Penman–Monteith reference evapotranspiration using artificial neural networks and genetic algorithm: a case study
Bayer et al. Kumaraswamy autoregressive moving average models for double bounded environmental data
CN106599571B (zh) 兼顾流量和蒸发的流域水文模型分期率定方法
Wang et al. An improved ARIMA model for precipitation simulations
CN102542126B (zh) 基于半监督学习的软测量方法
CN101480143B (zh) 一种预测灌区作物单产量的方法
CN106683122A (zh) 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
CN113255986B (zh) 一种基于气象信息和深度学习算法的多步日径流预报方法
CN104462850A (zh) 基于模糊高斯混合模型的多阶段间歇过程软测量方法
CN105139093A (zh) 基于Boosting算法和支持向量机的洪水预报方法
CN102842043B (zh) 基于自动聚类的粒子群优化分类方法
CN104463381A (zh) 基于kpca与wlssvm的建筑能耗预测方法
CN102222313A (zh) 基于核主成分分析的城市演化模拟元胞模型处理方法
CN107145965A (zh) 一种基于相似度匹配和极限学习机的河流洪水预测方法
CN109190810B (zh) 基于tdnn的中国北方草原地区ndvi的预测方法
CN110119588A (zh) 基于扩展卡尔曼滤波状态估计值的在线优化设计方法
CN106372320B (zh) 一种采用亚滤波尺度模型对公路隧道湍流进行大涡模拟的方法
CN112884012A (zh) 基于支持向量机原理的建筑能耗预测方法
CN111859249A (zh) 一种基于解析四维集合变分的海洋数值预报方法
CN115371642A (zh) 一种水文地质参数动态变化特征的地质统计反演方法
CN201716727U (zh) 基于遥感与gis的地理模拟系统
CN102592135A (zh) 融合目标空间分布和时序分布特征子空间的视觉跟踪方法
CN104504256A (zh) 一种边界层温度廓线精确反演的估计算法
CN106021924B (zh) 基于多属性高斯核函数快速相关向量机的污水在线软测量方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant