CN108388745A

CN108388745A - 基于分布并行局部优化参数的最小二乘支持向量机软测量方法

Info

Publication number: CN108388745A
Application number: CN201810190851.5A
Authority: CN
Inventors: 葛志强; 张鑫宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2018-08-10
Anticipated expiration: 2038-03-08
Also published as: CN108388745B

Abstract

本发明公开一种基于分布并行局部优化参数的最小二乘支持向量机软测量方法，首先要对最小二乘支持向量机进行建模，获得局部优化后的最小二乘支持向量机模型，然后将训练集中样本平均分块，为每块中的样本标记数据块标签，并将具有相同标签的训练样本归为一个数据块中，然后在多台计算机上使用局部优化后的LSSVM分布并行地对每个数据块中的训练数据进行建模和对测试集数据进行预测，将多个数据块的预测结果取均值作为最终的预测结果。该方法在既保证了训练样本划分的随机性，又保证了预测精度，同时又在每个数据块中并行地进行建模和对测试集进行预测，大大减小了计算开销，使基于局部优化参数的LSSVM软测量算法同样能够在大规模数据集上得以应用。

Description

基于分布并行局部优化参数的最小二乘支持向量机软测量方法

技术领域

本发明属于工业过程预测与控制领域，具体涉及一种基于分布并行局部优化参数的最小二乘支持向量机软测量方法。

背景技术

软测量建模技术即为在实际的工业生产过程中，一些过程变量和质量变量难以使用传感器进行直接测量或者测量成本过高，因此人们往往会利用较为容易测量的一些过程变量，通过建立数学模型的方法来估计那些难以测量的过程或质量变量，进而能够很好地控制产品质量，提高生产效率。

在常用的软测量数学模型中，最小二乘支持向量机模型(以下简称为LSSVM)以其使用训练样本小，求解简单，运算速度快等优点被广泛地用于各类工业过程变量的软测量。但该模型本身仍具有较大的缺陷，其模型中的核函数参数和惩罚因子往往需要人为进行设定，而这两个参数会直接影响模型的训练效果，若选择不当则会造成较大的预测偏差。

为了解决这个问题，常用的方法即为对LSSVM模型参数进行优化，同时参数优化又可分为基于整个训练集作为目标集的“全局”参数优化和由测试样本距离最近的训练样本作为目标集的“局部”参数优化，但不论从计算量还是优化效果角度，局部优化以其对测试集具有的适应能力而更有优势。

但基于参数优化的LSSVM算法均具计算速度较慢的缺陷，即在利用LSSVM进行建模之前需要利用智能优化算法对多种模型参数进行LSSVM建模，因此当训练样本集过多以及种群大小、迭代次数过大时会产生十分巨大的计算开销，而目前用于工业软测量的数据日趋庞大，逐渐形成工业大数据问题，因此传统基于参数优化的LSSVM算法必须进行改进。

而随着目前云计算技术的不断发展，如Hadoop，Spark等分布式计算框架的逐渐普及，对于计算量大，计算复杂度高的问题可以采用分布式并行计算的方法提高其运算速度，其中一个核心思想即为将原始规模较大的问题划归为多个小规模问题，并且这些小规模问题可以同时地由多台计算机一起处理，进而提高运算速度，因此对于数据量过多的基于参数优化的LSSVM算法而言可以采用分布式的思想加以改进。

发明内容

针对现有的基于参数优化LSSVM算法的不足，本发明面向工业大数据，提出了一种基于分布并行局部优化参数的最小二乘支持向量机软测量方法，具体如下：

一种基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，所述的基于局部优化参数的最小二乘支持向量机的建模过程如下：

(a)将训练样本集和测试样本集进行归一化；

(b)在归一化后的训练样本集中找到与每个归一化后的测试样本欧式距离最近的一个训练样本，并将这些所找到的训练样本合并为与测试样本集相同样本个数的局部优化目标集，同时在训练集中删除所挑选出的样本，由剩余的训练样本组成局部优化训练集；

(c)以局部优化训练集作为训练，以局部优化目标集作为测试带入LSSVM模型中进行预测，并对局部优化目标集中每个样本的预测值与真实值偏差绝对值进行求和，并作为目标函数，设定LSSVM模型惩罚因子γ和径向基核函数参数σ²的取值范围，并以其作为约束条件；

(d)采用智能优化算法对上一步的优化问题进行求解，返回最优LSSVM模型惩罚因子γ和径向基核函数参数σ²；

(e)将步骤(d)中获得的优化模型参数代入LSSVM模型中，以全体训练集对模型进行训练，即获得基于局部优化后的最小二乘支持向量机模型；

所述的基于分布并行局部优化参数的最小二乘支持向量机软测量方法具体包括如下步骤：

步骤一：收集历史工业过程数据建立训练集，训练集中共有n个样本，每个样本具有m个易于测量的过程变量，以及一个需要被估计的质量变量，因此将训练样本集表示为S_train＝{(x_i,y_i)|i＝1,2…,n}，其中x_i∈R^1×m，y_i∈R¹，将样本中的过程变量表示为S_train(x)，将样本中的质量变量表示为S_train(y)，模型的测试集与训练集具有相同的形式，表示为S_test＝{(x_i,y_i)|i＝1,2…,n_t}，n_t为测试集中的样本个数；

步骤二：将训练集中的样本平均分块，每块数据的样本个数与测试集样本个数的比为α，且α≥2；

步骤三：采用如下公式计算训练集的分块个数

Split_Num＝floor(n/(α·n_t))

式中，Split_Num为训练集分块个数，n为训练样本个数，n_t为测试样本个数，floor为向下取整；

步骤四：为每块中的训练样本标记数据块标签，具体如下：

(a)产生从1至Split_Num的间隔为1的升序整数序列Split_List作为每个数据块的标签序列，序列中的元素表示为Split_List[j],(j＝1…Split_Num)；

(b)利用Split_List中的取值为训练集中样本(x_{Split_Num×(i-1)+1,}y_{Split_Num×(i-1)+1})至样本(x_{i×Split_Num,}y_{i×Split_Num})进行标记，其中i为标记的轮数，i的初始值为1，终值为ceil(n/Split_Num)，其中，ceil为向上取整，且当完成第一轮标记时，采用随机排列函数为shuffle将Split_List的序列顺序随机打乱，打乱后的标签序列为Split_List＝shuffle(Split_List)，继续标记，以此类推；

(c)判断i的取值是否到达ceil(n/Split_Num)，或所有训练样本是否均已被标记，若是，则完成训练样本的标记；

步骤五：将具有相同标签的训练样本归为一个数据块中，共形成Split_Num个数据块；

步骤六：在多台计算机上使用基于局部优化的LSSVM分布并行地对每个数据块中的训练数据进行建模以及对测试集数据进行预测，共得到Split_Num个对测试集的预测结果，每个测试结果表示为yp^k _j，其中k＝1…Split_Num，j＝1…n_t；

步骤七：对Split_Num个预测结果取均值作为最终的预测结果，表示为

进一步地，所述的步骤一的中的训练样本集中的样本个数是测试样本集中的样本个数的4倍及以上。

进一步地，其特征在于，所述的步骤六中在多台计算机上进行分布并行式计算为利用Hadoop中的MapReduce框架实现上述运算过程。

进一步地，其特征在于，所述的步骤四中为每个训练样本标记数据块标签的操作在map环节完成。

进一步地，其特征在于，所述的步骤五、步骤六的操作均在reduce环节完成。

进一步地，其特征在于，基于分布并行局部优化参数的最小二乘支持向量机的建模过程中对惩罚因子γ和径向基核函数参数σ²进行局部优化时采用的算法为单变量边缘分布算法，优化过程具体如下：

(a)在n个变量的阈值范围内随机产生n×m维初始种群Pop(0)，其中m为种群大小；

(b)将初始种群带入适应值函数中计算适应值，并按照适应值由低到高排序；

(c)利用ms＝floor(selectrate×m)计算截断选择的精英种群个体数ms，并取原种群适应值较好的ms个个体组成精英种群Pop_master(0)，selectrate为截断选择率；

(d)计算精英种群的均值和标准差μ_i和σ_i，i＝1…n；

(e)由μ_i和σ_i构建n个一维累积高斯概率密度函数，并随机产生m-ms维概率矩阵，带入n个一维累积高斯分布函数中进行采样，获得n×(m-ms)维下一代部分种群Pop_part(t+1)；所述的一维累积高斯概率密度函数为

其中i＝1…n，X_i为变量i的随机变量，x_i为变量i的取值，f(X_i＝x_i)为随机变量取值为x_i的概率，μ_i和σ_i分别表示变量i在种群中的均值和标准差；

(f)再将本代精英种群Pop_master(t)和采样出的下一代种群Pop_part(t+1)进行组合得到下一代种群Pop(t+1)；

(g)检查是否到达迭代终止条件，若到达，则输出当代最优个体和最优适应值，若未达到，则将Pop(t+1)返回步骤(b)进行迭代运算。

本发明的有益效果如下：

本发明的方法在控制训练样本与测试样本的个数比的基础上对训练集进行合理划分，既保证了训练样本划分具有的随机性，又使基于局部优化的LSSVM算法不会因为训练样本的大量减少而损失较多的精度，同时又在每个数据块中并行地进行建模和对测试集进行预测，大大减小了计算开销，使基于局部优化参数的LSSVM软测量算法同样能够在大规模数据集上得以应用。

附图说明

图1为采用本发明的基于分布并行局部优化参数的LSSVM方法预测结果示意图；

图2为基于非分布并行局部优化参数的LSSVM方法预测结果示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

(a)将训练样本集和测试样本集进行归一化；

(d)采用智能优化算法对上一步的优化问题进行求解，返回最优LSSVM模型惩罚因子γ和径向基核函数参数σ²；局部优化时采用的算法为单变量边缘分布算法，优化过程具体如下：

(1)在n个变量的阈值范围内随机产生n×m维初始种群Pop(0)，其中m为种群大小；

(2)将初始种群带入适应值函数中计算适应值，并按照适应值由低到高排序；

(3)利用ms＝floor(selectrate×m)计算截断选择的精英种群个体数ms，并取原种群适应值较好的ms个个体组成精英种群Pop_master(0)，selectrate为截断选择率；

(4)计算精英种群的均值和标准差μ_i和σ_i，i＝1…n；

(5)由μ_i和σ_i构建n个一维累积高斯概率密度函数，并随机产生m-ms维概率矩阵，带入n个一维累积高斯分布函数中进行采样，获得n×(m-ms)维下一代部分种群Pop_part(t+1)；所述的一维累积高斯概率密度函数为

(6)再将本代精英种群Pop_master(t)和采样出的下一代种群Pop_part(t+1)进行组合得到下一代种群Pop(t+1)；

(7)检查是否到达迭代终止条件，若到达，则输出当代最优个体和最优适应值，若未达到，则将Pop(t+1)返回步骤(b)进行迭代运算；

步骤一：收集历史工业过程数据建立训练集，训练集中共有n个样本，每个样本具有m个易于测量的过程变量，以及一个需要被估计的质量变量，因此将训练样本集表示为S_train＝{(x_i,y_i)|i＝1,2…,n}，其中x_i∈R^1×m，y_i∈R¹，将样本中的过程变量表示为S_train(x)，将样本中的质量变量表示为S_train(y)，模型的测试集与训练集具有相同的形式，表示为S_test＝{(x_i,y_i)|i＝1,2…,n_t}，n_t为测试集中的样本个数；所述的步骤一的中的训练样本集中的样本个数是测试样本集中的样本个数的4倍及以上，即在训练集中提取局部优化目标集后仍有与测试集相同大小的训练数据用于LSSVM建模；

步骤三：采用如下公式计算训练集的分块个数

Split_Num＝floor(n/(α·n_t))

步骤四：为每块中的训练样本标记数据块标签，为每个训练样本标记数据块标签的操作在map环节完成，具体如下：

(b)利用Split_List中的取值为训练集中样本(x_{Split_Num×(i-1)+1},y_{Split_Num×(i-1)+1})至样本(x_{i×Split_Num},y_{i×Split_Num})进行标记，其中i为标记的轮数，i的初始值为1，终值为ceil(n/Split_Num)，其中，ceil为向上取整，且当完成第一轮标记时，采用随机排列函数为shuffle将Split_List的序列顺序随机打乱，打乱后的标签序列为Split_List＝shuffle(Split_List)，继续标记，以此类推；

步骤六：在多台计算机上使用基于局部优化的LSSVM分布并行地对每个数据块中的训练数据进行建模以及对测试集数据进行预测，共得到Split_Num个对测试集的预测结果，每个测试结果表示为yp^k _j，其中k＝1…Split_Num，j＝1…n_t；在多台计算机上进行分布并行式计算为利用Hadoop中的MapReduce框架实现上述运算过程。

所述的步骤五、步骤六的操作均在reduce环节完成。

以下结合一个具体的工业过程实例来验证本发明的有效性。CO₂吸收塔是工业合成氨的一个子单元，来自前一单元的工艺气在经过初步降温后送入工艺冷凝分离罐进行再次降温，并送入吸收塔；经过吸收塔后的工艺气，再送入除雾分离罐中，残余的CO₂含量使用仪器进行记录；吸收塔吸收CO₂后，吸收液由贫液，半贫液变成富液，富液从吸收塔底部经富液闪蒸槽送入再生塔，进行溶液的再生操作；之后再生的溶液又被抽回吸收塔内。

CO₂吸收所发生的化学反应方程式为

CO₂+K₂CO₃+H₂O←→2KHCO₃+Q

从上述工艺可知，为了能够使工艺气中的残余CO₂含量尽可能地减少，因此需要对其含量进行实时检测，而残余的CO₂含量即可使用本发明进行软测量。

因此选择CO₂吸收塔中易于测得的11个过程变量来预测工艺气中残余的CO₂含量，变量的编号及说明如表1所示。

表1吸收塔工艺中变量说明

变量编号	变量描述
		1	工艺气压力1
2	液位1
		3	出口贫液温度
4	贫液流量
		5	半贫液流量
6	出口工艺气温度
		7	工艺气进出口压差
8	出口富液温度
		9	液位2
10	高液位报警值
		11	工艺气压力2
12	工艺气中残余CO₂含量(预测变量)

从上述数据中进行采样，取5000个样本数据构建训练集，100个样本数据构建测试集，训练样本个数是测试样本个数的50倍。

设置UMDA算法参数为种群大小Pop_Size＝10，最大迭代次数max_Iteration＝10以及截断选择率selectrate＝0.3；

设置待优化的LSSVM模型参数范围，惩罚因子γ_min＝0.001，γ_max＝1000，γ_min≤γ≤γ_max，径向基核函数参数σ² _min＝0.001，σ² _max＝1000，σ² _min≤σ²≤σ² _max

首先使用本发明所述的分布并行局部优化参数的LSSVM方法对测试集进行预测，使用3台计算机搭建基于Hadoop框架的计算机集群，并设定训练集样本与测试集样本个数比α＝20进行实验；

其中误差标准均方根误差(RMSE)，计算公式如下：

n_t为测试样本个数，y_j为残余CO₂含量的真实值，y^p _j为模型预测值。

其中预测的最大误差(MAX_ERROR)，计算公式如下

接下来再利用未使用分布并行局部优化参数的LSSVM算法与之进行对比，且算法参数设置相同；两种方法对测试集的预测曲线如图1和图2所示，两种方法对测试集预测的RMSE和MAX_ERROR指标如表2所示，从图1和图2中可以看出，本发明与基于非分布并行局部优化的LSSVM算法相比，在预测效果上相差不大，从表2的误差指标可知，由于将训练数据进行分块，使每个数据块所包含的训练数据减少而导致在预测精度上略差于基于非分布并行局部优化的LSSVM算法，但误差仍同属于一个数量级，且相差较小，预测精度损失在可接受的范围内；

表2基于分布并行和非分布并行局部优化的LSSVM预测效果对比

两种方法的运行时间如表3所示，从表3可知，基于分布并行局部优化的LSSVM算法的时间开销要小于基于非分布并行局部优化的LSSVM算法，且时间开销大致是后者的1/8。

表3基于分布并行和非分布并行局部优化的LSSVM运行时间对比

建模方法	算法运行时间(s)
		基于分布并行局部优化LSSVM算法	840
基于非分布并行局部优化LSSVM算法	6554

因此本发明能够在预测精度基本不损失或损失很小的情况下大大减小算法运行的时间开销，可以有效地解决基于大规模数据的软测量建模问题。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，所述的基于局部优化参数的最小二乘支持向量机的建模过程如下：

(a)将训练样本集和测试样本集进行归一化；

步骤三：采用如下公式计算训练集的分块个数

Split_Num＝floor(n/(α·n_t))

步骤四：为每块中的训练样本标记数据块标签，具体如下：

2.根据权利要求1所述的基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，所述的步骤一的中的训练样本集中的样本个数是测试样本集中的样本个数的4倍及以上。

3.根据权利要求1所述的基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，所述的步骤六中在多台计算机上进行分布并行式计算为利用Hadoop中的MapReduce框架实现上述运算过程。

4.根据权利要求3所述的基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，所述的步骤四中为每个训练样本标记数据块标签的操作在map环节完成。

5.根据权利要求3所述的基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，所述的步骤五、步骤六的操作均在reduce环节完成。

6.根据权利要求1所述的基于分布并行局部优化参数的最小二乘支持向量机软测量方法，其特征在于，基于分布并行局部优化参数的最小二乘支持向量机的建模过程中对惩罚因子γ和径向基核函数参数σ²进行局部优化时采用的算法为单变量边缘分布算法，优化过程具体如下：

(d)计算精英种群的均值和标准差μ_i和σ_i，i＝1…n；