CN110162857A

CN110162857A - 一种面向复杂工业过程难测参数的软测量方法

Info

Publication number: CN110162857A
Application number: CN201910397985.9A
Authority: CN
Inventors: 汤健; 余刚; 赵建军; 王猛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-23
Also published as: US20200364386A1

Abstract

本发明涉及一种面向复杂工业过程难测参数的软测量方法。采用相关系数法对高维原始特征进行线性选择，基于预设定的线性特征选择系数集合得多组线性特征子集；采用互信息法对高维原始特征进行非线性选择，基于预设定的非线性特征选择系数集合获得多组非线性特征子集；分别基于线性与非线性特征子集构建线性子模型和非线性子模型，得到线性特征线性模型、线性特征非线性模型、非线性特征线性模型、非线性特征非线性模型共4类子模型子集；基于优化选择算法和加权算法对上述候选子模型进行选择与合并，获得具有较高泛化性能的难测参数选择性集成软测量模型。采用磨矿过程球磨机的高维机械振动频谱数据构建磨机负荷参数软测量模型仿真验证了有效性。

Description

一种面向复杂工业过程难测参数的软测量方法

技术领域

一种面向复杂工业过程难测参数的软测量方法属于软测量技术领域。

背景技术

限于磨矿过程、城市固废焚烧等复杂工业过程所固有的机理不清、非线性和强耦合等综合复杂特性，表征该类过程运行状况或质量效率的关键过程参数通常被称为难测参数^[1]。这类参数可依靠优秀的领域专家在生产现场凭经验估计(如表征磨矿效率的磨机负荷)或采用先人工定时采样、再在实验室离线化验分析(如表征磨矿质量的磨矿粒度、表征城市固废焚烧过程污染排放指标的二噁英浓度) 得到。上述非精确、大滞后的难测参数检测方法成为制约该类复杂工业过程实现运行优化与反馈控制的主要瓶颈之一^[2]。结合生产过程机理和经验知识，采用离线容易检测的过程变量建立上述难测参数的软测量模型是解决该问题的有效方法之一^[3]。

图像、红外、振动、音频等检测技术的进步，使得构建难测参数软测量模型的输入特征呈现多源高维特性，与难测参数间的映射关系也更为复杂。为构建具有可解释性和较强泛化能力的难测参数软测量模型，进行高维输入特征的选择是较为有效的策略。特征选择算法能够有效地去除“无关特征”与“冗余特征”，并确保重要特征不丢失^[4]。

针对图像、红外、振动、音频等传感器数据，其变换后的高维特征不具有明显物理含义，对其进行特征子集的选择更具有应用价值^[2]。类似的，具有物理含义的过程变量的差别化组合也能够获得具有不同预测性能的软测量模型。机理认知的不足使得我们难以获得有效的过程变量组合，多源特征的融入进一步增加了对难测参数认知的难度。此外，不同难测参数与多源高维特征间的映射关系呈现差异性。

基于单个输入特征与难测参数间的相关系数能够选择线性相关特征，如文献 [5]结合多目标优化算法和相关系数进行微阵列数据的特征选择，文献[6]提出基于相关系数的多目标半监督特征选择方法，文献[7]提出基于熵的相关系数的特征聚类方法对特征子集进行快速聚类。针对基于相关系数的线性方法难以描述复杂非线性映射关系的缺点,互信息方法可有效选择与难测参数相关的非线性特征 ^[8,9],如文献[10]和[11]提出了基于个体最佳互信息和条件互信息的特征选择方法。针对实际生产过程，如何自适应确定特征选择阈值进行有效的线性和非线性特征子集选择是待解决的开放问题。

在获得包含不同数量原始特征的线性和非线性特征子集后，还需要解决难测参数软测量模型的构建问题。通常，上述线性和非线性特征子集间存在冗余性和互补性，基于这些特征子集所构建的线性或非线性模型对不同难测参数的预测性能也具有差异性。集成建模通过组合多个异质或同质子模型的输出提高预测模型的稳定性和鲁棒性，其中最受关注的问题是如何提高子模型间的多样性。文献[12] 指出，子模型多样性的构造策略包括样本空间的训练样本重采样、特征空间的特征子集划分或特征变换等，其中基于特征空间的构造策略具有较大优势。面向多源特征，文献[2]指出采用选择性集成(SEN)学习机制构建的软测量模型具有更佳性能。针对小样本多源高维谱数据，汤等人提出基于选择性融合样本空间和特征空间的SEN潜结构映射模型^[13,14]，文献[15]提出在特征空间内采样训练样本的面向多尺度机械信号的双层SEN潜结构映射模型，这些方法均属于同质子模型集成，并且未对原始特征进行线性或非线性特征子集的选择。因此，面对多源高维特征，如何构建足够数量的具有差异性的基于特征子集的线性或非线性子模型，并对这些子模型进行优化选择和合并，进而构建难测参数的SEN软测量模型也是待解决的问题。

由上可知，面对多源高维特征的难测参数建模，需要解决2个问题：(1)如何进行线性特征和非线性特征子集的选择；(2)如何进行子模型特征子集的有效选择并构建具有较高泛化性能的SEN模型。综上，本文提出一种面向复杂工业过程难测参数的软测量方法。首先，采用相关系数法对高维原始特征进行线性选择，基于预设定的线性特征选择系数集合得多组线性特征子集；然后，采用互信息法对高维原始特征进行非线性选择，基于预设定的非线性特征选择系数集合获得多组非线性特征子集；接着，分别基于线性与非线性特征子集构建线性子模型和非线性子模型，得到线性特征线性模型、线性特征非线性模型、非线性特征线性模型、非线性特征非线性模型共4类子模型子集；最后，基于优化选择算法和加权算法对上述候选子模型进行选择与合并，获得具有较高泛化性能的难测参数选择性集成软测量模型。采用磨矿过程球磨机的高维机械振动频谱数据构建磨机负荷参数软测量模型仿真验证了所提方法的有效性。

发明内容

建模策略

为便于后文描述，将软测量模型的输入数据X采用下式改写，

其中，N和P分别代表建模样本的数量和维数，即P为输入数据高维特征的数量，x^p表示第pth个输入特征。相应的，，软测量模型的输出，即难测参数，示为

本文提出了由基于相关系数的线性特征选择、基于互信息的非线性特征选择、候选子模型构建、集成子模型选择与合并4个模块组成的建模策略，如图1所示。

图1中，表示全部输入特征的相关系数，表示第pth个特征的相关系数；表示线性特征选择系数的集合，表示第j_linth个线性特征选择系数，J_lin表示线性特征选择系数、线性特征线性子模型、线性特征非线性子模型的数量；表示基于第j_linth个线性特征选择系数确定的线性特征选择阈值，表示全部线性特征选择阈值的集合；表示基于第j_linth 个线性特征选择阈值选择的线性特征子集，表示全部线性特征子集的集合；表示全部原始特征的互信息值，表示第pth个特征的互信息值；表示非线性特征选择系数的集合，表示第j_nonlinth 个非线性特征选择系数，J_nonlin表示非线性特征选择系数、线性特征线性子模型、线性特征非线性子模型的数量；表示基于第j_nonlinth个非线性特征选择系数确定的非线性特征选择阈值，表示全部非线性特征选择阈值的集合；表示基于第j_nonlinth个非线性特征选择阈值选择的非线性特征子集，表示全部非线性特征子集的集合；和表示线性特征线性子模型子集及其预测输出，和表示第 j_linth个线性特征线性子模型及其预测输出；和表示线性特征非线性子模型子集及其预测输出，和表示第j_linth个线性特征非线性子模型及其预测输出；和表示非线性特征线性子模型子集及其预测输出，和表示第j_nonlinth个非线性特征线性子模型及其预测输出；和表示非线性特征非线性子模型子集及其预测输出，和表示第j_nonlinth个非线性特征非线性子模型及其预测输出；表示全部候选子模型的输出，表示j_nonlinth个候选子模型的输出，J表示全部候选子模型的数量；表示集成子模型的输出，表示j_selth个集成子模型的输出，J_sel表示全部集成子模型的数量；表示难测参数的预测值。

上述策略中不同模块的功能如下：

(1)基于相关系数的线性特征选择模块：基于先验知识和数据特性，结合相关系数获取线性特征子集；

(2)基于互信息的非线性特征选择模块：基于先验知识和数据特性，结合互信息获取非线性特征子集；

(3)候选子模型构建模块：采用线性和非线性特征子集，构建线性特征线性子模型子集、线性特征非线性子模型子集、非线性特征线性子模型子集和非线性特征非线性子模型子集共4类子模型集合；

(4)集成子模型选择与合并模块：构建候选子模型输出集合，从其中优化选择集成子模型并计算其输出，得到最终软测量模型。

建模算法

基于相关系数的线性特征选择

首先，以第pth个变量为例计算输入数据高维特征相关系数的绝对值，如下所示，

其中，分别表示第pth个输入特征和难测参数的N个建模样本的平均值，|·|表示取绝对值。为表述方便，后文称为第pth个输入特征的相关系数值

重复上述过程，获得全部输入特征的相关系数并记为记为第 j_linth个线性特征选择系数，采用如下公式获得第j_linth个线性特征子集的选择阈值

结合输入数据的特点，采用如下公式自适应确定J_lin个特征选择系数的取值，

其中，和表示的最大值和最小值，按如下公式计算，

其中，min(·)和max(·)分别表示取最小值和最大值；取为1时，表示阈值为均值。

其中表示用于计算J_lin个特征选择系数的步长，采用如下公式获得，

依据阈值以第pth个输入特征为例，按如下规则进行选择，

选择其中的变量作为基于阈值选择的线性特征，对全部输入特征执行上述过程，并将获得的线性特征子集标记为进一步可表示为

其中，表示所选择的线性特征子集中的第个特征，表示线性特征子集中全部特征的数量。

进一步，将全部J_lin个线性特征子集标记为

基于互信息的非线性特征选择

首先，以第pth个变量为例，计算互信息值，如下所示，

其中，表示联合概率密度，和p_rob(y_n)表示边际概率密度。

重复上述过程，获得全部输入特征的互信息值并记为

记为第j_nonlinth个非线性特征选择系数，采用如下公式获得第j_nonlinth 个非线性特征子集的选择阈值

结合输入数据的特点，采用如下公式自适应确定J_nonlin个非线性特征选择系数的取值，

其中，和表示的最大值和最小值按如下公式计算，

其中，为1时，表示阈值为均值。

其中表示用于计算J_nonlin个特征选择系数的步长，采用如下公式获得，

依据阈值以第pth个输入特征为例，按如下规则进行选择，

选择其中的变量作为基于阈值选择的非线性特征。对全部输入高维特征执行上述过程，将获得的非线性特征子集标记为进一步可表示为

其中，表示所选择的非线性特征子集中的第个特征；表示非线性特征子集中全部特征的数量。

进一步，将全部J_nonlin个非线性特征子集标记为

候选子模型构建

以基于第j_linth个线性特征子集采用线性建模算法构建线性特征线性子模型为例，其输入输出如下，

对全部线性特征子集执行上述过程，全部线性特征构建的线性特征线性子模型的子集及其预测输出分别为和

类似的，以基于第j_linth个线性特征子集采用非线性建模算法构建线性特征非线性子模型为例，其输入输出如下，

对全部线性特征子集执行上述过程，全部线性特征构建的线性特征非线性子模型的子集及其预测输出分别为和

上述两类子模型子集的特点是：采用相同线性特征作为输入，采用不同建模算法得到不同预测输出。

以基于第j_nonlinth个非线性特征子集采用线性建模算法构建的非线性特征线性子模型为例，其输入输出如下，

对全部非线性特征子集执行上述过程，全部非线性特征构建非线性特征线性子模型的子集及其预测输出分别为和

类似的，以基于第j_nonlinth个非线性特征子集采用非线性建模算法构建的非线性特征非线性子模型为例，其输入输出如下，

对全部非线性特征子集执行上述过程，全部非线性特征构建的非线性特征非线性子模型的子集及其预测输出分别为和

上述两类模型子集的特点是：采用相同非线性特征作为输入，采用不同建模算法得到不同预测输出。

集成子模型选择与合并模块

将上述4类子模型的预测输出按如下方式进行合并，

其中，J＝2J_lin+2J_nonlin，即全部4类子模型的数量，也是候选子模型的数量。

此处，需要采用优化算法从J个候选子模型的预测输出中选择J_sel个集成子模型的预测输出，按照选定的合并算法进行组合得到最终SEN预测模型的输出，即存在如下关系，

其中，f_SEN(·)表示对J_sel个集成子模型的预测输出进行合并的算法；J_sel也是选择性集成模型的集成尺寸。

针对上述问题，此处采用的策略是：首先选定用于合并集成子模型预测输出的算法，然后以最小化SEN模型的均方根误差RMSE为准则，采用优化算法寻优J_sel个集成子模型，然后再对这些集成子模型进行合并，得到集成尺寸为J_sel的 SEN预测模型。

用于对J_sel个集成子模型的预测输出进行合并的算法f_SEN(·)包括但不限定于以下2类：

第1类计算集成子模型的加权系数，即采用如下公式获得SEN输出，

其中，表示第j_selth个集成子模型的加权系数，满足条件

计算加权系数方法包括但不限于以下几种：

(1)简单平均方法：

(2)自适应加权融合方法：

其中，是第j_selth个集成子模型的预测输出的标准差。

(3)误差信息墒加权方法：

其中，

其中，表示基于第j_selth个集成子模型对第nth个样本的预测输出；表示预处理后的第nth个样本的预测误差相对值；表示针对第j_selth个集成子模型预测误差信息熵的值。

第2类是采用线性、非线性回归建模方法构建集成子模型与SEN模型间的映射关系，即f_SEN(·)采用包括但不限于偏最小二乘、神经网络、支撑向量机等算法建立。

从J个候选子模型中选择J_sel个集成子模型的优化算法包括但不限定于分支定界、遗传算法、粒子群优化、差分进化等方法。

附图说明

图1建模策略图

图2磨矿过程回路

图3频谱特征与MBVR的相关系数和互信息值

图4不同MBVR子模型在相关系数选择值取1时的预测误差

图5不同子模型在相关系数选择值取1.5时的预测误差

具体实施方式

实验数据描述

国内选矿厂常采用两段式磨矿回路(GC)，如图2所示。

如图2所示，在磨矿回路中，通常包括顺序连接的料仓、给矿机、湿式预选机、磨机和泵池。水力旋流器连接在泵池和湿式预选机之间，使得较粗粒度的部分作为底流被返回磨机再磨。新给矿、新给水以及周期性的添加钢球，与水力旋流器的底流一起进入磨机(通常为球磨机)。矿石在磨机内被钢球冲击和磨剥为较细的颗粒，与磨机内水混合得到的矿浆连续的流出磨机，进入泵池。通过向泵池内注入新水对矿浆进行稀释，并将这稀释的矿浆以一定的压力注入水力旋流器，进而这些泵入水力旋流器的矿浆被分离为两部分：包含较粗粒度的部分作为底流进入磨机再磨；其余部分则进入二段磨矿(GC II)。

同时，为了进行磨机负荷参数的软测量，筒体振动信号获取装置与磨机结合设置以获取筒体振动信号。

磨矿生产率(即磨矿产量)通常是通过最大化的优化循环负荷得到的，而循环负荷往往磨矿回路的负荷决定。磨机过负荷会导致磨机吐料、磨机出口物料的粒度变粗、磨机堵磨，甚至导致磨矿过程停产。磨机欠负荷会导致磨机空砸，造成能源浪费，增加钢球损耗，甚至磨机损坏。因此，磨机负荷是非常重要的参数。球磨机内部负荷参数的准确测量对于保证磨矿过程产品质量、生产效率，以及生产过程的安全性密切相关。工业现场中，领域专家多依靠多源信息和自身经验监视磨机负荷状态。基于磨机筒体振动信号和振声信号的数据驱动软测量方法常用于克服专家推理磨机负荷带来的主观性和不稳定性。

磨机负荷参数包括料球比(MBVR)，矿浆浓度(PD)和充填率(CVR)，这些参数与磨机负荷、磨机负荷状态相关。实际上，磨机内的钢球数以万计。这些钢球分层排列并且以不同的冲击力同时落下。这些不同频率和幅值的冲击力引起的振动相互叠加。磨机自身的质量不平衡和球磨机的安装偏置也可以引起磨机筒体振动。这些振动信号相互耦合，最终形成可测量的筒体振动信号。通常，这些机械信号具有显著的非稳态和多组分特性，其特征难以在时域内提取^[16]。通常采用信号处理技术进行预处理以便提取更显著特征^[17,18]，最常用方法是快速傅里叶变换，文献[19]将基于这种方式得到的频谱称为单尺度频谱。

以基于实验球磨机的单尺度高维筒体振动频谱对磨机负荷参数进行建模验证本文所提方法。本实验在直径为602mm和长度为715mm的小型实验磨机上进行，其中磨机筒体的旋转速度为42r/min。实验中，采用固定在磨机筒体表面的振动加速度传感器对磨机以下5中工况下的数据进行采集：第1次实验 (B＝292kg,W＝35kg,M＝25.5～174kg)；第2次实验(B＝ 340.69kg,W＝40kg,M＝29.7～170.1)；第3次实验(B＝389.36 kg,W＝40kg,M＝34.2～157.5kg)；第4次实验(B＝438.03kg,W＝35kg,M＝23.4～151.2kg)；第5次实验(B＝486.7kg,W＝40kg,M＝15.3～144.9kg)，其中，B、M、W分别代表钢球、物料和水负荷。上述实验均是在固定钢球和水负荷，逐渐增加矿石负荷的情况进行的，总共进行了527次实验，

首先，对时域信号进行滤波处理；然后，采用FFT技术将磨机运行中稳定旋转周期的数据转换至频域，得到每个通道的多个旋转周期的单尺度频谱；最后，将这些稳定旋转周期的谱数据进行平均获得最终维数为1280的建模频谱。将全部样本中的4/5的样本用做建模的训练和验证数据集，其余的用于模型测试。

实验结果

基于317个训练数据，原始频谱特征与磨机负荷参数(料球比MBVR)间的相关系数和互信息值如图3所示。

由图3可知，基于相关系数和基于互信息的特征度量结果是存在差异性。

为验证所提方法，本文将线性特征和非线性特征的选择系数分别取为1和 1.5。考虑到阈值的有效范围，若1.5大于最大特征选择阈值时，将阈值自动设定为最大特征选择系数的0.99倍，以保证能够选择到有效的特征。这样，选择的线性特征子集为2组，非线性特征子集为2组。

同时，本文中的将线性建模方法选择为适合高维共线性数据建模的偏最小二乘算法，将非线性建模方法选择为具有较快建模速度的随机权神经网络，采用验证数据集确定偏最小二乘算法的潜变量个数和随机权神经网络的隐层节点个数。

采用4组特征子集和2种建模方法，组合得到的候选子模型个数为8种。为便于后文统计，模型编码如表1所示。

表1子模型编码表

序号	子模型特点	子模型名称	子模型编码	子模型特征选择系数
					1	lin_lin	Corr-PLS	1-2	1-1.5
2	nonlin_lin	Mi-PLS	3-4	1-1.5
					3	lin_nonlin	Corr-RWNN	5-6	1-1.5
4	nonlin_nonlin	Mi-RWNN	7-8	1-1.5

表1中：在“子模型特点”列中，前项表示特征类型，后项表示子模型类型，相应的“lin”和“nonlin”分别表示线性和非线性，；在“子模型名称”列中，“Corr”和 “Mi”分别表示相关系数和互信息，PLS和RWNN分别表示偏最小二乘算法和随机权神经网络。

不同子模型在相关系数选择值取1时的预测误差如图4和图5所示。

由图4可知，针对MBVR：采用非线性特征构建的线性子模型Mi-PLS和基于线性特征构建的非线性子模型Corr-RWNN具有较小的测试误差，其中线性特征非线性子模型Corr-RWNN同时具有最小的训练误差，线性特征线性子模型 Corr-PLS具有最大的训练误差，非线性特征非线性子模型Mi-RWNN具有最大的测试误差。

由图5可知，采用非线性特征非线性子模型Mi-RWNN具有最小的测试、验证和训练误差，基于线性特征构建的非线性子模型Corr-RWNN的预测误差也仅是稍弱于Mi-RWNN模型；线性特征线性模型Corr-PLS具有最大的测试、验证和训练误差，非线性特征构建的线性子模型Mi-PLS性能也较差。

对比图4和图5可知，PLS模型在特征数量较多时的预测性能强于特征数量较少情况；但对于RWNN模型则相反。可见，线性模型需要更多特征，非线性模型需要较少特征。

不同子模型的预测误差统计如表2所示。

表2不同子模型的预测误差

针对上述8个子模型，选择自适应加权算法计算子模型权重，采用分支定界优化算法在集成尺寸为2-7时进行寻优，SEN预测模型所选择的子模型及其测试误差如表3所示。表3的备注中，“1”表示特性选择系数为1，“1.5”表示特征选择系数为1.5。

表3不同集成尺寸SEN预测模型的子模型及测试误差同价表

由表3可知，不同特征子集与不同建模方法的SEN建模策略对构建MBVR 预测模型是有效的，在集成尺寸为6时，其测试误差为0.1071，小于表2中特征选择系数为1和1.5时的最佳子模型0.1540和0.1669的测试误差。可见，线性与非线性特征子集，以及线性模型与非线性模型间存在具有互补性。

针对多源高维数据输入特征与难测参数间的可解释映射模型难以构建的难题，本文提出一种基于面向复杂工业过程难测参数的软测量方法。主要贡献表现在：能够依据数据特性进行自适应的线性特征子集和非线性特征子集的选择；提出构建线性特征线性子模型、线性特征非线性子模型、非线性特征线性子模型、非线性特征非线性子模型的策略以增强集成子模型差异性。通过磨矿过程的高维机械振动频谱数据建立磨机负荷参数软测量模型，仿真验证了所提方法的有效性。

参考文献

[1]柴天佑.复杂工业过程运行优化与反馈控制.自动化学报,2013,39(11):1744-1757.

[2]汤健，田福庆，贾美英，李东.基于频谱数据驱动的旋转机械设备负荷软测量[M],国防工业出版社，2015年6月，北京

[3]Kadlec P,Gabrys B,Strand S.Data-driven soft-sensors in the processindustry[J]. Computers and Chemical Engineering,2009,33(4):795-814.

[4]汤健,乔俊飞,柴天佑,等.基于虚拟样本生成技术的多组分机械信号建模[J].自动化学报,2018,44(9):1569-1589.

[5]Hasnat A,Molla A U.Feature selection in cancer microarray datausing multi-objective genetic algorithm combined with correlation coefficient[C]//Emerging Technological Trends(ICETT),International Conference on.IEEE,2016:1-6.

[6]Coelho F,Braga AP,Verleysen M.Multi-Objective Semi-SupervisedFeature Selection and Model Selection Based on Pearson’s CorrelationCoefficient[C]// Iberoamerican Congress Conference on Progress in PatternRecognition. Springer-Verlag,2010.

[7]Malji P,Sakhare S.Significance of entropy correlation coefficientover symmetric uncertainty on FAST clustering feature selection algorithm[C]//Intelligent Systems and Control(ISCO),2017 11th International Conferenceon.IEEE,2017:457-463.

[8]Vergara J R,Estévez P A.A review of feature selection methodsbased on mutual information[J].Neural computing and applications,2014,24(1):175-186.

[9]Battiti R.Using mutual information for selecting features insupervised neural net learning[J].Neural Networks IEEE Transactions on,1994,5(4):537-550.

[10]Jain A K,Duin R P W,Mao J.Statistical pattern recognition:Areview[J].IEEE Transactions on pattern analysis and machine intelligence,2000,22(1):4-37.

[11]Fleuret F.Fast binary feature selection with conditional mutualinformation[J]. Journal of Machine Learning Research,2004,5(Nov):1531-1555.

[12]Gavin Brown,Jeremy Wyatt,Rachel Harris,Xin Yao.Diversity creationmethods: a survey and categorisation[J].Information Fusion 6(2005)5–20

[13]Tang Jian,Chai Tian-you,Yu Wen,Zhao Li-jie.Modeling LoadParameters of Ball Mill in Grinding Process Based on Selective EnsembleMultisensor Information [J].IEEE Tranzaction on Automation Science andEngineering,2013,10(3):726-740.

[14]Jian Tang,Tianyou Chai,Wen Yu,Zhuo Liu,Xiaojie Zhou.A Comparativestudy that measures ball mill load parameters through different single-scaleand multi-scale frequency spectra-based approaches[J],IEEE Transactions onIndustrial Informatics, 2016,12(6):2008-2019.

[15]Jian Tang,Junfei Qiao,ZhiWei Wu,Tianyou Chai,Jian Zhang,Wen Yu.Vibration and acoustic frequency spectra for industrial process modelingusing selective fusion multi-condition samples and multi-sourcefeatures.Mechanical Systems and Signal Processing,99,1-27,2018.

[16]聂鹏,董慧,李正强,et al.基于改进EMD和LS-SVM的刀具磨损状态识别 [J].北京工业大学学报,2013,39(12):1784-1790.

NIE P,DONF P,DONG H,et al.State recognition of tool wear based onimproved empirical mode decomposition and least squares support vectormachine[J].Journal of Beijing University of Technology,2013,39(12):1784-1790.

[17]FAN X,ZUO M J.Machine fault feature extraction based on intrinsicmode functions[J].Measurement Science&Technology,Vol.19,334-340,2008.

[18]佘博,田福庆,汤健,等.基于Teager能量算子和EEMD的滚动轴承故障诊断方法[J].北京工业大学学报,2017,43(6):859-864.

SHE B,TIAN F Q,TANG J,et al.Fault diagnosis of rolling bearing basedon teager energy operator and EEMD[J].Journal of Beijing University ofTechnology,2017, 43(6):859-864.

[19]TANG J,Yu W,CHAI T Y,et al.Selective ensemble modeling loadparameters of ball mill based on multi-scale frequency spectral features andsphere criterion[J]. Mechanical Systems&Signal Processing,2016,66-67:485-504.

Claims

1.一种面向复杂工业过程难测参数的软测量方法，其特征在于：将软测量模型的输入数据X采用下式改写，

其中，N和P分别代表建模样本的数量和维数，即P为输入数据高维特征的数量，x^p表示第pth个输入特征；相应的，软测量模型的输出，即难测参数，表示为

执行由基于相关系数的线性特征选择、基于互信息的非线性特征选择、候选子模型构建和集成子模型选择与合并4个模块组成的建模策略；

先进行以下定义，表示输入特征的相关系数，表示第pth个特征的相关系数；表示线性特征选择系数的集合，表示第j_linth个线性特征选择系数，J_lin表示线性特征选择系数、线性特征线性子模型、线性特征非线性子模型的数量；表示基于第j_linth个线性特征选择系数确定的线性特征选择阈值，表示全部线性特征选择阈值的集合；表示基于第j_linth个线性特征选择阈值选择的线性特征子集，表示全部线性特征子集的集合；表示全部原始特征的互信息值，表示第pth个特征的互信息值；表示非线性特征选择系数的集合，表示第j_nonlinth个非线性特征选择系数，J_nonlin表示非线性特征选择系数、线性特征线性子模型、线性特征非线性子模型的数量；表示基于第j_nonlinth个非线性特征选择系数确定的非线性特征选择阈值，表示全部非线性特征选择阈值的集合；表示基于第j_nonlinth个非线性特征选择阈值选择的非线性特征子集，表示全部非线性特征子集的集合；和表示线性特征线性子模型子集及其预测输出，和表示第j_linth个线性特征线性子模型及其预测输出；和表示线性特征非线性子模型子集及其预测输出，和表示第j_linth个线性特征非线性子模型及其预测输出；和表示非线性特征线性子模型子集及其预测输出，和表示第j_nonlinth个非线性特征线性子模型及其预测输出；和表示非线性特征非线性子模型子集及其预测输出，和表示第j_nonlinth个非线性特征非线性子模型及其预测输出；表示全部候选子模型的输出，表示j_nonlinth个候选子模型的输出，J表示全部候选子模型的数量；表示集成子模型的输出，表示j_selth个集成子模型的输出，J_sel表示全部集成子模型的数量；表示难测参数的预测值；

1)基于相关系数的线性特征选择

其中，分别表示第pth个输入特征和难测参数的N个建模样本的平均值，|·|表示取绝对值；为表述方便，后文称为第pth个输入特征的相关系数值

重复上述过程，获得全部输入特征的相关系数并记为记为第j_linth个线性特征选择系数，采用如下公式获得第j_linth个线性特征子集的选择阈值

结合输入数据特点，采用如下公式自适应确定J_lin个特征选择系数的取值，

其中，和表示的最大值和最小值，按如下公式计算，

其中，min(·)和max(·)分别表示取最小值和最大值；取为1时，表示阈值为均值；

依据阈值以第pth个输入特征为例，按如下规则进行选择，

选择其中的变量作为基于阈值选择的线性特征，对全部输入特征执行上述过程，并将获得的线性特征子集标记为表示为

其中，a表示所选择的线性特征子集 _a中的第 _ea个特征，表示线性特征子集中全部特征的数量；

将全部J_lin个线性特征子集标记为

2)基于互信息的非线性特征选择

首先，以第pth个变量为例，计算互信息值，如下所示，

其中，表示联合概率密度，和p_rob(y_n)表示边际概率密度；

重复上述过程，获得全部输入特征的互信息值并记为记为第j_nonlinth个非线性特征选择系数，采用如下公式获得第j_nonlinth个非线性特征子集的选择阈值

其中，和表示的最大值和最小值按如下公式计算，

其中，为1时，表示阈值为均值；

依据阈值以第pth个输入特征为例，按如下规则进行选择，

选择其中的变量作为基于阈值选择的非线性特征；对全部的输入特征执行上述过程，将获得的非线性特征子集标记为进一步可表示为

其中，a表示所选择的线性特征子集中的第个特征，表示线性特征子集中全部特征的数量；

进一步，将全部J_nonlin个非线性特征子集标记为

3)候选子模型构建

以基于第j_linth个线性特征子集采用非线性建模算法构建线性特征非线性子模型为例，其输入输出如下，

上述两类子模型子集的特点是：采用相同线性特征作为输入，采用不同建模算法得到不同预测输出；

以基于第j_nonlinth个非线性特征子集采用线性建模算法构建非线性特征线性子模型为例，其输入输出如下，

以基于第j_nonlinth个非线性特征子集，采用非线性建模算法构建的非线性特征非线性子模型为例，其输入输出如下，

上述两类模型子集的特点是：采用相同非线性特征作为输入，采用不同建模算法得到不同预测输出；

4)集成子模型选择与合并模块

将上述4类子模型的预测输出按如下方式进行合并，

其中，J＝2J_lin+2J_nonlin，即全部4类子模型的数量，也是候选子模型的数量；

此处，需要采用优化算法从J个候选子模型的预测输出中选择J_sel个集成子模型的预测输出，进行组合得到最终SEN预测模型的输出，即存在如下关系，

其中，f_SEN(·)表示对J_sel个集成子模型的预测输出进行合并的算法；J_sel也是选择性集成模型的集成尺寸；

首先选定用于合并集成子模型预测输出的算法，然后以最小化SEN模型的均方根误差RMSE为准则，采用优化算法寻优J_sel个集成子模型，然后再对这些集成子模型进行合并，得到集成尺寸为J_sel的SEN预测模型；

其中，表示第j_selth个集成子模型的加权系数，满足条件

第2类是采用线性、非线性回归建模方法构建集成子模型与SEN模型间的映射关系。

2.根据权利要求1所述的方法，其特征在于：

应用于磨矿过程基于实验球磨机的高维筒体振动频谱对磨机内部负荷参数进行建模；实验中，采用固定在磨机筒体表面的振动加速度传感器对磨机以下多种工况下的数据进行采集：工况不同是B、M、W至少之一不同；其中，B、M、W分别代表钢球、物料和水负荷；

首先，对时域信号进行滤波处理；然后，采用FFT技术将磨机运行中稳定旋转周期的数据转换至频域，得到每个通道的多个旋转周期的单尺度频谱；最后，将这些稳定旋转周期的谱数据进行平均获得最终维数为12800的建模频谱；将全部样本中的部分的样本用做建模的训练和验证数据集，其余的用于模型测试。

3.根据权利要求1所述的方法，其特征在于：

将线性特征和非线性特征的选择系数分别取为1和1.5。