CN109615082B

CN109615082B - 一种基于堆叠选择性集成学习器的空气中细颗粒物pm2.5浓度的预测方法

Info

Publication number: CN109615082B
Application number: CN201811415764.1A
Authority: CN
Inventors: 顾锞; 乔俊飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2023-05-12
Anticipated expiration: 2038-11-26
Also published as: CN109615082A

Abstract

本发明涉及一种基于堆叠选择性集成学习器的空气中细颗粒物PM_2.5浓度的预测方法。以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入，得到PM_2.5浓度预测值。该模型在一个三阶段框架中实现，首先，通过适当选择环境因素、时间因素和训练样本，创建了多种基学习器；然后，采用修剪技术，根据动态阈值对三个类别中的负向基学习器进行删除；最后，对选取的正向基学习器采用堆叠技术进行集成，以预测未来PM_2.5浓度。本发明较现有方法在预测误差和数据来源难易程度上有明显提升，可指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等。

Description

一种基于堆叠选择性集成学习器的空气中细颗粒物PM2.5浓度的预测方法

技术领域

本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM_2.5浓度的预测模型，通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入，对未来时刻的PM_2.5浓度进行预测。通过对未来时刻PM_2.5浓度的准确预测，既可以指导人们健康出行,还可以协助政府限制汽车流量、废气排放量等等,。基于堆叠选择性集成学习器的空气中细颗粒物PM_2.5浓度的预测方法既属于空气环境保护领域，又属于机器学习领域。

背景技术

PM_2.5指大气中漂浮的直径小于或等于2.5微米的颗粒物，因其直径较小，容易被吸进肺部也被称作入肺颗粒物，是衡量空气质量的重要指标。由于PM_2.5在空气中停留时间较长、流动距离较远，附着于颗粒物上的细菌等有害物质可以对人体造成较大伤害。

现有对PM_2.5浓度的预测较为有效的研究是基于通过大气气溶胶光学厚度(AOT)的预测，但是大气气溶胶光学厚度难以测量，所以导致这种方法难以投入应用。而现有的基于一些较容易测量和获取的数据，例如温度、风速、风向、湿度、压力等，来对PM_2.5浓度进行预测的方法，都只是采用了例如多元线性回归、主成分分析和主成分回归等方法，这些方法只是使用线性模型或者简单地串联线性和非线性模型方法，所以这些模型几乎无法完成PM_2.5浓度的预测这一如此复杂的预测问题。

针对现有方法所存在的种种不足，本发明所提出的预测模型在一个三阶段框架中实现。首先，通过适当选择环境因素、时间因素和训练样本，创建了多种基学习器；然后，采用修剪技术，根据动态阈值对三个类别中的负向基学习器进行删除；最后，对选取的正向基学习器采用堆叠技术进行集成，以预测未来PM_2.5浓度。本发明较之现有的方法在预测误差和数据来源的难易程度上有明显的提升。

发明内容

本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM_2.5浓度的预测模型，通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入，对未来时刻的PM_2.5浓度进行预测。通过该方法进行预测，较之现有方法在准确率上提升明显，解决了PM_2.5浓度难以预测、难以控制的问题，可以为政府决策、群众出行等提供参考；

本发明采用了如下的技术方案及实现步骤：

1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM_2.5的预测方法，包括以下步骤：

针对空气中细颗粒物PM_2.5浓度进行预测，以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入；

其特征在于，包括以下步骤：

(1)使用由JAVA语言设计的Android应用程序收集了NO₂、O₃、PM_2.5、PM₁₀、CO、SO₂这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据，由于PM_2.5的排放过程一定会伴有其他污染物的排放，所以本发明选择了6种空气污染物的浓度来对PM_2.5进行预测。

(2)此处使用确定系数R²来评价预测误差，R²的计算见式(1)：

式(1)中，p_i、o_i分别为第i个样本所对应的预测值和测量值，i为1到n之间的任意整数，n为样本总个数，

分别为样本预测值的平均值和样本测量值的平均值，R²越接近于1，预测越准确。

通过对取多种不同的样本、多种不同的输入特征、多种不同的时间的样本训练基学习器并通过R²来对结果进行对比，见图1、图2、图3。可以发现，并不是将全部样本、输入特征、时间都带入训练才能得到最好的基学习器。所以，需要得到具有多样性的学习器才能实现对PM_2.5浓度的准确预测。而且在这多个学习器中，存在对总体预测效果起负面作用的负向基学习器，排除了负向基学习器可以提高预测效果。

为训练具有多样性的基学习器，对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练，使基学习器具有多样性。训练集需体现的多样性为：不同的样本、环境因素和时间因素。对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性。

具体步骤是：

应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性。

将随机子空间方法应用于环境因素。对特征空间进行随机抽样，使用随机抽取的新的子集训练产生一个新的基学习器，从而将随机抽样应用到特征空间中，建立具有环境因素多样性的多元基学习器。

对于时间因素采取以下处理方式。当前时间的训练数据集为T₀，当前时间的前一小时的训练数据集为T_-1，当前时间的前两小时的训练数据集为T_-2，当前时间的前三小时的训练数据集为T_-3，以此类推，通过以时间顺序连接原始数据矩阵的方法建立多个子集，分别包含在{T₀，T_-1}，{T₀，T_-1，T_-2}，{T₀，T_-1，T_-2，T_-3}，……中，使用不同的子集训练不同的基学习器。由于该方法为一种全新的方法，现称其为包含子空间方法。

(3)通过比较各基学习器的效果对基学习器进行修剪，删除那些对预测结果产生消极影响的负向基学习器。具体方法如下：

①首先使用全部基学习器来预测PM2.5浓度值，输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值，输出为PM2.5浓度值。现将该黑箱模型用未知多元函数H来表示，即H：R^s→R^t，即将s阶实数输入矩阵R^s转化为t阶实数输出矩阵R^t，输入为处理后的训练数据集，输出为各学习器的输出所组成的矩阵。z∈R^s，是根据分布P(z)从R^s中抽样得到的。z的预期输出为

第x个基学习器的实际输出为H_x(z)，x为基学习器总个数范围内的任意正整数，推导出在z上，全部学习器的输出

如下：

上式中，r表示基学习器的总数，ω_x∈[0,1]，且

此处令其均相等。在z上，第x个基学习器的泛化误差为Err_x(z)，全部学习器在z上的泛化误差

定义为：

第x个基学习器在P(z)分布上总的泛化误差用积分表示为:

Err_x＝∫Err_x(z)P(z)dz (5)

将第y个基学习器的泛化误差设为Err_y，第x和第y个，基学习器之间的相关性Corr_xy表示为，y为基学习器个数范围内的任意正整数：

其中Corr_xy＝Corr_yx且Corr_xx＝Err_x，Corr_yx为第y和第x个基学习器之间的相关性，Corr_xx为第x个基学习器与自己之间的相关性，结合式(2)和(4)，推导出：

其中，ω_y∈[0,1]，且

此处令其均相等，ω_x∈[0,1]，且

此处令其均相等，H_y(z)为第y个基学习器的实际输出，此外，通过结合式(6)-(8)，得到：

首先令权重ω_x、ω_y均相等，将式(9)改写为：

②随后，从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成。根据式(2)-(10)，在删除第q个基学习器后，q为基学习器个数范围内任意正整数，推导出新的集成的泛化误差

由式(10)-(11)推断出，如果

低于

则删除第q个基学习器的集成优于包含第q个基学习器的集成：

其中，Corr_xq为第x个和第q个基学习器之间的相关性，x为全部基学习器数量范围内任意不等于q的正整数，Err_q为第q个基学习器的泛化误差，用式(10)代替式(12)并进行以下简化：

依此法确定第q个基学习器是负向基学习器，并且如果其相关的泛化误差大于给定阈值Thr_q则应该被排除：

基于上述修剪标准，从全部三类基学习器中删除负向基学习器。

(4)由于多个基学习器对结果的贡献并不是相同的，所以对多个基学习器简单叠加无法达到很好的预测效果。此处对第三步所得的所有正向基学习器所得结果使用堆叠技术，以使其达到更好的预测效果。堆叠技术具体实施过程如下。

对从选定的样本、环境因素和时间因素这三种多样性中已选定的正向基学习器进行直接平均，得出三个合成的正向基学习器，分别表示为

和

从而定义一个新的合成正向基学习器集，

然后通过合并后的正向基学习器集利用公式(15)来推断PM2.5值：

p＝w^TΦ(v)+b (15)

式中p为PM2.5浓度预测值，Φ(v)是将输入映射到高维特征空间的函数，函数的输入v为第二步中各学习器的输出结果，w和b是权重和偏差的模型参数。

求解上述权重w、偏置b和函数Φ(v)。将v设为

v为由[v₁，v₂，v₃]组成的向量，即

和

的分别为三个合成的正向基学习器。这里使用基于支持向量机的回归方法来确定Φ(v)，w和b，采取求解连续凸优化函数的方法：

式(16)为优化问题的目标函数，式(17)为优化问题的约束条件，即在式(17)的约束下求解式(16)的最小值。其中ζ＝(ζ₁,ζ₂,...,ζ_u)和ζ'＝(ζ'₁,ζ'₂,...,ζ'_u)，是一对待求解的松弛变量，将其作为误差的余量，式中u为正向基学习器总个数，

为Φ(v)函数的集合，即φ(v_i)＝(Φ(v₁),Φ(v₂),…,Φ(v_u))，v_i表示为第i个v值，P_i为第i个PM2.5浓度的测量值，i为1,2,...,u中任意正整数，ζ_i为第i个ζ值，ζ_i'为第i个ζ'值，ε表示误差容限的范围，κ是用于调节函数p的平滑度的正则项，此处设为300，并且避免误差超出误差容限ε，此处设为0.01。

使用拉格朗日乘数法求解该优化问题，引入拉格朗日乘数a,a',μ,μ'≥0，a,a',μ,μ'均为u个乘数的集合，拉格朗日乘数为待求未知量，通过求解方程将拉格朗日乘数与待求解参数一同求出，重写式(16)、(17)：

其中

然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0，i为1,2,...,u中任意正整数。进一步用径向基函数(RBF)内核定义核函数为

从而将v映射到更高维空间。简化后推导出：

其中

a_i为第i个a值，a_i'为第i个a'值，i为1,2,...,u中任意正整数。通过计算求解，即可求得权值与偏置的最优值。

本发明的创造性主要体现在：

(1)本发明针对PM_2.5的产生与消散是一个极为复杂的系统，现有的简单的线性、非线性模型难以对其进行有效的预测，而本发明采用了基于堆叠选择性集成学习器的方法来进行预测，通过使用过多个具有多样性的基学习器共同完成预测，显著提高了预测的准确性和鲁棒性；

(2)本发明针对存在的对预测结果起负面作用的基学习器进行剔除，不仅减少了运算量，而且提高了预测的准确性。然后再对不同贡献的基学习器采用优化的方法进行堆叠操作，显著提高了训练的效果，使得本方法在对PM_2.5浓度的预测上具有准确性高的优点；

附图说明

图1是本发明对选取不同比率的样本训练基学习器效果的实验图

图2是本发明对选取不同输入特征训练基学习器效果的实验图

图3是本发明对选取多个时间的样本训练基学习器效果的实验图

图4是本发明的结构图

图5是本发明与现有的VOUK模型、VLAC模型、KABO模型预测效果对比箱形图

具体实施方式

本发明利用堆叠选择性集成学习器建立空气中细颗粒物PM_2.5浓度的预测模型，通过以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入，对未来时刻的PM_2.5浓度进行预测。通过该方法进行预测，较之现有方法在准确率上提升明显。针对空气中细颗粒物PM_2.5浓度进行预测，以过去24小时内每小时空气中6种污染物浓度和6种气象指标共计24组12种特征作为输入；

一种基于堆叠选择性集成学习器的空气中细颗粒物PM_2.5的预测方法，包括以下步骤：

1.使用由JAVA语言设计的Android应用程序收集了NO2、O3、PM2.5、PM10、CO、SO2这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据。其中对于天气这一数据进行了量化，将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14。

2.对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练，使基学习器具有多样性。训练集需体现的多样性为：不同的样本、环境因素和时间因素。对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性。具体步骤是：

Bagging的算法框架如下：

输入为S、L和N^B，其中S代表用于训练的全部样本，每个样本包含12个数据，代表12个变量，L代表学习器，N^B表示Bagging方法最大迭代次数，赋值为10；将进行中的迭代次数记为n，令n从1至N^B循环，S_n为第n次迭代从S中所提取的自举样本，

为学习器L在S_n中学习的结果，记为

最后，输出多元基学习器

随机子空间的算法框架如下：

输入为FR、L和N^R，其中FR代表训练样本的特征所组成的集合，即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类，L代表学习器，N^R表示随机子空间方法最大迭代次数，赋值为10。将进行中的迭代次数记为n，令n从1至N^R进行循环，

为第n次迭代从F提取出的自举特征，

为学习器L在

中学习的结果，记为

达到迭代次数后，输出多元基学习器

包含子空间方法的算法框架如下：

输入为FI、L和N^I，其中FI代表各时刻的样本特征集，L代表学习器，N^I表示包含子空间方法最大迭代次数，赋值为24，代表过去24小时，每小时所收集的样本数据。将进行中的迭代次数记为n，令n从1至N^I进行循环，

为第n次迭代提取出的样本，数学表达式为[FI(1)，…，FI(n+1)]，

为学习器L在

中学习的结果，记为

最后输出多元基学习器

3.通过比较各基学习器的效果对基学习器进行修剪，删除那些对预测结果产生消极影响的负向基学习器。具体方法如下：

(1)首先使用全部基学习器来预测PM2.5浓度值，输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值，输出为PM2.5浓度值。现将该黑箱模型用未知多元函数H来表示，即H：R^s→R^t，即将s阶实数输入矩阵R^s转化为t阶实数输出矩阵R^t，输入为处理后的训练数据集，输出为各学习器的输出所组成的矩阵。z∈R^s，是根据分布P(z)从R^s中抽样得到的。z的预期输出为

如下：

上式中，r表示基学习器的总数，ω_x∈[0,1]，且

定义为：

第x个基学习器在P(z)分布上总的泛化误差用积分表示为:

Err_x＝∫Err_x(z)P(z)dz (4)

其中Corr_xy＝Corr_yx且Corr_xx＝Err_x，Corr_yx为第y和第x个基学习器之间的相关性，Corr_xx为第x个基学习器与自己之间的相关性，结合式(1)和(3)，推导出：

其中，ω_y∈[0,1]，且

此处令其均相等，ω_x∈[0,1]，且

此处令其均相等，H_y(z)为第y个基学习器的实际输出，此外，通过结合式(5)-(7)，得到：

首先令权重ω_x、ω_y均相等，将式(8)改写为：

(2)随后，从集成基学习器中排除特定的对算法效果起负面影响的基学习器后重新集成。根据式(1)-(9)，在删除第q个基学习器后，q为基学习器个数范围内任意正整数，推导出新的集成的泛化误差

由式(9)-(10)推断出，如果

低于

其中，Corr_xq为第x个和第q个基学习器之间的相关性，x为全部基学习器数量范围内任意不等于q的正整数，Err_q为第q个基学习器的泛化误差，用式(9)代替式(11)并进行以下简化：

4.对第三步所得的所有正向基学习器所得结果使用堆叠技术，以使其达到更好的预测效果。堆叠技术具体实施过程如下。

和

从而定义一个新的合成正向基学习器集，

然后通过合并后的正向基学习器集利用公式(14)来推断PM2.5值：

p＝w^TΦ(v)+b (14)

式中p为PM2.5浓度预测值，Φ(v)是将输入映射到高维特征空间的函数，函数的输入v为第二步中各学习器的输出结果，w和b是模型参数的权重和偏差。

求解上述权重w、偏置b和函数Φ(v)。将v设为

v为由[v₁，v₂，v₃]组成的向量，即

和

分别为三个合成的正向基学习器。这里使用基于支持向量机的回归方法来确定Φ(v)，w和b，采取求解连续凸优化函数的方法：

式(15)为优化问题的目标函数，式(16)为优化问题的约束条件，即在式(16)的约束下求解式(15)的最小值。其中ζ＝(ζ₁,ζ₂,...,ζ_u)和ζ'＝(ζ'₁,ζ'₂,...,ζ'_u)，是一对待求解的松弛变量，将其作为误差的余量，式中u为正向基学习器总个数，

使用拉格朗日乘数法求解该优化问题，引入拉格朗日乘数a,a',μ,μ'≥0，a,a',μ,μ'均为u个乘数的集合，拉格朗日乘数为待求未知量，通过求解方程将拉格朗日乘数与待求解参数一同求出，重写式(15)、(16)：

其中

从而将v映射到更高维空间。简化后推导出：

其中

此处使用确定系数R²来评价预测误差，R²的计算见式(19)：

式(19)中，p_i、o_i分别为第i个样本所对应的预测值和测量值，i为1到n之间的任意整数，n为样本总个数，

分别为样本预测值的平均值和样本测量值的平均值，R²越接近于1，预测越准确。本发明与现有的VOUK模型、VLAC模型、KABO模型预测效果对比见图5。

Claims

1.一种基于堆叠选择性集成学习器的空气中细颗粒物PM_2.5的预测方法，其特征在于，包括以下步骤：

第一步：收集数据；

第二步：设计用于PM_2.5浓度预测的堆叠选择性集成学习器模型；

第三步：采用修剪技术删除三种类型的学习器中的负向基学习器以实现对各学习器的选择性集成；

第四步：对选定的正向基学习器实施堆叠技术，将正向基学习器的结果进行堆叠，以预测未来的PM_2.5浓度；

第一步中：

使用由JAVA语言设计的Android应用程序收集了NO₂、O₃、PM_2.5、PM₁₀、CO、SO₂这6种空气污染物的浓度以及湿度、温度、压力、天气、风速、风向这6种气象变量作为原始数据，其中对于天气这一数据进行了量化，将晴、多云、阴、小雨、中雨、大雨、暴雨、雷雨、冻雨、小雪、中雪、大雪、暴雪、雾、沙尘暴这15种天气依次编号为0到14；

第四步中：

对第三步所得的所有正向基学习器所得结果使用堆叠技术，以使其达到更好的预测效果；堆叠技术具体实施过程如下；

和

从而定义一个新的合成正向基学习器集，

p＝w^TΦ(V)+b (14)

式中p为PM_2.5浓度预测值，Φ(v)是将输入映射到高维特征空间的函数，函数的输入v为第二步中各学习器的输出结果，w和b是模型参数的权重和偏差；

求解上述权重w、偏置b和函数Φ(v)；将v设为

v为由[v₁,v₂,v₃]组成的向量，即

这里使用基于支持向量机的回归方法来确定Φ(v)，w和b，采取求解连续凸优化函数的方法：

式(15)为优化问题的目标函数，式(16)为优化问题的约束条件，即在式(16)的约束下求解式(15)的最小值；其中ζ＝(ζ₁,ζ₂,...,ζ_u)和ζ'＝(ζ'₁,ζ'₂,...,ζ'_u)，是一对待求解的松弛变量，将其作为误差的余量，式中u为正向基学习器总个数，

为Φ(v)函数的集合，即φ(v_i)＝(Φ(v₁),Φ(v₂),…,Φ(v_u))，v_i表示为第i个v值，P_i为第i个PM_2.5浓度的测量值，i为1,2,...,u中任意正整数，ζ_i为第i个ζ值，ζ_i'为第i个ζ'值，ε表示误差容限的范围，κ是用于调节函数p的平滑度的正则项，此处设为300，并且避免误差超出误差容限ε，此处设为0.01；

使用拉格朗日乘数法求解优化问题，引入拉格朗日乘数a,a',μ,μ'≥0，a,a',μ,μ'均为u个乘数的集合，拉格朗日乘数为待求未知量，通过求解方程将拉格朗日乘数与待求解参数一同求出，重写式(15)、(16)：

其中

然后将L(w,b,a,a',ζ,ζ',μ,μ')对a,a',ζ,ζ'的偏导数设置为0，i为1,2,...,u中任意正整数；进一步用径向基函数(RBF)内核定义核函数为

从而将v映射到更高维空间；简化后推导出：

其中

a_i为第i个a值，a′_i为第i个a'值，i为1,2,...,u中任意正整数；通过计算求解，求得权值与偏置的最优值。

2.根据权利要求1所述的一种基于堆叠选择性集成学习器的空气中细颗粒物PM_2.5的预测方法，其特征在于，

第二步中：

对每个基学习器采用从总训练集中抽取的各不同的子训练集进行训练，使基学习器具有多样性；训练集需体现的多样性为：不同的样本、环境因素和时间因素；对学习器进行训练的数据集需进行进一步的处理以体现这三种多样性；具体步骤是：

应用Bagging的方法来完成对样本的抽样操作以实现训练样本的多样性；

Bagging的算法框架如下：

为学习器L在S_n中学习的结果，记为

最后，输出多元基学习器

将随机子空间方法应用于环境因素；对特征空间进行随机抽样，使用随机抽取的新的子集训练产生一个新的基学习器，从而将随机抽样应用到特征空间中，建立具有环境因素多样性的多元基学习器；

随机子空间的算法框架如下：

输入为F^R、L和N^R，其中F^R代表训练样本的特征所组成的集合，即收集到原始数据的6种空气污染物和6种气象变量共计12个数据种类，L代表学习器，N^R表示随机子空间方法最大迭代次数，赋值为10；将进行中的迭代次数记为n，令n从1至N^R进行循环，

为第n次迭代从F提取出的自举特征，

为学习器L在

中学习的结果，记为

达到迭代次数后，输出多元基学习器

对于时间因素采取以下处理方式；当前时间的训练数据集为T₀，当前时间的前一小时的训练数据集为T_-1，当前时间的前两小时的训练数据集为T_-2，当前时间的前三小时的训练数据集为T_-3，以此类推，通过以时间顺序连接原始数据矩阵的方法建立多个子集，分别包含在{T₀，T_-1}，{T₀，T_-1，T_-2}，{T₀，T_-1，T_-2，T_-3}，……中，使用不同的子集训练不同的基学习器；由于该方法为一种全新的方法，现称其为包含子空间方法；

包含子空间方法的算法框架如下：

输入为F^I、L和N^I，其中F^I代表各时刻的样本特征集，L代表学习器，N^I表示包含子空间方法最大迭代次数，赋值为24，代表过去24小时，每小时所收集的样本数据；将进行中的迭代次数记为n，令n从1至N^I进行循环，

为第n次迭代提取出的样本，数学表达式为[F^I(1)，…，F^I(n+1)]，

为学习器L在

中学习的结果，记为

最后输出多元基学习器

第三步中：

通过比较各基学习器的效果对基学习器进行修剪，删除那些对预测结果产生消极影响的负向基学习器；具体方法如下：

(1)首先使用全部基学习器来预测PM_2.5浓度值，输入为过去24小时中每小时体现了不同的样本、环境因素和时间因素的这三类多样性的数据值，输出为PM_2.5浓度值；现将该黑箱模型用未知多元函数H来表示，即H：R^s→R^t，即将s阶实数输入矩阵R^s转化为t阶实数输出矩阵R^t，输入为处理后的训练数据集，输出为各学习器的输出所组成的矩阵；z∈R^s，是根据分布P(z)从R^s中抽样得到的；z的预期输出为