CN110988263B

CN110988263B - 一种基于改进的Stacking模型的车辆尾气浓度估计方法

Info

Publication number: CN110988263B
Application number: CN201911211562.XA
Authority: CN
Inventors: 凌强; 费习宏; 李峰
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2021-07-06
Anticipated expiration: 2039-12-02
Also published as: CN110988263A

Abstract

本发明涉及一种基于改进的Stacking模型的车辆尾气浓度估计方法，在Stacking模型的基础上，将Stacking模型的尾气排放浓度估计结果和一些单个模型的估计结果进行加权求和，得到最终的车辆尾气排放浓度估计结果。其中Stacking模型，第一层由多个机器学习模型使用5折交叉验证训练得到新训练样本集和新测试样本集，简单线性回归模型作为第二层估计模型来训练第一层的新训练样本集，训练生成的估计模型估计新测试样本集，得到尾气浓度估计结果。本发明可快速准确的估计出该车辆的CO或HC尾气排放浓度，而且改进的Stacking模型估计性能相比Stacking模型或Stacking模型中使用到的单个机器学习模型的估计准确度都有较大提升。

Description

一种基于改进的Stacking模型的车辆尾气浓度估计方法

技术领域

本发明涉及一种基于改进的Stacking模型的车辆尾气浓度估计方法，属于车辆尾气排放浓度估计和模式识别领域。

背景技术

机动车尾气超标排放是造成大气污染主要原因之一。随着个人拥有汽车的数量显著增长。根据中国公安部交通管理局的数据，2018年全国新登记的机动车数量为3172万辆，机动车数量达到3.27亿辆。这些车辆数量的迅速增加加大了尾气的排放量，造成了严重的环境污染问题。车辆尾气中含有大量有害气体。其中一些有害的汽车尾气也会对人体健康产生负面影响。特别是，排气会对人体呼吸系统和免疫功能造成一定的伤害，导致呼吸道免疫力下降，慢性支气管炎的发病率增加等。因此，监测车辆排气浓度进而控制车辆污染气体的排放具有非常重要的意义。

当前，常规的尾气排放浓度检测方案是一般是通过设备检测或者理论推算出尾气排放浓度。文献[1]-[3]([1]Kousoulidou,Marina,et al."Use of portable emissionsmeasurement system(PEMS)for the development and validation of passenger caremission factors."Atmospheric Environment 64(2013):329-338.,[2]O'Driscoll R,ApSimon H M,Oxley T,et al.A Portable Emissions Measurement System(PEMS)studyof NOx and primary NO2 emissions from Euro 6diesel passenger cars andcomparison with COPERT emission factors[J].Atmospheric environment,2016,145:81-91.,[3]Luján J M,Bermúdez V,Dolz V,et al.An assessment of the real-worlddriving gaseous emissions from a Euro 6light-duty diesel vehicle using aportable emissions measurement system(PEMS)[J].Atmospheric environment,2018,174:112-121.)使用设备检测尾气的方案是在机动车的尾部安装车载尾气检测设备(PEMS)来实时测量尾气的排放。该设备通过与汽车尾气管道相连的探针采集污染物的浓度。该检测方案设备的成本较高和使用的便利性差。文献[4]([4]Shan H,Liu H,Zhang L,etal.The control method of Acceleration Simulation Mode emissions detectionsystems based on Fuzzy proportional-integral-derivative control[C]//201512thInternational Conference on Fuzzy Systems and Knowledge Discovery(FSKD).IEEE,2015:580-584.)提到一种使用加速模拟模式(ASM)条件检测尾气排放浓度的方法，但仅能够检测以特定速度行驶的车辆的排气浓度。文献[5]([5]Franco García V.Evaluationand improvement of road vehicle pollutant emission factors based oninstantaneous emissions data processing[D].Universitat Jaume I,2014.)提出了使用测功机测量排放浓度，目前仅限于实验室模拟条件，并且在现实中很难达到实验预期的结果。文献[6]([6]Geller M D,Sardar S B,Phuleria H,et al.Measurements ofparticle number and mass concentrations and size distributions in a tunnelenvironment[J].Environmental Science&Technology,2005,39(22):8653-8663.)使用隧道检测来检测局部废气排放浓度，但它只能检测特定时间和空间的平均废气排放浓度且容易受到环境条件的影响。随着人工智能技术的发展，文献[7]-[9]([7]Nagendra S M S,Khare M.Artificial neural network based line source models for vehicularexhaust emission predictions of an urban roadway[J].Transportation ResearchPart D:Transport and Environment,2004,9(3):199-208.，[8]Zhang Q,Xu Y,Li F,etal.A vehicle emission factors concentration inversion method based on deepneural networks[C]//2018Chinese Control And Decision Conference(CCDC).IEEE,2018:6325-6330.，[9]Nagendra S M S,Khare M.Artificial neural network approachfor modelling nitrogen dioxide dispersion from vehicular exhaust emissions[J].Ecological Modelling,2006,190(1-2):99-115.)提到使用深度学习为估计尾气排放浓度提供新的解决思路。采集可以影响尾气排放浓度的多因素特征遥测尾气数据，输入到神经网络中，利用深度神经网络(DNN)进行浓度估计，但是这种网络的估计准确度较差。

综上，常规尾气排放浓度浓度检测的缺陷和现有人工智能技术估计浓度准确率不高的缺点，亟需一种新的尾气排放浓度检测方法来进一步提高尾气排放浓度的准确率。

发明内容

本发明技术解决问题：针对常规尾气排放浓度检测的缺陷和现有人工智能技术估计浓度准确率不高的情况，提供一种基于改进的Stacking模型的车辆尾气浓度估计方法。不同的估计模型对于原始数据的学习存在很大的差异性，从不同的视角去探索特征空间，再把他们的估计结果融合在一起，更全面的学习特征数据，使得最终的估计效果基本上好于每个基模型。基于Stacking模型的基础上，再组合一些单个机器学习模型的一种改进的方式来获得更高的尾气排放浓度估计准确率。

本发明技术解决方案：一种基于改进的Stacking模型的车辆尾气浓度估计方法，包括：以多个机器学习模型作为Stacking模型的第一层的基模型，简单线性回归模型作为Stacking模型第二层的估计模型。最后将Stacking模型和一些单个模型作为改进的Stacking模型的附加层模型，将各模型的估计结果进行加权求和，得出最终的尾气排放估计浓度。

本发明的基于改进的Stacking模型的建立，具体步骤如下：

步骤1：将遥感系统收集到的尾气历史数据划分为尾气训练样本集和尾气测试样本集，按照5折交叉验证法训练Stacking模型的第一层中的选用的基模型，得到新训练样本集和新测试样本集；

步骤2：将Stacking模型第一层得到的新训练样本集和新测试样本集用于第二层简单估计模型的训练，训练生成的估计模型估计新测试样本集，得到Stacking模型的尾气浓度估计结果；

步骤3：在改进的Stacking模型第三层中，将Stacking模型和一些单个估计模型(例如XGBoost和LightGBM)的尾气浓度估计结果进行加权求和得到最终的尾气浓度估计结果。

所述步骤1中，将尾气历史数据划分为尾气训练样本集和尾气测试样本集，基于5折交叉验证法训练改进的Stacking模型的第一层中的基模型，得到新训练样本集和新测试样本集，具体过程如下：

(1)尾气训练样本集的5折处理。记尾气历史数据划分得到的尾气训练样本集为D，其中有m维特征n_D条记录；尾气历史数据划分得到的测试样本集为A，其中有m维特征n_A条记录。将尾气训练样本集D进行5折处理，即将尾气训练样本集平均分为5份，其中4份数据为训练数据，1份为测试数据，每一份之间的数据不是重复的，得到训练数据是

行尾气训练样本集记录，测试数据是

行尾气训练样本集记录。其中训练数据和测试数据都含有高维输入特征和标签。

(2)第一层基模型的训练操作过程。设第一层有t个基模型{Model_1,Model_2,...,Model_t}。对于模型Model_i，i＝1,2,...,t，每一次模型训练的5折交叉验证包含两个过程。第一是基于训练数据集来训练模型；第二是基于训练数据集训练生成的模型对测试数据进行估计。如图2所示，模型Model_i的具体训练流程示意图。在整个第一次的交叉验证训练基模型Model_i之后，利用基模型对其中1份的测试数据进行估计，得到关于当前测试数据的估计值，即得到一个一维

行的数据，记为a₁。然后，使用当前训练的基模型Model_i对尾气测试样本集A进行估计，生成n_A行估计值，这部分估计值将会作为下一层新测试样本集特征的一部分，记为b₁。由于进行的是5折交叉验证，所以以上过程将会进行5次，最终会生成针对测试数据估计的5列

行的数据序列{a₁,a₂,...,a₅}；对尾气测试样本集的估计结果会是5列n_A行的数据序列{b₁,b₂,...,b₅}。

在完成对Model_i的整个步骤之后，将数据序列{a₁,a₂,...,a₅}首尾拼接起来形成一个n_D行一列的序列，记为A_i。对于数据序列{b₁,b₂,...,b₅}，将各列序列进行相加取平均值，得到一个n_A行一列的序列，记为B_i。以上得到一个模型Model_i的完整实施过程。由于选用t个基模型后，把序列{A₁,A₂,A₃,...,A_t}并列合并得到一个n_D行t列的矩阵作为新训练样本集的特征，序列{B₁,B₂,...,B_t}合并得到一个n_A行t列的矩阵作为新测试样本集的特征。

所述步骤2中，将Stacking模型第一层得到的新训练样本集和新测试样本集用于第二层简单估计模型的训练，得到Stacking模型的尾气浓度估计结果，具体过程如下：

(1)为了避免过拟合化，第二层学习器选用简单线性回归估计模型Model₀；

(2)将第一层得到的新训练样本集的特征作为第二层模型Model₀训练数据的输入特征，训练数据的标签值仍然采用第一层的原训练样本集的标签值。训练学习结束后，对由新测试样本集的特征进行估计，得到Stacking模型的最终的估计结果。这里第一、二层的结构组成为Stacking模型。

所述步骤3中，在改进的Stacking模型第三层中，将Stacking模型和其他单个模型的尾气浓度估计结果进行加权求和，得到最终的尾气浓度估计结果，具体过程如下：

(1)改进的Stacking模型的附加层使用的k个模型，包括Stacking模型和k-1个单个模型使用5折交叉验证法进行训练。训练学习结束后，使用测试样本集进行估计，得到尾气排放浓度估计结果。

(2)使用Stacking模型和k-1个单个模型的尾气浓度估计结果进行加权求和，其数学模型为：

其中，f(x)为所述模型的期望输出，即CO或HC尾气浓度估计值；f_i(x)表示附加层i个模型的估计结果，W是权重，b为补偿值，f₁(x)为Stacking模型的尾气浓度估计结果。

本发明与现有技术相比的优点在于：

(1)由于不同的估计模型对于尾气数据的学习存在很大的差异性，可以从不同的视角去探索特征空间，再把他们的估计结果融合在一起，可以更全面的估计特征数据，使得最终的估计效果基本上好于Stacking模型中所用到的每个基模型。

(2)基于Staking模型能够得到较好的估计性能的基础上，本发明充分利用估计性能较优的Stacking模型，在使用其它估计性能较好的单个机器学习模型，利用估计结果的不同权重加权求和来得到更好的尾气浓度估计准确率。基于改进的Stacking模型的车辆尾气浓度估计模型估计车辆尾气浓度的精度高于当下估计性能好的Stacking模型及强学习器的结果精度。

附图说明

图1为本发明的改进的Stacking模型车辆尾气浓度估计方法流程图；

图2为改进的Stacking模型的第一层每一个基学习器的具体训练流程；

图3为改进的Stacking模型训练的整体流程示意图。

具体实施方式

由于道路上通行车辆尾气排放浓度受气象环境影响，本发明首次引入气象环境因素，再综合遥感尾气数据，能够更加全面的进行尾气浓度估计。同时本发明首次使用流行的回归估计模型Stacking模型和Boosting算法中的CatBoost、LightGBM及XGBoost等模型，将多种一流的回归算法集成在一起，更大限度的综合优秀估计性能的算法。同时在Stacking模型的基础上，本发明更大程度的利用该集成模型，提出改进的Stacking，将Stacking与一些单个模型的估计结果采用加权求和方式进一步挖掘估计结果之间的权重关系，进一步提升尾气浓度估计准确度。下面结合附图进行详细说明。

如图1所示，本发明具体实现如下：

1.基于改进的Stacking模型的车辆尾气浓度估计模型的建立

对尾气遥感监测数据和监测点气象数据融合成历史尾气数据，再按照3：1的比例划分为训练集与测试集。模型输入特征选取是否通过、是否数据、车辆速度、加速度、不透光烟度、温度、湿度、风速、风向角度、实测车辆CO尾气浓度、实测车辆CO2尾气浓度、激光吸收光谱反演初始CO2尾气浓度、实测车辆HC尾气浓度及实测车辆NO尾气浓度14个属性字段；模型的输出特征为由燃烧方程反解得到的CO、HC浓度。

2.构造改进的Stacking模型

2.1尾气训练样本集的5折处理

输入尾气训练样本集为m维特征n_D条记录，测试样本集为m维特征n_A条记录。将尾气训练样本集平均不重复的分为5份，其中4份数据为训练数据，1份为测试数据。

2.2第一层基模型的训练

本发明选用3个基模型，CatBoost、随机森林回归RFR和GBoost。对于每个模型，每一次模型训练进行5折交叉验证。在整个第一次的5折交叉验证训练基模型之后，利用基模型对其中1份的测试数据进行估计，得到一个一维

行的数据，记为a₁。然后，使用当前训练的基模型对尾气测试样本集A进行估计，生成n_A行估计值，记为b₁。以上过程将会进行5次，最终生成针对测试数据估计的5列

行数据序列{a₁,a₂,...,a₅}。对尾气测试样本集的估计结果会是5列n_A行数据序列{b₁,b₂,...,b₅}。将数据序列{a₁,a₂,...,a₅}首尾拼接起来形成一个n_D行一列的矩阵，记为A_i。对于数据序列{b₁,b₂,...,b₅}，将各列序列进行相加取平均值，得到一个n_A行一列的矩阵，记为B_i。由于选用3个基模型，将得到序列{A₁,A₂,A₃}并列合并得到一个n_D行3列的矩阵，作为新训练样本集的特征；得到的序列{B₁,B₂,B₃}合并得到一个n_A行3列的矩阵作为新测试样本集的特征。

2.3第二层学习器的训练

将第一层得到的新训练样本集的特征作为第二层模型训练数据的输入特征。训练数据的标签值仍然采用第一层的原训练样本集的标签值。这里选用简单线性回归模型Lasso。模型Lasso训练学习结束后，对由新测试样本集的特征进行估计，得到Stacking模型的最终的估计结果。第一、二层的组合即为Stacking模型。

2.4附加层的使用方法。

将Stacking得到的估计结果和一些单个模型的估计结果。这里单个模型选用LightGBM和XGBoost。按照加权求和法进行求和，得到基于改进的Stacking模型的最终尾气估计浓度。

如图3所示，基于改进的Stacking模型训练的全部结构图。

3.基于改进的Stacking模型的车辆尾气浓度估计

改进的Stacking模型训练完成后，对于输入样本，可实现快速精确尾气浓度估计。选取均方根误差RMSE，相关系数R，平均绝对误差MAE和拟合优度Rnew作为改进的Stacking尾气浓度估计模型的统计分析性能指标。这里RMSE和MAE的值越小，R和Rnew的值越大，表明模型的估计性能越好。其中RMSE、R、MAE和Rnew的数学表达式为：

其中，N为测试车辆样本个数，y_i,

分别为样本相应的CO(HC)尾气浓度，样本平均CO(HC)尾气浓度，样本CO(HC)尾气估计浓度，样本平均CO(HC)尾气估计浓度。

分别使用上述的改进的Stacking模型、Stacking模型、改进的Stacking模型中所用到的全部单个模型和DNN模型对CO、HC尾气浓度进行尾气浓度估计，相关统计性能对比如表1所示。

表1改进的Stacking方法、Stacking、改进的Stacking模型中所用到的全部单个模型和DNN模型估计随机测试车辆样本的CO和HC尾气浓度统计性能对比表

由表1可以看出，与Stacking模型、改进的Stacking模型中所用的全部单个模型和DNN模型相比，基于改进的Stacking模型的CO和HC尾气浓度估计方法，得到的相关系数R和拟合优度Rnew更大，均方根误差RMSE和平均绝对误差MAE更小，也就是说基于改进的Stacking模型的CO和HC尾气浓度估计性能要优于一般基于Stacking模型、改进的Stacking模型中所用的全部单个模型和DNN模型。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于改进的Stacking模型的车辆尾气浓度估计方法，其特征在于，包括以下步骤：

步骤1：将遥感系统收集到的尾气历史数据划分为尾气训练样本集和尾气测试样本集，按照5折交叉验证法训练Stacking模型第一层中选用的基模型，得到新训练样本集和新测试样本集；

步骤3：在改进的Stacking模型第三层中，将Stacking模型的尾气浓度估计结果和一些单个模型的尾气浓度估计结果进行加权求和，得到最终的尾气浓度估计结果；

所述步骤1中，具体过程如下：

(11)记尾气历史数据划分得到的尾气训练样本集为D，其中有m维特征n_D条记录；尾气历史数据划分得到的测试样本集为A，其中有m维特征n_A条记录，将尾气训练样本集D进行5折处理，即将尾气训练样本集平均分为5份，其中4份数据为训练数据，1份为测试数据，每一份之间的数据不是重复的，得到训练数据是

行尾气训练样本集记录，测试数据是

行尾气训练样本集记录，训练数据和测试数据都含有高维输入特征和标签；

(12)设第一层有t个基模型{Model_1,Model_2,...,Model_t}，对于模型Model_i，i＝1,2,...,t，每一次模型训练的5折交叉验证包含两个过程：第一是基于训练数据来训练模型；第二是基于训练数据训练生成的模型对测试数据进行估计；在整个第一次的交叉验证训练基模型Model_i之后，利用基模型对其中1份的测试数据进行估计，得到关于当前测试数据的估计值，即得到一个一维

行的数据，记为a₁；再使用当前训练的基模型Model_i对尾气测试样本集A进行估计，生成n_A行估计值，这部分估计值作为下一层新测试样本集的一部分，记为b₁；以上过程进行5次，最终会生成针对测试数据估计的5列

行的数据序列{a₁,a₂,...,a₅}；对尾气测试样本集的估计结果是5列n_A行的数据序列{b₁,b₂,...,b₅}；

(13)在完成对Model_i的整个步骤之后，将数据序列{a₁,a₂,...,a₅}首尾拼接起来形成一个n_D行一列的序列，记为A_i；对于数据序列{b₁,b₂,...,b₅}，将各列序列进行相加取平均值，得到一个n_A行一列的序列，记为B_i，以上得到一个模型Model_i的完整实施过程，经过t个基模型后，把序列{A₁,A₂,A₃,...,A_t}并列合并得到一个n_D行t列的矩阵作为新训练样本集的特征，序列{B₁,B₂,...,B_t}合并得到一个n_A行t列的矩阵作为新测试样本集的特征；

所述步骤3中，具体过程如下：

(31)改进的Stacking模型的附加层使用的k个模型，包括Stacking模型和k-1个单个模型使用5折交叉验证法进行训练；训练学习结束后，使用测试样本集进行估计，得到尾气排放浓度估计结果；

(32)使用Stacking模型和k-1个单个模型的尾气浓度估计结果进行加权求和，其数学模型为：

其中，f(x)为所述模型的期望输出，即CO或HC尾气浓度估计值；f_i(x)表示附加层中i个模型的尾气浓度估计结果，W_i是权重，b为补偿值。

2.根据权利要求1所述的一种基于改进的Stacking模型的车辆尾气浓度估计方法，其特征在于：所述步骤2中，具体过程如下：

(21)为了避免过拟合化，第二层估计模型选用简单线性回归估计模型Model₀；

(22)将第一层得到的新训练样本集的特征作为第二层模型Model₀训练数据的输入特征，训练数据的标签值仍然采用第一层的原训练样本集的标签值，训练学习结束后，使用新测试样本集的特征进行估计，得到Stacking模型的尾气浓度估计结果，其中第一、二层的结构组成为Stacking模型。