CN111024898B - 一种基于CatBoost模型的车辆尾气浓度超标判别方法 - Google Patents
一种基于CatBoost模型的车辆尾气浓度超标判别方法 Download PDFInfo
- Publication number
- CN111024898B CN111024898B CN201911392959.3A CN201911392959A CN111024898B CN 111024898 B CN111024898 B CN 111024898B CN 201911392959 A CN201911392959 A CN 201911392959A CN 111024898 B CN111024898 B CN 111024898B
- Authority
- CN
- China
- Prior art keywords
- exhaust
- tail gas
- concentration
- sample set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0062—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method, e.g. intermittent, or the display, e.g. digital
- G01N33/0067—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method, e.g. intermittent, or the display, e.g. digital by measuring the rate of variation of the concentration
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D21/00—Measuring or testing not otherwise provided for
- G01D21/02—Measuring two or more variables by means not covered by a single other subclass
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/0004—Gaseous mixtures, e.g. polluted air
- G01N33/0009—General constructional details of gas analysers, e.g. portable test equipment
- G01N33/0062—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method, e.g. intermittent, or the display, e.g. digital
- G01N2033/0068—General constructional details of gas analysers, e.g. portable test equipment concerning the measuring method, e.g. intermittent, or the display, e.g. digital using a computer specifically programmed
Abstract
本发明涉及一种基于CatBoost模型的车辆尾气浓度超标判别方法,分为两个阶段。第一个阶段是尾气历史数据的获取及根据尾气排放标准划分CO、HC尾气浓度的超标结果。第二个阶段是建立基于CatBoost的车辆尾气浓度超标判别模型,输入待检测尾气浓度车辆的相关尾气数据信息,对不同环境和车道下的车辆尾气排放浓度超标进行判别。
Description
技术领域
本发明涉及一种基于CatBoost模型的车辆尾气浓度超标判别方法,属于尾气排放超标识别和模式识别领域。
背景技术
道路上机动车数量的剧增,带来了机动车排放的有害气体的急剧增加。大气污染严重损害着人们的身体健康。减少全球城市对气候变化的影响具有重大意义。对道路上的过往的机动车尾气排放气体过量状况进行检测能够帮助指定决策。常规的尾气超标检测方案是一般是通过设备检测或者理论推算出尾气排放浓度,再去判断该浓度是否过量。
近些年来,有较多的关于车辆尾气浓度超标检测的研究。文献Eren H,Al-GhamdiA,Luo J.Application of ZigBee for pollution monitoring caused by automobileexhaust Gases[C]//2009IEEE Sensors Applications Symposium.IEEE,2009:164-168.提到使用传感器进行检测尾气,然后使用ZigBee来传输设备采集到的尾气浓度值。但是车辆行驶中有很多的电磁辐射,容易干扰ZigBee的信号传输。以下三篇文献(Yanwei G,YujunZ,Ying H,et al.On-Board Exhaust Emission Measurements of Vehicles Using aPortable Emission Measure System[C]//2016Eighth International Conference onMeasuring Technology and Mechatronics Automation(ICMTMA).IEEE,2016:424-427.;O'Driscoll R,ApSimon H M,Oxley T,et al.A Portable Emissions MeasurementSystem(PEMS)study of NOx and primary NO2 emissions from Euro 6dieselpassenger cars and comparison with COPERT emission factors[J].Atmosphericenvironment,2016,145:81-91.;Gallus J,Kirchner U,Vogt R,et al.Impact ofdriving style and road grade on gaseous exhaust emissions of passengervehicles measured by a Portable Emission Measurement System(PEMS)[J].Transportation Research Part D:Transport and Environment,2017,52:215-226.)提到使用车载尾气检测设备(PEMS)来实时测量尾气的排放,但是由于该检测方案设备需要安装在汽车的尾部,影响汽车的美观度,而且成本较高。文献(Yanowitz J,McCormick R L,Graboski M S.In-use emissions from heavy-duty diesel vehicles[J].Environmental science&technology,2000,34(5):729-740.;Traver M L,Tennant C J,McDaniel T I,et al.Interlaboratory cross-check of heavy-duty vehicle chassisdynamometers[R].SAE Technical Paper,2002.)提到使用底盘测功机用于车辆排放气体的测量,但是这种方式需要对足够数量的车辆进行测量,并选择足以代表所建模驾驶条件的驾驶循环来得到可靠排放浓度因子,不适合即时测量多种尾气排放浓度。文献(Chan TL,Ning Z,Leung C W,et al.On-road remote sensing of petrol vehicle emissionsmeasurement and emission factors estimation in Hong Kong[J].AtmosphericEnvironment,2004,38(14):2055-2066.)基于测得的汽油车辆排放数据的回归分析方法来估计CO、HC的公路汽油车辆排放因子,但是这种方法使用影响因素较少,得到的结果并不准确。
综上,常规的尾气排放超标判别的不足,尤其随着人工智能技术的快速发展和应用,急需一种新的尾气排放超标判别方法来提供新的解决方案。
发明内容
本发明技术解决问题:克服现有部分尾气检测设备昂贵、使用不便携和现有检测技术的不足,CatBoost能够考虑车辆遥测数据及气象数据,融合影响尾气排放浓度检测的多种影响因素。同时本发明不是采用的原有的估计出浓度去判别是否超标的方法,而是采用训练判别模型时标签是超标分类结果,通过输入尾气数据,直接通过判别模型识别出超标结果。并对不同环境和车道下车辆尾气排放浓度CO或HC超标判别。
本发明技术解决方案:一种基于CatBoost模型的车辆尾气浓度超标判别方法,包括以下两个阶段。第一阶段,分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据,按照尾气排放浓度超标标准进行划分超标结果;第二阶段,建立基于CatBoost的车辆尾气浓度超标判别模型,并对不同环境和车道下车辆尾气排放浓度超标进行判别。
(1)车辆尾气遥感监测数据与气象监测数据及尾气数据集标签值超标标记
将不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据,按照尾气排放浓度超标标准进行划分超标结果。
(2)基于CatBoost的车辆尾气浓度超标判别模型的建立
使用尾气训练数据集来训练CatBoost模型尾气浓度超标判别模型,再向训练好的CatBoost模型尾气浓度超标判别模型输入待检测车辆尾气数据,即可精确地判别出待检测车辆CO或HC尾气浓度超标结果。
具体实现步骤如下:
步骤1:分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将CO、HC尾气浓度进行划分超标结果,即为模型的输出结果。将历史尾气数据集划分为尾气训练样本集和尾气测试样本集;
步骤2:使用尾气训练数据集训练CatBoost模型尾气浓度超标判别模型,再向训练好的CatBoost模型尾气浓度超标判别模型输入待检测车辆相关尾气数据信息,即可判别出待检测车辆CO、HC尾气浓度超标结果。
所述步骤1中,分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将尾气浓度CO、HC进行划分超标结果,即为模型的输出结果。将历史尾气数据集划分为尾气训练样本集和尾气测试样本集,具体过程如下:
(11)确定尾气浓度超标判别模型的输入输出,所述尾气浓度超标判别模型输入为经过数据融合的历史尾气数据集,所述历史尾气数据的输入特征包括6个类别型特征和15个数值型特征,其中类别型特征有车牌号码、车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;数值型特征有地点编号、车道序号、比功率、不透光烟度、车辆速度、加速度、车长、环境温度、湿度、风速、风向、气压、激光吸收谱反演初始尾气CO浓度、激光吸收谱反演初始尾气HC浓度和激光吸收谱反演初始尾气CO2浓度;
(12)对车辆尾气浓度CO或HC的超标结果进行编码,其中历史尾气数据集的超标结果有两种,其中一种结果为合格,编码数值为0;另一类结果为超标,编码数值为1。车辆尾气浓度CO或HC的超标结果即为模型的输出结果。将历史尾气数据集按照3:1的比例划分为尾气训练样本集和尾气测试样本集,其中的历史尾气数据集为尾气训练样本集,的历史尾气数据集为尾气测试样本集;
所述步骤2中,使用尾气训练数据集训练CatBoost模型尾气浓度超标判别模型,再向训练好的CatBoost模型尾气浓度超标判别模型输入待检测车辆相关尾气数据,即可判别出待检测车辆CO、HC尾气浓度超标结果,其训练过程包括如下:
(21)首先对历史尾气数据集中的类别型特征进行处理。CatBoost在训练过程中自动完成对类别型特征采用不同的方法进行处理,对于输入特征类别型特征中数据元素是自然数的低势类别型特征的处理方法是采用One-hot编码,即将原来的类别型特征删除,使用二进制向量表示类别型特征;其中需要One-hot编码的类别型特征有车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;对于输入特征类别型特征中数据元素不是自然数的高势类别型特征,采用TS的方法处理类别型特征,TS用于估算每个类别的目标变量期望值,该期望值作为一个新的数值型变量来代替原来的类别型特征的值,其中需要使用TS的类别特征有车牌号码。期望值的数学表达式可表示为:
其中表示用来代替的尾气样本集输入特征中类别型特征i在第k个样本集中类别的TS相等的数值型变量;a是先验概率p的权重且a>0;先验概率p为尾气数据集当中CO或者HC浓度超标结果的平均值;yi为尾气样本集输入特征中类别型特征i中的CO或者HC浓度超标结果;表示时,该表达式的值为1,否则为0,表示尾气样本集输入特征中类别型特征i在第j个样本集中类别。
(22)将类别型特征处理过的尾气数据集特征构建对称的CART决策树。构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构。按照基尼指数最小原则进行迭代的切分两棵对称的CART树的根节点,其中基尼指数数学表达式为:其中Gini(p)表示得到的基尼指数值,K为尾气数据集中的CO或者HC浓度超标结果的种类,pk为尾气数据集属于第k类的概率。直到CART树的结点中的尾气数据集的基尼指数小于预定的阈值停止迭代,最终生成对称的CART决策树,即为CatBoost模型。
(23)根据以上生成的CatBoost模型,输入尾气训练样本集,将CatBoost模型中得到的所有构建的对称的CART树的结果值累加起来,得到最终的尾气排放浓度超标判别结果。
所述(22)中,将类别型特征处理过的尾气训练样本集构建对称的CART决策树。在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构;将类别型特征处理过的尾气训练样本集构建对称的CART决策树,其具体步骤如下:
1)设结点的尾气训练样本集为D,计算尾气训练样本集输入特征对D的基尼系数,对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用表达式计算A=a时的基尼系数值;
2)在所有可能的尾气训练样本集输入特征A以及所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去;
3)对两个子结点递归地调用1),2);
4)根据结点中的尾气训练样本集个数小于预定阈值,或者样本集的基尼指数小于预定阈值,或者没有更多特征停止调用1),2),最终生成对称的CART决策树。
所述在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构,其中第一阶段采用有序增强模式构建树的结构,具体步骤如下:
1)输入尾气训练样本集,对尾气训练样本集产生s+1个独立的随机序列,其中使用序列{σ1,...,σs}用来评估定义树结构的分裂,σ0用来计算所得到的树的叶子节点的值;
2)设Fi为构建i棵树后的模型,gi(Xk,yk)为构建i棵树后第k个训练样本集上面的梯度值。使用第k个训练样本集输入数据Xk,输出数据yk训练一个单独的模型Mk。使用Mk来估计Xk,并使用这个估计结果对树进行评分,然后根据评分得到尾气浓度CO或HC的超标判别结果;
所述在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构,其中第二阶段采用GBDT算法执行,GBDT需要通过多轮迭代执行算法,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,最终的总分类器是将每轮训练得到的弱分类器产生的尾气CO或HC浓度超标结果进行加权求和进行评分,模型数学形式表示为:模型一共训练M轮,对于尾气训练样本集x第m轮产生一个弱分类器T(x;θm),θm为第m轮后弱分类器的参数,第m轮后弱分类器的最小化损失函数得到的参数数学表达式为:其中L(yi,Fm-1(xi)+T(xi;θm)为弱分类器的损失函数,Fm-1(x)为第m轮前一个模型,yi为尾气训练集中第i个的CO或者HC浓度超标结果,xi为尾气训练样本集x第i尾气训练样本集数据。
本发明与现有技术相比的优点在于:由于常规的使用设备或者在实验室理论模拟,造成尾气超标识别的便利性差或者不能用于实际尾气超标识别。而本发明利用尾气排放相关影响因素下,使用人工智能技术中的CatBoost模型,它基于优秀的GBDT算法下,增加了能够自动采用特殊的方式处理类别型特征且采用的是对称CART树去评分,有效的防止模型过拟合等优点,相比于现在流行的分类模型具有更好的尾气排放浓度超标识别准确率。
附图说明
图1为本发明的CatBoost模型的车辆尾气浓度超标判别流程图。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
本发明首先将大量尾气遥感监测数据与气象数据进行数据融合,然后按照尾气排放浓度超标标准进行划分超标结果。再训练车辆尾气CO(HC)浓度CatBoost超标判别,训练好的判别模型可对不同车道及环境条件下的车辆尾气CO(HC)浓度进行超标识别。
本发明的技术方案分为两个阶段,第一个阶段是车辆尾气CO(HC)超标判别模型的建立阶段,即先对获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据,按照尾气排放浓度超标标准进行划分超标结果;再训练CART决策树来建立车辆尾气CO(HC)浓度超标判别模型。第二个阶段是车辆尾气浓度超标识别阶段,主要是通过训练好的超标判别模型识别待检测车辆尾气CO(HC)浓度超标结果。
车辆尾气CO(HC)浓度超标判别模型建立阶段
1、分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据,按照尾气排放浓度超标标准进行划分超标结果,形成车辆尾气浓度超标判别的初始数据。
2、训练超标CART决策树来“划分”不同车辆尾气浓度与不同车道、不同气象环境、不同车辆运动状态及激光吸收光谱反演初始尾气浓度等信息之间相互蕴含模式及关系,建立尾气浓度超标判别模型。
尾气排放浓度超标识别阶段
向第一阶段训练好的CART决策树模型输入待检测不同车道下的尾气浓度车辆的相关尾气遥测信息、环境记录信息,通过决策树识别相应的车辆尾气CO(HC)浓度超标结果。
如图1所示,下面详细说明。
本发明通过训练对称的CART决策树以及采用更为有效的处理操作,可以有效的提高的尾气超标判别结果,对车辆CO、HC尾气浓度进行准确排放超标识别。
1.基于CatBoost模型的车辆尾气浓度超标判别模型的建立
1.1尾气数据获取及处理
分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据,按照尾气排放浓度超标标准进行划分超标结果。将历史尾气数据按照3:1的比例划分为尾气训练样本集和尾气测试样本集,其中的历史尾气数据为尾气训练样本集,的历史尾气数据为尾气测试样本集;
1.2基于CatBoost模型的车辆尾气浓度超标判别模型的建立
模型训练的输入特征包括6个类别型特征和15个数值型特征,其中类别型特征有车牌号码、车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;数值型特征有地点编号、车道序号、比功率、不透光烟度、车辆速度、加速度、车长、环境温度、湿度、风速、风向、气压、激光吸收谱反演初始尾气CO浓度、激光吸收谱反演初始尾气HC浓度和激光吸收谱反演初始尾气CO2浓度。训练输出特征为车辆尾气CO或HC尾气浓度按照车辆尾气浓度排放的超标结果进行编码,其中尾气浓度划分有两类,其中一类为合格对应数值0,另一类为超标对应数值1。
1.2.1类别型特征的处理
尾气训练样本集输入的类别型特征有6个类别型特征,包括车牌号码、车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色。其中特征车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色为低势类别型变量,采用One-hot编码;车牌号码为高势类别型变量采用TS处理。
1.3尾气浓度超标分类
将类别型特征处理过的尾气数据集特征构建对称的CART决策树。构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用的GBDT算法构建树的结构,其中第二阶段采用GBDT算法执行,GBDT需要通过多轮迭代执行算法,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,最终的总分类器是将每轮训练得到的弱分类器产生的尾气CO或HC浓度超标结果进行加权求和进行评分,得到最终的尾气排放浓度CO或者HC的超标结果。
2.基于CatBoost模型的车辆尾气浓度超标判别
随机选取未经过模型训练车辆尾气测试样本集,使用训练好的CatBoost模型超标判别模型,判别这些测试样本集中车辆尾气CO(HC)超标结果,并用精确率(Preci sion)、召回率(Recall)、准确率(Accuracy)、综合评价指标F1作为模型统计分析的评价性能指标。其中与当前流行的其他Boosting算法,包括LightGBM,XGBoost作为对比,得到统计对比表如表1所示。由表1可以看出,本发明所建立的CatBoost模型与当前流行的其他Boosting算法,包括LightGB,XGBoost相比,本发明在对随机车辆尾气测试样本集的CO与HC尾气超标判别,所得Preci sion、Recall、Accuracy、F1更大,即基于CatBoost模型的车辆尾气浓度超标判别准确度性能要远优于当前流行的其他Boosting算法判别性能。
Precision、Recall、Accuracy、F1的定义如下:
其中TP表示测试样本集中超标排放车辆被判定为超标的样本数,FN表示测试样本集中超标排放车辆中被判定为合格的样本数,FP表示测试样本集中尾气排放合格车辆中被判定为超标的样本数,TN表示测试样本集中合格车辆被判定为合格的样本数。这里,Precision表示在测试集中,被判定为超标车辆且实际超标的比例,Recall表示在测试样本集中,实际超标车辆被判定为超标的比例,Accuracy表示在测试样本集中,超标分类判定正确的样本比例。F1兼顾了判别模型的准确率和召回率,可以看作是模型准确率和召回率的调和平均数,可以综合评价准确率和召回率的判别效果。其中Precision、Recall、Accuracy、F1的值越大,表示该判别模型的判别性能越好。
表1模型CatBoost与LightGBM,XGBoost超标识别随机车辆测试样本集的尾气浓度结果对比表
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (3)
1.一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于,包括以下步骤:
步骤1:分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将CO、HC尾气浓度进行划分超标结果,即为模型的输出结果,将历史尾气数据集划分为尾气训练样本集和尾气测试样本集;
步骤2:使用尾气训练数据集训练CatBoost尾气浓度超标判别模型,再向训练好的CatBoost尾气浓度超标判别模型输入待检测车辆相关尾气数据,即能够判别出待检测车辆CO、HC尾气浓度超标结果;
所述步骤2中,使用尾气训练数据集训练CatBoost尾气浓度超标判别模型,再向训练好的CatBoost尾气浓度超标判别模型输入待检测车辆相关尾气数据,即可判别出待检测车辆CO、HC尾气浓度超标结果,其训练过程包括如下:
(21)首先对历史尾气数据集中的类别型特征进行处理,CatBoost在训练过程中自动完成对类别型特征采用不同的方法进行处理,对于输入特征类别型特征中数据元素是自然数的低势类别型特征的处理方法是采用One-hot编码,即将原来的类别型特征删除,使用二进制向量表示类别型特征;其中需要One-hot编码的类别型特征有车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;对于输入特征类别型特征中数据元素不是自然数的高势类别型特征,采用目标变量统计(target statistics,TS)的方法处理类别型特征,TS用于估算每个类别的目标变量期望值,该期望值作为一个新的数值型变量来代替原来的类别型特征的值,其中需要使用TS的类别特征有车牌号码,期望值的数学表达式表示为:
其中表示用来代替的尾气样本集输入特征中类别型特征i在第k个样本集中类别的TS相等的数值型变量;a是先验概率p的权重且a>0;先验概率p为尾气数据集当中CO或者HC浓度超标结果的平均值;yi为尾气样本集输入特征中类别型特征i中的CO或者HC浓度超标结果;表示时,该表达式的值为1,否则为0,表示尾气样本集输入特征中类别型特征i在第j个样本集中的类别;
(22)将类别型特征处理过的尾气数据集特征构建对称的分类与回归树(classification and regression tree,CART)决策树,然后构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用的梯度提升迭代决策树(gradient boostingdecision tree,GBDT)算法构建树的结构,按照基尼指数最小原则进行迭代的切分两棵对称的CART树的根节点,其中基尼指数数学表达式为:其中Gini(p)表示得到的基尼指数值,K为尾气数据集中的CO或者HC浓度超标结果的种类,pk为尾气数据集属于第k类的概率,直到CART树的结点中的尾气数据集的基尼指数小于预定的阈值停止迭代,最终生成对称的CART决策树,即为CatBoost模型;
(23)根据以上生成的CatBoost模型,输入尾气训练样本集,将CatBoost模型中得到的所有构建的对称的CART树的结果值累加起来,得到最终的尾气排放浓度超标判别结果。
2.根据权利要求1所述的一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于:所述步骤1中,分别获取不同车道下的车辆尾气遥感监测数据与气象监测数据,融合成历史尾气数据集,再按照尾气排放浓度超标标准将CO、HC尾气浓度进行划分超标结果,即为模型的输出结果,将历史尾气数据集划分为尾气训练样本集和尾气测试样本集,具体过程如下:
(11)确定尾气浓度超标判别模型的输入输出,所述尾气浓度超标判别模型输入为经过数据融合的历史尾气数据集,所述历史尾气数据的输入特征包括6个类别型特征和15个数值型特征,其中6个类别型特征有车牌号码、车辆燃油规格、是否有催化转化器、排气后处理装置、驱动方式、车牌颜色;15个数值型特征有地点编号、车道序号、比功率、不透光烟度、车辆速度、加速度、车长、环境温度、湿度、风速、风向、气压、激光吸收谱反演初始尾气CO浓度、激光吸收谱反演初始尾气HC浓度和激光吸收谱反演初始尾气CO2浓度;
(12)对车辆CO或HC尾气浓度的超标结果进行编码,其中历史尾气数据集的超标结果有两种,其中一种结果为合格,编码数值为0;另一类结果为超标,编码数值为1,车辆CO或HC尾气浓度的超标结果即为模型的输出结果;
3.根据权利要求1所述的一种基于CatBoost模型的车辆尾气浓度超标判别方法,其特征在于:所述(22)中,将类别型特征处理过的尾气训练样本集构建对称的CART决策树,在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构;所述将类别型特征处理过的尾气训练样本集构建对称的CART决策树,其具体步骤如下:
1)设结点的尾气训练样本集为D,计算尾气训练样本集输入特征对D的基尼系数,对每一个特征A,对其可能取的每个值a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用表达式计算A=a时的基尼系数值;
2)在所有可能的尾气训练样本集输入特征A以及所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,依最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去;
3)对两个子结点递归地调用步骤1),2);
4)根据结点中的尾气训练样本集个数小于预定阈值,或者样本集的基尼指数小于预定阈值,或者没有更多特征停止调用步骤1),2),最终生成对称的CART决策树;
所述在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构,具体步骤如下:
1)输入尾气训练样本集,对尾气训练样本集产生s+1个独立的随机序列,其中使用序列{σ1,...,σs}用来评估定义树结构的分裂,σ0用来计算所得到的树的叶子节点的值;
2)设Fi为构建i棵树后的模型,gi(Xk,yk)为构建i棵树后尾气训练样本集第k个输入数据梯度值,使用第k个训练样本集输入数据Xk,输出数据yk训练一个单独的模型Mk,使用Mk来估计Xk,并使用这个估计结果对树进行评分,然后根据评分得到尾气浓度CO或HC的超标判别结果;
所述在构建下一棵树的第一阶段采用有序增强模式构建树的结构,第二阶段采用GBDT算法构建树的结构,采用GBDT算法执行,GBDT需要通过多轮迭代执行算法,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,最终的总分类器是将每轮训练得到的弱分类器产生的尾气CO或HC浓度超标结果进行加权求和进行评分,总分类器的模型数学形式表示为:模型一共训练M轮,对于尾气训练样本集x第m轮产生一个弱分类器T(x;θm),θm为第m轮后弱分类器的参数,第m轮后弱分类器的最小化损失函数得到的参数数学表达式为:其中L(yi,Fm-1(xi)+T(xi;θm)为弱分类器的损失函数,Fm-1(x)为第m轮前一个模型,yi为尾气训练集中第i个的CO或者HC浓度超标结果,xi为尾气训练样本集x第i尾气训练样本集数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392959.3A CN111024898B (zh) | 2019-12-30 | 2019-12-30 | 一种基于CatBoost模型的车辆尾气浓度超标判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911392959.3A CN111024898B (zh) | 2019-12-30 | 2019-12-30 | 一种基于CatBoost模型的车辆尾气浓度超标判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111024898A CN111024898A (zh) | 2020-04-17 |
CN111024898B true CN111024898B (zh) | 2021-07-06 |
Family
ID=70195951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911392959.3A Active CN111024898B (zh) | 2019-12-30 | 2019-12-30 | 一种基于CatBoost模型的车辆尾气浓度超标判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111024898B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112378877A (zh) * | 2020-11-13 | 2021-02-19 | 深圳东和邦泰科技有限公司 | 柴油车尾气排放检测方法、系统及相应的装置 |
CN112630383A (zh) * | 2020-12-17 | 2021-04-09 | 广东天琴信息技术有限公司 | 一种机动车辆尾气排放检测方法及装置 |
CN113158125B (zh) * | 2021-03-31 | 2022-12-27 | 中汽研汽车检验中心(天津)有限公司 | 一种基于车联网的柴油车NOx排放评测方法 |
CN113295826B (zh) * | 2021-05-24 | 2023-06-27 | 暨南大学 | 一种基于车联网的机动车尾气排放测试管理系统及智能诊断方法 |
CN113450880A (zh) * | 2021-08-31 | 2021-09-28 | 大唐环境产业集团股份有限公司 | 一种脱硫系统入口so2浓度智能预测方法 |
CN114236054B (zh) * | 2021-12-17 | 2022-09-06 | 北京邮电大学 | 基于大数据的企业无组织排放行为检测及鉴定方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330300A (zh) * | 2017-08-24 | 2017-11-07 | 中国科学技术大学 | 一种基于支持向量回归的车辆尾气浓度反演方法 |
CN110084412A (zh) * | 2019-04-12 | 2019-08-02 | 重庆邮电大学 | 一种基于特征转换多标签学习的光伏发电大数据预测方法 |
CN110197706A (zh) * | 2019-04-26 | 2019-09-03 | 深圳市宁远科技股份有限公司 | 一种基于sbs的层次化特征选择方法、系统及应用 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CA3050952A1 (en) * | 2019-06-21 | 2019-10-11 | Inspectorio Inc. | Inspection risk estimation using historical inspection data |
CA3050951A1 (en) * | 2019-06-21 | 2019-10-11 | Inspectorio Inc. | Factory risk estimation using historical inspection data |
CN110544100A (zh) * | 2019-09-10 | 2019-12-06 | 北京三快在线科技有限公司 | 基于机器学习的业务识别方法、装置及介质 |
-
2019
- 2019-12-30 CN CN201911392959.3A patent/CN111024898B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330300A (zh) * | 2017-08-24 | 2017-11-07 | 中国科学技术大学 | 一种基于支持向量回归的车辆尾气浓度反演方法 |
CN110084412A (zh) * | 2019-04-12 | 2019-08-02 | 重庆邮电大学 | 一种基于特征转换多标签学习的光伏发电大数据预测方法 |
CN110197706A (zh) * | 2019-04-26 | 2019-09-03 | 深圳市宁远科技股份有限公司 | 一种基于sbs的层次化特征选择方法、系统及应用 |
CN110232473A (zh) * | 2019-05-22 | 2019-09-13 | 重庆邮电大学 | 一种基于大数据金融的黑产用户预测方法 |
CA3050952A1 (en) * | 2019-06-21 | 2019-10-11 | Inspectorio Inc. | Inspection risk estimation using historical inspection data |
CA3050951A1 (en) * | 2019-06-21 | 2019-10-11 | Inspectorio Inc. | Factory risk estimation using historical inspection data |
CN110544100A (zh) * | 2019-09-10 | 2019-12-06 | 北京三快在线科技有限公司 | 基于机器学习的业务识别方法、装置及介质 |
Non-Patent Citations (2)
Title |
---|
基于分层排序加权融合的P2P网贷违约预测模型研究;于斌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190615(第06期);第I139-5页 * |
基于多维信息融合的知识库问答实体链接;曾宇涛 等;《模式识别与人工智能》;20190730;第32 卷(第7期);第642-651页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111024898A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111024898B (zh) | 一种基于CatBoost模型的车辆尾气浓度超标判别方法 | |
CN110097755B (zh) | 基于深度神经网络的高速公路交通流量状态识别方法 | |
CN111832225B (zh) | 一种构建汽车行驶工况的方法 | |
CN107577910B (zh) | 一种基于深层次神经网络的车辆尾气浓度反演方法 | |
CN110889546B (zh) | 一种基于注意力机制的交通流量模型训练方法 | |
CN108426812B (zh) | 一种基于记忆神经网络的pm2.5浓度值预测方法 | |
CN108197731B (zh) | 一种基于共同训练的机动车尾气遥测与车检结果一致性方法 | |
CN110826772A (zh) | 车辆尾气排放预测方法、装置、设备及存储介质 | |
CN111343147B (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN109886724B (zh) | 一种鲁棒性的居民出行轨迹识别方法 | |
CN107766636A (zh) | 一种基于极值理论与微观仿真的城市交叉口安全评价方法 | |
CN113158560A (zh) | 一种基于场景对抗的智能驾驶车辆自主能力测试方法 | |
CN113435471A (zh) | 深度特征聚类的高排放移动源污染识别方法及系统 | |
CN110610209A (zh) | 一种基于数据挖掘的空气质量预测方法及系统 | |
CN112597702B (zh) | 基于径向基函数的气动建模生成式对抗网络模型训练方法 | |
CN110135466A (zh) | 一种污染物排放超标车辆判断方法及系统 | |
CN110988263B (zh) | 一种基于改进的Stacking模型的车辆尾气浓度估计方法 | |
CN115659782A (zh) | 一种基于pgdnn在移动车辆荷载作用下的桥梁损伤识别方法 | |
CN112819217A (zh) | 移动源污染排放主要影响因素预测方法、系统及存储介质 | |
CN106909502A (zh) | 偶然正确性测试用例识别方法和软件错误定位方法 | |
CN114139624A (zh) | 一种基于集成模型挖掘时间序列数据相似性信息的方法 | |
Zhang et al. | Structural Damage Identification System Suitable for Old Arch Bridge in Rural Regions: Random Forest Approach. | |
CN115983329A (zh) | 空气质量及气象条件的预测方法、装置、设备及存储介质 | |
CN112991765B (zh) | 一种道路高排放源识别模型更新方法、终端及存储介质 | |
CN112116070B (zh) | 地铁车站环境参数监测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |