CN114692749B - 一种机动车尾气遥感检测数据的处理与分析方法 - Google Patents
一种机动车尾气遥感检测数据的处理与分析方法 Download PDFInfo
- Publication number
- CN114692749B CN114692749B CN202210310608.9A CN202210310608A CN114692749B CN 114692749 B CN114692749 B CN 114692749B CN 202210310608 A CN202210310608 A CN 202210310608A CN 114692749 B CN114692749 B CN 114692749B
- Authority
- CN
- China
- Prior art keywords
- data
- motor vehicle
- measurement
- remote sensing
- tail gas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 title claims abstract description 40
- 238000005259 measurement Methods 0.000 claims abstract description 160
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 74
- 230000002159 abnormal effect Effects 0.000 claims abstract description 45
- 238000010801 machine learning Methods 0.000 claims abstract description 41
- 238000012937 correction Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000009792 diffusion process Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 12
- 238000007781 pre-processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Testing Of Engines (AREA)
Abstract
本发明公开了一种机动车尾气遥感检测数据的处理与分析方法,根据机动车尾气遥感检测数据,筛选初始机动车集合;对机动车尾气遥感检测数据进行测量值修正,得到尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;将测量数据校准至同一测量基准水平;将测量数据放缩至同一测量基准幅度;根据尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集;结合无监督机器学习算法和预设的阈值,确定最终的排放超标机动车信息。本发明的准确率高、检测时间短且成本低,可广泛应用于大数据处理分析技术领域。
Description
技术领域
本发明涉及大数据处理分析技术领域,尤其是一种机动车尾气遥感检测数据的处理与分析方法。
背景技术
随着社会经济的快速发展,机动车保有量快速上升,机动车尾气也随之成为大气污染的主要来源。目前,道路上有许多不符合最新排放标准的机动车,能否准确识别排放超标的车辆对于污染物排放水平能否进一步降低有重要影响。
传统的怠速法、工况法要求车辆使用专门的检测设备测量尾气排放水平,具有检测结果准确、检测时间长、检测成本高等特点。与之相比,机动车尾气遥感检测法能够通过架设在道路上方或两旁的设备,在不影响交通流运行的情况下,进行机动车尾气排放水平的检测,具有检测时间短、检测成本低的优点。但由于其采用开放式检测的方式,使得测量准确度受到交通状况和风速、湿度等环境因素影响较大,因此需要采用一定的处理流程对测量数据进行处理分析才能应用于超标车辆检测。目前国内外的研究多注重于减少测量设备本身的误差,缺少对于尾气遥感检测数据处理与分析方法的研究。
发明内容
有鉴于此,本发明实施例提供一种准确率高、检测时间短且成本低的机动车尾气遥感检测数据的处理与分析方法。
本发明的一方面提供了一种机动车尾气遥感检测数据的处理与分析方法,包括:
根据机动车尾气遥感检测数据,筛选初始机动车集合;其中,所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据,用于针对不同类型车辆的排放数据进行处理与分析;
通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;
根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;
考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,其中,所述异常点并集用于初步判定排放超标车辆;
结合无监督机器学习算法和预设的阈值对异常点并集数据进行进一步判定,确定最终的排放超标机动车信息。
可选地,所述通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值,包括:
对前车通过后,因排放气体仍未完全扩散导致的后车尾气排放测量值存在的误差进行修正,其中,误差修正的公式为:
ytrue=yo-a×e-(t+f)×ypre
其中,ytrue为后车尾气排放真实值;yo为后车尾气排放测量值;ypre为前车通过后存留的尾气值;a为修正系数;t为前后车之间的车头时距;f为测量时的风速。
可选地,所述考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平,包括:
以1小时为时间跨度划分时间段,选取每1小时内以测量数据中位数为基准线的上下各25%数据,共计50%数据,计算所述时间跨度划分时间段的测量基准水平;
以第1个时间段的测量基准水平为标线,将各时间段的测量基准水平对齐至所述标线;
根据对齐后的各时间段测量基准水平,将所有数据进行校准。
可选地,所述考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度,包括:
以1小时为时间跨度划分时间段,选取每1小时内测量数据的85%分位数,作为时间跨度划分时间段的测量基准幅度;
以第1个时间段的测量基准幅度为标准,计算各时间段数据的放缩比例;
根据计算得到的数据放缩比例,将所有数据进行放缩。
可选地,所述使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,包括:
根据预设定超参数,使用孤立森林算法判定测量数据中存在的异常点;
根据预设定超参数,使用DBSCAN聚类算法划分测量数据中存在的异常点;
根据两种无监督机器学习算法的训练结果,选取两种算法均认定为异常点的数据进行标记。
可选地,所述预设的阈值为第1个时间段的测量基准幅度的倍数。
本发明实施例的另一方面还提供了一种机动车尾气遥感检测数据的处理与分析装置,包括:
第一模块,用于根据机动车尾气遥感检测数据,筛选初始机动车集合;其中,所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据;
第二模块,用于通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;
第三模块,用于根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;
第四模块,用于考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
第五模块,用于考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
第六模块,用于根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,其中,所述异常点并集用于初步判定排放超标车辆;
第七模块,用于结合无监督机器学习算法和预设的阈值对异常点并集数据进行进一步判定,确定最终的排放超标机动车信息。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前面所述的方法。
本发明的实施例根据机动车尾气遥感检测数据,筛选初始机动车集合;将所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据;通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集;结合无监督机器学习算法和预设的阈值,确定最终的排放超标机动车信息。本发明的准确率高、检测时间短且成本低。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出的机动车尾气排放处理与分析流程图;
图2为本发明实施例提供的数据预处理前后尾气排放数据分布示例;
图3为本发明实施例提供的孤立森林算法原理图示与算法结果示例;
图4为本发明实施例提供的DBSCAN算法原理图示与算法结果示例;
图5为本发明实施例提供的机动车尾气排放处理与分析结果示例。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例提出一种针对机动车尾气遥感检测数据的处理与分析流程,包括数据预处理、数据修正与超标车辆检出两部分,能够在修正测量设备误差的基础上,对尾气排放超标的车辆进行识别。
具体地,本发明的一方面提供了一种机动车尾气遥感检测数据的处理与分析方法,包括:
根据机动车尾气遥感检测数据,筛选初始机动车集合;其中,所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据,用于针对不同类型车辆的排放数据进行处理与分析;
通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;
根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;
考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,其中,所述异常点并集用于初步判定排放超标车辆;
结合无监督机器学习算法和预设的阈值对异常点并集数据进行进一步判定,确定最终的排放超标机动车信息。
可选地,所述通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值,包括:
对前车通过后,因排放气体仍未完全扩散导致的后车尾气排放测量值存在的误差进行修正,其中,误差修正的公式为:
ytrue=yo-a×e-(t+f)×ypre
其中,ytrue为后车尾气排放真实值;yo为后车尾气排放测量值;ypre为前车通过后存留的尾气值;a为修正系数;t为前后车之间的车头时距;f为测量时的风速。
可选地,所述考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平,包括:
以1小时为时间跨度划分时间段,选取每1小时内以测量数据中位数为基准线的上下各25%数据,共计50%数据,计算所述时间跨度划分时间段的测量基准水平;
以第1个时间段的测量基准水平为标线,将各时间段的测量基准水平对齐至所述标线;
根据对齐后的各时间段测量基准水平,将所有数据进行校准。
可选地,所述考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度,包括:
以1小时为时间跨度划分时间段,选取每1小时内测量数据的85%分位数,作为时间跨度划分时间段的测量基准幅度;
以第1个时间段的测量基准幅度为标准,计算各时间段数据的放缩比例;
根据计算得到的数据放缩比例,将所有数据进行放缩。
可选地,所述使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,包括:
根据预设定超参数,使用孤立森林算法判定测量数据中存在的异常点;
根据预设定超参数,使用DBSCAN聚类算法划分测量数据中存在的异常点;
根据两种无监督机器学习算法的训练结果,选取两种算法均认定为异常点的数据进行标记。
可选地,所述预设的阈值为第1个时间段的测量基准幅度的倍数。
本发明实施例的另一方面还提供了一种机动车尾气遥感检测数据的处理与分析装置,包括:
第一模块,用于根据机动车尾气遥感检测数据,筛选初始机动车集合;其中,所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据;
第二模块,用于通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;
第三模块,用于根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;
第四模块,用于考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
第五模块,用于考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
第六模块,用于根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,其中,所述异常点并集用于初步判定排放超标车辆;
第七模块,用于结合无监督机器学习算法和预设的阈值对异常点并集数据进行进一步判定,确定最终的排放超标机动车信息。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前面所述的方法。
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
本发明实施例提出了一种针对机动车尾气遥感检测数据的处理与分析流程,流程输入为机动车尾气遥测原始数据,输出为尾气排放超标的车辆信息。包括以下步骤:
步骤1:根据中华人民共和国机械行业标准《机动车尾气遥测设备通用技术要求》(JB/T11996-2014)中针对数据有效性的规定对原始遥测数据进行筛选;
步骤2:使用差分法对车辆连续通过检测器时前后车之间相互影响的测量结果进行修正;
步骤3:使用拉依达准则对符合正态分布的测量数据进行筛选;
步骤4:针对测量设备在检测时间段内测量基准水平的偏移进行数据校准;
步骤5:针对测量设备在检测时间段内测量基准幅度的变化进行数据放缩;
步骤6:使用孤立森林算法与DBSCAN聚类算法筛选可能的排放超标数据;
步骤7:根据设定的阈值对步骤6中的异常值进行筛选,确定最终的排放超标车辆数据。
在步骤1中,所述的数据有效性规定为《机动车尾气遥测设备通用技术要求》中规定的尾气遥测数据需要满足的要求,包括以下5条:
1.测量数据相对湿度应小于等于85%;
2.测量数据CO测量值应小于10%;
3.测量数据CO2测量值应小于16%;
4.测量数据HC测量值应小于10000*10-6ppm;
5.测量数据NO测量值应小于10000*10-6ppm;
步骤1针对不满足以上规定的数据进行删除。除了以上5条规定,步骤1同时还将处于测量设备标定期间的数据以及车辆基础信息缺失的数据进行删除。
在步骤2中,由于机动车尾气污染绝大多数来源于柴油车与汽油车,其余新能源车辆产生的尾气污染较低,因此本发明实施例仅针对柴油车与汽油车数据进行处理分析。
交通流连续通过遥感检测设备时,前车排放的尾气在短时间内仍未完全扩散,并对后车的测量结果产生影响,影响的大小主要与前后车之间的车头时距以及测量时的风速相关。步骤2使用差分法对后车的测量结果进行修正,公式如下:
ytrue=yo-a×e-(t+f)×ypre
修正公式中ytrue为后车尾气排放真实值,yo为后车尾气排放测量值,ypre为前车通过后存留的尾气值,a为修正系数,t为前后车之间的车头时距,f为测量时的风速。根据上述公式进行修正后,得到各车辆尾气排放的真实值。
由于柴油车与汽油车发动机原理不同,因而产生的尾气排放数据特征也有所不同,故步骤3及后续步骤将分别对柴油车数据与汽油车数据进行处理分析。
在步骤3中,根据对测量数据的观测,发现机动车尾气排放测量值符合正态分布。因此使用正态分布下拉依达准则(3σ准则)对测量数据进行筛选。该准则说明在数据符合正态分布时,数据落在(μ-3σ,μ+3σ)区间之外的概率仅有0.3%(μ为数据均值,σ为数据标准差),步骤3将该部分数据认定为因设备异常产生的数据,并进行删除。
本发明实施例将尾气遥测数据处理与分析分为两部分,步骤1、步骤2、步骤3均属于数据预处理部分,目的为剔除原始数据中因测量设备出错等原因产生的无效数据。后续步骤均属于数据修正与超标判定部分,目的为识别出尾气排放超标的车辆。
在步骤4中,观测测量数据发现,设备本身的测量基准水平处于不断变化之中,不同的基准水平将增加对数据进行处理与分析的难度。因此步骤4使用下述步骤将不同时间段内的数据进行校准:
步骤401:以1小时为跨度将所有测量数据进行划分,将1天划分为24个时间段,计算不同时间段内设备测量的基准水平。为避免排放超标车辆对基准水平的计算产生影响,将测量数据从大到小进行排列,选取中位数数据,以中位数数据为基础,取大于该中位数的25%数据和小于该中位数的25%数据,共计50%的数据进行平均,作为该时间段设备的测量基准水平;
步骤402:以第1个时间段的测量基准水平为标线,将各时间段的测量基准水平对齐至该标线,得到对齐后各时间段的设备测量基准水平;
步骤403:根据对齐后各时间段的的设备测量基准水平,将各时间段的所有数据进行校准。
经过步骤4的处理,认为所有数据均分布在同一测量基准水平线的两侧。
在步骤5中,观测测量数据发现,不同时间段内设备的测量幅度有较大偏差,该部分偏差由设备本身误差引起,将使得对不同时间段的数据的处理与分析无法使用同一标准。因此步骤5使用下述步骤将不同时间段内的数据进行放缩:
步骤501:以1小时为跨度将所有测量数据进行划分,将1天划分为24个时间段,计算不同时间段内设备测量的基准幅度。为避免排放超标车辆对基准幅度的计算产生影响,将测量数据从小到大进行排列,选取85%分位数数据,作为该时间段设备的测量基准幅度;
步骤502:以第1个时间段的测量基准幅度为标准,除以各时间段的测量基准幅度,得到各时间段的数据应当放缩的比例;
步骤503:根据各时间段数据的放缩比例,将各时间段的所有数据进行放缩。
经过步骤4与步骤5的处理,认为所有数据均分布在同一测量基准水平线的两侧,且有着相同的测量基准幅度,可以使用同一方法与标准进行处理与分析。需要说明的是,经过上述两步骤的处理后,尾气排放数据并非真实的测量值,其值的大小仅代表排放水平的高低。
进行数据预处理与数据校准后,可以使用同一方法与标准进行超标车辆的判定,鉴于大部分机动车尾气遥测设备均遵循前述国家标准进行设计建造,因此测量的数据由类似字段构成(数据特征重叠多)。随着机动车尾气遥测方式逐渐推广,可以考虑使用横向联邦学习进行超标车辆的判定,参与方从服务器下载模型后进行训练,完成后加密上传给服务器,服务器则聚合各参与方结果并更新模型。使用联邦学习能够在保证数据隐私安全的基础上高效地训练模型。
在步骤6中,本发明实施例使用两种无监督机器学习算法划分数据中的异常点。
孤立森林算法是一种无监督的异常检测算法,其将分布稀疏且离密度高的样本群体较远的数据点定义为异常点。一维孤立森林算法在训练过程中不断在数列的最大值与最小值之间随机选取一个数作为中点,将数据分割为两部分,对两部分数据分别递归重复上述操作建立二叉树,直至所有的数据点均位于叶子节点,或树的深度达到上限值。记录每条数据的深度,根据预先设定的平均深度值,可以划分出异常点。
DBSCAN聚类算法是一种基于密度进行聚类的无监督算法,该算法超参数主要为邻域半径e、成为核心对象所需数据点最小数量MinPts。算法在训练过程中随机选取数据点,将邻域半径e内数据点数量超过最小数量MinPts的数据点定义为核心对象,并将核心对象的所有密度可达的样本划定为一个簇。算法不断判定未处理数据点是否为核心对象,直至所有数据点都被划分。在本发明实施例中,大部分车辆排放值较低,因而使用DBSCAN聚类算法可以划分到一个簇内,排放超标车辆则被划分为其他簇或边缘点。
步骤6对经过步骤5处理的数据分别采用两种机器学习算法进行训练,考虑到单独使用一种算法可能出现错误判定,因此只有两种算法都将某数据点判定为异常点时,才将该数据点标记,进行进一步判定。
步骤7阈值判定的设立,是因为机器学习算法的效果受到数据本身特征与超参数设置影响较大,在没有大量的数据样本可以用于确定合适的超参数时训练结果可能并不理想,因此步骤7在机器学习算法结果的基础上进一步使用阈值判定确定排放超标车辆,能够减少错误判定的可能性。
在步骤7中,将步骤502中得到的第1个时间段的测量基准幅度的倍数确定为阈值,对步骤6中的标记的数据点进行判定,将尾气排放量超出阈值的车辆确定为尾气排放超标车辆。需要说明的是,由于各测量设备之间存在误差,且各设备架设位置的风速、温度等环境因素均存在不同,因此阈值的选择应针对不同设备点位进行针对性优化,笼统地使用一种阈值确定方式得到的结果将不理想。
下面结合说明书附图,详细描述本发明的实施过程:
图1所示为本发明实施例提出的机动车尾气遥感检测数据的处理与分析流程图,流程步骤包括:
删除不满足国家标准要求的数据;
将数据划分为柴油车数据和汽油车数据供进一步分析;
考虑连续通过检测器的前车测量值对后车测量值的影响,进行测量值修正;
使用正态分布下拉依达准则删除区间外数据;
考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
分别使用两种无监督机器学习算法划分异常点,标记两种算法的异常点并集,进行进一步判定;
考虑机器学习算法的局限性,在机器学习算法结果基础上结合阈值判定,输出最终的排放超标车辆数据。
为更好说明本发明提出的流程的处理与分析效果,本发明实施例获取了三处机动车尾气遥测点位于2021年12月至2022年1月期间共31天的数据进行处理与分析,下面结合图2至图5,对处理与分析结果进行说明。
首先对数据基本情况进行简要说明。原始数据来自于三处点位(以下分别用点位1、点位2、点位3指代),每条数据由44个字段组成,包含车辆的基本信息、检测到该车辆时的环境因素等,原始数据共1125820条。图2至图5以某一点位柴油车的NO排放测量数据为例展示结果。
图2所示为点位1原始数据经过数据预处理部分筛选后的数据分布图,可以看到由于数据预处理部分目的为删除错误数据,因此去除了尾气排放测量值异常偏高的数据。
图3的(a)所示为异常值判定时使用的孤立森林算法的原理,当递归取数据中点将数据一分为二并建立二叉树时,可见异常数据由于节点深度低,因而可以被划分出来。图3的(b)所示为设定约有1%数据异常时,在点位1校准放缩后的数据上运行孤立森林算法后得到的结果。运行该算法后,仅取位于校准线上方的数据点进行进一步处理。
图4的(a)所示为异常值判定时使用的DBSCAN聚类算法的原理,当按照预先设定的邻域半径e、成为核心对象所需数据点最小数量MinPts进行密度聚类时,与其他数据点距离过远的数据点将被划分到不同的簇内或被判定为边缘点。图4的(b)所示为设定邻域半径e为50、成为核心对象所需数据点最小数量MinPts为5时,在点位3校准放缩后的数据上运行DBSCAN聚类算法后得到的结果。运行该算法后,取不属于数量最多的簇的数据点和边缘点进行进一步处理。
图5所示为使用点位1的原始数据,经过完整的数据处理与分析流程后得到的结果图,点位1原始数据共129855条,经过数据预处理后柴油车数据为16992条,经过数据修正与超标判定后输出尾气排放超标车辆数据40条,符合大部分车辆排放均正常,少部分车辆排放异常的现实状况。
综上所述,本发明实施例将机动车尾气遥感检测数据的处理与分析流程分为数据预处理、数据修正与超标判定两部分。数据预处理部分旨在删除错误数据,首先,将数据按照国家标准进行筛选;随后,使用差分法对尾气排放数据进行修正;接着,将数据分为柴油车数据与汽油车数据并依据正态分布下的拉依达准则删除区间外的数据;数据校准与超标判定部分旨在平衡设备之间的误差并判定出排放超标车辆,首先,计算每小时的测量基准水平并根据第1个时间段的测量基准水平将数据进行校准,将各时间段数据校准至同一测量基准水平;随后,计算每小时的测量基准幅度并根据第1个时间段的测量基准幅度将数据进行放缩,将各时间段数据放缩至同一测量基准幅度;接着,使用两种无监督机器学习算法判定异常点并进行标记;最后,使用一预设定阈值对标记数据进行判定,得到最终的尾气排放超标车辆数据。本发明结合现有研究中关于设备误差调整和超标车辆判定的方法,提出了一套针对机动车尾气遥感检测数据的处理与分析流程,能够合理、有效地利用原始数据,根据上述流程实现尾气排放超标车辆的自动化判定。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种机动车尾气遥感检测数据的处理与分析方法,其特征在于,包括:
根据机动车尾气遥感检测数据,筛选初始机动车集合;其中,所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据,用于针对不同类型车辆的排放数据进行处理与分析;
通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;
根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;
考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,其中,所述异常点并集用于初步判定排放超标车辆;
结合无监督机器学习算法和预设的阈值对异常点并集数据进行进一步判定,确定最终的排放超标机动车信息。
2.根据权利要求1所述的一种机动车尾气遥感检测数据的处理与分析方法,其特征在于,所述通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值,包括:
对前车通过后,因排放气体仍未完全扩散导致的后车尾气排放测量值存在的误差进行修正,其中,误差修正的公式为:
ytrue=yo-aXe-(t+f)×ypre
其中,ytrue为后车尾气排放真实值;yo为后车尾气排放测量值;ypre为前车通过后存留的尾气值;a为修正系数;t为前后车之间的车头时距;f为测量时的风速。
3.根据权利要求1所述的一种机动车尾气遥感检测数据的处理与分析方法,其特征在于,所述考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平,包括:
以1小时为时间跨度划分时间段,选取每1小时内以测量数据中位数为基准线的上下各25%数据,共计50%数据,计算所述时间跨度划分时间段的测量基准水平;
以第1个时间段的测量基准水平为标线,将各时间段的测量基准水平对齐至所述标线;
根据对齐后的各时间段测量基准水平,将所有数据进行校准。
4.根据权利要求1所述的一种机动车尾气遥感检测数据的处理与分析方法,其特征在于,所述考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度,包括:
以1小时为时间跨度划分时间段,选取每1小时内测量数据的85%分位数,作为时间跨度划分时间段的测量基准幅度;
以第1个时间段的测量基准幅度为标准,计算各时间段数据的放缩比例;
根据计算得到的数据放缩比例,将所有数据进行放缩。
5.根据权利要求1所述的一种机动车尾气遥感检测数据的处理与分析方法,其特征在于,所述使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,包括:
根据预设定超参数,使用孤立森林算法判定测量数据中存在的异常点;
根据预设定超参数,使用DBSCAN聚类算法划分测量数据中存在的异常点;
根据两种无监督机器学习算法的训练结果,选取两种算法均认定为异常点的数据进行标记。
6.根据权利要求1所述的一种机动车尾气遥感检测数据的处理与分析方法,其特征在于,所述预设的阈值为第1个时间段的测量基准幅度的倍数。
7.一种机动车尾气遥感检测数据的处理与分析装置,其特征在于,包括:
第一模块,用于根据机动车尾气遥感检测数据,筛选初始机动车集合;其中,所述机动车尾气遥感检测数据划分为柴油车数据和汽油车数据;
第二模块,用于通过差分法对所述机动车尾气遥感检测数据进行测量值修正,得到修正后的尾气排放测量值;
第三模块,用于根据尾气排放测量值呈正态分布的特征,使用正态分布下拉依达准则删除区间外数据;
第四模块,用于考虑测量设备不同时间段测量基准水平的偏移,将测量数据校准至同一测量基准水平;
第五模块,用于考虑测量设备不同时间段测量基准幅度的变化,将测量数据放缩至同一测量基准幅度;
第六模块,用于根据所述尾气排放测量值的分布特征选择超参数,分别使用两种无监督机器学习算法划分异常点后,标记两种无监督机器学习算法的异常点并集,其中,所述异常点并集用于初步判定排放超标车辆;
第七模块,用于结合无监督机器学习算法和预设的阈值对异常点并集数据进行进一步判定,确定最终的排放超标机动车信息。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210310608.9A CN114692749B (zh) | 2022-03-28 | 2022-03-28 | 一种机动车尾气遥感检测数据的处理与分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210310608.9A CN114692749B (zh) | 2022-03-28 | 2022-03-28 | 一种机动车尾气遥感检测数据的处理与分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114692749A CN114692749A (zh) | 2022-07-01 |
CN114692749B true CN114692749B (zh) | 2024-04-19 |
Family
ID=82140384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210310608.9A Active CN114692749B (zh) | 2022-03-28 | 2022-03-28 | 一种机动车尾气遥感检测数据的处理与分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692749B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845371A (zh) * | 2016-12-31 | 2017-06-13 | 中国科学技术大学 | 一种城市路网机动车尾气排放遥感监控系统 |
CN110243762A (zh) * | 2019-06-18 | 2019-09-17 | 深圳大雷汽车检测股份有限公司 | 机动车尾气遥测和监管系统及自学习高排污车辆判定算法 |
CN113358588A (zh) * | 2021-05-31 | 2021-09-07 | 河南省计量科学研究院 | 一种机动车尾气遥感监测装置在线双模校准检测方法及装备 |
WO2021184727A1 (zh) * | 2020-03-19 | 2021-09-23 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-28 CN CN202210310608.9A patent/CN114692749B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845371A (zh) * | 2016-12-31 | 2017-06-13 | 中国科学技术大学 | 一种城市路网机动车尾气排放遥感监控系统 |
CN110243762A (zh) * | 2019-06-18 | 2019-09-17 | 深圳大雷汽车检测股份有限公司 | 机动车尾气遥测和监管系统及自学习高排污车辆判定算法 |
WO2021184727A1 (zh) * | 2020-03-19 | 2021-09-23 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
CN113358588A (zh) * | 2021-05-31 | 2021-09-07 | 河南省计量科学研究院 | 一种机动车尾气遥感监测装置在线双模校准检测方法及装备 |
Non-Patent Citations (1)
Title |
---|
汽车遥感检测技术原理及应用;毛俊豪;何晓云;吴砚;张细雄;;轻工科技;20190531(第05期);第105-106 页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114692749A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Development of the typical driving cycle for buses in Hanoi, Vietnam | |
CN110532250B (zh) | 交规数据的处理方法及装置 | |
CN110672144B (zh) | 污染源检测方法和装置 | |
CN113435471A (zh) | 深度特征聚类的高排放移动源污染识别方法及系统 | |
Lindau et al. | The joint influence of break and noise variance on the break detection capability in time series homogenization | |
CN112052619A (zh) | 空气污染粒子信息的优化方法、装置及电子设备 | |
CN114692749B (zh) | 一种机动车尾气遥感检测数据的处理与分析方法 | |
CN112632862B (zh) | 风场稳定性的确定方法、装置、电子设备及存储介质 | |
CN111678991B (zh) | 一种用于混凝土结构无损检测损伤识别的方法 | |
CN113128797A (zh) | 业务指标异常监测方法及装置 | |
CN112241853B (zh) | 一种区域间空气质量影响的评估方法及评估装置 | |
CN115222145A (zh) | 基于新能源汽车运行大数据的续驶里程预测方法及系统 | |
CN114677052A (zh) | 基于tarch模型的天然气负荷波动非对称性分析方法及系统 | |
CN111222678B (zh) | 路面技术状况预测方法 | |
CN112749998A (zh) | 收入信息输出方法、装置、电子设备及计算机存储介质 | |
CN117235434B (zh) | 林业碳汇项目基线构建方法、系统、终端及介质 | |
CN115795229B (zh) | 一种适用于水相关生态系统服务反馈回路的量化研究方法 | |
CN115795236A (zh) | 一种机动车尾气遥测漂移数据处理方法 | |
Cetin et al. | Reidentification of trucks on basis of axle-spacing measurements to facilitate analysis of weigh-in-motion accuracy | |
CN116776645B (zh) | 基于小波分析的环境空气监测站布点方法及系统 | |
CN111695595B (zh) | 一种轨道衡的异常数据识别方法及装置 | |
CN117114502A (zh) | 空气质量反弹情况预测方法、终端及存储介质 | |
CN111553522B (zh) | 基于供应链追溯体系的小麦生产优化方法及装置 | |
CN117408520B (zh) | 一种数据服务智能识别方法及系统 | |
Siabil et al. | Computational Technique for Detecting Errors in Network-Level Pavement Condition Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |