CN113222217A

CN113222217A - 基于离散排放标签的柴油车排放连续值预测方法及系统

Info

Publication number: CN113222217A
Application number: CN202110406754.7A
Authority: CN
Inventors: 康宇; 李婧; 曹洋; 许镇义; 夏秀山; 李兵兵
Original assignee: Anhui Ecological Environment Monitoring Center Anhui Heavy Pollution Weather Forecast And Early Warning Center; Institute of Advanced Technology University of Science and Technology of China
Current assignee: Anhui Ecological Environment Monitoring Center Anhui Heavy Pollution Weather Forecast And Early Warning Center; Institute of Advanced Technology University of Science and Technology of China
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-08-06
Anticipated expiration: 2041-04-15
Also published as: CN113222217B

Abstract

本发明的一种基于离散排放标签的柴油车排放连续值预测方法及系统包括以下步骤，生成柴油车排放检测系统的样本数据，对样本数据进行预处理，并生成预处理数据；根据训练集样本数据构建无向图并得到边权重稀疏矩阵，利用标签获取算法，生成训练集中无标签样本的设定标签；根据连续值预测方法估计系统参数及相关阈值，基于结果计算柴油车CO、HC或NO的排放值及判定柴油车排放等级。本发明是首次基于离散排放标签实现柴油车排放连续值预测的问题，并且能够同时实现对柴油车排放等级的评估，解决了标签不足的问题，大大节省了车辆检测机构的人力物力。

Description

基于离散排放标签的柴油车排放连续值预测方法及系统

技术领域

本发明涉及交通物流网络中尾气排放监测技术领域，具体涉及一种基于离散排放标签的柴油车排放连续值预测方法及系统。

背景技术

随着我国经济的飞速发展，人们的生活水平显著提高，机动车辆的普及和保有量持续增加，使得机动车排放污染成为大气污染的主要来源之一。其中，以柴油车为代表的移动污染源严重影响着空气质量，引起社会的广泛关注。针对这一情况，开展柴油车排放的监督检测以及排放等级评估具有十分重要的意义。

柴油车排放检测主要依据道路遥感监测设备的检测结果，当一辆柴油车通过遥感监测设备时，可以得到包含一氧化碳(CO)，碳氢化物(HC)，一氧化氮(NO)的浓度值等遥感检测数据。然而，遥感监测设备位置固定，难以获取柴油车在不同运行工况下的排放情况，且覆盖区域较小。除此之外，传统的柴油车排放标准则大都依据车辆检测机构的检测结果(即离线车检)判定是否为正常排放，消耗大量的人力和时间，且车辆接受离线车检的频率极低，难以获得所有在路柴油车辆近期在检测机构中的检测结果，多数在路柴油车为正常排放的可信度较低。

发明内容

本发明提出的一种基于离散排放标签的柴油车排放连续值预测方法及系统，能够有效的预测柴油车污染物排放情况，并判定其排放等级。

为实现上述目的，本发明采用了以下技术方案：

一种基于离散排放标签的柴油车排放连续值预测方法，包括以下步骤

生成柴油车排放检测系统的样本数据，对样本数据进行预处理，并生成预处理数据；

根据训练集样本数据构建无向图并得到边权重稀疏矩阵，利用标签获取算法，生成训练集中无标签样本的设定标签；

根据连续值预测方法估计系统参数及相关阈值，基于结果计算柴油车CO、HC或NO的排放值及判定柴油车排放等级。

进一步的，所述生成柴油车排放检测系统的样本数据，对样本数据进行预处理，并生成预处理数据具体包括，

根据便携式排放测量系统的获取到的信息，构建系统输入样本，包括：

柴油车自身特性：使用时间(UseYear)、车辆基重(BaseWeight)、车身长度(Length)；车辆运行情况：速度(Speed)、加速度(Acc)、比功率(VSP)；

环境因素：风速(WindSpeed)、温度(Temperature)、湿度(Humidity)、气压(Pressure)组成10维样本特征向量，记为

样本标签y∈{1,...,c}为离线车检的柴油车排放级别；

假设共有总的样本Ψ条，遵循7:3的准则分开训练集和测试集，记训练集样本数据有n条，测试集样本有Ω条，且有标签的数据全部归于训练集，记训练集中有标签的样本集为

其中，

y_i∈{1,...,c}为x_i对应的标签；无标签的样本集记作

其中，

训练集总的样本数量为n＝l+u，l为有标签样本的数量，u为无标签样本的数量。

进一步的，根据训练集样本数据构建无向图并得到边权重稀疏矩阵，利用标签获取算法，生成训练集中无标签样本的设定标签，具体包括，

通过标签获取方法，训练集中的无标签样本被赋予计算得到的标签，定义为“设定标签”，获取标签后的无标签样本均可作为有标签样本参与后续计算；

对于给定的训练样本集Xⁿ＝X^l∪X^u，利用每个顶点的邻域信息构建G＝(V,E)，样本点表示为无向图中的顶点，假设所有的邻域信息都是线性的，即每个顶点都能够利用其邻近顶点的线性组合实现最优构建，进而，无向图构建的目标更新为最小化如下公式：

其中，x_a,x_b∈Xⁿ，

表示x_a的邻域顶点集合，w_ab表示顶点x_b对顶点x_a的影响，进一步有约束

w_ab≥0，很明显，顶点x_b和顶点x_a越相似，w_ab越大，当

时，w_ad＝1,w_ab＝0,b≠d,

为最优解；

所以，w_ab用于测定顶点x_b与顶点x_a的相似程度，且w_ab≠w_ba，进而，推断出：

其中，

表示局部格拉姆矩阵(G^a)_bd＝(x_a-x_b)^T(x_a-x_b)为关于顶点x_a的第(b,d)项，通常(·)_bd即表示一个矩阵的第(b,d)项，因此，对应于每个样本的权值通过以下n个标准二次规划问题来求解：

计算完所有权值后，将得到一个稀疏矩阵(W)_ab＝w_ab，这个

即被视为G的权重矩阵；

根据上述构建的无向图G及W，将使用一个迭代过程来实现无标签样本设定标签的获取；

已知y∈{1,...,c}，定义

是非负实数n×c阶矩阵的集合，

是Yⁿ进行“one-hot”编码后得到的n×c阶矩阵，如果x_a的标签为j(1≤j≤c)，则

否则

对于无标签样本预设

定义任意矩阵

对应于样本集Xⁿ的标签，则样本点x_a的设定标签为y_a＝argmax_j≤cH_aj，因此，H也可以看作为获取样本点设定标签的函数，即H_a对应于x_a的标签获取结果；

在迭代中，每个样本点从其邻域“吸收”一部分标签信息，并保留其初始状态的一些标签信息，在t+1次迭代中x_a的标签为：

其中，0＜α＜1是x_a从它从邻域样本点“吸收”到的标签信息部分，

为t次迭代中的标签向量，

由此，上述迭代公式更新为：

进而，

由于

w_ab≥0，根据定理Perron-Frobenius，知道W的谱半径，ρ(W)≤1，且0＜α＜1，则，

其中I为n阶单位矩阵，显然，{H^t}收敛于H^*，

无标签数据的标签即可根据

得到；

此时无标签的样本集更新为有标签样本集

y_j∈{1,...,c}为利用上述方法获取的设定标签，则训练集所有的样本构成有标签样本集Xⁿ＝X^l∪X^u,Yⁿ＝Y^l∪Y^u。

进一步的，所述根据连续值预测方法估计系统参数及相关阈值，基于结果计算柴油车CO、HC或NO的排放值及判定柴油车排放等级，具体包括，

首先利用训练集数据建立预测模型，假设柴油车排放是样本输入数据即样本特征与随机噪声的线性组合：

其中，d,n为特征维度和样本个数，q_k为第k个样本的噪声，特征向量

包含便携式排放测量系统测得的第k个样本的信息，

为需要估计的模型参数，s_k为柴油车排放连续值结果，即反映第k个样本的排放值，θ为阈值，Z(·)为指示函数，当s_k≥θ时，值为2；当s_k＜θ时，值为1，y_k为模型输出，表示第k个要预测的样本的排放等级，y_k＝2表示该柴油车为高排放等级，y_k＝1表示为正常排放等级；

在已知训练集特征向量{x_k,k＝1,2,...,n}和柴油车排放等级{y_k,k＝1,2,...,n}的情况下，设计基于极大似然估计的参数估计迭代算法：

其中，

为模型参数在第r次迭代中的估计值，F(·)和f(·)分别为正态分布的分布函数和概率密度函数，O(·)为指示函数，当满足条件时，结果为1，否则为0；根据得到的模型参数估计值

即可计算测试集柴油车的排放值。

进一步的，还包括

在预测柴油车排放值的问题中，由于缺乏先验信息，阈值θ是未知的，因此，选择同时估计未知模型参数

和阈值θ，即实现

将阈值θ设置为模型参数的一个元素，

预测模型更新为：

参数估计算法更新为：

其中，

为增加阈值θ后模型参数在第r次迭代中的估计值，根据最终得到的参数估计值

确定模型参数

和阈值

即可根据

k＝1,2,...,Ω计算测试集柴油车样本数据对应的排放值。

另一方面，本发明的一种基于离散排放标签的柴油车排放连续值预测系统，还包括以下单元，

数据预处理单元，用于生成柴油车排放检测系统的样本数据，对样本数据进行预处理，并生成预处理数据；

设定标签生成单元，用于根据训练集样本数据构建无向图并得到边权重稀疏矩阵，利用标签获取算法，生成训练集中无标签样本的设定标签；

预测单元，用于根据连续值预测方法估计系统参数及相关阈值，基于结果计算柴油车CO、HC或NO的排放值及判定柴油车排放等级。

第三方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

由上述技术方案可知，本发明的基于离散排放标签的柴油车排放连续值预测方法及系统，是首次基于离散排放标签实现柴油车排放连续值预测的问题，并且能够同时实现对柴油车排放等级的评估，解决了标签不足的问题，大大节省了车辆检测机构的人力物力。

附图说明

图1为本发明构建方法的流程示意图；

图2为本发明系统框架图；

图3为本发明标签获取的流程图；

图4为本发明连续值预测的模型结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的基于离散排放标签的柴油车排放连续值预测方法，包括：

具体如下：

1、样本构建：

根据便携式排放测量系统的信息，构建系统输入样本，由柴油车自身特性：使用时间(UseYear)、车辆基重(BaseWeight)、车身长度(Length)，车辆运行情况：速度(Speed)、加速度(Acc)、比功率(VSP)与环境因素：风速(WindSpeed)、温度(Temperature)、湿度(Humidity)、气压(Pressure)组成10维样本特征向量，记为

样本标签y∈{1,...,c}为离线车检的柴油车排放级别，由于离线车检的频率较低，且距车检时间越远，检测结果越不可信，因此只有部分柴油车辆样本有对应的离散标签即近期离线车检结果。假设共有总的样本Ψ条，遵循7:3的准则分开训练集和测试集，记训练集样本数据有n条，测试集样本有Ω条，且有标签的数据全部归于训练集，记训练集中有标签的样本集为

其中，

y_i∈{1,...,c}为x_i对应的标签；无标签的样本集记作

其中，

2、基于图的标签获取：

通过标签获取方法，训练集中的无标签样本可以被赋予计算得到的标签，此处定义为“设定标签”，获取标签后的无标签样本均可作为有标签样本参与后续计算。

其中，x_a,x_b∈Xⁿ，

w_ab≥0，很明显，顶点x_b和顶点x_a越相似，w_ab越大，当

时，w_ad＝1,w_ab＝0,b≠d,

为最优解。所以，w_ab可以测定顶点x_b与顶点x_a的相似程度，另外需要注意的一点是w_ab≠w_ba。进而，可以推断出：

其中，

表示局部格拉姆矩阵(G^a)_bd＝(x_a-x_b)^T(x_a-x_b)为关于顶点x_a的第(b,d)项，通常(·)_bd即表示一个矩阵的第(b,d)项，因此，对应于每个样本的权值可以通过以下n个标准二次规划问题来求解：

计算完所有权值后，将得到一个稀疏矩阵(W)_ab＝w_ab，这个

即被视为G的权重矩阵。

根据上述构建的无向图G及W，将使用一个迭代过程来实现无标签样本设定标签的获取。已知y∈{1,...,c}，定义

是非负实数n×c阶矩阵的集合，

否则

对于无标签样本预设

(1≤j≤c)。定义任意矩阵

对应于样本集Xⁿ的标签，则样本点x_a的设定标签为y_a＝argmax_j≤cH_aj，因此，H也可以看作为获取样本点设定标签的函数，即H_a对应于x_a的标签获取结果。

为t次迭代中的标签向量，

由此，上述迭代公式更新为：

进而，

由于

w_ab≥0，根据定理Perron-Frobenius，可以知道W的谱半径，ρ(W)≤1，且0＜α＜1，则，

其中I为n阶单位矩阵，显然，{H^t}收敛于H^*，

无标签数据的标签即可根据

得到。

此时无标签的样本集更新为有标签样本集

3、连续值预测方法：

在训练样本集有标签的基础上，设计算法对测试集柴油车排放值进行预测，即预测CO、HC或NO等污染物排放值。在数据采集和处理过程中不可避免会出现一些误差，因此随机噪声的加入是必要的，根据中心极限定理，假设噪声服从正态分布，均值为0，方差为σ²。因此，首先利用训练集数据建立预测模型，假设柴油车排放是样本输入数据即样本特征与随机噪声的线性组合：

包含便携式排放测量系统测得的第k个样本的信息，

为需要估计的模型参数，s_k为柴油车排放连续值结果，即反映第k个样本的排放值，θ为阈值，Z(·)为指示函数，当s_k≥θ时，值为2；当s_k＜θ时，值为1。y_k为模型输出，表示第k个要预测的样本的排放等级，y_k＝2表示该柴油车为高排放等级，y_k＝1表示为正常排放等级。

其中，

为模型参数在第r次迭代中的估计值，F(·)和f(·)分别为正态分布的分布函数和概率密度函数，O(·)为指示函数，当满足条件时，结果为1，否则为0。根据得到的模型参数估计值

即可计算测试集柴油车的排放值：

在预测柴油车排放值的问题中，由于缺乏先验信息，阈值θ是未知的。因此，选择同时估计未知模型参数

和阈值θ，即实现

将阈值θ设置为模型参数的一个元素，

预测模型更新为：

参数估计算法更新为：

其中，

为增加阈值θ后模型参数在第r次迭代中的估计值。根据最终得到的参数估计值

可以确定模型参数

和阈值

即可根据

k＝1,2,...,Ω计算测试集柴油车样本数据对应的排放值。

以下，举例说明：

1、数据准备：

使用柴油车95辆，其中30辆有近期车辆检测机构的检测结果，包含高排放车12辆，正常排放车18辆，利用便携式排放测量系统对所有的柴油车进行排放检测，设置每辆车取用样本数据100条左右。由于在不同的运行工况下柴油车的排放情况具有明显差异，因此，为了保证样本数据的多样性，所选取50条数据应尽量代表不同运行状态下的排放检测结果。最终，共获得10823条样本，包括有车检结果(即有标签)的样本数据3179条，没有标签的样本数据7644条。将10823条样本按照7：3的规则分为训练集和测试集，并保证有标签数据全部属于训练集，此时训练集包含有标签数据3179条，无标签数据4397条。

2、数据预处理：

样本的每一个特征都具有特定的物理意义，且有着不同的数量级，为了避免数据形式对系统模型建立的影响，将所有样本的同一种特征进行归一化处理，将值归一化到[0,1]之间，完成所有10维特征值的归一化处理。除此之外，根据离线车检结果设置有标签数据的离散标签，其中高排放柴油车设置为2，正常排放柴油车设置为1。

3、标签获取：

利用标签获取方法，获取训练集中无标签样本的“设定标签”，根据每个顶点的邻域信息构建无向图G＝(V,E)，利用其邻近顶点的线性组合实现最优构建，最终得到边权重的稀疏矩阵W。

预设置训练集中无标签样本的标签为0，有标签样本的标签保持原值，在此基础上对训练集的标签向量进行“one-hot”编码，得到一个n×c阶的标签矩阵

定义矩阵

对应于训练样本集的标签，根据已得到的G和W，完成迭代过程来实现无标签样本设定标签的获取，在迭代中，每个样本点从其邻域“吸收”一部分标签信息，并保留其初始状态的一些标签信息。最终得到无标签样本数据所对应的设定标签

进而，

此时训练集中所有的样本均被设为有标签的样本数据Xⁿ＝X^l∪X^u,Yⁿ＝Y^l∪Y^u。

4、连续值预测：

按照阈值θ未知的预测模型构建方法，在特征向量的第11维增加全1列数据，此时样本特征更新为x_k＝[x_k1,x_k2,...,x_kd,-1]^T。首先在训练集中执行参数估计迭代算法，计算模型参数和阈值的估计值

和

之后根据参数估计结果计算柴油车对应测试集样本数据的运行工况下CO、HC或NO的排放值

k＝1,2,...,Ω。与此同时，根据CO、HC或NO的排放值和估计得到的阈值θ，最终得到柴油车的排放等级，即为高排放车辆还是正常排放情况。

由上可知，本发明的基于离散排放标签的柴油车排放连续值预测方法，能够有效的预测柴油车污染物排放情况，并判定其排放等级；本发明是首次基于离散排放标签实现柴油车排放连续值预测的问题，并且能够同时实现对柴油车排放等级的评估，解决了标签不足的问题，大大节省了车辆检测机构的人力物力。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于离散排放标签的柴油车排放连续值预测方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的基于离散排放标签的柴油车排放连续值预测方法，其特征在于：所述生成柴油车排放检测系统的样本数据，对样本数据进行预处理，并生成预处理数据具体包括，

柴油车自身特性：使用时间(UseYear)、车辆基重(BaseWeight)、车身长度(Length)；车辆运行情况：速度(Speed)、加速度(Acc)、比功率(VSP)；环境因素：风速(WindSpeed)、温度(Temperature)、湿度(Humidity)、气压(Pressure)组成10维样本特征向量，记为