CN113269348A

CN113269348A - 一种基于机器学习的机动车尾气浓度预测方法及系统

Info

Publication number: CN113269348A
Application number: CN202110382766.0A
Authority: CN
Inventors: 王焕钦; 夏王进; 王程鹏; 虞发军; 李勇; 程硕; 洪锐; 丁文科
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-08-17
Anticipated expiration: 2041-04-09
Also published as: CN113269348B

Abstract

本发明的一种基于机器学习的机动车尾气浓度预测方法及系统，包括以下步骤，S1、将车辆尾气数据从相应数据库中导入到excel或者csv文件，并对数据进行预处理，得到预处理后的尾气数据；S2、构建模型框架，结合机器学习中的神经网络和支持向量回归两种方法，采用多模型融合方法，融合两种模型进行尾气浓度反演；S3、利用预处理好的尾气数据，训练尾气浓度反演融合模型，神经网络部分用来记忆深层次尾气数据，支持向量回归用来反演尾气浓度；S4、利用训练好的尾气浓度反演融合模型，输入车辆尾气数据进行尾气浓度预测。本发明检测精度高，易普及；多重特征处理，准确度高：原始数据经过神经网络和支持向量回归两个模型，两次特征处理，能够提升准确度。

Description

一种基于机器学习的机动车尾气浓度预测方法及系统

技术领域

本发明涉及环境测量检测技术领域，具体涉及一种基于机器学习的机动车尾气浓度预测方法及系统。

背景技术

随着交通运输技术的发展给人类生活带来了诸多便利，但也带来了威胁人类健康的尾气污染。尤其机动车样式多、分布广和流动快的特点更是加剧了环境的污染，不仅对环境造成了不良影响还严重危害了人体健康。所以对不同环境及驾驶条件下的车辆尾气浓度进行检测是提高空气质量的关键问题。但是，目前对于尾气浓度反演的方法仍然存在诸多问题，成本高、没有普适性以及检测精度低等缺点，具体如下：

车载尾气检测设备法：通过每辆机动车车载尾气检测设备的方法实时检测尾气排放，这种方法虽然有效但是实际意义不大，不可能为每辆车装载一个尾气检测设备，成本高，不具有普适性；

普通遥感检测法：普通遥感检测法针对现实实际排放物进行遥感估计与预测，受实际环境影响大，对低浓度排放物不敏感，检测精度低；

普通预测排放方法：利用单一机器学习模型处理车辆尾气数据并预测，近年来这种方法取得较大突破，但单一模型仍然存在缺陷，体量大的模型导致模型参数过多难以优化，体量小的模型存在预测效果不好的缺点。

发明内容

本发明提出的一种基于机器学习的机动车尾气浓度预测方法及系统，可以有效克服成本高的缺点，具有普适性，检测精度高。

为实现上述目的，本发明采用了以下技术方案：

一种基于机器学习的机动车尾气浓度预测方法，包括以下步骤，

S1、将车辆尾气数据从相应数据库中导入到excel或者csv文件，并对数据进行预处理，得到预处理后的尾气数据；

S2、构建模型框架，结合机器学习中的神经网络和支持向量回归两种方法，采用多模型融合方法，融合两种模型进行尾气浓度反演；

S3、利用预处理好的尾气数据，训练尾气浓度反演融合模型，神经网络部分用来记忆深层次尾气数据，支持向量回归用来反演尾气浓度；

S4、利用训练好的尾气浓度反演融合模型，输入车辆尾气数据进行尾气浓度预测。

进一步的，尾气浓度反演模型的建立步骤如下：

(1)确定模型的输入输出：尾气浓度反演融合模型输入为经过预处理之后的尾气数据中的影响显著的尾气特征，包括发动机冷却液温度、发动机转速、发动机燃油消耗以及发动机扭矩这些尾气数据特征；所述尾气浓度反演融合模型的输出为氮氧化物排放量；

(2)确定神经网络的结构：所述尾气浓度反演融合模型包含神经网络结构，采用神经网络结构提取车辆尾气数据深层信息，经过输入层，隐藏层这些多层次结构，通过每层之间的神经元进行加权、求和与转移传输给下一层的神经元，传输方向从输入层开始，沿着隐藏层一直向前，从而完成信息提取和记忆的过程；

(3)确定神经网络的激活函数：所述尾气浓度反演融合模型的神经网络结构中包含激活函数的选择，激活函数用来对每层神经元之间的加权求和值进行转移前的二次转换，防止神经网络的计算值朝着不可预料的方向发展，本模型中选区ReLU函数作为激活函数；

(4)确定支持向量回归的超参数：所述尾气浓度反演融合模型中包含尾气浓度预测部分即支持向量回归子模型，支持向量回归中包括超参数惩罚系数C和核函数的幅宽gamma；

(5)确定损失函数与优化方法：所述尾气浓度反演融合模型的损失函数为预测值与标准值的平均绝对误差，即

其中N 为训练样本的数量，loss为损失函数值，y_i为尾气反演预测浓度值，为尾气的实际浓度值，优化方法采取随机梯度下降，通过反方向传播最终优化模型；

(6)进行交叉验证：所述尾气浓度反演融合模型利用交叉验证来验证模型的性能，交叉验证是把原始数据进行分组，一部分作为训练集，另一部分作为验证集，首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型，以此来作为评价模型的性能指标。

进一步的，所述S1中的数据预处理包括缺失数据的填充、无效数据的清洗以及数据的标准化。

进一步的，所述确定神经网络的激活函数，激活函数ReLU的表达式为：f(x)＝max(0,x)，表示神经网络只传输大于零的值并引入了非线性。

进一步的，所述确定支持向量回归的超参数，惩罚系数C表示对模型的宽容度，C越高说明越不能容忍出现误差，容易过拟合；C越小，容易欠拟合，C过大或过小都会使模型泛化能力变差；gamm a参数隐含地决定了数据映射到新的特征空间后的分布，gamma 越大，支持向量越少，gamma值越小，支持向量越多，支持向量的个数影响训练与预测的速度。

进一步的，所述交叉验证即利用5折交叉验证的方法，将原始数据均分成5组，将每个子集拘束分别做一次验证集，其余4组子集数据作为训练集，得到5个模型，用这5个模型最终的验证集验证模型的性能。

进一步的，所述尾气浓度反演融合模型参数确定为超参数为惩罚系数C＝100，核函数的幅宽gamma＝0.01。

另一方面，本发明还公开一种基于机器学习的机动车尾气浓度预测系统，包括以下单元，

数据采集单元，用于获取车辆尾气数据；

数据处理单元，用于将车辆尾气数据从相应数据库中导入到excel 或者csv文件，并对数据进行预处理，得到预处理后的尾气数据；

预测模型构建单元，用于构建模型框架，结合机器学习中的神经网络和支持向量回归两种方法，采用多模型融合方法，融合两种模型进行尾气浓度反演；

模型训练单元，用于利用预处理好的尾气数据，训练尾气浓度反演融合模型，神经网络部分用来记忆深层次尾气数据，支持向量回归用来反演尾气浓度；

尾气浓度预测单元，用于利用训练好的尾气浓度反演融合模型，输入车辆尾气数据进行尾气浓度预测。

由上述技术方案可知，与现有技术相比，本发明的基于机器学习的机动车尾气浓度预测方法具有以下有益效果：

1.检测精度高，易普及：传统检测方法消耗大量成本且不具有普适性；

2.多重特征处理，准确度高：原始数据经过神经网络和支持向量回归两个模型，两次特征处理，能够提升准确度；

3.具有结构创新性：采用多模型融合技术进行尾气反演，具有模型结构层面的创新性。

附图说明

图1是本发明的方法框图；

图2是神经网络模型示意图；

图3是两层融合模型示意图；

图4是反演算法效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例所述的基于机器学习的机动车尾气浓度预测方法，包括以下步骤：

第一步：将车辆尾气数据从相应数据库中导入到excel或者csv 文件，并对数据进行预处理，得到预处理后的尾气数据；

第二步，构建模型框架，结合机器学习中的神经网络和支持向量回归两种方法，采用多模型融合方法，融合两种模型进行尾气浓度反演；

第三步，利用预处理好的尾气数据，训练尾气浓度反演融合模型，神经网络部分用来记忆深层次尾气数据，支持向量回归用来反演尾气浓度；

所述尾气浓度反演模型的建立步骤如下：

(1)确定模型的输入输出：所述尾气浓度反演融合模型输入为经过预处理之后的尾气数据中的影响显著的尾气特征，包括发动机冷却液温度、发动机转速、发动机燃油消耗以及发动机扭矩等主要尾气数据特征；所述尾气浓度反演融合模型的输出主要为氮氧化物排放量；

(2)确定神经网络的结构：所述尾气浓度反演融合模型包含神经网络结构，采用神经网络结构提取车辆尾气数据深层信息，经过输入层，隐藏层等多层次结构，通过每层之间的神经元进行加权、求和与转移传输给下一层的神经元，传输方向从输入层开始，沿着隐藏层一直向前，从而完成信息提取和记忆的过程；

(3)确定神经网络的激活函数：所述尾气浓度反演融合模型的神经网络结构中包含激活函数的选择，激活函数用来对每层神经元之间的加权求和值进行转移前的二次转换，防止神经网络的计算值朝着不可预料的方向发展，本模型中选区ReLU函数作为激活函数，因为所有车辆数据不可能为负值，选取ReLU函数有效防止在神经元计算中一些无意义的计算结果的出现；

(4)确定支持向量回归的超参数：所述尾气浓度反演融合模型中包含尾气浓度预测部分即支持向量回归子模型，支持向量回归中有两个非常重要的超参数为惩罚系数C和核函数的幅宽gamma,本模型参数确定为C＝100，gamma＝0.01；

(5)确定损失函数与优化方法：所述尾气浓度反演融合模型在训练过程中，损失函数及其优化方法必不可少，本模型的损失函数为预测值与标准值的平均绝对误差，即

其中N为训练样本的数量，loss为损失函数值，yi为尾气反演预测浓度值，

为尾气的实际浓度值，优化方法采取随机梯度下降，通过反方向传播最终优化模型。

其中，所述第一步，数据预处理包括缺失数据的填充、无效数据的清洗以及数据的标准化；

所述第二步，利用多模型融合的方法将神经网络和支持向量回归联系起来，即利用神经网络提取数据的深层信息并记忆，并将提取到的深层特征输入到支持向量回归模型中进行预测；

所述确定神经网络的激活函数，激活函数ReLU的表达式为： f(x)＝max(0,x)，表示神经网络只传输大于零的值并引入了非线性；

所述确定支持向量回归的超参数，对支持向量回归来说，惩罚系数C表示对模型的宽容度，C越高说明越不能容忍出现误差，容易过拟合；C越小，容易欠拟合，C过大或过小都会使模型泛化能力变差； gamma参数隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多，支持向量的个数影响训练与预测的速度；

所述交叉验证，利用5折交叉验证的方法，将原始数据均分成5 组，将每个子集拘束分别做一次验证集，其余4组子集数据作为训练集，这样会得到5个模型，用这5个模型最终的验证集验证模型的性能，可以有效的避免模型过拟合，最后得到的结果具有说服性。

以下举例说明本发明：

1.在进行反演之前，需要从尾气数据库中导入部分数据，为了方便实施，本发明的数据是导入到csv文件中进行读取与处理；

2.对csv文件读取到的数据进行筛选；

3.对数据中每个特征与尾气排放进行相关性分析，选择几个相关性最高以及规定的部分特征进行数据降维，可以减少数据量与计算量；

4.对筛选后的数据进行数据标准化，防止不同特征的特征值量级不一样影响模型精度；

5.利用标准化之后的数据进行数据集划分，按照8:2的比例划分训练集和测试集，训练神经网络模型，神经网络模型的示意图如002所示；

6.将训练好的神经网络模型权重进行保存，舍去最后一层预测层，将预测层的输入链接到支持向量回归模型中，完成两层模型的融合，两层融合模型示意图如图3所示；

7.基于神经网络处理过的数据，同样进行数据集划分，训练支持向量回归模型；

8.最终得到训练后的神经网络和支持向量回归融合模型，将原始数据输入两层融合模型进行预测，结果如图4所示，展示了尾气浓度的反演效果。

数据采集单元，用于获取车辆尾气数据；

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于机器学习的机动车尾气浓度预测方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的基于机器学习的机动车尾气浓度预测方法，其特征在于：尾气浓度反演模型的建立步骤如下：

其中N为训练样本的数量，loss为损失函数值，y_i为尾气反演预测浓度值，为尾气的实际浓度值，优化方法采取随机梯度下降，通过反方向传播最终优化模型；

3.根据权利要求1所述的基于机器学习的机动车尾气浓度预测方法，其特征在于：所述S1中的数据预处理包括缺失数据的填充、无效数据的清洗以及数据的标准化。

4.根据权利要求2所述的基于机器学习的机动车尾气浓度预测方法，其特征在于：所述确定神经网络的激活函数，激活函数ReLU的表达式为：f(x)＝max(0,x)，表示神经网络只传输大于零的值并引入了非线性。

5.根据权利要求2所述的基于机器学习的机动车尾气浓度预测方法，其特征在于：所述确定支持向量回归的超参数，惩罚系数C表示对模型的宽容度，C越高说明越不能容忍出现误差，容易过拟合；C越小，容易欠拟合，C过大或过小都会使模型泛化能力变差；gamma参数隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多，支持向量的个数影响训练与预测的速度。

6.根据权利要求1所述的基于机器学习的机动车尾气浓度预测方法，其特征在于：所述交叉验证即利用5折交叉验证的方法，将原始数据均分成5组，将每个子集拘束分别做一次验证集，其余4组子集数据作为训练集，得到5个模型，用这5个模型最终的验证集验证模型的性能。

7.根据权利要求2所述的基于机器学习的机动车尾气浓度预测方法，其特征在于：所述尾气浓度反演融合模型参数确定为超参数为惩罚系数C＝100，核函数的幅宽gamma＝0.01。

8.一种基于机器学习的机动车尾气浓度预测系统，其特征在于：包括以下单元，

数据采集单元，用于获取车辆尾气数据；

数据处理单元，用于将车辆尾气数据从相应数据库中导入到excel或者csv文件，并对数据进行预处理，得到预处理后的尾气数据；