CN108133295B

CN108133295B - 一种针对目标路段的机动车尾气浓度连续时间预测方法

Info

Publication number: CN108133295B
Application number: CN201810027931.9A
Authority: CN
Inventors: 杨钰潇; 李泽瑞; 杜晓冬; 吕文君
Original assignee: Anhui Yousi Tiancheng Intelligent Technology Co ltd
Current assignee: Anhui Yousi Tiancheng Intelligent Technology Co ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2020-07-07
Anticipated expiration: 2038-01-11
Also published as: CN108133295A

Abstract

本发明公开了一种针对目标路段的机动车尾气浓度连续时间预测方法，通过构造eRCNN神经网络模型，以包含连续路段时空尾气浓度数据的矩阵作为网络的输入，用卷积层自然地捕获附近路段之间的尾气浓度的复杂交互性，而无需详细的表征，同时引入误差反馈循环层来感知污染物浓度突然变动引起的预测误差，此外还极大程度上利用、整合了历史观测数据之间的关系，提高了预测精度与效率，同时具有较强的泛化能力，具有一定的社会价值和现实意义。

Description

一种针对目标路段的机动车尾气浓度连续时间预测方法

技术领域

本发明属于环境监测技术领域，涉及一种机动车尾气浓度预测方法，具体是一种针对目标路段的机动车尾气浓度连续时间预测方法。

背景技术

随着社会发展和城市进步，近年来，城市区域中机动车数量持续增加，诸多社会问题随之产生，如城市交通拥堵现象严重、交通事故增多、机动车尾气污染、酒驾等。在北京、上海、广州等大城市，机动车已成为排放一氧化碳、氮氧化物、碳氢化合物等污染物的第一大污染源。由于汽车废气的排放主要在0.3米至2米之间，正好是人体的呼吸范围，对人体的健康损害非常严重——刺激呼吸道，使呼吸系统的免疫力下降，导致暴露人群慢性气管炎、支气管炎及呼吸困难的发病率升高、肺功能下降等一系列症状。尾气中所含的强致癌物质——苯类物质，会引发肺癌、甲状腺癌等。

为了改善这些机动车尾气产生的社会问题，及时准确地了解城市道路中机动车尾气的排放情况，建立适用于城市区域机动车尾气浓度预测模型，可以实现对城市路网各路段尾气排放的实时预测和趋势估计，为制定城市移动源大气污染物排放的监管提供决策依据。当某区域的有害气体成分浓度达到一定污染值时，平台可以向政府决策部门发出限号、分流、限行等建议，从而可减少由于在路机动车引起的空气污染。

而现有的污染物浓度预测方法，只是从污染物本身的角度出发，主观选择可能的影响因素进行物理建模，预测效果不理想。

发明内容

本发明针对现有技术的不足，提供了一种针对目标路段的机动车尾气浓度连续时间预测方法，构建eRCNN神经网络模型，利用城市中各路段的位置关系及其尾气污染物的各时刻历史浓度值，预测出目标路段下一时刻的尾气污染物浓度，提高了预测精度与效率。

本发明的目的可以通过以下技术方案实现：

一种针对目标路段的机动车尾气浓度连续时间预测方法，具体包括以下步骤：

步骤S1，采集城市目标路段附近指定周期内的机动车尾气浓度数据；

步骤S2，对步骤S1所采集的机动车尾气浓度数据进行数据预处理。

步骤S3，构造eRCNN神经网络模型；

步骤S4，根据步骤S2预处理后的机动车尾气浓度数据，构造eRCNN神经网络的训练数据集和测试数据集；

步骤S5，将步骤S4中的训练数据集送入步骤S3中构造的eRCNN神经网络模型中，进行参数训练、预训练以及微调，逐步提高预测精度。

步骤S6，将经过步骤S5中训练、测试后的eRCNN神经网络作为针对目标路段的机动车尾气浓度连续时间预测模型，经过模型对输入数据的自主学习，预测出目标路段的机动车尾气浓度的发展趋势以及未来某时刻的尾气浓度值。

进一步地，所述步骤S1中机动车尾气浓度数据的采集方法具体包括：

步骤S11，首先确定需要采集机动车尾气浓度数据的路段，包括预测的目标路段S以及其上下游的2m个路段。

步骤S12，收集一个月中25个工作日每5分钟的上述路段的城市机动车尾气浓度数据，构造时空输入矩阵X

其中，x_s，t表示目标路段S在t时刻的机动车尾气浓度，是需要预测目标，列向量x_：t包含了在同一时刻t，目标路段S及其上下游各m个路段的机动车尾气浓度；行向量包含了对同一目标路段S，从t时刻到t之前n个时刻的机动车尾气浓度。按这种方式，输入矩阵X包含空间和时间上与预测目标x_s，t相邻的所有机动车尾气浓度信息。

进一步地，所述步骤S2中的数据预处理具体包括两个方面：

A、缺失值填补：对于部分缺失的数据，采用缺失数据栅格区域的前d个与后d个尾气排放数据取平均值的方法进行填补，从而保证数据的完备性和充足性，保证预测结果的准确性和可信度，本发明实施例d取值30。

B、归一化处理：所谓归一化处理，就是将数据映射到[0,1]或[-1,1]区间或更小的区间，保证不同数据范围的输入数据发挥相同的作用。本发明中以路段为单位，对该路段所有时刻的数据按下式进行归一化处理：

其中x′_i,j是第i个路段在j时刻归一化后的数据，x_i,j是第i个路段在j时刻的原始数据，x_i,max和x_i,min分别是第i个路段所有时刻的数据中的最大值和最小值。

进一步地，所述eRCNN神经网络包括卷积层、池化层、误差反馈循环层和输出层四层结构。

进一步地，所述卷积层连接时空输入矩阵和若干可训练的滤波器，每个滤波器都是i*i的权重矩阵，第k个滤波器为

卷积层用第k个滤波器锯齿扫描时空输入矩阵，计算卷积神经元矩阵，第k个滤波器得到的卷积神经元矩阵的元素(p,q)的计算公式为：

式中，b_k是第k个过滤器的偏置量。

进一步地，所述池化层采用均值下降采样法对卷积神经元矩阵降维，将卷积神经元矩阵分为j*j个不相交的区域，用各区域的均值代表其中卷积神经元的特征，池化后的时空矩阵维度维数降为原来的1/(j*j)，通过向量化池化后的卷积神经元矩阵，输出一个特征向量。

进一步地，所述误差反馈循环层包括常规循环层神经元和误差反馈神经元，其中常规循环层神经元的输入是池化层输出的特征向量p、以及前一时间步的误差反馈循环层的向量值，

式中

是第k个常规循环层神经元的连接权重向量，

r(t-1)是t-1步的误差反馈循环层神经元向量，

是

r(t-1)对应的权重向量，

是第k个常规循环层神经元的偏置量；

第k个误差反馈循环神经元在t预测步的值定义为：

式中

是第k个误差反馈循环神经元要训练的权重，向量

e(t-1)是预测误差向量，

是第k个误差反馈循环层神经元的偏置量；

其中，e(t)＝[y(t-1)-o(t-1)，...，y(t-l)-o(t-l)]

式中y(t-1)是第t-l步的实际尾气污染物浓度，o(t-l)是第t-l步的预测值；

误差反馈循环层的输出是常规循环层神经元和误差反馈循环层神经元的组合：

r＝[r^(R)；r^(E)]。

进一步地，所述误差反馈层的输出神经元r作为一个输出层的输入，输出层产生最终的预测值为：

o＝σ(w^(OR)r^(R)+w^(OE)r^(E)+b^(O))

所述输出层采用改进的ReLU函数作为激活函数：

进一步地，所述步骤S5中的参数训练通过小批量随机梯度下降法实现，对于一个路段，参数训练的目标是使所有训练样本的平方误差最小，即Loss函数为：

在小批量随机梯度下降法中，将训练样本分为几个小批量，对于一个小批量，计算相对于所有参数的L的偏导数，然后使用以下等式更新参数：

其中α是一可调整的学习速率，L到参数的偏导数通过误差反向传播算法来计算；

对eRCNN模型进行预训练，首先用基于Pearson相关系数的聚类算法，皮尔森相关系数公式如下：

式中，ρ(s_i，s_j)表示路段s_i和路段s_j的Pearson相关系数，

S_i表示路段s_i的各属性值组成的向量，S_j同理，Cov(S_i，S_j)表示S_i和S_j的协方差，Var(S_i)表示向量S_i的方差，Var(S_j)同理；

设定Pearson相关系数的阈值为0.6，然后将位置上相邻且Pearson相关系数大于阈值的路段聚在一起，同一集合中各路段的机动车尾气浓度数据共享，共同训练出一个eRCNN模型；

使用预训练模型的参数作为参数的初始值，在预训练的模型基础上，用某路段给定时间段的尾气浓度数据微调参数。

本发明的有益效果：本发明提出针对目标路段的机动车尾气浓度连续时间预测方法，通过构造eRCNN神经网络模型，以包含连续路段时空尾气浓度数据的矩阵作为网络的输入，用卷积层自然地捕获附近路段之间的尾气浓度的复杂交互性，而无需详细的表征，同时引入误差反馈循环层来感知污染物浓度突然变动引起的预测误差，此外还极大程度上利用、整合了历史观测数据之间的关系，提高了预测精度与效率，同时具有较强的泛化能力，具有一定的社会价值和现实意义。

附图说明

图1为本发明的方法流程图。

图2为本发明eRCNN神经网络的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种针对目标路段的机动车尾气浓度连续时间预测方法，具体包括以下步骤：

步骤S1，采集城市目标路段附近指定周期内的机动车尾气浓度数据。

其中，步骤S1中机动车尾气浓度数据的采集方法具体包括：

步骤S12，收集一个月中25个工作日每5分钟的上述路段的城市机动车尾气浓度数据，构造时空输入矩阵X，上述数据收集的时间和频率为优选值，可根据实际情况调整。

其中，步骤S2中的数据预处理具体包括两个方面：

其中x_i′_,j是第i个路段在j时刻归一化后的数据，x_i,j是第i个路段在j时刻的原始数据，x_i,max和x_i,min分别是第i个路段所有时刻的数据中的最大值和最小值。

步骤S3，构造eRCNN神经网络模型。

其中，如图2所示，eRCNN神经网络包括卷积层、池化层、误差反馈循环层和输出层四层结构。

其中，卷积层连接时空输入矩阵和若干可训练的滤波器，每个滤波器都是i*i的权重矩阵，第k个滤波器为W_k ^(c)，卷积层用第k个滤波器锯齿扫描时空输入矩阵，计算卷积神经元矩阵。本发明中采用6个3*3的滤波器，第k个滤波器得到的卷积神经元矩阵的元素(p,q)的计算公式为：

式中，b_k是第k个过滤器的偏置量。

池化层采用均值下降采样法对卷积神经元矩阵降维。在本发明提出的eRCNN模型中，池化层将卷积神经元矩阵分为j*j个不相交的区域，用各区域的均值代表其中卷积神经元的特征，池化后的时空矩阵维度维数降为原来的1/(j*j)，通过向量化池化后的卷积神经元矩阵，输出一个特征向量。

误差反馈循环层：机动车尾气浓度数据的一个重要特征是在短时间内的突然变化，例如，早晚高峰发生交通拥堵时，而当追尾事故发生后，造成的交通拥堵会使尾气浓度增加；夜间渣土运输车等大型柴油车辆连续行驶过某路段时，也会造成短时机动车尾气浓度大幅上升。一般来说，使用传统的神经网络结构，很难预测这些突然状况下尾气浓度的变化。于是，本发明引入了一个误差反馈循环层来改善上述情况下模型的预测性能。

在误差反馈循环层，包括常规循环层神经元和误差反馈循环神经元，其中常规循环层神经元的输入是池化层输出的特征向量p、以及前一时间步的误差反馈循环层的向量值，

式中

是第k个常规循环层神经元的连接权重向量，

r(t-1)是t-1步的误差反馈循环层神经元向量，

是

r(t-1)对应的权重向量，

是第k个常规循环层神经元的偏置量；

第k个误差反馈循环神经元在t预测步的值定义为：

式中

是第k个误差反馈循环神经元要训练的权重，向量

e(t-1)是预测误差向量，

是第k个误差反馈循环层神经元的偏置量；

其中，e(t)＝[y(t-1)-o(t-1)，...，y(t-l)-o(t-l)]

式中y(t-l)是第t-l步的实际尾气污染物浓度，o(t-l)是第t-l步的预测值；

r＝[r^(R)；r^(E)]。

输出层：考虑到误差反馈层的输出神经元r作为一个输出层的输入，输出层产生最终的预测值为：

o＝σ(w^(OR)r^(R)+w^(OE)r^(E)+b^(O))

在输出层，我们采用一种改进的ReLU(整流线性单元)函数作为激活函数：

步骤S4，根据步骤S2预处理后的机动车尾气浓度数据，构造eRCNN神经网络的训练数据集和测试数据集。

将数据预处理后的机动车尾气浓度数据分为训练数据集和测试数据集两个数据集，分别用于之后eRCNN神经网络模型的训练和测试。本发明将收集的前20个工作日的数据用作训练数据集，剩余的5个工作日的数据作为测试数据集。

其中，参数训练通过小批量随机梯度下降法(SGD)实现，对于一个路段，参数训练的目标是使所有训练样本的平方误差最小，即Loss函数为：

在小批量SGD中，将训练数据集分为几个小批量(mini-batches)，对于一个小批量，我们计算相对于所有参数的L的偏导数，然后使用以下等式更新参数：

其中α是一可调整的学习速率，L到参数的偏导数通过误差反向传播(BP)算法来计算。本发明中学习速率α取0.001，权重衰减取0.0005，mini-batches大小为32，反向传播的时间步长为20时间步，即每20K次迭代后学习速率除以10。

预训练：由于不同的路段可能具有不同的尾气浓度的变化模式(车辆、天气、建筑等原因)，因此，我们需要为每个路段训练特殊的模型参数。然而在实际情况下，特定段的训练数据是有限的。如果训练数据不足，则eRCNN模型可能会遇到过拟合问题。为避免这一问题，本发明对eRCNN模型进行预训练，首先用基于Pearson相关系数的聚类算法，皮尔森相关系数公式如下：

式中，ρ(s_i，s_j)表示路段s_i和路段S_j的Pearson相关系数，S_i表示路段s_i的各属性值组成的向量，S_j同理，Cov(S_i，S_j)表示S_i和S_j的协方差，Var(S_i)表示向量S_i的方差，Var(S_j)同理。

根据统计学相关原理，设定Pearson相关系数的阈值为0.6，然后将位置上相邻且Pearson相关系数大于阈值的路段聚在一起，同一集合中各路段的机动车尾气浓度数据共享，共同训练出一个eRCNN模型。

微调：使用预训练模型的参数作为参数的初始值，利用局部时空数据进一步微调每个段的eRCNN模型。具体来说，将一天的24小时分为七个时间范围:[0:00,6:00]，[6:00,9:00]，[9:00,12:00]，[12:00,15:00]，[15:00,18:00]，[18:00,21:00]，[21:00,0:00]。在预训练的模型基础上，我们用某路段给定时间段的尾气浓度数据微调参数，提高预测精度。

步骤S6，将经过步骤S5中训练、测试后的eRCNN神经网络作为针对目标路段的机动车尾气浓度连续时间预测模型，经过模型对输入数据的自主学习，可预测出目标路段的机动车尾气浓度的发展趋势以及未来某时刻的尾气浓度值。

本发明提出针对目标路段的机动车尾气浓度连续时间预测方法，通过构造eRCNN神经网络模型，以包含连续路段时空尾气浓度数据的矩阵作为网络的输入，用卷积层自然地捕获附近路段之间的尾气浓度的复杂交互性，而无需详细的表征，同时引入误差反馈循环层来感知污染物浓度突然变动引起的预测误差，此外还极大程度上利用、整合了历史观测数据之间的关系，提高了预测精度与效率，同时具有较强的泛化能力，具有一定的社会价值和现实意义。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种针对目标路段的机动车尾气浓度连续时间预测方法，其特征在于，具体包括以下步骤：

所述步骤S1中机动车尾气浓度数据的采集方法具体包括：

步骤S11，首先确定需要采集机动车尾气浓度数据的路段，包括预测的目标路段S以及其上下游的2m个路段；

步骤S12，收集一个月中若干个工作日每指定时间段的上述路段的城市机动车尾气浓度数据，构造时空输入矩阵X；

其中，x_s，t表示目标路段S在t时刻的机动车尾气浓度，是需要预测目标，列向量x_：t包含了在同一时刻t，目标路段S及其上下游各m个路段的机动车尾气浓度；行向量包含了对同一目标路段S，从t时刻到t之前n个时刻的机动车尾气浓度；按这种方式，输入矩阵X包含空间和时间上与预测目标x_s，t相邻的所有机动车尾气浓度信息；

步骤S2，对步骤S1所采集的机动车尾气浓度数据进行数据预处理；

所述步骤S2中的数据预处理具体包括两个方面：

A、缺失值填补：对于部分缺失的数据，采用缺失数据栅格区域时间上的前d个与后d个尾气排放数据取平均值的方法进行填补；

B、归一化处理：所谓归一化处理，就是将数据映射到[0,1]或[-1,1]区间或更小的区间，以路段为单位，对该路段所有时刻的数据按下式进行归一化处理：