CN112131986A

CN112131986A - 一种交通污染管控方法、系统及存储介质

Info

Publication number: CN112131986A
Application number: CN202010954090.3A
Authority: CN
Inventors: 康宇; 许镇义; 曹洋; 李泽瑞; 吕文君; 赵振怡; 刘斌琨; 裴丽红
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-25

Abstract

本发明的一种交通污染管控方法、系统及存储介质，包括以下步骤：获取原始尾气监测数据以及车流信息数据，并进行预处理；把处理好的数据输入事先设置好的交通污染管控模型，输出管控策略。所述交通污染管控模型的构建步骤如下：采集尾气监测数据并进行预处理；构建交通污染强化学习模型；设置交通污染管控模型策略算法并基于S201处理后的数据进行训练。本发明利用深度Q网络估计长期回报最优值函数以克服行动状态空间过大问题，并利用混合环境状态来构建尾气环境系统的时序依赖性，从而制定有效的交通限流限速策略以减轻交通污染。

Description

一种交通污染管控方法、系统及存储介质

技术领域

本发明涉及交通领域中城市交通污染管控技术领域，具体涉及一种交通污染管控方法、系统及存储介质。

背景技术

尾气排放中的一氧化碳(CO)，二氧化碳(CO₂)，碳氢化物(HC)，氮氧化物(NO_x)，以及固体颗粒物(PM2.5)等严重危害公众健康。随着机动车保有量的快速增长，使得城市空气污染日益加剧。因此，有必要研究交通污染管控方法为交通相关监管部门制定合理限流限速措施提供决策支持。

目前有关交通污染控制的研究工作主要可以分为基于模型反馈控制的交通污染控制方法和基于交通流模式特征管理的交通污染控制方法。基于模型反馈控制的方法需要构建宏观交通流模型和微观交通污染排放模型来设计控制器对实现交通网络污染控制。但是，宏观交通流模型和微观交通污染排放模型只是一种理想简化模型，并不能反映真实交通状况，由此设计的控制器也会存在较大的模型误差。基于交通流模式特征管理的交通污染控制方法主要是基于历史交通流信息设计交通管制策略，是一种离线策略存在滞后性。这为制定有效的交通限流限速策略造成巨大挑战。

发明内容

本发明提出的一种交通污染管控方法、系统及存储介质，利用深度Q网络估计长期回报最优值函数以克服行动状态空间过大问题，并设计混合环境状态来构建尾气环境系统的时序依赖性。

为实现上述目的，本发明采用了以下技术方案：

一种交通污染管控方法，包括：

S100、获取原始尾气监测数据以及车流信息数据，并进行预处理；

S200、把处理好的数据输入事先设置好的交通污染管控模型，输出管控策略。

进一步的，所述交通污染管控模型的构建步骤如下：

S201、采集尾气监测数据并进行预处理；

S202、构建交通污染强化学习模型；

S203、设置交通污染管控模型策略算法并基于S201处理后的数据进行训练。

进一步的，所述S100获取原始尾气监测数据以及车流信息数据，并进行预处理具体包括：

根据尾气遥测系统采集的原始尾气监测数据以及车流信息数据，进行归一化处理，将其处理成尾气环境状态数据用于生成尾气序列经历数据集，尾气序列是一段时间内的尾气污染物的状态序列；

根据燃料消耗，一氧化碳，碳氢化物，氮氧化物排放情况来评估交通污染程度，四种污染物排放分别归一化后的序列构成尾气序列，记作EF_t＝{Fuel_t,CO_t,HC_t,NOx_t}，Fuel_t,CO_t,HC_t,NOx_t分别对应t时刻当前尾气监测站点的燃料消耗、一氧化碳、碳氢化物、一氧化氮的排放；

每条移动源污染序列经历的时间跨度为24小时，每个状态时间间隔为1小时。

进一步的，所述S202构建交通污染强化学习模型具体包括，

S2021、定义交通智能体，交通智能体TA具有车流量tv和车流平均速度ts属性，其作为与尾气环境交互的主体；

S2022、结合强化学习概念，设计尾气环境行动状态空间；尾气环境状态定义为s_t＝(O_t-k，a_t-k，...，O_t-1，a_t-1，O_t，t)，其表示结合当前时间信息的观测和行动的交错序列，其中k是观测的滞后时间步长，

是对尾气环境状态和交通智能体状态的观测；

对于尾气环境状态，包含尾气当前排放量EF_t和上一时刻的尾气排放量

的观测；

对于交通智能体状态，包含对监测点位的当前车流量tv_o，t和当前车流平均速度ts_o，t的观测；

交通智能体的行动

表示采取车流限制和车速限制的向量；

采取行动a_t的即时奖励r_t定义为从状态s_t转移到S_t+1(t,t+1]时间段内尾气排放量和车流量的组合收益，记作 r_t＝G_I(EF_t-EF_t+1)+G_I(tv_t+1-tv_t)，收益示性函数G_I计算方式如下

交通智能体通过与尾气环境交互，获得尾气环境状态s_t，采取行动 a_t，获得回报r_t；

S2023、设计基于DQN的深度估值回报网络来估计最优长期回报值函数；深度估值回报网络输入为包含行动状态，尾气环境观测状态，交通智能体行动状态，时间信息的组合向量，然后连接全连接层提取行动-状态空间特征表示，实现累计回报值函数的估计；DQN采用三层全连接层网络结构[24,24,24]，并采用ReLU作为激活函数。

进一步的，所述S203设置交通污染管控模型策略算法并基于S201 处理后的数据进行训练具体包括：

(1)初始化尾气污染序列样本回访缓存D；

(2)随机初始化最优长期回报估计行动模型Q^*，将行动模型网络参数θ赋值给目标网络

模型参数θ^-；

(3)对于尾气序列经历EF(i)，(i＝1,…,N)和当前时间步t；

(4)以概率∈∈[0，1]随机选择一个行动a_t；

(5)否则根据模型选择当前最优行动a_t＝argmax Q^*(s_t，a，θ)；

(6)交通智能体采取行动a_t并转移到下一状态s_t+1以及获得即时回报r_t；

(7)将新样本(s_t，a_t，s_t+1，r_t)存储到样本回放缓存D；

(8)从样本回放缓存D中采样一批样本根据目标函数

求解行动模型网络参数θ，并更新目标网络参数θ^-；

(9)重复步骤(4)～(8)直到遍历完尾气序列经历，即直到i＝N；最终得到交通污染管控模型策略的最优长期回报估计行动模型Q^*。

另一方面，本发明还公开一种交通污染管控系统，包括以下单元：

数据获取和处理单元，用于获取原始尾气监测数据以及车流信息数据，并进行预处理；

策略生产单元，用于把处理好的数据输入事先设置好的交通污染管控模型，输出管控策略。

进一步的，还包括以下子单元：

模型构建单元，用于构建交通污染强化学习模型；

模型设置单元，用于设置交通污染管控模型策略算法并基于处理后的数据进行训练。

第三方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

由上述技术方案可知，本发明的交通污染管控方法、系统及存储介质，利用深度Q网络估计长期回报最优值函数以克服行动状态空间过大问题，并利用混合环境状态来构建尾气环境系统的时序依赖性，从而制定有效的交通限流限速策略以减轻交通污染。

附图说明

图1是本发明的方法流程图；

图2是本发明的方法框架图；

图3是DQN网络结构图；

图4是管控策略生成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1和图2所示，本实施例所述的交通污染管控方法，包括：

其中，所述交通污染管控模型的构建步骤如下：

S201、采集尾气监测数据并进行预处理；

S202、构建交通污染强化学习模型；

以下具体说明：

进一步的，所述S100和S201内容相同，具体包括，根据尾气遥测系统采集的原始尾气监测数据以及车流信息数据，进行归一化处理，将其处理成尾气环境状态数据用于生成尾气序列经历数据集，尾气序列是一段时间内的尾气污染物的状态序列。根据Fuel(燃料消耗)，CO (一氧化碳)，HC(碳氢化物)，NOx(氮氧化物)排放情况来评估交通污染程度，四种污染物排放分别归一化后的序列构成尾气序列，可记作EF_t＝{Fuel_t,CO_t,HC_t,NOx_t}，Fuel_t,CO_t,HC_t,NOx_t分别对应t时刻当前尾气监测站点的燃料消耗、一氧化碳、碳氢化物、一氧化氮的排放。每条移动源污染序列经历的时间跨度为24小时，每个状态时间间隔为 1小时。

所述S202构建交通污染强化学习模型具体包括，

S2022、结合强化学习概念，设计尾气环境行动状态空间。尾气环境状态定义为s_t＝(O_t-k，a_t-k，...，O_t-1，a_t-1，O_t，t)，其表示结合当前时间信息的观测和行动的交错序列，其中k是观测的滞后时间步长，

是对尾气环境状态和交通智能体状态的观测。对于尾气环境状态，包含尾气当前排放量EF_t和上一时刻的尾气排放量

的观测。对于交通智能体状态，包含对监测点位的当前车流量tv_o，t和当前车流平均速度ts_o，t的观测。交通智能体的行动

表示采取车流限制和车速限制的向量。采取行动a_t的即时奖励r_t定义为从状态s_t转移到s_t+1(t,t+1]时间段内尾气排放量和车流量的组合收益，记作r_t＝G_I(EF_t-EF_t+1)+G_I(tv_t+1-tv_t)，收益示性函数G_I计算方式如下

交通智能体通过与尾气环境交互，获得尾气环境状态 s_t，采取行动a_t，获得回报r_t。

S2023、设计基于DQN的深度估值回报网络来估计最优长期回报值函数。深度估值回报网络输入为包含行动状态，尾气环境观测状态，交通智能体行动状态，时间信息的组合向量，然后连接全连接层提取行动-状态空间特征表示，实现累计回报值函数的估计。DQN采用三层全连接层网络结构[24,24,24]，并采用ReLU作为激活函数，网络模型如图3所示。

S203、设置交通污染管控模型策略算法并基于S201处理后的数据进行训练具体包括：

(1)初始化尾气污染序列样本回访缓存D；

模型参数θ^-；

(3)对于尾气序列经历EF(i)，(i＝1,…,N)和当前时间步t；

(4)以概率∈∈[0，1]随机选择一个行动a_t；

(5)否则根据模型选择当前最优行动a_t＝argmax Q^*(s_t，a，θ)；

(7)将新样本(s_t，a_t，s_t+1，r_t)存储到样本回放缓存D；

(8)从样本回放缓存D中采样一批样本根据目标函数

求解行动模型网络参数θ，并更新目标网络参数θ^-；

(9)重复步骤(4)～(8)直到遍历完尾气序列经历，即直到i＝N。最终得到交通污染管控模型策略的最优长期回报估计行动模型Q^*。

其中，管控策略生成如图4所示，道边尾气污染遥测设备监测道路车辆的行驶状态信息与污染物排放信息，并将监测信息打包成尾气污染环境行动状态数据包并上传至中心计算服务器，调用训练好的最优长期回报估计网络输出行动策略。通过无线网络收发设备或以交通广播将道路交通流和速度限制提示信息发送至道边提示信息台及道路运行车辆。

如表1所示，表1给出了不同监管策略下的平均尾气污染经历的控制效果，其中RP是随机策略，交通智能体每个时刻从行动空间随机采取控制策略实行车流和车速限制管控；MC是蒙特卡洛法策略，基于采样的经验轨迹无需完备的环境知识，通过状态值函数期望求解最优策略，交通智能体基于移动源污染序列经历求解最优交通管制策略； QL是基于Q-learning强化学习求解交通污染管控算法策略；EFRL是本方案所提出的交通污染管控策略算法。可以发现采用随机监管策略 (RP)的移动源污染排放减排效果最差，减排效果从高到低依次为 EFRL>QL>MC>RP。此外，不同监管策略在不同污染物上的监管效果也有所不同，例如MC在CO和HC减排效果上明显劣于QL，但在 NOx上具有相近的减排监管效果，本发明所设计的EFRL监管策略在不同污染物上的均取得最优减排效果，并且EFRL在CO和HC减排效果上明显优于其他三种策略，但在NOx上与MC、QL具有相近的减排监管效果。

表1不同污染监管策略对比

进一步的，还包括以下子单元：

模型构建单元，用于构建交通污染强化学习模型；

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种交通污染管控方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的交通污染管控方法，其特征在于：

所述交通污染管控模型的构建步骤如下：

S201、采集尾气监测数据并进行预处理；

S202、构建交通污染强化学习模型；

3.根据权利要求1所述的交通污染管控方法，其特征在于：所述S100获取原始尾气监测数据以及车流信息数据，并进行预处理具体包括：

根据燃料消耗，一氧化碳，碳氢化物，氮氧化物排放情况来评估交通污染程度，四种污染物排放分别归一化后的序列构成尾气序列，记作EF_t＝{Fuel_t，CO_t，HC_t，NOx_t}，Fuel_t，CO_t，HC_t，NOx_t分别对应t时刻当前尾气监测站点的燃料消耗、一氧化碳、碳氢化物、一氧化氮的排放；

4.根据权利要求2所述的交通污染管控方法，其特征在于：所述S202构建交通污染强化学习模型具体包括，

是对尾气环境状态和交通智能体状态的观测；

的观测；

交通智能体的行动

表示采取车流限制和车速限制的向量；

采取行动a_t的即时奖励r_t定义为从状态s_t转移到s_t+1(t，t+1]时间段内尾气排放量和车流量的组合收益，记作r_t＝G_I(EF_t-EF_t+1)+G_I(tv_t+1-tv_t)，收益示性函数G_I计算方式如下

交通智能体通过与尾气环境交互，获得尾气环境状态s_t，采取行动a_t，获得回报r_t；

S2023、设计基于DQN的深度估值回报网络来估计最优长期回报值函数；深度估值回报网络输入为包含行动状态，尾气环境观测状态，交通智能体行动状态，时间信息的组合向量，然后连接全连接层提取行动-状态空间特征表示，实现累计回报值函数的估计；DQN采用三层全连接层网络结构[24，24，24]，并采用ReLU作为激活函数。

5.根据权利要求2所述的交通污染管控方法，其特征在于：所述S203设置交通污染管控模型策略算法并基于S201处理后的数据进行训练具体包括：

(1)初始化尾气污染序列样本回访缓存D；

模型参数θ^-；

(3)对于尾气序列经历EF(i)，(i＝1，...，N)和当前时间步t；

(4)以概率∈∈[0，1]随机选择一个行动a_t；

(5)否则根据模型选择当前最优行动a_t＝argmaxQ^*(s_t，a，θ)；

(7)将新样本(s_t，a_t，s_t+1，r_t)存储到样本回放缓存D；

(8)从样本回放缓存D中采样一批样本根据目标函数

求解行动模型网络参数θ，并更新目标网络参数θ^-；

6.一种交通污染管控系统，其特征在于：

包括以下单元：

7.根据权利要求6所述的一种交通污染管控系统，其特征在于：还包括以下子单元：

模型构建单元，用于构建交通污染强化学习模型；

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。