CN112131986A - 一种交通污染管控方法、系统及存储介质 - Google Patents

一种交通污染管控方法、系统及存储介质 Download PDF

Info

Publication number
CN112131986A
CN112131986A CN202010954090.3A CN202010954090A CN112131986A CN 112131986 A CN112131986 A CN 112131986A CN 202010954090 A CN202010954090 A CN 202010954090A CN 112131986 A CN112131986 A CN 112131986A
Authority
CN
China
Prior art keywords
traffic
tail gas
data
model
pollution control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010954090.3A
Other languages
English (en)
Inventor
康宇
许镇义
曹洋
李泽瑞
吕文君
赵振怡
刘斌琨
裴丽红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202010954090.3A priority Critical patent/CN112131986A/zh
Publication of CN112131986A publication Critical patent/CN112131986A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Multimedia (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明的一种交通污染管控方法、系统及存储介质,包括以下步骤:获取原始尾气监测数据以及车流信息数据,并进行预处理;把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。所述交通污染管控模型的构建步骤如下:采集尾气监测数据并进行预处理;构建交通污染强化学习模型;设置交通污染管控模型策略算法并基于S201处理后的数据进行训练。本发明利用深度Q网络估计长期回报最优值函数以克服行动状态空间过大问题,并利用混合环境状态来构建尾气环境系统的时序依赖性,从而制定有效的交通限流限速策略以减轻交通污染。

Description

一种交通污染管控方法、系统及存储介质
技术领域
本发明涉及交通领域中城市交通污染管控技术领域,具体涉及一种交通污染管控方法、系统及存储介质。
背景技术
尾气排放中的一氧化碳(CO),二氧化碳(CO2),碳氢化物(HC),氮氧化物(NOx),以及固体颗粒物(PM2.5)等严重危害公众健康。随着机动车保有量的快速增长,使得城市空气污染日益加剧。因此,有必要研究交通污染管控方法为交通相关监管部门制定合理限流限速措施提供决策支持。
目前有关交通污染控制的研究工作主要可以分为基于模型反馈控制的交通污染控制方法和基于交通流模式特征管理的交通污染控制方法。基于模型反馈控制的方法需要构建宏观交通流模型和微观交通污染排放模型来设计控制器对实现交通网络污染控制。但是,宏观交通流模型和微观交通污染排放模型只是一种理想简化模型,并不能反映真实交通状况,由此设计的控制器也会存在较大的模型误差。基于交通流模式特征管理的交通污染控制方法主要是基于历史交通流信息设计交通管制策略,是一种离线策略存在滞后性。这为制定有效的交通限流限速策略造成巨大挑战。
发明内容
本发明提出的一种交通污染管控方法、系统及存储介质,利用深度Q网络估计长期回报最优值函数以克服行动状态空间过大问题,并设计混合环境状态来构建尾气环境系统的时序依赖性。
为实现上述目的,本发明采用了以下技术方案:
一种交通污染管控方法,包括:
S100、获取原始尾气监测数据以及车流信息数据,并进行预处理;
S200、把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。
进一步的,所述交通污染管控模型的构建步骤如下:
S201、采集尾气监测数据并进行预处理;
S202、构建交通污染强化学习模型;
S203、设置交通污染管控模型策略算法并基于S201处理后的数据进行训练。
进一步的,所述S100获取原始尾气监测数据以及车流信息数据,并进行预处理具体包括:
根据尾气遥测系统采集的原始尾气监测数据以及车流信息数据,进行归一化处理,将其处理成尾气环境状态数据用于生成尾气序列经历数据集,尾气序列是一段时间内的尾气污染物的状态序列;
根据燃料消耗,一氧化碳,碳氢化物,氮氧化物排放情况来评估交通污染程度,四种污染物排放分别归一化后的序列构成尾气序列,记作EFt={Fuelt,COt,HCt,NOxt},Fuelt,COt,HCt,NOxt分别对应t时刻当前尾气监测站点的燃料消耗、一氧化碳、碳氢化物、一氧化氮的排放;
每条移动源污染序列经历的时间跨度为24小时,每个状态时间间隔为1小时。
进一步的,所述S202构建交通污染强化学习模型具体包括,
S2021、定义交通智能体,交通智能体TA具有车流量tv和车流平均速度ts属性,其作为与尾气环境交互的主体;
S2022、结合强化学习概念,设计尾气环境行动状态空间;尾气环境状态定义为st=(Ot-k,at-k,...,Ot-1,at-1,Ot,t),其表示结合当前时间信息的观测和行动的交错序列,其中k是观测的滞后时间步长,
Figure 100002_DEST_PATH_IMAGE001
是对尾气环境状态和交通智能体状态的观测;
对于尾气环境状态,包含尾气当前排放量EFt和上一时刻的尾气排放量
Figure 100002_DEST_PATH_IMAGE002
的观测;
对于交通智能体状态,包含对监测点位的当前车流量tvo,t和当前车流平均速度tso,t的观测;
交通智能体的行动
Figure 100002_DEST_PATH_IMAGE003
表示采取车流限制和车速限制的向量;
采取行动at的即时奖励rt定义为从状态st转移到St+1(t,t+1]时间段内尾气排放量和车流量的组合收益,记作 rt=GI(EFt-EFt+1)+GI(tvt+1-tvt),收益示性函数GI计算方式如下
Figure 100002_DEST_PATH_IMAGE004
交通智能体通过与尾气环境交互,获得尾气环境状态st,采取行动 at,获得回报rt
S2023、设计基于DQN的深度估值回报网络来估计最优长期回报值函数;深度估值回报网络输入为包含行动状态,尾气环境观测状态,交通智能体行动状态,时间信息的组合向量,然后连接全连接层提取行动-状态空间特征表示,实现累计回报值函数的估计;DQN采用三层全连接层网络结构[24,24,24],并采用ReLU作为激活函数。
进一步的,所述S203设置交通污染管控模型策略算法并基于S201 处理后的数据进行训练具体包括:
(1)初始化尾气污染序列样本回访缓存D;
(2)随机初始化最优长期回报估计行动模型Q*,将行动模型网络参数θ赋值给目标网络
Figure 100002_DEST_PATH_IMAGE005
模型参数θ-
(3)对于尾气序列经历EF(i),(i=1,…,N)和当前时间步t;
(4)以概率∈∈[0,1]随机选择一个行动at
(5)否则根据模型选择当前最优行动at=argmax Q*(st,a,θ);
(6)交通智能体采取行动at并转移到下一状态st+1以及获得即时回报rt
(7)将新样本(st,at,st+1,rt)存储到样本回放缓存D;
(8)从样本回放缓存D中采样一批样本根据目标函数
Figure 100002_DEST_PATH_IMAGE006
求解行动模型网络参数θ,并更新目标网络参数θ-
(9)重复步骤(4)~(8)直到遍历完尾气序列经历,即直到i=N;最终得到交通污染管控模型策略的最优长期回报估计行动模型Q*
另一方面,本发明还公开一种交通污染管控系统,包括以下单元:
数据获取和处理单元,用于获取原始尾气监测数据以及车流信息数据,并进行预处理;
策略生产单元,用于把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。
进一步的,还包括以下子单元:
模型构建单元,用于构建交通污染强化学习模型;
模型设置单元,用于设置交通污染管控模型策略算法并基于处理后的数据进行训练。
第三方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
由上述技术方案可知,本发明的交通污染管控方法、系统及存储介质,利用深度Q网络估计长期回报最优值函数以克服行动状态空间过大问题,并利用混合环境状态来构建尾气环境系统的时序依赖性,从而制定有效的交通限流限速策略以减轻交通污染。
附图说明
图1是本发明的方法流程图;
图2是本发明的方法框架图;
图3是DQN网络结构图;
图4是管控策略生成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1和图2所示,本实施例所述的交通污染管控方法,包括:
S100、获取原始尾气监测数据以及车流信息数据,并进行预处理;
S200、把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。
其中,所述交通污染管控模型的构建步骤如下:
S201、采集尾气监测数据并进行预处理;
S202、构建交通污染强化学习模型;
S203、设置交通污染管控模型策略算法并基于S201处理后的数据进行训练。
以下具体说明:
进一步的,所述S100和S201内容相同,具体包括,根据尾气遥测系统采集的原始尾气监测数据以及车流信息数据,进行归一化处理,将其处理成尾气环境状态数据用于生成尾气序列经历数据集,尾气序列是一段时间内的尾气污染物的状态序列。根据Fuel(燃料消耗),CO (一氧化碳),HC(碳氢化物),NOx(氮氧化物)排放情况来评估交通污染程度,四种污染物排放分别归一化后的序列构成尾气序列,可记作EFt={Fuelt,COt,HCt,NOxt},Fuelt,COt,HCt,NOxt分别对应t时刻当前尾气监测站点的燃料消耗、一氧化碳、碳氢化物、一氧化氮的排放。每条移动源污染序列经历的时间跨度为24小时,每个状态时间间隔为 1小时。
所述S202构建交通污染强化学习模型具体包括,
S2021、定义交通智能体,交通智能体TA具有车流量tv和车流平均速度ts属性,其作为与尾气环境交互的主体;
S2022、结合强化学习概念,设计尾气环境行动状态空间。尾气环境状态定义为st=(Ot-k,at-k,...,Ot-1,at-1,Ot,t),其表示结合当前时间信息的观测和行动的交错序列,其中k是观测的滞后时间步长,
Figure DEST_PATH_IMAGE007
是对尾气环境状态和交通智能体状态的观测。对于尾气环境状态,包含尾气当前排放量EFt和上一时刻的尾气排放量
Figure DEST_PATH_IMAGE008
的观测。对于交通智能体状态,包含对监测点位的当前车流量tvo,t和当前车流平均速度tso,t的观测。交通智能体的行动
Figure DEST_PATH_IMAGE009
表示采取车流限制和车速限制的向量。采取行动at的即时奖励rt定义为从状态st转移到st+1(t,t+1]时间段内尾气排放量和车流量的组合收益,记作rt=GI(EFt-EFt+1)+GI(tvt+1-tvt),收益示性函数GI计算方式如下
Figure DEST_PATH_IMAGE010
交通智能体通过与尾气环境交互,获得尾气环境状态 st,采取行动at,获得回报rt
S2023、设计基于DQN的深度估值回报网络来估计最优长期回报值函数。深度估值回报网络输入为包含行动状态,尾气环境观测状态,交通智能体行动状态,时间信息的组合向量,然后连接全连接层提取行动-状态空间特征表示,实现累计回报值函数的估计。DQN采用三层全连接层网络结构[24,24,24],并采用ReLU作为激活函数,网络模型如图3所示。
S203、设置交通污染管控模型策略算法并基于S201处理后的数据进行训练具体包括:
(1)初始化尾气污染序列样本回访缓存D;
(2)随机初始化最优长期回报估计行动模型Q*,将行动模型网络参数θ赋值给目标网络
Figure DEST_PATH_IMAGE011
模型参数θ-
(3)对于尾气序列经历EF(i),(i=1,…,N)和当前时间步t;
(4)以概率∈∈[0,1]随机选择一个行动at
(5)否则根据模型选择当前最优行动at=argmax Q*(st,a,θ);
(6)交通智能体采取行动at并转移到下一状态st+1以及获得即时回报rt
(7)将新样本(st,at,st+1,rt)存储到样本回放缓存D;
(8)从样本回放缓存D中采样一批样本根据目标函数
Figure DEST_PATH_IMAGE012
求解行动模型网络参数θ,并更新目标网络参数θ-
(9)重复步骤(4)~(8)直到遍历完尾气序列经历,即直到i=N。最终得到交通污染管控模型策略的最优长期回报估计行动模型Q*
其中,管控策略生成如图4所示,道边尾气污染遥测设备监测道路车辆的行驶状态信息与污染物排放信息,并将监测信息打包成尾气污染环境行动状态数据包并上传至中心计算服务器,调用训练好的最优长期回报估计网络输出行动策略。通过无线网络收发设备或以交通广播将道路交通流和速度限制提示信息发送至道边提示信息台及道路运行车辆。
如表1所示,表1给出了不同监管策略下的平均尾气污染经历的控制效果,其中RP是随机策略,交通智能体每个时刻从行动空间随机采取控制策略实行车流和车速限制管控;MC是蒙特卡洛法策略,基于采样的经验轨迹无需完备的环境知识,通过状态值函数期望求解最优策略,交通智能体基于移动源污染序列经历求解最优交通管制策略; QL是基于Q-learning强化学习求解交通污染管控算法策略;EFRL是本方案所提出的交通污染管控策略算法。可以发现采用随机监管策略 (RP)的移动源污染排放减排效果最差,减排效果从高到低依次为 EFRL>QL>MC>RP。此外,不同监管策略在不同污染物上的监管效果也有所不同,例如MC在CO和HC减排效果上明显劣于QL,但在 NOx上具有相近的减排监管效果,本发明所设计的EFRL监管策略在不同污染物上的均取得最优减排效果,并且EFRL在CO和HC减排效果上明显优于其他三种策略,但在NOx上与MC、QL具有相近的减排监管效果。
表1不同污染监管策略对比
Figure BDA0002678010220000091
另一方面,本发明还公开一种交通污染管控系统,包括以下单元:
数据获取和处理单元,用于获取原始尾气监测数据以及车流信息数据,并进行预处理;
策略生产单元,用于把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。
进一步的,还包括以下子单元:
模型构建单元,用于构建交通污染强化学习模型;
模型设置单元,用于设置交通污染管控模型策略算法并基于处理后的数据进行训练。
第三方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种交通污染管控方法,其特征在于:包括以下步骤:
S100、获取原始尾气监测数据以及车流信息数据,并进行预处理;
S200、把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。
2.根据权利要求1所述的交通污染管控方法,其特征在于:
所述交通污染管控模型的构建步骤如下:
S201、采集尾气监测数据并进行预处理;
S202、构建交通污染强化学习模型;
S203、设置交通污染管控模型策略算法并基于S201处理后的数据进行训练。
3.根据权利要求1所述的交通污染管控方法,其特征在于:所述S100获取原始尾气监测数据以及车流信息数据,并进行预处理具体包括:
根据尾气遥测系统采集的原始尾气监测数据以及车流信息数据,进行归一化处理,将其处理成尾气环境状态数据用于生成尾气序列经历数据集,尾气序列是一段时间内的尾气污染物的状态序列;
根据燃料消耗,一氧化碳,碳氢化物,氮氧化物排放情况来评估交通污染程度,四种污染物排放分别归一化后的序列构成尾气序列,记作EFt={Fuelt,COt,HCt,NOxt},Fuelt,COt,HCt,NOxt分别对应t时刻当前尾气监测站点的燃料消耗、一氧化碳、碳氢化物、一氧化氮的排放;
每条移动源污染序列经历的时间跨度为24小时,每个状态时间间隔为1小时。
4.根据权利要求2所述的交通污染管控方法,其特征在于:所述S202构建交通污染强化学习模型具体包括,
S2021、定义交通智能体,交通智能体TA具有车流量tv和车流平均速度ts属性,其作为与尾气环境交互的主体;
S2022、结合强化学习概念,设计尾气环境行动状态空间;尾气环境状态定义为st=(Ot-k,at-k,...,Ot-1,at-1,Ot,t),其表示结合当前时间信息的观测和行动的交错序列,其中k是观测的滞后时间步长,
Figure DEST_PATH_IMAGE001
是对尾气环境状态和交通智能体状态的观测;
对于尾气环境状态,包含尾气当前排放量EFt和上一时刻的尾气排放量
Figure DEST_PATH_IMAGE002
的观测;
对于交通智能体状态,包含对监测点位的当前车流量tvo,t和当前车流平均速度tso,t的观测;
交通智能体的行动
Figure DEST_PATH_IMAGE003
表示采取车流限制和车速限制的向量;
采取行动at的即时奖励rt定义为从状态st转移到st+1(t,t+1]时间段内尾气排放量和车流量的组合收益,记作rt=GI(EFt-EFt+1)+GI(tvt+1-tvt),收益示性函数GI计算方式如下
Figure DEST_PATH_IMAGE004
交通智能体通过与尾气环境交互,获得尾气环境状态st,采取行动at,获得回报rt
S2023、设计基于DQN的深度估值回报网络来估计最优长期回报值函数;深度估值回报网络输入为包含行动状态,尾气环境观测状态,交通智能体行动状态,时间信息的组合向量,然后连接全连接层提取行动-状态空间特征表示,实现累计回报值函数的估计;DQN采用三层全连接层网络结构[24,24,24],并采用ReLU作为激活函数。
5.根据权利要求2所述的交通污染管控方法,其特征在于:所述S203设置交通污染管控模型策略算法并基于S201处理后的数据进行训练具体包括:
(1)初始化尾气污染序列样本回访缓存D;
(2)随机初始化最优长期回报估计行动模型Q*,将行动模型网络参数θ赋值给目标网络
Figure DEST_PATH_IMAGE005
模型参数θ-
(3)对于尾气序列经历EF(i),(i=1,...,N)和当前时间步t;
(4)以概率∈∈[0,1]随机选择一个行动at
(5)否则根据模型选择当前最优行动at=argmaxQ*(st,a,θ);
(6)交通智能体采取行动at并转移到下一状态st+1以及获得即时回报rt
(7)将新样本(st,at,st+1,rt)存储到样本回放缓存D;
(8)从样本回放缓存D中采样一批样本根据目标函数
Figure DEST_PATH_IMAGE006
求解行动模型网络参数θ,并更新目标网络参数θ-
(9)重复步骤(4)~(8)直到遍历完尾气序列经历,即直到i=N;最终得到交通污染管控模型策略的最优长期回报估计行动模型Q*
6.一种交通污染管控系统,其特征在于:
包括以下单元:
数据获取和处理单元,用于获取原始尾气监测数据以及车流信息数据,并进行预处理;
策略生产单元,用于把处理好的数据输入事先设置好的交通污染管控模型,输出管控策略。
7.根据权利要求6所述的一种交通污染管控系统,其特征在于:还包括以下子单元:
模型构建单元,用于构建交通污染强化学习模型;
模型设置单元,用于设置交通污染管控模型策略算法并基于处理后的数据进行训练。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。
CN202010954090.3A 2020-09-11 2020-09-11 一种交通污染管控方法、系统及存储介质 Pending CN112131986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010954090.3A CN112131986A (zh) 2020-09-11 2020-09-11 一种交通污染管控方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010954090.3A CN112131986A (zh) 2020-09-11 2020-09-11 一种交通污染管控方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN112131986A true CN112131986A (zh) 2020-12-25

Family

ID=73846371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010954090.3A Pending CN112131986A (zh) 2020-09-11 2020-09-11 一种交通污染管控方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112131986A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN109165690A (zh) * 2018-09-03 2019-01-08 安徽优思天成智能科技有限公司 一种城市路网尾气污染分布预测的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN109165690A (zh) * 2018-09-03 2019-01-08 安徽优思天成智能科技有限公司 一种城市路网尾气污染分布预测的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHENYI XU ET AL: "Vehicle emission control on road with temporal traffic information using deep reinforcement learning", 《PREPRINTS OF THE 21ST IFAC WORLD CONGRESS (VIRTUAL)》 *
杨文乐: "基于强化学习的倒立摆控制算法研究", 《中国优秀硕士学位论文全文数据库》 *
谭俊杰等: "面向智能通信的深度强化学习方法", 《电子科技大学学报》 *

Similar Documents

Publication Publication Date Title
Liang et al. A deep reinforcement learning network for traffic light cycle control
Zhou et al. Knowledge implementation and transfer with an adaptive learning network for real-time power management of the plug-in hybrid vehicle
ShangGuan et al. Multiobjective optimization for train speed trajectory in CTCS high-speed railway with hybrid evolutionary algorithm
Enang et al. Modelling and control of hybrid electric vehicles (A comprehensive review)
Qi et al. Development and evaluation of an evolutionary algorithm-based online energy management system for plug-in hybrid electric vehicles
Wang et al. Harmonious lane changing via deep reinforcement learning
Chen et al. Adversarial evaluation of autonomous vehicles in lane-change scenarios
Devailly et al. IG-RL: Inductive graph reinforcement learning for massive-scale traffic signal control
Zhang et al. Bi-level energy management of plug-in hybrid electric vehicles for fuel economy and battery lifetime with intelligent state-of-charge reference
Liu et al. Markov velocity predictor and radial basis function neural network-based real-time energy management strategy for plug-in hybrid electric vehicles
Jin et al. A stochastic optimization framework for road traffic controls based on evolutionary algorithms and traffic simulation
Lin et al. Online correction predictive energy management strategy using the Q-learning based swarm optimization with fuzzy neural network
Samanta et al. Hybrid swarm intelligence methods for energy management in hybrid electric vehicles
Han et al. Leveraging reinforcement learning for dynamic traffic control: A survey and challenges for field implementation
Tang et al. ATAC-based car-following model for level 3 autonomous driving considering driver’s acceptance
Kővári et al. Reward design for intelligent intersection control to reduce emission
Liang et al. Surrogate-assisted cooperative signal optimization for large-scale traffic networks
Cao et al. Autonomous driving policy continual learning with one-shot disengagement case
Xu et al. Vehicle emission control on road with temporal traffic information using deep reinforcement learning
Guillen-Perez et al. Learning from Oracle demonstrations—a new approach to develop autonomous intersection management control algorithms based on multiagent deep reinforcement learning
Peng et al. Ecological driving framework of hybrid electric vehicle based on heterogeneous multi agent deep reinforcement learning
He et al. Deep reinforcement learning based energy management strategies for electrified vehicles: Recent advances and perspectives
CN112131986A (zh) 一种交通污染管控方法、系统及存储介质
Huang et al. A novel data-driven energy management strategy for fuel cell hybrid electric bus based on improved twin delayed deep deterministic policy gradient algorithm
Wang et al. SDP-based extremum seeking energy management strategy for a power-split hybrid electric vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201225