CN115512537A

CN115512537A - 一种基于深度强化学习算法的高速公路监控方法及系统

Info

Publication number: CN115512537A
Application number: CN202211110381.XA
Authority: CN
Inventors: 徐延军; 贾百强; 胡超然; 陈建雄
Original assignee: Cosco Shipping Technology Co Ltd
Current assignee: Cosco Shipping Technology Co Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-23

Abstract

本发明提供一种基于深度强化学习算法的高速公路监控方法及系统，该方法通过根据交通能力与预设阈值的比对结果决定是否在某一路段的上游区域启动可变限速控制策略，在可变限速控制策略启动后，利用基于深度强化学习算法的DDQN智能体对高速公路中各路段的交通状态进行监控，并采用实时神经网络和目标神经网络对高速公路中各路段车辆的可变限速进行控制，再通过对记忆池中的经验样本进行多次重复训练以获得最优限速值动作，从而得到最优可变限速控制策略，最后DDQN智能体将最优限速值进行展示。本发明不仅能有效减少车辆间的速度差和追尾等事故的发生，缓解高速公路通行压力，还提高车辆的通行效率和通行安全性，实现可变限速控制效果的优化。

Description

一种基于深度强化学习算法的高速公路监控方法及系统

技术领域

本发明涉及智慧高速公路技术领域，具体涉及一种基于深度强化学习算法的高速公路监控方法及系统。

背景技术

在我国经济建设发展中，高速公路有着重要的地位，并且随着高速公路的不断建设以及相应基础设施的进一步完善，对我国经济、旅游、运输以及文化行业的发展起到很重要作用。目前，由于汽车保有量的递增，高速公路发生交通拥堵的情况也越来越频繁，为了保证高速公路的通行效率，将出入口全部进行控制，因此产生拥堵的路段比较固定，一般集中在主线与出入口匝道连接处、道路施工区域或交通事故处。在路段拥堵时，车辆会频繁地出现加减速、分流、合流或交织行为，严重影响了车辆的通行。

可变限速控制主要是通过对道路上行驶的车辆相关交通流参数进行动态监测，将获取到的交通流信息输入到控制器中，通过算法计算后将限速值反馈到限速板上，从而实现对道路车辆车速的动态控制，在提高通行效率和通行安全两方面有显著效果。目前，在可变限速控制的研究中，需要植入交通流模型，其中METANET和CTM模型在可变限速控制中应用最为广泛。Carlson等在反馈式控制系统中植入METANET模型，结果表明METANET模型能够仿真该系统的交通流参数变化情况；HadfiR等基于随机元胞传输模型提出了改进的随机元胞模型，该模型能够创建车辆对应的智能体并考虑车辆路径选择行为。

在提高通行安全方面，国内外研究在可变限速控制中多集中于环境条件(雨雪天气等情况)对通行安全的影响，而对限速值进行研究的情况较少；在提高通行效率方面，往往选择单一的控制目标函数来提高通行能力，而采用综合目标函数对路段进行可变限速控制的研究较少。

发明内容

为解决现有高速公路中各路段存在车辆通行效率、通行安全性较低，且针对现有高速公路可变限速控制中对限速值研究较少以及目标函数选择单一等问题，本发明提供一种基于深度强化学习算法的高速公路监控方法，利用深度强化学习算法中的实时神经网络和目标神经网络对高速公路中各路段的交通状态进行监控并对车辆的可变限速进行控制，能够有效减少车辆间的速度差和追尾等事故的发生，缓解高速公路通行压力，提高了车辆的通行效率和通行安全性。本发明还涉及一种基于深度强化学习算法的高速公路监控系统。

本发明的技术方案如下：

一种基于深度强化学习算法的高速公路监控方法，其特征在于，包括以下步骤：

可变限速启动判断步骤：根据高速公路上某一路段当前交通流运行状态预测出该路段的通行能力，将通行能力与预设阈值作比较，若通行能力小于等于预设阈值，则在该路段的上游区域启动可变限速控制策略；

可变限速值确定步骤：在可变限速控制策略启动后，根据该路段的历史交通流状态数据确定深度强化学习算法中的状态集和动作集，使基于深度强化学习算法的DDQN智能体根据状态集感知该路段当前交通流运行状态，根据当前交通流运行状态并基于动作集设计出限速值动作，根据限速值动作促使当前交通流运行状态转换为新的交通流运行状态，根据新的交通流运行状态设计出新的限速值动作，并计算出新的交通流运行状态对应的回报值，深度强化学习算法包括实时神经网络和目标神经网络，根据实时神经网络和目标神经网络计算出用于反映从当前交通流运行状态到设计出新的限速值动作的整个过程所对应的Q值，将当前交通流运行状态、限速值、新的交通流运行状态、新的限速值、Q值和回报值作为经验样本存储到记忆池中；

利用实时神经网络和目标神经网络对记忆池中的经验样本进行多次重复训练，针对当前交通流运行状态设计出多个新的限速值动作，分别计算出用于反映从当前交通流运行状态到设计出各个新的限速值动作的整个过程所对应的多个Q值，并将多个Q值存入DDQN智能体中，DDQN智能体选取当前交通流运行状态下的Q值最大值所对应的限速值动作作为最优限速值；

信息展示步骤：通过高速公路上布设的情报板将最优限速值进行展示以实现高速公路监控。

优选地，所述可变限速启动判断步骤中，通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值，则在该路段的上游区域启动可变限速控制策略。

优选地，所述可变限速值确定步骤中，所述状态集包括某一路段的瓶颈区的车辆密度、上游区域的车辆密度和限速值，所述动作集包括不同限速值，且不同限速值均在路段允许的最高限速值和最低限速值之间。

优选地，所述可变限速值确定步骤中，所述回报值根据某一路段的瓶颈区的车辆密度确定。

优选地，所述可变限速值确定步骤中，从记忆池中选取经验样本时，采用TD误差计算经验样本被选取的概率。

一种基于深度强化学习算法的高速公路监控系统，其特征在于，包括依次连接的可变限速启动判断模块，可变限速值确定模块和信息展示模块，

可变限速启动判断模块，根据高速公路上某一路段当前交通流运行状态预测出该路段的通行能力，将通行能力与预设阈值作比较，若通行能力小于等于预设阈值，则在该路段的上游区域启动可变限速控制策略；

可变限速值确定模块，在可变限速控制策略启动后，根据该路段的历史交通流状态数据确定深度强化学习算法中的状态集和动作集，使基于深度强化学习算法的DDQN智能体根据状态集感知该路段当前交通流运行状态，根据当前交通流运行状态并基于动作集设计出限速值动作，根据限速值动作促使当前交通流运行状态转换为新的交通流运行状态，根据新的交通流运行状态设计出新的限速值动作，并计算出新的交通流运行状态对应的回报值，深度强化学习算法包括实时神经网络和目标神经网络，根据实时神经网络和目标神经网络计算出用于反映从当前交通流运行状态到设计出新的限速值动作的整个过程所对应的Q值，将当前交通流运行状态、限速值、新的交通流运行状态、新的限速值、Q值和回报值作为经验样本存储到记忆池中；

信息展示模块，通过高速公路上布设的情报板将最优限速值进行展示以实现高速公路监控。

优选地，所述可变限速启动判断模块中，通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值，则在该路段的上游区域启动可变限速控制策略。

优选地，所述可变限速值确定模块中，所述状态集包括某一路段的瓶颈区的车辆密度、上游区域的车辆密度和限速值，所述动作集包括不同限速值，且不同限速值均在路段允许的最高限速值和最低限速值之间。

优选地，所述可变限速值确定模块中，所述回报值根据某一路段的瓶颈区的车辆密度确定。

优选地，所述可变限速值确定模块中，从记忆池中选取经验样本时，采用TD误差计算经验样本被选取的概率。

本发明的技术效果如下：

本发明提供一种基于深度强化学习算法的高速公路监控方法，先根据高速公路上某一路段当前交通流运行状态实时预测出某一路段的通行能力，然后根据交通能力与预设阈值的比对结果决定是否在某一路段的上游区域启动可变限速控制策略，有利于改善高速公路的交通运行状况；在可变限速控制策略启动后，再利用基于深度强化学习算法的DDQN智能体对高速公路中各路段的交通状态进行监控，并采用实时神经网络和目标神经网络对高速公路中各路段的车辆的可变限速进行控制，再通过对记忆池中的经验样本进行多次重复训练以获得每个交通状态所对应的最优限速值，从而得到最优可变限速控制策略，之后在应用于实际高速公路控制的过程中，DDQN智能体对高速公路上的各个路段的交通流状态进行主动感知，并针对不同的交通流状态从记忆池中自动选取与每个交通流状态相对应的最优限速值动作，从而实现对各个路段的动态调节，故实质也是一种基于平滑车速管控算法的监控方法，不仅能够有效减少车辆间的速度差和追尾等事故的发生，缓解高速公路通行压力，还提高了车辆的通行效率和通行安全性，实现可变限速控制效果的优化；最后通过将最优限速值动作进行展示，可以及时影响车辆驾驶人员的驾驶行为，以确保可变限速动态的实施效果。本发明对平滑车速的管控基于深度强化学习算法，通过机器视觉识别交通状态，相比于其他方法具有更强的适应性，并且本方法在实现时，仅需对接高速公路上现有的情报板设备即可，无需新设备，具有很好的便携性。本发明引入了Q-学习算法，并结合交通流运行状态，对路段进行仿真和可变限速控制，在道路通行效率和改善道路车辆的运行情况存在优势，是智慧公路技术领域的一个重要应用。

本发明还涉及一种基于深度强化学习算法的高速公路监控系统，该系统与上述基于深度强化学习算法的高速公路监控方法相对应，包括依次相连的可变限速启动判断模块，可变限速值确定模块和信息展示模块，各模块相互协同工作，通过将高速公路上各路段的交通流的演化规律由算法模型精准表达后，再利用深度强化学习算法将可变限速的控制问题转换为最优限速的求解问题，根据实际交通运行状态与目标期望的运行状态之间偏差对限速值进行调整，实现对高速公路各路段的交通运行状态维持在其自身具有的通行能力范围之内，在高速公路临时施工或发生交通事件，以及极端恶劣天气时，通过调整各路段限速值平滑交通流、减少车辆间的速度差，由此减少追尾等事故的发生。限速值需要根据交通流运行状态动态决定，并遵循一定的原则，且定时更新，通过可变情报板动态发布，及时告知司机。该系统在启用后，可以使整体交通通行量提升30％，拥堵次数降低50％，平均拥堵距离缩短30％，具有很强的实用性。

附图说明

图1是本发明基于深度强化学习算法的高速公路监控方法的流程图。

图2是本发明高速公路的路段管控在空间上的区域划分示意图。

图3是本发明平滑车速管控策略框架图。

图4是本发明不同可变限速控制策略下高速公路车流量随时间变化图。

具体实施方式

下面结合附图对本发明进行说明。

本发明涉及一种基于深度强化学习算法的高速公路监控方法，该方法的流程图如图1所示，包括以下步骤：

可变限速启动判断步骤：根据高速公路上某一路段当前交通流运行状态预测出该路段的通行能力，将通行能力与预设阈值作比较，若通行能力小于等于预设阈值，则在该路段的上游区域启动可变限速控制策略；其中，可以通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值时，即可在某一路段的上游区域启动可变限速控制策略，实现对该路段交通运行情况的管控。

具体地，通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若高速公路上某一路段已发生特殊事件，例如已出现交通拥堵、交通事故或者恶劣天气等情况，则需要按照预设的限速方案进行管控。例如，遇雾、雨、雪、沙尘、冰雹等能见度低的特殊天气：能见度低于200米时，限速60km/h，并保持100米以上的车距；能见度低于100米时，限速40km/h，并保持50米以上的车距；能见度低于50米时，限速20km/h，并从最近的出口驶离高速公路。此外，对于高速公路施工区域，限速50km/h。若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值，即高速公路上某一路段未发生上述特殊事件，则在该路段的上游区域启动可变限速控制策略。

通常，高速公路的路段管控在空间上分为以下几个区域：上游区域、上游过渡区、缓冲区、作业区、下游过渡区和终止区，其划分的具体情况如图2所示，在针对不同区域需要设置不同的管控任务，而本发明的上述方法主要获取瓶颈区(即上游过渡区、缓冲区、作业区和下游过渡区)的交通状态，并对上游区域即图3所示的平滑车速管控区(简称管控区)进行车速管控。

可变限速值确定步骤，或进一步称为平滑车速管控步骤：在可变限速控制策略启动后，根据该路段的历史交通流状态数据确定深度强化学习算法中的状态集和动作集，使基于深度强化学习算法的DDQN智能体根据状态集感知该路段当前交通流运行状态，根据当前交通流运行状态并基于动作集设计出限速值动作，根据限速值动作促使当前交通流运行状态转换为新的交通流运行状态，根据新的交通流运行状态设计出新的限速值动作，并计算出新的交通流运行状态对应的回报值，深度强化学习算法包括实时神经网络和目标神经网络，根据实时神经网络和目标神经网络计算出用于反映从当前交通流运行状态到设计出新的限速值动作的整个过程所对应的Q值，将当前交通流运行状态及相应的限速值、新的交通流运行状态及相应新的限速值、Q值和回报值作为经验样本存储到记忆池中；然后利用实时神经网络和目标神经网络对记忆池中的经验样本进行多次重复训练，针对当前交通流运行状态设计出多个新的限速值动作，分别计算出用于反映从当前交通流运行状态到设计出各个新的限速值动作的整个过程所对应的多个Q值，并将多个Q值存入DDQN智能体中，DDQN智能体选取当前交通流运行状态下的Q值最大值所对应的限速值动作作为最优限速值；

具体地，从记忆池中选取经验样本时，由于TD误差(temporal difference error)能够估计样本可能获得的学习效果，因此采用TD误差计算经验样本被选取的概率，经验样本选取的优先级Pi的计算过程如下：

p_i＝|δ_i|+c (1)

上式中，δ_i为TD误差；c为大于0的常数；

TD误差δ_i的计算公式如下：

δ_i＝Y_i-Q(s_i,a_i；θ_i) (2)

上式中，Y_i为目标值；s_i为状态；a_i为动作，θ_i为实时神经的参数，Q(s_i,a_i；θ_i)为通过实时神经网络和目标神经网络计算的Q值；

目标值Y_i的计算公式如下：

Y_i＝r_i+1+γQ(s_i+1,arg max_aQ(s_i+1,a；θ_i),θ_i-) (3)

上式中，r_i+1为奖励值(即回报值)；γ为奖励值r随着时间的折减系数，值为0到1之间，系数越大代表未来奖励值越重要。

经验样本i被选取的概率P(i)的计算公式如下：

上式中，k为从记忆池中选取的经验样本的数量；α为优先程度，α为0时表示均匀采样。

在时间t时，选取的经验样本为(s_t,a_t,r_t+1,s_t+1)，通过最小化神经网络的损失函数L_t(θ_t)更新神经网络的参数θ_t，其中损失函数的计算公式如下：

L_t(θ_t)＝(Y_i-Q(s_t,a_t；θ_t))² (5)

将损失函数L_t(θ_t)对参数θ_t求导，可得梯度：

然后，随着梯度下降的方向更新神经网络的参数θ_t，由于优先经验回顾方法会带来修正误差，所以在更新神经网络参数时，需要使用IS权重(importance-samplingweights)更新方法，具体如下：

上式中，θ_t+1为神经网络更新后的参数；τ为每次参数更新的步长；ω_i是经验样本i的IS权重，其计算公式如下：

其中，N为经验池中的经验样本总数，＝在前500步中从0.4线性递增至1，之后保持不变，＝＝1代表了优先经验回顾的优先取样概率被完全抵消。

通过以上训练，神经网络会逐渐收敛，并分别计算出用于反映从当前交通流运行状态到设计出各个新的限速值动作的整个过程所对应的多个Q值，将多个Q值存入DDQN智能体中，DDQN智能体会自动选取当前交通流运行状态下的Q值最大值所对应的限速值动作作为最优限速值。可以理解的是，在每个状态下，DDQN智能体都会选择Q值最大值，即最优限速值，在各个环境中均采取了最优控制策略。

其中，在经验样本选取结束后，在训练的过程中还需要对Q值进行持续更新，深度强化学习算法中Q值的更新公式为：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmaxQ(s_t+1,a)-Q(s_t,a_t)] (9)

上式中，s_t为路段t时刻的交通流状态，a_t为对应t时刻的交通流状态所选择的限速值动作，α是学习率，γ是折扣因子，r是回报值。

为了避免限速值的持续运行的时间过长，不能及时响应交通状况的实时变化，同时也为了避免限速时间过短，而导致限速控制的效果较差，在短时间内连续切换限速值也不利于驾驶员的安全行驶，因此需要根据实际的交通运行情况，将限速值的更新步长选取在合适的范围内，例如可以将限速值的更新步长取10分钟。

其中，相较于传统的Q-学习算法，DDQN算法能够加入更多的状态变量，更加准确地感知交通状态，并通过神经网络的方式来计算状态-动作对应的Q值；其次，交通数据中不可避免地会含有数据噪声，导致过优化问题，DDQN算法通过将Q值动作的选择和计算分别用不同的值函数实现来解决过优化问题。因此，基于DDQN算法的平滑车速管控能取得更佳的控制效果。DDQN智能体利用基于DDQN算法的平滑车速管控策略进行离线学习，将学习结果存入到智能体的知识库中，同时DDQN智能体在实际应用过程中，会采集交通流数据和限速值，持续学习过程，使得DDQN智能体根据新的交通环境与数据持续学习最优策略。

如图3所示，深度强化学习算法在学习训练过程中的初始化Q值函数为Q(s,t)，在DDQN智能体自动观察到当前的高速公路的运行状态s_t，并根据当前的高速公路的运行状态s_t选择出限速值动作a_t并执行该动作后，再观察高速公路的运行状态s_t会转换进入到下一个运行状态s_t+1，并获得立即奖励值(即回报值)r_t，然后根据限速值动作a_t、运行状态s_t+1和回报值r_t更新学习参数，再采用实时神经网络和目标神经网络对记忆池中的经验样本进行充分训练直至学习结束，以获得每个交通状态所对应的最优限速值，从而得到最优可变限速控制策略。之后，将获得的最优可变限速控制策略应用在高速公路实际快速道路的在线控制中，根据快速道路上交通流检测器获得的实时交通流数据，DDQN智能体对每个状态－动作组合不断学习，直至所有状态－动作的回报值均得到学习，掌握不同交通流状态下的最优限速值动作。之后，将离线获得的最优平滑车速管控策略应用于实际高速公路控制中，DDQN智能体实时获取交通流数据，对交通流状态进行主动感知，从其知识库中自动选择与当前状态对应的最优限速值，对瓶颈区的限速值进行动态调节，从而对交通流运行进行干预，实现平滑车速管控效果的优化。

其中，状态集是通过在路网上布控的检测器进行采集的，主要包括瓶颈区的车辆密度、上游区域(即管控区)的车辆密度和上个控制周期的限速值。瓶颈区的车辆密度为平滑车速管控中的被控制量，管控区的密度体现了平滑车速管控时的交通运行状况，加入上个控制周期的限速值以防止限速值变化幅度过大，影响驾驶员的判断，从而使道路事故风险增加。动作集是平滑车速管控区的限速值，动作集优选为{5,10,15,20,25,30,35,40,45，50,55，60，65,70,75,80}，共16个动作，高速公路作业区的限速标准以安全通过为标准。

奖励值(即回报值)：管控策略的目标是降低整个路网内车辆的总出行时间，将时间分为n个时长为μ的区间，则总的出行时间T计算公式如下：

式中，T为总出行时间；N为路网内初始车辆数；q(i)为在时间i时进入路网的车辆数；s(i)为在时间i时离开路网的车辆数。

正常情况下，一般通过增加离开路网的车辆数以减小总出行时间T，而对于增加瓶颈区的车流量来说，根据交通流理论密度-流量关系可知，密度过大或过小，流量均达不到最大值，只有当密度取某一合适值时，瓶颈区的车流量才最大，此时的车辆密度为最佳密度，因此回报值(即奖励值)是根据某一路段的瓶颈区的车辆密度确定的，车辆密度越接近最佳密度其回报值(即奖励值)越大。

神经网络：包括实时神经网络和目标神经网络，通过训练后，对于特定状态，神经网络可以准确计算出限速值对应的Q值，DDQN智能体会直接选取Q值最大的限速值，即最优限速值。

动作的选择策略：DDQN智能体使用贪心策略ε-greedy算法选择限速值，就是以ε(ε是具体的一个值，且在0-1之间)概率随机选择限速值，1-ε概率选择Q值最大的限速值，因此收敛速度取决于ε的大小。在训练开始时，ε的值会设置的较大以保证充分搜索，随着训练的继续ε会逐渐减小，一旦找到最优的限速值，之后就可以一直选择这个限速值。

信息展示步骤：通过高速公路上布设的情报板将最优限速值进行展示以实现高速公路监控。具体地，可以通过可变信息板及时发布已更新的各路段各车道的限速值，能够及时影响驾驶员的驾驶行为，以确保动态可变限速的实施效果。

为了进一步验证本发明上述方法对路段通行效率的影响，以单位时间整个控制区域内通过的车辆数作为评价指标，不同管控策略下车流量随时间变化图如图4所示，分别对不限速(即曲线A)、固定限速值(即曲线B)和可变限速管控(即曲线C)条件下进行实验，具体参数信息设置见表1。

表1

在以上环境下进行实验，采取不同可变限速值管控策略对车辆总出行时间的影响如表2所示。

表2

综上，可以明显地看出在可变限速的管控策略下，车辆的总出行时间明显减少；不同管控条件下路段内的车流量均在某个区间内上下波动，但可变限速的管控策略的区间明显高于其他方式，具有较好的控制效果。

本发明还涉及一种基于深度强化学习算法的高速公路监控系统，包括依次连接的可变限速启动判断模块，可变限速值确定模块和信息展示模块，

优选地，可变限速启动判断模块中，通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值，则在某一路段的上游区域启动可变限速控制策略。

优选地，状态集包括某一路段的瓶颈区的车辆密度、上游区域的车辆密度和限速值，所述动作集包括不同限速值，且不同限速值均在路段允许的最高限速值和最低限速值之间。

优选地，可变限速值确定模块中，回报值根据某一路段的瓶颈区的车辆密度确定。

优选地，可变限速值确定模块中，从记忆池中选取经验样本时，采用TD误差计算经验样本被选取的概率。

本实施例的基于深度强化学习算法的高速公路监控系统具体选用NaSch模型作为仿真模型，在这一模型中，时间、空间以及速度都被离散化，高速公路被划分为多个离散的格子(即元胞)，每个元胞都是空的，或者每个元胞都被一辆车占据，每辆车的速度可以取1,2，...，Vmax，Vmax为最大速度。在时间步长增加的过程中，模型按照如下规则进行演化：

车辆加速：V_n→min(V_n+1,V_max)，即代表车辆若允许加速，则控制车辆的速度加一，体现司机倾向于以尽可能大的速度行驶。

车辆减速：V_n->min(V_n,D_n)，以确保车辆不会与前车发生碰撞。其中，V_n—>min(V_n,D_n)代表从V_n往min(V_n,D_n)逐渐演化，表示一个变化的趋势。D_n表示n车和前车n+1车之间的空元胞数(可以理解为距离)。

随机慢化：以随机概率p令V_n→max(V_n-1,0)，该规则用来体现驾驶人的行为差异，这样既可以反应随机加速行为，又可以反应减速过程中的过度反应行为。这一规则也是堵塞自发产生的至关重要因素。

位置更新：X_n->X_n+V_n，车辆按照更新后的速度继续向前移动。

本发明提供了客观、科学的基于深度强化学习算法的高速公路监控方法及系统，将深度学习与强化学习相结合，即采用深度强化学习算法，依靠状态集、动作集、回报函数和学习参数来实现最优限速值的求解。采用实时神经网络和目标神经网络对高速公路中各路段的车辆的可变限速进行控制，再通过对记忆池中的多个经验样本进行多次重复训练以获得最优限速值动作，并针对不同的交通流状态从记忆池中自动选取与每个交通流状态相对应的最优限速值动作，从而实现对各个路段的动态调节，不仅能够有效减少车辆间的速度差和追尾等事故的发生，缓解高速公路通行压力，还提高了车辆的通行效率和通行安全性，实现可变限速控制效果的优化。

应当指出，以上所述具体实施方式可以使本领域的技术人员更全面地理解本发明创造，但不以任何方式限制本发明创造。因此，尽管本说明书参照附图和实施例对本发明创造已进行了详细的说明，但是，本领域技术人员应当理解，仍然可以对本发明创造进行修改或者等同替换，总之，一切不脱离本发明创造的精神和范围的技术方案及其改进，其均应涵盖在本发明创造专利的保护范围当中。

Claims

1.一种基于深度强化学习算法的高速公路监控方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习算法的高速公路监控方法，其特征在于，所述可变限速启动判断步骤中，通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值，则在该路段的上游区域启动可变限速控制策略。

3.根据权利要求1所述的基于深度强化学习算法的高速公路监控方法，其特征在于，所述可变限速值确定步骤中，所述状态集包括某一路段的瓶颈区的车辆密度、上游区域的车辆密度和限速值，所述动作集包括不同限速值，且不同限速值均在路段允许的最高限速值和最低限速值之间。

4.根据权利要求3所述的基于深度强化学习算法的高速公路监控方法，其特征在于，所述可变限速值确定步骤中，所述回报值根据某一路段的瓶颈区的车辆密度确定。

5.根据权利要求1所述的基于深度强化学习算法的高速公路监控方法，其特征在于，所述可变限速值确定步骤中，从记忆池中选取经验样本时，采用TD误差计算经验样本被选取的概率。

6.一种基于深度强化学习算法的高速公路监控系统，其特征在于，包括依次连接的可变限速启动判断模块，可变限速值确定模块和信息展示模块，

7.根据权利要求6所述的基于深度强化学习算法的高速公路监控系统，其特征在于，所述可变限速启动判断模块中，通过高速公路上某一路段的事故风险等级和拥堵程度等级来反应某一路段的通行能力，若事故风险等级大于等于预设等级阈值，且拥堵程度等级大于等于预设等级阈值，则在该路段的上游区域启动可变限速控制策略。

8.根据权利要求6所述的基于深度强化学习算法的高速公路监控系统，其特征在于，所述可变限速值确定模块中，所述状态集包括某一路段的瓶颈区的车辆密度、上游区域的车辆密度和限速值，所述动作集包括不同限速值，且不同限速值均在路段允许的最高限速值和最低限速值之间。

9.根据权利要求6所述的基于深度强化学习算法的高速公路监控系统，其特征在于，所述可变限速值确定模块中，所述回报值根据某一路段的瓶颈区的车辆密度确定。

10.根据权利要求6所述的基于深度强化学习算法的高速公路监控系统，其特征在于，所述可变限速值确定模块中，从记忆池中选取经验样本时，采用TD误差计算经验样本被选取的概率。