CN112750298A

CN112750298A - 一种基于smdp和drl的货车编队动态资源分配方法

Info

Publication number: CN112750298A
Application number: CN202011493184.1A
Authority: CN
Inventors: 周舒雅; 梁宏斌
Original assignee: Individual
Current assignee: Hua Lu Yun Technology Co ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-05-04
Anticipated expiration: 2040-12-17
Also published as: CN112750298B

Abstract

本发明公开了一种基于SMDP和DRL的货车编队动态资源分配方法，具体的，先将控制货车编队的动态进出的过程建模为SMDP；然后通过规划算法得到的特定状态下的动作值作为深度强化学习DRL的样本来进行模型训练，最后通过训练后的模型对SMDP进行优化求解以得到一种逼近最优策略的货车编队资源分配方案。本发明提出的货车编队动态资源分配模型在降低请求处理延迟概率的同时，能够维持系统获得较高的回报。

Description

一种基于SMDP和DRL的货车编队动态资源分配方法

技术领域

本发明属于货车编队策略的资源分配技术领域，尤其涉及一种基于SMDP和DRL的货车编队动态资源分配方法。

背景技术

车联网技术的日趋成熟使智能交通逐渐成为研究热点，车载智能交通(C-V2X)是实现自主驾驶和智能交通系统的重要技术，车辆编队的研究随着C-V2X和智能交通的研究深入而不断发展。交通运输是石油消耗量增加的主要原因，其中公路运输占据着高达70％的最高的石油消耗。货运需求量的不断增加使环境污染问题日益凸显，编队行驶为其提供了有效的解决方案以减少对环境的污染。有效的编队控制不仅能够能通过减少车辆间距来增加交通密度和道路通行率，还能通过降低空气阻力达到节油的目的，这种技术大大提高运输企业的效率同时节约运输成本。因此，研究高速公路场景下雨的货车编队资源分配优化问题是智能交通未来发展的具有价值方向。

早在20多年前，美国宾夕法尼亚州率先着手开始对重型货车的编队技术的研究，之后所有主要货车制造商都发展自己的编队技术，并且已经在美国，日本，瑞典，澳大利亚等国家进行部署或正在进行现场测试。随着货车编队技术的不断发展，研究其对高速公路整体的影响变得越来越重要。通常情况下，货车编队主要包括编队规划阶段和编队运行阶段两大部分。编队的规划阶段主要通过相关算法根据辆车的起讫点、时间窗和行驶路径等因素来优化动态编队规划。其中，编队规划的算法设计目标是通过优化编队过程使得在公路系统资源一定的情况下最小化货车编队油耗、最大化编队容量以及系统总回报，从而规划车辆与车辆加入编队时的时间、地点、行驶速度等的匹配，以达到最优货车编队策略。编队运行阶段是在考虑安全性、稳定性的基础上，对货车编队纵向运行轨迹控制技术进行研究。在完成根据货车需求的编队形成任务后，货车编队运行问题便转化为货车之间相互运动状态控制问题，编队控制的目的是使多辆货车组成车队行驶，并保持一定的距离和同样的速度行驶，这也是目前学者研究最为深入的一部分。

上述货车编队的资源分配问题可被建模为随机状态过程。在随机状态问题的解决方案中，马尔科夫决策过程(MDP)被广泛应用于许多领域中的状态系统的建模，例如：通信工程、金融工程、图像处理、医疗等领域。与MDP相比，半马尔可夫决策过程(SMDP)是描述随机环境中序列决策问题的基本模型，具有的停留时间分布更一般。因此，在许多实际问题中有更广泛的应用。通常，SMDP模型的是通过值迭代、策略迭代或者线性规划进行求解，但是这些方法没有充分考虑各种建模因素的内在关系。

另一方面，强化学习(RL)已被证明是计算机和通信系统中解决被建模为随机过程的有效解决方案之一。不同于贪婪算法简单的优化当前系统奖励，RL通过考虑长期目标并与系统环境不断交互以反馈及时奖励，因此，RL代理通常可以生成近似最佳的系统策略。随着深度学习的发展，新兴的深度强化学习(DRL)将RL的过程与深度神经网络相结合，克服了由于状态空间的爆炸，导致RL中的Q-learning收敛缓慢的局限性。DRL技术包括一个离线深度神经网络(DNN)构建阶段以及一个在线动态深度Q-learning阶段，前者将值函数与相应的状态和动作相关联，后者则用于选择动作，系统控制和动态网络更新。Mao等人开发了一种DRL框架用于解决系统和网络中资源管理的在线决策问题。Foerster考虑了多个代理在环境中的感知和行为问题，目的是最大化其共享效用，并提出了强化智能体间学习(RIAL)和可分化智能体间学习(DIAL)两种方法。Z.Xu提出了一种用于在云无线电接入网(RAN)中进行资源分配的DRL框架，以节省功率并满足用户需求。为了提高资源受限的多波束卫星(MBS)系统中网络上的性能，Hu等人提出了一种用于动态资源分配的DRL框架，已解决动力学未知和计算量过高的问题。最近，Liu等人将DRL引入到移动边缘计算技术中，以使得车辆边缘计算网络的长期效用最大化。Ye,Hao提出了一种基于DRL的车辆对车辆(V2V)通信的分散资源分配机制，该机制可应用于单播和广播场景。

尽管以上工作对云计算和通信工程领域中的分配优化问题进行了大量的研究，但是目前针对高速交通系统的资源优化方案的研究极少。

发明内容

针对上述问题，根据高速公路系统移动性环境下编队车辆的动态需求，本发明提供一种基于SMDP和DRL的货车编队动态资源分配方法。

本发明的一种基于SMDP和DRL的货车编队动态资源分配方法，包括以下步骤：

步骤1：将控制货车编队的动态进出的过程建模为基于半马尔可夫决策过程SMDP的货车请求的最优编队资源分配模型。

步骤2：通过规划算法得到的特定状态下的动作值作为深度强化学习DRL的样本来进行模型训练。

步骤3：通过训练后的模型对SMDP进行优化求解得到一种最优策略的货车编队资源分配方案。

上述步骤1基于SMDP进行建模具体为：

对于任意给定的时间步t，系统处于特定的配置S_t，其中s_t∈S，S是所有可能状态的集合，表示为：

其中，

表示正在编队中运行的货车数量，N_h和N_l分别表示高优先级和低优先级货车数量；e∈{e_l，e_h，e_f}表示编队系统中的事件e_i，在该编队系统中，有三种类型的事件：编队接收到一个来自低优先级货车l的请求，记为e_l；编队接收到一个来自高优先级货车h的请求，记为e_h；编队中的货车结束运行并释放出其占用的编队资源，记作e_f，其中高优先级货车和低优先级货车离开编队并释放其占用的资源分别记作

和

当编队系统处于

状态时，动作集合表示为：

其中，

来表示编队系统拒绝该优先级的货车服务请求；

表示系统接收该优先级的货车服务请求，并分配相应的编队资源；

表示一辆位于编队中的货车离开编队并释放资源。

考虑编队专用车道和普通车道的总收入和支出，根据系统状态和相关动作，将整个系统收益视为Z(s，a)，即：

z(s，a)＝x(s，a)-y(s，a)

其中，x(s，a)表示编队系统在状态s下选择动作a的总收入，y(s，a)表示在状态s下选择动作a的总支出；高速公路总收入x(s，a)包括四部分：货车在编队专用道行驶的收入、货车在普通车道行驶的收入、除货车外其他车辆在普通车道行驶的收入和高优先级货车在编队专用道行驶时额外收取的费用，总收益公式如下：

其中，α表示高速公路系统根据货车i在编队专用道上行驶距离收费的系数；β表示货车在普通车道行驶时高速公路系统根据其行驶距离收费的系数；γ表示除货车外其他车辆在普通车道上行驶时根据行驶距离收费的系数；δ表示在高优先级货车在编队专用道行驶时因为其货车是高价值或危险产品而额外收取费用的系数。

总支出y(s，a)货车在普通车道和专用道行驶时占用道路资源的支出和在普通车道上除货车外其他车辆占用道路资源的支出，总支出表示为如下公式：

其中，a_l和ah分别表示低优先级和高优先级货车分别占用编队专用道的资源数量，U表示在货车在相应车道驾驶的单位成本，U_p和U_c分别表示货车在专用道和普通道驾驶时占用资源的单位成本；b_l，b_h和d_e表示在普通车道上低优先级货车、高优先级货车和除货车外其他车辆行驶时占用的道路资源；N_e表示在普通道上除货车外其他车辆的数量，U_e表示其他车辆在普通车道行驶的单位成本。

在系统模型中，由于两个决策时间点之间的平均期望时间t(s，a)服从指数分布，具体为高优先级和低优先级的请求到达率分别服从均值为λ_h和λ_l的泊松分布，编队内处理事件服从均值为1/μ_h和1/μ_l的指数分布；因此，所有事件的平均发生率ψ(s，a)可表示为：

用p(j|s，a)表示在当前状态s下选择动作a转移到下一状态j的状态转移概率。

在当前系统为

时，若编队系统选择的动作为a＝0，则下一可能系统状态为j₁＝〈N_l，N_h，e_l>，j₂＝〈N_l，N_h，e_h>，j₃＝〈N_l-1，N_h，e_f>和j₄＝〈N_l，N_h-1，e_f>；因此，转移概率表示为：

其中，0≤a_l·N_l+a_h·N_h≤M·C；M·C表示高速公路总的编队容量，M表示高速公路系统中编队数量。

当目前的系统状态为

时，选定的动作为a＝1，则下一个可能的系统状态为：j₅＝<N_l+1，N_h，e_l>，j₆＝<N_l+1，N_h，e_h>，j₇＝<Nl，N_h，e_f>和j₈＝〈N_l+1，N_h-1，e_f>；在这种情况下，编队系统的状态转移概率表示为：

当前系统状态为

选择动作为a＝1时，下一可能系统状态为j₉＝<N_l，N_h+1，e_l>，j₁₀＝〈N_l，N_h+1，e_h>，j₁₀＝〈N_l，N_h+1，e_h>和j₁₂＝〈N_l，N_h，e_f>；在此情况下，状态转移概率表示为：

根据折扣收益模型，期望折扣收益为：

因此，得到编队系统的长期最大期望折扣收益：

其中，

定义一个常数w＝λ_l+λh+K·max(μ₁，μ2)；提出的自适应分配模型的最大期望归一化长期折扣收益如下：

其中归一化参数表示为

上述步骤2中深度强化学习具体为：

使用带参数ω的神经网络来逼近Q函数并生成动作值，神经网络的输入为状态s，输出为动作值Q(s，a；ω)，即Q值；在神经网络输出Q值后，采用ε-贪心策略来选择动作a，该策略随机抽取一个概率为ε∈(0，1)的动作，或者选择估计Q值最高的动作，即选择概率为1-ε的动作a＝arg max_atQ(s_t，a_t；ω)；采用均方误差作为DQN神经网络的损失函数，其定义为：

其中，

是由参数ω-的目标网络的结果计算出的目标Q值，Q(st，at；ω)是参数ω的评估网络输出的评估Q值；目标网络的初始参数与评估网络相同；在观察到编队系统的即时奖励r_t和下一个状态s_t+1后，状态转换(s_t+1，a_t+1，r_t+1，s_t+1)将被存储到经验存储器D中。

本发明的有益技术效果为：

(1)本发明首次提出将货车编队系统的资源分配通过SMDP进行建模，该模型实现的货车编队的资源优化分配策略，在兼顾系统效益和成本的前提下，可以获得最大的编队系统回报。

(2)为了解决货车编队资源分配问题，本发明针对编队场景分别设计了DRL带来的动作空间、状态空间以及奖励函数，将给定的资源分配问题形式化为凸优化问题，并用DNN逼近行动决策的行动值函数。仿真结果表明，本发明提出的基于DRL算法求解的货车编队资源分配模型的性能与传统的数值迭代算法求解的性能优于传统优化求解算法。

附图说明

图1为货车编队系统示意图。

图2为用于货车编队系统的深度强化学习框架。

图3为算法1的过程。

图4为深度Q网络的框架。

图5为算法2的过程。

图6为在高优先级车辆不同编队请求到达率下的平均奖励。

图7为在高优先级车辆不同编队请求到达率下的平均延迟率。

图8为不同系统资源数下的平均奖励。

图9为不同系统资源数下的低优先级请求拒绝率。

图10为不同系统资源数下的低优先级请求拒绝率。

图11、图12为不同高优先级货车编队请求到达率下的高优先级和低优先级货车编队请求分配不同数量的RU的概率。

具体实施方式

下面结合附图和具体实施了对本发明做进一步详细说明。

本发明的一种基于SMDP和DRL的货车编队动态资源分配方法，具体为：

1、将控制货车编队的动态进出的过程建模为基于半马尔可夫决策过程SMDP的货车请求的最优编队资源分配模型。

图1显示了一个货车编队系统的说明。货车发出编队的请求通过基站传送给编队系统控制中心，然后系统将根据当前可用的资源数量决定延迟或立即处理请求。如果决定系统接收请求，则会根据货车的需求分配资源数。然而，如果系统将最大数量的资源分配给当前车辆请求，则可能会缺少可用的资源而延迟后续的请求处理，从而降低货车的体验质量和系统的长期回报。因此，为了实现货车编队中资源的动态分配目标，本发明将货车编队的动态进出过程通过SMDP进行建模。具体的，基于SMDP建模包括五个要素，即：系统状态、动作集合、收益模型、决策时间点和状态转移概率。

系统状态：

其中，

和

动作集合：

当编队系统处于s状态时，动作集合表示为：

其中，

来表示编队系统拒绝该优先级的货车服务请求；

表示一辆位于编队中的货车离开编队并释放资源。

收益模型：

从高速公路系统的角度考虑收益模型，即：考虑编队专用车道和普通车道的总收入和支出，根据系统状态和相关动作，将整个系统收益视为Z(s，a)，即：

z(s，a)＝x(s，a)-y(s，a)

其中，a_l和a_h分别表示低优先级和高优先级货车分别占用编队专用道的资源数量，U表示在货车在相应车道驾驶的单位成本，U_p和U_c分别表示货车在专用道和普通道驾驶时占用资源的单位成本；b_l，b_h和d_e表示在普通车道上低优先级货车、高优先级货车和除货车外其他车辆行驶时占用的道路资源；N_e表示在普通道上除货车外其他车辆的数量，U_e表示其他车辆在普通车道行驶的单位成本。

决策时间点：

状态转移概率：

在当前系统为

时，若编队系统选择的动作为a＝0，则下一可能系统状态为j₁＝〈N_l，N_h，e_l>，j₂＝〈N_l，N_h，e_h>，j₃＝〈N_l-1，N_h，e_f>(N_l≥1)和j₄＝<N_l，N_h-1，e_f>(N_h≥1)；因此，转移概率表示为：

当目前的系统状态为

时，选定的动作为a＝1，则下一个可能的系统状态为：j₅＝<N_l+1，N_h，e_l>，j₆＝<N_l+1，N_h，e_h>，j₇＝〈N_l，N_h，e_f>和j₈＝〈N_l+1，N_h-1，e_f>(N_h≥1)；在这种情况下，编队系统的状态转移概率表示为：

当前系统状态为

选择动作为a＝1时，下一可能系统状态为j₉＝<N_l，N_h+1，e_l>，j₁₀＝<N_l，N_h+1，e_h>，j₁₀＝〈N_l，N_h+1，e_h>(Nl≥1)和j₁₂＝〈N_l，N_h，e_f>；在此情况下，状态转移概率表示为：

根据折扣收益模型，期望折扣收益为：

因此，得到编队系统的长期最大期望折扣收益：

其中，

定义一个常数w＝λ_l+λ_h+K·max(μ₁，μ₂)；提出的自适应分配模型的最大期望归一化长期折扣收益如下：

其中归一化参数表示为

因此，通过计算SMDP-Bellman最优方程的状态-值函数，可以得到最优的策略，这可以通过寻找A和资源分配的最优值来解决，但由于动作变量A是二元变量，模型的可行集和目标函数不是凸的。此外，本发明还考虑了实际场景，即有多种不同型号的货车参与编队，同时车辆分配的资源数也是动态的。在这种情况下，服务系统需要收集大量的系统状态，并根据系统的当前状态对编队中的每辆货车进行资源管控的全局决策。另外，当货车数量时，编队系统的规模会迅速增加，因此求解由Knapsack问题扩展而来的非凸问题是NP难的。与传统的优化方法(例如：贪婪算法，值迭代算法)求解该问题不同，在本发明中，提出了深度强化学习方法来解决该问题。

强化学习(RL)是机器学习的一个分支，其重点是获取环境中的知识，改进适应环境的行动策略以及制定决策顺序。在RL中有四个关键要素：代理，环境状态，奖励和行动。图2显示了用于货车编队系统的深度强化学习框架，对于每个情节(episode)，首先，在每个步骤t，代理获取对环境的观察，即状态s_t，并根据此从动作空间A中采取动作，选择分配一定量的资源数或延迟请求事件，决策动作π可由状态-动作确定，此过程可以通过强化学习来近似。根据代理所采取的行动，环境进入新状态s_t+1，同时代理从环境中获得回报r_t。

Q学习是一种经典的RL算法，是一种无模型的学习方法，可估算状态-动作对的最佳Q值。它使用存储在Q表中的动作值Q(s_t，a_t)根据当前状态选择动作。更具体地说，将状态s_t和动作a对的Q值定义为Q(s，a)。对于每个步骤，代理计算Q(s，a)并将其存储在Q表中，该值可以视为长期奖励，然后Q(s，a)可以表示为：

其中，γ定义为学习参数，γ是一个满足0≤γ≤1的常数。值得注意的是，如果γ趋于0则表示系统代理主要考虑当前回报，如果γ趋于1表明代理更加关注未来的回报。在Q学习的每个情节(episode)开始时，都会初始化环境状态s。对于情节中的每个步骤t，应首先根据当前状态选择动作。然后，可以获得相应的奖励r_t和下一状态s_t+1。随后，动作值Q(s_t，a_t)应该更新为：

其中β∈(0，1)为学习速率，然后将重复此过程，直到达到终端状态为止。算法1展示了Q学习算法的过程(如图3所示)。

通常，Q学习使用Q表来存储动作-值，假设使用Q学习方法，需要计算其对应的Q值并将其存储在表中，矩阵Q(s，a)将非常大，同时在一个大表中频繁地搜索对应的状态是非常耗时的。因此，在这种方式下难以获得足够的样本来遍历每个状态，这将导致算法失败。而在应用的场景中，编队环境的状态是复杂多变的，使用一个表来存储所有的动作值可能是不切实际的。所以，使用深度神经网络来估计Q(s，a)，而不是为每个状态动作对计算Q值，这是也深度Q网络(DQN)的基本思想。

如图4所示，DQN直接使用带参数ω的神经网络来逼近Q函数并生成动作值。神经网络的输入为状态s，输出为动作值Q(s，a；ω)。在不损失精度的情况下，本发明使用Q值表示动作值Q(s，a；ω)。在神经网络输出Q值后，我们采用ε-贪心策略来选择动作a。该策略随机抽取一个概率为ε∈(0，1)的动作，或者选择估计Q值最高的动作，即选择概率为1-ε的动作a＝arg max_atQ(s_t，a_t；ω)。神经网络训练需要损失函数优化过程，并通过反向传播和梯度下降优化算法来更新神经网络的参数。DQN的目标是使Q值接近目标Q值，Q学习算法提供所谓的标签。本文采用均方误差(MSE)作为DQN神经网络的损失函数，其定义为：

其中，

是由参数ω-的目标网络的结果计算出的目标Q值，Q(st，at；ω)是参数ω的评估网络输出的评估Q值。目标网络的初始参数与评估网络相同。在观察到编队系统的即时奖励r_t和下一个状态s_t+1后，状态转换(s_t+1,a_t+1,r_t+1,s_t+1)将被存储到经验存储器D中。

算法2显示了基于DQN的资源分配算法的详细信息(如图5所示)。在给定状态、动作和奖励三个关键元素的情况下，首先初始化具有一定容量N的经验重放存储器(experiencereplay memory)D和具有随机权重的动作-值函数Q以及随机参数ω和ω-的评估和目标网络。对于每一个事件m，首先初始化状态序列s，然后对于每个步骤t，将状态s_t作为评估网络的输入，并根据基于ε-贪心策略选择随机动作a_t。这样处理过后，可以通过预定义的标准获得当前奖励和下一状态s_t+1，最后我们在D中储存(s_t，a_t，r_t，s_t+1)来更新评估网络参数。

仿真实验：

本发明对100km高速公路进行研究，假设普通道和编队专用道的宽度都为3.75米。在仿真中，每个编队的最大容量为10辆货车，即j＝10。低优先级货车和高优先级货车根据其占有面积在编队中分别占用1RU、2RU、3RU和4RU、5RU、RU。假设货车长度为8米，在编队专用道的平均速度为80km/h，编队内车头时距为15米。当货车在普通道驾驶时，速度不能超过100km/h，车头时距为80米。因此可得出100km内编队专用道和普通道的最大容量，分别为4347和1136辆货车。显然，编队系统能使货车更安全、更紧密的一起行驶，还能最大化高速公路的吞吐量。我们的DQN是分别由包含500、250和120个神经元的隐藏层构成的全连接网络。为确保收敛，折扣系数设置为0.1。使用Relu的激活函数，初始学习率为0.01。本节利用基于Matlab的事件生成器对所提出的自适应货车编队资源分配模型进行了验证和评估。所有的仿真实验均在一台配备Intel i7-7700k 3.60GHz的CPU，32G RAM，和NVIDIA RTX 207011G GPU的工作平台上完成。仿真实验的具体参数见表1。

表1仿真参数

在仿真实验中，我们将提出的高速公路货车编队中的资源分配问题的模型求解通过数值迭代算法和贪婪算法两种常用的传统方法进行求解，此外使用了提出的深度强化学习算法对模型进行了求解，为了对比实验我们同时使用了Q-learning算法。通过这些优化算法，以期获得模型的最佳策略。

采用数值迭代算法进行模型的求解需要预先设定一些条件。这里我们的预设条件有：货车请求的处理时间是其占用的RU数量的倒数函数，即f(l)＝1/l。同时，假设占用1个RU的货车的平均离开率是τ＝6.6，而低优先级和高优先级车辆请求的平均到达率为λn＝2.4和λu＝7.2。根据货车的不同占用面积等级将其完成货车请求的平均离开率计算为：τl＝τ/f(l)＝τl即τ3＝19.8，τ2＝13.2和τ1＝6.6。

为了评估我们提出的高速公路货车编队资源分配模型的性能，将高优先级货车在不同的编队请求到达率下所获得的预期奖励和延迟概率进行对比，分别如图6和图7所示。

从图6中可以看出，贪婪算法、VI算法和Q-learning算法在高优先级车辆不同编队请求到达率下的获得平均奖励均低于DQN算法。此外，随着高优先级货车编队请求到达率的增加，收到的请求数量增加，可用的编队资源数逐渐减少。因此，通过这4种优化算法方法获得的平均回报的增长速率逐渐减小。同时，可以从图7中看出，DQN算法在不同高优先级货车编队请求下的延迟概率均低于其它3种算法。由于处理货车编队请求的延迟与接受请求并分配资源操作相比，前者对系统总收益有更大的负面影响。相较于其它三种方法，采用DQN求解我们提出的模型能够使编队系统在较低延迟概率情况下为高优先级货车编队请求获得了更多的回报。换句话说，与其它算法相比，我们提出的模型获得更多的紧急请求奖励，同时保持较低的请求延迟概率。

此外，为了充分说明DQN算法对于货车编队模型构建的有效性，我们保持高优先和低优先级货车编队请求到达概率不变，通过在编队系统不同的资源总数下4种优化算法的获得的长期平均奖励进行对比实验。如图8所示，随着系统资源总数的增长，4种优化算法所获得奖励也随之增长。同时，随着资源总数的增长，DQN算法所获得的奖励的增长速率略大于其它3种算法。以上情况的出现有两个原因：第一，在实验仿真中，我们考虑到实际情况将接受货车编队请求所获得奖励的设置成远低于采取延迟请求操作的成本开销。第二，当编队系统中资源数量较少时，货车的编队请求会出现较高的延迟概率。如图9和图10所示，当编队系统的总资源数为10RU时，四种方法的低优先级编队请求延迟概率达到了50％，高优先级编队请求延迟率更是高达70％以上。比较贪心算法和采用的DQN算法之间的平均请求的奖励，如图8所示，通常，我们提出的模型的紧急车辆请求的奖励比贪婪算法的紧急请求的奖励超过50％以上。

从图9、图10可以看出，低优先级和高优先级货车编队请求的延迟率整体随着编队系统的资源总数逐渐降低。同时可以看出，由于接受高优先级别货车的编队请求需要的分配较多的系统资源，所以高优先级别比低优先级别货车的编队请求拒绝概率整体都高。此外，DQN算法在低优先级和高优先级的请求延迟率与VI算法分别低40％和35％。

在另一方面，我们比较了4种方法在不同高优先级货车编队请求到达率下的高优先级和低优先级货车编队请求分配不同数量的RU的概率。如图11和图12所示，4种模型优化方法均倾向于接受占用资源数多的货车请求(即，高优先级货车编队请求分配6个RU，低优先级货车编队请求分配3个RU)。这是因为，当编队系统为货车请求分配更多的资源时，请求的处理速度将提高，同时占用货车请求的持续时间将缩短，所以货车编队系统可以接受并处理更多的车辆请求。

本发明提出了一种基于半马尔可夫决策过程(SMDP)和深度强化学习的高速公路货车编队系统智能资源分配模型。提出的模型同时考虑了编队系统的成本和收入、不同的高优先级货车编队请求到达概率和不同的编队系统资源数下模型的性能。构建的模型能够根据可用的资源数量最大化货车编队系统的回报，同时也能根据货车编队请求合理的分配多种数量的资源。另一方面，由于求解模型的传统方法需要一些强制的假设条件，这限制了其应用与实际场景。因此，我们在本发明中采用了深度强化强化学习算法，以解决我们提出的智能资源分配模型，以在没有任何预设假设的情况下获得最佳优化策略，同时也可以很好地适应不断变化的货车编队场景。仿真实验结果表明，相比对于贪婪算法、VI算法和Q-learning算法，本发明使用的深度Q网络(DQN)网络在多种实验条件下能够使编队系统获得更高的回报，同时编队请求的延误概率更低。

Claims

1.一种基于SMDP和DRL的货车编队动态资源分配方法，其特征在于，包括以下步骤：

步骤1：将控制货车编队的动态进出的过程建模为基于半马尔可夫决策过程SMDP的货车请求的最优编队资源分配模型；

步骤2：通过规划算法得到的特定状态下的动作值作为深度强化学习DRL的样本来进行模型训练；

2.根据权利要求1所述的一种基于SMDP和DRL的货车编队动态资源分配方法，其特征在于，所述步骤1基于SMDP进行建模具体为：

其中，

和

当编队系统处于

状态时，动作集合表示为：

其中，

来表示编队系统拒绝该优先级的货车服务请求；

表示一辆位于编队中的货车离开编队并释放资源；

z(s，a)＝x(s，a)-y(s，a)

其中，α表示高速公路系统根据货车i在编队专用道上行驶距离收费的系数；β表示货车在普通车道行驶时高速公路系统根据其行驶距离收费的系数；γ表示除货车外其他车辆在普通车道上行驶时根据行驶距离收费的系数；δ表示在高优先级货车在编队专用道行驶时因为其货车是高价值或危险产品而额外收取费用的系数；

其中，a_l和a_h分别表示低优先级和高优先级货车分别占用编队专用道的资源数量，U表示在货车在相应车道驾驶的单位成本，U_p和U_c分别表示货车在专用道和普通道驾驶时占用资源的单位成本；b_l，b_h和d_e表示在普通车道上低优先级货车、高优先级货车和除货车外其他车辆行驶时占用的道路资源；N_e表示在普通道上除货车外其他车辆的数量，U_e表示其他车辆在普通车道行驶的单位成本；