CN112750298A - 一种基于smdp和drl的货车编队动态资源分配方法 - Google Patents

一种基于smdp和drl的货车编队动态资源分配方法 Download PDF

Info

Publication number
CN112750298A
CN112750298A CN202011493184.1A CN202011493184A CN112750298A CN 112750298 A CN112750298 A CN 112750298A CN 202011493184 A CN202011493184 A CN 202011493184A CN 112750298 A CN112750298 A CN 112750298A
Authority
CN
China
Prior art keywords
formation
truck
priority
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011493184.1A
Other languages
English (en)
Other versions
CN112750298B (zh
Inventor
周舒雅
梁宏斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hua Lu Yun Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011493184.1A priority Critical patent/CN112750298B/zh
Publication of CN112750298A publication Critical patent/CN112750298A/zh
Application granted granted Critical
Publication of CN112750298B publication Critical patent/CN112750298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • G08G1/096805Systems involving transmission of navigation instructions to the vehicle where the transmitted instructions are used to compute a route
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/22Platooning, i.e. convoy of communicating vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Atmospheric Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于SMDP和DRL的货车编队动态资源分配方法,具体的,先将控制货车编队的动态进出的过程建模为SMDP;然后通过规划算法得到的特定状态下的动作值作为深度强化学习DRL的样本来进行模型训练,最后通过训练后的模型对SMDP进行优化求解以得到一种逼近最优策略的货车编队资源分配方案。本发明提出的货车编队动态资源分配模型在降低请求处理延迟概率的同时,能够维持系统获得较高的回报。

Description

一种基于SMDP和DRL的货车编队动态资源分配方法
技术领域
本发明属于货车编队策略的资源分配技术领域,尤其涉及一种基于SMDP和DRL的货车编队动态资源分配方法。
背景技术
车联网技术的日趋成熟使智能交通逐渐成为研究热点,车载智能交通(C-V2X)是实现自主驾驶和智能交通系统的重要技术,车辆编队的研究随着C-V2X和智能交通的研究深入而不断发展。交通运输是石油消耗量增加的主要原因,其中公路运输占据着高达70%的最高的石油消耗。货运需求量的不断增加使环境污染问题日益凸显,编队行驶为其提供了有效的解决方案以减少对环境的污染。有效的编队控制不仅能够能通过减少车辆间距来增加交通密度和道路通行率,还能通过降低空气阻力达到节油的目的,这种技术大大提高运输企业的效率同时节约运输成本。因此,研究高速公路场景下雨的货车编队资源分配优化问题是智能交通未来发展的具有价值方向。
早在20多年前,美国宾夕法尼亚州率先着手开始对重型货车的编队技术的研究,之后所有主要货车制造商都发展自己的编队技术,并且已经在美国,日本,瑞典,澳大利亚等国家进行部署或正在进行现场测试。随着货车编队技术的不断发展,研究其对高速公路整体的影响变得越来越重要。通常情况下,货车编队主要包括编队规划阶段和编队运行阶段两大部分。编队的规划阶段主要通过相关算法根据辆车的起讫点、时间窗和行驶路径等因素来优化动态编队规划。其中,编队规划的算法设计目标是通过优化编队过程使得在公路系统资源一定的情况下最小化货车编队油耗、最大化编队容量以及系统总回报,从而规划车辆与车辆加入编队时的时间、地点、行驶速度等的匹配,以达到最优货车编队策略。编队运行阶段是在考虑安全性、稳定性的基础上,对货车编队纵向运行轨迹控制技术进行研究。在完成根据货车需求的编队形成任务后,货车编队运行问题便转化为货车之间相互运动状态控制问题,编队控制的目的是使多辆货车组成车队行驶,并保持一定的距离和同样的速度行驶,这也是目前学者研究最为深入的一部分。
上述货车编队的资源分配问题可被建模为随机状态过程。在随机状态问题的解决方案中,马尔科夫决策过程(MDP)被广泛应用于许多领域中的状态系统的建模,例如:通信工程、金融工程、图像处理、医疗等领域。与MDP相比,半马尔可夫决策过程(SMDP)是描述随机环境中序列决策问题的基本模型,具有的停留时间分布更一般。因此,在许多实际问题中有更广泛的应用。通常,SMDP模型的是通过值迭代、策略迭代或者线性规划进行求解,但是这些方法没有充分考虑各种建模因素的内在关系。
另一方面,强化学习(RL)已被证明是计算机和通信系统中解决被建模为随机过程的有效解决方案之一。不同于贪婪算法简单的优化当前系统奖励,RL通过考虑长期目标并与系统环境不断交互以反馈及时奖励,因此,RL代理通常可以生成近似最佳的系统策略。随着深度学习的发展,新兴的深度强化学习(DRL)将RL的过程与深度神经网络相结合,克服了由于状态空间的爆炸,导致RL中的Q-learning收敛缓慢的局限性。DRL技术包括一个离线深度神经网络(DNN)构建阶段以及一个在线动态深度Q-learning阶段,前者将值函数与相应的状态和动作相关联,后者则用于选择动作,系统控制和动态网络更新。Mao等人开发了一种DRL框架用于解决系统和网络中资源管理的在线决策问题。Foerster考虑了多个代理在环境中的感知和行为问题,目的是最大化其共享效用,并提出了强化智能体间学习(RIAL)和可分化智能体间学习(DIAL)两种方法。Z.Xu提出了一种用于在云无线电接入网(RAN)中进行资源分配的DRL框架,以节省功率并满足用户需求。为了提高资源受限的多波束卫星(MBS)系统中网络上的性能,Hu等人提出了一种用于动态资源分配的DRL框架,已解决动力学未知和计算量过高的问题。最近,Liu等人将DRL引入到移动边缘计算技术中,以使得车辆边缘计算网络的长期效用最大化。Ye,Hao提出了一种基于DRL的车辆对车辆(V2V)通信的分散资源分配机制,该机制可应用于单播和广播场景。
尽管以上工作对云计算和通信工程领域中的分配优化问题进行了大量的研究,但是目前针对高速交通系统的资源优化方案的研究极少。
发明内容
针对上述问题,根据高速公路系统移动性环境下编队车辆的动态需求,本发明提供一种基于SMDP和DRL的货车编队动态资源分配方法。
本发明的一种基于SMDP和DRL的货车编队动态资源分配方法,包括以下步骤:
步骤1:将控制货车编队的动态进出的过程建模为基于半马尔可夫决策过程SMDP的货车请求的最优编队资源分配模型。
步骤2:通过规划算法得到的特定状态下的动作值作为深度强化学习DRL的样本来进行模型训练。
步骤3:通过训练后的模型对SMDP进行优化求解得到一种最优策略的货车编队资源分配方案。
上述步骤1基于SMDP进行建模具体为:
对于任意给定的时间步t,系统处于特定的配置St,其中st∈S,S是所有可能状态的集合,表示为:
Figure BDA0002841304490000031
其中,
Figure BDA0002841304490000032
表示正在编队中运行的货车数量,Nh和Nl分别表示高优先级和低优先级货车数量;e∈{el,eh,ef}表示编队系统中的事件ei,在该编队系统中,有三种类型的事件:编队接收到一个来自低优先级货车l的请求,记为el;编队接收到一个来自高优先级货车h的请求,记为eh;编队中的货车结束运行并释放出其占用的编队资源,记作ef,其中高优先级货车和低优先级货车离开编队并释放其占用的资源分别记作
Figure BDA0002841304490000033
Figure BDA0002841304490000034
当编队系统处于
Figure BDA0002841304490000035
状态时,动作集合表示为:
Figure BDA0002841304490000036
其中,
Figure BDA0002841304490000037
来表示编队系统拒绝该优先级的货车服务请求;
Figure BDA0002841304490000038
表示系统接收该优先级的货车服务请求,并分配相应的编队资源;
Figure BDA0002841304490000039
表示一辆位于编队中的货车离开编队并释放资源。
考虑编队专用车道和普通车道的总收入和支出,根据系统状态和相关动作,将整个系统收益视为Z(s,a),即:
z(s,a)=x(s,a)-y(s,a)
其中,x(s,a)表示编队系统在状态s下选择动作a的总收入,y(s,a)表示在状态s下选择动作a的总支出;高速公路总收入x(s,a)包括四部分:货车在编队专用道行驶的收入、货车在普通车道行驶的收入、除货车外其他车辆在普通车道行驶的收入和高优先级货车在编队专用道行驶时额外收取的费用,总收益公式如下:
Figure BDA0002841304490000041
其中,α表示高速公路系统根据货车i在编队专用道上行驶距离收费的系数;β表示货车在普通车道行驶时高速公路系统根据其行驶距离收费的系数;γ表示除货车外其他车辆在普通车道上行驶时根据行驶距离收费的系数;δ表示在高优先级货车在编队专用道行驶时因为其货车是高价值或危险产品而额外收取费用的系数。
总支出y(s,a)货车在普通车道和专用道行驶时占用道路资源的支出和在普通车道上除货车外其他车辆占用道路资源的支出,总支出表示为如下公式:
Figure BDA0002841304490000042
其中,al和ah分别表示低优先级和高优先级货车分别占用编队专用道的资源数量,U表示在货车在相应车道驾驶的单位成本,Up和Uc分别表示货车在专用道和普通道驾驶时占用资源的单位成本;bl,bh和de表示在普通车道上低优先级货车、高优先级货车和除货车外其他车辆行驶时占用的道路资源;Ne表示在普通道上除货车外其他车辆的数量,Ue表示其他车辆在普通车道行驶的单位成本。
在系统模型中,由于两个决策时间点之间的平均期望时间t(s,a)服从指数分布,具体为高优先级和低优先级的请求到达率分别服从均值为λh和λl的泊松分布,编队内处理事件服从均值为1/μh和1/μl的指数分布;因此,所有事件的平均发生率ψ(s,a)可表示为:
Figure BDA0002841304490000051
用p(j|s,a)表示在当前状态s下选择动作a转移到下一状态j的状态转移概率。
在当前系统为
Figure BDA0002841304490000052
时,若编队系统选择的动作为a=0,则下一可能系统状态为j1=〈Nl,Nh,el>,j2=〈Nl,Nh,eh>,j3=〈Nl-1,Nh,ef>和j4=〈Nl,Nh-1,ef>;因此,转移概率表示为:
Figure BDA0002841304490000053
其中,0≤al·Nl+ah·Nh≤M·C;M·C表示高速公路总的编队容量,M表示高速公路系统中编队数量。
当目前的系统状态为
Figure BDA0002841304490000054
时,选定的动作为a=1,则下一个可能的系统状态为:j5=<Nl+1,Nh,el>,j6=<Nl+1,Nh,eh>,j7=<Nl,Nh,ef>和j8=〈Nl+1,Nh-1,ef>;在这种情况下,编队系统的状态转移概率表示为:
Figure BDA0002841304490000055
当前系统状态为
Figure BDA0002841304490000056
选择动作为a=1时,下一可能系统状态为j9=<Nl,Nh+1,el>,j10=〈Nl,Nh+1,eh>,j10=〈Nl,Nh+1,eh>和j12=〈Nl,Nh,ef>;在此情况下,状态转移概率表示为:
Figure BDA0002841304490000061
根据折扣收益模型,期望折扣收益为:
Figure BDA0002841304490000062
因此,得到编队系统的长期最大期望折扣收益:
Figure BDA0002841304490000063
其中,
Figure BDA0002841304490000064
定义一个常数w=λl+λh+K·max(μ1,μ2);提出的自适应分配模型的最大期望归一化长期折扣收益如下:
Figure BDA0002841304490000065
其中归一化参数表示为
Figure BDA0002841304490000066
上述步骤2中深度强化学习具体为:
使用带参数ω的神经网络来逼近Q函数并生成动作值,神经网络的输入为状态s,输出为动作值Q(s,a;ω),即Q值;在神经网络输出Q值后,采用ε-贪心策略来选择动作a,该策略随机抽取一个概率为ε∈(0,1)的动作,或者选择估计Q值最高的动作,即选择概率为1-ε的动作a=arg maxatQ(st,at;ω);采用均方误差作为DQN神经网络的损失函数,其定义为:
Figure BDA0002841304490000067
其中,
Figure BDA0002841304490000068
是由参数ω-的目标网络的结果计算出的目标Q值,Q(st,at;ω)是参数ω的评估网络输出的评估Q值;目标网络的初始参数与评估网络相同;在观察到编队系统的即时奖励rt和下一个状态st+1后,状态转换(st+1,at+1,rt+1,st+1)将被存储到经验存储器D中。
本发明的有益技术效果为:
(1)本发明首次提出将货车编队系统的资源分配通过SMDP进行建模,该模型实现的货车编队的资源优化分配策略,在兼顾系统效益和成本的前提下,可以获得最大的编队系统回报。
(2)为了解决货车编队资源分配问题,本发明针对编队场景分别设计了DRL带来的动作空间、状态空间以及奖励函数,将给定的资源分配问题形式化为凸优化问题,并用DNN逼近行动决策的行动值函数。仿真结果表明,本发明提出的基于DRL算法求解的货车编队资源分配模型的性能与传统的数值迭代算法求解的性能优于传统优化求解算法。
附图说明
图1为货车编队系统示意图。
图2为用于货车编队系统的深度强化学习框架。
图3为算法1的过程。
图4为深度Q网络的框架。
图5为算法2的过程。
图6为在高优先级车辆不同编队请求到达率下的平均奖励。
图7为在高优先级车辆不同编队请求到达率下的平均延迟率。
图8为不同系统资源数下的平均奖励。
图9为不同系统资源数下的低优先级请求拒绝率。
图10为不同系统资源数下的低优先级请求拒绝率。
图11、图12为不同高优先级货车编队请求到达率下的高优先级和低优先级货车编队请求分配不同数量的RU的概率。
具体实施方式
下面结合附图和具体实施了对本发明做进一步详细说明。
本发明的一种基于SMDP和DRL的货车编队动态资源分配方法,具体为:
1、将控制货车编队的动态进出的过程建模为基于半马尔可夫决策过程SMDP的货车请求的最优编队资源分配模型。
图1显示了一个货车编队系统的说明。货车发出编队的请求通过基站传送给编队系统控制中心,然后系统将根据当前可用的资源数量决定延迟或立即处理请求。如果决定系统接收请求,则会根据货车的需求分配资源数。然而,如果系统将最大数量的资源分配给当前车辆请求,则可能会缺少可用的资源而延迟后续的请求处理,从而降低货车的体验质量和系统的长期回报。因此,为了实现货车编队中资源的动态分配目标,本发明将货车编队的动态进出过程通过SMDP进行建模。具体的,基于SMDP建模包括五个要素,即:系统状态、动作集合、收益模型、决策时间点和状态转移概率。
系统状态:
对于任意给定的时间步t,系统处于特定的配置St,其中st∈S,S是所有可能状态的集合,表示为:
Figure BDA0002841304490000081
其中,
Figure BDA0002841304490000082
表示正在编队中运行的货车数量,Nh和Nl分别表示高优先级和低优先级货车数量;e∈{el,eh,ef}表示编队系统中的事件ei,在该编队系统中,有三种类型的事件:编队接收到一个来自低优先级货车l的请求,记为el;编队接收到一个来自高优先级货车h的请求,记为eh;编队中的货车结束运行并释放出其占用的编队资源,记作ef,其中高优先级货车和低优先级货车离开编队并释放其占用的资源分别记作
Figure BDA0002841304490000087
Figure BDA0002841304490000088
动作集合:
当编队系统处于s状态时,动作集合表示为:
Figure BDA0002841304490000083
其中,
Figure BDA0002841304490000084
来表示编队系统拒绝该优先级的货车服务请求;
Figure BDA0002841304490000085
表示系统接收该优先级的货车服务请求,并分配相应的编队资源;
Figure BDA0002841304490000086
表示一辆位于编队中的货车离开编队并释放资源。
收益模型:
从高速公路系统的角度考虑收益模型,即:考虑编队专用车道和普通车道的总收入和支出,根据系统状态和相关动作,将整个系统收益视为Z(s,a),即:
z(s,a)=x(s,a)-y(s,a)
其中,x(s,a)表示编队系统在状态s下选择动作a的总收入,y(s,a)表示在状态s下选择动作a的总支出;高速公路总收入x(s,a)包括四部分:货车在编队专用道行驶的收入、货车在普通车道行驶的收入、除货车外其他车辆在普通车道行驶的收入和高优先级货车在编队专用道行驶时额外收取的费用,总收益公式如下:
Figure BDA0002841304490000091
其中,α表示高速公路系统根据货车i在编队专用道上行驶距离收费的系数;β表示货车在普通车道行驶时高速公路系统根据其行驶距离收费的系数;γ表示除货车外其他车辆在普通车道上行驶时根据行驶距离收费的系数;δ表示在高优先级货车在编队专用道行驶时因为其货车是高价值或危险产品而额外收取费用的系数。
总支出y(s,a)货车在普通车道和专用道行驶时占用道路资源的支出和在普通车道上除货车外其他车辆占用道路资源的支出,总支出表示为如下公式:
Figure BDA0002841304490000092
其中,al和ah分别表示低优先级和高优先级货车分别占用编队专用道的资源数量,U表示在货车在相应车道驾驶的单位成本,Up和Uc分别表示货车在专用道和普通道驾驶时占用资源的单位成本;bl,bh和de表示在普通车道上低优先级货车、高优先级货车和除货车外其他车辆行驶时占用的道路资源;Ne表示在普通道上除货车外其他车辆的数量,Ue表示其他车辆在普通车道行驶的单位成本。
决策时间点:
在系统模型中,由于两个决策时间点之间的平均期望时间t(s,a)服从指数分布,具体为高优先级和低优先级的请求到达率分别服从均值为λh和λl的泊松分布,编队内处理事件服从均值为1/μh和1/μl的指数分布;因此,所有事件的平均发生率ψ(s,a)可表示为:
Figure BDA0002841304490000101
状态转移概率:
用p(j|s,a)表示在当前状态s下选择动作a转移到下一状态j的状态转移概率。
在当前系统为
Figure BDA0002841304490000105
时,若编队系统选择的动作为a=0,则下一可能系统状态为j1=〈Nl,Nh,el>,j2=〈Nl,Nh,eh>,j3=〈Nl-1,Nh,ef>(Nl≥1)和j4=<Nl,Nh-1,ef>(Nh≥1);因此,转移概率表示为:
Figure BDA0002841304490000102
其中,0≤al·Nl+ah·Nh≤M·C;M·C表示高速公路总的编队容量,M表示高速公路系统中编队数量。
当目前的系统状态为
Figure BDA0002841304490000106
时,选定的动作为a=1,则下一个可能的系统状态为:j5=<Nl+1,Nh,el>,j6=<Nl+1,Nh,eh>,j7=〈Nl,Nh,ef>和j8=〈Nl+1,Nh-1,ef>(Nh≥1);在这种情况下,编队系统的状态转移概率表示为:
Figure BDA0002841304490000103
当前系统状态为
Figure BDA0002841304490000104
选择动作为a=1时,下一可能系统状态为j9=<Nl,Nh+1,el>,j10=<Nl,Nh+1,eh>,j10=〈Nl,Nh+1,eh>(Nl≥1)和j12=〈Nl,Nh,ef>;在此情况下,状态转移概率表示为:
Figure BDA0002841304490000111
根据折扣收益模型,期望折扣收益为:
Figure BDA0002841304490000112
因此,得到编队系统的长期最大期望折扣收益:
Figure BDA0002841304490000113
其中,
Figure BDA0002841304490000114
定义一个常数w=λlh+K·max(μ1,μ2);提出的自适应分配模型的最大期望归一化长期折扣收益如下:
Figure BDA0002841304490000115
其中归一化参数表示为
Figure BDA0002841304490000116
因此,通过计算SMDP-Bellman最优方程的状态-值函数,可以得到最优的策略,这可以通过寻找A和资源分配的最优值来解决,但由于动作变量A是二元变量,模型的可行集和目标函数不是凸的。此外,本发明还考虑了实际场景,即有多种不同型号的货车参与编队,同时车辆分配的资源数也是动态的。在这种情况下,服务系统需要收集大量的系统状态,并根据系统的当前状态对编队中的每辆货车进行资源管控的全局决策。另外,当货车数量时,编队系统的规模会迅速增加,因此求解由Knapsack问题扩展而来的非凸问题是NP难的。与传统的优化方法(例如:贪婪算法,值迭代算法)求解该问题不同,在本发明中,提出了深度强化学习方法来解决该问题。
强化学习(RL)是机器学习的一个分支,其重点是获取环境中的知识,改进适应环境的行动策略以及制定决策顺序。在RL中有四个关键要素:代理,环境状态,奖励和行动。图2显示了用于货车编队系统的深度强化学习框架,对于每个情节(episode),首先,在每个步骤t,代理获取对环境的观察,即状态st,并根据此从动作空间A中采取动作,选择分配一定量的资源数或延迟请求事件,决策动作π可由状态-动作确定,此过程可以通过强化学习来近似。根据代理所采取的行动,环境进入新状态st+1,同时代理从环境中获得回报rt
Q学习是一种经典的RL算法,是一种无模型的学习方法,可估算状态-动作对的最佳Q值。它使用存储在Q表中的动作值Q(st,at)根据当前状态选择动作。更具体地说,将状态st和动作a对的Q值定义为Q(s,a)。对于每个步骤,代理计算Q(s,a)并将其存储在Q表中,该值可以视为长期奖励,然后Q(s,a)可以表示为:
Figure BDA0002841304490000121
其中,γ定义为学习参数,γ是一个满足0≤γ≤1的常数。值得注意的是,如果γ趋于0则表示系统代理主要考虑当前回报,如果γ趋于1表明代理更加关注未来的回报。在Q学习的每个情节(episode)开始时,都会初始化环境状态s。对于情节中的每个步骤t,应首先根据当前状态选择动作。然后,可以获得相应的奖励rt和下一状态st+1。随后,动作值Q(st,at)应该更新为:
Figure BDA0002841304490000122
其中β∈(0,1)为学习速率,然后将重复此过程,直到达到终端状态为止。算法1展示了Q学习算法的过程(如图3所示)。
通常,Q学习使用Q表来存储动作-值,假设使用Q学习方法,需要计算其对应的Q值并将其存储在表中,矩阵Q(s,a)将非常大,同时在一个大表中频繁地搜索对应的状态是非常耗时的。因此,在这种方式下难以获得足够的样本来遍历每个状态,这将导致算法失败。而在应用的场景中,编队环境的状态是复杂多变的,使用一个表来存储所有的动作值可能是不切实际的。所以,使用深度神经网络来估计Q(s,a),而不是为每个状态动作对计算Q值,这是也深度Q网络(DQN)的基本思想。
如图4所示,DQN直接使用带参数ω的神经网络来逼近Q函数并生成动作值。神经网络的输入为状态s,输出为动作值Q(s,a;ω)。在不损失精度的情况下,本发明使用Q值表示动作值Q(s,a;ω)。在神经网络输出Q值后,我们采用ε-贪心策略来选择动作a。该策略随机抽取一个概率为ε∈(0,1)的动作,或者选择估计Q值最高的动作,即选择概率为1-ε的动作a=arg maxatQ(st,at;ω)。神经网络训练需要损失函数优化过程,并通过反向传播和梯度下降优化算法来更新神经网络的参数。DQN的目标是使Q值接近目标Q值,Q学习算法提供所谓的标签。本文采用均方误差(MSE)作为DQN神经网络的损失函数,其定义为:
Figure BDA0002841304490000131
其中,
Figure BDA0002841304490000132
是由参数ω-的目标网络的结果计算出的目标Q值,Q(st,at;ω)是参数ω的评估网络输出的评估Q值。目标网络的初始参数与评估网络相同。在观察到编队系统的即时奖励rt和下一个状态st+1后,状态转换(st+1,at+1,rt+1,st+1)将被存储到经验存储器D中。
算法2显示了基于DQN的资源分配算法的详细信息(如图5所示)。在给定状态、动作和奖励三个关键元素的情况下,首先初始化具有一定容量N的经验重放存储器(experiencereplay memory)D和具有随机权重的动作-值函数Q以及随机参数ω和ω-的评估和目标网络。对于每一个事件m,首先初始化状态序列s,然后对于每个步骤t,将状态st作为评估网络的输入,并根据基于ε-贪心策略选择随机动作at。这样处理过后,可以通过预定义的标准获得当前奖励和下一状态st+1,最后我们在D中储存(st,at,rt,st+1)来更新评估网络参数。
仿真实验:
本发明对100km高速公路进行研究,假设普通道和编队专用道的宽度都为3.75米。在仿真中,每个编队的最大容量为10辆货车,即j=10。低优先级货车和高优先级货车根据其占有面积在编队中分别占用1RU、2RU、3RU和4RU、5RU、RU。假设货车长度为8米,在编队专用道的平均速度为80km/h,编队内车头时距为15米。当货车在普通道驾驶时,速度不能超过100km/h,车头时距为80米。因此可得出100km内编队专用道和普通道的最大容量,分别为4347和1136辆货车。显然,编队系统能使货车更安全、更紧密的一起行驶,还能最大化高速公路的吞吐量。我们的DQN是分别由包含500、250和120个神经元的隐藏层构成的全连接网络。为确保收敛,折扣系数设置为0.1。使用Relu的激活函数,初始学习率为0.01。本节利用基于Matlab的事件生成器对所提出的自适应货车编队资源分配模型进行了验证和评估。所有的仿真实验均在一台配备Intel i7-7700k 3.60GHz的CPU,32G RAM,和NVIDIA RTX 207011G GPU的工作平台上完成。仿真实验的具体参数见表1。
表1仿真参数
Figure BDA0002841304490000133
Figure BDA0002841304490000141
在仿真实验中,我们将提出的高速公路货车编队中的资源分配问题的模型求解通过数值迭代算法和贪婪算法两种常用的传统方法进行求解,此外使用了提出的深度强化学习算法对模型进行了求解,为了对比实验我们同时使用了Q-learning算法。通过这些优化算法,以期获得模型的最佳策略。
采用数值迭代算法进行模型的求解需要预先设定一些条件。这里我们的预设条件有:货车请求的处理时间是其占用的RU数量的倒数函数,即f(l)=1/l。同时,假设占用1个RU的货车的平均离开率是τ=6.6,而低优先级和高优先级车辆请求的平均到达率为λn=2.4和λu=7.2。根据货车的不同占用面积等级将其完成货车请求的平均离开率计算为:τl=τ/f(l)=τl即τ3=19.8,τ2=13.2和τ1=6.6。
为了评估我们提出的高速公路货车编队资源分配模型的性能,将高优先级货车在不同的编队请求到达率下所获得的预期奖励和延迟概率进行对比,分别如图6和图7所示。
从图6中可以看出,贪婪算法、VI算法和Q-learning算法在高优先级车辆不同编队请求到达率下的获得平均奖励均低于DQN算法。此外,随着高优先级货车编队请求到达率的增加,收到的请求数量增加,可用的编队资源数逐渐减少。因此,通过这4种优化算法方法获得的平均回报的增长速率逐渐减小。同时,可以从图7中看出,DQN算法在不同高优先级货车编队请求下的延迟概率均低于其它3种算法。由于处理货车编队请求的延迟与接受请求并分配资源操作相比,前者对系统总收益有更大的负面影响。相较于其它三种方法,采用DQN求解我们提出的模型能够使编队系统在较低延迟概率情况下为高优先级货车编队请求获得了更多的回报。换句话说,与其它算法相比,我们提出的模型获得更多的紧急请求奖励,同时保持较低的请求延迟概率。
此外,为了充分说明DQN算法对于货车编队模型构建的有效性,我们保持高优先和低优先级货车编队请求到达概率不变,通过在编队系统不同的资源总数下4种优化算法的获得的长期平均奖励进行对比实验。如图8所示,随着系统资源总数的增长,4种优化算法所获得奖励也随之增长。同时,随着资源总数的增长,DQN算法所获得的奖励的增长速率略大于其它3种算法。以上情况的出现有两个原因:第一,在实验仿真中,我们考虑到实际情况将接受货车编队请求所获得奖励的设置成远低于采取延迟请求操作的成本开销。第二,当编队系统中资源数量较少时,货车的编队请求会出现较高的延迟概率。如图9和图10所示,当编队系统的总资源数为10RU时,四种方法的低优先级编队请求延迟概率达到了50%,高优先级编队请求延迟率更是高达70%以上。比较贪心算法和采用的DQN算法之间的平均请求的奖励,如图8所示,通常,我们提出的模型的紧急车辆请求的奖励比贪婪算法的紧急请求的奖励超过50%以上。
从图9、图10可以看出,低优先级和高优先级货车编队请求的延迟率整体随着编队系统的资源总数逐渐降低。同时可以看出,由于接受高优先级别货车的编队请求需要的分配较多的系统资源,所以高优先级别比低优先级别货车的编队请求拒绝概率整体都高。此外,DQN算法在低优先级和高优先级的请求延迟率与VI算法分别低40%和35%。
在另一方面,我们比较了4种方法在不同高优先级货车编队请求到达率下的高优先级和低优先级货车编队请求分配不同数量的RU的概率。如图11和图12所示,4种模型优化方法均倾向于接受占用资源数多的货车请求(即,高优先级货车编队请求分配6个RU,低优先级货车编队请求分配3个RU)。这是因为,当编队系统为货车请求分配更多的资源时,请求的处理速度将提高,同时占用货车请求的持续时间将缩短,所以货车编队系统可以接受并处理更多的车辆请求。
本发明提出了一种基于半马尔可夫决策过程(SMDP)和深度强化学习的高速公路货车编队系统智能资源分配模型。提出的模型同时考虑了编队系统的成本和收入、不同的高优先级货车编队请求到达概率和不同的编队系统资源数下模型的性能。构建的模型能够根据可用的资源数量最大化货车编队系统的回报,同时也能根据货车编队请求合理的分配多种数量的资源。另一方面,由于求解模型的传统方法需要一些强制的假设条件,这限制了其应用与实际场景。因此,我们在本发明中采用了深度强化强化学习算法,以解决我们提出的智能资源分配模型,以在没有任何预设假设的情况下获得最佳优化策略,同时也可以很好地适应不断变化的货车编队场景。仿真实验结果表明,相比对于贪婪算法、VI算法和Q-learning算法,本发明使用的深度Q网络(DQN)网络在多种实验条件下能够使编队系统获得更高的回报,同时编队请求的延误概率更低。

Claims (3)

1.一种基于SMDP和DRL的货车编队动态资源分配方法,其特征在于,包括以下步骤:
步骤1:将控制货车编队的动态进出的过程建模为基于半马尔可夫决策过程SMDP的货车请求的最优编队资源分配模型;
步骤2:通过规划算法得到的特定状态下的动作值作为深度强化学习DRL的样本来进行模型训练;
步骤3:通过训练后的模型对SMDP进行优化求解得到一种最优策略的货车编队资源分配方案。
2.根据权利要求1所述的一种基于SMDP和DRL的货车编队动态资源分配方法,其特征在于,所述步骤1基于SMDP进行建模具体为:
对于任意给定的时间步t,系统处于特定的配置St,其中st∈S,S是所有可能状态的集合,表示为:
Figure FDA0002841304480000011
其中,
Figure FDA0002841304480000012
表示正在编队中运行的货车数量,Nh和Nl分别表示高优先级和低优先级货车数量;e∈{el,eh,ef}表示编队系统中的事件ei,在该编队系统中,有三种类型的事件:编队接收到一个来自低优先级货车l的请求,记为el;编队接收到一个来自高优先级货车h的请求,记为eh;编队中的货车结束运行并释放出其占用的编队资源,记作ef,其中高优先级货车和低优先级货车离开编队并释放其占用的资源分别记作
Figure FDA0002841304480000018
Figure FDA0002841304480000019
当编队系统处于
Figure FDA0002841304480000013
状态时,动作集合表示为:
Figure FDA0002841304480000014
其中,
Figure FDA0002841304480000015
来表示编队系统拒绝该优先级的货车服务请求;
Figure FDA0002841304480000016
表示系统接收该优先级的货车服务请求,并分配相应的编队资源;
Figure FDA0002841304480000017
表示一辆位于编队中的货车离开编队并释放资源;
考虑编队专用车道和普通车道的总收入和支出,根据系统状态和相关动作,将整个系统收益视为Z(s,a),即:
z(s,a)=x(s,a)-y(s,a)
其中,x(s,a)表示编队系统在状态s下选择动作a的总收入,y(s,a)表示在状态s下选择动作a的总支出;高速公路总收入x(s,a)包括四部分:货车在编队专用道行驶的收入、货车在普通车道行驶的收入、除货车外其他车辆在普通车道行驶的收入和高优先级货车在编队专用道行驶时额外收取的费用,总收益公式如下:
Figure FDA0002841304480000021
其中,α表示高速公路系统根据货车i在编队专用道上行驶距离收费的系数;β表示货车在普通车道行驶时高速公路系统根据其行驶距离收费的系数;γ表示除货车外其他车辆在普通车道上行驶时根据行驶距离收费的系数;δ表示在高优先级货车在编队专用道行驶时因为其货车是高价值或危险产品而额外收取费用的系数;
总支出y(s,a)货车在普通车道和专用道行驶时占用道路资源的支出和在普通车道上除货车外其他车辆占用道路资源的支出,总支出表示为如下公式:
Figure FDA0002841304480000022
其中,al和ah分别表示低优先级和高优先级货车分别占用编队专用道的资源数量,U表示在货车在相应车道驾驶的单位成本,Up和Uc分别表示货车在专用道和普通道驾驶时占用资源的单位成本;bl,bh和de表示在普通车道上低优先级货车、高优先级货车和除货车外其他车辆行驶时占用的道路资源;Ne表示在普通道上除货车外其他车辆的数量,Ue表示其他车辆在普通车道行驶的单位成本;
在系统模型中,由于两个决策时间点之间的平均期望时间t(s,a)服从指数分布,具体为高优先级和低优先级的请求到达率分别服从均值为λh和λl的泊松分布,编队内处理事件服从均值为1/μh和1/μl的指数分布;因此,所有事件的平均发生率ψ(s,a)可表示为:
Figure FDA0002841304480000031
用p(j|s,a)表示在当前状态s下选择动作a转移到下一状态j的状态转移概率;
在当前系统为
Figure FDA0002841304480000035
时,若编队系统选择的动作为a=0,则下一可能系统状态为j1=〈Nl,Nh,el>,j2=〈Nl,Nh,eh>,j3=〈Nl-1,Nh,ef>和j4=〈Nl,Nh-1,ef>;因此,转移概率表示为:
Figure FDA0002841304480000032
其中,0≤al·Nl+ah·Nh≤M·C;M·C表示高速公路总的编队容量,M表示高速公路系统中编队数量;
当目前的系统状态为
Figure FDA0002841304480000036
时,选定的动作为a=1,则下一个可能的系统状态为:j5=<Nl+1,Nh,el>,j6=<Nl+1,Nh,eh>,j7=<Nl,Nh,ef>和j8=〈Nl+1,Nh-1,ef>;在这种情况下,编队系统的状态转移概率表示为:
Figure FDA0002841304480000033
当前系统状态为
Figure FDA0002841304480000034
选择动作为a=1时,下一可能系统状态为j9=<Nl,Nh+1,el>,j10=〈Nl,Nh+1,eh>,j10=〈Nl,Nh+1,eh>和j12=〈Nl,Nh,ef>;在此情况下,状态转移概率表示为:
Figure FDA0002841304480000041
根据折扣收益模型,期望折扣收益为:
Figure FDA0002841304480000042
因此,得到编队系统的长期最大期望折扣收益:
Figure FDA0002841304480000043
其中,
Figure FDA0002841304480000044
定义一个常数w=λlh+K·max(μ1,μ2);提出的自适应分配模型的最大期望归一化长期折扣收益如下:
Figure FDA0002841304480000045
其中归一化参数表示为
Figure FDA0002841304480000046
3.根据权利要求1所述的一种基于SMDP和DRL的货车编队动态资源分配方法,其特征在于,所述步骤2中深度强化学习具体为:
使用带参数ω的神经网络来逼近Q函数并生成动作值,神经网络的输入为状态s,输出为动作值Q(s,a;ω),即Q值;在神经网络输出Q值后,采用ε-贪心策略来选择动作a,该策略随机抽取一个概率为ε∈(0,1)的动作,或者选择估计Q值最高的动作,即选择概率为1-ε的动作a=arg maxatQ(st,at;ω);采用均方误差作为DQN神经网络的损失函数,其定义为:
Figure FDA0002841304480000047
其中,
Figure FDA0002841304480000048
是由参数ω-的目标网络的结果计算出的目标Q值,Q(st,at;ω)是参数ω的评估网络输出的评估Q值;目标网络的初始参数与评估网络相同;在观察到编队系统的即时奖励rt和下一个状态st+1后,状态转换(st+1,at+1,rt+1,st+1)将被存储到经验存储器D中。
CN202011493184.1A 2020-12-17 2020-12-17 一种基于smdp和drl的货车编队动态资源分配方法 Active CN112750298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011493184.1A CN112750298B (zh) 2020-12-17 2020-12-17 一种基于smdp和drl的货车编队动态资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011493184.1A CN112750298B (zh) 2020-12-17 2020-12-17 一种基于smdp和drl的货车编队动态资源分配方法

Publications (2)

Publication Number Publication Date
CN112750298A true CN112750298A (zh) 2021-05-04
CN112750298B CN112750298B (zh) 2022-10-28

Family

ID=75648059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011493184.1A Active CN112750298B (zh) 2020-12-17 2020-12-17 一种基于smdp和drl的货车编队动态资源分配方法

Country Status (1)

Country Link
CN (1) CN112750298B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608867A (zh) * 2021-07-19 2021-11-05 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN114267168A (zh) * 2021-12-24 2022-04-01 北京航空航天大学 一种应用于城市快速路环境下的编队资源分配方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013040493A1 (en) * 2011-09-16 2013-03-21 Qualcomm Incorporated Detecting that a mobile device is riding with a vehicle
CN104881992A (zh) * 2015-06-12 2015-09-02 天津大学 基于多智能体仿真的城市公共交通政策分析平台
US20160155325A1 (en) * 2014-12-01 2016-06-02 Here Global B.V. Traffic Classification Based on Spatial Neighbor Model
CN106128140A (zh) * 2016-08-11 2016-11-16 江苏大学 车联网环境下行车服务主动感知系统及方法
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
CN109407660A (zh) * 2017-08-18 2019-03-01 通用汽车环球科技运作有限责任公司 使用策略触发和执行的自主行为控制
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110097755A (zh) * 2019-04-29 2019-08-06 东北大学 基于深度神经网络的高速公路交通流量状态识别方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110431037A (zh) * 2017-02-10 2019-11-08 日产北美公司 包括运用部分可观察马尔可夫决策过程模型示例的自主车辆操作管理
JP2019220084A (ja) * 2018-06-22 2019-12-26 矢崎総業株式会社 解析装置、車載器、及びパターン解析補助装置
CN111091711A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 基于强化学习和交通车道竞争理论的交通控制方法及系统
WO2020131223A2 (en) * 2018-12-20 2020-06-25 Qualcomm Incorporated Message broadcasting for vehicles
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN111580526A (zh) * 2020-05-27 2020-08-25 多伦科技股份有限公司 面向固定车辆编队场景的协同驾驶方法
CN111699704A (zh) * 2018-01-08 2020-09-22 诺基亚技术有限公司 车辆系统中的目标车辆选择和消息传递
CN111711666A (zh) * 2020-05-27 2020-09-25 梁宏斌 一种基于强化学习的车联网云计算资源优化方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013040493A1 (en) * 2011-09-16 2013-03-21 Qualcomm Incorporated Detecting that a mobile device is riding with a vehicle
US20160155325A1 (en) * 2014-12-01 2016-06-02 Here Global B.V. Traffic Classification Based on Spatial Neighbor Model
CN104881992A (zh) * 2015-06-12 2015-09-02 天津大学 基于多智能体仿真的城市公共交通政策分析平台
CN106128140A (zh) * 2016-08-11 2016-11-16 江苏大学 车联网环境下行车服务主动感知系统及方法
CN110431037A (zh) * 2017-02-10 2019-11-08 日产北美公司 包括运用部分可观察马尔可夫决策过程模型示例的自主车辆操作管理
CN109407660A (zh) * 2017-08-18 2019-03-01 通用汽车环球科技运作有限责任公司 使用策略触发和执行的自主行为控制
CN111699704A (zh) * 2018-01-08 2020-09-22 诺基亚技术有限公司 车辆系统中的目标车辆选择和消息传递
JP2019220084A (ja) * 2018-06-22 2019-12-26 矢崎総業株式会社 解析装置、車載器、及びパターン解析補助装置
CN108932840A (zh) * 2018-07-17 2018-12-04 北京理工大学 基于强化学习的无人驾驶车辆城市交叉口通行方法
WO2020131223A2 (en) * 2018-12-20 2020-06-25 Qualcomm Incorporated Message broadcasting for vehicles
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110097755A (zh) * 2019-04-29 2019-08-06 东北大学 基于深度神经网络的高速公路交通流量状态识别方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111091711A (zh) * 2019-12-18 2020-05-01 上海天壤智能科技有限公司 基于强化学习和交通车道竞争理论的交通控制方法及系统
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN111580526A (zh) * 2020-05-27 2020-08-25 多伦科技股份有限公司 面向固定车辆编队场景的协同驾驶方法
CN111711666A (zh) * 2020-05-27 2020-09-25 梁宏斌 一种基于强化学习的车联网云计算资源优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李相民等: "有/无人机编队协同作战指挥控制关键技术综述", 《飞航导弹》 *
沈宇等: "代理技术Agent在智能车辆与驾驶中的应用现状", 《指挥与控制学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608867A (zh) * 2021-07-19 2021-11-05 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN113608867B (zh) * 2021-07-19 2024-05-14 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN114267168A (zh) * 2021-12-24 2022-04-01 北京航空航天大学 一种应用于城市快速路环境下的编队资源分配方法

Also Published As

Publication number Publication date
CN112750298B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
US11607971B2 (en) Method for scheduling multi agent and unmanned electric vehicle battery swap based on internet of vehicles
CN114283607B (zh) 一种基于分布式群智学习的多车协同规划方法
Xiong et al. Communication and computing resource optimization for connected autonomous driving
CN112750298B (zh) 一种基于smdp和drl的货车编队动态资源分配方法
CN110414750B (zh) 一种基于深度增强学习的电动汽车实时充电站选择方法
CN113516277B (zh) 一种基于路网动态定价的网联智能交通路径规划方法
Wu et al. Load balance guaranteed vehicle-to-vehicle computation offloading for min-max fairness in VANETs
CN114758497A (zh) 一种自适应停车场可变出入口控制方法、装置及存储介质
Guo et al. Rebalancing and charging scheduling with price incentives for car sharing systems
Ge et al. Interference aware service migration in vehicular fog computing
Shi et al. Deep q-network based route scheduling for transportation network company vehicles
CN115103313A (zh) 基于位置预测的智慧公路任务协同处理方法、系统
Xie et al. A DRL based cooperative approach for parking space allocation in an automated valet parking system
Ahmed et al. MARL based resource allocation scheme leveraging vehicular cloudlet in automotive-industry 5.0
Liang et al. A dynamic resource allocation model based on SMDP and DRL algorithm for truck platoon in vehicle network
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
Wu et al. Deep Reinforcement Learning Based Traffic Signal Control: A Comparative Analysis
CN115208892B (zh) 基于动态资源需求的车路协同在线任务调度方法及系统
CN116843500A (zh) 充电站规划方法、神经网络模型训练方法、装置和设备
CN114916013A (zh) 基于车辆轨迹预测的边缘任务卸载时延优化方法、系统及介质
Seid et al. Multi-agent RL for SDN-based resource allocation in HAPS-assisted IOV networks
Shi et al. A computation offloading method with distributed double deep Q‐network for connected vehicle platooning with vehicle‐to‐infrastructure communications
Zhai et al. Model for the cooperative obstacle‐avoidance of the automated vehicle swarm in a connected vehicles environment
Bianchi et al. Decentralized model predictive control of freeway traffic systems over lossy communication networks
Ma et al. Deep Reinforcement Learning-based Edge Caching and Multi-link Cooperative Communication in Internet-of-Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220707

Address after: 210000 third floor, Beidou building, No. 6, Huida Road, Jiangbei new area, Nanjing, Jiangsu

Applicant after: Hua Lu Yun Technology Co.,Ltd.

Address before: 610031 No. 1, floor 5, unit 3, building 6, No. 8 Qingyang Avenue, Qingyang District, Chengdu, Sichuan Province

Applicant before: Liang Hongbin

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 211500 third floor, Beidou building, No. 6, Huida Road, Jiangbei new area, Nanjing, Jiangsu

Applicant after: Hualui Cloud Technology Co.,Ltd.

Address before: 210000 third floor, Beidou building, No. 6, Huida Road, Jiangbei new area, Nanjing, Jiangsu

Applicant before: Hua Lu Yun Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant