CN113743468A - 基于多智能体强化学习的协同驾驶信息传播方法及系统 - Google Patents

基于多智能体强化学习的协同驾驶信息传播方法及系统 Download PDF

Info

Publication number
CN113743468A
CN113743468A CN202110887239.5A CN202110887239A CN113743468A CN 113743468 A CN113743468 A CN 113743468A CN 202110887239 A CN202110887239 A CN 202110887239A CN 113743468 A CN113743468 A CN 113743468A
Authority
CN
China
Prior art keywords
agent
module
management module
gat
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110887239.5A
Other languages
English (en)
Other versions
CN113743468B (zh
Inventor
刘冰艺
程传奇
韩玮祯
熊盛武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110887239.5A priority Critical patent/CN113743468B/zh
Publication of CN113743468A publication Critical patent/CN113743468A/zh
Application granted granted Critical
Publication of CN113743468B publication Critical patent/CN113743468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的协同驾驶信息传播方法及系统,本发明构建了多智能体分层注意力强化学习网络MAHA,进行协同驾驶信息传播。本发明提出的MAHA,可以有效地学习各种车辆通信场景的隐藏模式,可以广泛应用于各种车辆通信场景。本方法所提出的MAHA是第一个将分层强化学习与GAT层相结合的多智能体强化学习框架,它在适当考虑智能体相互影响的情况下的输出动作。

Description

基于多智能体强化学习的协同驾驶信息传播方法及系统
技术领域
本发明属于车辆网络通信技术领域,具体涉及一种基于多智能体强化学习的协同驾驶信息传播方法及系统。
背景技术
互联的自动驾驶车辆组成的协同驾驶系统可以显著提高交通效率和通行能力、增强道路公路安全性、降低油耗。作为一种网络化控制系统,协同驾驶系统中的车辆控制依赖于协同感知信息的周期性交换。因此,为车辆设计一个有效的调度算法从而在共享通信信道中周期性地广播它们的运动状态是至关重要的。
然而,网联车辆的通信具有高度动态的网络拓扑和频繁的通信链路中断等特征。现存的信标发送策略和信标时隙控制机制没有充分解决这几个问题。例如,大多数现有的信标方案在实践中没有考虑到多种协同驾驶模式的共存,这需要在自由车辆和协同驾驶车辆之间进行有效的时隙调度。此外,由于协同驾驶传统的通信协议在设计上很难对交通和通信进行建模,现有大部分研究仅从统计学角度来考虑稳定交通流和通信信道条件下的信标性能,这可能会严重影响信标性能的瞬态阶段。
发明内容
为了解决上述技术问题,本发明提供了一个基于多智能体强化学习的协同驾驶信息传播方法及系统。
本发明的方法采取的技术方案是:一种基于多智能体强化学习的协同驾驶信息传播方法,包括以下步骤:
步骤1:构建多智能体分层注意力强化学习网络;
所述智能体,为协同驾驶中的车辆,记为
Figure BDA0003194655440000011
在每个时间步t,每个智能体
Figure BDA0003194655440000012
接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态oi,观测状态oi还包括前一时间步通信范围内的时隙占用信息;所有可能的观测状态构成观测状态空间
Figure BDA0003194655440000013
在每个时间步t,每个可用的智能体i采取一个动作,该动作指示它是保持沉默还是选择一个时隙来发送信标,将智能体i的动作空间表示为
Figure BDA0003194655440000014
给定观测状态oi,智能体i的策略πi指定一个概率πi(ai∣oi),由此获得每个动作
Figure BDA0003194655440000015
给定时间步t观测值状态oi,t和智能体的动作ai,t,根据概率P(oi,t+1|oi,t,ai,t),当前观测状态oi,t转移到下一个观测状态oi,t+1;在每一个时间步t,每一个智能体的反馈都来自同队列的其他智能体,此类反馈已成功传输的信标数量的信息,采用已成功传输的信标数量作为直接奖励,记为ri,t
每个智能体i均采用一个分层网络,所述分层网络由一个管理模块和一个工作模块组成;
所述管理模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为管理模块i输出一个中间状态表示xi,t,并送入扩张长短期记忆人工神经网络dLSTM,dLSTM接受状态xi,t输入,然后输出目标gi,t,将c-1个先前目标gi,t-c+1,…,gi,t-1与gi,t连接起来,并将这样连接的向量Gi,t作为输出,向量Gi,t与工作模块中的LSTM的输出值进行点积操作后获得值ai,t,并将ai,t传递给工作模块,接收即时奖励
Figure BDA0003194655440000021
并将
Figure BDA0003194655440000022
存入经验回放池
Figure BDA0003194655440000023
中;在从经验回放池
Figure BDA0003194655440000024
采样后对网络进行训练阶段,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重;并将获得的连接向量xi,t作为第一个GAT层的输入,以获得特征向量x′i,t,再将x′i,t输入第二个GAT层获得x″i,t;将GAT的输出xi,t,x′i,t和x″i,t送入VNet,使用A2C算法对VNet进行更新;
所述管理模块采用扩张长短期记忆人工神经网络dLSTM作为actor,它保持一个数组(hi,0,hi,1,…,hi,c-1)来存储给定扩张半径
Figure BDA0003194655440000025
的c个历史隐藏状态;所述管理模块采用图形注意力网络GAT来指定每个相邻管理模块的影响权重;
所述工作模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为工作模块输出一个状态表示zi,t,zi,t和LSTM的前一个时间步t-1的隐藏状态hi,t-1被馈送到LSTM,LSTM输出工作模块i的初步动作ui,t;工作模块的初步动作ui,t点乘连接的管理模块传来的目标Gi,t,然后通过Softmax层计算结果,以获得智能体i的最终策略πi,t,智能体i根据策略πi,t采取行动ai,t,得到内在奖励
Figure BDA0003194655440000031
和外部奖励ri,t,并将
Figure BDA0003194655440000032
存入经验回放池
Figure BDA0003194655440000038
中。在从经验回放池
Figure BDA0003194655440000039
采样后对网络进行训练阶段,用其动作ai,t连接工作模块i的状态表示zi,t得到wi,t,传入各个智能体中的工作模块的GAT中,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重,将获得的连接向量wi,t作为第一个GAT层的输入,以获得特征向量w′i,t,再将w′i,t输入第二个GAT层获得w″i,t;将GAT的输出wi,t,w′i,t和w″i,t送入QNet中,使用DDPG算法对QNet和LSTM进行更新,计算动作价值后输入LSTM中,对LSTM进行更新;
所述工作模块采用深度确定性策略梯度DDPG方法,采用行动价值网络QNet作为工作模块的critic,使用标准的长短期记忆人工神经网络LSTM作为工作模块的actor;
步骤2:采用多智能体分层注意力强化学习网络,进行协同驾驶信息传播。
本发明的系统所采用的技术方案是:一种基于多智能体强化学习的协同驾驶信息传播系统,其特征在于,包括以下模块:
模块1,用于构建多智能体分层注意力强化学习网络;
所述智能体,为协同驾驶中的车辆,记为
Figure BDA0003194655440000033
在每个时间步t,每个智能体
Figure BDA0003194655440000034
接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态oi,观测状态oi还包括前一时间步通信范围内的时隙占用信息;所有可能的观测状态构成观测状态空间
Figure BDA0003194655440000035
在每个时间步t,每个可用的智能体i采取一个动作,该动作指示它是保持沉默还是选择一个时隙来发送信标,将智能体i的动作空间表示为
Figure BDA0003194655440000036
给定观测状态oi,智能体i的策略πi指定一个概率πi(ai|oi),由此获得每个动作
Figure BDA0003194655440000037
给定时间步t观测值状态oi,t和智能体的动作ai,t,根据概率P(oi,t+1|oi,t,ai,t),当前观测状态oi,t转移到下一个观测状态oi,t+1;在每一个时间步t,每一个智能体的反馈都来自同队列的其他智能体,此类反馈已成功传输的信标数量的信息,采用已成功传输的信标数量作为直接奖励,记为ri,t
每个智能体i均采用一个分层网络,所述分层网络由一个管理模块和一个工作模块组成;
所述管理模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为管理模块i输出一个中间状态表示xi,t,并送入扩张长短期记忆人工神经网络dLSTM,dLSTM接受状态xi,t输入,然后输出目标gi,t,将c-1个先前目标gi,t-c+1,…,gi,t-1与gi,t连接起来,并将这样连接的向量Gi,t作为输出,向量Gi,t与工作模块中的LSTM的输出值进行点积操作后获得值ai,t,并将ai,t传递给工作模块,接收即时奖励
Figure BDA0003194655440000041
并将
Figure BDA0003194655440000042
存入经验回放池
Figure BDA0003194655440000043
中;在从经验回放池
Figure BDA0003194655440000044
采样后对网络进行训练阶段,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重;并将获得的连接向量xi,t作为第一个GAT层的输入,以获得特征向量x′i,t,再将x′i,t输入第二个GAT层获得x″i,t;将GAT的输出xi,t,x′i,t和x″i,t送入VNet,使用A2C算法对VNet进行更新;
所述管理模块采用扩张长短期记忆人工神经网络dLSTM作为actor,它保持一个数组(hi,0,hi,1,…,hi,c-1)来存储给定扩张半径
Figure BDA0003194655440000045
的c个历史隐藏状态;所述管理模块采用图形注意力网络GAT来指定每个相邻管理模块的影响权重;
所述工作模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为工作模块输出一个状态表示zi,t,zi,t和LSTM的前一个时间步t-1的隐藏状态hi,t-1被馈送到LSTM,LSTM输出工作模块i的初步动作ui,t;工作模块的初步动作ui,t点乘连接的管理模块传来的目标Gi,t,然后通过Softmax层计算结果,以获得智能体i的最终策略πi,t,智能体i根据策略πi,t采取行动ai,t,得到内在奖励
Figure BDA0003194655440000046
和外部奖励ri,t,并将
Figure BDA0003194655440000047
存入经验回放池
Figure BDA0003194655440000048
中;在从经验回放池
Figure BDA0003194655440000049
采样后对网络进行训练阶段,用其动作ai,t连接工作模块i的状态表示zi,t得到wi,t,传入各个智能体中的工作模块的GAT中,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重,将获得的连接向量wi,t作为第一个GAT层的输入,以获得特征向量w′i,t,再将w′i,t输入第二个GAT层获得w″i,t;将GAT的输出wi,t,w′i,t和w″i,t送入QNet中,使用DDPG算法对QNet和LSTM进行更新,计算动作价值后输入LSTM中,对LSTM进行更新;
所述工作模块采用深度确定性策略梯度DDPG方法,采用行动价值网络QNet作为工作模块的critic,使用标准的长短期记忆人工神经网络LSTM作为工作模块的actor;
模块2,用于采用多智能体分层注意力强化学习网络,进行协同驾驶信息传播。
本发明与其他方法相比主要有三大优势:
(1)其他方法中的大多数都是基于规则的策略,限制了可应用的场景。相比之下,本发明提出了一种新的多智能体分层注意力强化学习(MAHA)网络,它可以有效地学习各种车辆通信场景的隐藏模式。因此,本方法所提出的MAHA网络可以广泛应用于各种车辆通信场景。
(2)其他方法所接收的奖励总是对应于现实世界车辆通信场景中的过去动作。这种现象阻碍了其他方法中的智能体强化学习有效的策略。本方法所提出的MAHA网络是第一个将分层强化学习与GAT层相结合的多智能体强化学习网络,它在适当考虑智能体相互影响的情况下的输出动作。
(3)本发明从合作驱动的角度出发,将协同驾驶车辆消息发送问题表述为一个马尔可夫博弈。本发明能有效克服延迟奖励挑战,处理智能体间的相互影响。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施的MAHA网络结构示意图;
图3为本发明实施的协同车辆和单独车辆的混合交通场景示例。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于多智能体强化学习的协同驾驶信息传播方法,包括以下步骤:
步骤1:构建多智能体分层注意力强化学习网络;
本发明通过模拟器模拟了高速公路条件下车辆通信的场景,将协同驾驶车辆的时隙选择问题建模成马尔可夫博弈,并定义其中的智能体、观测状态、动作、策略、转移概率和奖励:
智能体:将协同驾驶系统中的车辆作为智能体,表示为
Figure BDA0003194655440000061
观测状态:在每个时间步t,每个智能体
Figure BDA0003194655440000062
接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态oi。此外,观测状态oi还涉及前一时间步通信范围内的时隙占用信息。所有可能的观测状态构成观测状态空间
Figure BDA0003194655440000066
动作:在每个时间步t,每个可用的智能体i采取一个动作,该动作指示它是保持沉默还是选择一个时隙来发送信标。我们将智能体i的动作空间表示为
Figure BDA0003194655440000065
策略:给定观测值状态oi,智能体i的策略πi指定一个概率πi(ai|oi),由此获得每个动作
Figure BDA0003194655440000064
转移概率:给定观测值状态oi,t和智能体的动作ai,t,根据概率P(oi,t+1|oi,t,ai,t),当前观测值状态转移到下一个观测状态oi,t+1
奖励:在每一个时间步t,每一个智能体的反馈都来自同队列的其他智能体。反馈已成功传输的信标数量的信息。本网络采用已成功传输的信标数量作为直接奖励,表示为ri,t
本实施例的每个智能体采用都一个分层框架,由一个管理模块和一个工作模块组成,具体模型见图2。
多智能体分层注意力强化学习(MAHA)框架将分层强化学习的每一层与图形注意力网络(GAT)相结合。在技术上,本方法提出的MAHA框架将每个协同驾驶系统中的车辆视为一个智能体,并为动态通信和交通环境中的每个协同驾驶生成自适应动作。本发明提出的MAHA框架中采用了两级分层架构,其中每个智能体由一个管理模块和一个工作模块组成。在它们之间,管理模块以较低的时间分辨率操作,但总是可以预见固定数量的时间步。更具体地说,管理模块有权为工作模块设定目标并奖励执行该目标的工作模块。相比之下,工作模块则关注的时间间隔较短,但时间分辨率较高。因此,即使智能体不能及时收到其他队列成员的反馈,这种层次框架仍然可以帮助智能体学习在必要时采取有利的行动。
它通过共同考虑管理模块设定的奖励和从环境中获得的外在奖励来输出智能体的决策。通过这种方式,尽管工作模块不能将收到的即时奖励分配给过去的行动,但由于当这些行动与目标一致时,管理模块会给予工作模块内在的奖励,因此工作模块仍然愿意学会有预见性。因此,这种层级结构使协同驾驶车辆能够学会采取有远见的行动来优化长期回报。
为了捕捉智能体之间的这种相互影响,本实施例首先将多智能体环境构建为在管理和工作模块中构建无向图。每个智能体代表一个顶点,每个边将智能体与其在OHS(一跳集)的一个邻居连接起来。本实施例将提出的MAHA框架中的两个层次中的每一个分别与图关注网络(GAT)集成,以指定邻域内不同顶点的不同权重。由于管理模块和工作模块以不同的时间分辨率运行,所以管理模块和工作模块中使用的邻域定义是不同的。
如图2所示,在每个时间步t,智能体i的观察oi,t被输入到MLP中,MLP为管理模块i输出一个中间状态表示xi,t
GAT是在2018年ICLR上发表一种新型神经网络结构,它对图形结构数据进行操作,利用掩蔽的自注意层来解决基于图形卷积或其近似的现有方法的缺点。通过堆叠节点能够关注其邻域特征的层,能够(隐式地)为邻域中的不同节点指定不同的权重,而不需要任何类型的复杂的矩阵运算(例如求逆)或者依赖于预先知道图形结构。
QNet(action-value network)作为工作模块的critic,是一个神经网络,用来模拟动作价值函数,接收工作模块中GAT传来的结果。
VNet(state-value network)为管理模块的critic,是一个神经网络,用来模拟状态价值函数。
长短期记忆网络(Long-Short Term Memory,LSTM)论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。是一种特殊的RNN(循环神经网络),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题,比普通RNN(循环神经网络)在更长的序列中有更好的表现。
ui,t在图中表示为uN,为工作模块的LSTM的输出值,意为初步动作。但是这个初步动作不是智能体实际执行的动作,而是要通过与管理模块传来的GN进行点乘操作获得aN,aN才是智能体与环境进行交互的实际动作。
Gi,t在图中表示为G1,GN,管理模块i将c-1个先前目标gi,t-c+1,…,gi,t-1与gi,t连接起来,并将这样连接的向量Gi,t作为输出传递给工作模块i。
ai,t在图中表示为a1,aN,为ui,t和Gi,t点乘的结果,是智能体与环境进行交互的实际动作。
Multiply操作意为点乘,作用是将uN与GN进行点乘,获得aN
为了使管理模块能够在较低的时间分辨率下工作,本实施例采用了扩张长短期记忆人工神经网络(dLSTM),它保持一个数组(hi,0,hi,1,…,hi,c-1)来存储给定扩张半径
Figure BDA0003194655440000081
的c个历史隐藏状态。dLSTM将xi,t和hi,t%c作为它的输入。除了更新值hi,t%c之外,dLSTM还输出目标gi,t,它可以被认为是对工作模块i在以下c时间步骤中的动作的指令。然后,管理模块i将c-1个先前目标gi,t-c+1,…,gi,t-1与gi,t连接起来,并将这样连接的向量Gi,t作为输出传递给工作模块i。
在MAHA框架中,之前提到的dLSTM充当管理模块i的actor,它只接受状态表示xi,t作为它的输入,并在每个时间步t输出目标gi,t作为它的动作。
在训练过程中,本实施例使用状态价值网络(VNet)作为管理模块的critic。本实施例使用GAT来指定每个相邻管理模块的权重,而不是简单地将其他管理模块的状态表示输入到当前管理模块状态表示中。更具体地说,由于管理模块以较低的时间分辨率运行,本实施例需要在管理模块中扩展OHS的覆盖范围。显然,每个管理模块都应该与其他管理模块合作,这些管理模块会影响智能体如何设定目标。因此,只要智能体在下一个c时间步中处于智能体i的通信范围所覆盖的区域内,本实施例就认为这些智能体的管理模块属于管理模块i的OHS(一跳集)。因此,在管理模块中,每个顶点代表一个管理模块。边缘连接管理模块和它在OHS的邻居管理模块。为了解决隐藏的终端问题,本实施例堆叠了两个GAT,以收集其他管理模块的信息到THS(两跳集)中。更具体地说,给定管理模块的无向图,本实施例首先为每个管理模块i都构造一个邻接矩阵
Figure BDA0003194655440000094
邻接矩阵的第一行是智能体i索引的one-hot(独热)表示,其余的行是其邻居索引的one-hot(独热)表示。在每一个GAT层中,本实施例使用邻接矩阵
Figure BDA0003194655440000092
来提取管理模块i及其邻居的信息,然后将这些提取的信息馈送到注意模块。具体地,在第一个GAT层中,关注模块输出每个管理模块i的特征向量x′i,t,其涉及OHS中相邻管理模块的状态表示信息。同样,本实施例通过使用邻接矩阵为每个管理模块i提取特征向量。然后,第二个GAT层的注意模块将这些提取的特征向量作为其输入,并输出输出层的特征向量x″i。由于第一层输出的邻居的特征向量已经在一跳范围中收集了关于其邻居的状态表示的信息,所以输出层的特征向量x″i也可以在两跳范围中获得这样的信息。因此,本实施例可以利用特征向量x′i和x″i作为VNet的输入,并使VNet学会同时处理暴露的终端问题和隐藏的终端问题。
为了处理大的离散动作空间
Figure BDA0003194655440000093
本实施例在工作模块中采用了深度确定性策略梯度(DDPG)框架。为了达到这个目的,本实施例采用行动价值网络(QNet)作为工作模块的critic。与管理模块不同,工作模块以更高的时间分辨率操作,并且只考虑其在当前时间步的动作。因此,本实施例采用了一个标准的LSTM作为工作模块的行动者在MAHA框架。本实施例将观察值oi,t输入到一个MLP中,该MLP为工作模块输出一个状态表示zi,t。在每个时间步t,状态表示zi,t和前一个时间步t-1的隐藏状态hi,t-1被馈送到LSTM,后者输出工作模块i的初步动作ui,t和更新的隐藏状态hi,t
此外,为了结合管理模块i设置的目标的影响,本实施例将工作模块的初步动作ui,t乘以连接的目标Gi,t,然后通过Softmax层馈送计算结果,以获得智能体i的最终策略πi,t,它是智能体i的动作空间上的概率分布当与环境交互时,智能体i根据策略πi,t采取行动ai,t,并从环境中获得奖励,表示为ri,t。与管理模块类似,本实施例使用两个GAT来为OHS和THS的相邻工作模块指定权重。由于工作以较高的时间分辨率运行,本实施例将工作模块中OHS的覆盖范围定义为在当前时间步t由智能体的通信范围覆盖的区域。因此,本实施例可以为工作模块建立一个无向图,并为每个工作模块i构造邻接矩阵
Figure BDA0003194655440000101
本实施例用其动作ai,t连接每个工作模块i的状态表示zi,t,并采用这样的连接向量wi,t作为第一个GAT层的输入。然后,这两个GAT层可以输出特征向量w′i,t和w″i,t,它们可以收集OHS和THS的其他邻近工作模块的信息。因此,本实施例可以取这样的特征向量w′i,t和w″i,t作为QNet的输入,并使QNet能够学习避免不必要的传输冲突。
本模块在GAT层采用了多头点积注意模块(multi-head dot-product attentionmodule)。在此本实施例使用符号fi来表示每个注意力模块的输入特征向量。首先,本实例使用编码矩阵
Figure BDA0003194655440000102
将输入特征向量fi投影到查询、关键字和值表示中。然后,对于每个注意头l,计算以下Softmax函数:
Figure BDA0003194655440000103
其中,
Figure BDA0003194655440000104
是比例因子,dk是关键表示的维数。
Figure BDA0003194655440000105
代表智能体i的OHS。为了简单起见,本实施例在符号中去掉了管理模块m和工作模块w的上标以及时间t的下标。此后,对于每个智能体
Figure BDA0003194655440000106
本实施例用Softmax函数
Figure BDA0003194655440000107
的输出对其值表示进行加权,然后将所有这些加权的值表示加在一起作为注意头l的输出。最后,本实施例将L个注意头的输出连接起来,并将连接的向量馈送到非线性ReLU激活函数中,以输出智能体i的特征向量f′i
Figure BDA0003194655440000108
结果,这样的特征向量f′i收集了OHS中每个相邻智能体的加权信息。
本实施例采用集中训练和分散执行的训练方式训练多智能体分层注意力强化学习网络,每一次训练都会由训练环境生成数据并放入经验回放池
Figure BDA0003194655440000109
Figure BDA00031946554400001010
然后从经验回放池
Figure BDA00031946554400001011
Figure BDA00031946554400001012
中联合采样,对工作模块和管理模块进行训练,更新VNet、QNet、工作模块的actor以及管理模块的actor;
请见图3,为本发明实施的协同车辆和单独车辆的混合交通场景示例。本实施例的训练环境,是采用一个5公里的双向高速公路路段,每个方向有三个车道,在这个路段上,交通流由几个队列车辆和单个车辆组成。此外,单个车辆以100km/h至120km/h的随机速度初始化,并且它们的位置服从泊松分布。一辆协同驾驶的车辆利用其MAHA网络输出的时隙以10Hz的固定频率在CCH上发送信标。
本实施例采用集中训练和分散执行的训练方式训练所述多智能体分层注意力强化学习网络,具体包括以下子步骤:
步骤1.1初始化每个智能体i的参数φi,θi
Figure BDA0003194655440000111
Figure BDA00031946554400001114
为每个卷积层初始化每个关注头l的参数
Figure BDA0003194655440000112
其中,φi表示管理模块i的VNet的学习参数,θi表示管理模块i的actor网络的学习参数,
Figure BDA0003194655440000113
表示工作模块i的QNet的学习参数,
Figure BDA00031946554400001116
表示工作模块i的actor网络的参数,编码矩阵
Figure BDA0003194655440000114
是注意模块中的参数矩阵,作用是将输入特征向量fi投影到查询、关键字和值表示中;
步骤1.2:设置训练回合次数为1...,K;
步骤1.3:设置时间步1....,T;
步骤1.4:时间步是t,回合episode总步长是T,每个智能体从训练环境接收一个观测状态oi,t,给定智能体的观测状态oi,t,管理模块计算状态表示xi,t,并得出目标gi,t;根据生成的目标gi,t,管理模块根据生成的gi,t,计算内在奖励
Figure BDA00031946554400001115
并将这个奖励传递给工作模块;工作模块根据观测状态oi,t计算状态zi,t,并根据策略πi,t输出生成动作ai,t;智能体采取动作ai,t并获得奖励ri,t
步骤1.5:在每个时间步t,管理模块i接收即时奖励
Figure BDA0003194655440000116
其中,γ表示折损因子,角标m代表这个奖励是管理模块i接收即时奖励,区别与其他的奖励;在所有智能体接收到此类即时奖励后,将元组
Figure BDA0003194655440000117
年储到经验回放池
Figure BDA0003194655440000118
中;在每个时间步t,将
Figure BDA0003194655440000119
存储在经验回放池
Figure BDA00031946554400001110
中;其中,
Figure BDA00031946554400001111
分别代表管理模块中的状态表示xi,t、目标gi,t、邻接矩阵和即时奖励
Figure BDA00031946554400001112
的集合;
Figure BDA00031946554400001113
分别表示从环境中获得的状态表示zi,t、动作ai,t、邻接矩阵和外部奖励ri,t以及从管理模块中获得的内部奖励
Figure BDA00031946554400001214
的集合;
步骤1.6:回转执行步骤1.4,直到训练步长为T;
步骤1.7:参数更新;
从经验回放池
Figure BDA0003194655440000122
Figure BDA0003194655440000123
中联合采样一个批次,管理模块使用两个GAT层计算特征向量x′i,t和x″i,t,x′i,t和x″i,t分别表示管理模块中的两个GAT层的输出值;接着工作模块将其动作ai,t连接每个工作模块i的状态表示zi,t,并采用这样的连接向量wi,t作为第一个GAT层的输入;工作模块将连接的向量wi,t送到GAT层,并分别通过以下两个式子获得特征向量w′i,t和w″i,t
Figure BDA0003194655440000124
Figure BDA0003194655440000125
其中,其中,
Figure BDA0003194655440000126
是比例因子,dk是关键表示的维数,
Figure BDA0003194655440000127
代表智能体i的一跳集OHS;fj表示关于智能体j的特征向量,L表示注意头数量;
Figure BDA0003194655440000128
表示关于注意头l,i和j之间的影响权重;
步骤1.7:根据步骤1.6生成的特征向量,管理模块和工作模块的actor-critic网络的参数获得更新;
(1)训练管理模块;
在训练过程中,将xi,t,x′i,t,x″i,t所有GAT层的特征向量连接到VNet中,表示为
Figure BDA00031946554400001215
其中φi表示VNet的学习参数;
在每个时间步t,管理模块i接收即时奖励
Figure BDA0003194655440000129
通过最小化以下等式中给出的损失来训练管理模块的VNet,
Figure BDA00031946554400001210
其中,
Figure BDA00031946554400001211
为管理模块i接收即时奖励;
Figure BDA00031946554400001212
为经验回放池,用来存储元组
Figure BDA00031946554400001213
并采用过渡策略梯度方法来训练管理模块的actor,计算角色的过渡策略梯度,如下式:
Figure BDA0003194655440000131
其中,θi表示管理模块i的actor网络的学习参数;
Figure BDA0003194655440000132
为梯度算子,对于θi求导的梯度;目标gi,t是管理模块状态空间中的有利转换方向;使用余弦相似性函数dcos来比较向量xi,t+c-xi,t和gi,t之间的相似性;管理模块的优势函数为
Figure BDA0003194655440000133
其中
Figure BDA0003194655440000134
是智能体从环境中获得的累计折扣外部奖励,Vi,t表示状态价值函数;
(2)训练工作模块;
在下面的等式中引入了内在奖励
Figure BDA0003194655440000135
Figure BDA0003194655440000136
在训练过程中,智能体i的工作模块旨在从第一个时间步骤开始最大化预期回报,表示为
Figure BDA0003194655440000137
其中
Figure BDA0003194655440000138
是外部和内部回报的加权和;δ∈[0,1]是一个超参数,它控制激励工作模块遵循目标指导的程度;
将wi,t,w′i,t,w″i,t所有GAT层的特征向量反馈给QNet,表示为
Figure BDA0003194655440000139
Figure BDA00031946554400001310
其中,
Figure BDA00031946554400001311
是QNet的学习参数;
此外,工作模块的actor部分只接受其状态表示zi,t,而隐藏状态hi,t接受其输入并输出策略πi,t;根据策略πi,t,智能体i采取行动ai,t,并从环境中获得外部奖励ri,t
工作模块的critic旨在最小化下面等式中给出的损失函数,通过该损失函数更新QNet;
Figure BDA00031946554400001312
其中,Qi,t表示智能体i在时间步t的动作价值函数;
此外,通过使用在下面的等式中给出的策略梯度来更新工作模块的actor,
Figure BDA0003194655440000141
其中,
Figure BDA0003194655440000142
表明工作模块actor网络的参数,Ji表示累积期望奖励函数,作用是用来后续对
Figure BDA0003194655440000143
求偏导以获得梯度;
步骤1.8:回转执行步骤1.3,直到训练完所有的回合;
步骤1.9:保存VNet,QNet,管理模块的actor网络,工作模块的actor网络。
本实施例中,定义评价指标,对多智能体分层注意力强化学习网络进行测试和评估;性能指标包括所有智能体成功发送的信标数量、信标接收率,以及根据帧数计算的平均延迟和最大延迟。
步骤2:采用多智能体分层注意力强化学习网络,进行协同驾驶信息传播。
本实施例中,通过训练这些神经网络,每个可用的智能体i能够更好地采取的动作ai(即保持沉默还是选择一个时隙来发送信标),能使得整个通信环境更好的整体通信性能指标。
本发明提出了一种新的多智能体分层注意力强化学习(MAHA)网络,是第一个将分层强化学习与图形注意力网络(graph attention network,GAT)层相结合的多智能体强化学习网络。该网络能够有效地学习各种车辆通信场景中隐藏的交通和通信模式。在技术上,MAHA网络将协同驾驶系统中的每个车辆视为一个智能体,根据通信和交通环境为每个协同驾驶车辆生成自适应动作。
MAHA网络中采用了两级分层架构,其中每个智能体由一个管理模块和一个工作模块组成。管理模块以较低的时间分辨率操作,理解固定步长的状态转移。更具体地说,管理模块有权为工作模块设定目标并奖励向该目标前进的工作模块。相比之下,工作模块则时间分辨率较高,每步执行具体时隙选择动作。因此,即使智能体不能及时收到其他队列成员的反馈,本网络仍然可以帮助智能体学习在必要时采取有利的行动。
通过这种方式,尽管工作模块不能将收到的即时奖励分配给过去的动作,但由于当这些行动与目标一致时,管理模块会给予工作模块内在的奖励,因此工作模块仍然愿意去学习具有前瞻性的时隙选择策略。这种分层结构使协同驾驶车辆能采取有远见的行动来优化长期回报。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于多智能体强化学习的协同驾驶信息传播方法,其特征在于,包括以下步骤:
步骤1:构建多智能体分层注意力强化学习网络;
所述智能体,为协同驾驶中的车辆,记为
Figure FDA0003194655430000011
在每个时间步t,每个智能体
Figure FDA0003194655430000012
接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态oi,观测状态oi还包括前一时间步通信范围内的时隙占用信息;所有可能的观测状态构成观测状态空间
Figure FDA0003194655430000013
在每个时间步t,每个可用的智能体i采取一个动作,该动作指示它是保持沉默还是选择一个时隙来发送信标,将智能体i的动作空间表示为
Figure FDA0003194655430000014
给定观测状态oi,智能体i的策略πi指定一个概率πi(ai|oi),由此获得每个动作
Figure FDA0003194655430000015
给定时间步t观测值状态oi,t和智能体的动作ai,t,根据概率P(oi,t+1|oi,t,ai,t),当前观测状态oi,t转移到下一个观测状态oi,t+1;在每一个时间步t,每一个智能体的反馈都来自同队列的其他智能体,此类反馈已成功传输的信标数量的信息,采用已成功传输的信标数量作为直接奖励,记为ri,t
每个智能体i均采用一个分层网络,所述分层网络由一个管理模块和一个工作模块组成;
所述管理模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为管理模块i输出一个中间状态表示xi,t,并送入扩张长短期记忆人工神经网络dLSTM,dLSTM接受状态xi,t输入,然后输出目标gi,t,将c-1个先前目标gi,t-c+1,…,gi,t-1与gi,t连接起来,并将这样连接的向量Gi,t作为输出,向量Gi,t与工作模块中的LSTM的输出值进行点积操作后获得值ai,t,并将ai,t传递给工作模块,接收即时奖励
Figure FDA0003194655430000016
并将
Figure FDA0003194655430000017
存入经验回放池
Figure FDA0003194655430000018
中;在从经验回放池
Figure FDA0003194655430000019
采样后对网络进行训练阶段,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重;并将获得的连接向量xi,t作为第一个GAT层的输入,以获得特征向量x′i,t,再将x′i,t输入第二个GAT层获得x″i,t;将GAT的输出xi,t,x′i,t和x″i,t送入VNet,使用A2C算法对VNet进行更新;
所述管理模块采用扩张长短期记忆人工神经网络dLSTM作为actor,它保持一个数组(hi,0,hi,1,…,hi,c-1)来存储给定扩张半径
Figure FDA0003194655430000021
的c个历史隐藏状态;所述管理模块采用图形注意力网络GAT来指定每个相邻管理模块的影响权重;
所述工作模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为工作模块输出一个状态表示zi,t,zi,t和LSTM的前一个时间步t-1的隐藏状态hi,t-1被馈送到LSTM,LSTM输出工作模块i的初步动作ui,t;工作模块的初步动作ui,t点乘连接的管理模块传来的目标Gi,t,然后通过Softmax层计算结果,以获得智能体i的最终策略πi,t,智能体i根据策略πi,t采取行动ai,t,得到内在奖励
Figure FDA0003194655430000022
和外部奖励ti,t,并将
Figure FDA0003194655430000023
存入经验回放池
Figure FDA0003194655430000024
中;在从经验回放池
Figure FDA0003194655430000025
采样后对网络进行训练阶段,用其动作ai,t连接工作模块i的状态表示zi,t得到wi,t,传入各个智能体中的工作模块的GAT中,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重,将获得的连接向量wi,t作为第一个GAT层的输入,以获得特征向量w′i,t,再将w′i,t输入第二个GAT层获得w″i,t;将GAT的输出wi,t,w′i,t和w″i,t送入QNet中,使用DDPG算法对QNet和LSTM进行更新,计算动作价值后输入LSTM中,对LSTM进行更新;
所述工作模块采用深度确定性策略梯度DDPG方法,采用行动价值网络QNet作为工作模块的critic,使用标准的长短期记忆人工神经网络LSTM作为工作模块的actor;
步骤2:采用多智能体分层注意力强化学习网络,进行协同驾驶信息传播。
2.根据权利要求1所述的基于多智能体强化学习的协同驾驶信息传播方法,其特征在于:采用集中训练和分散执行的训练方式训练所述多智能体分层注意力强化学习网络,每一次训练都会由训练环境生成数据并放入经验回放池
Figure FDA0003194655430000028
Figure FDA0003194655430000029
然后从经验回放池
Figure FDA0003194655430000026
Figure FDA0003194655430000027
中联合采样,对工作模块和管理模块进行训练,更新VNet、QNet、工作模块的actor以及管理模块的actor;
所述训练环境,采用一个S公里的双向高速公路路段,每个方向有M个车道,在这个路段上,交通流由若干个队列车辆和单个车辆组成,其中,S、M为预设值;此外,单个车辆以100km/h至120km/h的随机速度初始化,且它们的位置服从泊松分布;一辆协同驾驶的车辆利用其多智能体分层注意力强化学习网络输出的时隙以10Hz的固定频率在CCH上发送信标。
3.根据权利要求2所述的基于多智能体强化学习的协同驾驶信息传播方法,其特征在于,采用集中训练和分散执行的训练方式训练所述多智能体分层注意力强化学习网络,具体包括以下子步骤:
步骤1.1初始化每个智能体i的参数φi,θi
Figure FDA0003194655430000031
Figure FDA0003194655430000032
为每个卷积层初始化每个关注头l的参数
Figure FDA0003194655430000033
其中,φi表示管理模块i的VNet的学习参数,θi表示管理模块i的actor网络的学习参数,
Figure FDA0003194655430000034
表示工作模块i的QNet的学习参数,
Figure FDA0003194655430000035
表示工作模块i的actor网络的参数,编码矩阵
Figure FDA0003194655430000036
是注意模块中的参数矩阵,作用是将输入特征向量fi投影到查询、关键字和值表示中;
步骤1.2:设置训练回合次数为1...,K;
步骤1.3:设置时间步1....,T;
步骤1.4:时间步是t,回合episode总步长是T,每个智能体从训练环境接收一个观测状态oi,t,给定智能体的观测状态oi,t,管理模块计算状态表示xi,t,并得出目标gi,t;根据生成的目标gi,t,管理模块根据生成的gi,t,计算内在奖励
Figure FDA0003194655430000037
并将这个奖励传递给工作模块;工作模块根据观测状态oi,t计算状态zi,t,并根据策略πi,t输出生成动作ai,t;智能体采取动作ai,t并获得奖励ri,t
步骤1.5:在每个时间步t,管理模块i接收即时奖励
Figure FDA0003194655430000038
其中,γ表示折损因子,角标m代表这个奖励是管理模块i接收即时奖励,区别与其他的奖励;在所有智能体接收到此类即时奖励后,将元组
Figure FDA0003194655430000039
存储到经验回放池
Figure FDA00031946554300000310
中;在每个时间步t,将
Figure FDA00031946554300000311
存储在经验回放池
Figure FDA00031946554300000312
中;其中,
Figure FDA00031946554300000313
分别代表管理模块中的状态表示xi,t、目标gi,t、邻接矩阵和即时奖励
Figure FDA0003194655430000041
的集合;
Figure FDA0003194655430000042
分别表示从环境中获得的状态表示zi,t、动作ai,t,邻接矩阵和外部奖励ri,t以及从管理模块中获得的内部奖励
Figure FDA0003194655430000043
的集合;
步骤1.6:回转执行步骤1.4,直到训练步长为T;
步骤1.7:参数更新;
从经验回放池
Figure FDA0003194655430000044
Figure FDA0003194655430000045
中联合采样一个批次,管理模块使用两个GAT层计算特征向量x′i,t和x″i,t,x′i,t和x″i,t分别表示管理模块中的两个GAT层的输出值;接着工作模块将其动作ai,t连接每个工作模块i的状态表示zi,t,并采用这样的连接向量wi,t作为第一个GAT层的输入;工作模块将连接的向量wi,t送到GAT层,并分别通过以下两个式子获得特征向量w′i,t和w″i,t
Figure FDA0003194655430000046
Figure FDA0003194655430000047
其中,其中,
Figure FDA0003194655430000048
是比例因子,dk是关键表示的维数,
Figure FDA0003194655430000049
代表智能体i的一跳集OHS;fj表示关于智能体j的特征向量,L表示注意头数量;
Figure FDA00031946554300000410
表示关于注意头l,i和j之间的影响权重;
步骤1.7:根据步骤1.6生成的特征向量,管理模块和工作模块的actor-critic网络的参数获得更新;
(1)训练管理模块;
在训练过程中,将xi,t,x′i,t,x″i,t所有GAT层的特征向量连接到VNet中,表示为Vi,t=Vφi(xi,t,x′i,t,x″i,t),其中φi表示VNet的学习参数;
在每个时间步t,管理模块i接收即时奖励
Figure FDA00031946554300000411
通过最小化以下等式中给出的损失来训练管理模块的VNet,
Figure FDA00031946554300000412
其中,
Figure FDA00031946554300000413
为管理模块i接收即时奖励;
Figure FDA00031946554300000414
为经验回放池,用来存储元组
Figure FDA0003194655430000051
并采用过渡策略梯度方法来训练管理模块的actor,计算角色的过渡策略梯度,如下式:
Figure FDA0003194655430000052
其中,θi表示管理模块i的actor网络的学习参数;
Figure FDA0003194655430000053
为梯度算子,对于θi求导的梯度;目标gi,t是管理模块状态空间中的有利转换方向;使用余弦相似性函数dcos来比较向量xi,t+c-xi,t和gi,t之间的相似性;管理模块的优势函数为
Figure FDA0003194655430000054
其中
Figure FDA0003194655430000055
是智能体从环境中获得的累计折扣外部奖励,Vi,t表示状态价值函数;
(2)训练工作模块;
在下面的等式中引入了内在奖励
Figure FDA0003194655430000056
Figure FDA0003194655430000057
在训练过程中,智能体i的工作模块旨在从第一个时间步骤开始最大化预期回报,表示为
Figure FDA0003194655430000058
其中
Figure FDA0003194655430000059
是外部和内部回报的加权和;δ∈[0,1是一个超参数,它控制激励工作模块遵循目标指导的程度;
将wi,t,wi,t,wi,t所有GAT层的特征向量反馈给QNet,表示为
Figure FDA00031946554300000510
Figure FDA00031946554300000511
其中,
Figure FDA00031946554300000512
是QNet的学习参数;
此外,工作模块的actor部分只接受其状态表示zi,t,而隐藏状态hi,t接受其输入并输出策略πi,t;根据策略πi,t,智能体i采取行动ai,t,并从环境中获得外部奖励ri,t
工作模块的critic旨在最小化下面等式中给出的损失函数,通过该损失函数更新QNet;
Figure FDA00031946554300000513
其中,Qi,t表示智能体i在时间步t的动作价值函数;
此外,通过使用在下面的等式中给出的策略梯度来更新工作模块的actor,
Figure FDA0003194655430000061
其中,
Figure FDA0003194655430000062
表明工作模块actor网络的参数,Ji表示累积期望奖励函数,作用是用来后续对
Figure FDA0003194655430000063
求偏导以获得梯度;
步骤1.8:回转执行步骤1.3,直到训练完所有的回合;
步骤1.9:保存VNet,QNet,管理模块的actor网络,工作模块的actor网络。
4.根据权利要求1所述的基于多智能体强化学习的协同驾驶信息传播方法,其特征在于:所述多智能体分层注意力强化学习网络,定义性能评价指标,包括所有智能体成功发送的信标数量、信标接收率,以及根据帧数计算的平均延迟和最大延迟。
5.根据权利要求1-4任意一项所述的基于多智能体强化学习的协同驾驶信息传播方法,其特征在于:步骤2中,通过训练这些神经网络,每个可用的智能体i能够更好地采取的动作ai
6.一种基于多智能体强化学习的协同驾驶信息传播系统,其特征在于,包括以下模块:
模块1,用于构建多智能体分层注意力强化学习网络;
所述智能体,为协同驾驶中的车辆,记为
Figure FDA0003194655430000064
在每个时间步t,每个智能体
Figure FDA0003194655430000065
接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态oi,观测状态oi还包括前一时间步通信范围内的时隙占用信息;所有可能的观测状态构成观测状态空间
Figure FDA0003194655430000066
在每个时间步t,每个可用的智能体i采取一个动作,该动作指示它是保持沉默还是选择一个时隙来发送信标,将智能体i的动作空间表示为
Figure FDA0003194655430000067
给定观测状态oi,智能体i的策略πi指定一个概率πi(ai|oi),由此获得每个动作
Figure FDA0003194655430000068
给定时间步t观测值状态oi,t和智能体的动作ai,t,根据概率P(oi,t+1|oi,t,ai,t),当前观测状态oi,t转移到下一个观测状态oi,t+1;在每一个时间步t,每一个智能体的反馈都来自同队列的其他智能体,此类反馈已成功传输的信标数量的信息,采用已成功传输的信标数量作为直接奖励,记为ri,t
每个智能体i均采用一个分层网络,所述分层网络由一个管理模块和一个工作模块组成;
所述管理模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为管理模块i输出一个中间状态表示xi,t,并送入扩张长短期记忆人工神经网络dLSTM,dLSTM接受状态xi,t输入,然后输出目标gi,t,将c-1个先前目标gi,t-c+1,…,gi,t-1与gi,t连接起来,并将这样连接的向量Gi,t作为输出,向量Gi,t与工作模块中的LSTM的输出值进行点积操作后获得值ai,t,并将ai,t传递给工作模块,接收即时奖励
Figure FDA0003194655430000071
并将
Figure FDA0003194655430000072
存入经验回放池
Figure FDA0003194655430000073
中;在从经验回放池
Figure FDA0003194655430000074
采样后对网络进行训练阶段,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重;并将获得的连接向量xi,t作为第一个GAT层的输入,以获得特征向量x′i,t,再将x′i,t输入第二个GAT层获得x″i,t;将GAT的输出xi,t,x′i,t和x″i,t送入VNet,使用A2C算法对VNet进行更新;
所述管理模块采用扩张长短期记忆人工神经网络dLSTM作为actor,它保持一个数组(hi,0,hi,1,…,hi,c-1)来存储给定扩张半径
Figure FDA0003194655430000075
的c个历史隐藏状态;所述管理模块采用图形注意力网络GAT来指定每个相邻管理模块的影响权重;
所述工作模块,在与环境交互获得经验的阶段,每个时间步t,智能体i的观察oi,t被输入到多层感知器MLP中,多层感知器MLP为工作模块输出一个状态表示zi,t,zi,t和LSTM的前一个时间步t-1的隐藏状态hi,t-1被馈送到LSTM,LSTM输出工作模块i的初步动作ui,t;工作模块的初步动作ui,t点乘连接的管理模块传来的目标Gi,t,然后通过Softmax层计算结果,以获得智能体i的最终策略πi,t,智能体i根据策略πi,t采取行动ai,t,得到内在奖励
Figure FDA0003194655430000076
和外部奖励ri,t,并将
Figure FDA0003194655430000077
存入经验回放池
Figure FDA0003194655430000078
中;在从经验回放池
Figure FDA0003194655430000079
采样后对网络进行训练阶段,用其动作ai,t连接工作模块i的状态表示zi,t得到wi,t,传入各个智能体中的工作模块的GAT中,智能体利用GAT对各个智能体i传来的xi,t输入进行操作,为邻域中的不同节点指定不同的权重,将获得的连接向量wi,t作为第一个GAT层的输入,以获得特征向量w′i,t,再将w′i,t输入第二个GAT层获得w″i,t;将GAT的输出wi,t,w′i,t和w″i,t送入QNet中,使用DDPG算法对QNet和LSTM进行更新,计算动作价值后输入LSTM中,对LSTM进行更新;
所述工作模块采用深度确定性策略梯度DDPG方法,采用行动价值网络QNet作为工作模块的critic,使用标准的长短期记忆人工神经网络LSTM作为工作模块的actor;
模块2,用于采用多智能体分层注意力强化学习网络,进行协同驾驶信息传播。
CN202110887239.5A 2021-08-03 2021-08-03 基于多智能体强化学习的协同驾驶信息传播方法及系统 Active CN113743468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887239.5A CN113743468B (zh) 2021-08-03 2021-08-03 基于多智能体强化学习的协同驾驶信息传播方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887239.5A CN113743468B (zh) 2021-08-03 2021-08-03 基于多智能体强化学习的协同驾驶信息传播方法及系统

Publications (2)

Publication Number Publication Date
CN113743468A true CN113743468A (zh) 2021-12-03
CN113743468B CN113743468B (zh) 2023-10-10

Family

ID=78729972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887239.5A Active CN113743468B (zh) 2021-08-03 2021-08-03 基于多智能体强化学习的协同驾驶信息传播方法及系统

Country Status (1)

Country Link
CN (1) CN113743468B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
US11862016B1 (en) 2022-07-19 2024-01-02 Jiangsu University Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection
WO2024016386A1 (zh) * 2022-07-19 2024-01-25 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柴来;张婷婷;董会;王楠: "基于分区缓存区重放与多线程交互的多智能体深度强化学习算法", 计算机学报, no. 006, pages 1140 - 1152 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
US11862016B1 (en) 2022-07-19 2024-01-02 Jiangsu University Multi-intelligence federal reinforcement learning-based vehicle-road cooperative control system and method at complex intersection
WO2024016386A1 (zh) * 2022-07-19 2024-01-25 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法

Also Published As

Publication number Publication date
CN113743468B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN113743468A (zh) 基于多智能体强化学习的协同驾驶信息传播方法及系统
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
Huang et al. An overview of intelligent wireless communications using deep reinforcement learning
CN114007228B (zh) 基于异构图神经网络流量预测的基站智能控制方法
Xu et al. Stigmergic independent reinforcement learning for multiagent collaboration
Du et al. Multi-agent reinforcement learning for dynamic resource management in 6G in-X subnetworks
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN114885340B (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
CN112188467A (zh) 一种基于用户属性的终端发现方法
Wang et al. Cooperative channel assignment for VANETs based on multiagent reinforcement learning
Zhou et al. Multi-agent few-shot meta reinforcement learning for trajectory design and channel selection in UAV-assisted networks
Liu et al. A decoupled learning strategy for MEC-enabled wireless virtual reality (VR) network
Wang et al. Ensuring threshold AoI for UAV-assisted mobile crowdsensing by multi-agent deep reinforcement learning with transformer
Ke et al. Applying multi-agent deep reinforcement learning for contention window optimization to enhance wireless network performance
Lahmar et al. Optimal data transmission for decentralized IoT and WSN based on Type-2 Fuzzy Harris Hawks Optimization
Wang et al. Cooperation in wireless networks with unreliable channels
Liu et al. An efficient message dissemination scheme for cooperative drivings via multi-agent hierarchical attention reinforcement learning
CN116843500A (zh) 充电站规划方法、神经网络模型训练方法、装置和设备
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
Miao et al. A DDQN-based Energy-Efficient Resource Allocation Scheme for Low-Latency V2V communication
CN116582442A (zh) 一种基于层次化通信机制的多智能体协作方法
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
CN113938978B (zh) 一种基于强化学习的异构无线传感器寻路方法
Ma et al. Adaptive deployment of UAV-aided networks based on hybrid deep reinforcement learning
Chai et al. NVIF: Neighboring variational information flow for cooperative large-scale multiagent reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant