CN113743468A

CN113743468A - 基于多智能体强化学习的协同驾驶信息传播方法及系统

Info

Publication number: CN113743468A
Application number: CN202110887239.5A
Authority: CN
Inventors: 刘冰艺; 程传奇; 韩玮祯; 熊盛武
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-12-03
Anticipated expiration: 2041-08-03
Also published as: CN113743468B

Abstract

本发明公开了一种基于多智能体强化学习的协同驾驶信息传播方法及系统，本发明构建了多智能体分层注意力强化学习网络MAHA，进行协同驾驶信息传播。本发明提出的MAHA，可以有效地学习各种车辆通信场景的隐藏模式，可以广泛应用于各种车辆通信场景。本方法所提出的MAHA是第一个将分层强化学习与GAT层相结合的多智能体强化学习框架，它在适当考虑智能体相互影响的情况下的输出动作。

Description

基于多智能体强化学习的协同驾驶信息传播方法及系统

技术领域

本发明属于车辆网络通信技术领域，具体涉及一种基于多智能体强化学习的协同驾驶信息传播方法及系统。

背景技术

互联的自动驾驶车辆组成的协同驾驶系统可以显著提高交通效率和通行能力、增强道路公路安全性、降低油耗。作为一种网络化控制系统，协同驾驶系统中的车辆控制依赖于协同感知信息的周期性交换。因此，为车辆设计一个有效的调度算法从而在共享通信信道中周期性地广播它们的运动状态是至关重要的。

然而，网联车辆的通信具有高度动态的网络拓扑和频繁的通信链路中断等特征。现存的信标发送策略和信标时隙控制机制没有充分解决这几个问题。例如，大多数现有的信标方案在实践中没有考虑到多种协同驾驶模式的共存，这需要在自由车辆和协同驾驶车辆之间进行有效的时隙调度。此外，由于协同驾驶传统的通信协议在设计上很难对交通和通信进行建模，现有大部分研究仅从统计学角度来考虑稳定交通流和通信信道条件下的信标性能，这可能会严重影响信标性能的瞬态阶段。

发明内容

为了解决上述技术问题，本发明提供了一个基于多智能体强化学习的协同驾驶信息传播方法及系统。

本发明的方法采取的技术方案是：一种基于多智能体强化学习的协同驾驶信息传播方法，包括以下步骤：

步骤1：构建多智能体分层注意力强化学习网络；

所述智能体，为协同驾驶中的车辆，记为

在每个时间步t，每个智能体

接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态o_i，观测状态o_i还包括前一时间步通信范围内的时隙占用信息；所有可能的观测状态构成观测状态空间

在每个时间步t，每个可用的智能体i采取一个动作，该动作指示它是保持沉默还是选择一个时隙来发送信标，将智能体i的动作空间表示为

给定观测状态o_i，智能体i的策略π_i指定一个概率π_i(a_i∣o_i)，由此获得每个动作

给定时间步t观测值状态o_i,t和智能体的动作a_i,t，根据概率P(o_i，t+1|o_i，t，a_i，t)，当前观测状态o_i，t转移到下一个观测状态o_i，t+1；在每一个时间步t，每一个智能体的反馈都来自同队列的其他智能体，此类反馈已成功传输的信标数量的信息，采用已成功传输的信标数量作为直接奖励，记为r_i，t；

每个智能体i均采用一个分层网络，所述分层网络由一个管理模块和一个工作模块组成；

所述管理模块，在与环境交互获得经验的阶段，每个时间步t，智能体i的观察o_i，t被输入到多层感知器MLP中，多层感知器MLP为管理模块i输出一个中间状态表示x_i，t，并送入扩张长短期记忆人工神经网络dLSTM，dLSTM接受状态x_i，t输入，然后输出目标g_i，t，将c-1个先前目标g_i，t-c+1，…，g_i，t-1与g_i，t连接起来，并将这样连接的向量G_i，t作为输出，向量G_i，t与工作模块中的LSTM的输出值进行点积操作后获得值a_i，t，并将a_i，t传递给工作模块，接收即时奖励

并将

存入经验回放池

中；在从经验回放池

采样后对网络进行训练阶段，智能体利用GAT对各个智能体i传来的x_i，t输入进行操作，为邻域中的不同节点指定不同的权重；并将获得的连接向量x_i，t作为第一个GAT层的输入，以获得特征向量x′_i，t，再将x′_i，t输入第二个GAT层获得x″_i，t；将GAT的输出x_i，t，x′_i，t和x″_i，t送入VNet，使用A2C算法对VNet进行更新；

所述管理模块采用扩张长短期记忆人工神经网络dLSTM作为actor，它保持一个数组(h_i，0，h_i，1，…，h_i，c-1)来存储给定扩张半径

的c个历史隐藏状态；所述管理模块采用图形注意力网络GAT来指定每个相邻管理模块的影响权重；

所述工作模块，在与环境交互获得经验的阶段，每个时间步t，智能体i的观察o_i，t被输入到多层感知器MLP中，多层感知器MLP为工作模块输出一个状态表示z_i，t，z_i，t和LSTM的前一个时间步t-1的隐藏状态h_i，t-1被馈送到LSTM，LSTM输出工作模块i的初步动作u_i，t；工作模块的初步动作u_i，t点乘连接的管理模块传来的目标G_i，t，然后通过Softmax层计算结果，以获得智能体i的最终策略π_i，t，智能体i根据策略π_i，t采取行动a_i，t，得到内在奖励

和外部奖励r_i，t，并将

存入经验回放池

中。在从经验回放池

采样后对网络进行训练阶段，用其动作a_i，t连接工作模块i的状态表示z_i，t得到w_i，t，传入各个智能体中的工作模块的GAT中，智能体利用GAT对各个智能体i传来的x_i，t输入进行操作，为邻域中的不同节点指定不同的权重，将获得的连接向量w_i，t作为第一个GAT层的输入，以获得特征向量w′_i，t，再将w′_i，t输入第二个GAT层获得w″_i，t；将GAT的输出w_i，t，w′_i，t和w″_i，t送入QNet中，使用DDPG算法对QNet和LSTM进行更新，计算动作价值后输入LSTM中，对LSTM进行更新；

所述工作模块采用深度确定性策略梯度DDPG方法，采用行动价值网络QNet作为工作模块的critic，使用标准的长短期记忆人工神经网络LSTM作为工作模块的actor；

步骤2：采用多智能体分层注意力强化学习网络，进行协同驾驶信息传播。

本发明的系统所采用的技术方案是：一种基于多智能体强化学习的协同驾驶信息传播系统，其特征在于，包括以下模块：

模块1，用于构建多智能体分层注意力强化学习网络；

所述智能体，为协同驾驶中的车辆，记为

在每个时间步t，每个智能体

给定观测状态o_i，智能体i的策略π_i指定一个概率π_i(a_i|o_i)，由此获得每个动作

给定时间步t观测值状态o_i，t和智能体的动作a_i，t，根据概率P(o_i，t+1|o_i，t，a_i，t)，当前观测状态o_i，t转移到下一个观测状态o_i，t+1；在每一个时间步t，每一个智能体的反馈都来自同队列的其他智能体，此类反馈已成功传输的信标数量的信息，采用已成功传输的信标数量作为直接奖励，记为r_i，t；

并将

存入经验回放池

中；在从经验回放池

和外部奖励r_i，t，并将

存入经验回放池

中；在从经验回放池

模块2，用于采用多智能体分层注意力强化学习网络，进行协同驾驶信息传播。

本发明与其他方法相比主要有三大优势：

(1)其他方法中的大多数都是基于规则的策略，限制了可应用的场景。相比之下，本发明提出了一种新的多智能体分层注意力强化学习(MAHA)网络，它可以有效地学习各种车辆通信场景的隐藏模式。因此，本方法所提出的MAHA网络可以广泛应用于各种车辆通信场景。

(2)其他方法所接收的奖励总是对应于现实世界车辆通信场景中的过去动作。这种现象阻碍了其他方法中的智能体强化学习有效的策略。本方法所提出的MAHA网络是第一个将分层强化学习与GAT层相结合的多智能体强化学习网络，它在适当考虑智能体相互影响的情况下的输出动作。

(3)本发明从合作驱动的角度出发，将协同驾驶车辆消息发送问题表述为一个马尔可夫博弈。本发明能有效克服延迟奖励挑战，处理智能体间的相互影响。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施的MAHA网络结构示意图；

图3为本发明实施的协同车辆和单独车辆的混合交通场景示例。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于多智能体强化学习的协同驾驶信息传播方法，包括以下步骤：

步骤1：构建多智能体分层注意力强化学习网络；

本发明通过模拟器模拟了高速公路条件下车辆通信的场景，将协同驾驶车辆的时隙选择问题建模成马尔可夫博弈，并定义其中的智能体、观测状态、动作、策略、转移概率和奖励：

智能体：将协同驾驶系统中的车辆作为智能体，表示为

观测状态：在每个时间步t，每个智能体

接收一个由智能体i的当前位置、移动方向和速度组成的本地观测状态o_i。此外，观测状态o_i还涉及前一时间步通信范围内的时隙占用信息。所有可能的观测状态构成观测状态空间

动作：在每个时间步t，每个可用的智能体i采取一个动作，该动作指示它是保持沉默还是选择一个时隙来发送信标。我们将智能体i的动作空间表示为

策略：给定观测值状态o_i，智能体i的策略π_i指定一个概率π_i(a_i|o_i)，由此获得每个动作

转移概率：给定观测值状态o_i，t和智能体的动作a_i，t，根据概率P(o_i，t+1|o_i，t，a_i，t)，当前观测值状态转移到下一个观测状态o_i，t+1。

奖励：在每一个时间步t，每一个智能体的反馈都来自同队列的其他智能体。反馈已成功传输的信标数量的信息。本网络采用已成功传输的信标数量作为直接奖励，表示为r_i，t。

本实施例的每个智能体采用都一个分层框架，由一个管理模块和一个工作模块组成，具体模型见图2。

多智能体分层注意力强化学习(MAHA)框架将分层强化学习的每一层与图形注意力网络(GAT)相结合。在技术上，本方法提出的MAHA框架将每个协同驾驶系统中的车辆视为一个智能体，并为动态通信和交通环境中的每个协同驾驶生成自适应动作。本发明提出的MAHA框架中采用了两级分层架构，其中每个智能体由一个管理模块和一个工作模块组成。在它们之间，管理模块以较低的时间分辨率操作，但总是可以预见固定数量的时间步。更具体地说，管理模块有权为工作模块设定目标并奖励执行该目标的工作模块。相比之下，工作模块则关注的时间间隔较短，但时间分辨率较高。因此，即使智能体不能及时收到其他队列成员的反馈，这种层次框架仍然可以帮助智能体学习在必要时采取有利的行动。

它通过共同考虑管理模块设定的奖励和从环境中获得的外在奖励来输出智能体的决策。通过这种方式，尽管工作模块不能将收到的即时奖励分配给过去的行动，但由于当这些行动与目标一致时，管理模块会给予工作模块内在的奖励，因此工作模块仍然愿意学会有预见性。因此，这种层级结构使协同驾驶车辆能够学会采取有远见的行动来优化长期回报。

为了捕捉智能体之间的这种相互影响，本实施例首先将多智能体环境构建为在管理和工作模块中构建无向图。每个智能体代表一个顶点，每个边将智能体与其在OHS(一跳集)的一个邻居连接起来。本实施例将提出的MAHA框架中的两个层次中的每一个分别与图关注网络(GAT)集成，以指定邻域内不同顶点的不同权重。由于管理模块和工作模块以不同的时间分辨率运行，所以管理模块和工作模块中使用的邻域定义是不同的。

如图2所示，在每个时间步t，智能体i的观察o_i,t被输入到MLP中，MLP为管理模块i输出一个中间状态表示x_i,t。

GAT是在2018年ICLR上发表一种新型神经网络结构，它对图形结构数据进行操作，利用掩蔽的自注意层来解决基于图形卷积或其近似的现有方法的缺点。通过堆叠节点能够关注其邻域特征的层，能够(隐式地)为邻域中的不同节点指定不同的权重，而不需要任何类型的复杂的矩阵运算(例如求逆)或者依赖于预先知道图形结构。

QNet(action-value network)作为工作模块的critic，是一个神经网络，用来模拟动作价值函数，接收工作模块中GAT传来的结果。

VNet(state-value network)为管理模块的critic，是一个神经网络，用来模拟状态价值函数。

长短期记忆网络(Long-Short Term Memory,LSTM)论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。是一种特殊的RNN(循环神经网络)，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题，比普通RNN(循环神经网络)在更长的序列中有更好的表现。

u_i，t在图中表示为u_N，为工作模块的LSTM的输出值，意为初步动作。但是这个初步动作不是智能体实际执行的动作，而是要通过与管理模块传来的G_N进行点乘操作获得a_N，a_N才是智能体与环境进行交互的实际动作。

G_i，t在图中表示为G₁，G_N，管理模块i将c-1个先前目标g_i，t-c+1，…，g_i，t-1与g_i，t连接起来，并将这样连接的向量G_i，t作为输出传递给工作模块i。

a_i，t在图中表示为a₁，a_N，为u_i，t和G_i，t点乘的结果，是智能体与环境进行交互的实际动作。

Multiply操作意为点乘，作用是将u_N与G_N进行点乘，获得a_N。

为了使管理模块能够在较低的时间分辨率下工作，本实施例采用了扩张长短期记忆人工神经网络(dLSTM)，它保持一个数组(h_i，0，h_i，1，…，h_i，c-1)来存储给定扩张半径

的c个历史隐藏状态。dLSTM将x_i，t和h_i，t％c作为它的输入。除了更新值h_i，t％c之外，dLSTM还输出目标g_i，t，它可以被认为是对工作模块i在以下c时间步骤中的动作的指令。然后，管理模块i将c-1个先前目标g_i，t-c+1，…，g_i，t-1与g_i，t连接起来，并将这样连接的向量G_i，t作为输出传递给工作模块i。

在MAHA框架中，之前提到的dLSTM充当管理模块i的actor，它只接受状态表示x_i，t作为它的输入，并在每个时间步t输出目标g_i，t作为它的动作。

在训练过程中，本实施例使用状态价值网络(VNet)作为管理模块的critic。本实施例使用GAT来指定每个相邻管理模块的权重，而不是简单地将其他管理模块的状态表示输入到当前管理模块状态表示中。更具体地说，由于管理模块以较低的时间分辨率运行，本实施例需要在管理模块中扩展OHS的覆盖范围。显然，每个管理模块都应该与其他管理模块合作，这些管理模块会影响智能体如何设定目标。因此，只要智能体在下一个c时间步中处于智能体i的通信范围所覆盖的区域内，本实施例就认为这些智能体的管理模块属于管理模块i的OHS(一跳集)。因此，在管理模块中，每个顶点代表一个管理模块。边缘连接管理模块和它在OHS的邻居管理模块。为了解决隐藏的终端问题，本实施例堆叠了两个GAT，以收集其他管理模块的信息到THS(两跳集)中。更具体地说，给定管理模块的无向图，本实施例首先为每个管理模块i都构造一个邻接矩阵

邻接矩阵的第一行是智能体i索引的one-hot(独热)表示，其余的行是其邻居索引的one-hot(独热)表示。在每一个GAT层中，本实施例使用邻接矩阵

来提取管理模块i及其邻居的信息，然后将这些提取的信息馈送到注意模块。具体地，在第一个GAT层中，关注模块输出每个管理模块i的特征向量x′_i，t，其涉及OHS中相邻管理模块的状态表示信息。同样，本实施例通过使用邻接矩阵为每个管理模块i提取特征向量。然后，第二个GAT层的注意模块将这些提取的特征向量作为其输入，并输出输出层的特征向量x″_i。由于第一层输出的邻居的特征向量已经在一跳范围中收集了关于其邻居的状态表示的信息，所以输出层的特征向量x″_i也可以在两跳范围中获得这样的信息。因此，本实施例可以利用特征向量x′_i和x″_i作为VNet的输入，并使VNet学会同时处理暴露的终端问题和隐藏的终端问题。

为了处理大的离散动作空间

本实施例在工作模块中采用了深度确定性策略梯度(DDPG)框架。为了达到这个目的，本实施例采用行动价值网络(QNet)作为工作模块的critic。与管理模块不同，工作模块以更高的时间分辨率操作，并且只考虑其在当前时间步的动作。因此，本实施例采用了一个标准的LSTM作为工作模块的行动者在MAHA框架。本实施例将观察值o_i，t输入到一个MLP中，该MLP为工作模块输出一个状态表示z_i，t。在每个时间步t，状态表示z_i，t和前一个时间步t-1的隐藏状态h_i，t-1被馈送到LSTM，后者输出工作模块i的初步动作u_i，t和更新的隐藏状态h_i，t。

此外，为了结合管理模块i设置的目标的影响，本实施例将工作模块的初步动作u_i，t乘以连接的目标G_i，t，然后通过Softmax层馈送计算结果，以获得智能体i的最终策略π_i，t，它是智能体i的动作空间上的概率分布当与环境交互时，智能体i根据策略π_i，t采取行动a_i，t，并从环境中获得奖励，表示为r_i，t。与管理模块类似，本实施例使用两个GAT来为OHS和THS的相邻工作模块指定权重。由于工作以较高的时间分辨率运行，本实施例将工作模块中OHS的覆盖范围定义为在当前时间步t由智能体的通信范围覆盖的区域。因此，本实施例可以为工作模块建立一个无向图，并为每个工作模块i构造邻接矩阵

本实施例用其动作a_i，t连接每个工作模块i的状态表示z_i，t，并采用这样的连接向量w_i，t作为第一个GAT层的输入。然后，这两个GAT层可以输出特征向量w′_i，t和w″_i，t，它们可以收集OHS和THS的其他邻近工作模块的信息。因此，本实施例可以取这样的特征向量w′_i，t和w″_i，t作为QNet的输入，并使QNet能够学习避免不必要的传输冲突。

本模块在GAT层采用了多头点积注意模块(multi-head dot-product attentionmodule)。在此本实施例使用符号f_i来表示每个注意力模块的输入特征向量。首先，本实例使用编码矩阵

将输入特征向量f_i投影到查询、关键字和值表示中。然后，对于每个注意头l，计算以下Softmax函数：

其中，

是比例因子，d_k是关键表示的维数。

代表智能体i的OHS。为了简单起见，本实施例在符号中去掉了管理模块m和工作模块w的上标以及时间t的下标。此后，对于每个智能体

本实施例用Softmax函数

的输出对其值表示进行加权，然后将所有这些加权的值表示加在一起作为注意头l的输出。最后，本实施例将L个注意头的输出连接起来，并将连接的向量馈送到非线性ReLU激活函数中，以输出智能体i的特征向量f′_i。

结果，这样的特征向量f′_i收集了OHS中每个相邻智能体的加权信息。

本实施例采用集中训练和分散执行的训练方式训练多智能体分层注意力强化学习网络，每一次训练都会由训练环境生成数据并放入经验回放池

和

然后从经验回放池

和

中联合采样，对工作模块和管理模块进行训练，更新VNet、QNet、工作模块的actor以及管理模块的actor；

请见图3，为本发明实施的协同车辆和单独车辆的混合交通场景示例。本实施例的训练环境，是采用一个5公里的双向高速公路路段，每个方向有三个车道，在这个路段上，交通流由几个队列车辆和单个车辆组成。此外，单个车辆以100km/h至120km/h的随机速度初始化，并且它们的位置服从泊松分布。一辆协同驾驶的车辆利用其MAHA网络输出的时隙以10Hz的固定频率在CCH上发送信标。

本实施例采用集中训练和分散执行的训练方式训练所述多智能体分层注意力强化学习网络，具体包括以下子步骤：

步骤1.1初始化每个智能体i的参数φ_i，θ_i，

和

为每个卷积层初始化每个关注头l的参数

其中，φ_i表示管理模块i的VNet的学习参数，θ_i表示管理模块i的actor网络的学习参数，

表示工作模块i的QNet的学习参数，

表示工作模块i的actor网络的参数，编码矩阵

是注意模块中的参数矩阵，作用是将输入特征向量f_i投影到查询、关键字和值表示中；

步骤1.2：设置训练回合次数为1...，K；

步骤1.3：设置时间步1....，T；

步骤1.4：时间步是t，回合episode总步长是T，每个智能体从训练环境接收一个观测状态o_i，t，给定智能体的观测状态o_i，t，管理模块计算状态表示x_i，t，并得出目标g_i，t；根据生成的目标g_i，t，管理模块根据生成的g_i，t，计算内在奖励

并将这个奖励传递给工作模块；工作模块根据观测状态o_i，t计算状态z_i，t，并根据策略π_i，t输出生成动作a_i，t；智能体采取动作a_i，t并获得奖励r_i，t；

步骤1.5：在每个时间步t，管理模块i接收即时奖励

其中，γ表示折损因子，角标m代表这个奖励是管理模块i接收即时奖励，区别与其他的奖励；在所有智能体接收到此类即时奖励后，将元组

年储到经验回放池

中；在每个时间步t，将

存储在经验回放池

中；其中，

分别代表管理模块中的状态表示x_i，t、目标g_i，t、邻接矩阵和即时奖励

的集合；

分别表示从环境中获得的状态表示z_i，t、动作a_i，t、邻接矩阵和外部奖励r_i，t以及从管理模块中获得的内部奖励

的集合；

步骤1.6：回转执行步骤1.4，直到训练步长为T；

步骤1.7：参数更新；

从经验回放池

和

中联合采样一个批次，管理模块使用两个GAT层计算特征向量x′_i，t和x″_i，t，x′_i，t和x″_i，t分别表示管理模块中的两个GAT层的输出值；接着工作模块将其动作a_i，t连接每个工作模块i的状态表示z_i，t，并采用这样的连接向量w_i，t作为第一个GAT层的输入；工作模块将连接的向量w_i，t送到GAT层，并分别通过以下两个式子获得特征向量w′_i，t和w″_i，t；

其中，其中，

是比例因子，d_k是关键表示的维数，

代表智能体i的一跳集OHS；f_j表示关于智能体j的特征向量，L表示注意头数量；

表示关于注意头l，i和j之间的影响权重；

步骤1.7：根据步骤1.6生成的特征向量，管理模块和工作模块的actor-critic网络的参数获得更新；

(1)训练管理模块；

在训练过程中，将x_i，t，x′_i，t，x″_i，t所有GAT层的特征向量连接到VNet中，表示为

其中φ_i表示VNet的学习参数；

在每个时间步t，管理模块i接收即时奖励

通过最小化以下等式中给出的损失来训练管理模块的VNet，

其中，

为管理模块i接收即时奖励；

为经验回放池，用来存储元组

并采用过渡策略梯度方法来训练管理模块的actor，计算角色的过渡策略梯度，如下式：

其中，θ_i表示管理模块i的actor网络的学习参数；

为梯度算子，对于θ_i求导的梯度；目标g_i，t是管理模块状态空间中的有利转换方向；使用余弦相似性函数d_cos来比较向量x_i，t+c-x_i，t和g_i，t之间的相似性；管理模块的优势函数为

其中

是智能体从环境中获得的累计折扣外部奖励，V_i，t表示状态价值函数；

(2)训练工作模块；

在下面的等式中引入了内在奖励

在训练过程中，智能体i的工作模块旨在从第一个时间步骤开始最大化预期回报，表示为

其中

是外部和内部回报的加权和；δ∈[0，1]是一个超参数，它控制激励工作模块遵循目标指导的程度；

将w_i，t，w′_i，t，w″_i，t所有GAT层的特征向量反馈给QNet，表示为

其中，

是QNet的学习参数；

此外，工作模块的actor部分只接受其状态表示z_i，t，而隐藏状态h_i，t接受其输入并输出策略π_i，t；根据策略π_i，t，智能体i采取行动a_i，t，并从环境中获得外部奖励r_i，t；

工作模块的critic旨在最小化下面等式中给出的损失函数，通过该损失函数更新QNet；

其中，Q_i，t表示智能体i在时间步t的动作价值函数；

此外，通过使用在下面的等式中给出的策略梯度来更新工作模块的actor，

其中，

表明工作模块actor网络的参数，J_i表示累积期望奖励函数，作用是用来后续对

求偏导以获得梯度；

步骤1.8：回转执行步骤1.3，直到训练完所有的回合；

步骤1.9：保存VNet，QNet，管理模块的actor网络，工作模块的actor网络。

本实施例中，定义评价指标，对多智能体分层注意力强化学习网络进行测试和评估；性能指标包括所有智能体成功发送的信标数量、信标接收率，以及根据帧数计算的平均延迟和最大延迟。

本实施例中，通过训练这些神经网络，每个可用的智能体i能够更好地采取的动作a_i(即保持沉默还是选择一个时隙来发送信标)，能使得整个通信环境更好的整体通信性能指标。

本发明提出了一种新的多智能体分层注意力强化学习(MAHA)网络，是第一个将分层强化学习与图形注意力网络(graph attention network，GAT)层相结合的多智能体强化学习网络。该网络能够有效地学习各种车辆通信场景中隐藏的交通和通信模式。在技术上，MAHA网络将协同驾驶系统中的每个车辆视为一个智能体，根据通信和交通环境为每个协同驾驶车辆生成自适应动作。

MAHA网络中采用了两级分层架构，其中每个智能体由一个管理模块和一个工作模块组成。管理模块以较低的时间分辨率操作，理解固定步长的状态转移。更具体地说，管理模块有权为工作模块设定目标并奖励向该目标前进的工作模块。相比之下，工作模块则时间分辨率较高，每步执行具体时隙选择动作。因此，即使智能体不能及时收到其他队列成员的反馈，本网络仍然可以帮助智能体学习在必要时采取有利的行动。

通过这种方式，尽管工作模块不能将收到的即时奖励分配给过去的动作，但由于当这些行动与目标一致时，管理模块会给予工作模块内在的奖励，因此工作模块仍然愿意去学习具有前瞻性的时隙选择策略。这种分层结构使协同驾驶车辆能采取有远见的行动来优化长期回报。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多智能体强化学习的协同驾驶信息传播方法，其特征在于，包括以下步骤：

步骤1：构建多智能体分层注意力强化学习网络；

所述智能体，为协同驾驶中的车辆，记为

在每个时间步t，每个智能体

并将

存入经验回放池

中；在从经验回放池

和外部奖励t_i，t，并将

存入经验回放池

中；在从经验回放池

2.根据权利要求1所述的基于多智能体强化学习的协同驾驶信息传播方法，其特征在于：采用集中训练和分散执行的训练方式训练所述多智能体分层注意力强化学习网络，每一次训练都会由训练环境生成数据并放入经验回放池

和

然后从经验回放池

和

所述训练环境，采用一个S公里的双向高速公路路段，每个方向有M个车道，在这个路段上，交通流由若干个队列车辆和单个车辆组成，其中，S、M为预设值；此外，单个车辆以100km/h至120km/h的随机速度初始化，且它们的位置服从泊松分布；一辆协同驾驶的车辆利用其多智能体分层注意力强化学习网络输出的时隙以10Hz的固定频率在CCH上发送信标。

3.根据权利要求2所述的基于多智能体强化学习的协同驾驶信息传播方法，其特征在于，采用集中训练和分散执行的训练方式训练所述多智能体分层注意力强化学习网络，具体包括以下子步骤：

步骤1.1初始化每个智能体i的参数φ_i，θ_i，