CN112153744A

CN112153744A - 一种icv网络中物理层安全资源分配方法

Info

Publication number: CN112153744A
Application number: CN202011027229.6A
Authority: CN
Inventors: 陈晓华; 李瑞恩; 罗雪文; 林庆丰; 于启月
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-29
Anticipated expiration: 2040-09-25
Also published as: CN112153744B

Abstract

一种ICV网络中物理层安全资源分配方法，解决了现有分配方式不能优化V2V时延的问题，属于无线通信技术领域。本发明包括：S1、每个V2V链路中的发送车辆为一个智能体，智能体采用深度强化学习网络实现，包括训练后的目标网络和实时网络，目标网络用于对实时网络的参数进行更新；S2、每个智能体得到环境的局部观测，包括合法、干扰和窃听信道的信息、发送载荷、时延限制、目标网络的训练迭代次数和探索利用概率；S3、每个智能体根据局部观测利用实时网络输出动作，该动作包括发送信号占用的频带和发射功率；S4、所有智能体的目标网络从环境收到同一个奖励，环境进入到下一时刻的全局状态，转入S2，奖励包括系统保密容量和时延限制。

Description

一种ICV网络中物理层安全资源分配方法

技术领域

本发明涉及一种ICV(Intelligent Connected Vehicle，智能网联车)网络中基于强化学习的资源分配方法，属于无线通信技术领域。

背景技术

近些年来，通信技术迅速发展，5G第一阶段已经在3GPP R15中被冻结，其中，包括V2X(Vehicle to Everything，车与外界的信息交换)在内的车联网技术成为5G的研究重点，车联网成为5G的主要应用场景之一。中国采用基于LTE和5G的V2X通信技术在近些年成为智能交通系统的主要技术，V2V(Vehicle-to-Vehicle，车-车通信)技术具有更广泛的通信范围，更低的延迟和更高的传输速率，能够适应各种应用场景。

V2X包括V2I(Vehicle-to-Infrastructure，车-基础设施通信)和V2V等，其中车辆到基站的V2I链路主要传递高速率的娱乐、视频等业务，车辆到车辆的V2V链路主要传递低速率低时延的道路、车辆、交通等信息。由于频谱资源的稀缺，允许V2V链路复用V2I链路的频谱资源，可以大幅提高频谱效率。但是会不可避免地引入同频干扰，导致V2V链路和原始V2I链路系统容量的下降，所以有效的无线资源管理方式能够减小由于资源复用带来的负面效果。另外，V2V通信安全是V2V通信中的关键研究领域，传统的方法是在物理层的上层进行加密或鉴权等，这些方法需要占用车辆或BS(Base Station,基站)自身的计算资源，而其加密能力的强弱依赖于其计算能力的强弱，同时随着攻击者计算能力的增强，加密算法极易被破解。近些年来，物理层安全成为通信安全的一个热门研究领域，相比于传统的加密或鉴权技术，能带来额外的保密性能。物理层安全技术利用无线通信的物理层特性提供一种额外的安全保护方案，同时不需要占用大量计算资源，能够在提高系统保密能力的同时减轻用户计算负担。

从资源分配角度看，频谱资源是有限的。在4G的OFDM(Orthogonal FrequencyDivision Multiple,正交频分复用)系统中，V2V链路与V2I链路利用underlay(复用授权频段的频率资源)的方式复用子载波，这使子载波的分配变得更加复杂，而由于子载波的复用，不同类型用户之间的同频干扰使得问题的分析难以简化，也会使用户的系统容量下降。同时，不合理的子载波分配方式也会降低用户的保密容量，造成频谱资源浪费，降低通信系统的保密性能。目前的V2V无线资源分配问题，主要是建立优化模型，采用优化算法来求解。集中式的资源分配需要基站收集信息计算决策后再通知给各个车辆用户，会产生较大的时延。同时，很多问题难以建立确定的数学模型，如时延优化，以及优化问题通常是非凸的，难以求得解析解。传统的资源分配方式没有优化V2V时延，会影响需要极低时延的V2V通信性能。因此，有效的资源分配方式会更好地满足V2V时延要求并极大地提高系统保密性能。

发明内容

针对现有资源分配方式不能优化V2V时延的问题，本发明提供一种ICV网络中物理层安全资源分配方法。

本发明的一种ICV网络中物理层安全资源分配方法，所述方法包括如下步骤：

S1、每个V2V链路中的发送车辆为一个智能体，所述智能体采用深度强化学习网络实现，包括训练后的目标网络和实时网络，目标网络用于对实时网络的参数进行更新；

S2、在时刻t，每个智能体得到环境的局部观测

环境的全局状态为S_t，第k个智能体的局部观测

是全局状态S_t的子集；

其中，

包括可观测的合法信道、干扰信道和窃听信道的信息、第k个智能体需要发送的载荷、时延限制、目标网络的训练迭代次数e和探索利用概率ε；

S3、每个智能体根据

利用实时网络输出动作

所有的智能体的动作构成联合动作A_t；

其中，

包括发送信号占用的频带和发射功率；

S4、所有的智能体的目标网络从环境收到同一个奖励R_t，环境进入到下一时刻的全局状态S_t+1，转入S2；

其中，

λ_V2I和λ_V2V分别为V2I链路奖励因子和V2V链路奖励因子；

表示在t时刻第m个V2I链路的保密容量，M表示V2I链路的数量；

V2V链路传输时延对应的奖励为L_k[t]，

X是一个常量，X大于V2V链路最大保密速率，控制变量ρ_k[m]的取值为1或0，ρ_k[m]＝1表示第k个V2V链路使用了第m个子频带，ρ_k[m]＝0表示第k个V2V链路没有使用第m个子频带，

表示在t时刻第k个V2V链路的保密容量，K表示V2V链路的数量。

作为优选，所述局部观测：

其中，T_k表示剩余传输时间，I_k[m]表示全频段的干扰，g_k[m]表示第k个V2V链路本身的信道增益，g_k',k[m]表示来自其他V2V链路的干扰信道，k'≠k，g_k,B[m]表示V2V链路发送车辆到基站的信道增益，

表示来自其他V2I链路发送车辆的干扰信道，g_k,e[m]表示窃听者窃听第k个V2V链路的窃听信道增益，g_m,e[m]表示窃听者窃听第m个V2I链路的窃听信道增益。

作为优选，所述每个智能体有N×M个动作,N表示V2V链路发射功率离散化后的等级数量。

作为优选，所述步骤一中，对智能体训练的方法包括：

S11：初始化环境；

S12：随机初始化智能体的实时网络的参数θ^k，初始化目标网络的参数θ^k-，θ^k-＝θ^k；

S13：更新车辆位置和大尺度衰落，重置B_k和T_k，T_k表示剩余传输时间；

S14：每个智能体计算局部观测

S15：每个智能体以概率为1-ε选择

或以概率ε随机选择动作；

为目标网络输出动作的Q值；a表示任意一个动作；

S16：所有智能体的动作组成联合动作A_t，根据联合动作A_t计算奖励R_t；

S17：更新车辆信道的小尺度衰落，小尺度衰落服从瑞利分布；

S18：每个智能体计算下一时刻的局部观测

S19：将经验

R_t,

存储到记忆库中；

S110：循环执行S14至S19，直到

次，转入步骤11，T表示训练阶段跨越V2V链路有效载荷的时延限制，Δt表示小尺度衰落的信道相关时间；

S111：从记忆库中随机采样设定批量样本

R_t,

S112：根据损失函数反向传递误差更新实时网络的参数θ^k：

s_t表示设定批量样本中时刻t的状态，a_t表示设定批量样本中时刻t选择的动作，D表示从记忆库中抽样的设定批量样本，γ表示奖励折扣因子；

步骤13：循环执行S13至S112，每N轮更新一次智能体的目标网络参数θ^k-＝θ^k。

作为优选，所述S3包括：

S31：每个智能体的实时网络加载训练完成的参数θ^k；

S32：每个智能体进行信道检测和干扰计算，得到自身的局部观测值

S33：每个智能体根据局部观测，选择发送频带和发射功率；

S34：在车辆的行驶过程中，循环执行S32和S33。

作为优选，所述S11包括：

S111：根据泊松分布随机产生K个V2V链路的车辆对和K个V2I链路的车辆及1个窃听车辆；

S112：根据随机产生的车辆，计算车辆的大尺度衰落，包括路径损耗和阴影衰落，阴影衰落为Log-Normal分布；

S113：计算车辆的小尺度衰落，服从瑞利衰落；

S114：计算得到可观测的合法信道、干扰信道和窃听信道。

本发明的有益效果：本发明解决了V2V通信中资源分配、提高系统物理层安全保密容量的问题，建立了基于Mode 4的分布式资源分配模型，根据提出的多智能体强化学习算法在优化V2V时延的同时优化V2I系统保密容量，实现了车辆的自动频谱接入和功率控制。本发明的资源分配方法，在完成训练之后，网络部署和在线执行容易实现。仅当环境特征发生重大变化时，才需要更新所有智能体训练好的DQN(Deep Q-Network,深度强化学习网络)。

附图说明

图1为单蜂窝网络系统模型图。其中存在位置随机分布的K个V2V链路和M个V2I链路，同时存在一个窃听者

图2为ICV网络中物理层安全资源分配系统模型；

图3为智能体模型；

图4为动作空间的示意图；

图5为智能体的训练算法流程图；

图6为系统性能指标随传输载荷B变化曲线，T＝100ms，V2V链路数＝4，V2I链路数＝4，其中图6(a)表示传输完成率变化的情况，图6(b)表示V2I系统保密速率的情况；

图7为系统性能指标随时间限制T变化曲线，B＝8192bytes，V2V链路数＝4，V2I链路数＝4，其中图7(a)表示传输完成率变化的情况，图7(b)表示V2I系统保密速率变化的情况；

图8为剩余传输载荷变化图，B＝4096bytes，T＝40ms，V2V链路数＝4，V2I链路数＝4，其中图8(a)表示多智能体强化学习算法的剩余传输载荷变化图，图8(b)表示随机资源分配的剩余传输载荷变化图；

图9为单episode内V2V速率变化图，B＝4096bytes，T＝40ms，V2V链路数＝4，V2I链路数＝4，图9(a)多智能体强化学习算法的单episode内V2V速率变化图，图9(b)表示随机资源分配的单episode内V2V速率变化图；

图10为V2V链路传输完成时间累积分布函数，T＝40ms。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施方式提供一种V2V链路复用V2I链路的资源块时基于多智能体强化学习的分布式无线资源分配方法以满足V2V链路的时延要求和尽可能最大化V2I链路的保密容量。V2I链路分为上行链路和下行链路，由于基站的抗干扰能力更强，因此采用V2V链路复用V2I上行链路频谱资源的方案。图1为蜂窝网络内V2V链路与V2I链路共存的系统模型图。在图1中，存在K个V2V链路(在本实施方式中，仅考虑V2V链路的发送端，这里的V2V链路主要考虑发送端车辆用户)和M个V2I链路，V2V链路复用V2I链路的无线资源。同时存在一个窃听者(Eve)窃听车辆用户的保密信息，并且车辆用户已知窃听者的具体位置信息。

Mode 4是V2X架构中定义的分布式资源分配方式，车辆可以从资源池中自主地选择频谱并调整功率进行通信，不需要中心设备进行统一调度，极大降低了车辆通信的时延。本实施方式进一步假设M个V2I链路已经预分配好正交分频子带，并以固定的发射功率发射，第m个V2I链路占用第m个子带。利用正交频分复用(OFDM)技术将频率选择无线信道转换为不同子载波上的多个并行平坦信道。几个连续的子载波被分组以形成一个频谱子带，本实施方式假设一个子带内的信道衰落大致相同，并且在不同的子带之间信道衰落是独立的。

图1中，在一个相干时间段内，第m个子带(由第m个V2I链路占用)上的第k个V2V链路的信道功率增益g_k[m]可以表示为：

g_k[m]＝α_kh_k[m] (1)

其中，h_k[m]是频率相关的小尺度衰落功率分量，并假设小尺度衰落是0均值单位协方差服从瑞利分布，α_k是载波独立的大尺度衰落，包括路径损耗和阴影衰落。

第k'个V2V发送者到第k个V2V接收者在第m个子频带上的干扰信道增益为g_k'k[m],第k个V2V发送者到基站BS的信道在第m个子频带上的信道增益为g_k,B[m],第m个V2I发送者到基站BS在第m个子频带上的信道增益为

第m个V2I发送者到第k个V2V接收者在第m个子频带上的信道增益为

第k个V2V发送者到窃听者Eve在第m个子频带上的信道增益为g_k,e[m],第m个V2I发送者到窃听者Eve在第m个子频带上的信道增益为

则第m个V2I链路的信干噪比和第k个V2V链路的信干噪比为：

其中，

第m个V2I发送者和第k个V2V发送者在窃听者Eve处的信干噪比可以表示为：

其中，

和

分别是在基站BS，V2V链路接收机和窃听者Eve处的噪声功率。ρ_k[m]是频谱分配因子，ρ_k[m]＝1表示第k个V2V链路使用了第m个子频带，ρ_k[m]＝0则表示没有使用第m个子频带。

假设每个V2V链路只使用1个子频带，因此

则第m个V2I链路的保密容量和第k个V2V链路的保密容量可以表示为：

其中，[x]⁺＝max{0,x}。

V2V链路传播的信息数据量较小，主要负责低速率的私密业务，而V2I链路主要负责娱乐业务，所以系统优化目标首先使V2V链路的时延尽可能小，同时尽量最大化V2I链路系统容量

但是，由于时延优化问题难以用数学模型表示，本实施方式使用多智能体强化学习技术，将时延当作奖励的一部分，解决传统优化算法中时延优化难以建模的问题。

假设V2V链路要求在T_k时间限制内发送B_k比特的信息，以满足车辆通信的最低时延要求，这个问题可以等价转化为：

其中ΔT是信道相关时间，B_k是周期性的V2V载荷，T_k是时间限制，

是在不同相关时隙的V2V链路信道容量。

本发明的资源分配模型就可以设计为如下：为每个V2V链路进行资源块选择和功率控制，即通过控制变量ρ_k[m],k∈{1,…,K},m∈{1,…,M}和

从而满足式(10)的时延限制同时尽可能最大化

表示第k个V2V发送者在第m个频带的发射功率；

本实施方式不同于采用深度多智能体强化学习的资源分配方式，不同于传统的优化算法。ICV网络中物理层安全资源分配系统模型如图2所示，在基于Mode 4的分布式资源分配中，每一个V2V链路的发送车辆被看作一个智能体，每个智能体自动感知周边局部环境，并进行频谱选择和功率控制。尽管每个智能体与其他智能体的关系可能是竞争博弈，但从系统整体角度看，本实施方式将其转换为一个全合作博弈，通过所有智能体共享同一个奖励，从而实现系统的最优资源分配，但是每个智能体未必达到自己的最优解。

在分布式资源分配条件中，每个V2V链路的发送车辆被当做是一个智能体，每个智能体要根据自身对环境的局部观测来进行资源分配，即频谱选择和功率控制。数学上，该问题可以建模为一个马尔可夫决策过程。在时刻t，环境的全局状态为S_t，每一个V2V智能体只能得到环境的局部观测值，这个局部观测值是环境全局状态的子集，第k个智能体的局部观测可以表示为

是状态S_t和智能体编号k的函数。每一个智能体根据

采取动作

所有的智能体采取的动作构成联合动作A_t，然后所有的智能体收到同一个奖励R_t，环境进入到下一个状态S_t+1，每个智能体收到下一个局部观测

本实施方式的ICV网络中物理层安全资源分配方法，包括：

步骤1、每个V2V链路中的发送车辆为一个智能体，所述智能体采用深度强化学习网络实现，包括训练后的目标网络和实时网络，目标网络用于对实时网络的参数进行更新；

步骤2、在时刻t，每个智能体得到环境的局部观测

环境的全局状态为S_t，第k个智能体的局部观测

是全局状态S_t的子集；

其中，

步骤3、每个智能体根据

利用实时网络输出动作

所有的智能体的动作构成联合动作A_t；

其中，

包括发送信号占用的频带和发射功率；

步骤S4、所有的智能体的目标网络从环境收到同一个奖励R_t，环境进入到下一时刻的全局状态S_t+1，转入步骤2；

其中，

状态和观测空间：

真实的环境状态S_t是全局信息，包含所有的信道条件和所有智能体的动作，但智能体不能获得S_t的全部信息。第k个V2V智能体的局部观测空间，应该包括以下信息：第k个V2V链路本身的信道增益

来自其他V2V链路的干扰信道

V2V发送者到BS的信道增益

以及来自其他V2I发送者的干扰信道

这些信道条件除了g_k,B[m]，都可以被第k个智能体(V2V链路)中的接收者在每个时隙t的开始精确测出，并通过无延迟反馈(Delay-Free Feedback)将这些信息发送给发送者。第k个智能体到BS的信道g_k,B[m]可以在BS处测得，并且在每个时隙t广播给所有的车辆，只产生较小的额外开销(Overhead)。第k个智能体的局部观测还包括全频段的干扰

这些干扰被V2V接收者精确测得，如公式(6)。

除此之外，第k个V2V智能体的局部观测还应包括V2V链路传输的剩余V2V载荷(Payload)B_k，以及剩余传输时间T_k。假设窃听者的位置已知，并且已知窃听信道的分布，可以得到窃听信道的信道状态信息g_k,e[m]和g_m,e[m]，因此，第k个智能体的观测空间为

其中，

独立Q学习是多智能体强化学习最流行的算法之一，每一个智能体把其他的智能体看作环境的一部分，根据自己的局部观测分布式采取动作。然而深度Q学习(Deep QLearning)和独立Q学习的结合却面临新的挑战，由于环境和智能体的动作相关，每个智能体都面临着非稳定环境。在DQN中，经验回放不仅帮助稳定网络的训练，而且通过重复随机利用经验提高了抽样有效性，避免了样本之间相关性给训练带来的影响。但在多智能体强化学习中，独立Q学习引入的不稳定性意味着智能体记忆库中数据的动态性不再反应其正在学习的状态。为了避免这个问题，深度多智能体强化学习的先前工作把经验回放的使用限制在近期的缓冲区中或者完全禁用经验回放，但是效果并不好。因此，经验回放与独立Q学习的不兼容性成为将深度多智能体强化学习扩展到复杂任务中的关键绊脚石。为了解决这个问题，可以采取基于指纹的方法，即每个智能体可以追踪或者计算出其他智能体的决策，从而使环境稳定，这也意味着可以通过评估其他智能体增加局部观测空间来避免不稳定性。但是把其他智能体的动作值函数即其它网络的参数全当做该智能体输入是不现实的，因为每个智能体的决策包含一个高维的DQN。取而代之的是，构造一个低维度指纹图来追踪其他智能体的决策。更进一步的研究揭露了每一个智能体的决策和训练迭代次数e以及探索利用概率ε高度相关。因此，本申请每个智能体的局部观测为

本实施方式智能体模型如图3所示。

动作空间：

系统资源分配就是对所有的智能体即V2V链路进行资源块选择和功率控制，在Mode4的分布式资源分配中，每个智能体根据局部观测选择动作

所有的智能体采取的动作构成联合动作A_t。假设一共有M个资源块，V2V发射功率可以离散化，设为4个等级，例如[23,10,3,-100]dBm，其中-100dBm可以看作零功率。这样每一个智能体有4×M个动作，即动作空间的维度是4×M。同时，意味着每一个网络的输出层为4×M。本实施方式的动作空间如图4所示。

奖励设置：

奖励主要分为两部分：系统保密容量和时延限制。传统的优化算法在一些具体问题上难以建立准确的数学模型，或者这些问题是NP-hard的，很难求得最优解，强化学习的优势之一就是可以把难以建模的指标使用奖励函数来实现。在过去的文献中，保密容量的传统优化研究主要优化指标是系统保密容量或者保密中断概率，鲜有优化时延的研究。本申请设计了多智能体强化学习的奖励，在保证V2V传输时延的同时最大化V2I系统保密容量。因此奖励函数主要包含两部分，一部分是V2V传输时延，另一部分是V2I系统保密容量

V2V链路主要传递低速率的保密信息，如车辆情况、交通情况、预警信息等。V2V部分的奖励可以设计为

其中X是一个常量，大于V2V链路最大保密速率。当V2V信息没有传递完时，奖励为

当信息传递完时，获得更高的奖励X，即在规定的时延内传递可以获得更高的奖励，从而实现对时延的约束。X设置为多少可以获得最好的奖励需要在仿真中尝试获得，需要大于V2V链路最大保密速率，但不应该太大，应该同时兼顾优化目标和学习效率。本申请的综合奖励设置为

其中λ_V2I和λ_V2V分别为V2I链路奖励因子和V2V链路奖励因子。

本实施方式针对智能体采取集中式学习、分布式实施的方式。在训练阶段，所有的V2V链路中的智能体共享同一个奖励，每个智能体根据自己的局部观测采取动作，多个智能体的动作组成联合动作A_t，之后，环境返回一个系统奖励到每个智能体，智能体根据奖励来调节自身的网络参数。

每一个训练阶段跨越V2V有效载荷的时延限制T。每个阶段的开始随机初始化环境，包括初始化车辆位置信息、V2I链路的资源块占用信息、信道信息、传输功率等，每隔t时间间隔，更新信道，智能体采取动作并收到奖励。

(1)训练阶段。

本实施方式使用深度强化学习网络来实现，每个V2V链路作为一个智能体构建一个DQN网络，用来模拟动作值函数Q(s,a)。起始阶段，初始化环境，随机产生车辆和信道，建立两个网络，一个是现实网络，一个是目标网络，起始参数随机设置，且两个网络参数相同。在每一阶段开始时，更新车辆位置和大尺度衰落，车辆位置每100ms更新一次。每一个智能体有一个独立的DQN网络，输入即时的局部观测

然后输出所有动作的Q值。在所有的智能体采取动作之后，系统环境发生变化，产生一个全局奖励R_t，每个智能体观测到新的局部观测值，智能体将经验

存储在记忆库中。在每次训练时，都会从记忆库中均匀采样小批量的经验，使用随机梯度下降的方法来更新网络参数，使损失函数式最小

其中，s_t表示设定批量样本中时刻t的状态，a_t表示设定批量样本中时刻t选择的动作，D表示从记忆库中抽样的设定批量样本，γ表示奖励折扣因子；θ^-是目标网络(TargetNetwork)的参数，它们每隔C步复制现实网络的参数更新。经验回放通过对记忆库中的经验进行重复采样来提高采样效率，并在连续更新中打破相关性，从而稳定学习。

如图5所示，智能体训练阶段具体步骤如下：

步骤11：初始化环境，步骤11又可以分为：

步骤11.1：根据泊松分布随机产生K个V2V车辆对和K个V2I车辆及1个窃听车辆。

步骤11.2：根据随机产生的车辆，计算车辆的大尺度衰落，包括路径损耗和阴影衰落，阴影衰落为Log-Normal分布。

步骤11.3：计算车辆的小尺度衰落，服从瑞利衰落。

步骤11.4：计算得到合法信道、干扰信道和窃听信道。

步骤12：随机初始化第k个V2V发送车辆动作值函数Q的参数θ^k，初始化目标动作值函数

的参数θ^k-＝θ^k。

步骤13：更新车辆位置和大尺度衰落，重置B_k和T_k，具体可以分为：

步骤13.1：根据泊松分布随机产生合法车辆的位置和窃听车辆的位置。

步骤13.2：根据车辆位置更新所有信道的大尺度衰落，包括路径损耗和阴影衰落。

步骤14：每个V2V发送车辆计算局部观测值，包括窃听信道的信息以及迭代次数e和探索利用率ε

步骤15：每个V2V发送者以概率1-ε选择

以概率ε随机选择动作，动作具体为发送信号占用的频带和发射功率。

步骤16：所有V2V发送者的动作组成联合动作A_t，代表所有车辆选择的发送频带和发射功率，根据动作计算奖励

步骤17：每1ms更新车辆信道的小尺度衰落，小尺度衰落服从瑞瑞利分布。

步骤18：每个智能体计算新的局部观测

步骤19：将经验

存储到记忆库中。

步骤110：循环执行步骤14至步骤19直到

次，即为1轮(episode)。

步骤111：从记忆库中随机采样小批量样本

步骤112：根据损失函数反向传递误差更新实时网络参数

步骤113：循环执行步骤13至112。每4轮(episode)更新一次V2V发送车辆的目标网络参数θ^k-＝θ^k。

(2)本实施方式的步骤3为分布实施阶段

在实施阶段(即测试阶段)，每个智能体评估局部信道，获得局部观测值

其中e和ε设置为训练阶段的最后值。所有智能体根据训练好的DQN选择自己的动作，并根据选择的资源库和功率开始传输信息。计算密集型训练过程可以在不同的信道条件和网络拓扑变化下离线训练很多次，而网络部署和在线执行很容易实现。仅当环境特征发生重大变化(例如，每周一次甚至一个月一次)时，才需要更新所有智能体训练好的DQN，具体取决于环境动态和网络性能要求。具体步骤如下：

步骤31：对每个V2V发送车辆加载训练完成的DQN参数θ^k。

步骤32：每个智能体进行信道检测和干扰计算，得到自身的局部观测值

具体可以分为：

步骤32.1：V2V链路的接收车辆进行信道检测和干扰计算，并通过无延迟反馈发送给V2V链路发送车辆。

步骤32.2：V2V链路的发送车辆，根据可检测到的局部信道和干扰，计算局部观测值

步骤33：每个V2V发送车辆根据局部观测，选择发送频带和发射功率，具体可以分为：

步骤33.1：第k个V2V发送车辆在自身的网络中输入局部观测

输出各动作对应的Q值。

步骤33.2：根据

选择动作，选择发送频带和发射功率。

步骤34：在车辆的行驶过程中，循环执行步骤32和步骤33，具体可分为：

步骤34.1：每1ms更新车辆小尺度衰落，服从瑞利分布。

步骤34.2：每100ms更新车辆位置和大尺度衰落，车辆位置为实时位置，大尺度衰落通过信道检测获得。

步骤34.3：执行步骤32和步骤33。

仿真结果如图6、7、8和9所示。图6是时延T＝100ms，V2V链路数等于4，V2I链路数等于4时，限定时间内传输完成率和V2I系统保密速率随传输载荷B变化的曲线。从6(a)中可以看出，当传输载荷较小时，传输完成率在99％以上，随着传输载荷的增加，传输完成率逐渐降低，但仍保持在97％以上。从6(b)可以看出随着传输载荷的增加，V2I系统保密速率逐渐降低，这是由于系统需要尽可能完成V2V传输时延的要求，降低了V2I系统性能。图7是传输载荷B＝8192bytes，V2V链路数＝4，V2I链路数＝4时，限定时间内传输完成率和V2I系统保密速率随传输时延限制T变化的曲线。从图中可以看出，当时延要求不高时，传输完成率可达99％，随着时延限制逐渐从100ms降低到60ms，传输完成率逐渐降低，60ms以下时传输完成率大幅降低，说明在B＝8192bytes时，60ms是个临界点。V2I速率也随着时延从100ms降低到20ms时而逐渐降低，在20ms时随机资源分配的V2I系统保密速率高于多智能体，这是因为多智能体算法尽可能完成V2V传输，而舍弃了V2I保密性能，这和我们奖励中V2V奖励和V2I奖励的因子有关。图8是在B＝4096bytes，T＝40ms，V2V链路数＝4，V2I链路数＝4的条件下，每条V2V链路的剩余传输载荷随时间的变化。从8(a)可以看出，系统优先传输V2V链路1，V2V链路1传输完成后，V2V链路3和V2V链路4逐步传输完成，最后V2V链路4传输完成。而8(b)的随机资源分配中，V2V链路的传递没有任何规律，当V2V链路1和3传输完成后，V2V链路2和V2V链路4依旧缓慢传输，最终V2V链路4没有完成传输。图9是图8的条件下，每条V2V链路的V2V保密速率随时间的变化。从9(a)可以看出，在传输刚开始的时候，V2V链路1的保密速率维持一个较高的水平，V2V链路1传输完成后，V2V链路3和V2V链路4的保密速率较高，最后才以较高的保密速率传输V2V链路4。而9(b)的随机资源分配完全随机，没有任何规律。图10是T＝40ms时，传输载荷B＝2048bytes和B＝4096bytes条件下，V2V链路完成传输的累计分布函数，测试轮数为300。从图10中可以看出，传输载荷较小B＝2048bytes时，传输完成所需时间要明显小于载荷较大B＝4096bytes时。当B＝2048bytes时，V2V链路在40ms内完成传输的概率可达98％以上，当B＝4096bytes，V2V链路在40ms内完成传输的概率也可达90％。可见智能体之间的差异很小，多智能体算法具有公平性，大多能在一定时间限制内完成传输任务。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。