CN116030623A

CN116030623A - 认知车联网场景下基于区块链的协作路径规划和调度方法

Info

Publication number: CN116030623A
Application number: CN202211569303.6A
Authority: CN
Inventors: 刘宜明; 常慧刚
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-28

Abstract

本发明公开了一种认知车联网场景下基于区块链的协作路径规划和调度方法，考虑了网联自动驾驶汽车和网联有人驾驶汽车混合驾驶的场景，并联合优化车辆交通道路网络以及边缘计算节点的负载均衡，提出基于区块链的协作框架，以支持车辆协作的路径规划和调度。另外本发明建立了任务处理模型，并分析了所提出的协作框架计算时延的影响因素。基于感知的交通和网络状态建立交通状况和负载分布模型，建模联合优化问题，提出基于Q‑Learning的分布式强化学习算法进行协作路径规划与调度，实现道路基础设施和移动边缘计算节点的主动负载平衡，以最小化行驶时间和计算时延。本发明满足了不同类型车辆的不同服务需求，并降低了计算复杂度。

Description

认知车联网场景下基于区块链的协作路径规划和调度方法

技术领域

本发明涉及车联网技术领域，尤其涉及一种认知车联网场景下基于区块链的协作路径规划和调度方法。

背景技术

认知车联网(Cognitive Internet of Vehicles，CIoVs)引入认知引擎来感知交通环境和网络状态，辅助车辆的路径规划和调度。此外，各种先进车载传感器的大规模部署和网联自动驾驶的出现，为决策制定和自动化应用带来了大量计算任务。智能车辆需要高效处理复杂的计算任务以提高交通效率，如路径规划、轨迹跟踪、协作定位、环境识别等。同时，车辆的路径规划和调度会消耗大量计算资源。然而，具有有限存储和计算资源的车辆无法高效处理来自各种智能应用爆炸式增长的计算任务。车辆需要将大量计算任务卸载到移动边缘计算节点(Mobile Edge Computing Nodes，MECNs)处理，以减少计算时延。

在CIoVs场景中，车辆的智能路径规划和调度对于减少智能交通系统(Intelligent Transportation Systems，ITS)车辆的行驶时间和任务处理时延至关重要。交通效率和计算任务处理时延与交通状况和MECNs的负载密切相关。车辆和计算负载的不均衡分布通常会导致道路拥堵和MECNs过载。此外，由于个人的自私行为，独立决策方法可能将过多的车辆聚集到非拥堵路段，造成二次拥堵，从而导致相反的结果。车辆间的协作决策为获得全局最优路径规划和调度策略提供了解决方案。然而，车辆之间的协作需要车辆共享大量信息。出于安全和隐私的考虑，车辆不愿共享个人信息，这阻碍了车辆之间的协作决策，无法在CIoVs场景下获得全局最优路径规划和调度策略。

区块链具有去中心化、不可篡改、可审计性和匿名性等特点，为车辆间的协作优化提供了安全、隐私保护的解决方案。此外，区块链技术可以保证链上信息不被篡改，从而为车辆协作提供可信的信息。利用区块链技术在车辆之间进行安全可信的信息共享，可以促进智能交通参与者的智能协作决策。然而，考虑到成本和效率问题，具有高计算和通信开销的区块链很难直接应用于CIoVs。此外，实际交通环境下具有不同通信、计算和控制能力的网联自动驾驶汽车(Connected Automated Vehicles，CAVs)和网联有人驾驶汽车(Connected Ordinary Vehicles，COVs)对计算和交通服务有不同的服务需求需要满足。

现有技术中，如1)基于数据预测及负载均衡的智能交通系统动态路径规划方法(Dynamic Path Planning Algorithms with Load Balancing Based on DataPrediction for Smart Transportation Systems)，研究了智能交通系统中的负载均衡问题，可以动态适应交通环境，避免城市交通拥堵。其建立了基于历史交通数据和当前交通信息的预测模型，利用K最近邻(K-Nearest Neighbor，KNN)算法来预测路段的平均行驶速度，并基于此提出了一种基于数据预测的路径规划算法来寻找最短行驶时间的路径。另外，根据预测结果和路段并发请求数，提出了负载均衡策略，在保持全局负载均衡的同时，获得最短行程时间的路径。该方法虽然考虑了路径规划过程中的负载均衡问题，但没有车辆间信息交互以及车辆行为对环境状态影响的分析，将导致与实际交通情况的不一致。另外基于数据预测的方法需要消耗大量的计算资源，容易导致计算负载过载，进而无法有效获取实时交通状况，同时预测误差较高。所提的基于启发式算法的路径规划方法需要遍历所有可能的结果，迭代次数较多，存在复杂度高，反应速度慢等问题。

又如2)基于区块链知识转移的自主变道系统(An Autonomous Lane-ChangingSystem with Knowledge Accumulation and Transfer Assisted by VehicularBlockchain)，利用网联自动驾驶汽车(Connected Automated Vehicles，CAVs)共享的集体智能，来解决单个CAV涉及的驾驶场景数量有限，独立学习方法效率低下的问题。应用车载区块链来确保用户和数据的安全性和私密性，区块链的引入可以激励更多的用户参与集体学习。使用深度强化学习(Deep Reinforcement Learning，DRL)的机器学习(MachineLearning，ML)模型进行自动驾驶决策。将变道问题建模为DRL过程，并通过深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法学习自主变道策略。为了加快学习过程，同时进一步减少通信负担，从ML模型中提取相应知识，作为共享的特权信息，而不是直接共享本地ML模型。该方法采用区块链技术进行信息和知识分享，并利用强化学习方法进行车辆个体的训练决策。然而其只考虑了单个车辆的独立决策，没有进行车辆间的协作决策优化。同时车辆的决策需要消耗大量的计算资源，由于缺乏车辆的全局路径规划和调度，边缘计算节点的负载以及车辆的密度将严重影响车辆决策时延和通行效率，导致较高的计算时延和行驶时间。

鉴于目前路径规划方法侧重于减少行驶时间，缺乏与计算时延的联合优化，忽略了在车联网混合驾驶场景下不同类型的车辆具有不同的服务需求的事实。此外，单车决策无法获得全局最优策略，因此需要建立一个安全高效的车辆协作模型进行主动的负载均衡，来满足不同车辆的服务需求。

发明内容

针对目前路径规划方法的缺点，本发明提出一种基于区块链的协作路径规划和调度方法，在认知车联网场景下进行交通环境和MECNs的主动负载均衡，从而减轻交通拥堵和降低计算时延。

为了实现上述目的，本发明提供如下技术方案：

认知车联网场景下基于区块链的协作路径规划和调度方法，物理空间中的每个车辆被映射为区块链网络中的虚拟节点，微基站或路边单元作为移动边缘计算节点部署在城市区域的每个路段，并配备边缘计算服务器，宏基站连接远程云服务器；所述方法采用以下步骤：

S1、感知环境状态，包括道路交通状态和边缘计算节点负载分布；

S2、针对混合驾驶场景中网联自动驾驶汽车和网联有人驾驶汽车，分别建立马尔科夫决策过程，车辆根据感知的环境状态，采用Q-learning强化学习方法获得使自己累积奖励最大的路径规划决策；

S3、将决策信息哈希摘要利用自身私钥签名，并打包上传到移动边缘计算节点的认知引擎进行验证，获得环境状态的更新和决策共识；

S4、路边单元利用上传节点的公钥进行决策信息验证，如验证通过则认知引擎根据车辆的决策信息进行迭代更新或批量更新环境状态，并反馈给其他协作车辆；

S5、其他协作车辆根据更新后的环境状态，更新马尔科夫决策过程的奖励函数，并进行分布式协作路径规划和调度决策；

S6、经过不断的迭代，车辆获得全局最优的路径规划和调度策略，移动边缘计算节点打包决策信息区块进行共识。

进一步地，车联网采用PC5接口进行车对车、车对基础设施通信，采用Uu接口进行车辆对网络通信，相邻的路边单元使用不同的频段，路边单元m与服务的第n个车辆间的通信速率表示为：

其中δ²表示均值为0和方差为δ²的加性高斯白噪声的噪声功率，括号中的分数代表第m个路边单元服务的第n个车辆的信干噪比，

表示来自车联网场景其他微基站

的干扰，h_n,m为车辆n和路边单元m之间的无线信道增益，p_n,m为从车辆到路边单元m的传输功率，B_m(t)为带宽，N_n,m(t)表示路边单元m服务的车辆数量。

进一步地，步骤S1中道路交通状态包括车辆移动性和交通流，其中：

车辆移动性表示车辆n在路段g上的行驶时间：

其中L_g是路段g的长度，v_g是路段g的最大速度限制，N_g(t)是路段g在时间t的车辆数量，V_g是估计速度，N_jam是道路拥堵时的最大车辆数量；

交通流表示为在时间t路段g上的车流量：

N_g(t)＝N_g(t-1)+f_in,g(t)-f_out,g(t)

其中F_g(t)＝f_in,g(t)-fo_ut,g(t)为车流量的变化，f_in,g(t)和f_out,g(t)分别为流入和流出车流量，N_g(t)≥0。

进一步地，步骤S1中边缘计算节点m负载分布计算公式为：

其中χ(t)是网联自动驾驶汽车的比例，N_g(t)≥0是在时间t路段g上的车流量，J_n(t)是网联自动驾驶汽车n的计算任务量，系统所包括的所有网联自动驾驶汽车卸载任务到边缘计算节点处理的总计算时延表示：

其中q是网联自动驾驶汽车的总数，M是边缘计算节点的总数，T_nm是网联自动驾驶汽车n将计算任务卸载到边缘计算节点m处理的总时延。

进一步地，步骤S2中建立马尔科夫决策过程如下：

1)智能体：协作智能体是从环境中学习和探索的车辆，即网联自动驾驶汽车和网联有人驾驶汽车；

2)状态：状态表示每一个智能体的位置、类别和环境状态信息，协作智能体n的状态表示为：

Sn(t)＝{positioni(t),classi,Wi(t)}_i＝₁,…,_Na

其中position表示车辆位置和所选择的处理卸载任务的移动边缘计算节点，class是车辆类别，N_a是协作智能体的数量，W_i(t)是环境状态，其随着智能体的动作而动态变化；

3)动作：在每个交叉路口有两个离散的向南和向西动作，智能体n从起点到终点的动作集合是

多智能体的协作动作决策表示为：

其中H是每个智能体的动作步数，K_Na是协作智能体的签名；

4)环境状态更新：多智能体根据动作

更新环境状态W(t)。采用两种策略，即迭代更新：根据每个智能体的动作更新W(t)，以及批量更新：基于群体的动作更新；环境状态更新表示为：

然后，协作智能体从更新的环境状态学习并找到具有最大奖励的最优决策策略，从而最大化全局累积奖励；

5)奖励：对向量V_g和Load_m进行归一化，不同类型的智能体i和j的奖励分别为：

其中λ和β分别代表权重系数，

是惩罚因子，协作智能体在时间步τ的总累积奖励为：

优化目标函数为最大化协作智能体获得的总累积奖励，通过解决以下问题可以得到最优的协作路径规划和调度策略：

进一步地，步骤S2中Q-learning强化学习方法如下：

为了达到最大累积奖励获得最优策略

采用ε-greedy算法探索和利用动作空间，智能体以ε的概率随机选择动作，并以1-ε的概率选择Q表中最大值Q^*对应的动作，

智能体的动作选择表示为：

设计基于ε-greedy的动态衰减策略来调整分布式多智能体强化学习算法的利用与探索的比率，ε-greedy的动态衰减更新函数为：

ε(τ+1)＝ε(τ)×(1-ε_Decay)

其中ε_Decay是ε的衰减因子，ε值在每一回合迭代更新；

采用时间差分方法来更新Q值，Q(s_τ,a_τ)，Q值函数的更新策略如下：

其中括号中的部分是损失函数，学习率0＜α＜1。

进一步地，步骤S3中共识过程采用基于投票的去中心化共识算法同时引入资产证明和声誉证明来激励参与者遵守共识规则。

进一步地，步骤S3共识过程具体如下：对于每个共识周期，授权的移动边缘计算节点根据资产组成一组验证者；然后，验证者根据候选人的声誉投票产生区块打包组，然后通过抽签打包组中随机选择一个作为区块生产者；在当前共识周期，生产者将共享的决策打包到一个具有特定结构的新块中，生产者使用私钥K_m ^pr签名新区块并将其广播给验证者以达成共识；如果超过一半的验证者认可该块，则该区块将被添加到链的末尾。

进一步地，步骤S4中验证过程利用非对称加密技术和哈希函数来验证决策身份和数据的真实性并保护参与者的隐私。

进一步地，步骤S6决策过程和共识过程同时进行。

与现有技术相比，本发明的有益效果为：

本发明考虑了CAVs和COVs混合驾驶的场景，并联合优化车辆交通道路网络以及边缘计算节点的负载均衡，提出基于区块链的协作框架，以支持车辆协作的路径规划和调度。另外本发明建立了任务处理模型，并分析了所提出的协作框架的计算时延的影响因素。基于感知的交通和网络状态建立交通状况和负载分布模型，建模联合优化问题，并提出基于Q-Learning的分布式强化学习算法进行协作路径规划与调度，实现道路基础设施和MECNs的主动负载平衡，以最小化行驶时间和计算时延。本发明满足了不同类型车辆的不同服务需求，并降低了计算复杂度。

相对于现有技术1，本发明提出的认知车联网场景下基于区块链的协作路径规划和调度方法，使用区块链技术进行个体决策信息的分享，计算车辆个体决策对环境的影响，使其在不损失路径规划和负载均衡性能的前提下，具有更快的收敛速度和更低的计算复杂度。

相对于现有技术2，本发明提出的认知车联网场景下基于区块链的协作路径规划和调度方法，将所提单个体决策场景下的基于强化学习的决策算法扩展到车辆协作场景，利用分布式强化学习算法并联合优化道路和边缘计算节点的负载均衡，有效避免了由车辆自私行为引起的聚集效应，使其在保证较低计算时延和较低反馈开销的前提下，实现混合驾驶场景下道路交通基础设施与边缘计算节点MECNs的全局的协作路径规划和调度优化，更具有实用价值。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的认知车联网场景下基于区块链的协作路径规划和调度方法的系统架构图；

图2为本发明实施例提供的认知车联网场景下基于区块链的协作路径规划和调度方法的模型示意图；

图3为本申请实施例提供的道路网络示意图；

图4为本申请实施例提供的关于路径规划问题的马尔科夫决策过程示意图；

图5为本申请实施例提供的认知车联网场景下基于区块链的协作路径规划和调度方法的流程示意图。

具体实施方式

本发明针对认知车联网场景下车辆协作决策路径规划和负载均衡联合优化问题，创新性的设计了基于区块链的协作路径规划和调度方法，车辆共享本地路径规划和调度决策，以支持全局协作决策优化。在协作路径规划与调度过程中，通过信息交互分析认知车联网场景下交通状态和MECNs计算负载等特征，构建交通态势模型和计算任务处理模型。然后，建模一个联合优化问题，通过找到全局最优路径来最小化行驶时间和计算时延。为解决该问题，提出基于Q-learning的分布式多智能体强化学习(Distributed Multi-agentReinforcement Learning，DMARL)算法，来获得最优全局路径规划和调度决策，用于交通道路和MECNs的主动负载平衡，从而来解决由于车辆分布和计算负载分布不均所导致的交通拥堵和计算时延增大的问题。

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图和实施例对本发明作进一步的详细介绍。

1本发明系统架构

图1为CIoVs场景下区块链使能的协作框架的系统架构。物理空间中的每个参与者被映射为区块链网络中的虚拟节点。车辆集合表示为

MECNs集合表示为

在混合驾驶场景中，CAVs和COVs具有不同的通信、计算和控制能力，并且拥有不同的驾驶和计算服务需求。CAVs会产生大量计算任务，具有低延迟要求，以支持安全的网联自动驾驶系统。同时，有人驾驶的COVs更专注于改善驾驶体验和减少行驶时间。CAVs和COVs集合表示为

如图所示，微基站或路边单元(Roadside Units，RSU)作为MECNs，部署在城市区域的每个路段g，并配备边缘计算服务器，以提供时延敏感的计算服务。计算资源有限的CAVs可以将时延敏感和计算密集型任务卸载到MECNs。同时，宏基站连接远程云服务器，可以为车辆提供对延迟不敏感的信息和娱乐服务。每个MECN服务于一个路段区域和多辆车辆。车辆可以划分为不同的集群或簇来作为批量协作单元，并且每辆车在MECNs覆盖范围内的一个时隙内由一个MECN提供服务。

2本发明系统模型

(1)基于区块链的协作模型

如图2所示，本发明设计了一个基于区块链的协作模型，以支持可审计、可追溯和可信的协作路径规划和调度。利用联盟区块链，共识过程采用基于投票的去中心化共识(Voting-based Decentralized Consensus，VDC)算法。考虑到能量消耗和时间效率。共识算法引入资产证明和声誉证明来激励参与者遵守共识规则。资产和声誉为节点因遵守共识规则而获得的资产和声誉奖励。

共识过程具体如下：

对于每个共识周期，授权的MECNs根据资产组成一组验证者。然后，验证者根据候选人的声誉投票产生区块打包组，然后通过抽签打包组中随机选择一个作为区块生产者。如图2所示，在当前共识周期，生产者将共享的决策打包到一个具有特定结构的新块中，。生产者使用私钥K_m ^pr签名新区块并将其广播给验证者以达成共识。如果超过一半的验证者认可该块，则该区块将被添加到链的末尾。一旦达成共识，协作决策将永久且安全地存储在区块链上，这有助于交通事件的追溯。在协作过程中，车辆不获取决策信息，而是根据其他车辆引起的并通过认知引擎更新的环境状态变化来调整自身的策略。

此外，本发明利用非对称加密技术和哈希函数来验证决策身份和数据的真实性并保护参与者的隐私。

以车辆n为例，车辆n向区块链系统注册，获取公私钥对K_n ^pu和K_n ^pr，保证节点合法性。私钥K_n ^pr用于签名决策摘要，以保证上传决策信息的真实性和合法性。然后，接收者用公钥K_n ^pu验证发送者的身份，并验证决策哈希值，保证接收到的消息没有被篡改。任何其他节点都可以使用签名者的公钥验证签名。

此外，如果交通事故或事件需要责任认定和调查时，服务请求者将支付适当的代币以访问区块链上的信息。

区块链使能的协作路径规划与调度流程如下：

首先，车辆根据感知的环境状态，利用Q-learning学习方法在本地执行路径规划，然后将签名的决策分享给部署在附近MECN的认知引擎。

然后，决策信息通过验证，认知引擎会根据分享的决策信息更新与交通状况和计算负载相关的环境状态。其他协作车辆根据更新的环境状态动态调整奖励函数并进行决策。

最后，车辆获得全局最优协作决策策略，MECNs将它们打包成新的区块并达成共识以实现一致性。分布式决策和VDC共识过程同时进行。

(2)通信模型

车联网采用PC5接口进行车对车(Vehicle-to-Vehicle，V2V)和车对基础设施(Vehicle-to-Infrastructure，V2I)通信，采用Uu接口进行车辆对网络(Vehicle-to-Network，V2N)通信。假设车辆n和RSUm之间的无线信道增益为h_n,m，由于瑞利衰落，其遵循指数分布，并且从车辆到RSU的传输功率为p_n,m。假设带宽为B_m(t)，N_n,m(t)表示RSU m服务的车辆数量，带宽B_m(t)在时隙t动态分配给服务车辆。此外，为了避免小区间干扰，相邻的RSU使用不同的频段。RSU m与服务的第n个车辆间的通信速率可表示为：

其中δ²表示均值为0和方差为δ²的加性高斯白噪声(Additive Gaussian WhiteNoise，AGWN)的噪声功率。括号中的分数代表第m个RSU服务的第n个车辆的信干噪比(Signal-to-Interference-plus-Noise Ratio，SINR)。

表示来自车联网场景其他微基站

的干扰。

(3)交通状态模型

1)移动性模型

基于交通环境感知建立交通态势模型。假设路段g在时间t的车辆数量为N_g(t)，则路段g的车辆密度可推导出为：

其中l_n是车辆n的长度，L_g是路段g的长度，u_g是车道数。估计速度V_g与道路的车辆密度有关，其可以表示为：

其中v_g是路段g的最大速度限制，

是路段g拥堵时的车辆密度。由于道路总长度固定，可以推导出

N_jam是道路拥堵时的最大车辆数量。则车辆n在路段g上的行驶时间可推导出为：

2)交通流模型

建立一个交通流模型来适应动态的交通状况。流入和流出量直接影响道路的拥堵变化，其可以通过地感线圈、车辆传感器和摄像头来感知。时隙t路段g的流入和流出车流量分别为f_in,g(t)和f_out,g(t)。推导出在时间t路段g上的车流量为：

其中N_g(t)≥0。如果f_in,g(t)＜f_out,g(t)，则道路上的车辆数量在减少，可以降低道路拥挤程度和MECNs节点的负载。当它不断减少甚至N_g(t)＝0时将导致计算资源和道路基础设施的利用率下降，特别是在交通高峰时段。相反，如果f_in,g(t)＞f_out,g(t)，则会增加MECNs和道路的负载。将车流量的变化定义为F_g(t)＝f_in,g(t)-f_out,g(t)，其中F_g(t)＞0表示流入路段的车辆数大于流出量，F_g(t)|表示路段g增加的车辆数量，反之亦然。为了获得更好的驾驶体验和计算性能，COVs和CAVs应该在不造成拥塞的情况下合理调度，在不造成拥堵和不超过MECN计算负载的情况下充分利用道路和边缘计算资源。

3)计算负载分布

MECNs的计算负载与车辆密度和具有图像识别、目标检测和决策控制等各种计算任务的CAVs的比例密切相关。基于交通状况感知，推导出MECN m的负载分布为：

其中J_n(t)是CAV n的计算任务量，χ(t)是CAVs的比例。随着车辆密度和CAVs比例的增加，将会有大量计算任务卸载到连接的MECN上，增大MECN的负载。

(4)计算任务处理模型

计算任务卸载到MECNs处理的时延包括传输时延、排队等待时延和计算时延。其取决于MECNs的任务数量、带宽和可用计算资源，即每秒中央处理单元CPU周期。假设CAVn有J个不同的计算任务，每个任务的数据量为

完成任务j所需的计算资源为

计算任务j需要在指定的最大延迟

内完成。CAV n将计算任务卸载到MECNm的传输延迟可表示为：

其中

表示CAV n将计算任务j卸载到MECNs的选择因子，

表示CAVn卸载任务j，否则

类似地，b_nm＝1表示CAV n将计算任务卸载到MECNm，否则b_nm＝0。

如果MECN m的可用计算资源小于任务j的最小计算资源

则任务j需要排队等待。MECN采用先进先出(First Input First Output，FIFO)队列来处理到达的任务。假设MECNm具有C_cap的计算能力，并在任务j之前有Φ个计算任务等待处理。任务j的排队因子

可表示为：

其中

是前一个任务i占用的计算资源，

表示MECN m被占用的计算资源。任务j从CAVn卸载到MECN m的排队时延

可以表示为：

其中

是前面任务i所需的计算资源。然后，可以推导出CAV n的计算时延为：

其中

是分配给任务j的计算资源，

是CAV n完成任务j所需的计算资源，N_Φ表示之前的Φ个任务对应的服务车辆数量。CAV n将计算任务卸载到MECN m处理的总时延为：

所有CAVs卸载任务的总计算时延可作为评估本发明计算性能的指标，可推导出为：

其中q是CAVs的总数，M是MECNs的总数。

3本发明技术解决方案

(1)负载均衡指标构建

将地图区域划分为不同的路段

路段的车辆密度集合和MECNs的计算负载集合分别是

和

为了获得道路基础设施和MECN的负载均衡，定义道路负载均衡指标

和MECNs负载均衡指标

表示为：

其中

和

是路段g的车辆密度和所有路段的平均车辆密度；Load_m和

分别是MECN m的负载和所有MECNs的平均负载。负载分布的均匀性与指标值

和

成反比，

值越小，负载均衡性能越好。

(2)联合优化问题建模

由于MECNs负载均衡指标

直接影响总计算延迟T_m，本发明建模联合优化问题以获得最优的协作路径规划和调度策略Ψ＝{ψ₁,ψ₂,...,ψ_q,ψ_q+1,...,ψ_N}如下：

其中λ₁和λ₂是联合优化权重，

是在时间t，CAV从路段g被调度到相邻路段g′的数量，

表示路段g的相邻路段集合，优化目标是最小化道路负载均衡指标

和总计算延迟T_m。

实施例

如图3所示，本发明采用OpenStreetMap开源地图构建道路网络，建模为具有顶点和边的网格。由于交通环境状态随时间和空间动态变化，具有很强的短期相关性，一次性大面积规划缺乏对未来环境的有效预见。因此，在有限的区域内选择一个3×3的地图网络，将其建模为如图3结构：

Graph(t)＝<V,E,W(t)> (16)

其中V代表顶点，E代表边，W(t)是代表计算负载分布和车辆密度情况的权重矩阵。每条边代表一个路段，顶点代表交叉路口。权重矩阵W(t)＝{V_g(t),Load_m(t)},

表征了车辆行驶速度和MECNs的计算负载。

本发明将路径规划问题建模为马尔科夫决策过程(Markov Decision Process，MDP)，如图4所示，交叉点的编号对应为{G＝1,D＝2,H＝3,A＝4,E＝5,I＝6,B＝7,F＝8,C＝9}，其中节点G代表出发地，节点C代表目的地。

分布式多智能体强化学习的协作智能体、状态、动作和奖励介绍如下：

1)智能体：协作智能体是从环境中学习和探索的车辆，即CAVs和COVs。

2)状态：状态表示每一个智能体的位置、类别和环境状态信息。协作智能体n的状态可表示为：

其中position表示车辆的位置和所选择的处理卸载任务的MECN，class是车辆的类别，N_a是协作智能体的数量，W_i(t)是环境状态，其随着智能体的动作而动态变化。

3)动作：MDP在每个交叉路口有两个离散的向南和向西动作，即("south↓"；"west←")。智能体n从起点到终点的动作集合是

多智能体的协作动作决策可表示为：

其中H是每个智能体的动作步数，

是协作智能体的签名。

4)环境状态更新：由于智能体的决策影响环境状态和其他智能体的决策，环境状态需要根据动作策略动态更新。因此，多智能体根据智能体的动作

更新环境状态W(t)。本发明考虑两种策略，即迭代更新：根据每个智能体的动作更新W(t)；批量更新：基于群体的动作更新。环境状态更新表示为：

然后，协作智能体从更新的环境状态学习并找到具有最大奖励的最优决策策略，从而最大化全局累积奖励。

5)奖励：在混合驾驶场景中，不同类型车辆的奖励与行驶速度V_g和MECNsm的计算负载Load_m有关。对向量V_g和Load_m进行归一化，不同类型的智能体i和j的奖励分别为：

其中λ和β分别代表权重系数，

是惩罚因子，协作智能体在时间步τ的总累积奖励为：

优化目标函数为最大化协作智能体获得的总累积奖励。从而，通过解决以下问题可以得到最优的协作路径规划和调度策略：

为了达到最大累积奖励获得最优策略

采用ε-greedy算法探索和利用动作空间。智能体以ε的概率随机选择动作，并以1-ε的概率选择Q表中最大值Q^*对应的动作，

当智能体对环境不够熟悉时，它需要更多的探索，并且随着学习的进行ε会衰减。智能体的动作选择可以表示为：

设计基于ε-greedy的动态衰减策略来调整分布式多智能体强化学习算法的利用与探索的比率。随着训练回合数量的增加，ε逐渐减少，直到训练结束或达到最小值。ε-greedy的动态衰减更新函数为：

ε(τ+1)＝ε(τ)×(1-ε_Decay) (25)

其中ε_Decay是ε的衰减因子。ε值在每一回合迭代更新。这是因为智能体通常开始时不了解环境，需要较高比例的随机动作来获得经验。

基于环境反馈的奖励，Q-learning学习采用时间差分方法来更新Q值，Q(s_τ,a_τ)，推导出Q值函数的更新策略如下：

其中括号中的部分是损失函数，学习率0＜α＜1。

综上，本发明的方法流程，如图5所示。在分布式多智能体强化学习算法初始阶段，首先初始化环境状态，其包括道路交通状态和边缘计算节点负载分布，设置超参数等。针对混合驾驶场景中不同类型的车辆，分别建立马尔科夫决策过程，然后智能体利用Q-learning强化学习方法获得是自己累积奖励最大的路径规划决策，然后将决策信息上传到认知引擎来进行环境状态的更新和决策共识。认知引擎根据智能体的决策进行迭代更新或批量更新环境状态并反馈给协作智能体，然后协作智能体根据更新后的环境状态进行自身的路径规划和调度决策使自身所获得的累计奖励回报最大。经过不断的迭代，协作智能体获得全局最优的路径规划和调度策略，并通过共识添加到区块链，减少了交通拥堵和行驶时间，降低了边缘计算节点的负载和计算时延。本发明满足了不同类型车辆的不同服务需求，并降低了计算复杂度。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，物理空间中的每个车辆被映射为区块链网络中的虚拟节点，微基站或路边单元作为移动边缘计算节点部署在城市区域的每个路段，并配备边缘计算服务器，宏基站连接远程云服务器；所述方法采用以下步骤：

2.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，车联网采用PC5接口进行车对车、车对基础设施通信，采用Uu接口进行车辆对网络通信，相邻的路边单元使用不同的频段，路边单元m与服务的第n个车辆间的通信速率表示为：

表示来自车联网场景其他微基站

3.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S1中道路交通状态包括车辆移动性和交通流，其中：

车辆移动性表示车辆n在路段g上的行驶时间：

交通流表示为在时间t路段g上的车流量：

N_g(t)＝N_g(t-1)+f_in,g(t)-f_out,g(t)

4.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S1中边缘计算节点m负载分布计算公式为：

5.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S2中建立马尔科夫决策过程如下：

其中position表示车辆的位置和所选择的处理卸载任务的移动边缘计算节点，class是车辆的类别，N_a是协作智能体的数量，W_i(t)是环境状态，其随着智能体的动作而动态变化；

多智能体的协作动作决策表示为：

其中H是每个智能体的动作步数，

是协作智能体的签名；

4)环境状态更新：多智能体根据动作

其中λ和β分别代表权重系数，

是惩罚因子，协作智能体在时间步τ的总累积奖励为：

6.根据权利要求5所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S2中Q-learning强化学习方法如下：

为了达到最大累积奖励，获得最优策略

智能体的动作选择表示为：

ε(τ+1)＝ε(τ)×(1-ε_Decay)

其中ε_Decay是ε的衰减因子，ε值在每一回合迭代更新；

其中括号中的部分是损失函数，学习率0＜α＜1。

7.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S3中共识过程采用基于投票的去中心化共识算法同时引入资产证明和声誉证明来激励参与者遵守共识规则。

8.根据权利要求7所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S3共识过程具体如下：对于每个共识周期，授权的移动边缘计算节点根据资产组成一组验证者；然后，验证者根据候选人的声誉投票产生区块打包组，然后通过抽签打包组中随机选择一个作为区块生产者；在当前共识周期，生产者将共享的决策打包到一个具有特定结构的新块中，生产者使用私钥

签名新区块并将其广播给验证者以达成共识；如果超过一半的验证者认可该块，则该区块将被添加到链的末尾。

9.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S4中验证过程利用非对称加密技术和哈希函数来验证决策身份和数据的真实性并保护参与者的隐私。

10.根据权利要求1所述的认知车联网场景下基于区块链的协作路径规划和调度方法，其特征在于，步骤S6决策过程和共识过程同时进行。