CN117793801A

CN117793801A - 基于混合强化学习的车载任务卸载调度方法及系统

Info

Publication number: CN117793801A
Application number: CN202410205872.5A
Authority: CN
Inventors: 邹渊; 刘佳慧; 张旭东; 吴金铭; 孙文景; 杜国栋; 张一伟; 赵凯宇; 杨鸣远; 郭建统
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-03-29
Anticipated expiration: 2044-02-26
Also published as: CN117793801B

Abstract

本发明提供了一种基于混合强化学习的车载任务卸载调度方法及系统，涉及车载任务调度技术领域，方法包括：建立车载任务协同处理网络、状态变量空间和动作变量空间，基于SADDQN网络构建通信决策模型，以确定车辆目标边缘计算节点，基于DDPG网络构建任务分配决策模型，以确定车辆任务卸载率、通信传输功率和分配算力比例；以车载任务协同处理网络的总成本最小为目标，优化得到训练好的通信决策模型和任务分配决策模型，即可根据实时的状态变量空间，输出合理的通信决策和任务分配决策，进行车载任务卸载调度。本发明解决了将车载任务不合理卸载到边缘计算节点上，导致边缘计算节点处理信息量及传递信息量过大，时延过长、能耗较大的问题。

Description

基于混合强化学习的车载任务卸载调度方法及系统

技术领域

本发明涉及车载任务调度技术领域，特别是涉及一种基于混合强化学习的车载任务卸载调度方法及系统。

背景技术

随着车路云一体化智能交通系统的发展，智能网联汽车担负着执行应用任务、与路/与云交互的功能，但随着计算密集型车载应用、传感器数据的增多，这些任务需要高频处理和较多能量消耗，智能网联汽车车载计算平台在短时间内任务计算量爆炸性增长。

MEC(Mobile Edge Computing移动边缘计算技术)作为一种新的小型数据存储处理中心，有效连接车端、路端、云端，车载任务卸载到MEC上计算被认为是一种有效解决车载计算任务过大的有效方案。然而，将所有车载任务卸载到MEC上则会导致MEC处理信息传递信息的时延过长，因此，如何选择合适的任务卸载和资源调度机制是保障智能网联车的卸载任务在MEC顺利完成计算的主要障碍和难点。

发明内容

本发明的目的是提供一种基于混合强化学习的车载任务卸载调度方法及系统，实现了对将车载任务卸载到边缘计算节点计算的合理调度。

为实现上述目的，本发明提供了如下方案。

一方面，本发明提供了一种基于混合强化学习的车载任务卸载调度方法，包括以下步骤。

根据路网信息建立车载任务协同处理网络；车载任务协同处理网络中包括若干个携带有车载任务的车辆和若干个边缘计算节点。

根据车载任务协同处理网络构建状态变量空间和动作变量空间；状态变量空间包括车辆位置、车载任务大小、车载任务复杂度、车载任务允许时延、车辆可用算力和边缘计算节点可用算力；动作变量空间包括车辆目标边缘计算节点、车辆任务卸载率、通信传输功率和分配算力比例。

基于SADDQN网络构建通信决策模型；SADDQN网络为在DDQN网络后连接自注意力网络得到的网络；通信决策模型用于根据当前的状态变量空间，输出通信决策；通信决策包括车辆目标边缘计算节点。

基于DDPG网络构建任务分配决策模型；任务分配决策模型用于根据当前的状态变量空间和通信决策，输出任务分配决策；任务分配决策包括车辆任务卸载率、通信传输功率和分配算力比例。

以车载任务协同处理网络的总成本最小为目标，训练通信决策模型和任务分配决策模型，得到训练好的通信决策模型和训练好的任务分配决策模型。

根据实时的状态变量空间，通过训练好的通信决策模型输出通信决策，并根据实时的状态变量空间和通信决策，通过训练好的任务分配决策模型输出任务分配决策。

根据通信决策和任务分配决策，进行车载任务卸载调度。

另一方面，对应于前述的基于混合强化学习的车载任务卸载调度方法，本发明还提供了一种基于混合强化学习的车载任务卸载调度系统，所述基于混合强化学习的车载任务卸载调度系统在被计算机运行时，执行如前文所述的基于混合强化学习的车载任务卸载调度方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果。

本发明提供的一种基于混合强化学习的车载任务卸载调度方法及系统，方法包括：根据路网信息建立车载任务协同处理网络，并构建状态变量空间和动作变量空间，基于通过自注意力网络改进DDQN后得到的SADDQN网络构建通信决策模型，以确定车辆目标边缘计算节点，基于DDPG网络构建任务分配决策模型，以确定车辆任务卸载率、通信传输功率和分配算力比例；以车载任务协同处理网络的总成本最小为目标，优化通信决策模型和任务分配决策模型二者的参数，即可利用训练好的通信决策模型和训练好的任务分配决策模型，根据实时的状态变量空间，输出合理的通信决策和任务分配决策，以此进行车载任务卸载调度。相较于现有技术，本发明通过训练好的通信决策模型和任务分配决策模型在动作变量空间中确定合理的通信决策和任务分配决策，解决了将所有车载任务均不考虑后果的卸载到边缘计算节点上，导致边缘计算节点处理信息量及传递信息量过大，造成边缘计算节点处理任务时延过长的问题，对将车载任务卸载到边缘计算节点上计算的实施提供了坚实基础，进一步保障了车路云一体化智能交通系统的发展。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种基于混合强化学习的车载任务卸载调度方法的流程图。

图2为本发明实施例1提供的方法中步骤A5的具体流程图。

图3为本发明实施例1提供的方法中步骤A59的具体流程图。

图4为本发明实施例2提供的一种基于混合强化学习的车载任务卸载调度系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1。

本实施例提供了一种基于混合强化学习的车载任务卸载调度方法，如图1所示的流程图，本实施例提供的该基于混合强化学习的车载任务卸载调度方法包括以下步骤。

A1、根据路网信息建立车载任务协同处理网络。车载任务协同处理网络中包括若干个携带有车载任务的车辆和若干个边缘计算节点。交通网络中有N辆网联车辆，M个边缘计算节点MEC，每个MEC通过路侧单元RSU与附近的网联车通信，每个RSU的服务半径为R。用下标i表示车辆的索引，用下标j表示MEC的索引。此外，设每个时隙时长为∆t，用下标t表示时刻的索引。

A2、根据车载任务协同处理网络构建状态变量空间和动作变量空间。状态变量空间包括车辆位置、车载任务大小、车载任务复杂度、车载任务允许时延、车辆可用算力和边缘计算节点可用算力；动作变量空间包括车辆目标边缘计算节点、车辆任务卸载率、通信传输功率和分配算力比例。

具体来说，将每个网联车辆在每个时刻卸载的车载任务可看作一个大任务，每个大任务是可分离型任务。实际运行过程中可以将车载任务按百分比进行卸载。第i辆车辆在t时刻的卸载任务表示为：F_i(t)={s_i(t),c_i(t),τ_i(t)},i∈N，其中s_i(t)表示第i辆车辆t时刻的车载任务大小，c_i(t)表示第i辆车辆t时刻的车载任务复杂度，任务大小用Mbits衡量，任务复杂度则以计算单位大小数据所需CPU周期数衡量，单位为Mcycles，τ_i(t)表示第i辆车辆t时刻的车载任务允许时延。在t时刻开始时第i辆车辆的位置坐标为V_i(t)=[x_i(t),y_i(t)]^T，结束时网联车的位置坐标为V_i(t+1)=[x_i(t+1),y_i(t+1)]^T，其中x_i(t+1)=v_i(t)·Δt·cosα+x_i(t)，y_i(t+1)=v_i(t)·Δt·sinα+y_i(t)，T为矩阵的转置，v_i(t)表示第i辆车辆t时刻的速度，由于时刻之间的间隔很短，所以在某一时刻可认为网联车辆的车速是固定不变的，α为网联车辆的航向角。

边缘计算节点MEC在道路两侧位置固定，第j个MEC的坐标被定义为L(j)=[x_j,y_j]^T，第i辆车与第j个MEC间的通信的信道增益用g_ij(t)表示，并用式(1)计算。

(1)。

式(1)中，α₀为单位距离下的信道增益，||V_i(t)-L_j||²表示第i辆网联车与第j个MEC间的距离，第i辆车与第j个MEC间的数据传输速率根据式(2)计算。

(2)。

式(2)中，x_ij(t)∈{0,1}，x_ij(t)表示第i辆车与第j个MEC服务器通信情况，当x_ij(t)=1，表明第i辆车与第j个MEC服务器通信，当x_ij(t)=0，则表明第i辆车与第j个MEC服务器不通信。B表示系统带宽，p_ij表示第i个车和第j个MEC之间的通信传输功率，有最大值约束，取值范围是[0，p_max]，σ²表示高斯白噪声功率，P_loss表示传输损耗。

为便于后续步骤，本实施例中在此定义车载任务各种处理方式的成本：根据式(3)计算车载任务协同处理网络的总成本。

(3)。

式(3)中，U_i(t)为t时刻车载任务协同处理网络的总成本，γ为时间成本占总成本的权重，取值范围是[0，1]，TC_i(t)为t时刻完成第i个车辆的车载任务的时间成本，EC_i(t)为t时刻完成第i个车辆的车载任务的能耗成本。

根据式(4)计算t时刻完成第i个车辆的车载任务的时间成本。

(4)。

式(4)中，为t时刻车辆i在本地计算车载任务的时间成本，/>为t时刻车辆i的车载任务卸载到边缘计算节点进行计算的总时间成本。

根据式(5)计算t时刻车辆i在本地计算车载任务的时间成本。

(5)。

式(5)中，θ_i(t)为t时刻车辆i的车辆任务卸载率，s_i(t)为t时刻车辆i的车载任务大小，c_i(t)为t时刻车辆i的车载任务复杂度，为t时刻车辆i的车辆可用算力。

根据式(6)计算t时刻车辆i的车载任务卸载在边缘计算节点进行计算的总时间成本。

(6)。

式(6)中，为t时刻车辆i的车载任务的传输时间成本，/>为t时刻车辆i的车载任务在边缘计算节点的计算时间成本。

根据式(7)计算t时刻车辆i的车载任务的传输时间成本。

(7)。

式(7)中，R_ij(t)为车辆i与边缘计算节点j之间的数据传输速率。

根据式(8)计算t时刻车辆i的车载任务在边缘计算节点的计算时间成本。

(8)。

式(8)中，β_ij(t)为车辆i的车载任务占用边缘计算节点j的可用算力的百分比，为t时刻边缘计算节点j的车辆可用算力。

根据式(9)计算t时刻完成第i个车辆的车载任务的能耗成本。

(9)。

式(9)中，为车辆i在本地计算车载任务的能耗成本，/>为车辆i的车载任务卸载在边缘计算节点进行计算的总能耗成本。

根据式(10)计算t时刻车辆i在本地计算车载任务的能耗成本。

(10)。

式(10)中，为集成芯片结构能量系数，θ_i(t)为t时刻车辆i的车辆任务卸载率，s_i(t)为t时刻车辆i的车载任务大小，c_i(t)为t时刻车辆i的车载任务复杂度，/>为t时刻车辆i的车辆可用算力。

根据式(11)计算t时刻车辆i的车载任务卸载在边缘计算节点进行计算的总能耗成本。

(11)。

式(11)中，为t时刻车辆i的车载任务的传输能耗成本，/>为t时刻车辆i的车载任务在边缘计算节点的计算能耗成本。

根据式(12)计算t时刻车辆i的车载任务的传输能耗成本。

(12)。

式(12)中，为t时刻车辆i的车载任务的传输时间成本，p_ij(t)为t时刻车辆i与边缘计算节点j之间的通信传输功率。

根据式(13)计算t时刻车辆i的车载任务在边缘计算节点的计算能耗成本。

(13)。

式(13)中，为t时刻车辆i的车载任务在边缘计算节点的计算时间成本，/>为t时刻边缘计算节点j的额定功率，为β_ij(t)为t时刻车辆i的车载任务占用边缘计算节点j的可用算力的百分比。

A3、基于SADDQN网络构建通信决策模型。SADDQN网络为在DDQN网络后连接自注意力网络得到的网络；通信决策模型用于根据当前的状态变量空间，输出通信决策；通信决策包括车辆目标边缘计算节点。

本实施例中采用的SADDQN与传统DDQN(Double Q-learning)网络相似，即同样采用两组不同的网络参数：评估网络参数η和目标网络参数η^-，用于选择对应最大Q值的动作，在本实施例中，动作即通信决策模型输出的通信决策，这两组参数实现将动作选择和策略评估分离，为减少模型训练时间，提高模型性能表现，使模型的预测推理结果更为先进，本实施例的SADDQN是在传统DDQN的全连接层之后增加自注意力网络层，即Self-AttentionDouble Q-learning，利用输入项之间相互影响关系，自行决定分配最后输入项的权重大小，具体如下。

假设经过DDQN最后一层隐藏层处理的输出特征为X=[x₁,x₂,…,x_N]，首先，将其作为自注意力网络层的输入特征，通过使用线性变阵矩阵W_q、W_k和W_v得到Q(Query)、K(Key)和V(Value)矩阵，如式(14)所示。

(14)。

式(14)中，Wq、Wk和Wv表示需要学习的参数矩阵。

然后，计算矩阵Q和K每一行向量的内积，为了防止内积过大，因此除以Q、K矩阵的向量维度d_k的平方根。接下来使用激活函数Softmax进行归一化，计算得到当前输入各特征之间的相关系数；得到Softmax矩阵之后和V相乘，得到最终的输出Z，即自注意力值，用于SADDQN的最外层网络，计算更好的Q值，自注意力值Z可根据式(15)计算。

(15)。

A4、基于DDPG网络构建任务分配决策模型。任务分配决策模型用于根据当前的状态变量空间和通信决策，输出任务分配决策；任务分配决策包括车辆任务卸载率、通信传输功率和分配算力比例。

本实施例中采用DDPG网络构建任务分配决策模型，DDPG(Deep DeterministicPolicy Gradient)采用Actor-Critic框架，分别建立两个DNN作为训练任务分配决策模型和目标任务分配决策模型；训练任务分配决策模型包括Actor训练模型和Critic训练模型q(s_t,a_t;θ)；目标任务分配决策模型包括Actor目标模型/>和Critic目标模型q(s_t,a_t;θ’)。Actor训练模型和Actor目标模型组成策略网络，Critic训练模型和Critic目标模型组成价值网络，将动作策略网络的探索和学习更新分开。策略网络用于做出动作，它基于状态s_t做出动作a_t，/>和/>分别为Actor训练模型和Actor目标模型的参数，任务分配决策模型中所做的动作为任务分配决策；价值网络不根据状态做动作，只是基于状态s_t给策略网络做的动作a_t打分，从而指导策略网络做出改进，θ和θ’分别为的Critic训练模型和Critic目标模型参数。

DDPG训练过程中，从经验回放池replay memory buffer中，随机采样N个状态转换数据transition数据，作为策略网络和价值网络的一个小批次mini-batch训练数据。用(s_t,a_t,r_t,s_t+1)表示一个mini-batch中的单个transition数据。DDPG训练的目标是最大化策略网络Q值期望和最小化价值网络损失函数的期望。为保证神经网络训练时的稳定性，DDPG算法目标网络的参数在每一轮结束后都会采用“软”目标更新的方式将Actor训练网络参数和Critic训练网络参数θ分别复制到Actor目标网络参数/>和Critic目标网络参数θ’。

A5、训练通信决策模型和任务分配决策模型，得到训练好的通信决策模型和训练好的任务分配决策模型。如图2所示的流程图，本实施例中，步骤A5以车载任务协同处理网络的总成本最小为目标，来训练通信决策模型和任务分配决策模型，具体包括以下步骤。

A51、初始化状态变量空间，将初始化后的状态变量空间作为当前状态变量空间。除此之外，还设置回报函数：本发明中回报函数值需要与奖励值负相关，设置如式(16)~式(17)所示的回报函数。

(16)。

(17)。

式(16)~式(17)中，r_t为t时刻的奖励值，-X是因违反目标函数的C1~C6任何约束而产生的严厉惩罚；约束C1和C2表示每辆网联车在t时刻只能与一个MEC通信，且每个车t时刻的车载任务只能分配到该MEC服务器计算，约束C3表示每个MEC的资源被占用率不能超过1；约束C4和C5表示t时刻车载任务的本地计算时间和卸载计算时间都不能超过最大延迟；约束C6表示网联车辆与MEC之间距离不能超过边缘计算节点的RSU的服务半径。

A52、利用通信决策模型根据当前状态变量空间，输出通信决策。即，将当前状态变量空间输入至通信决策模型，以输出通信决策。

A53、利用任务分配决策模型根据当前状态变量空间和通信决策，输出任务分配决策。即，将当前状态变量空间和通信决策输入至任务分配决策模型，以输出任务分配决策。

A54、根据通信决策和任务分配决策，得到车载任务处理决策。

A55、执行车载任务处理决策，更新当前状态变量空间，得到更新后的当前状态变量空间。

A56、将更新后的当前状态变量空间作为当前状态变量空间，并根据当前状态变量空间，计算得到奖励值，根据奖励值可确定回报函数值。回报函数值的收敛是使用者自行规定的，比如100个训练回合内，回报函数波动不超过5%，300个回合回报函数结果波动不超过3%。

A57、判断回报函数值是否收敛，得到第一判断结果。若第一判断结果为是，则执行步骤A58；若第一判断结果为否，则执行步骤A59。

A58、将通信决策模型作为训练好的通信决策模型，将任务分配决策模型作为训练好的任务分配决策模型。

A59、以最小化通信决策模型的损失函数为目标，优化通信决策模型的参数，以最小化任务分配决策模型的损失函数为目标，优化任务分配决策模型的参数；并跳转至步骤A52。

本实施例中，通信决策模型包括评估通信决策模型和目标通信决策模型；如图3所示的流程图，步骤A59中，以最小化通信决策模型的损失函数为目标，优化通信决策模型的参数，具体包括以下步骤。

A591、以最小化通信决策模型的损失函数为目标，优化评估通信决策模型的参数。

A592、根据评估通信决策模型的参数，更新目标通信决策模型的参数。具体来说，通信决策模型的损失函数如式(18)所示。

(18)。

式(18)中，L(η)为通信决策模型的损失函数，为通信决策模型的目标函数值，η为评估通信决策模型的参数，s_t为t时刻的状态变量空间，a_t为t时刻评估通信决策模型输出的通信决策，Q(s_t,a_t;η)为评估通信决策模型在s_t时输出a_t的奖励值。

通信决策模型的目标函数如式(19)所示。

(19)。

式(19)中，r_t+1为t+1时刻的奖励值，λ为回报折扣率，为t时刻目标通信决策模型的参数，/>表示评估通信决策模型的奖励值最大时的通信决策。

本实施例中，任务分配决策模型包括训练任务分配决策模型和目标任务分配决策模型；步骤A59中，以最小化任务分配决策模型的损失函数为目标，优化任务分配决策模型的参数，具体包括。

A593、以最小化任务分配决策模型的损失函数为目标，优化训练任务分配决策模型的参数。

A594、根据训练任务分配决策模型的参数，更新目标任务分配决策模型的参数。在一些可选的实施方式中，训练任务分配决策模型包括Actor训练模型和Critic训练模型；目标任务分配决策模型包括Actor目标模型和Critic目标模型；步骤A594根据训练任务分配决策模型的参数，更新目标任务分配决策模型的参数，具体包括。

A5941、根据Actor训练模型的参数，更新Actor目标模型的参数。本实施例中，根据式(20)更新Actor目标模型的参数。

(20)。

式(20)中，是Actor训练模型的参数，/>为更新幅度，/>是Actor目标模型的参数。

A5942、根据Critic训练模型的参数，更新Critic目标模型的参数。本实施例中，根据式(21)更新Critic目标模型的参数。

(21)。

式(21)中，是Critic训练模型的参数，/>是Critic目标模型的参数。

A6、根据实时的状态变量空间，通过训练好的通信决策模型输出通信决策。

A7、根据实时的状态变量空间和通信决策，通过训练好的任务分配决策模型输出任务分配决策。

A8、根据通信决策和任务分配决策，进行车载任务卸载调度。

本实施例提供了一种基于混合强化学习的车载任务卸载调度方法，根据路网信息建立车载任务协同处理网络，并构建状态变量空间和动作变量空间，基于通过自注意力网络改进DDQN后得到的SADDQN网络构建通信决策模型，以确定车辆目标边缘计算节点，基于DDPG网络构建任务分配决策模型，以确定车辆任务卸载率、通信传输功率和分配算力比例；以车载任务协同处理网络的总成本最小为目标，优化通信决策模型和任务分配决策模型二者的参数，即可利用训练好的通信决策模型和训练好的任务分配决策模型，根据实时的状态变量空间，输出合理的通信决策和任务分配决策，以此进行车载任务的卸载调度，适用于多网联车辆多边缘计算节点的智能交通网络，可提供最优的网联车与MEC间的通信决策和任务分配决策，在保障车载任务在可接受时延范围内，最大限度的实现整体交通网络节时节能。

实施例2。

此外，本发明实施例1的方法也可以借助于图4所示的基于混合强化学习的车载任务卸载调度系统的架构来实现。如图4所示，该基于混合强化学习的车载任务卸载调度系统可以包括车载任务协同处理网络构建模块M1、状态变量空间构建模块M2、动作变量空间构建模块M3、通信决策模型构建模块M4、任务分配决策模型构建模块M5、决策模型训练模块M6、通信决策数据模块M7、任务分配决策输出模块M8和车载任务卸载调度模块M9；其中一些模块还可以有用于实现其功能的子模块和单元，例如决策模型训练模块M6中包括通信决策模型训练子模块和任务分配决策模型训练子模块等。当然，图4所示的架构只是示例性的，在实现不同的功能时，根据实际需要，可以省略图4示出的系统中的一个或至少两个组件。

本文中应用了具体个例，但以上描述仅是对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；本领域的技术人员应该理解，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于混合强化学习的车载任务卸载调度方法，其特征在于，包括：

根据路网信息建立车载任务协同处理网络；所述车载任务协同处理网络中包括若干个携带有车载任务的车辆和若干个边缘计算节点；

根据所述车载任务协同处理网络构建状态变量空间和动作变量空间；所述状态变量空间包括车辆位置、车载任务大小、车载任务复杂度、车载任务允许时延、车辆可用算力和边缘计算节点可用算力；所述动作变量空间包括车辆目标边缘计算节点、车辆任务卸载率、通信传输功率和分配算力比例；

基于SADDQN网络构建通信决策模型；所述SADDQN网络为在DDQN网络后连接自注意力网络得到的网络；所述通信决策模型用于根据当前的状态变量空间，输出通信决策；所述通信决策包括车辆目标边缘计算节点；

基于DDPG网络构建任务分配决策模型；所述任务分配决策模型用于根据当前的状态变量空间和通信决策，输出任务分配决策；所述任务分配决策包括车辆任务卸载率、通信传输功率和分配算力比例；

以所述车载任务协同处理网络的总成本最小为目标，训练所述通信决策模型和所述任务分配决策模型，得到训练好的通信决策模型和训练好的任务分配决策模型；

根据实时的状态变量空间，通过训练好的通信决策模型输出通信决策，并根据实时的状态变量空间和通信决策，通过训练好的任务分配决策模型输出任务分配决策；

根据所述通信决策和所述任务分配决策，进行车载任务卸载调度。

2.根据权利要求1所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，根据下式计算车载任务协同处理网络的总成本：

；

其中，U_i(t)为t时刻车载任务协同处理网络的总成本，γ为时间成本占总成本的权重，TC_i(t)为t时刻完成第i个车辆的车载任务的时间成本，EC_i(t)为t时刻完成第i个车辆的车载任务的能耗成本。

3.根据权利要求2所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，根据下式计算t时刻完成第i个车辆的车载任务的时间成本：

；

其中，TC_i(t)为t时刻完成第i个车辆的车载任务的时间成本，为t时刻车辆i在本地计算车载任务的时间成本，/>为t时刻车辆i的车载任务卸载到边缘计算节点进行计算的总时间成本；

根据下式计算t时刻车辆i在本地计算车载任务的时间成本：

；

其中，θ_i(t)为t时刻车辆i的车辆任务卸载率，s_i(t)为t时刻车辆i的车载任务大小，c_i(t)为t时刻车辆i的车载任务复杂度，为t时刻车辆i的车辆可用算力；

根据下式计算t时刻车辆i的车载任务卸载在边缘计算节点进行计算的总时间成本：

；

其中，为t时刻车辆i的车载任务的传输时间成本，/>为t时刻车辆i的车载任务在边缘计算节点的计算时间成本；

根据下式计算t时刻车辆i的车载任务的传输时间成本：

；

其中，R_ij(t)为车辆i与边缘计算节点j之间的数据传输速率；

根据下式计算t时刻车辆i的车载任务在边缘计算节点的计算时间成本：

；

其中，β_ij(t)为车辆i的车载任务占用边缘计算节点j的可用算力的百分比，为t时刻边缘计算节点j的车辆可用算力。

4.根据权利要求2所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，根据下式计算t时刻完成第i个车辆的车载任务的能耗成本：

；

其中，EC_i(t)为t时刻完成第i个车辆的车载任务的能耗成本，为车辆i在本地计算车载任务的能耗成本，/>为车辆i的车载任务卸载在边缘计算节点进行计算的总能耗成本；

根据下式计算t时刻车辆i在本地计算车载任务的能耗成本：

；

其中，为集成芯片结构能量系数，θ_i(t)为t时刻车辆i的车辆任务卸载率，s_i(t)为t时刻车辆i的车载任务大小，c_i(t)为t时刻车辆i的车载任务复杂度，/>为t时刻车辆i的车辆可用算力；

根据下式计算t时刻车辆i的车载任务卸载在边缘计算节点进行计算的总能耗成本：

；

其中，为t时刻车辆i的车载任务的传输能耗成本，/>为t时刻车辆i的车载任务在边缘计算节点的计算能耗成本；

根据下式计算t时刻车辆i的车载任务的传输能耗成本：

；

其中，为t时刻车辆i的车载任务的传输时间成本，p_ij(t)为t时刻车辆i与边缘计算节点j之间的通信传输功率；

根据下式计算t时刻车辆i的车载任务在边缘计算节点的计算能耗成本：

；

其中，为t时刻车辆i的车载任务在边缘计算节点的计算时间成本，/>为t时刻边缘计算节点j的额定功率，为β_ij(t)为t时刻车辆i的车载任务占用边缘计算节点j的可用算力的百分比。

5.根据权利要求4所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，以所述车载任务协同处理网络的总成本最小为目标，训练所述通信决策模型和所述任务分配决策模型，具体包括：

初始化所述状态变量空间，将初始化后的状态变量空间作为当前状态变量空间；

将所述当前状态变量空间输入至所述通信决策模型，以输出通信决策；

将所述当前状态变量空间和所述通信决策输入至所述任务分配决策模型，以输出任务分配决策；

根据所述通信决策和所述任务分配决策，得到车载任务处理决策；

执行所述车载任务处理决策，更新所述当前状态变量空间，得到更新后的当前状态变量空间；

将更新后的当前状态变量空间作为当前状态变量空间，并根据当前状态变量空间，计算得到奖励值；

根据所述奖励值确定回报函数值，并判断回报函数值是否收敛，得到第一判断结果；

若所述第一判断结果为是，则将所述通信决策模型作为训练好的通信决策模型，将所述任务分配决策模型作为训练好的任务分配决策模型；

若所述第一判断结果为否，则以最小化通信决策模型的损失函数为目标，优化所述通信决策模型的参数，以最小化任务分配决策模型的损失函数为目标，优化所述任务分配决策模型的参数；并跳转至步骤：将所述当前状态变量空间输入至所述通信决策模型，以输出通信决策。

6.根据权利要求5所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，所述通信决策模型包括评估通信决策模型和目标通信决策模型；以最小化通信决策模型的损失函数为目标，优化所述通信决策模型的参数，具体包括：

以最小化通信决策模型的损失函数为目标，优化所述评估通信决策模型的参数；

根据所述评估通信决策模型的参数，更新所述目标通信决策模型的参数；

所述任务分配决策模型包括训练任务分配决策模型和目标任务分配决策模型；以最小化任务分配决策模型的损失函数为目标，优化所述任务分配决策模型的参数，具体包括：

以最小化任务分配决策模型的损失函数为目标，优化所述训练任务分配决策模型的参数；

根据所述训练任务分配决策模型的参数，更新所述目标任务分配决策模型的参数。

7.根据权利要求6所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，所述通信决策模型的损失函数如下式所示：

；

其中，L(η)为通信决策模型的损失函数，为通信决策模型的目标函数值，η为评估通信决策模型的参数，s_t为t时刻的状态变量空间，a_t为t时刻评估通信决策模型输出的通信决策，Q(s_t,a_t;η)为评估通信决策模型在s_t时输出a_t的奖励值；

通信决策模型的目标函数如下式所示：

；

其中，r_t+1为t+1时刻的奖励值，λ为回报折扣率，为t时刻目标通信决策模型的参数，表示评估通信决策模型的奖励值最大时的通信决策。

8.根据权利要求6所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，所述训练任务分配决策模型包括Actor训练模型和Critic训练模型；所述目标任务分配决策模型包括Actor目标模型和Critic目标模型；根据所述训练任务分配决策模型的参数，更新所述目标任务分配决策模型的参数，具体包括：

根据所述Actor训练模型的参数，更新所述Actor目标模型的参数；

根据所述Critic训练模型的参数，更新所述Critic目标模型的参数。

9.根据权利要求8所述的一种基于混合强化学习的车载任务卸载调度方法，其特征在于，根据下式更新所述Actor目标模型的参数：

；

其中，是Actor训练模型的参数，/>为更新幅度，/>是Actor目标模型的参数；

根据下式更新所述Critic目标模型的参数：

；

其中，是Critic训练模型的参数，/>是Critic目标模型的参数。

10.一种基于混合强化学习的车载任务卸载调度系统，其特征在于，所述基于混合强化学习的车载任务卸载调度系统在被计算机运行时，执行如权利要求1-9任一项所述的基于混合强化学习的车载任务卸载调度方法。