CN117956523A

CN117956523A - 一种面向车联网边缘计算的任务处理方法

Info

Publication number: CN117956523A
Application number: CN202410335550.2A
Authority: CN
Inventors: 窦刚
Original assignee: Beijing Xinyuan Hengyuan Technology Development Co ltd
Current assignee: Beijing Xinyuan Hengyuan Technology Development Co ltd
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-04-30
Anticipated expiration: 2044-03-22
Also published as: CN117956523B

Abstract

本发明提供一种面向车联网边缘计算的任务处理方法，其属于移动边缘计算技术领域，将车联网边缘计算建模为马尔可夫决策过程，利用深度强化学习算法多智能体双延迟深度确定性策略梯度策略进行车辆边缘计算；其车联网任务处理系统包括基站、辅助计算车辆和任务车辆，基站位于车行道两侧并配备了基站服务器，基站服务器为该基站服务器所在侧行驶的任务车辆提供计算服务；辅助计算车辆作为移动的边缘服务器，为周围的任务车辆提供计算服务，且辅助计算车辆的计算资源小于基站的计算资源；任务车辆产生任务，交付辅助计算车辆或者基站进行处理并得到处理的结果。本发明所提出的一种车辆与基站协作的任务处理模式解决了计算密集型和延迟敏感的问题。

Description

一种面向车联网边缘计算的任务处理方法

技术领域

本发明属于移动边缘计算技术领域，具体涉及一种面向车联网边缘计算的任务处理方法，其包括一种基于车联网的任务卸载方法。

背景技术

新兴的车辆应用，如自动驾驶、实时交通监控和在线游戏，产生了大量的计算密集型和延迟敏感的任务，对超可靠性和低延迟通信提出了严格的要求。

例如，中国专利第CN202310719104.7号公开了一种电动车辆边缘计算调度方法，所述方法包括：获取当前观测信息；将当前观测信息输入边缘计算调度模型，输出最优调度策略，最优调度策略包括最优离散动作和最优调度合约，最优离散动作用于从充电站观测范围内所有电动车辆中确定目标电动车辆；基于最优离散动作向目标电动车辆输出最优调度合约，并在目标电动车辆基于社交距离执行最优调度合约的情况下，获取下一观测信息；将下一观测信息作为当前观测信息，迭代输出最优调度策略，直至达到预设阈值时结束迭代。

在现有车辆边缘计算的调度中，以及在传统的车辆边缘计算范式中，用户车辆与部署在网络边缘的边缘服务器协作，例如路边单元，通过将任务卸载到边缘服务器来计算，称其为V2I模式。然而，由于集中服务器或边缘服务器的位置固定、有限的覆盖范围和高昂的部署成本，仅凭车辆边缘计算很难有效地满足严格的高可靠低时延要求。

发明内容

基于现有技术中存在的问题，本发明公开了一种面向车联网边缘计算的任务处理方法。

依据本发明的技术方案，本发明提供一种面向车联网边缘计算的任务处理方法，其针对车联网场景下的任务处理场景，将车联网边缘计算建模为马尔可夫决策过程，利用深度强化学习算法多智能体双延迟深度确定性策略梯度策略进行车辆边缘计算；

所述面向车联网边缘计算的任务处理方法的车联网任务处理系统包括基站、辅助计算车辆和任务车辆，基站位于车行道两侧并配备了基站服务器，基站服务器为该基站服务器所在侧行驶的任务车辆提供计算服务；辅助计算车辆作为移动的边缘服务器，为周围的任务车辆提供计算服务，且辅助计算车辆的计算资源小于基站的计算资源；任务车辆产生任务，任务车辆将所产生的任务交付辅助计算车辆或者基站进行处理并得到处理的结果。

其中，面向车联网边缘计算的任务处理方法的车联网任务处理系统中的任务处理过程包括将基站作为智能体，每一个基站能够观测到该基站服务器所在侧的道路情况，该基站服务器所在侧的道路情况包括该基站服务器所在侧的所有车辆的位置、任务车辆的任务参数以及辅助计算车辆的计算资源，基站对该时刻所有任务车辆产生的任务做出卸载决策。

进一步地，面向车联网边缘计算的任务处理方法包括训练采用集中式学习训练两个评论家网络和一个表演者网络，使用时将模型部署至道路两侧的基站中，每一个基站只需要知道该基站服务器所在侧的局部信息就能够做出对任务的卸载决策。

优选地，训练过程中，训练中心能够获取整个道路的环境信息以及基站的任务卸载决策方案，根据第一目标评论家网络(TargetCriticNetwork1)计算得到值，根据第二目标评论家网络（TargetCriticNetwork2）计算得到/>值，选取/>和/>之中的较小值得到/>，第一评论家网络（Criticnetwork1）和第二评论家网络（Criticnetwork2）根据自己实际的/>和/>和估计的/>值进行训练，表演者网络（ActorNetwork）通过评论家网络（CriticNetwork）的反馈来更新策略，由得到的实际奖励指导其训练；训练完成后，将训练模型部署至每个智能体也就是道路两侧的基站中，基站根据自身对环境的局部观测，通过表演者网络（ActorNetwork）做出该侧的任务车辆的任务卸载决策；基站根据任务卸载决策方案以及观测状态计算相应的收益。

进一步地，面向车联网边缘计算的任务处理方法为一种具有V2V和V2I两种模式的基于车联网的边缘计算方法，所述方法包括以下步骤：

步骤S1，在每一个时隙，基站根据自身对环境的局部观测状态/>，基站决定该区域下的任务车辆的任务卸载决策/>；

步骤S2，基站根据任务卸载决策方案和环境状态通过得到通信资源和计算资源的分配方案，并根据通信资源和计算资源的分配计算得到奖励，其中代表该时隙所有到来任务的服务时延和，/>表示/>时隙的所有任务的服务成功率；

步骤S3，基站之间进行信息交互，训练中心得到整个路况状态，以及基站对本侧任务车辆的任务卸载决策方案，根据得到的奖励对评论家网络（CriticNetworks）和表演者网络（ActorNetwork）进行集中式训练；根据第一目标评论家网络(TargetCriticNetwork1)计算得到值，根据第二目标评论家网络（TargetCriticNetwork2）计算得到/>值，选取/>和/>之中的较小值得到/>，第一评论家网络（CriticNetwork1）和第二评论家网络（CriticNetwork2）根据自己实际的/>和/>和估计的/>值进行训练，表演者网络（ActorNetwork）通过目标评论家网络（CriticNetwork）的反馈来更新策略，由得到的实际奖励指导目标评论家网络（CriticNetworks）训练；

步骤S4，基站根据已经部署的训练模型，利用表演者网络（ActorNetwork）对任务进行卸载决策，不需要评论家网络（CriticNetwork）的反馈。

优选地，步骤S1包含步骤S101，每一时隙，任务车辆产生任务/>，其中/>代表该时隙的任务车辆/>的任务数据大小，/>代表该时隙的任务车辆/>处理一位数据所需要的CPU周期数，/>代表该任务的时延阈值；辅助计算车辆和任务车辆的位置使用二维坐标表示，以两侧基站的连线为Y轴，以车道的中心线为X轴（或者以车道左右分界线为X轴）。

更优选地，辅助计算车辆的位置坐标为/>，任务车辆/>的位置坐标为/>。

进一步地，步骤S1包含步骤S102，各基站根据观测状态基站为每个区域内的任务车辆确定任务卸载地点，其中/>代表在/>时隙基站/>侧下的任务车辆的集合，/>表示/>时隙下基站侧下的辅助计算车辆的集合，其中/>代表在基站/>侧的任务车辆的坐标集合，其中代表在基站/>侧的辅助计算车辆的坐标集合，/>表示任务车辆的任务数据大小的集合，/>表示任务车辆的每一位数据所需CPU资源的集合，/>表示任务车辆的任务时延阈值的集合，/>表示/>时隙辅助计算车辆所具有的任务队列的集合，/>表示/>时隙该基站/>所具有的任务队列，/>表示辅助计算车辆当前任务队列已被完全处理的时间段/>与当前时间段/>之间的差值的集合，/>表示基站当前任务队列已被完全处理的时间段/>与当前时间段/>之间的差值，/>和/>分别表示基站的索引以及时隙的索引。

进一步地，步骤S2包含步骤201，针对于带宽分配，V2I下采用5G通信，V2V模式下采用WAVE通信；当任务同时上传至基站或者辅助计算车辆时，将其转化为拉格朗日对偶问题，通过KKT条件进行求解。

更进一步地，步骤S2包含步骤S202，当确定了任务的处理位置，任务的总时延如下所示：

在总时延的计算中忽略任务的回传时延；在V2I模式下，即将任务卸载至基站处处理，存在任务上传时延，任务等待时延/>以及任务处理时延/>；在V2V模式下，即将任务卸载至辅助计算车辆处处理，存在任务上传时延/>，任务等待时延/>以及任务处理时延/>。

与现有技术相比较，本发明具有V2V和V2I两种模式的基于车联网的边缘计算方法（算法）具有明显的优势和速度，尤其相比于多智能体深度确定性策略梯度算法（multi-agentdeepdeterministicpolicygradient，MADDPG）和单智能体双延迟深度确定性策略梯度策略算法（twindelayeddeepdeterministicpolicygradient，TD3）具有更好的效果。本发明的技术效果或创新点如下：

1．本发明针对于车联网网络，提出了一种车辆与基站协作的任务处理模式，其同时包括V2I和V2V两种模式，为解决计算密集型和延迟敏感的任务提供了可靠低时延的解决方案。

2．为了适应车联网边缘计算场景的网络复杂性，本发明将任务处理场景建模（构建）为一个马尔可夫决策过程；尤其采用了一种基于集中式训练、分布式执行架构的MATD3的多智能体任务处理方法来解决这一车联网边缘计算场景的网络复杂难点。

3．为了合理利用车联网中的计算资源，本发明结合车联网网络的优势，本发明采用了两种任务处理方案：卸载到基站处进行处理，卸载到辅助计算车辆处进行处理。

附图说明

图1为依照本发明的具有大量计算任务的车辆的繁忙的交通场景的场景示意图；

图2是依据本发明的面向车联网边缘计算的任务处理方法的问题解决框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种面向车联网边缘计算的任务处理方法，本发明针对车联网场景下的任务处理场景，将车联网边缘计算建模为马尔可夫决策过程，利用深度强化学习算法多智能体双延迟深度确定性策略梯度策略（multi-agenttwindelayeddeepdeterministicpolicygradient，MATD3）对车辆边缘计算存在的问题进行解决。本发明一种面向车联网边缘计算的任务处理方法涉及的车联网任务处理场景（车联网任务处理系统）包括基站、辅助计算车辆以及任务车辆，基站位于车行道两侧并配备了基站服务器，基站服务器为该基站服务器所在侧行驶的任务车辆提供计算服务；辅助计算车辆作为移动的边缘服务器，为周围的任务车辆提供计算服务，且辅助计算车辆的计算资源小于基站的计算资源；任务车辆产生任务，任务车辆将所产生的任务交付辅助计算车辆或者基站进行处理并得到处理的结果。

进一步地，本发明一种面向车联网边缘计算的任务处理方法的车联网任务处理系统中的任务处理过程具体包括：首先将基站作为智能体，每一个基站可以观测到该基站服务器所在侧的道路情况，该基站服务器所在侧的道路情况包括该基站服务器所在侧的所有车辆的位置，任务车辆的任务参数以及辅助计算车辆的计算资源，基站需要对该时刻所有任务车辆产生的任务做出卸载决策；其次，MATD3算法中具有两个评论家网络（CriticNetwork）和一个表演者网络（ActorNetwork），每一个评论家网络和表演者网络都对应自己的目标网络（TargetNetwork），目标网络结构由对应的评论家网络和表演者网络复制而来，目的是为减少训练模型高估带来的影响。训练时，采用集中式学习训练两个评论家网络（CriticNetwork）和一个表演者网络（ActorNetwork）。使用时，将训练模型部署至道路两侧的基站中，每一个基站只需要知道该侧的局部信息就能够做出对任务的卸载决策；再者，训练过程中，训练中心可以获取整个道路的环境信息以及基站的任务卸载决策方案，根据第一目标评论家网络（TargetCriticNetwork1）计算得到值，根据第二目标评论家网络（TargetCriticNetwork2）计算得到/>值，选取/>和/>之中的较小值得到/>，第一评论家网络（Criticnetwork1）和第二评论家网络（Criticnetwork2）根据自己实际的/>和/>和估计的/>值进行训练，表演者网络（ActorNetwork）通过评论家网络（CriticNetwork）的反馈来更新策略，由得到的实际奖励指导其训练；训练完成后，将训练模型部署至每个智能体也就是道路两侧的基站中，基站根据自身对环境的局部观测，通过表演者网络（ActorNetwork）做出该侧的任务车辆的任务卸载决策；基站根据任务卸载决策方案以及观测状态计算相应的收益。

进一步地，本发明申请的面向车联网边缘计算的任务处理方法为一种具有V2V和V2I两种模式的基于车联网的边缘计算方法，其场景示意结构如图1所示，其解决了于车辆的动态移动性以及基站端的计算压力大的问题。本发明结合了车辆间协作边缘计算的车辆边缘场景，最大化了任务的服务成功率。其车联网任务处理场景（车联网任务处理系统）包括基站、辅助计算车辆以及任务车辆，基站位于车行道两侧且位置固定，每一个基站配备了基站服务器，基站能与所有车辆通信并作为边缘服务器，为该侧的任务车辆提供计算支持和任务卸载决策，此为V2I模式；辅助计算车辆具有行驶速度且作为移动的边缘服务器，为周围的任务车辆提供计算服务，且辅助计算车辆的计算资源小于基站的计算资源，此为V2V模式；具有行驶速度的任务车辆在每个时间段随机生成任务，将生成的任务交付辅助计算车辆或者基站进行处理并得到处理的结果。每一个基站根据部署的训练模型为该侧的任务车辆做出任务卸载决策，任务卸载地点为该侧的基站处或者附近的辅助计算车辆处。

在上述具有V2V和V2I两种模式的基于车联网的边缘计算方法涉及的车联网任务处理系统采用时隙模型，其中总时间段长度可以划分为个时隙，每个时隙的持续时间/>相等；在一个时隙内，将其设置为准静态场景，即所有车辆的位置在一个时隙内网络环境中的无线信道增益保持不变，但在不同的时隙中动态变化。同时假设每一时刻基站观测到的任务车辆的数目都相同。

本发明具有V2V和V2I两种模式的基于车联网的边缘计算方法的任务处理方法采用车联网任务处理系统来完成，车联网任务处理系统包括基站、辅助计算车辆以及任务车辆，基站位于车行道两侧且位置固定，每一个基站配备了基站服务器，所以基站服务器能与所有车辆通信并作为固定服务器，为该侧的任务车辆提供计算支持和任务卸载决策；辅助计算车辆具有行驶速度，作为移动的边缘服务器，为周围的任务车辆提供计算服务，且辅助计算车辆的计算资源小于基站的计算资源；具有行驶速度的任务车辆在每个时间段随机生成任务，将生成的任务交付辅助计算车辆或者基站进行处理并得到处理的结果。每一个基站根据部署的训练模型为该侧的任务车辆做出任务卸载决策，任务卸载地点为该侧的基站处或者附近的辅助计算车辆处；

所述具有V2V和V2I两种模式的基于车联网的边缘计算方法（算法）包括如下步骤：

步骤S3，基站之间进行信息交互，训练中心得到整个路况状态，以及基站对本侧任务车辆的任务卸载决策方案，根据得到的奖励对评论家网络（CriticNetworks）和表演者网络（ActorNetwork）进行集中式训练；根据第一目标评论家网络（TargetCriticNetwork1）计算得到值，根据第二目标评论家网络（TargetCriticNetwork2）计算得到/>值，选取/>和/>之中的较小值得到/>，第一评论家网络（CriticNetwork1）和第二评论家网络（CriticNetwork2）根据自己实际的/>和/>和估计的/>值进行训练，表演者网络（ActorNetwork）通过目标评论家网络（CriticNetwork）的反馈来更新策略，由得到的实际奖励指导目标评论家网络（CriticNetworks）训练；

在步骤S1中，时隙集合为，基站集合为/>，所有辅助计算车辆集合为/>，任务车辆集合为/>，基站/>侧的任务车辆的集合/>；基站观测到的局部状态为/>，任务卸载决策为/>，其中/>，表示任务车辆/>是否在/>上处理任务，/>表示卸载的地点为本侧基站或者辅助计算车辆。例如右侧基站给该侧下的一架任务车辆的卸载决策为{1，0，0，0，0}，则表明卸载到该基站处进行处理；如果决策为{0，1，0，0，0}，即表明是将该任务卸载到1号辅助计算车辆执行；如果决策为{0，0，0，0，1}，即表明是将该任务卸载到4号辅助计算车辆处执行。

在步骤S2中，根据约束条件设置奖励。约束条件为：

C1表示是一个0-1整数变量，指示任务车辆/>的任务是否在/>处执行；表示任务卸载位置是基站抑或是辅助计算车辆，/>表示任务在位置/>处理，而/>表示任务不在/>处执行。C2表示任务只能在一个地方处理；由该侧的基站/>处理，抑或是在辅助计算车辆/>处处理。C3表示基站/>分配给任务车辆的带宽和不能超过总的带宽资源。C4表示辅助计算车辆/>分配给任务车辆的带宽和不能超过总的带宽资源。在优选的实施例中，任务处理只能在一个地方处理：由该侧的基站处理，抑或是在辅助计算车辆/>处处理。

下面结合附图，进一步说明本发明的具有V2V和V2I两种模式的基于车联网的边缘计算算法。

图1为依照本发明的具有大量计算任务的车辆的繁忙的交通场景的场景示意图；图2是依据本发明的面向车联网边缘计算的任务处理方法（算法）的问题解决框架图，其中任务卸载问题使用MATD3算法，该算法采用一种集中式训练，分布式执行框架；任务分配采用凸优化算法进行解决。包括以下步骤：

步骤S1，在每一个时隙，每个智能体/>即基站根据自身对环境的局部观测/>决定该区域下的任务车辆/>的任务卸载决策/>。步骤S1包含步骤S101和步骤S102。

步骤S101，每一时隙，任务车辆产生任务/>，其中/>代表该时隙的任务车辆/>的任务数据大小，/>代表该时隙的任务车辆/>处理一位数据所需要的CPU周期数，/>代表该任务的时延阈值。辅助计算车辆和任务车辆的位置使用二维坐标表示，以两侧基站的连线为Y轴，以车道的中心线为X轴（或者以车道左右分界线为X轴）。例如辅助计算车辆/>的位置坐标为/>，任务车辆/>的位置坐标为/>。

步骤S102，各基站根据观测状态基站为每个区域内的任务车辆确定任务卸载地点，其中/>代表在/>时隙基站/>侧下的任务车辆的集合，/>表示/>时隙下基站/>侧下的辅助计算车辆的集合，其中/>代表在基站侧的任务车辆的坐标集合，其中/>代表在基站/>侧的辅助计算车辆的坐标集合，/>表示任务车辆的任务数据大小的集合，/>表示任务车辆的每一位数据所需CPU资源的集合，表示任务车辆的任务时延阈值的集合，/>表示/>时隙辅助计算车辆所具有的任务队列的集合，/>表示/>时隙该基站/>所具有的任务队列，/>表示辅助计算车辆当前任务队列已被完全处理的时间段/>与当前时间段/>之间的差值的集合，/>表示基站当前任务队列已被完全处理的时间段/>与当前时间段/>之间的差值，/>和/>分别表示基站的索引以及时隙的索引；

步骤S2，依据步骤S1的每一个基站做出任务卸载决策后，基站根据任务卸载决策以及环境状态为区域内的任务车辆分配网络资源，并根据通信资源和计算资源的分配计算得到奖励。步骤S2包含步骤S201~步骤S203。

步骤S201，针对于带宽分配，V2I下采用5G通信，V2V模式下采用WAVE通信；当任务同时上传至基站或者辅助计算车辆时产生互扰，本发明将其转化为拉格朗日对偶问题，通过KKT条件进行求解。

步骤S202，当确定了任务的处理位置，任务的总时延如下所示：

在总时延的计算中忽略任务的回传时延；在V2I模式下，即将任务卸载至基站处处理，存在任务上传时延，任务等待时延/>以及任务处理时延/>；同理，在V2V模式下，即将任务卸载至辅助计算车辆处处理，存在任务上传时延/>，任务等待时延以及任务处理时延/>；

步骤S203，根据任务卸载决策以及资源的分配得到所有智能体的奖励，即该时隙中所有任务的服务成功率；服务成功率的计算公式为：，其中/>代表该时隙系统具有的所有的任务。如果/>，即如果任务满足时延阈值，则/>，否则/>；

步骤S3，训练中心根据所有基站的状态、任务卸载动作以及所得到的奖励，不断对评论家网络（CriticNetwork）和表演者网络（ActorNetwork）网络进行集中式训练；训练中心将使用对应的评论家网络（CriticNetwork）得到的输出结果Q对基站的表演者网络（ActorNetwork）进行指导训练，使用奖励对评论家网络（CriticNetwork）进行指导训练。步骤S3包含步骤S301和步骤S302。

步骤S301，我们将集中训练的中心设置在地面控制站，可以获取整个环境的状态以及所有基站的动作/>和奖励/>，其中整个环境的观测状态；所有基站的任务决策集合为/>；所获得的奖励/>，在奖励中，其中/>代表该时隙所有到来任务的服务时延和的导数，/>代表本时隙所有任务服务成功率。/>、/>代表三者所占比重，介于0和1之间(包括0，1)。

步骤S302，将整个环境状态以及动作作为评论家网络（CriticNetworks）的输入，通过奖励指导训练评论家网络（CriticNetworks），使用评论家网络（CriticNetworks）得到的输出结果对基站的表演者网络（ActorNetwork）进行指导训练。

步骤S4，训练完成后，每一个基站仅需依据自身的局部观测状态做出卸载决策。即，基站根据已经部署的模型，利用表演者网络（ActorNetwork）对任务进行卸载决策，不需要评论家网络（CriticNetwork）的反馈。

进一步地，图1对本发明的场景进行了描述，蓝色车辆为任务车辆，携带大量计算任务，该任务可能为视频请求，导航图像等等。红色车辆为辅助计算车辆，利用V2V模式作为边缘端为任务车辆提供计算服务。同时左右道路分别具有为该边道路提供计算服务的基站，利用V2I模式作为云端为任务车辆提供计算。

进一步地，图2描述了本发明的问题解决框架，本发明将车联网边缘计算分为任务卸载和资源分配两部分。其中，任务卸载问题采用多智能体深度强化学习算法MATD进行处理，每一个智能体即基站观测环境信息，根据训练出的模型进行任务卸载决策；其输入系统状态的各个参数，基于MATD3框架采用多智能体深度强化学习算法MATD进行处理，例如采用智能体1、智能体2、……、智能体n，每个智能体均包括表演者和目标表演者，多个表演者构成表演者网络，多个目标表演者构成目标表演者网络，其通过与存储器和车联网环境的交互或采样实现任务卸载决策。

资源分配中考虑对系统带宽的分配，辅助计算车辆和基站对带宽的分配会对任务的传输时延造成影响，进而影响任务的成功率；在资源分配中输入系统状态、任务卸载决策，同时本发明将带宽分配问题转化为拉格朗日对偶问题，继而将其转化为KKT条件，利用凸优化方法对带宽进行分配。任务卸载决策与资源分配决策联动及交互实现本发明的车联网边缘计算方法。

本发明的深度强化学习算法涉及的多智能体双延迟深度确定性策略梯度策略MATD3算法全称为multi-agentdelayeddeterministicpolicygradient，是一种基于执行器-评价器（actor-criticbased）的多智能体深度强化学习算法。MATD3将单智能体领域的TD3延伸到多智能体领域，其主要结构仍然采取集中训练和独立执行的形式，即每个智能体的值函数输入空间不仅包括自身的观测和动作，也包括其他所有智能体的观测和动作。但每个智能体的策略输入空间也只有自身的观测数据。MATD3是MADDPG的优化版算法，其使用两套网络(Twin)表示不同的Q（Q_A和Q_B）值，通过选取最小的那个作为更新的目标，从而抑制持续地过高估计。在本发明的算法库中，MATD3应用于三个智能体强化学习任务场景。每个智能体的前向传播分为representation，eval_policy，eval_Q_A和eval_Q_B四个部分。representation由包含单隐层的多层感知器MLP构成，输入为智能体观测的状态信息，输出为32维的隐状态信息。eval_a模块的输入为representation的输出，再次经过单隐层的MLP网络输出动作的高斯分布，智能体通过在高斯分布中采样选择最后施加于环境中的动作。Eval_Q_A和Eval_Q_B模块的输入为representation的输出，再次经过单隐层的MLP网络值函数。此外，MATD3中的每个智能体还包含target_a和target_Q作为目标动作网络和目标Q网络，目标网络与在线网络结构系统相同，参数和在线网络保持周期性一致。

与现有技术相比较，本发明为车辆边缘计算带来了一种全新计算模式，其利用车辆与车辆之间的协作，其中用户车辆可以选择将任务卸载给计算车辆，由计算车辆为用户车辆提供计算资源；进一步地，本发明深度强化学习结合了深度学习的感知能力与强化学习的决策能力，实现了端到端的学习，可以解决现实场景中的各类复杂问题，本发明可以应用于完全合作式、完全竞争式和混合关系式多种场景中，具有更加广泛的用途。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种面向车联网边缘计算的任务处理方法，其特征在于，针对车联网场景下的任务处理场景，将车联网边缘计算建模为马尔可夫决策过程，利用深度强化学习算法多智能体双延迟深度确定性策略梯度策略进行车辆边缘计算；

所述面向车联网边缘计算的任务处理方法的车联网任务处理系统包括基站、辅助计算车辆和任务车辆，基站位于车行道两侧并配备基站服务器，基站服务器为该基站服务器所在侧行驶的任务车辆提供计算服务；辅助计算车辆作为移动的边缘服务器，为周围的任务车辆提供计算服务，且辅助计算车辆的计算资源小于基站的计算资源；任务车辆产生任务，任务车辆将所产生的任务交付辅助计算车辆或者基站进行处理并得到处理的结果。

2.使用权利要求1所述的面向车联网边缘计算的任务处理方法，其特征在于，面向车联网边缘计算的任务处理方法的车联网任务处理系统中的任务处理过程包括将基站作为智能体，每一个基站能够观测到该侧的道路情况，该侧的道路情况包括该侧的所有车辆的位置、任务车辆的任务参数以及辅助计算车辆的计算资源，基站对该时刻所有任务车辆产生的任务做出卸载决策。

3.使用权利要求2所述的面向车联网边缘计算的任务处理方法，其特征在于，进一步包括训练采用集中式学习训练两个评论家网络和一个表演者网络，使用时将模型部署至道路两侧的基站中，每一个基站只需要知道该侧的局部信息就能够做出对任务的卸载决策。

4.使用权利要求3所述的面向车联网边缘计算的任务处理方法，其特征在于，训练过程中，训练中心能够获取整个道路的环境信息以及基站的任务卸载决策方案，根据第一目标评论家网络计算得到值，根据第二目标评论家网络计算得到/>值，选取/>和/>之中的较小值得到/>，第一评论家网络和第二评论家网络根据自己实际的/> 和/>和估计的值进行训练，表演者网络通过评论家网络的反馈来更新策略，由得到的实际奖励指导其训练；训练完成后，将训练模型部署至每个智能体也就是道路两侧的基站中，基站根据自身对环境的局部观测，通过表演者网络做出该侧的任务车辆的任务卸载决策；基站根据任务卸载决策方案以及观测状态计算相应的收益。

5.使用权利要求1所述的面向车联网边缘计算的任务处理方法，其特征在于，其为一种具有V2V和V2I两种模式的基于车联网的边缘计算方法，所述方法包括以下步骤：

步骤S2，基站根据任务卸载决策方案和环境状态通过得到通信资源和计算资源的分配方案，并根据通信资源和计算资源的分配计算得到奖励，其中/>代表该时隙所有到来任务的服务时延和，/>表示/>时隙的所有任务的服务成功率；

步骤S3，基站之间进行信息交互，训练中心得到整个路况状态，以及基站对本侧任务车辆的任务卸载决策方案，根据得到的奖励对评论家网络和表演者网络进行集中式训练；根据第一目标评论家网络计算得到值，根据第二目标评论家网络计算得到/>值，选取/>和/>之中的较小值得到/>，第一评论家网络和第二评论家网络根据自己实际的/> 和/>和估计的/>值进行训练，表演者网络通过目标评论家网络的反馈来更新策略，由得到的实际奖励指导目标评论家网络训练；

步骤S4，基站根据已经部署的训练模型，利用表演者网络对任务进行卸载决策，不需要评论家网络的反馈。

6.使用权利要求5所述的面向车联网边缘计算的任务处理方法，其特征在于，步骤S1包含步骤S101，每一时隙，任务车辆产生任务/>，其中/>代表该时隙的任务车辆/>的任务数据大小，/>代表该时隙的任务车辆/>处理一位数据所需要的CPU周期数，代表该任务的时延阈值；辅助计算车辆和任务车辆的位置使用二维坐标表示，以两侧基站的连线为Y轴，以车道的中心线为X轴。

7.使用权利要求6所述的面向车联网边缘计算的任务处理方法，其特征在于，辅助计算车辆的位置坐标为/>，任务车辆/>的位置坐标为/>。

8.使用权利要求6所述的面向车联网边缘计算的任务处理方法，其特征在于，步骤S1包含步骤S102，各基站根据观测状态基站为每个区域内的任务车辆确定任务卸载地点，其中/>代表在/>时隙基站/>侧下的任务车辆的集合，/>表示/>时隙下基站/>侧下的辅助计算车辆的集合，其中/>代表在基站/>侧的任务车辆的坐标集合，其中/>代表在基站/>侧的辅助计算车辆的坐标集合，/>表示任务车辆的任务数据大小的集合，/>表示任务车辆的每一位数据所需CPU资源的集合，表示任务车辆的任务时延阈值的集合，/>表示/>时隙辅助计算车辆所具有的任务队列的集合，/>表示/>时隙该基站/>所具有的任务队列，/>表示辅助计算车辆当前任务队列已被完全处理的时间段/>与当前时间段/>之间的差值的集合，/>表示基站当前任务队列已被完全处理的时间段/>与当前时间段/>之间的差值，/>和/>分别表示基站的索引以及时隙的索引。

9.使用权利要求6所述的面向车联网边缘计算的任务处理方法，其特征在于，步骤S2包含步骤201，针对于带宽分配，V2I下采用5G通信，V2V模式下采用WAVE通信；当任务同时上传至基站或者辅助计算车辆时，将其转化为拉格朗日对偶问题，通过KKT条件进行求解。

10.使用权利要求6所述的面向车联网边缘计算的任务处理方法，其特征在于，步骤S2包含步骤S202，当确定了任务的处理位置，任务的总时延如下所示：