CN115243217A

CN115243217A - 车联网边缘环境下基于ddqn的端边云协同调度方法及系统

Info

Publication number: CN115243217A
Application number: CN202210794277.0A
Authority: CN
Inventors: 罗志勇; 吴靖怡; 王姗姗
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-25
Anticipated expiration: 2042-07-07
Also published as: CN115243217B

Abstract

本发明公开了一种车联网边缘环境下基于DDQN的端边云协同调度方法及系统，包括在车联网边缘环境下部署端边云协同服务卸载架构，定义任务参数组，并建立网络通信模型；基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略；根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件；将优化问题转化为马尔科夫决策过程，利用DDQN算法对马尔科夫决策过程进行求解，根据求解结果生成调度方法。本发明不仅适用于具有低时延、高可靠性、高效率等要求的车载边缘这一环境，为高带宽和低时延的业务提供了更好的支持，解决了云计算远距离传输和边缘计算资源受限的缺点，在算法上也避免了状态空间过大和估计过高等问题。

Description

车联网边缘环境下基于DDQN的端边云协同调度方法及系统

技术领域

本发明涉及车联网边缘计算技术领域，尤其涉及一种车联网边缘环境下基于DDQN的端边云协同调度方法及系统。

背景技术

近年来，移动边缘计算得到了学者专家的广泛关注，边缘计算本质上是在靠近物或数据源头提供最近端服务，具有低时延、去中心化、高安全可靠性等优点。因此移动边缘计算被广泛应用于车联网、工业物联网、智慧城市、智能家居等场景下，这些场景下的服务无疑都会产生大量的数据，在网络边缘处部署计算设备。一方面可以将终端庞大的计算量卸载至边缘处执行，缓解终端的压力，减少传输过程中通信资源(如带宽等)的消耗，降低服务时延，实现资源与任务的合理分配，提高系统效率；另一方面，边缘服务器利用数据局部性的特点缓存云端数据，有助于提高终端数据的读写速率，降低数据访问延迟，对于工业物联网、智能家居等注重车联网用户数据隐私保护的场景，数据在上传至云端之前可以通过边缘层进行加密，保证了车联网用户数据的安全性。但对于一些对计算资源、存储资源以及服务稳定性要求更高的任务，边缘服务器无法高效地执行，也无法解决有限网络资源与大量车联网用户需求之间存在的矛盾。

目前，已有大量研究将边缘计算应用到车联网的场景中，这些研究采用了不同的机制优化了任务在边缘节点及终端的卸载方案，有效地减小了系统开销，但由于传统的认证机制不适用于异构性的边缘服务器和移动设备，且在边缘计算中不同的通信协议的信任域也不同，这给通信和网络管理机制带来了新的威胁。此外边缘服务器操作和设计的复杂性高，以及配备的计算、存储、带宽资源有限，这也使得单边缘节点卸载容易带来过载问题。

发明内容

本发明的目的在于提供一种车联网边缘环境下基于DDQN的端边云协同调度方法及系统，以解决现有的车载边缘网络中因有限网络资源与大量车联网用户需求之间存在的矛盾，导致边缘节点计算力不足与分布不均衡的问题。

为实现上述目的，本发明提供一种车联网边缘环境下基于DDQN的端边云协同调度方法，包括：

在车联网边缘环境下部署端边云协同服务卸载架构，定义任务参数组，并建立网络通信模型；

基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略；

根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件；

将优化问题转化为马尔科夫决策过程，利用DDQN算法对马尔科夫决策过程进行求解，根据求解结果生成调度方法。

进一步地，所述在车联网边缘环境下部署端边云协同服务卸载架构，包括：

在车联网边缘环境下，定义一个中心云，s个边缘节点，n个车联网用户；其中，C，S＝{1,2,…,s}和N＝{1,2,…,n}分别表示云、边、端设备；每个边缘节点包含至少一个边缘服务器。

进一步地，所述定义任务参数组，并建立网络通信模型，包括：

定义车联网用户n上处理的任务为三元参数组

其中，I_n为任务n的数据大小，φ_n为分配给该任务的计算资源量，

为任务完成的最大时限；

定义从每个车联网用户到与之连接的边缘服务器的无线接入信道，及从边缘服务器到中心云的前端连接信道为独立同分布瑞利信道，并建立网络通信模型。

进一步地，所述基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略，包括：

定义有k个正交子信道，子信道集合为K＝{1,2,...,k}，计算出车联网用户n在边缘服务器处，以及边缘服务器与中心云之间在子信道k上接收到的信号与干扰加噪声比分别为：

其中，p_n和p_n,s分别表示车联网用户n和边缘节点s的上行传输发射功率，h_n,s和

分别表示端到边、边到云的接入链路信道增益，σ表示噪声功率，∑_k∈K p′_kh′_k,s和

分别表示接入链路的区间干扰、fronthaul链路的边缘节点间干扰；

定义从端到边、从边到云的最大数据传输速率，分别为：

r_n,s＝Blog₂(1+SINR_n,s)；

其中，B为信道带宽；

建立服务时延计算模型，定义计算能力集为：

其中，f_n表示车联网用户在本地端的计算能力，f_n,s表示边缘节点的计算能力，

表示中心云的计算能力；

利用0-1变量表示任务卸载情况，并确定任务卸载策略为：每一位车联网用户的任务需求只可卸载到本地、边缘服务器和中心云三者中的一处执行，定义卸载任务集为

其中x_n∈{0,1}，x_n,s∈{0,1}，具体为：

进一步地，所述根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件，包括：

分别计算在车联网用户进行卸载、从车联网用户卸载到边缘服务器以及从边缘服务器卸载到中心云三种情况下各自所用的计算时间、传输时延和能量消耗；

以平均任务时延最小为目标，确定优化问题的目标函数及约束条件。

进一步地，所述在车联网用户进行卸载、从车联网用户卸载到边缘服务器以及从边缘服务器卸载到中心云三种情况下各自所用的计算时间、传输时延和能量消耗，包括：

在车联网用户端卸载，执行时间为

能量消耗为

从车联网用户卸载到边缘服务器，传输时延为

计算时延为

传输能量消耗为

从边缘服务器卸载到中心云，传输时延为

计算时延为

单个车联网用户完成服务的总时延为

所有车联网用户完成服务总时长为

所述目标函数为

所述约束条件为：

其中，R_n,s和

表示可用的数据传输速率。

进一步地，所述将优化问题转化为马尔科夫决策过程：

确定马尔科夫决策过程的环境、状态、动作空间及奖励；

所述环境包括车联网信息、任务量、服务器的通信资源以及计算资源；

所述状态包括环境中所有车联网用户在特定时间段内的计算资源、通信资源、能量资源和时间限度；

所述动作空间由任务卸载策略、计算资源分配策略及通信资源分配策略决定；

所述奖励包括朝着目标方向和朝着非目标方向执行动作的奖励。

本发明还提供了一种车联网边缘环境下基于DDQN的端边云协同调度系统，包括：

架构部署单元，用于在车联网边缘环境下部署端边云协同服务卸载架构，定义任务参数组，并建立网络通信模型；

策略确定单元，用于基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略；

优化问题确定单元，用于根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件；

转化及求解单元，用于将优化问题转化为马尔科夫决策过程，利用DDQN算法对马尔科夫决策过程进行求解，根据求解结果生成调度方法。

本发明还提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的车联网边缘环境下基于DDQN的端边云协同调度方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的车联网边缘环境下基于DDQN的端边云协同调度方法。

相对于现有技术，本发明的有益效果在于：

本发明公开了一种车联网边缘环境下基于DDQN的端边云协同调度方法及系统，该方法包括在车联网边缘环境下部署端边云协同服务卸载架构，定义任务参数组，并建立网络通信模型；基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略；根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件；将优化问题转化为马尔科夫决策过程，利用DDQN算法对马尔科夫决策过程进行求解，根据求解结果生成调度方法。

本发明构建了端边云协同服务卸载架构和服务时延计算模型，通过将优化问题转化为马尔科夫决策过程并利用DDQN算法进行求解，通过比较DDQN算法和DQN、Q-learning算法的性能优劣得出，在改变任务数据量大小时，DDQN算法相较于DQN算法性能提升约49％，相较于Q-learning算法性能提升了大约96％；改变边缘服务器的计算能力时，DDQN算法相较于DQN算法性能提升约28％，相较于Q-learning算法性能提升了大约95％。本发明不仅有效地适用于具有低时延、高可靠性、高效率等要求的车载边缘这一环境，为高带宽和低时延的业务提供了更好的支持，解决了云计算远距离传输和边缘计算资源受限的缺点，在算法上也避免了状态空间过大和估计过高等问题，更稳定高效地找到目标的最优解。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的车联网边缘环境下基于DDQN的端边云协同调度方法的流程示意图；

图2是本发明某一实施例提供的端边云协同服务卸载架构结构示意图；

图3是本发明某一实施例提供的DDQN与端边云协同服务卸载架构结合的算法原理图；

图4是本发明某一实施例提供的实验参数设置图；

图5是本发明某一实施例提供的DDQN网络更新流程图；

图6是本发明某一实施例提供的DDQN网络调度算法收敛性能仿真图；

图7是本发明某一实施例提供的不同学习率α的收敛性能仿真图；

图8是本发明某一实施例提供的不同折扣因子γ的收敛性能仿真图；

图9是本发明某一实施例提供的目标网络更新间隔步长C的收敛性能仿真图；

图10是本发明某一实施例提供的DDQN算法与Q-learning算法的性能对比仿真图；

图11是本发明某一实施例提供的车联网边缘环境下基于DDQN的端边云协同调度系统的结构示意图；

图12是本发明某一实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

目前，边缘计算已经广泛应用于车联网的场景中，这些场景下采用了不同的机制优化了任务在边缘节点及终端的卸载方案，有效地减小了系统开销，但由于传统的认证机制不适用于异构性的边缘服务器和移动设备，且在边缘计算中不同的通信协议的信任域也不同，这给通信和网络管理机制带来了新的威胁。此外边缘服务器操作和设计的复杂性高，以及配备的计算、存储、带宽资源有限，这也使得单边缘节点卸载容易带来过载问题。

为此，目前提出了三层的端边云协同任务卸载模型架构。端边云协同架构是边云协同这一概念的延伸，用户的服务可选择在车载用户端即本地执行，也可卸载到边缘服务器或者中心云端执行，这一架构不仅完美解决了传统云计算汇聚流量大、通信时延长等问题，也可以弥补单边缘服务器卸载的缺点。而且对于一些所需计算能力较小的任务，可以直接选择在本地端执行，这样使得通信资源与计算资源不被浪费；对于具有较大的计算资源需求的任务，也可选择卸载至云端执行，使得系统效率大大提高。其中，端边云协同主要分为横向协同和纵向协同。横向协同是指由于数据在地理上呈分布式部署的边缘设备上汇集，为了满足多种多样的服务需求，多方之间需要进行数据交互与共享。而纵向协同是指充分利用不同层次的特点而实现层次间的协同，以此来满足服务需求。

本发明主要基于纵向协同展开。由于车载边缘场景中的计算和通信资源有限，为了减低时延和成本，提高任务卸载的效率，本发明提出了端边云协同任务卸载模型架构，包含一个云服务器，多个边缘服务器与终端车联网用户，兼具了终端计算、边缘计算和云计算三者的特性。通过定义了任务参数组、卸载策略集等参数，建立了网络通信模型和服务时延计算模型。为寻求用户平均服务时延最小的任务卸载策略，把优化问题转化为马尔科夫决策过程(Markov Decision Process,MDP)，并提出一种基于深度双Q网络(Double Deep Q-Network，DDQN)的高效调度算法来解决MDP问题。

请参阅图1，本发明某一实施例提供一种车联网边缘环境下基于DDQN的端边云协同调度方法。如图1所示，该车联网边缘环境下基于DDQN的端边云协同调度方法包括步骤S10至步骤S40。各步骤具体如下：

S10、在车联网边缘环境下部署端边云协同服务卸载架构，定义任务参数组，并建立网络通信模型。

请参阅图2，图2提供了云协同服务卸载架构的结构示意图。如图2所示，本步骤中，针对车联网边缘场景，定义了一个中心云，s个边缘节点，n个车联网用户，同时定义了C，S＝{1,2,…,s}和N＝{1,2,…,n}分别表示云、边、端设备；每个边缘节点包含至少一个边缘服务器。

进一步地，定义车联网用户n上处理的任务为三元参数组

为任务完成的最大时限；

忽略下行链路通信，只考虑车联网用户端和边缘服务器之间、边缘服务器与中心云端之间的上行链路通信，定义从每个车联网用户到与之连接的边缘服务器的无线接入信道，及从边缘服务器到中心云的前端连接信道为独立同分布瑞利信道，并建立网络通信模型。

S20、基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略。

本步骤中，定义有k个正交子信道，子信道集合为K＝{1,2,...,k}，不同子带间相互独立，且衰落在同一子带内大致相同，推导出车联网用户n在边缘服务器处，以及边缘服务器与中心云之间在子信道k上接收到的信号与干扰加噪声比分别为：

分别表示接入链路的区间干扰、fronthaul链路的边缘节点间干扰。

进一步地，定义从端到边、从边到云的最大数据传输速率，分别为：

r_n,s＝Blog₂(1+SINR_n,s)；

其中，B为信道带宽；

假设中心云端与边缘服务器位置固定，且能实现全天候不间断供电，建立服务时延计算模型，定义计算能力集为：

表示中心云的计算能力。

其中x_n∈{0,1}，x_n,s∈{0,1}，具体为：

S30、根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件。

本步骤中，分别计算在车联网用户进行卸载、从车联网用户卸载到边缘服务器以及从边缘服务器卸载到中心云三种情况下各自所用的计算时间、传输时延和能量消耗，具体包括：

在车联网用户端卸载，执行时间为

能量消耗为

从车联网用户卸载到边缘服务器，传输时延为

计算时延为

传输能量消耗为

从边缘服务器卸载到中心云，传输时延为

计算时延为

单个车联网用户完成服务的总时延为

所有车联网用户完成服务总时长为

以平均任务时延最小为目标，确定优化问题的目标函数及约束条件，具体地

目标函数为

约束条件为：

其中，R_n,s和

表示可用的数据传输速率。

S40、将优化问题转化为马尔科夫决策过程，利用DDQN算法对马尔科夫决策过程进行求解，根据求解结果生成调度方法。

请参阅图3，在某一实施例中提供了基于DDQN的端边云协同高效调度算法，包括：把优化问题转化为马尔科夫决策过程(Markov Decision Process,MDP)，并提出一种基于深度双Q网络(Double Deep Q-Network，DDQN)的高效调度算法来解决MDP问题；分析了DDQN的动作选择和网络更新过程，对架构进行仿真以及验证收敛性，证明算法和模型的可行性和实用性；接着重点关注了学习率α、折扣因子γ、更新间隔步长C等参数设置对算法收敛性能的影响。

具体地，利用DDQN算法求解的过程如下：

1)由于深度强化学习过程是智能体与环境的交互过程。当智能体执行任务时，环境和动作之间会进行交互，从而智能体产生新的状态，同时收到环境给出的奖励。此过程不断循环，深度强化学习根据交互产生的数据不断修正动作策略，经过多次迭代后，智能体会朝着奖励最大的方向不断执行动作，直至完成任务的执行。因此，本实施例中，把这一过程转化为马尔科夫决策过程(Markov Decision Process,MDP)。需要说明的是，MDP可由一个五元组(S,A,P,R,γ)来定义，其中S为有限的状态集，A为有限的动作集，P为状态转移概率，R为奖励函数，γ为折扣因子，用于计算累计奖励，γ∈[0,1]。

2)根据上述MDP的元素，设置了本发明相应的环境、状态、动作和奖励，环境主要由车联网信息、任务量、服务器的通信资源以及计算资源组成：

env＝{V，T，B_total，C_total}；

其中，车联网信息V包括了车联网用户集N，用户卸载策略X等信息；任务量T包括了单个用户的任务数据量大小I_n、任务个数n等信息；通信资源B_total，包括分配给终端到边缘服务器、边缘服务器到云服务器之间的信道增益h_n,_s和

信道个数k、最大数据传输速率r_n,s和

等信息；计算资源C_total，包括分配给任务的计算资源量大小φ_n，终端、边缘服务器和云服务器的计算能力

等信息。

3)系统的状态包括环境中所有车联网用户在特定时间段内的计算资源、通信资源、能量资源和时间限度，定义为：

s_t＝{C_t，B_t，E_t，T_max}；

其中，C_t表示t时刻本地车联网用户、边缘端和云端的计算资源，包括t时刻分配给该任务的计算资源量大小I_t，以及t时刻三端的计算能力f_t；B_t为t时刻三端各自之间的通信资源；E_t则为t时刻本地和边缘服务器剩余的能量信息；而T_max表示t时刻卸载任务的最大容忍时间。

4)动作空间主要由任务卸载策略、计算资源分配策略以及通信资源分配策略决定，定义为：

a_t＝{X_i，λ_iC_total，κ_iB_total}；

其中用i＝{1,2,3}来分别表示任务在本地车联网用户端执行、卸载至边缘服务器执行和卸载至云服务器执行。X_i表示当前任务的卸载策略，具体卸载策略为X₁表示任务直接在本地执行，X₂表示任务卸载至边缘端执行，X₃表示任务卸载至云端执行；λ_i表示三种卸载策略在总计算资源中所占的比率，其中λ1+λ2+λ3＝1。同样，κ_i表示三种卸载策略在总通信资源中所占的比率，其中值得注意的是，当任务只在本地执行时不需要消耗通信资源，因此默认κ₁为0，则有κ2+κ3＝1。

5)在与环境交互的过程中，智能体将不断朝着累计奖励最大的路径去执行动作策略。为了使智能体朝着目标方向执行策略，本步骤中需要把朝着目标方向和朝着非目标方向执行动作的奖励函数区分开来，因此将奖励函数设置如下：

需要说明的是，当服务执行时间、计算资源量、能量等因素满足约束条件时，设置一个较大的奖励函数，值为每个时隙生成的所有任务的平均时延。当约束条件不满足时，将奖励设置为一个极小的值，视为惩罚。

6)DDQN是将卷积神经网络与传统强化学习中的Q-Learning结合基于值函数的深度强化学习，适用于智能感知与控制的场景，相较于传统强化学习可以更适合应用于拥有高维度状态空间和连续的动作空间的场景。它通过经验重放和目标网络解决了稳定性和收敛性的问题，相较于传统Q-learning更接近有监督的学习。它用不同的值函数实现动作的选择和评估，解决了深度Q-网络(DQN)中存在的过估计问题。因此在本发明中选择DDQN算法来解决MDP问题。

7)当智能体即决策者收到用户端的服务请求时，会根据当前环境状态寻求最优动作。

8)决策者将动作返回给车联网用户，向用户表明服务的执行位置：本地端、边缘服务器或云服务器，同时告知用户分配得到的计算资源和通信资源。

9)完成动作的执行后，决策者将收到执行该动作获得的奖励。

10)环境进入下一状态，智能体将根据奖励值不断向着期望的目标执行任务。

11)设置相关参数，如图4所示，对算法进行数据仿真，实验环境由python3.7和TensorFlow2.7.0来实现。

12)在算法中设置了两个Q网络，一个用来选择当前状态下的动作，另一个用来评估当前状态的价值，这样一来提高了算法的稳定性，二来避免了过估计问题，使Q值更为精确。

请参阅图5，进一步地，分析DDQN的动作选择和网络更新过程，对架构进行仿真以及验证收敛性，具体为：在选择下一动作值函数Q(s_t+1,a_t+1)的过程中，DDQN先在当前Q网络中找到最大Q值对应的动作a_t，然后再利用这个选出来的动作在目标网络里计算目标Q值。

13)如图6所示，仿真结果表明随着训练次数的增加，损失值不断减小并逐渐收敛，趋于稳定。由此可得，算法的收敛效果较好，这也意味着算法找到了最优解，即用户平均最小时延，验证了本发明提出的模型与算法的有效性与可行性；

14)如图7所示，在其余参数不变的前提下，改变学习率α的值。通常情况下，学习率α的取值范围在0.0001～0.1之间，作为优选地，本实施例对0.01、0.001和0.0001这三个值进行仿真对比。结果表明，算法的收敛性能与学习率α的大小并不呈线性关系，α过大，训练损失曲线会产生较大的震荡；α过小，则会在迭代次数少时出现训练损失值过高的情况。

15)如图8所示，在其余参数为初始设置的前提下，改变γ值的大小，正常情况下，γ的取值范围是(0,1]。作为优选地，本实施例对γ＝0.9、γ＝0.5和γ＝0.1三种情况展开仿真。结果表明，γ值越大，决策者往前考虑的步数越多，训练难度也越高；而γ值越小时，决策者更加注重“眼前利益”，因此训练难度也越小。

16)如图9所示，其余参数与初始设置相同。作为优选地，本实施例仅改变C的值，选取C的值分别为150、50和5。结果表明，目标网络更新间隔C越大，算法越稳定，收敛性能越好。但间隔越大，目标网络更新的频率会越慢，从而导致算法的收敛程度较慢。

17)如图10所示，以平均服务时延作为技术指标，通过改变任务数据量大小和边缘服务器计算能力，比较DDQN算法和DQN、Q-learning算法的性能优劣。仿真结果表明，以平均服务时延作为技术指标，在改变任务数据量大小时，DDQN算法相较于DQN算法性能提升约49％，相较于Q-learning算法性能提升了大约96％；改变边缘服务器的计算能力时，DDQN算法相较于DQN算法性能提升约28％，相较于Q-learning算法性能提升了大约95％。

综上所述，本发明将本地卸载与边云协同相结合，形成融合本地计算、边缘计算和云计算三者优势的端边云协同，根据任务的数据量大小和计算、通信、存储等资源的条件，选择将任务卸载至其中一处来执行。端边云协同可以利用三端服务器不同的特点构成多层次的网络调度结构，使边缘计算和云计算都发挥出最大的优势，同时能够满足多样的用户需求。此外在车联网场景中些微偏差都会对服务执行效果产生影响，尤其是碰撞预警、自动驾驶等服务在数据上不容差池，而过往的发明中经常采用的DQN算法存在过估计的问题，导致寻找到的最优解不够精准。本文采用的DDQN算法与DQN相比在动作选择和网络更新步骤有所区别，可以避免过估计的问题，使找到的最优值更精确。本发明有效克服了因有限网络资源与大量用户需求之间存在的矛盾而导致边缘节点计算力不足与分布不均衡的问题，使得服务器可以更快更准地做出决策，提高系统的效率，保障用户的安全与体验效果。此外在实际的车联网场景中，碰撞预警、自动驾驶、信息共享、车速控制等应用对数据精确度要求非常高，此发明采用的架构和解决方法较现有发明更具准确性和可行性。

请参阅图11，本发明某一实施例还提供了一种车联网边缘环境下基于DDQN的端边云协同调度系统，包括：

架构部署单元01，用于在车联网边缘环境下部署端边云协同服务卸载架构，定义任务参数组，并建立网络通信模型；

策略确定单元02，用于基于网络通信模型，建立服务时延计算模型，并确定任务卸载策略；

优化问题确定单元03，用于根据服务时延计算模型和任务卸载策略，确定优化问题的目标函数与约束条件；

转化及求解单元04，用于将优化问题转化为马尔科夫决策过程，利用DDQN算法对马尔科夫决策过程进行求解，根据求解结果生成调度方法。

可以理解的是，本实施例提供的系统用于执行如上述任一项实施例所提供的方法，并实现与其相同的技术效果，在此不再进一步赘述。

请参阅图12，本发明某一实施例还提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的车联网边缘环境下基于DDQN的端边云协同调度方法。

处理器用于控制该终端设备的整体操作，以完成上述的车联网边缘环境下基于DDQN的端边云协同调度方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该终端设备的操作，这些数据例如可以包括用于在该终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

在一示例性实施例中，终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit，简称AS1C)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如上述任一项实施例所述的车联网边缘环境下基于DDQN的端边云协同调度方法，并达到如上述方法一致的技术效果。

在另一示例性实施例中，还提供一种包括计算机程序的计算机可读存储介质，该计算机程序被处理器执行时实现如上述任一项实施例所述的车联网边缘环境下基于DDQN的端边云协同调度方法的步骤。例如，该计算机可读存储介质可以为上述包括计算机程序的存储器，上述计算机程序可由终端设备的处理器执行以完成如上述任一项实施例所述的车联网边缘环境下基于DDQN的端边云协同调度方法，并达到如上述方法一致的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。