CN113868808A

CN113868808A - 一种道路网络临近检测时延优化方法、装置和系统

Info

Publication number: CN113868808A
Application number: CN202110950096.8A
Authority: CN
Inventors: 刘雅琼; 宋云龙; 寿国础; 胡怡红
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-12-31
Anticipated expiration: 2041-08-18
Also published as: CN113868808B

Abstract

本发明实施例提供了一种道路网络临近检测时延优化方法、装置和系统，上述方法包括：获取道路网络临近检测系统中各个移动用户的用户信息以及与用户设备相距最近的目标边缘服务器的服务器计算资源信息；基于用户信息和服务器计算资源信息生成临近检测任务；基于自身的运动状态信息、计算资源信息以及服务器计算资源信息，确定用户设备对应的运动状态向量；确定用户设备对应的任务状态向量；将运动状态向量和任务状态向量输入预先训练的任务分配模型，确定任务分配占比向量；其中，任务分配占比向量用于标识所述用户设备向所述目标边缘服务器卸载的临近检测任务中各个子任务的占比。采用上述方法，使得计算耗时更少，时延更低。

Description

一种道路网络临近检测时延优化方法、装置和系统

技术领域

本发明应用于自动驾驶技术领域，特别是涉及一种道路网络临近检测时延优化方法、装置和系统。

背景技术

5G和人工智能技术的不断突破推动了自动驾驶技术的发展，在自动驾驶道路网络中，检测移动用户之间的临近关系被称为道路网络中的临近检测。临近检测对于移动用户的安全有着很重要的作用，例如，对道路网络中的移动用户进行临近检测可以帮助移动用户获取临近车辆的信息，避免发生交通事故。因此，在自动驾驶技术领域中，如何准确有效地检测移动用户之间的临近关系十分重要。

目前，主要是利用P2P(Peer-to-Peer，对等网络)或C/S(Client-Server，客户端-服务器)等传统网络进行临近检测。然而，利用传统网络进行临近检测存在时延长的缺点。

发明内容

本发明实施例的目的在于提供一种道路网络临近检测时延优化方法、装置和系统，以减小道路网络临近检测的时延。

为了达到上述目的，本发明实施例提供了一种道路网络临近检测时延优化方法，应用于道路网络临近检测系统中的移动用户的用户设备，所述道路网络临近检测系统还包括至少一个边缘服务器；所述方法包括：

获取所述道路网络临近检测系统中各个移动用户的用户信息以及与所述用户设备相距最近的目标边缘服务器的服务器计算资源信息，其中，所述用户信息包括运动状态信息和计算资源信息；

基于所述用户信息和所述服务器计算资源信息，生成临近检测任务，其中，所述临近检测任务包括多个子任务；

基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，确定所述用户设备对应的运动状态向量；

基于所述临近检测任务和预设的任务比例约束函数，确定所述用户设备对应的任务状态向量；

将所述运动状态向量和所述任务状态向量输入预先训练的任务分配模型，分别对所述运动状态向量和所述任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，所述任务分配占比向量用于标识所述用户设备向所述目标边缘服务器卸载的所述临近检测任务中各个子任务的占比，基于所述任务分配占比向量完成所述临近检测任务的计算所对应的时延满足预设的时延约束条件；所述任务分配模型为基于训练样本及预设的时延约束条件训练得到的。

进一步的，所述任务分配模型包括：第一特征提取层、第二特征提取层、特征拼接层和输出层；

所述将所述运动状态向量和所述任务状态向量输入预先训练的任务分配模型，分别对所述运动状态向量和所述任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量，包括：

所述第一特征提取层，对输入的所述运动状态向量进行特征提取，得到运动状态特征；

所述第二特征提取层，对输入的所述任务状态向量进行特征提取，得到任务状态特征；

所述特征拼接层，对所述运动状态特征和所述任务状态特征进行拼接，得到拼接特征；

所述输出层，对所述拼接特征进行特征映射处理后输出任务分配占比向量。

进一步的，所述道路网络临近检测系统还包括中心服务器；

在所述基于提取的特征输出任务分配占比向量之后，还包括：

在所述目标边缘服务器根据所述任务分配占比向量所标识的被卸载于自身的各个子任务的占比，计算所卸载的临近检测任务得到第一执行结果的同时，所述用户设备根据所述任务分配占比向量所标识的该用户设备应计算的各个子任务的占比，执行所述各个子任务，得到第二执行结果；

若所述用户设备在所述目标边缘服务器的覆盖范围内，则接收所述目标边缘服务器发送的所述第一执行结果；

若所述用户设备不在所述目标边缘服务器的覆盖范围内，接收当前与所述用户设备相距最近的边缘服务器发送的所述第一执行结果；其中，所述第一执行结果为所述中心服务器在接收到所述目标边缘服务器发送的所述第一执行结果后转发至当前与所述用户设备相距最近的边缘服务器的。

进一步的，所述基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，确定所述用户设备对应的运动状态向量，包括：

基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，采用如下公式确定所述用户设备对应的运动状态向量：

其中，

为所述用户设备对应的运动状态向量；

为所述用户设备在t时刻的计算速率，

为所述用户设备在t时刻的可用内存值；

为所述用户设备在t时刻的速度x分量，

为所述用户设备在t时刻的速度y分量；

为所述用户设备在t时刻的位置的横坐标，

为所述用户设备在t时刻的位置的纵坐标；

为所述目标边缘服务器在t时刻的计算速率，

为所述目标边缘服务器在t 时刻的可用内存。

进一步的，所述基于所述临近检测任务和预设的任务比例约束函数，确定所述用户设备对应的任务状态向量，包括：

基于所述临近检测任务和预设的任务比例约束函数，采用如下公式确定所述用户设备对应的任务状态向量：

其中，

为所述用户设备对应的任务状态向量；N_Thm为所述目标边缘服务器的最大线程数量；所述用户设备在t时刻生成的临近检测任务为

分别为所述用户设备在t时刻生成的临近检测任务所包括的N_Thm子任务；

为预设的任务比例约束函数，

为使用预先定义函数f(x)＝min{1，max{0，x}}对t时刻的所述用户设备对应的任务分配占比向量进行约束后对应的约束结果，a^t为t时刻的所述用户设备对应的任务分配占比向量，

∈^t为探索因子， ∈^t值满足标准正态分布，

为t时刻的所述用户设备对应的任务分配占比向量的各个分量，

为t时刻的所述用户设备对应的任务分配占比向量的第i个分量。

进一步的，采用如下公式确定，所述基于任务分配占比向量完成所述临近检测任务的计算所对应的时延：

T＝max{t_m1+t_m2，t_local}

其中，T为基于所述任务分配占比向量完成所述临近检测任务的计算所对应的时延；t_m1为所述用户设备卸载临近检测任务至所述目标边缘服务器的卸载时延，t_m2为计算时延，t_local为所述用户设备在本地计算临近检测任务的计算时延。

进一步的，所述预设的时延约束条件包括：

C1：0≤α_i≤1，1≤i≤N_mc-1；

C2：t_m1+t_m2≤t_s；

C3：D_local≤Q_c；

C4：D_mec≤Q_m；

其中，所述预设的时延约束条件包括条件C1-C4；t_m1为所述用户设备卸载临近检测任务至所述目标边缘服务器的卸载时延，t_m2为计算时延；t_s为所述用户设备在所述目标边缘服务器的覆盖区域中的最长时间；D_mec为所述用户设备向所述目标边缘服务器卸载的计算任务量，Q_m为所述目标边缘服务器的可用内存；D_local为所述用户设备应在本地计算的计算任务量，Q_c为所述用户设备的可用内存值；α_i为所述用户设备为第i个子任务分配的权重，N_mc为所述目标边缘服务器覆盖范围内的用户设备的数量。

进一步的，所述任务分配模型的训练方式，包括：

将训练样本中的样本运动状态向量和样本任务状态向量分别输入待训练任务分配模型的第一特征提取层和第二特征提取层；

对第一特征提取层和第二特征提取层输出的预测特征进行拼接，得到预测拼接特征；

对所述预测拼接特征进行特征映射处理，得到预测任务分配占比向量；

若基于所述预测任务分配占比向量完成样本临近检测任务的计算所对应的时延满足预设的时延约束条件，将所述预测任务分配占比向量、所述样本运动状态向量和所述样本任务状态向量输入待训练状态动作价值模型，得到预测状态向量；

基于所述预测状态向量、所述预测任务分配占比向量、所述样本运动状态向量、所述样本任务状态向量和奖励函数，确定待训练状态动作价值模型的损失函数，作为第一损失函数；其中，所述奖励函数为根据所述预测任务分配占比向量、所述样本运动状态向量和所述样本任务状态向量所确定的；

基于所述预测任务分配占比向量、所述样本运动状态向量、所述样本任务状态向量和待训练状态动作价值模型的参数，确定待训练任务分配模型的损失函数，作为第二损失函数；

若所述第一损失函数和所述第二损失函数均收敛，确定待训练任务分配模型为所述任务分配模型；否则，调整待训练任务分配模型的参数和待训练状态动作价值模型的参数，并返回所述将将训练样本中的样本运动状态向量和样本任务状态向量分别输入待训练任务分配模型的第一特征提取层和第二特征提取层的步骤。

为了达到上述目的，本发明实施例还提供了一种道路网络临近检测系统，包括多个移动用户的用户设备和至少一个边缘服务器；

所述用户设备，用于获取所述道路网络临近检测系统中各个移动用户的用户信息以及与所述用户设备相距最近的目标边缘服务器的服务器计算资源信息，其中，所述用户信息包括运动状态信息和计算资源信息；基于所述用户信息和所述服务器计算资源信息，生成临近检测任务，其中，所述临近检测任务包括多个子任务；基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，确定所述用户设备对应的运动状态向量；基于所述临近检测任务和预设的任务比例约束函数，确定所述用户设备对应的任务状态向量；将所述运动状态向量和所述任务状态向量输入预先训练的任务分配模型，分别对所述运动状态向量和所述任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，所述任务分配占比向量用于标识所述用户设备向所述目标边缘服务器卸载的所述临近检测任务中各个子任务的占比，基于所述任务分配占比向量完成所述临近检测任务的计算所对应的时延满足预设的时延约束条件；所述任务分配模型为基于训练样本及预设的时延约束条件训练得到的；

所述边缘服务器，用于接收自身覆盖范围内各个所述用户设备发送的用户信息；并向自身覆盖范围内各个所述用户设备发送所述道路网络临近检测系统中各所有移动用户的用户信息。

进一步的，所述系统还包括中心服务器；

所述用户设备在基于提取的特征输出任务分配占比向量之后，还用于在所述目标边缘服务器根据所述任务分配占比向量所标识的被卸载于自身的各个子任务的占比，计算所卸载的临近检测任务得到第一执行结果的同时，根据所述任务分配占比向量所标识的该用户设备应计算的各个子任务的占比，执行所述各个子任务，得到第二执行结果；若所述用户设备在所述目标边缘服务器的覆盖范围内，则接收所述目标边缘服务器发送的所述第一执行结果；若所述用户设备不在所述目标边缘服务器的覆盖范围内，接收当前与所述用户设备相距最近的边缘服务器发送的所述第一执行结果；

所述边缘服务器，还用于发送所述第一执行结果至中心服务器；

所述中心服务器，接收到所述目标边缘服务器发送的所述第一执行结果后，转发所接收的所述第一执行结果至当前与所述用户设备相距最近的边缘服务器。

为了达到上述目的，本发明实施例还提供了一种道路网络临近检测时延优化装置，应用于道路网络临近检测系统中的移动用户的用户设备，所述道路网络临近检测系统还包括至少一个边缘服务器；所述装置包括：

信息获取模块，用于获取所述道路网络临近检测系统中各个移动用户的用户信息以及与所述用户设备相距最近的目标边缘服务器的服务器计算资源信息，其中，所述用户信息包括运动状态信息和计算资源信息；

任务生成模块，用于基于所述用户信息和所述服务器计算资源信息，生成临近检测任务，其中，所述临近检测任务包括多个子任务；

第一状态确定模块，用于基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，确定所述用户设备对应的运动状态向量；

第二状态确定模块，用于基于所述临近检测任务和预设的任务比例约束函数，确定所述用户设备对应的任务状态向量；

任务分配模块，用于将所述运动状态向量和所述任务状态向量输入预先训练的任务分配模型，分别对所述运动状态向量和所述任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，所述任务分配占比向量用于标识所述用户设备向所述目标边缘服务器卸载的所述临近检测任务中各个子任务的占比，基于所述任务分配占比向量完成所述临近检测任务的计算所对应的时延满足预设的时延约束条件；所述任务分配模型为基于训练样本及预设的时延约束条件训练得到的。

为了达到上述目的，本发明实施例还提供了一种用户设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述道路网络临近检测时延优化方法步骤。

为了达到上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的道路网络临近检测时延优化方法步骤。

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的道路网络临近检测时延优化方法步骤。

本发明实施例有益效果：

采用本发明实施例提供的方法，通过获取道路网络临近检测系统中各个移动用户的用户信息以及与用户设备相距最近的目标边缘服务器的服务器计算资源信息；基于用户信息和所述服务器计算资源信息，生成临近检测任务，其中，临近检测任务包括多个子任务；基于自身的运动状态信息、计算资源信息以及服务器计算资源信息，确定用户设备对应的运动状态向量；基于临近检测任务和预设的任务比例约束函数，确定用户设备对应的任务状态向量；将运动状态向量和任务状态向量输入预先训练的任务分配模型，分别对运动状态向量和任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，任务分配占比向量用于标识用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件。即可以通过任务分配模型确定用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，将各个子任务中一定比例的计算任务卸载到目标边缘服务器，以使得该边缘服务器与目标移动用户共同并行计算临近检测任务，计算耗时更少，并且基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件，对计算临近检测任务的时间做了约束，使得时延更低。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的道路网络临近检测系统一种结构示意图；

图2为本发明实施例提供的道路网络临近检测系统另一种结构示意图；

图3为本发明实施例提供的道路网络临近检测时延优化方法的一种流程图；

图4为任务分配模型的一种结构示意图；

图5为本发明实施例提供的道路网络临近检测时延优化方法的另一种流程图；

图6为MEC架构中的数据传输示意图；

图7为移动用户信息传输与计算任务卸载的示意图；

图8为移动用户与边缘服务器之间的位置关系的示意图；

图9为动态道路网络中处于特殊位置的移动用户的示意图；

图10为移动用户的子任务划分示意图；

图11为本发明实施例提供的任务分配模型的一种训练流程图；

图12为策略函数神经网络的结构示意图；

图13为状态动作值函数的结果示意图；

图14a为T个时刻的总奖励值随采样轮数的变化示意图；

图14b为T个时刻的平均时延随采样轮数的变化示意图；

图15a为不同学习率对奖励函数优化过程的影响示意图；

图15b为不同学习率对平均时延优化过程的影响示意图；

图16a为不同单个数据批次大小对应的奖励函数的收敛结果示意图；

图16b为不同单个数据批次大小对应的平均时延的收敛结果示意图；

图17为本发明实施例提供的道路网络临近检测时延优化装置的一种结构示意图；

图18为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的道路网络临近检测系统一种结构示意图，如图 1所示，该系统100包括多个移动用户的用户设备110和至少一个边缘服务器 120；

用户设备110，用于获取道路网络临近检测系统中各个移动用户的用户信息以及与用户设备相距最近的目标边缘服务器的服务器计算资源信息，其中，用户信息包括运动状态信息和计算资源信息；基于用户信息和服务器计算资源信息，生成临近检测任务，其中，临近检测任务包括多个子任务；基于所述用户设备自身的运动状态信息、计算资源信息以及服务器计算资源信息，确定用户设备对应的运动状态向量；基于临近检测任务和预设的任务比例约束函数，确定用户设备对应的任务状态向量；将运动状态向量和任务状态向量输入预先训练的任务分配模型，分别对运动状态向量和任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，任务分配占比向量用于标识用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件；任务分配模型为基于训练样本及预设的时延约束条件训练得到的；

边缘服务器120，用于接收自身覆盖范围内各个用户设备发送的用户信息；并向自身覆盖范围内各个所述用户设备发送道路网络临近检测系统中各所有移动用户的用户信息。

图2为本发明实施例提供的道路网络临近检测系统另一种结构示意图，如图2所示，该系统还包括中心服务器210；

用户设备110在基于提取的特征输出任务分配占比向量之后，还用于在目标边缘服务器根据任务分配占比向量所标识的被卸载于自身的各个子任务的占比，计算所卸载的临近检测任务得到第一执行结果的同时，根据任务分配占比向量所标识的该用户设备应计算的各个子任务的占比，执行各个子任务，得到第二执行结果；若用户设备在目标边缘服务器的覆盖范围内，则接收目标边缘服务器发送的所述第一执行结果；若用户设备不在目标边缘服务器的覆盖范围内，接收当前与用户设备相距最近的边缘服务器发送的第一执行结果；

边缘服务器120，还用于发送第一执行结果至中心服务器；

中心服务器210，接收到目标边缘服务器发送的第一执行结果后，转发所接收的第一执行结果至当前与用户设备相距最近的边缘服务器。

采用本发明实施例提供的系统，可以通过任务分配模型确定用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，将各个子任务中一定比例的计算任务分配给目标边缘服务器，以使得该边缘服务器与目标移动用户共同并行计算临近检测任务，计算耗时更少，并且基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件，对计算临近检测任务的时间做了约束，使得时延更低。

图3为本发明实施例提供的道路网络临近检测时延优化方法的一种流程，应用于道路网络临近检测系统中的移动用户的用户设备，道路网络临近检测系统还包括至少一个边缘服务器，如图3所示，该方法包括如下步骤：

步骤301，获取道路网络临近检测系统中各个移动用户的用户信息以及与用户设备相距最近的目标边缘服务器的服务器计算资源信息，其中，用户信息包括运动状态信息和计算资源信息。

本发明实施例中，在一种可能的实施方式中：用户设备可以将自身的用户信息发送给与其相距最近的目标边缘服务器；各个边缘服务器可以接收其覆盖范围内的移动用户的用户信息，然后将道路网络临近检测系统中各个移动用户的用户信息以及自身的服务器计算资源信息发送给用户设备。用户设备可以通过与其相距最近的目标边缘服务器获取道路网络临近检测系统中各个移动用户的用户信息以及该目标边缘服务器的服务器计算资源信息。

在另一种可能的实施方式中：道路网络临近检测系统还包括中心服务器，用户设备可以将自身的用户信息发送给与其相距最近的目标边缘服务器；各个边缘服务器可以接收其覆盖范围内的所有移动用户的用户信息，然后其覆盖范围内的所有移动用户的用户信息发送至中心服务器；中心服务器接收到所有边缘服务器覆盖范围内的所有移动用户的用户信息(即道路网络临近检测系统中各个移动用户的用户信息)后，将道路网络临近检测系统中各个移动用户的用户信息发送至各个边缘检测服务器；每个边缘检测服务器将道路网络临近检测系统中各个移动用户的用户信息以及自身的服务器计算资源信息发送给其覆盖范围内的所有用户设备。用户设备可以通过与其相距最近的目标边缘服务器获取道路网络临近检测系统中各个移动用户的用户信息以及该目标边缘服务器的服务器计算资源信息

步骤302，基于用户信息和所述服务器计算资源信息，生成临近检测任务，其中，临近检测任务包括多个子任务。

步骤303，基于用户设备自身的运动状态信息、计算资源信息以及服务器计算资源信息，确定用户设备对应的运动状态向量。

具体的，本发明实施例中可以基于自身的运动状态信息、计算资源信息以及服务器计算资源信息，采用如下公式确定用户设备对应的运动状态向量：

其中，

为用户设备对应的运动状态向量；

为用户设备在t时刻的计算速率，

为用户设备在t时刻的可用内存值；

为用户设备在t时刻的速度x分量，

为用户设备在t时刻的速度y分量；

为用户设备在t时刻的位置的横坐标，

为用户设备在t时刻的位置的纵坐标；

为目标边缘服务器在t时刻的计算速率，

为目标边缘服务器在t时刻的可用内存。

步骤304，基于临近检测任务和预设的任务比例约束函数，确定用户设备对应的任务状态向量。

具体的，本发明实施例中可以基于临近检测任务和预设的任务比例约束函数，采用如下公式确定用户设备对应的任务状态向量：

其中，

为用户设备对应的任务状态向量；N_Thm为目标边缘服务器的最大线程数量；用户设备在t时刻生成的临近检测任务为

分别为用户设备在t时刻生成的临近检测任务所包括的N_Thm子任务；

为预设的任务比例约束函数，

为使用预先定义函数 f(x)＝min{1，max{0，x}}对t时刻的用户设备对应的任务分配占比向量进行约束后对应的约束结果，a^t为t时刻的用户设备对应的任务分配占比向量，

∈^t为探索因子，∈^t值满足标准正态分布，

为t时刻的用户设备对应的任务分配占比向量的各个分量，即，t时刻用户设备对应的各个子任务的分配占比；

为t时刻的所述用户设备对应的任务分配占比向量的第i个分量，即t时刻用户设备对应的第i个子任务的分配占比。

步骤305，将运动状态向量和任务状态向量输入预先训练的任务分配模型，分别对运动状态向量和任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，任务分配占比向量用于标识用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件。

其中，任务分配模型为基于训练样本及预设的时延约束条件训练得到的。

本发明实施例中，任务分配模型可以是进行间隔性线下训练得到的，例如，针对时间段[t_A，t_B]内的用户设备确定道路网络临近检测任务时，可以使用t_A时刻之前训练得到的任务分配模型。与此同时，也可以将时间段[t_A，t_B] 内每个时刻所采集到的用户设备运动状态信息、计算资源信息以及服务器计算资源信息传回经验回放池中，用于任务分配模型的增量训练。任务分配模型的增量训练是指：任务分配模型可以在之前训练得到的参数基础上，继续用经验回放池中新的用户设备运动状态信息、计算资源信息以及服务器计算资源信息等数据进行训练。即本发明实施例中任务分配模型在下线的训练是阶段性更新的。

本发明实施例中，任务分配模型可以包括：第一特征提取层、第二特征提取层、特征拼接层和输出层；将运动状态向量和任务状态向量输入预先训练的任务分配模型，分别对运动状态向量和任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量，具体可以包括步骤A1-A4：

步骤A1：第一特征提取层，对输入的运动状态向量进行特征提取，得到运动状态特征。

步骤A2：第二特征提取层，对输入的任务状态向量进行特征提取，得到任务状态特征。

步骤A3：特征拼接层，对运动状态特征和任务状态特征进行拼接，得到拼接特征。

具体的，可以将1×N1维的运动状态特征和1×N2维的任务状态特征进行拼接，得到1×(N1+N2)维的拼接特征。其中，N1可以为28，N2可以为100。

步骤A4：输出层，对拼接特征进行降维处理后输出任务分配占比向量。

举例说明，可以将t时刻的状态s^t分成运动状态向量

和任务状态向量

并将运动状态向量

和任务状态向量

分别输入第一特征提取层和第二特征提取层。图4为任务分配模型的一种结构示意图，如图4所示，运动状态向量

经过第一特征提取层中的两个全连接层FC1和FC2以及Relu函数的非线性映射后，提取到运动状态特征，其中，两个全连接层FC1和FC2的输出特征维度均为1×28。任务状态向量

经过第二特征提取层中全连接层 FC3提取特征，FC3层输出维度为1×100，然后将FC3层输出的维度为1×100 特征输入resize层，将特征的维度转换为1×10×10，通过卷积层CONV1和CONV2进行特征间的稀疏交互。CONV1和CONV2的卷积核大小分别可以为 7×7和5×5，且均用relu函数进行非线性映射，通过卷积层CONV1和CONV2 后数据维度仍然为1×10×10，然后将通过relu函数非线性映射后的维度为1 ×10×10的特征输入Fatten层，将特征转换为维度为1×100的任务状态特征；通过特征拼接层将1×28的运动状态特征和1×100维的任务状态特征进行拼接，得到1×128维的拼接特征；然后通过全连接层FC4对1×128维的拼接特征进行降维得到1×64维的任务分配占比向量，并通过输出层输出1×64维的任务分配占比向量。

本发明实施例中，可以采用如下公式确定，所述基于任务分配占比向量完成所述临近检测任务的计算所对应的时延：

T＝max{t_m1+t_m2，t_local}

其中，所述基于任务分配占比向量完成所述临近检测任务的计算所对应的时延满足预设的时延约束条件。具体的，本发明实施例中预设的时延约束条件可以包括条件C1-C4：

C1：0≤α_i≤1，1≤i≤N_mc-1；

C2：t_m1+t_m2≤t_s；

C3：D_local≤Q_c；

C4：D_mec≤Q_m；

其中，t_m1为用户设备卸载临近检测任务至目标边缘服务器的卸载时延， t_m2为计算时延，t_s为用户设备在目标边缘服务器的覆盖区域中的最长时间； D_mec用户设备向目标边缘服务器卸载的计算任务量，Q_m为目标边缘服务器的可用内存；D_local为用户设备应在本地计算的计算任务量，Q_c为用户设备的可用内存值；α_i为用户设备为第i个子任务分配的权重，N_mc为目标边缘服务器覆盖范围内的用户设备的数量。

图5为本发明实施例提供的道路网络临近检测时延优化方法的另一种流程，应用于道路网络临近检测系统中的移动用户的用户设备，道路网络临近检测系统还包括中心服务器和至少一个边缘服务器，如图5所示，该方法包括如下步骤：

步骤501-步骤505分别与步骤301-步骤305对应相同，此处不再赘述。

步骤506，在目标边缘服务器根据任务分配占比向量所标识的被卸载于自身的各个子任务的占比，计算所卸载的临近检测任务得到第一执行结果的同时，用户设备根据任务分配占比向量所标识的该用户设备应计算的各个子任务的占比，执行各个子任务，得到第二执行结果。

步骤507，若用户设备在目标边缘服务器的覆盖范围内，则接收目标边缘服务器发送的第一执行结果。

步骤508，若用户设备不在目标边缘服务器的覆盖范围内，接收当前与用户设备相距最近的边缘服务器发送的第一执行结果；其中，第一执行结果为中心服务器在接收到目标边缘服务器发送的第一执行结果后转发至当前与用户设备相距最近的边缘服务器的。

采用本发明实施例提供的方法，可以通过任务分配模型确定用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，将各个子任务中一定比例的计算任务分配给目标边缘服务器，以使得该边缘服务器与目标移动用户共同并行计算临近检测任务，计算耗时更少，并且基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件，对计算临近检测任务的时间做了约束，使得时延更低。

在道路网络中，移动用户需要在时刻获得其与其他移动用户之间的临近关系。图6为MEC(Mobile Edge Computing，移动边缘计算)架构中的数据传输示意图，如图6所示，在MEC增强型临近检测体系结构中，每个移动用户 610都与距离其最近的边缘服务器620进行通信，报告其用户信息，并且边缘服务器620也可以与该移动用户610共享其他移动用户的用户信息。在此过程中，移动用户可以从边缘服务器620接收其他移动用户的用户信息并生成临近检测任务。

本发明实施例中，道路网络临近检测系统的大多数移动用户可以直接通过边缘服务器获取与其临近的其他移动用户的用户信息。但对于位于边缘服务器边界服务范围中的少数移动用户而言，与他们临近的部分移动用户可能不在该边缘服务器的服务区域中，而是位于其他边缘服务器的服务区域中，在这种情况下，中心服务器需要参与计算。图7是移动用户信息传输与计算任务卸载的示意图，如图7所示，所有边缘服务器具有相同的服务半径r。如果边缘服务器到其边界服务范围的内边界之间的距离为r_TH，则以边缘服务器为圆心，边界服务范围可表示成半径范围[r_TH，r]的环形区域。如图7中的虚线所示，边缘服务器非边界服务范围内的移动用户将信息发送到与之通信的边缘服务器。例如，对于图7中的移动用户702或移动用户703，它们的临近检测任务仅要求边缘服务器704或边缘服务器705参与计算。如图7所示，对于非边界服务范围(如区域720)中的移动用户而言，例如移动用户702或移动用户703，边缘服务器将道路网络临近检测系统中所有移动用户的用户信息发送给每个移动用户，然后，移动用户生成临近检测任务，将部分临近检测任务卸载到边缘服务器执行，其余部分留在本地执行，边缘服务器完成任务计算后，会将结果发送回移动用户。而对于边缘服务器的边界服务范围 (如区域710)中的移动用户而言，例如图7中的移动用户701，其临近检测任务要求边缘服务器704和中心服务器706同时参与计算。如图7中所示，边缘服务器将服务区域内的所有移动用户的用户信息发送到中央服务器。若移动用户701的速度为v，临近时间阈值为T_ε，(当两个移动用户的时间距离不大于T_ε时，即认为两个用户具有临近关系)，移动用户的最大速度为V_max，则中央服务器在以移动用户701为中心，以(|v|+|V_max|)·T_ε为半径的圆域内进行筛选，选择可能与该移动用户701临近的移动用户，并将可能与该移动用户701临近的移动用户的用户信息通过边缘服务器发送回该移动用户701。移动用户701在本地生成临近检测任务，并将一些临近检测任务卸载到边缘服务器。最后，边缘服务器将执行结果发送回移动用户。

本发明实施例中，移动用户可以选择服务区域中距离它最近且通信用户数最少的边缘服务器，作为目标边缘服务器，记为Mo。具体的，可以根据与移动用户Mo之间的欧几里得距离来判断它是否在Mo服务区域的边界范围 [r_TH，r]中。本发明实施例中，可以假设移动用户的位置信息和速度信息在移动用户的用户设备和边缘服务器之间、边缘服务器与中央服务器之间的传输时延比卸载时延要短得多，因此可以忽略不计。移动用户的用户设备可以生成临近检测任务，可以将临近检测任务中的子任务定义为移动用户与目标边缘服务器Mo的服务区域内的任何其他移动用户之间的时间距离计算任务。假设目标边缘服务器Mo的服务区域中的移动用户的数量为N_mc，则移动用户的计算临近检测任务可以分为N_mc-1个子任务，临近检测任务可以表示为D_e，D_e由子任务组成，即

1≤i≤N_mc-1。移动用户的用户设备可以为每个临近检测任务的各个子任务分配权重α_i，表示子任务D_ie卸载到边缘服务器计算的比例，0≤α_i≤1，1≤i≤N_mc-1。 (1-α_i)表示子任务D_ie在移动用户的用户设备本地计算的比例。移动用户的用户设备在本地计算的临近检测任务的量：

移动用户的用户设备向目标边缘服务器Mo卸载的临近检测任务的量为：

道路网络中的所有移动用户的用户设备都通过无线网络与边缘服务器进行通信。无线信道传输功率是移动用户的用户设备与边缘服务器的欧几里得距离d的函数。距离d是随时间t变化的函数。设t_s为移动用户的用户设备在边缘服务器的服务区域内的最长时间。移动用户的用户设备与边缘服务器之间的无线信道中的数据上行链路传输速率为R_u，下行链路传输速率为R_d，且R_d＝R_u。

图8为移动用户与边缘服务器之间的位置关系的示意图，如图8所示，移动用户的位置坐标P₀(x₀，y₀)及其速度v_o(v_0x，v_0y)可以确定移动用户运动的直线轨迹。其直线方程为：

利用目标边缘服务器Mo的位置坐标 P_M(x_mec，y_mec)及其服务区域的半径r，可以建立服务区域边界曲线(x- x_mec)²+(y-y_mec)²＝r²。根据这两个曲线方程可以获得目标边缘服务器 Mo的服务区域边界曲线和移动用户的运动直线的两个交点A(x_A，y_A)，B(x_B，y_B)，直线

的中点坐标为M(x_m，y_m)，

然后可以根据目标边缘服务器Mo的位置坐标和点M的坐标确定从目标边缘服务器Mo到直线

的欧几里得距离：

如图8所示，令向量

为：

并记向量

为：

然后，移动用户与目标边缘服务器Mo之间的距离d(t)可表示为：

移动用户在边缘服务器服务区域中的最长时间为t_s：

设无线信道带宽为B，噪声功率谱密度为N₀，传输功率为P，信道增益为h， δ为路径损耗指数，根据香农公式，在移动用户与边缘服务器之间的无线信道中，上行数据传输速率R_u为：

从移动用户到目标边缘服务器Mo的卸载时延可以表示为：

根据移动用户的用户设备的本地计算速率R_c和目标边缘服务器Mo的计算速率 R_m，分别获得移动用户的用户设备的本地临近检测任务计算时延t_local和目标边缘服务器Mo上的计算时延t_m2：

这样，移动用户的用户设备在本地执行部分临近检测任务，同时将剩余的临近检测任务卸载到目标边缘服务器Mo执行。计算任务完成后，目标边缘服务器Mo将执行结果发送给该移动用户的用户设备。最后，完成移动用户的用户设备的所有临近检测任务的总时延T为：T＝max{t_m1+t_m2，t_local}。其中，本发明实施例的目的之一是使总时延T最小，则总时延T需要同时满足预设的时延约束条件C1-C4：

(i)因为i的取值有N_mc-1个，因此移动用户的用户设备为子任务分配的权重α_i满足N_mc-1个双边约束，等价于2N_mc-2个单边约束，即 C1为：0≤α_i≤1，1≤i≤N_mc-1；

(ii)当移动用户在目标边缘服务器Mo的服务区域中时，目标边缘服务器的卸载时延和计算时延之和不大于移动用户处于目标边缘服务器Mo中的时间，即C2为：t_m1+t_m2≤t_s；

(iii)移动用户的用户设备在本地执行的临近检测任务的量必须在该用户设备本地计算任务容量阈值Q_c之内，即C3为：D_local≤Q_c；

(iv)目标边缘服务器Mo执行的临近检测任务的量必须在目标边缘服务器可存储容量阈值Q_m之内，即C4为：D_mec≤Q_m。

因此，本发明实施例可以将具有上述预设时延约束条件的临近检测总时延最小化问题建模成一个非线性规划问题：

s.t.C1-C4

以下介绍本发明实施例中以Δt的时间间隔改变状态环境的内容。

可以设t时刻道路网络中移动用户的速度矩阵和位置矩阵分别为

由所有移动用户的计算速率、可用内存值组成的矩阵分别为

所有边缘服务器的计算速率和可用内存大小组成的矩阵分别为

可以设t_n+1时刻移动用户的加速度

服从正态分布

则此时移动用户速度矩阵和位置矩阵分别为：

可以继续设移动用户的移动速度最大值为V_max，道路网络平面区域的四个边界值分别为x_l，x_r，y_l，y_r，且x_l≤x_r，y_l≤y_r，则用户移动速度、位置需要分别满足：

0≤i≤N。其中，

为第i个移动用户在t时刻的速度矩阵的范数，

为第i个移动用户在t时刻的横坐标，

为第i个移动用户在t时刻的纵坐标。

为了满足上述位置约束，移动用户需要在每个时刻t判断自己与边界的物理距离。如果某个移动用户与边界的物理距离小于阈值τ，它需要以较大的加速度a_max减速，如图9中的A用户，图9为动态道路网络中处于特殊位置的移动用户的示意图。

可以设t_n+1时刻

设移动用户的计算速率、可用内存的最大值分别为R_cm，Q_cm，边缘服务器计算速率、可用内存的最大值分别为 R_mm，Q_mm，则移动用户的计算速率、移动用户的可用内存、边缘服务器的计算速率、边缘服务器的可用内存需要分别满足：

0≤i≤N。t_n+1时刻的移动用户的计算速率向量服从以t_n时刻的用户计算速率为均值、∑_Rc为方差的正态分布。t_n+1时刻的移动用户的用户设备的可用内存值向量服从以t_n时刻用户可用内存值为均值、∑_c为方差的正态分布。t_n+1时刻的边缘服务器的计算速率向量服从以t_n时刻边缘服务器计算速率为均值、∑_Rm为方差的正态分布。t_n+1时刻的边缘服务器的可用内存值向量服从以t_n时刻边缘服务器可用内存值为均值、 ∑_m为方差的正态分布。如果移动用户在某边缘服务器为该移动用户所卸载的临近检测任务进行计算的过程中移出了该边缘服务器的服务范围，则该边缘服务器先将执行结果上传至中心服务器，而后中心服务器获知移动用户的当前位置，并将执行结果通过此时为该移动用户所服务的边缘服务器两跳传回该移动用户。如图9中所示，如果移动用户B在t时刻处于边缘服务器901的服务范围内，其卸载任务在边缘服务器901端执行，但在t+1时刻移动用户B移动到边缘服务器902的服务范围内，则边缘服务器901中的执行结果可以先上传至中心服务器903，由中心服务器903将执行结果通过边缘服务器902两跳传回移动用户B。

本发明实施例中提出的道路网络临近检测时延优化方法，通过应用 DDPG(DeepDeterministic Policy Gradient，确定性策略梯度)算法优化动态道路网络中移动用户的执行完临近检测任务的时延，得到各时刻移动用户的临近检测任务的最优卸载比例。

深度强化学习可以通过5元组{S,A,r,π,Q}进行建模，其中，S是智能体的状态空间，其中s∈S是智能体某一时刻的状态值向量。A是动作空间，a∈A 是智能体某一时刻的动作向量。r是奖励函数，表示处在某一状态的智能体执行某一动作后获得的潜在奖励。π(a|s)是策略函数，Q(s,a)是状态动作值函数。本发明实施例中，可以将Q(s,a,w)作为critic网络，π(a|s,θ)作为actor网络。 w和θ分别作为critic网络和actor网络中的参数，将actor和critic分别使用结构相同的双网络(一个作为目标网络，另一个用于训练参数)，通过“软更新” 的方式对目标网络中的参数进行更新。以下说明本发明实施例中S,A,r,π,Q的建立过程：

以移动用户为例，在道路网络中，状态向量包括移动用户和当前与该移动用户通信的边缘服务器各时刻的状态参数。移动用户的计算速率R_c和可用内存值Q_c，结合移动用户的速度v₀和位置P₀，当前与其通信的边缘服务器的计算速率R_m,可用内存Q_m,则t时刻运动状态向量

可以表示为：

DDPG算法的优化目标是得到子任务最优卸载比例，因此可以将移动用户各时刻生成的子任务值加入当前状态向量中。移动用户的子任务数量N_mc-1取决于其所在的边缘服务器服务范围内的移动用户的数量或中心服务器筛选出的移动用户数量。移动用户本地CPU产生的线程数最大值N_THl，N_THl≤N_Thm。图10为移动用户的子任务划分示意图，如图10所示，t时刻移动用户共有N_mc-1个计算子任务：

可以将移动用户t时刻的每个计算子任务均分成N_Thm份，例如子任务D₁可以分为

子任务D₂可以分为

同样的，子任务

可以分为

然后，如图 10所示，本文可以将t时刻移动用户所有计算子任务均分成N_Thm份

以便在边缘服务器中充分利用所有线程计算，可以利用 CPU调度算法完成N_Thm个计算任务的调度任务。将产生N_Thm个计算子任务作为新的计算子任务。由此，记t时刻子任务向量为

可以定义t时刻任务分配占比向量为a^t，a^t是由移动用户在t时刻对N_Thm个子任务的卸载比例组成。此外，在a^t中加入探索因子∈^t以便进行异步探索策略。∈^t值满足标准正态分布，完整的a^t可表示为：

则任务分配占比向量空间为A：

定义函数f(x)＝min{1，max{0，x}}， f对α^t中各元素进行约束，即

最终t时刻状态向量

为：

本发明实施例中，是利用t-1时刻的任务分配占比向量

与t时刻的任务向量

共同确定出t时刻状态向量

而不是利用t时刻的任务分配占比向量与t时刻的任务量共同确定出t时刻状态向量

其原因是：

由于t-1时刻的任务分配占比向量与t-1时刻的任务向量的内积结果直接对强化学习环境中的各个边缘服务器和道路网络中移动用户的存储量产生影响，因此t时刻的动作向量跟t-1时刻的动作呈现相关性，且t时刻的任务向量与t时刻的动作向量亦呈现相关性，为了防止动作网络发生过拟合，此处将 t时刻的任务向量

和t-1时刻的任务分配占比向量

按照对应位点乘的形式构造特征交叉，得到t时刻状态向量

作为特征交叉结果，并可以将特征交叉结果

输入t时刻的动作网络。

综合

和

可以得到移动用户的状态向量为：

移动用户在t时刻获得的奖励函数r^t(s^t，a^t)直接反映了移动用户当前确定的任务分配占比向量的优劣性，如果移动用户确定的任务分配占比向量a^t使得总时延越大，则移动用户此时获得的奖励越小。因此，奖励函数与时延呈负相关。移动用户产生的任务分配占比向量a^t满足预设的时延约束条件C1-C4。因为f(x)函数已经限制了任务分配占比向量a^t中元素的取值范围在[0，1]，所以在奖励函数中只需要引入预设的时延约束条件C2-C4，奖励函数r^t如下式所示：

其中，奖励函数r^t与总时延T呈线性负相关，如果当前时刻的任务分配占比向量a^t满足预设的时延约束条件C2-C4，则对移动用户当前获得的奖励没有影响，如果有预设的时延约束条件C2-C4中任意的约束条件不满足，则移动用户当前获得的奖励将减少；奖励函数r^t中将relu损失函数 relu(x)＝max{0,x}分别作用在预设的时延约束条件C2-C4上，β₁,β₂,β₃作为奖励函数中的权重系数，用于体现奖励函数中对违反预设的时延约束条件的重视程度；时延T的数量级为10^-1，而其他项的数量级为10^-1～10⁵,为了避免因预设的时延约束条件C2-C4产生的值远大于时延值，使总时延对奖励函数影响过小，本发明实施例可以应用压缩映像函数g(·)，将奖励函数中的约束项部分的数值限制在[0,1]区间内。可以分别应用单位阶跃函数、sigmoid函数和 tanh函数对约束项部分进行压缩映像；其中，阶跃函数的解析式为：

从解析式中可知，自变量通过阶跃函数后取值可以压缩到 [0,1]区间内，但是由于约束项的值是连续的，阶跃函数的值域是离散的，且只有0，1两个值，压缩映像后无法区分约束项的不同值，因此，无论约束项取值差异多大，即使约束项取值相差多个数量级，经过阶跃函数后，其取值之间的差异仅为0或1；sigmoid函数解析式为：

自变量经过sigmoid函数被压缩到连续区间C[0,1]中，因此经过压缩映像后约束项不同值的差别依然存在，但是sigmoid函数存在梯度消失的情况，这种情况常出现在靠近输出端的神经网络层的参数更新过程中；tanh函数解析式为：

在[-1,1]区间内，tanh函数由泰勒展开可以近似等于关于自变量的正比例函数，相较于sigmoid函数来说，在此区间内可以解决梯度消失问题。但是在此区间之外的实数轴上，随着自变量远离原点，函数值会迅速在-1或1的值附近趋于饱和，导致神经网络参数训练速度减慢。

在一种可能的实施方式中，图11为本发明实施例提供的任务分配模型的一种训练流程图，如图11所示，任务分配模型的训练方式，包括：

步骤1101，将训练样本中的样本运动状态向量和样本任务状态向量分别输入待训练任务分配模型的第一特征提取层和第二特征提取层。

步骤1102，对第一特征提取层和第二特征提取层输出的预测特征进行拼接，得到预测拼接特征。

步骤1103，对预测拼接特征进行特征映射处理，得到预测任务分配占比向量。

本步骤中，特征映射处理具体可以为空间映射处理，映射处理的过程实际上是对预测拼接特征的矩阵进行矩阵运算得到预测任务分配占比向量的过程。而矩阵运算实际上就是将原向量映射到一个矩阵行空间中。其中，矩阵行空间是指矩阵中每一行代表高维空间中的一个向量。因此，矩阵所有行中线性无关的向量就是矩阵行空间的一组基底，线性无关的向量个数就是行空间的秩，空间的一组基底可以通过线性组合表示空间中的任何一个向量，同维度其它空间中的向量可以通过与这组基底做内积，进而得到被这组基底线性组合表达的结果。

而待训练任务分配模型的输出层可以包括多个隐藏子层，将预测拼接特征的矩阵作为第一个隐藏子层的输入矩阵，将预测拼接特征的矩阵右乘第一个隐藏子层的参数矩阵，得到的乘积矩阵作为第二个隐藏子层的输入矩阵；针对第二个隐藏子层，可以将该输入矩阵右乘第一个隐藏子层的参数矩阵，得到的乘积矩阵作为下一个隐藏子层的输入矩阵；依次的，直至得到最后一个隐藏子层的输出矩阵，最后一个隐藏子层的输出矩阵即为所得到的预测任务分配占比向量。即通过对预测拼接特征的矩阵与隐藏子层的参数矩阵进行矩阵运算，将预测拼接特征映射为预测任务分配占比向量。

举例说明，例如待训练任务分配模型的输出层可以包括隐藏子层1、隐藏子层2和隐藏子层3，其中，隐藏子层1的输出矩阵作为隐藏子层2的输入矩阵，隐藏子层2的输出矩阵作为隐藏子层3的输入矩阵。以待训练任务分配模型的输出层包括隐藏子层1、隐藏子层2和隐藏子层3为例，对预测拼接特征进行空间映射处理具体可以为：

预测拼接特征的矩阵作为隐藏子层1的输入矩阵；将预测拼接特征的矩阵右乘隐藏子层1的参数矩阵所得到的乘积矩阵1，确定为隐藏子层2的输入矩阵；针对隐藏子层2，将乘积矩阵1右乘隐藏子层2的参数矩阵所得到的乘积矩阵2，确定为隐藏子层3的输入矩阵；针对隐藏子层3，将乘积矩阵2右乘隐藏子层3 的参数矩阵所得到的乘积矩阵3，确定为隐藏子层3的输出矩阵。隐藏子层3的输出矩阵即为预测拼接特征所映射得到预测任务分配占比向量。

步骤1104，若基于预测任务分配占比向量完成样本临近检测任务的计算所对应的时延满足预设的时延约束条件，将预测任务分配占比向量、样本运动状态向量和样本任务状态向量输入待训练状态动作价值模型，得到预测状态向量。

步骤1105，基于预测状态向量、预测任务分配占比向量、样本运动状态向量、样本任务状态向量和奖励函数，确定待训练状态动作价值模型的损失函数，作为第一损失函数；其中，奖励函数为根据预测任务分配占比向量、样本运动状态向量和样本任务状态向量所确定的。

步骤1106，基于预测任务分配占比向量、样本运动状态向量、样本任务状态向量和待训练状态动作价值模型的参数，确定待训练任务分配模型的损失函数，作为第二损失函数。

步骤1107，若第一损失函数和第二损失函数均收敛，确定待训练任务分配模型为任务分配模型。

步骤1108，若第一损失函数和第二损失函数未均收敛，调整待训练任务分配模型的参数和待训练状态动作价值模型的参数，并返回步骤1101。

本发明实施例中，训练任务分配模型的过程，具体可以为以下内容所描述的过程：

在t时刻，状态向量s^t输入策略函数不(a^t|s^t，θ)中，得到当前时刻的任务分配占比向量a^t。在s^t中，运动状态向量

中的元素是描述移动用户和边缘服务器基本性质的物理量，任务状态向量

是移动用户的用户设备的本地临近检测任务的量和边缘服务器端临近检测任务的量组成的。因此

和

是两个不同性质的向量，本发明实施例中将

和

分别输入策略函数的神经网络中。图12为策略函数神经网络的结构示意图，图12所示，将t时刻

分别输入不同的神经网络层，最终输出任务分配占比向量，其过程与上述图4所述的得到任务分配占比向量的过程一致，此处不再赘述。在得到任务分配占比向量后，可以将任务分配占比向量和

和

分别再输入状态动作值函数Q(s，a，w)，图 13为状态动作值函数的结果示意图，如图13所示，其中s^t输入的网络结构采取与策略函数相同的方法，分为

两个输入，并通过两个不同的神经网络进行得到输出：

经过全连接层FC3和FC4以及Relu函数的非线性映射后，提取到运动状态特征，

经过全连接层FC5提取特征，通过resize层对FC5层输出的特征的维度进行转换，然后通过卷积层CONV1和CONV2进行特征间的稀疏交互，且均用relu函数进行非线性映射，然后通过Fatten层对经relu函数非线性映射后的特征进行维度转换，得到任务状态特征。a^t通过两个全连接层FC1和 FC2进一步提取特征，任务分配占比向量经过FC1和FC2输出的特征向量维度分别为64和128，且用Relu函数作为全连接层结果的激活函数。将

和a^t网络输出端得到的特征向量拼接成长度为256的特征向量，如图13中的特征拼接层操作。最后通过全连接层FC6获得一维状态值s^t+1，并通过输出层输出得到的一维状态值s^t+1。本发明实施例中，DDPG算法在每条采样链的各时刻，可以将采样得到(s^t，a^t，r^t，s^t+1)元组放入经验回放池中，设经验回放池Buffer尺寸为M，在训练任务分配模型时从经验回放池Buffer中采样的数据批次数为m，且m＜M，记单条采样链长度为T，且

衰减系数为γ，则当前时刻critic网络目标y_i值为：

1≤i≤m；其中actor网络和critic网络分别为目标actor网络和目标critic网络。critic网络的损失函数为第一损失函数J(w)：

actor网络的损失函数为第二损失函数J(θ)：

1≤i≤m；可以通过梯度反向传播分别更新参数w和θ。目标actor网络的参数w’和目标critic网络的参数θ’分别通过参数w，θ和状态保持比例参数τ进行软更新：w’←τw+ (1-τ)w’，θ’←τθ+(1-τ)θ’。

以下给出本发明的具体实验示例：

本发明实施例中设定道路网络区域面积为1×10⁵m²，移动用户速度值范围是0～120km/h，R_c＝1×10³Hz，R_m＝1×10⁵Hz，D_ie～N(1×10³，1)bit，Q_c＝ 128G，Q_m＝1000T，B＝6.3×10⁶MHz，N₀＝1×10^-10W/Hz，P＝1× 10^-6W，δ＝0.9，h＝0.95，T_ε＝300s。动态道路网络状态矩阵初始值

均采用设定的数值进行初始化，并且在此基础上，本发明实施例增设了时间间隔Δt＝1s，

∑_a＝21·I₂₀₀，V_max＝ 120km/h，∑_Rc＝100·I₂₀₀，∑_c＝15·I₂₀₀，a_max＝2m/s²，∑_Rm＝6000·I₄，∑_m＝ 10000·I₄，R_cm＝1×10³Hz，Q_cm＝128G，R_mm＝1×10⁵Hz，Q_mm＝1000T，在 DDPG算法中我们设置T＝100s，episode＝100，M＝1000，m＝500，lr＝ 10^-2，β₁＝β₂＝β₃＝0.99。首先分别将用阶跃函数，sigmoid和tanh作为压缩映像函数应用到奖励函数公式中。图14a为T个时刻的总奖励值随采样轮数的变化示意图。图14b为T个时刻的平均时延随采样轮数的变化示意图。从图14a 和图14b中可以看出三个奖励函数和时延值分别随采样轮数不断增大和不断减小，最终达到收敛的状态。从图14a和图14b中可以发现阶跃函数相较sigmoid 和tanh函数在前期产生了较大幅度的震荡，而tanh前期的震荡幅度最小， sigmoid函数在震荡后先出现收敛的趋势。随着采样轮数不断增加，他们的奖励函数和时延后期均出现了小幅度的震荡，且阶跃函数的震荡幅度越来越小。应用三种函数得到的时延最终都收敛到1s之内，及在道路网络动态环境状态更新时间间隔之内。在仿真过程中发现sigmoid函数和tanh函数均由于梯度消失，使得神经网络的训练提前出现局部震荡的现象。因此，本发明实施例中较佳的压缩影响函数为阶跃函数。

学习率lr决定了actor网络和critic网络的训练速度，较小的lr导致网络收敛速度较慢，神经网络参数每轮迭代更新步长小，容易陷入局部最优解；而较大的lr使网络收敛速度快，神经网络参数单次更新幅度大，可能导致无法收敛到所有局部最优解中最好的一个。图15a为不同学习率对奖励函数优化过程的影响示意图，图15b为不同学习率对平均时延优化过程的影响示意图，图15a和图15b中学习率lr分别设置为10^-3，10^-2，5×10^-3，可以看出lr＝10^-3时奖励函数和时延曲线的收敛速度相对较慢，后期基本与另外两个学习率取值时的曲线的震荡幅度相同。相比之下，lr＝10^-2和lr＝5×10^-3时时延在前期收敛较快，且lr＝10^-2时奖励函数和时延不仅收敛速度快，而且收敛后震荡幅度也比lr＝5×10^-3的曲线小。actor网络和critic网络训练时读入的单个批次数据大小是在每轮采样的不同时刻得到的。如果单个批次中的数据分布可以较好的接近实际的数据分布，则会产生较好的训练效果。如果单个批次的数据量较小，则无法较好的拟合实际的数据分布，如果单个批次的数据量较大，可能导致单次训练时间过长且计算机内存不足。图16a为单个数据批次大小分别为1000，500和700时的奖励函数的收敛结果示意图，图16b 为单个数据批次大小分别为1000，500和700时的平均时延的收敛结果示意图。从图15a和图15b中可以看出，单个数据批次为700时奖励函数和平均时延的震荡幅度较大，而在batch size为500时收敛速度最快，震荡幅度最小，并且在优化过程中，batch size为500时各网络的训练时间最短。在发明实施例中，可以将MEC应用于道路网络中临近检测的时延优化问题，将各临近检测任务的子任务从移动用户的用户设备端转移到边缘云服务器端一定比例，并且用户信息和临近检测任务可以通过中心服务器和边缘云服务器共同参与传输。实验结果证明，在基于MEC的道路网络临近检测中，DDPG算法可以有效解决动态道路网络各时刻时延优化问题。

基于同一发明构思，根据本发明上述实施例提供的道路网络临近检测时延优化方法，相应地，本发明另一实施例还提供了一种道路网络临近检测时延优化装置，应用于道路网络临近检测系统中的移动用户的用户设备，所述道路网络临近检测系统还包括至少一个边缘服务器；如图17所示，所述装置包括：

信息获取模块1701，用于获取所述道路网络临近检测系统中各个移动用户的用户信息以及与所述用户设备相距最近的目标边缘服务器的服务器计算资源信息，其中，所述用户信息包括运动状态信息和计算资源信息；

任务生成模块1702，用于基于所述用户信息和所述服务器计算资源信息，生成临近检测任务，其中，所述临近检测任务包括多个子任务；

第一状态确定模块1703，用于基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，确定所述用户设备对应的运动状态向量；

第二状态确定模块1704，用于基于所述临近检测任务和预设的任务比例约束函数，确定所述用户设备对应的任务状态向量；

任务分配模块1705，用于将所述运动状态向量和所述任务状态向量输入预先训练的任务分配模型，分别对所述运动状态向量和所述任务状态向量进行特征提取，并基于提取的特征输出任务分配占比向量；其中，所述任务分配占比向量用于标识所述用户设备向所述目标边缘服务器卸载的所述临近检测任务中各个子任务的占比，基于所述任务分配占比向量完成所述临近检测任务的计算所对应的时延满足预设的时延约束条件；所述任务分配模型为基于训练样本及预设的时延约束条件训练得到的。

采用本发明实施例提供的装置，可以通过任务分配模型确定用户设备向目标边缘服务器卸载的临近检测任务中各个子任务的占比，将各个子任务中一定比例的计算任务卸载到目标边缘服务器，以使得该边缘服务器与目标移动用户共同并行计算临近检测任务，计算耗时更少，并且基于任务分配占比向量完成临近检测任务的计算所对应的时延满足预设的时延约束条件，对计算临近检测任务的时间做了约束，使得时延更低。

本发明实施例还提供了一种电子设备，如图18所示，包括处理器1801、通信接口1802、存储器1803和通信总线1804，其中，处理器1801，通信接口 1802，存储器1803通过通信总线1804完成相互间的通信，

存储器1803，用于存放计算机程序；

处理器1801，用于执行存储器1803上所存放的程序时，实现任一所述道路网络临近检测时延优化方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任道路网络临近检测时延优化方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任道路网络临近检测时延优化方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线 (例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种道路网络临近检测时延优化方法，其特征在于，应用于道路网络临近检测系统中的移动用户的用户设备，所述道路网络临近检测系统还包括至少一个边缘服务器；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述任务分配模型包括：第一特征提取层、第二特征提取层、特征拼接层和输出层；

3.根据权利要求1所述的方法，其特征在于，所述道路网络临近检测系统还包括中心服务器；

4.根据权利要求1所述的方法，其特征在于，所述基于所述用户设备自身的运动状态信息、计算资源信息以及所述服务器计算资源信息，确定所述用户设备对应的运动状态向量，包括：

其中，

为所述用户设备对应的运动状态向量；

为所述用户设备在t时刻的计算速率，

为所述用户设备在t时刻的可用内存值；

为所述用户设备在t时刻的速度x分量，

为所述用户设备在t时刻的速度y分量；

为所述用户设备在t时刻的位置的横坐标，

为所述用户设备在t时刻的位置的纵坐标；

为所述目标边缘服务器在t时刻的计算速率，

为所述目标边缘服务器在t时刻的可用内存。

5.根据权利要求1所述的方法，其特征在于，所述基于所述临近检测任务和预设的任务比例约束函数，确定所述用户设备对应的任务状态向量，包括：

其中，

为预设的任务比例约束函数，

∈^t为探索因子，∈^t值满足标准正态分布，

6.根据权利要求1所述的方法，其特征在于，采用如下公式确定，所述基于任务分配占比向量完成所述临近检测任务的计算所对应的时延：

T＝max{t_m1+t_m2，t_local}

7.根据权利要求1所述的方法，其特征在于，所述预设的时延约束条件包括：

C1：0≤α_i≤1，1≤i≤N_mc-1；

C2：t_m1+t_m2≤t_s；

C3：D_local≤Q_c；

C4：D_mec≤Q_m；

其中，所述预设的时延约束条件包括条件C1-C4；t_m1为所述用户设备卸载临近检测任务至所述目标边缘服务器的卸载时延，t_m2为计算时延；t_s为所述用户设备在所述目标边缘服务器的覆盖区域中的最长时间；D_mec所述用户设备向所述目标边缘服务器卸载的计算任务量，Q_m为所述目标边缘服务器的可用内存；D_local为所述用户设备应在本地计算的计算任务量，Q_c为所述用户设备的可用内存值；α_i为所述用户设备为第i个子任务分配的权重，N_mc为所述目标边缘服务器覆盖范围内的用户设备的数量。

8.根据权利要求2所述的方法，其特征在于，所述任务分配模型的训练方式，包括：

9.一种道路网络临近检测系统，其特征在于，包括多个移动用户的用户设备和至少一个边缘服务器；

10.根据权利要求9所述的系统，其特征在于，所述系统还包括中心服务器；

11.一种道路网络临近检测时延优化装置，其特征在于，应用于道路网络临近检测系统中的移动用户的用户设备，所述道路网络临近检测系统还包括至少一个边缘服务器；所述装置包括：