CN117835329B

CN117835329B - 车载边缘计算中基于移动性预测的服务迁移方法

Info

Publication number: CN117835329B
Application number: CN202410241235.3A
Authority: CN
Inventors: 毕远国; 刘羽霏; 肖嘉池; 黄子烜; 刘雨衡; 胡兵; 樊彦伯; 张星
Original assignee: 东北大学
Filing date: 2024-03-04
Publication date: 2024-07-05
Anticipated expiration: 2044-03-04

Abstract

本发明属于边缘计算应用技术领域，公开一种车载边缘计算中基于移动性预测的服务迁移方法。获取车辆位置数据，使用车辆移动性预测模型预测车辆位置；根据预测的车辆位置，使用预测误差估计模型进行预测误差估计，并根据估计的预测误差修正车辆位置预测结果；基于修正的车辆位置预测结果，通过服务迁移决策模型制定基于双策略蒸馏深度强化学习服务迁移策略。本发明可以减少服务迁移的中断时间。通过使用两个深度强化学习模型互相学习的方式，加快模型的学习速度，增强模型的探索能力，提升模型决策的效果。通过引入动作价值函数，让服务迁移策略的评价不再只依赖于状态价值函数，而是转换为动作价值函数与状态价值函数的比较，以提升蒸馏效率。

Description

车载边缘计算中基于移动性预测的服务迁移方法

技术领域

本发明涉及边缘计算应用技术领域，尤其涉及一种车载边缘计算中基于移动性预测的服务迁移方法。

背景技术

车载边缘计算是指在车辆周围部署的边缘节点上进行计算的技术。在车联网中，车辆需要与周围环境如其他车辆和道路设施等进行通信和数据交换，因此需要处理大量的数据。传统的方式是将这些数据传输到云端进行处理，但是由于带宽限制和网络延迟等问题，这种方式存在一定的局限性。而车载边缘计算则可以将数据处理和存储转移到车辆周围的边缘节点上，这样可以降低数据传输的延迟和带宽要求，同时提高数据安全性和隐私保护。车载边缘计算可以支持实时的数据处理和决策，如智能导航、车辆诊断和预警等。中国专利“CN202211697891，一种基于移动性预测的边缘服务主动迁移方法”，该发明基于用户移动的历史轨迹预测获得用户移动的下一个位置，并直接将该位置所在的边缘服务器作为迁移的目标边缘服务器。而本发明使用强化学习方法来制定服务迁移决策，所制定的服务迁移决策的服务质量更高；中国专利“CN201910885221，一种车联网服务动态迁移方法”，该发明考虑迁移过程中业务QoS的降级和移动速度对迁移决策的影响的问题，根据车辆的移动速度进行迁移成本和服务QoS的动态均衡。而本发明先预测用户移动性，然后基于预测的用户位置使用强化学习制定服务迁移决策，所制定决策更加高效。

发明内容

针对上述问题，本发明针对性地提出一种车载边缘计算中基于移动性预测的服务迁移方法。

本发明的技术方案如下：一种车载边缘计算中基于移动性预测的服务迁移方法，具体步骤如下；

步骤一、获取车辆位置数据，使用车辆移动性预测模型预测车辆位置；

步骤二、根据预测的车辆位置，使用预测误差估计模型进行预测误差估计，并根据估计的预测误差修正车辆位置预测结果；

步骤三、基于修正的车辆位置预测结果，通过服务迁移决策模型制定基于双策略蒸馏深度强化学习服务迁移策略。

所述车辆移动性预测模型包括TCN编码器、两阶段注意力机制、全连接层、车辆交互感知模块和LSTM预测模块；两阶段注意力机制分别为时间通道注意力机制、交互感知注意力机制；

给定一个车辆位置的输入序列，设为目标车辆的历史位置数据，将输入到时间通道注意力机制中：

为目标车辆经时间通道注意力机制输出的车辆位置特征、为时间通道注意力机制；

将周围车辆的历史位置数据输入到时间通道注意力机制中表示为：

为周围车辆经时间通道注意力机制输出的周围车辆位置特征；

将、分别作为TCN编码器的输入，分别得到目标车辆的位置特征、周围车辆的位置特征，表示为：

将TCN编码器输出的周围车辆的位置输入到车辆交互感知模块中，表示为：

将目标车辆的位置特征输入到全连接层，表示为：

将交互感知模块的输出和全连接层的输出结果进行拼接，表示为：

将输入到交互感知注意力机制中，表示为：

其中，为交互感知注意力机制的权重向量；

将交互感知注意机制的输出作为LSTM预测模块的输入，得到目标车辆的预测位置，表示为：

。

所述时间通道注意力机制具体为：

给定一个车辆历史位置时间序列，先经过一个全局池化，设表示学习的卷积核集合，其中表示第个卷积核的参数，将全局池化的输出表示为，其中，

进行压缩操作，将一个时间通道上整个空间特征编码为一个全局特征，表示为：

为大小的向量；表示平均池化操作；表示时间通道的维度大小；表示第个特征；应用激励操作调整每个通道特征的权重，表示为：

其中，，，表示形函数，ReLU表示ReLU激活函数；通过激励操作重新调整后的权重序列与相乘得到重新调整的时间序列数据：

。

所述交互感知注意力机制具体为：给定交互感知特征和目标车辆历史位置特征的拼接向量，将拼接向量通过非线性函数映射到，表示为：

其中，为交互感知注意力机制的权重向量，定义为：

其中，，和是需要学习的参数，是偏差项。

所述预测误差估计模型具体为：

获取目标车辆个时隙的历史预测误差作为误差序列，表示为；目标车辆的个位置样本表示为；使用自回归函数来计算误差，表示为：

其中，为随机干扰项；自回归函数表示为：

其中，为利用最终预测误差法确定的维数，为通过交叉验证法确定的最优带宽；为使用核密度估计计算的联合概率密度函数，表示如下：

其中，为核函数或窗函数，代表第个移动性预测误差变量的平滑系数。

所述步骤三的服务迁移决策模型具体为；状态集合表示为，其中，表示车辆用户时隙修正车辆位置预测结果，表示当前正在使用的服务器编号，表示车辆用户与服务器间的传输速率，表示处理车辆用户请求任务所需要的CPU周期，表示任务大小；服务迁移决策结果为一组0、1向量，表示为，表示服务器数量，表示第个服务器的动作向量，表示是否迁移服务到服务器；当动作为1时，将服务迁移到此服务器，动作为0时，服务则不迁移到此服务器；

双策略蒸馏是在同一环境下使运行的两个服务迁移策略之间进行知识转移，和为两种服务迁移策略；通过比较两个服务迁移策略的优劣，来执行双策略蒸馏，当策略优于，则将蒸馏置，令，当策略优于，则将蒸馏置，令；

使用经典的DDPG算法进行两个服务迁移策略的求解，求解服务迁移决策的目标函数表示为：

其中，为时间步长的状态分布，为DDPG中的Actor网络的策略函数，为值函数参数，为动作；

Actor网络的损失函数为：

其中，为批处理大小；

值函数的更新式为：

其中，为折扣因子，和为目标网络。

本发明的有益效果：

（1）本发明提出了一种针对车辆实时位置预测的新方法，该方法基于时间卷积网络框架，并引入了两阶段注意力机制，以提高车辆预测的准确性和合理性。该方法在第一阶段中采用时间通道注意力机制来放大贡献较大的历史节点。然后，通过交互感知注意力机制对目标车辆历史位置特征和周围车辆交互感知特征进行加权，以捕获周围车辆不同的影响程度，并考虑目标车辆自身历史特征和周围车辆交互特征之间的权重关系。最后，采用长短期记忆网络输出准确和合理的预测位置。最后，通过非参数核密度估计建立移动性预测误差估计模型，以避免因误差较大而导致服务迁移决策错误。

（2）本发明所提出的动态服务迁移决策方法，基于预测车辆未来位置实现。该方法采用马尔可夫决策模型进行建模，并使用深度确定性策略梯度网络进行训练。针对高维状态动作空间所带来的模型学习效率低和陷入局部最优的问题，本文引入了双策略蒸馏方法，让两个不同状态动作空间中的服务迁移策略相互学习，以提高服务迁移决策模型的泛化能力。对于高度时变的环境，该方法也能应对。

附图说明

图1是一种车载边缘计算中基于移动性预测的服务迁移方法的技术路线图。

图2是车辆移动性预测模型的总体框架图。

图3是时间通道注意力机制的结构图。

图4是交互感知注意力机制图。

图5是服务迁移决策模型框架图。

具体实施方式

一种车载边缘计算中基于移动性预测的服务迁移方法，具体分为车辆移动性预测和服务迁移决策模型两个模型，技术路线如图1所示。首先，选择时间卷积网络作为基础框架，并采用两阶段注意力机制，车辆移动性预测模型通过描述目标车辆受到相邻车辆和不同历史位置的影响程度，进一步提高了预测的准确性和合理性。在第一阶段中，引入时间通道注意力机制，分别作用于目标车辆的历史位置信息向量和周围车辆的历史位置信息向量，以放大贡献较大的历史节点。在第二阶段中，通过交互感知注意力机制对目标车辆的历史位置特征和周围车辆的交互感知特征进行加权，以捕获周围车辆对目标车辆不同的影响程度，同时也可捕获目标车辆自身历史特征与周围车辆交互特征之间的权重关系。最后，采用长短期记忆网络输出准确合理的预测位置。为了更好的利用车辆移动性预测结果，防止将误差较大的预测结果输入到服务迁移决策模型中，提出预测误差估计模型，可以采用基于非参数核密度估计的方法，对预测误差进行估计。其次，为了实现车辆用户服务的动态迁移，针对频繁迁移产生大量迁移时延的问题，设计基于车辆移动性预测的服务预迁移机制，将预测结果输入到服务迁移决策模型中，减少服务迁移的中断时间。同时考虑现实场景中高维状态动作空间会导致服务迁移决策训练速度慢和陷入局部最优，提出了一种基于双策略蒸馏深度强化学习的服务迁移策略，通过使用两个深度强化学习模型互相学习的方式，加快模型的学习速度，增强模型的探索能力，提升模型决策的效果。为了防止策略错误评估而导致的错误蒸馏，通过引入动作价值函数，让服务迁移策略的评价不再只依赖于状态价值函数，而是转换为动作价值函数与状态价值函数的比较，以提升蒸馏效率。

本发明提出了一种车载边缘计算中基于移动性预测的服务迁移方法，总体技术路线图如图1所示。首先，本发明分析了现有的问题，即当前主流的服务迁移算法在车载边缘计算场景频繁迁移导致很高的服务中断时延以及无法适应现实场景高维的状态动作空间。高度动态变化的VEC环境和车辆用户的高速移动性导致难以找到最佳的迁移策略。许多现有工作基于车辆用户的实时位置制定迁移策略，这可能会使得车辆用户的中断时间较长，会降低车辆用户的服务质量。随着车辆的增多和服务种类的增加会导致产生高维的状态动作空间，会增加服务迁移决策的计算复杂度，同时会降低服务迁移决策的效果。

通过使用真实车辆移动性数据集进行车辆的移动性预测，提出了一种车辆移动性预测模型。选择时间卷积网络作为基础框架，并采用两阶段注意力机制，车辆移动性预测模型通过描述目标车辆受到相邻车辆和不同历史位置的影响程度，进一步提高了预测的准确性和合理性，车辆移动性预测模型的总体框架如图2所示。在第一阶段中，引入时间通道注意力机制，分别作用于目标车辆的历史位置信息向量和周围车辆的历史位置信息向量，以放大贡献较大的历史节点，图3说明了时间通道注意力机制的结构。在第二阶段中，通过交互感知注意力机制对目标车辆的历史位置特征和周围车辆的交互感知特征进行加权，以捕获周围车辆对目标车辆不同的影响程度，同时也可捕获目标车辆自身历史特征与周围车辆交互特征之间的权重关系，图4表示的是交互感知注意力机制。最后，采用长短期记忆网络输出准确合理的预测位置。为了更好的利用车辆移动性预测结果，防止将误差较大的预测结果输入到服务迁移决策模型中，采用基于非参数核密度估计的方法，对预测误差进行估计。

为了实现车辆用户服务的动态迁移，针对频繁迁移产生大量迁移时延的问题，提出基于双策略蒸馏深度强化学习服务迁移策略，将预测结果输入到服务迁移决策模型中，减少服务迁移的中断时间，总体服务迁移方法框架如图5所示。同时考虑现实场景中高维状态动作空间会导致服务迁移决策训练速度慢和陷入局部最优，提出了基于双策略蒸馏深度强化学习服务迁移策略，通过使用两个深度强化学习模型互相学习的方式，加快模型的学习速度，增强模型的探索能力，提升模型决策的效果。为了防止策略错误评估而导致的错误蒸馏，通过引入动作价值函数，让服务迁移策略的评价不再只依赖于状态价值函数，而是转换为动作价值函数与状态价值函数的比较，以提升蒸馏效率。

本发明进行了大量的仿真实验，在车辆移动性预测部分，使用NGSIM数据集训练模型，与多个车辆移动性预测算法对比，所提出的车辆移动性预测算法在预测误差方面低于对比算法。在服务迁移部分，模拟多种不同类型的服务，并从车辆用户不同任务请求率和用户不同任务处理密度等方面评估服务预迁移决策算法的性能，基于多个性能指标与对比算法进行比较和分析。实验结果表明，所提出的算法在平均响应时延等方面优于对比算法，且在训练奖励方面也表现出良好的性能。

下面对本发明的具体实施方式做详细说明。

本实施方式的方法为：操作系统为Ubuntu 20.04.5，深度学习框架为pytorch和tensorflow。

步骤一：实现各创新部分内容。

第一步，本申请充分考虑车辆的高速移动性对服务迁移的影响，结合车辆移动性预测的思想，提出基于车辆移动性预测的主动服务迁移方法。该方法首先通过一个车辆移动性预测模型，对车辆未来的位置进行预测，然后再基于这个预测的结果，作为一个状态参数传入服务迁移决策模型，从而实现服务的预迁移。同时，为了更有效地利用车辆移动性预测结果，并避免将较大误差的预测结果输入到服务迁移决策模型中，提出了一种基于非参数核密度估计的方法来对预测误差进行估计。

第二步：本发明针对车辆移动性预测部分选择TCN作为基础框架，提出了一种两阶段注意力机制来描述目标车辆受到相邻车辆和不同历史位置的影响程度。首先，引入第一阶段时间通道注意力机制分别作用于目标车辆的历史位置信息向量和周围车辆的历史位置信息向量，目的是为了定义不同时间位置对目标车辆预测的贡献，放大贡献较大的历史节点，提高预测的合理性和准确性。然后，通过引入第二阶段交互感知注意力机制，对目标车辆的历史位置特征和周围车辆的交互感知特征进行加权，目的是为了捕获周围车辆对目标车辆不同的影响程度，同时也可以捕获目标车辆自身历史特征与周围车辆交互特征之间的权重关系，最后通过LSTM预测模块输出更合理的预测位置。

第三步：通过第二步预测车辆未来的位置，提前执行服务迁移，有效降低车辆用户的服务中断时间。随着车辆的增多和服务种类的增加会导致产生高维的状态动作空间，会增加服务迁移决策的计算复杂度，同时会降低服务迁移决策的效果。为了解决高维状态动作空间所导致的服务迁移决策模型训练速度慢和容易陷入局部最优的问题，本发明提出了基于双策略蒸馏深度强化学习服务迁移策略，使用两个深度强化学习模型互相学习的方式来加快模型的学习速度，并提升模型的探索能力和决策的效果。

步骤二：实验数据集。

数据集的作用是为了验证算法的检测性能。本发明选用采用NGSIM数据集对车辆移动性预测算法进行效果评估。为了保证实验的顺利进行，本发明将数据集划分为训练集、验证集和测试集。然后基于NGSIM数据集中乔治亚州亚特兰大的桃树街使用SUMO仿真平台模拟了区域的车辆移动轨迹来评估服务迁移算法。考虑在每个区域部署64个VEC服务器，其中每个VEC服务器覆盖1公里×1公里的网格，计算能力（即，四个16核的服务器，每个核）。根据调研，现实世界商业网络的上传速率通常不低于。因此，在环境中，每个网格中的上传速率设置为。两个VEC服务器之间的跳跃距离是通过曼哈顿距离来计算的。VEC服务器的位置由相对于处的参考位置的2维向量表示。为了计算迁移延迟，将网络的有线传输带宽设置为，迁移延迟随不同的服务规模和网络条件而变化。根据VEC的一些相关工作，假设在训练过程中，任务所占用的虚拟机大小均匀分布在中，迁移延迟系数均匀分布在中。

步骤三：对模型进行训练。

训练环节是测试和检测的基础，在数据集处理好后首要进行的步骤就是进行训练。具体步骤如下：

第一步，使用pytorch框架为训练车辆移动性预测模型做初始化网络训练和配置的准备工作。

第二步，在训练之前，需要搭建好本发明所提出的车辆移动性预测模型。

第三步，对模型的超参数进行设置，设置本算法的训练参数和网络结构路径，系统会根据配置好的参数进行读取。本算法的配置如下表1所示：

表1 系统配置参数

字段名	字段值	含义
			pretrainEpochstrainEpochs	53	预训练次数训练次数
lr	1e-3	学习率
			batch_size	128	每个batch中训练样本的数量
use_cuda	True	是否使用cuda
			encoder_size	64	编码器大小
decoder_size	128	解码器大小
			in_length	16	车辆历史时间长度

第四步，载入训练数据，对车辆移动性数据进行预处理，将其转换为本发明所需要的特征数据，然后pytorch框架会自动读取。

第五步，车辆移动性预测网络训练。为了更好的提取目标车辆和周围车辆的历史位置特征，本发明采用了时间卷积网络作为特征提取的编码器；为了提高预测精度，提出使用两阶段注意力机制去充分捕获贡献较大的历史节点，以及捕获周围车辆对目标车辆不同的影响程度，同时也可捕获目标车辆自身历史特征与周围车辆交互特征之间的权重关系。

首先，第一步将目标车辆的历史位置数据输入到时间通道注意力机制中，第二步将周围车辆的历史位置数据也输入到时间通道注意力机制中。其次，将目标车辆经过时间通道注意力机制的输出作为TCN编码器的输入，再将周围车辆经过时间通道注意力机制的输出作为TCN编码器的输入，然后将TCN编码器输出的周围车辆的特征输入到交互感知模块中，并且将目标车辆的特征输入到全连接层，之后将交互感知模块的输出和全连接层的输出的拼接结果输入到交互感知注意力机制中。最后，将交互感知注意机制的输出作为LSTM预测模块的输入，由LSTM预测模块输出最终预测结果。

第六步，将车辆移动性预测模型保存到指定的位置。

第七步，根据搭建的仿真环境对服务迁移决策模型进行训练和保存。最开始，初始化经验回放池，采用权重和随机初始化critic网络和。每个episode都是车辆用户在整个移动过程中经历的虚拟机迁移全过程。在每次开始新的episode之前，会初始化所有状态并将车辆用户和虚拟机的位置设置为默认值。然后分别初始化目标网络和权重以及初始化经验缓存区。然后分别初始化一个随机过程进行动作探索和获取初始观察状态。最后是在时隙时，从环境中不断获取状态、动作、奖励和下一状态来不断训练服务迁移算法，并且通过比较两个服务迁移策略的优劣来执行双策略蒸馏。

本算法在python文件下完成测试过程中的配置文件、命令行参数的读取，然后通过调用测试函数完成测试的核心过程。然后开始进行预测，最终并把预测结果保存到指定目录下的tar和Checkpoint文件中，可以直接被后续评价模块读取。

Claims

1.一种车载边缘计算中基于移动性预测的服务迁移方法，其特征在于，具体步骤如下；

步骤三、基于修正的车辆位置预测结果，通过服务迁移决策模型制定基于双策略蒸馏深度强化学习服务迁移策略；

所述服务迁移决策模型具体为；

状态集合表示为S_t＝(p_n(t)，m，R_n，m，ω_m，n，D_task)，其中，p_n(t)表示车辆用户t时隙修正车辆位置预测结果，m表示当前正在使用的服务器编号，R_n，m表示车辆用户与服务器间的传输速率，ω_m，n表示处理车辆用户请求任务所需要的CPU周期，D_task表示任务大小；服务迁移决策结果为一组0、1向量，表示为表示服务器数量，表示第个服务器的动作向量，表示是否迁移服务到服务器当动作为1时，将服务迁移到此服务器，动作为0时，服务则不迁移到此服务器；

双策略蒸馏是在同一环境下使运行的两个服务迁移策略之间进行知识转移，π和为两种服务迁移策略；通过比较两个服务迁移策略的优劣，来执行双策略蒸馏，当策略π优于则将π蒸馏置令当策略优于π，则将蒸馏置π，令

其中，ρ^β为时间步长t的状态分布，β为DDPG中的Actor网络的策略函数，θ^Q为Q值函数参数，a_t为动作；

Actor网络的损失函数为：

其中，N为批处理大小；

Q值函数的更新式为：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中，γ为折扣因子，Q′和μ′为目标网络；所述车辆移动性预测模型包括TCN编码器、两阶段注意力机制、全连接层、车辆交互感知模块和LSTM预测模块；两阶段注意力机制分别为时间通道注意力机制、交互感知注意力机制；

给定一个车辆位置的输入序列设为目标车辆的历史位置数据，将输入到时间通道注意力机制中：

TATV为目标车辆经时间通道注意力机制输出的车辆位置特征、TCA为时间通道注意力机制；

TASV为周围车辆经时间通道注意力机制输出的周围车辆位置特征；

将TATV、TASV分别作为TCN编码器的输入，分别得到目标车辆的位置特征、周围车辆的位置特征，表示为：

H_target＝TCNEncoder(TATV)

H_surrounding＝TCNEncoder(TASV)

IF＝IP(H_surrounding)

将目标车辆的位置特征输入到全连接层，表示为：

TVF＝DenseLayer(H_target)

将交互感知模块的输出IF和全连接层的输出结果TVF进行拼接，表示为：

A＝Concatenate(IF，TVF)

将A输入到交互感知注意力机制中，表示为：

其中，α为交互感知注意力机制的权重向量；

将交互感知注意机制的输出作为LSTM预测模块的输入，得到目标车辆的预测位置Y，表示为：所述时间通道注意力机制具体为：

给定一个车辆历史位置时间序列先经过一个全局池化，设V＝[v₁，v₂，…，v_c]表示学习的卷积核集合，其中v_c表示第c个卷积核的参数，将全局池化的输出表示为U＝[u₁，u₂，…，u_c]，其中，

进行压缩操作，将一个时间通道上整个空间特征编码为一个全局特征z_c，表示为：

z_c为1×C大小的向量；F_sq表示平均池化操作；T表示时间通道的维度大小；表示第j个特征；应用激励操作调整每个通道特征的权重，表示为：

s_c＝σ(W₂ReLU(W₁z_c))

其中，W₁∈R^(C/r)×C，W₂∈R^C×(C/r)，σ表示S形函数，ReLU表示ReLU激活函数；通过激励操作重新调整后的权重序列s_c与u_c相乘得到重新调整的时间序列数据所述交互感知注意力机制具体为：

给定交互感知特征和目标车辆历史位置特征的拼接向量A，将拼接向量A通过非线性函数α映射到表示为：

其中，α为交互感知注意力机制的权重向量，定义为：

α＝exp(e)/∑exp(e)

其中，e＝v_etanh(W_e·A+B_e)，v_e和W_e是需要学习的参数，B_e是偏差项；所述预测误差估计模型具体为：

获取目标车辆k个时隙的历史预测误差作为误差序列，表示为目标车辆的n个位置样本表示为E_k，i＝[z_1i，z_2i，...，z_ki]^T，i＝1，2，…，n；使用自回归函数m(·)来计算误差Z_t∈R，表示为：

Z_t＝m(E_t)+ε_t

其中，ε_t为随机干扰项；自回归函数m(·)表示为：

其中，k为利用最终预测误差法确定的维数，b为通过交叉验证法确定的最优带宽；f(E_k)为使用核密度估计计算E_k的联合概率密度函数，表示如下：

其中，K(·)为核函数或窗函数，b_j代表第j个移动性预测误差变量的平滑系数。