CN117615418B - 一种移动感知辅助的车联网服务迁移方法 - Google Patents
一种移动感知辅助的车联网服务迁移方法 Download PDFInfo
- Publication number
- CN117615418B CN117615418B CN202410078663.9A CN202410078663A CN117615418B CN 117615418 B CN117615418 B CN 117615418B CN 202410078663 A CN202410078663 A CN 202410078663A CN 117615418 B CN117615418 B CN 117615418B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- base station
- migration
- agent
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013508 migration Methods 0.000 title claims abstract description 159
- 230000005012 migration Effects 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000008447 perception Effects 0.000 title claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 238000004891 communication Methods 0.000 claims abstract description 19
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 230000000977 initiatory effect Effects 0.000 claims abstract description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 46
- 238000005457 optimization Methods 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 29
- 230000009471 action Effects 0.000 claims description 23
- 238000013468 resource allocation Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 239000013307 optical fiber Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001934 delay Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0908—Management thereof based on time, e.g. for a critical period only
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/025—Services making use of location information using location based information parameters
- H04W4/027—Services making use of location information using location based information parameters using movement velocity, acceleration information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出一种移动感知辅助的车联网服务迁移方法,包括,感知车辆的位置信息;根据位置信息计算车辆在当前基站的预期停滞时间;基于当前基站的观测信息,以车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,观测信息包括车辆的通信状态、任务处理状态和预期停滞时间;根据迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程。本发明提出的方法,通过基于迁移距离的迁移成本评估方式,降低平均服务时延的同时,还限制了平均迁移成本,限制频繁迁移的发生。
Description
技术领域
本发明属于车联网技术领域。
背景技术
蜂窝车联网(C-V2X)通过车与网络间的无线传输,实现了车辆与互联网之间的实时信息交互,给予车辆更多的车载业务可能。在车联网中,以车辆自动驾驶、智能驾驶辅助等车辆安全类业务迅猛发展,有助于提高交通效率和驾驶安全。然而这类业务要求车联网本身具备端到端时延达到毫秒级别的低时延要求。为满足上述业务需求,移动边缘计算(MEC)技术被提出用来改善中心云计算的高时延和决策慢的问题,这是一种新兴的计算范式,将计算资源和服务推向网络的边缘,与传统的中心云计算相比,更接近用户和设备,使得数据处理更加靠近终端设备,降低了数据传输的延迟,有助于实现对实时信息的快速响应。但是对于边缘云服务器一个重要问题就是对用户移动性的支撑,边缘云服务器的有限覆盖和车辆终端的高移动性导致显著的网络性能下降。高移动性车辆很快穿越当前服务的边缘云服务器的覆盖范围,随着车辆与基站距离增加,通信性能下降,车辆业务的服务时延增加。
服务迁移技术通过将运行车辆业务的虚拟机(Virtual Machine,VM)迁移到距离车联较近的基站上的边缘云服务器,降低车辆同计算业务实例之间的交互时延,降低总体的计算服务时延。服务迁移技术已经在云计算方向有大量的研究,更多关注于弹性计算资源分配和资源利用率的提升。但是以往的服务迁移架构未考虑车辆高移动性的问题,不适用于高速移动的车联网场景。
目前车联网场景中的计算服务迁移方法主要体现为以下几方面:
以通信性能为主,提出了“先切换后迁移”的被动式服务迁移方案。迁移服务伴随着车辆的切换后触发,总是迁移至离车辆最近的边缘云服务器运行计算用例,最小化车辆和边缘云服务器之间的通信传输时延。但是这样的迁移方式在切换后计算服务仍在源基站,会出现计算服务中断问题。并不适用于低时延的安全类车联网业务。
以计算性能优先,提出了“先迁移再切换”的主动式迁移方案。迁移服务能够在通信切换过程之前触发迁移决策,在接入目标基站之前完成计算用例的转移和衔接。但是大多数主动式的迁移方案将移动性预测纳入迁移决策过程,这些方案往往忽略了预测的不确定性与普适性,只适用于特定场景的使用。
结合上述研究的问题,车联网的服务迁移问题主要挑战表现为:首先,决策触发时间将影响到迁移的效果。决策过早会导致迁移完成,然而车辆并未进入下一个基站服务区域。决策过晚会引起较长的服务停机时延,不利于确保计算服务的连续性;其次,整个服务迁移后如何再次分配通信资源和计算资源,避免资源竞争的发生。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种移动感知辅助的车联网服务迁移方法,用于降低服务延迟。
为达上述目的,本发明第一方面实施例提出了一种移动感知辅助的车联网服务迁移方法,包括:
感知车辆的位置信息;
根据所述位置信息计算所述车辆在当前基站的预期停滞时间;
基于所述当前基站的观测信息,以所述车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,所述观测信息包括所述预期停滞时间;
根据所述迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程。
另外,根据本发明上述实施例的一种移动感知辅助的车联网服务迁移方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述感知车辆的位置信息,包括:
通过下行信道的感知信号感知车辆的位置信息,所述位置信息包括车辆相对当前基站距离、车辆与基站之间的方位角以及车辆的速度。
进一步地,在本发明的一个实施例中,所述基于所述当前基站的观测信息,以所述车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略,包括:
通过光纤网络共享各个基站彼此之间的接入状态、资源占用状态和所链接车辆的位置信息;
根据共享的信息构建优化模型。
进一步地,在本发明的一个实施例中,所述根据共享的信息构建优化模型,包括:
将服务迁移过程建模为以最小化所有车辆的计算服务时延为优化目标的优化问题;
基于多智能体近端策略优化算法对构建的模型进行训练,从而得到最优的迁移策略和资源分配策略。
进一步地,在本发明的一个实施例中,所述基于多智能体近端策略优化算法对构建的模型进行训练,包括:
将观测信息输入模型中,其中,所述模型包括Actor网络和Critic网络,所述Actor网络用于生成智能体动作,所述Critic网络用于估计智能体的动作值函数;
根据奖励函数和折扣因子,计算折扣奖励;
从经验回放缓冲区中随机抽样数据,计算Actor网络损失函数和Critic网络损失函数,其中,通过最大化策略梯度来更新策略网络参数,以使得智能体的策略能够生成更优的动作,通过最小化价值函数的均方误差来更新价值函数网络参数,以使所述模型能够更准确地估计累积奖励;
保存训练好的模型。
为达上述目的,本发明第二方面实施例提出了一种移动感知辅助的车联网服务迁移装置,包括以下模块:
感知模块,用于感知车辆的位置信息;
计算模块,用于根据所述位置信息计算所述车辆在当前基站的预期停滞时间;
构建模块,用于基于所述当前基站的观测信息,以所述车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,所述观测信息包括所述预期停滞时间;
执行模块,用于根据所述迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程。
进一步地,在本发明的一个实施例中,所述感知模块,还用于:
通过下行信道的感知信号感知车辆的位置信息,所述位置信息包括车辆相对当前基站距离、车辆与基站之间的方位角以及车辆的速度。
进一步地,在本发明的一个实施例中,所述构建模块,还用于:
通过光纤网络共享各个基站彼此之间的接入状态、资源占用状态和所链接车辆的位置信息;
根据共享的信息构建优化模型;
将服务迁移过程建模为以最小化所有车辆的计算服务时延为优化目标的优化问题;
基于所述多智能体近端策略优化算法对构建的模型进行训练,从而得到最优的迁移策略和资源分配策略。
进一步地,在本发明的一个实施例中,所述构建模块,还用于:
将观测信息输入模型中,其中,所述模型包括Actor网络和Critic网络,所述Actor网络用于生成智能体动作,所述Critic网络用于估计智能体的动作值函数;
根据奖励函数和折扣因子,计算折扣奖励;
从经验回放缓冲区中随机抽样数据,计算Actor网络损失函数和Critic网络损失函数,其中,通过最大化策略梯度来更新策略网络参数,以使得智能体的策略能够生成更优的动作,通过最小化价值函数的均方误差来更新价值函数网络参数,以使所述模型能够更准确地估计累积奖励;
保存训练好的模型。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的一种移动感知辅助的车联网服务迁移方法。
本发明提出的移动感知辅助的车联网服务迁移方法,目的是解决现有技术中主动式迁移触发时机不恰当和迁移后的资源竞争的问题,设计移动感知辅助的动态预服务迁移策略,根据车辆的位置信息进行迁移时机判断和计算-通信资源的动态均衡。
本发明通过建立一个联合服务迁移和资源分配问题的框架,主要关注在通信和计算资源受限的条件下,最小化计算服务平均延迟问题。通过无线感知技术获取基站内预期停留时间,以确定服务迁移和资源分配策略。其次,提出的基于MAPPO算法的移动感知服务迁移方法,将优化问题建模为完全合作的多智能体任务,以避免由于单个智能体环境局限性导致的决策不稳定性。相比于现有方法主要关注迁移目标,而忽略了通信和计算资源限制,导致需要频繁迁移,从而产生额外的迁移成本。本发明设计了一个基于迁移距离的迁移成本评估方式,降低平均服务延迟的同时,限制平均迁移成本,限制频繁迁移的发生。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种移动感知辅助的车联网服务迁移方法的流程示意图;
图2为本发明实施例所提供的一种移动感知辅助的车联网服务迁移模型示意图;
图3为本发明实施例所提供的一种移动感知多智能体近端策略优化算法结构示意图;
图4为本发明实施例所提供的一种移动感知辅助的车联网服务迁移装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的移动感知辅助的车联网服务迁移方法。
图1为本发明实施例所提供的一种移动感知辅助的车联网服务迁移方法的流程示意图。
本发明实施例提供了一种移动感知辅助的车联网环境的计算服务迁移方法。计算服务的主要过程包括业务数据上传、业务实例迁移、边缘云计算执行以及业务结果回传等过程,其中业务数据上传的时延和边缘云计算的时延执行占据了主要的服务时延过程。
本发明实施例提供的一种移动感知辅助的车联网服务迁移模型图如附图2所示,包含车辆终端层和边缘云层两层结构。
车辆终端层由辆车辆终端组成。这些终端在道路上形式,并收集路面信息(来自于视觉传感器和激光雷达传感器)。这些数据被收集到路侧的边缘云内进行数据融合弥补单车路面信息的局限性,处理结果被用于辅助车辆安全驾驶。
边缘云层由个基站构成,基站均匀部署在场景内。相邻基站之间通过城域光纤网络相互连接。其中每个基站都连接一台MEC服务器作为边缘云服务器为车辆业务提供计算实例。基站负责为车辆终端提供无线接入以及对车辆位置进行感知,车辆的计算类业务可以在其服务基站上的MEC服务器上运行。在该网络中,MEC服务器中采用虚拟化技术将每个车辆计算服务的计算资源和存储资源虚拟化封装为相对独立的VM。服务迁移过程可以直接迁移运行车辆计算服务的VM从当前服务基站迁移到目标服务基站。
其中车辆负责收集路面信息,并通过无线传输网络将数据上传基站内的MEC服务器中并利用MEC服务器的强大计算能力根据业务数据进行驾驶辅助业务的决策并将结果再次通过无线传输网络回传给用户。在该过程中,车辆如果移动出当前边缘节点的覆盖范围时,车辆需要被迫与该基站断开连接并与新的基站建立连接,并始终保持连接到信号较强的基站。因此可以确定服务迁移可能在任意时刻发生。本发明提供的方法将用于解决判断何时做出服务迁移决策并判断迁移至何处。
如图1所示,本发明实施例提供的移动感知辅助的车联网服务迁移方法包括以下步骤:
S101:感知车辆的位置信息;
进一步地,在本发明的一个实施例中,感知车辆的位置信息,包括:
当前基站的感知模块通过下行信道的感知信号感知车辆的位置信息,位置信息包括车辆相对当前基站距离、车辆与基站之间的方位角以及车辆的速度。
本步骤中如附图2,基站的感知模块在每个传输时隙/>中向链接的车辆发送无线感知信号。接收来自于对应车辆的感知回波信号输入至基站内的感知模块。当前基站的感知模块计算输出回波信号的多普勒频移/>,接收的回波信号和发送感知信号之间的时间差/>以及不同天线之间接收的回波信号之间的相位差/>。
根据无线感知原理参照下述公式,感知模块的计算单元快速计算上述基站所连接车辆的相对距离/>,方位角/>以及车辆速度/>。
车辆与所连接基站之间的相对距离计算公式为:
(1),
其中表示光速。
车辆与基站之间的方位角计算公式为:
(2),
其中表示感知信号的带宽,/>表示接收天线上的阵元之间的距离。
车辆速度计算公式为:
(3),
其中表示感知信号的中心频率。
结合相对距离计算公式(1)、方位角计算公式(2)和速度计算公式(3),感知模块可以根据回波信道估计出车辆的上述位置信息数据并将这些数据传输给移动性管理模块。
S102:根据位置信息计算车辆在当前基站的预期停滞时间;
本步骤中,当前基站的计算模块收到来自感知模块的车辆的位置信息数据。通过下述预期停滞时间计算公式,计算模块计算对应车辆的预期停滞时间。
依据三角函数余弦定理,车辆的预期停滞时间计算公式为:
(4),
其中,表示基站/>的通信覆盖半径;/>表示车辆相对于基站的方向,如果车辆正在远离当前基站,/>,相反的车辆正在接近当前基站,/>。
此处计算模块所计算的预期停滞时间将作为上述车辆从执行服务迁移到车辆与当前基站断连的时间差。该时间差将在步骤S103中用于描述车辆计算服务中断时延。上述公式(1)、公式(2)、公式(3)以及公式(4)所计算车辆位置信息将作为步骤S3的输入用于帮助做出服务迁移决策。
S103:基于当前基站的观测信息,以车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,观测信息包括预期停滞时间;
具体地,基站之间通过光纤网络共享彼此之间的接入状态和车辆位置信息输入到当前基站的构建模块内,用于模拟当前车联网场景的数据上传和边缘云计算过程。以车辆作为智能体,构建服务迁移模型,通过多智能体强化学习算法输出最优的迁移策略。基于基站的观测信息(包括车辆位置,车辆与基站之间的无线通信信道增益,车辆与基站之间无线通信的干扰,待初始数据的数据量以及车辆的预期停滞时间),智能体以最小化场景内计算服务平均时延为目标做出对应的迁移决策和通信-计算资源分配决策。通过不断地学习,从而获得最优的迁移策略。
进一步地,在本发明的一个实施例中,基于当前基站的观测信息,以车辆作为智能体,构建服务迁移环境模型,包括:
通过光纤网络共享各个基站彼此之间的接入状态、资源占用状态和所链接车辆的位置信息;
根据共享的信息构建优化模型。
本发明建立模型,分析服务迁移决策和资源分配决策对车辆平均服务时延的影响。
对于车辆计算服务,车辆首先需要收集路面信息,数据量为/>。车辆占据时频资源块/>通过上行信道传输至基站/>并向MEC服务器发起服务请求。该传输过程的时延可以通过下述公式计算:
(5),
其中表示当前时隙/>内车辆/>接入基站/>;/>表示上述上行信道的传输速率。该传输速率由香农公式推导,通过上行信道传输速率公式计算。
车辆的上行信道传输速率公式计算为:
(6),
上述公式(6)中表示车辆/>的通信传输中接收到来自同一时频资源块的干扰信号能量密度,表示为:
(7)
其中表示车辆/>占据时频资源块/>;/>表示车辆/>在该上行信道的发射功率;表示车辆/>和基站/>之间的上行信道增益;/>表示信道噪声的能量密度。
对于车辆计算服务,车辆完成数据上传后将进入MEC服务器计算执行过程。基站为每辆车辆的计算服务分配相应的虚拟化容器,对应封装相应的计算资源/>(MEC服务器为车辆/>的虚拟化容器提供的处理器频率)。该计算过程的时延可以通过下述公式计算:
(8),
其中表示计算一个比特数据所需的 CPU 周期的系数。
如果在上述计算过程中,车辆触发了服务迁移过程。车辆将采用一种预迁移过程完成虚拟化容器的迁移。在该迁移过程中,虚拟化容器的所有内存页面会通过光纤网络被逐页复制到目的MEC服务器的新的虚拟化容器中。传输过程中源MEC服务器仍然保持计算,依旧产生新的内存页面这里称为内存脏页。因此实际的数据传输量略大于原始的上传数据量/>。结合公式(4),可通过服务迁移时延和预期滞留时间的差值来评估车辆计算服务因服务迁移导致的中断时延为:
(9),
其中表示当前基站/>和目标基站/>之间的光纤传输带宽。
结合公式(5),(8)和(9),可以得到车辆的计算服务时延为:
(10),
对于上述车辆计算服务迁移过程,本发明使用一种基于迁移距离的迁移成本评估方式,用于表征迁移过程中产生的能量消耗。当前基站内的构建模块通过迁移成本计算公式计算不同服务迁移决策可能产生的迁移成本。
迁移成本计算公式为:
(11),
其中表示当前基站/>和目标基站/>之间的距离;/>表示网络常数开销和/>表示迁移成本增长速率。
进一步地,在本发明的一个实施例中,根据共享的信息构建优化模型,包括:
将服务迁移过程建模为以最小化所有车辆的计算服务时延为优化目标的优化问题;
基于多智能体近端策略优化算法对构建的模型进行训练,从而得到最优的迁移策略和资源分配策略。
通过联合优化迁移策略、时频资源块和计算资源分配来实现最小化所有车辆的计算服务时延目标,具体函数构建如下:
(12)。
其中表示当前时刻车辆/>与基站/>建立通信连接。
在本步骤中由于车辆终端的协作决策和移动性,本发明将优化问题建模为完全协作的多智能体任务。本发明设计了适用于车联网实际部署的移动感知多智能体近端策略优化算法(MAPPO)。该算法是一种在线学习算法,可以通过与实际环境交互进行在线的策略学习并输出迁移决策。
参照附图3,当前基站内构建模块部署了所设计的移动感知多智能体近端策略优化算法。构建模块根据前述步骤S101,S102和S103收集的状态数据,以每个车辆作为一个智能体。决策单元模拟智能体的运行状态并实现智能体与决策单元构建的模拟环境进行交互,做出决策和反馈决策的奖励,完成公式(12)的优化决策策略迭代学习。
在本步骤中,定义多智能体强化学习的服务迁移算法中智能体的观测集合,动作集合和奖励函数。
智能体的观测集合定义为:
(13),
其中表示车辆/>的位置坐标;/>和/>分别表示车辆上行信道的信道增益和干扰;/>表示剩余未被处理的数据量;/>表示车辆/>的预期停滞时间。
智能体的动作空间定义为:
(14),
其中表示被选择的连续资源块;/>表示迁移目标的选择。
智能体将在执行每个可能的动作后,在某个状态中获得奖励值。本发明认为奖励函数与目标函数相关,并且考虑到迁移成本限制,计算资源限制和服务质量限制,设置了相应的惩罚量,确定最佳的服务迁移策略可以选择距离车辆较近且性能优异的边缘云服务器作为目标进行服务迁移,避免了只关注迁移目标而忽略了通信资源限制导致车辆频繁迁移的问题。
每个智能体的奖励函数定义为:
(15),
其中表示公式(12)中的优化目标即计算服务时延;/>和/>分别表示车辆/>的迁移决策产生的迁移成本和迁移成本的平均限制值;/>表示车辆/>所在的MEC服务器计算资源使用率;/>表示车辆/>的计算服务时延是否符合服务质量需求,如果在阈值内完成计算服务,/>,否则/>。
基于车联网服务迁移模型的MAPPO算法能够较好地学习出价值函数,进而为智能体提供具有参看价值地迁移策略,从而基于MAPPO来自主地做出最佳的服务迁移策略,以进一步降低车辆计算服务时延。
本发明所设计的MAPPO采用中心式训练分散式执行的框架即将训练过程集中在一个中心化的环境中,而执行过程则分散在各个智能体之间进行。这种方法的目的是通过集中式训练来学习全局信息,然后在分散式执行中让每个智能体根据自己的局部观测和策略进行决策和行动。
进一步地,在本发明的一个实施例中,基于多智能体近端策略优化算法对构建的模型进行训练,包括:
将观测信息输入模型中,其中,模型包括Actor网络和Critic网络,Actor网络用于生成智能体动作,Critic网络用于估计智能体的动作值函数;
根据奖励函数和折扣因子,计算折扣奖励;
从经验回放缓冲区中随机抽样数据,计算Actor网络损失函数和Critic网络损失函数,其中,通过最大化策略梯度来更新策略网络参数,以使得智能体的策略能够生成更优的动作,通过最小化价值函数的均方误差来更新价值函数网络参数,以使模型能够更准确地估计累积奖励;
保存训练好的模型。
在策略执行阶段,每个智能体根据自己的局部观测和已完成训练的策略网络生成动作。智能体之间不进行通信,每个智能体只关注自己的局部观测和策略。该阶段中,当前服务基站的移动性管理模块决策单元为当前基站链接的多个车辆输出迁移决策和资源分配决策。
S104:根据迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程。
本发明提供了一种移动感知辅助的车联网服务迁移方法。所提出的服务迁移方法利用基站无线感知技术获取车辆的实时移动信息和信道状态,计算车辆在该边缘云覆盖范围内的预期停滞时间。考虑服务迁移过程中需要同时选择迁移目标和资源分配状态,在该方案中设计了一种移动感知辅助的多智能体近端策略优化(MAPPO)算法进行决策,克服了物联网车辆的状态环境观测局限导致的现有方法决策不稳定的问题。在决策过程中,设计了一种基于迁移目标距离的迁移成本评估机制,根据车辆的预期停留时间,迁移成本限制和通信和计算资源的限制,确定最佳的服务迁移策略,确保选择距离车辆较近且性能优异的边缘云服务器作为目标进行服务迁移,避免了现有方法主要关注迁移目标而忽略了通信资源限制导致需要频繁迁移的难题,降低了车辆计算服务的平均时延。
为了实现上述实施例,本发明还提出移动感知辅助的车联网服务迁移装置。
图4为本发明实施例提供的一种移动感知辅助的车联网服务迁移装置的结构示意图。
如图4所示,该移动感知辅助的车联网服务迁移装置包括:感知模块100,计算模块200,构建模块300,执行模块400,其中,
感知模块,用于感知车辆的位置信息;
计算模块,用于根据位置信息计算车辆在当前基站的预期停滞时间;
构建模块,用于基于所述当前基站的观测信息,以车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,观测信息包括预期停滞时间;
执行模块,用于根据迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程。
进一步地,在本发明的一个实施例中,感知模块,还用于:
通过下行信道的感知信号感知车辆的位置信息,位置信息包括车辆相对当前基站距离、车辆与基站之间的方位角以及车辆的速度。
进一步地,在本发明的一个实施例中,构建模块,还用于:
通过光纤网络共享各个基站彼此之间的接入状态、资源占用状态和所链接车辆的位置信息;
根据共享的信息构建优化模型;
将服务迁移过程建模为以最小化所有车辆的计算服务时延为优化目标的优化问题;
基于多智能体近端策略优化算法对构建的模型进行训练,从而得到最优的迁移策略和资源分配策略。
进一步地,在本发明的一个实施例中,构建模块,还用于:
将观测信息输入模型中,其中,模型包括Actor网络和Critic网络,Actor网络用于生成智能体动作,Critic网络用于估计智能体的动作值函数;
根据奖励函数和折扣因子,计算折扣奖励;
从经验回放缓冲区中随机抽样数据,计算Actor网络损失函数和Critic网络损失函数,其中,通过最大化策略梯度来更新策略网络参数,以使得智能体的策略能够生成更优的动作,通过最小化价值函数的均方误差来更新价值函数网络参数,以使模型能够更准确地估计累积奖励;
保存训练好的模型。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的移动感知辅助的车联网服务迁移方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (3)
1.一种移动感知辅助的车联网服务迁移方法,其特征在于,包括以下步骤:
感知车辆的位置信息;
根据所述位置信息计算所述车辆在当前基站的预期停滞时间;
基于所述当前基站的观测信息,以所述车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,所述观测信息包括所述预期停滞时间;
根据所述迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程;
其中,所述感知车辆的位置信息,包括:
通过下行信道的感知信号感知车辆的位置信息,所述位置信息包括车辆相对当前基站距离、车辆与基站之间的方位角以及车辆的速度,其中包括:
获取回波信号的多普勒频移 ,接收的回波信号和发送感知信号之间的时间差/>以及不同天线之间接收的回波信号之间的相位差/>,根据无线感知原理参照下述公式,计算基站所连接车辆/>的相对距离/>,方位角/>以及车辆速度/>:
车辆与所连接基站之间的相对距离计算公式为:
(1),
其中表示光速;
车辆与基站之间的方位角计算公式为:
(2),
其中表示感知信号的带宽,/> 表示接收天线上的阵元之间的距离;
车辆速度计算公式为:
(3),
其中 表示感知信号的中心频率;
其中,所述根据所述位置信息计算所述车辆在当前基站的预期停滞时间,包括:
依据三角函数余弦定理,车辆的预期停滞时间计算公式为:
(4),
其中, 表示基站 /> 的通信覆盖半径;/>表示车辆相对于基站的方向,如果车辆正在远离当前基站,/>,相反的车辆正在接近当前基站,/>;
其中,所述基于所述当前基站的观测信息,以所述车辆作为智能体,构建多智能体强化学习算法,包括:
通过光纤网络共享各个基站彼此之间的接入状态、资源占用状态和所链接车辆的位置信息;
根据共享的信息构建优化模型;
其中,所述根据共享的信息构建优化模型,包括:
将服务迁移过程建模为以最小化所有车辆的计算服务时延为优化目标的优化问题;
基于多智能体近端策略优化算法对构建的模型进行训练,从而得到最优的迁移策略和资源分配策略;
其中,所述基于多智能体近端策略优化算法对构建的模型进行训练,包括:
将观测信息输入模型中,其中,所述模型包括Actor网络和Critic网络,所述Actor网络用于生成智能体动作,所述Critic网络用于估计智能体的动作值函数;
根据奖励函数和折扣因子,计算折扣奖励;
从经验回放缓冲区中随机抽样数据,计算Actor网络损失函数和Critic网络损失函数,其中,通过最大化策略梯度来更新策略网络参数,以使得智能体的策略能够生成更优的动作,通过最小化价值函数的均方误差来更新价值函数网络参数,以使所述模型能够更准确地估计累积奖励;
保存训练好的模型;
其中,所述基于多智能体近端策略优化算法对构建的模型进行训练,还包括:通过模拟智能体的运行状态并实现智能体与决策单元构建的模拟环境进行交互,做出决策和反馈决策的奖励,具体地,
智能体的观测集合定义为:
(13),
其中表示车辆/>的位置坐标;/>和/>分别表示车辆上行信道的信道增益和干扰;/>表示剩余未被处理的数据量;/>表示车辆/>的预期停滞时间。
2.一种移动感知辅助的车联网服务迁移装置,其特征在于,包括以下模块:
感知模块,用于感知车辆的位置信息;
计算模块,用于根据所述位置信息计算所述车辆在当前基站的预期停滞时间;
构建模块,用于基于所述当前基站的观测信息,以所述车辆作为智能体,构建服务迁移环境模型,通过多智能体强化学习算法输出最优的迁移策略;其中,所述观测信息包括所述预期停滞时间;
执行模块,用于根据所述迁移策略向目标基站发起服务迁移请求,并执行预服务迁移过程;
其中,所述感知模块,还用于:
通过下行信道的感知信号感知车辆的位置信息,所述位置信息包括车辆相对当前基站距离、车辆与基站之间的方位角以及车辆的速度,其中包括:
获取回波信号的多普勒频移 ,接收的回波信号和发送感知信号之间的时间差/>以及不同天线之间接收的回波信号之间的相位差/>,根据无线感知原理参照下述公式,计算基站所连接车辆/>的相对距离/>,方位角/>以及车辆速度/>:
车辆与所连接基站之间的相对距离计算公式为:
(1),
其中表示光速;
车辆与基站之间的方位角计算公式为:
(2),
其中表示感知信号的带宽,/> 表示接收天线上的阵元之间的距离;
车辆速度计算公式为:
(3),
其中 表示感知信号的中心频率;
其中,所述根据所述位置信息计算所述车辆在当前基站的预期停滞时间,包括:
依据三角函数余弦定理,车辆的预期停滞时间计算公式为:
(4),
其中, 表示基站 /> 的通信覆盖半径;/>表示车辆相对于基站的方向,如果车辆正在远离当前基站,/>,相反的车辆正在接近当前基站,/>;
其中,所述构建模块,还用于:
通过光纤网络共享各个基站彼此之间的接入状态、资源占用状态和所链接车辆的位置信息;
根据共享的信息构建优化模型;
将服务迁移过程建模为以最小化所有车辆的计算服务时延为优化目标的优化问题;
基于多智能体近端策略优化算法对构建的模型进行训练,从而得到最优的迁移策略和资源分配策略;
其中,所述构建模块,还用于:
将观测信息输入模型中,其中,所述模型包括Actor网络和Critic网络,所述Actor网络用于生成智能体动作,所述Critic网络用于估计智能体的动作值函数;
根据奖励函数和折扣因子,计算折扣奖励;
从经验回放缓冲区中随机抽样数据,计算Actor网络损失函数和Critic网络损失函数,其中,通过最大化策略梯度来更新策略网络参数,以使得智能体的策略能够生成更优的动作,通过最小化价值函数的均方误差来更新价值函数网络参数,以使所述模型能够更准确地估计累积奖励;
保存训练好的模型;
其中,所述基于多智能体近端策略优化算法对构建的模型进行训练,还包括:通过模拟智能体的运行状态并实现智能体与决策单元构建的模拟环境进行交互,做出决策和反馈决策的奖励,具体地,
智能体的观测集合定义为:
(13),
其中表示车辆/>的位置坐标;/>和/>分别表示车辆上行信道的信道增益和干扰;/>表示剩余未被处理的数据量;/>表示车辆/>的预期停滞时间。
3.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1中所述的移动感知辅助的车联网服务迁移方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410078663.9A CN117615418B (zh) | 2024-01-19 | 2024-01-19 | 一种移动感知辅助的车联网服务迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410078663.9A CN117615418B (zh) | 2024-01-19 | 2024-01-19 | 一种移动感知辅助的车联网服务迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117615418A CN117615418A (zh) | 2024-02-27 |
CN117615418B true CN117615418B (zh) | 2024-04-12 |
Family
ID=89960121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410078663.9A Active CN117615418B (zh) | 2024-01-19 | 2024-01-19 | 一种移动感知辅助的车联网服务迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117615418B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117835329A (zh) * | 2024-03-04 | 2024-04-05 | 东北大学 | 车载边缘计算中基于移动性预测的服务迁移方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110213796A (zh) * | 2019-05-28 | 2019-09-06 | 大连理工大学 | 一种车联网中的智能资源分配方法 |
CN110647382A (zh) * | 2019-09-19 | 2020-01-03 | 中国科学院计算技术研究所 | 一种车联网服务动态迁移方法 |
CN113472844A (zh) * | 2021-05-26 | 2021-10-01 | 北京邮电大学 | 面向车联网的边缘计算服务器部署方法、装置及设备 |
WO2021233053A1 (zh) * | 2020-05-22 | 2021-11-25 | 华为技术有限公司 | 计算卸载的方法和通信装置 |
CN113918240A (zh) * | 2021-10-15 | 2022-01-11 | 全球能源互联网研究院有限公司 | 任务卸载方法及装置 |
CN114357680A (zh) * | 2022-01-06 | 2022-04-15 | 内蒙古大学 | 面向车联网边缘计算路域划分服务迁移方法以及迁移系统 |
CN114513838A (zh) * | 2022-02-28 | 2022-05-17 | 中国农业银行股份有限公司 | 移动边缘计算方法、框架和介质 |
CN116017348A (zh) * | 2022-12-08 | 2023-04-25 | 深圳创源互动科技有限公司 | 一种基于5g通信的大数据云计算实时分发运维系统及方法 |
CN116709378A (zh) * | 2023-05-04 | 2023-09-05 | 华南理工大学 | 车联网中基于联邦强化学习的任务调度与资源分配方法 |
CN116980424A (zh) * | 2023-08-30 | 2023-10-31 | 重庆邮电大学 | 一种用于车联网场景中的车辆数字孪生体边缘部署方法 |
-
2024
- 2024-01-19 CN CN202410078663.9A patent/CN117615418B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110213796A (zh) * | 2019-05-28 | 2019-09-06 | 大连理工大学 | 一种车联网中的智能资源分配方法 |
CN110647382A (zh) * | 2019-09-19 | 2020-01-03 | 中国科学院计算技术研究所 | 一种车联网服务动态迁移方法 |
WO2021233053A1 (zh) * | 2020-05-22 | 2021-11-25 | 华为技术有限公司 | 计算卸载的方法和通信装置 |
CN113472844A (zh) * | 2021-05-26 | 2021-10-01 | 北京邮电大学 | 面向车联网的边缘计算服务器部署方法、装置及设备 |
CN113918240A (zh) * | 2021-10-15 | 2022-01-11 | 全球能源互联网研究院有限公司 | 任务卸载方法及装置 |
CN114357680A (zh) * | 2022-01-06 | 2022-04-15 | 内蒙古大学 | 面向车联网边缘计算路域划分服务迁移方法以及迁移系统 |
CN114513838A (zh) * | 2022-02-28 | 2022-05-17 | 中国农业银行股份有限公司 | 移动边缘计算方法、框架和介质 |
CN116017348A (zh) * | 2022-12-08 | 2023-04-25 | 深圳创源互动科技有限公司 | 一种基于5g通信的大数据云计算实时分发运维系统及方法 |
CN116709378A (zh) * | 2023-05-04 | 2023-09-05 | 华南理工大学 | 车联网中基于联邦强化学习的任务调度与资源分配方法 |
CN116980424A (zh) * | 2023-08-30 | 2023-10-31 | 重庆邮电大学 | 一种用于车联网场景中的车辆数字孪生体边缘部署方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117615418A (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach | |
Yang et al. | Offloading time optimization via Markov decision process in mobile-edge computing | |
Li et al. | An end-to-end load balancer based on deep learning for vehicular network traffic control | |
CN117615418B (zh) | 一种移动感知辅助的车联网服务迁移方法 | |
Fan et al. | Digital twin empowered mobile edge computing for intelligent vehicular lane-changing | |
CN113543074B (zh) | 一种基于车路云协同的联合计算迁移和资源分配方法 | |
Chen et al. | Deep reinforcement learning for computation offloading in mobile edge computing environment | |
Tang et al. | Joint optimization of network selection and task offloading for vehicular edge computing | |
Shekhar et al. | URMILA: Dynamically trading-off fog and edge resources for performance and mobility-aware IoT services | |
CN113114721B (zh) | 一种基于mec的软件定义车联网服务迁移方法 | |
Guo et al. | V2V task offloading algorithm with LSTM-based spatiotemporal trajectory prediction model in SVCNs | |
Li et al. | Deep reinforcement learning-based resource allocation and seamless handover in multi-access edge computing based on SDN | |
Zheng et al. | Digital twin empowered heterogeneous network selection in vehicular networks with knowledge transfer | |
Xiao et al. | Learning while offloading: Task offloading in vehicular edge computing network | |
Xue et al. | Idle-parked vehicles assisted collaborative resource allocation in VEC based on Stackelberg game | |
Hazarika et al. | Multi-agent DRL-based computation offloading in multiple RIS-aided IoV networks | |
CN117221951A (zh) | 车载边缘环境下基于深度强化学习的任务卸载方法 | |
Hong et al. | An optimal resource allocation mechanism in vehicular MEC systems | |
Tan et al. | Overall computing offloading strategy based on deep reinforcement learning in vehicle fog computing | |
Selvamanju et al. | Deep Learning based Mobile Traffic Flow Prediction Model in 5G Cellular Networks | |
Kavaiya | Learn with Curiosity: A Hybrid Reinforcement Learning Approach for Resource Allocation for 6G enabled Connected Cars | |
Shamsadini et al. | Time-aware MDP-based Service Migration in 5G Mobile Edge Computing | |
Zhang et al. | Cybertwin-driven multi-intelligent reflecting surfaces aided vehicular edge computing leveraged by deep reinforcement learning | |
Gu et al. | Cooperative task offloading for internet of vehicles in cloud-edge computing | |
Wang et al. | Deep Reinforcement Learning Based on Parked Vehicles-Assisted for Task Offloading in Vehicle Edge Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |