CN116367223B

CN116367223B - 基于强化学习的xr服务优化方法、装置、电子设备和存储介质

Info

Publication number: CN116367223B
Application number: CN202310331397.1A
Authority: CN
Inventors: 丘家宁; 雷登凯; 谢涵
Original assignee: Guangzhou Aipu Road Network Technology Co Ltd
Current assignee: Guangzhou Aipu Road Network Technology Co Ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2024-01-02
Anticipated expiration: 2043-03-30
Also published as: CN116367223A

Abstract

本申请提供一种基于强化学习的XR服务优化方法、装置、电子设备和存储介质，其中，基于强化学习的XR服务优化方法包括：向5G核心网发送服务资源分配请求，以使5G核心网返回资源分配结果，其中，5G核心网预先设有基于强化学习算法训练生成的决策模型，强化学习算法用于基于实时网络状态和实时用户需求信息输出资源分配结果，资源分配结果包括最优SMF的信息和最优UDF的信息；UE基于最优SMF的信息和最优UDF的信息发起扩展现实服务请求，以使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。本申请能够根据实时网络状态和用户需求调整与UE连接的SMF和UDF，进而提高资源利用效率和快速应对网络拥塞、设备故障。

Description

基于强化学习的XR服务优化方法、装置、电子设备和存储介质

技术领域

本申请涉及移动通信的5G领域，具体而言，涉及一种基于强化学习的XR服务优化方法、装置、电子设备和存储介质。

背景技术

5G网络作为下一代通信技术，具有高带宽、低时延和高连接密度等优势。它为各种新兴应用提供了丰富的可能性，其中之一便是XR服务。XR服务包括虚拟现实(VR)、增强现实(AR)和混合现实(MR)，在诸如娱乐、教育、医疗、工业等领域都有广泛的应用。

为了提供高质量的XR服务，网络需要处理复杂的QoS问题，如满足不同应用场景下的带宽、时延和丢包率等要求。在5G网络中，SMF和UPF负责管理UE与核心网络之间的通信，其中SMF主要负责会话管理和策略执行，而UPF则负责用户数据的传输和处理。在使用XR服务时，UE需要与合适的SMF和UPF建立会话，以满足QoS要求。为了满足这些要求，网络需要根据UE(User Equipment，用户设备)的需求动态分配SMF(Session Management Function，会话管理功能)和UPF(User Plane Function，用户面功能)资源。然而，传统的资源分配方法往往无法适应复杂的网络环境和不断变化的用户需求，导致XR服务质量难以保障。

发明内容

本申请实施例的目的在于提供一种基于强化学习的XR服务优化方法、装置、电子设备和存储介质，用根据实时网络状态和用户需求调整与UE连接的SMF和UDF，进而提高资源利用效率和快速应对网络拥塞、设备故障。

第一方面，本发明提供一种基于强化学习的XR服务优化方法，所述方法包括：

UE组向5G核心网发送会话建立请求，以使得所述5G核心网中的AMF在接收到所述会话建立请求后基于所述用户设备所在的服务区域选择初始SMF，以使所述SMF建立与所述UE的会话连接，并向所述5G核心网发送服务资源分配请求，以使所述5G核心网返回资源分配结果，其中，所述5G核心网预先设有基于强化学习算法训练生成的决策模型，所述强化学习算法用于基于实时网络状态和实时用户需求信息输出所述资源分配结果，所述资源分配结果包括最优SMF的信息和最优UDF的信息；

所述UE基于所述最优SMF的信息和所述最优UDF的信息发起扩展现实服务请求，以使得所述5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务。

本申请第一方面能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务。

与现有技术相比，本申请能够基于实时网络状态和用户需求调整与UE连接的SMF和UDF，进而能够提高资源利用效率和快速应对网络拥塞、设备故障。

在可选的实施方式中，所述方法还包括：

构建动作空间、状态空间和奖励函数；

基于历史数据迭代执行训练步骤，以使所述决策模型基于所述动作空间、所述状态空间和奖励函数学习在给定环境状态下选择最优动作以最大化奖励，直至在达到收敛条件或满足预设终止条件。

在可选的实施方式中，所述动作空间包括选择或重选SMF和UPF的操作，所述状态空间至少包括UE组的需求、网络状态和设备性能。

在可选的实施方式中，所述训练步骤包括：

初始化Actor网络和Critic网络，并设置超参数，其中，所述超参数至少包括学习率和折扣因子；

将当前网络状态作为所述Actor网络的环境状态输入，以使所述Actor网络输出策略分布，其中，所述策略分布表示给定环境状态下执行不同动作的概率；

从所述策略分布中采样动作，并基于动作的概率确定最优SMF和最优UPF；

基于所述最优SMF和所述最优UPF对应的指标，计算奖励信号，其中，所述奖励信号表示所述给定环境状态下执行最优动作后的服务质量；

基于所述Critic网络预测在所述当前网络状态下执行所述最优动作获得的期望回报；

计算实际回报，并基于所述期望回报与所述实际回报调整网络参数，以使所述期望回报与所述实际回报之间的差距满足预设条件；

基于所述Critic网络产生的时间差分误差更新所述Actor网络，并基于梯度上升原则调整所述Actor网络的参数，以使在给定环境状态下执行最优动作的概率增加。

在可选的实施方式中，所述计算实际回报对应的计算公式为：

R_t＝r_t+γ*Q(s_(t+1)，a_(t+1))；

其中，R_t表示所述实际回报，r_t表示所述奖励信号，γ表示所述折扣因子，所述Q(s_(t+1)，a_(t+1))表示。

在可选的实施方式中，所述基于所述最优SMF和所述最优UPF对应的指标，计算奖励信号所采用的计算式为：

r_t＝w1*(B_(t+1)-B_t)-w2*(L_(t+1)-L_t)；

其中，r_t表示所述奖励信号，(B_(t+1)-B_t)表示带宽收益，(L_(t+1)-L_t)表示时延收益，w1表示所述带宽收益的权重系数，w2表示所述时延收益的权重系数。

在可选的实施方式中，所述训练步骤的训练次数为1000。

第二方面，本发明提供一种基于强化学习的XR服务优化装置，其中，所述装置应用于UE，所述装置包括：

第一发起模块，用于向5G核心网发送会话建立请求，以使得所述5G核心网中的AMF在接收到所述会话建立请求后基于所述用户设备所在的服务区域选择初始SMF，以使所述SMF建立与所述UE的会话连接，并向所述5G核心网发送服务资源分配请求，以使所述5G核心网返回资源分配结果，其中，所述5G核心网预先设有基于强化学习算法训练生成的决策模型，所述强化学习算法用于基于实时网络状态和实时用户需求信息输出所述资源分配结果，所述资源分配结果包括最优SMF的信息和最优UDF的信息；

第二发起模块，用于基于所述最优SMF的信息和所述最优UDF的信息发起扩展现实服务请求，以使得所述5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务。

本申请第二方面的装置通过执行基于强化学习的XR服务优化方法，进而能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务。

第三方面，本发明提供一种电子设备，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行如前述实施方式任一项所述的基于强化学习的XR服务优化方法。

本申请第三方面的电子设备通过执行基于强化学习的XR服务优化方法，进而能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务。

第四方面，本发明提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行如前述实施方式任一项所述的基于强化学习的XR服务优化方法。

本申请第四方面的存储介质通过执行基于强化学习的XR服务优化方法，进而能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种基于强化学习的XR服务优化方法的流程示意图；

图2是本申请实施例公开的一种基于强化学习的XR服务优化装置的结构示意图；

图3是本申请实施例公开的一种电子设备的结构示意图。

具体实施方式

首先，对本申请实施例可能涉及的技术术语进行说明。

NF Network Function网络功能；

PCF Policy Control function策略控制功能；

AF Application Function网络应用功能；

NEF Network Exposure Function网络开放功能；

NRF NF Repository Function网络存储功能；

S-NSSAI Single Network Slice Selection Assistance Information网络切片选择辅助信息；

SEPP Security Edge Protection Proxies安全边缘保护代理；

V-PLMN Visited Public Land Mobile Network拜访地公共陆地移动网络；

H-PLMN Home Public Land Mobile Network归属地公共陆地移动网络；

SMF Session Management Function会话管理功能；

AMF Access and Mobility Management Function接入和移动性管理功能；

UDM The Unified Data Management统一数据管理功能；

SLAService Level Agreement服务水平协议；

NWDAF Network Data Analytics Function网络数据分析功能。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

实施例一

请参阅图1，图1是本申请实施例公开的一种基于强化学习的XR服务优化方法的流程示意图，如图1所示，本申请实施例的方法包括以下步骤：

101、UE组向5G核心网发送会话建立请求，以使得5G核心网中的AMF在接收到会话建立请求后基于用户设备所在的服务区域选择初始SMF，以使SMF建立与UE的会话连接，并向5G核心网发送服务资源分配请求，以使5G核心网返回资源分配结果，其中，5G核心网预先设有基于强化学习算法训练生成的决策模型，强化学习算法用于基于实时网络状态和实时用户需求信息输出资源分配结果，资源分配结果包括最优SMF的信息和最优UDF的信息；

102、UE基于最优SMF的信息和最优UDF的信息发起扩展现实服务请求，以使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。

本申请实施例能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。

与现有技术相比，本申请实施例能够基于实时网络状态和用户需求调整与UE连接的SMF和UDF，进而能够提高资源利用效率和快速应对网络拥塞、设备故障。

在本申请实施例中，示例性地，假设在t0时刻，UE与第一SMF和第一UDF连接，而在t0时刻之后的t1时刻，网络状态发生了改变，例如，一SMF和第一UDF所在的网路的堵塞程度提高，此时，第一SMF和第一UDF提供的服务质量下降，如果继续保持第一SMF和第一UDF与UE连接，即继续通过第一SMF和第一UDF向UE提供XR服务，则服务质量无法要求要求，针对这一场景，利用决策模型可基于实时的网络状态从多个其他SMF中选择一个SMF作为最优SMF，和从多个其他AMF中选择一个UDF作为最优UDF，从而基于最优UDF和最优SMF向UE提供XR服务。进一步地，由于通过决策模型总是能基于最优SMF和最优UDF向UE提供XR服务，因此XR服务的时延更低、更高效。

在本申请实施例中，UE组是指多个UE组成的集合，例如，UE组包括3个用户设备，相应地，最优SMF和最优UDF可向多个UE提供XR服务。相应地，UE组

在本申请实施例中，AMF中可保存多个SMF的配置信息，进而可基于多个SMF的配置信息从多个SMF选择初始SMF，相应地，AMF可基于用户设备所在的服务区域，从多个SMF中选择服务区域内的SMF作为初始SMF。

在本申请实施例中，5G核心网中可具有专用网元，其中，决策模型可预先安装在该专用网元中，进一步地，该专用网元可以接收历史数据，从而基于历史数据迭代训练决策模型，此外，初始SMF可向专用网元发送服务资源分配请求，进而专用网元利用决策模型输出资源分配结果，并将资源分配结果返回初始SMF返回资源分配结果，从而UE基于最优SMF的信息和最优UDF的信息，发起扩展现实服务请求。

在本申请实施例中，专用网元可以是指布设在5G核心网中的服务器。

在本申请实施例中，作为一种可选的实施方式中，本申请实施例的方法还包括以下步骤：

构建动作空间、状态空间和奖励函数；

基于历史数据迭代执行训练步骤，以使决策模型基于动作空间、状态空间和奖励函数学习在给定环境状态下选择最优动作以最大化奖励，直至在达到收敛条件或满足预设终止条件。

在可选的实施方式中，动作空间包括选择或重选SMF和UPF的操作，状态空间至少包括UE组的需求、网络状态和设备性能。

在本可选的实施方式中，状态空间描述了决策模型输出资源分配结果时需要关注的状态，例如，由于网络状态对输出资源分配结果有影响，因此，决策模型需要学习网络状态与资源分配结果之间的关系，进而状态空间包括网络状态。进一步地，状态空间还包括UE组的需求，其中，UE组的需求是指当前UE需要传递语音数据，或者当UE需要传递视频交互数据，或者是指当前UE需要更高分辨率的视频数据。相应地，UE可响应用户实时操作，从而识别用户的需求。

在本可选的实施方式中，动作空间描述了决策模型在给定环境状态下可执行的动作，例如，在网络状态为网络堵塞、UE组的需求为A这一环境状态下，决策模型可以进行选择或重选SMF和UPF的操作，因此，动作空间可以包括选择或重选SMF和UPF的操作。

在本可选的实施方式中，对于在给定环境状态下，执行某一动作所带来的奖励，可先确定在给定环境状态下，执行某一动作后的XR服务质量，然后根据XR服务质量计算奖励。进一步地，奖励函数用于描述XR服务质量与奖励之间的线性关系，具体为，奖励函数描述了奖励与XR服务质量成正比关系。进一步地，关于XR服务质量，可用宽分配、时延等QoS指标衡量。

在本可选的实施方式中，基于历史数据可生成训练集和验证集，从而可基于训练集中的训练样本训练决策模型，以及，利用验证集中的样本验证决策模型的学习结果。

在本可选的实施方式中，收敛条件可是指Actor网络和Critic网络的损失函数变化低于某一阈值，例如0.001时，可确定模型已经收敛并停止训练。

在本可选的实施方式中，满足预设终止条件可以是指达到最大训练次数，或者某一窗口内，例如如最近1000次训练的平均奖励值达到设定值(如0.8)。

在本申请实施例中，作为一种可选的实施方式，本申请实施例的训练步骤包括以下步骤：

初始化Actor网络和Critic网络，并设置超参数，其中，超参数至少包括学习率和折扣因子；

将当前网络状态作为Actor网络的环境状态输入，以使Actor网络输出策略分布，其中，策略分布表示给定环境状态下执行不同动作的概率；

从策略分布中采样动作，并基于动作的概率确定最优SMF和最优UPF；

基于最优SMF和最优UPF对应的指标，计算奖励信号，其中，奖励信号表示给定环境状态下执行最优动作后的服务质量；

基于Critic网络预测在当前环境状态下执行最优动作获得的期望回报；

计算实际回报，并基于期望回报与实际回报调整网络参数，以使期望回报与实际回报之间的差距满足预设条件；

基于Critic网络产生的时间差分误差更新Actor网络，并基于梯度上升原则调整Actor网络的参数，以使在给定环境状态下执行最优动作的概率增加。

在本可选的实施方式中，Actor网络和Critic网络构成了强化学习算法，即Actor-Critic算法。

在本可选的实施方式中，学习率可以用α表示，其中，α的值可以是0.001。另一方面，折扣因子可以用γ，其中，γ的值可以是0.99。进一步地，通过学习率、折扣因子等超参数，可以控制决策模型在学习过程中的速度和稳定性。

在本可选的实施方式中，在将当前网络状态作为Actor网络的环境状态输入时，还可将状态空间中的用户需求、设备性能参数与网络状态一起作为环境状态，以作为决策模型的输入。

在本可选的实施方式中，环境状态可以用s_t表示，而策略分布可以用(a|s_t)，需要说明的是，可单一将网络状态作为环境状态的输入，此时，s_t也表示网络状态。另一方面，执行不同动作是指决策模型选择SMF和UDF的动作，其中，决策模型基于动作空间执行不同动作。

在本可选的实施方式中，从策略分布中采样动作是指识别每个动作对应的概率，相应地，基于动作的概率确定最优SMF和最优UPF可以是指将动作的概率最高对应的SMF和UD0F，例如，选择第一SMF和选择第一UDF这一动作的概率最高，则将第一SMF作为最优SMF，而将第一UDF作为最优UDF。

在本可选的实施方式中，最优SMF和最优UPF对应的指标是指QoS指标。相应地，最优动作可以是指选择最优SMF和选择最优UDF。

在本可选的实施方式中，由于奖励与服务质量成正比，因此，奖励信号也可表示给定环境状态下执行最优动作后的服务质量。另一方面，由于服务质量通过QoS指标确定，因此，可通过QoS指标计算选择最优SMF和最优UDF对应的服务质量，从而计算奖励信号。

在本可选的实施方式中，进一步可选地，步骤：基于最优SMF和最优UPF对应的指标，计算奖励信号所采用的计算式为：

r_t＝w1*(B_(t+1)-B_t)-w2*(L_(t+1)-L_t)；

其中，r_t表示奖励信号，(B_(t+1)-B_t)表示带宽收益，(B_(t+1)，B_t分别表示下一时刻的带宽分配(BandwidthAllocation)、当前时刻的带宽分配，另一方面，(L_(t+1)-L_t)表示时延收益，L_(t+1)、L_t分别表示下一时刻的时延、当前时刻的时延。进一步地，w1表示带宽收益的权重系数，w2表示时延收益的权重系数。进一步地，w1和w2用于调整带宽分配和时延在奖励信号中的相对重要性。例如，如果带宽分配对于XR服务质量的影响比时延更重要，可以设置w1>w2，如w1＝0.7，w2＝0.3。权重系数的选择取决于具体应用场景和需求。

在本可可选的实施方式中，带宽分配表示为UE组分配的总带宽(单位：Mbps)。例如，设当前时刻的总带宽为B_t(Mbps)。相应地，时延(Latency)：表示从UE组发出请求到接收到响应的总时间(单位：毫秒)。例如，设当前时刻的时延为L_t(ms)。

在本可选的实施方式中，在当前环境状态下执行最优动作获得的期望回报，也可理解为当前状态动作对的价值，其中，当前状态动作用(s_t，a_t)表示，价值用Q(s_t，a_t)表示。在本可选的实施方式，进一步可选地，计算实际回报对应的计算公式为：

R_t＝r_t+γ*Q(s_(t+1)，a_(t+1))；

其中，R_t表示实际回报，r_t表示奖励信号，γ表示折扣因子，Q(s_(t+1)，a_(t+1))表示下时刻的状态动作对的价值，其中，下时刻的状态动作对的价值也可通过Critic网络计算得到。

在本可选的实施方式中，基于期望回报与实际回报调整网络参数是指基于期望回报与实际回报调整Critic网络的参数。相应地，期望回报与实际回报之间的差距可以是指期望回报与实际回报之间的平方差，而期望回报与实际回报之间的差距满足预设条件，可以是指平方差小于预设阈值，该预设阈值可以自定义。

在本可选的实施方式中，Critic网络产生的时间差分误差可用δ表示，而在t时刻，Critic网络产生的时间差分误差可用δ_t表示，其中，δ_t＝R_t-Q(s_t，a_t)。

进一步地，基于Critic网络产生的时间差分误差更新Actor网络所采用的更新公式为：

Actor_loss＝-δ*log(P(A_t|S_t))，其中，Actor_loss表示Actor网络的损失，P(A_t|S_t)表示在S_t状态下执行动作A_t的概率。

进一步地，基于梯度上升原则调整Actor网络的参数所采用的计算公式为：

其中，θ表示Actor网络的参数，Δθ表示参数的调整结果，而/>表示梯度值，α表示学习率。

在本申请实施例中，作为一种可选的实施方式中，训练步骤的训练次数为1000。

实施例二

请参阅图2，图2是本申请实施例公开的一种基于强化学习的XR服务优化装置的结构示意图，如图2所示，本申请实施例的装置包括以下功能模块：

第一发起模块201，用于向5G核心网发送会话建立请求，以使得5G核心网中的AMF在接收到会话建立请求后基于用户设备所在的服务区域选择初始SMF，以使SMF建立与UE的会话连接，并向5G核心网发送服务资源分配请求，以使5G核心网返回资源分配结果，其中，5G核心网预先设有基于强化学习算法训练生成的决策模型，强化学习算法用于基于实时网络状态和实时用户需求信息输出资源分配结果，资源分配结果包括最优SMF的信息和最优UDF的信息；

第二发起模块202，用于基于最优SMF的信息和最优UDF的信息发起扩展现实服务请求，以使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。

本申请实施例的装置通过执行基于强化学习的XR服务优化方法，进而能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。

需要说明的是，关于本申请实施例的装置的其他详细说明，请参阅本申请实施例一的相关说明，本申请实施例对此不作赘述。

实施例三

请参阅图3，图3是本申请实施例公开的一种电子设备的结构示意图，如图3所示，本申请实施例的电子设备包括：

处理器301；以及

存储器30，配置用于存储机器可读指令，指令在由处理器执行时，执行如前述实施方式任一项的基于强化学习的XR服务优化方法。

本申请实施例的电子设备通过执行基于强化学习的XR服务优化方法，进而能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。

实施例四

本申请实施例提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行如前述实施方式任一项的基于强化学习的XR服务优化方法。

本申请实施例的存储介质通过执行基于强化学习的XR服务优化方法，进而能够利用基于强化学习算法训练生成的决策模型，对实时网络状态和实时用户需求信息进行分析，从而基于实时网络状态和实时用户需求信息确定最优SMF和最优UDF，从而使得5G核心网基于最优SMF和最优UDF向UE提供XR服务。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于强化学习的XR服务优化方法，其中，所述方法包括：

UE组向5G核心网发送会话建立请求，以使得所述5G核心网中的AMF在接收到所述会话建立请求后基于用户设备所在的服务区域选择初始SMF，以使所述SMF建立与所述UE的会话连接，并向所述5G核心网发送服务资源分配请求，以使所述5G核心网返回资源分配结果，其中，所述5G核心网预先设有基于强化学习算法训练生成的决策模型，所述强化学习算法用于基于实时网络状态和实时用户需求信息输出所述资源分配结果，所述资源分配结果包括最优SMF的信息和最优UDF的信息；

所述UE基于所述最优SMF的信息和所述最优UDF的信息发起扩展现实服务请求，以使得所述5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务；

以及，所述方法还包括：

构建动作空间、状态空间和奖励函数；

基于历史数据迭代执行训练步骤，以使所述决策模型基于所述动作空间、所述状态空间和奖励函数学习在给定环境状态下选择最优动作以最大化奖励，直至在达到收敛条件或满足预设终止条件

以及，所述训练步骤包括：

2.如权利要求1所述的方法，其特征在于，所述动作空间包括选择或重选SMF和UPF的操作，所述状态空间至少包括UE组的需求、网络状态和设备性能。

3.如权利要求1所述的方法，其特征在于，所述计算实际回报对应的计算公式为：

R_t＝r_t+γ*Q(s_(t+1)，a_(t+1))；

4.如权利要求3所述的方法，其特征在于，所述基于所述最优SMF和所述最优UPF对应的指标，计算奖励信号所采用的计算式为：

r_t＝w1*(B_(t+1)-B_t)-w2*(L_(t+1)-L_t)；

5.如权利要求4所述的方法，其特征在于，所述训练步骤的训练次数为1000。

6.一种基于强化学习的XR服务优化装置，其中，所述装置应用于UE，所述装置包括：

第二发起模块，用于基于所述最优SMF的信息和所述最优UDF的信息发起扩展现实服务请求，以使得所述5G核心网基于所述最优SMF和所述最优UDF向所述UE提供XR服务；

以及，所述装置还用于：

构建动作空间、状态空间和奖励函数；

以及，所述训练步骤包括：

7.一种电子设备，其特征在于，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行如权利要求1-5任一项所述的基于强化学习的XR服务优化方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行如权利要求1-5任一项所述的基于强化学习的XR服务优化方法。