CN110933687A

CN110933687A - 一种基于解耦的用户上下行接入方法及系统

Info

Publication number: CN110933687A
Application number: CN201911066284.3A
Authority: CN
Inventors: 孙阳; 魏婷婷; 王朱伟; 方超; 吴文君; 李萌; 张延华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-03-27

Abstract

本发明实施例提供一种基于解耦的用户上下行接入方法及系统。该方法包括：获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。本发明实施例通过将上下行解耦技术与优化强化学习算法相结合，求解得到用户节点与雾节点的最优接入状态，从而降低系统的能耗，使系统的性能得到提升。

Description

一种基于解耦的用户上下行接入方法及系统

技术领域

本发明涉及通信技术领域，尤其涉及一种基于解耦的用户上下行接入方法及系统。

背景技术

随着移动通信的快速发展，与4G无线通信相比，5G无线通信系统应实现至少1000倍的系统容量增长和10倍的能效增长。

为实现上述目标，特提出了雾无线接入网(Fog Radio Access Networks，F-RANs)，雾无线接入网将雾计算的概念融入到无线接入网的体系结构中，被认为是未来无线网络的一个很有前途的解决方案，F-RANs可以在非高峰时期在雾无线接入节点(FogAccess Points，F-APs)上缓存流行内容，有效地减轻前向链路的拥塞的问题，获得更好的性能。

上下行耦合技术是指用户与雾节点上下行接入相同基站，对于上下行业务不均衡用户，这样会存在上下行资源利用效率不平衡的问题。而现有技术中，有的使用变量松弛和优化最小化方法，将所述优化问题转化成为非混合整数线性规划问题(Mixed IntegerNon-linear Programming，MINLP)来优化无线资源分配和边缘卸载决策，这个方法需要大量的迭代才能获得最优解，计算较为复杂；还有的提出了一个基于Q学习的方法来替代马尔科夫决策过程(Markov Decision Processes，MDP)，再在此基础上提出利用深度Q网络(Deep Q Network，DQN)，将计算卸载和资源分配与强化学习相结合，降低系统的能量消耗，然而该方法仅仅考虑了上行，没有考虑下行。

发明内容

本发明实施例提供一种基于解耦的用户上下行接入方法及系统，用以解决现有技术中采用上下行耦合技术，使得上下行传输存在不平衡，资源利用率低，整体能耗高的缺陷。

第一方面，本发明实施例提供一种基于解耦的用户上下行接入方法，包括：

获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；

基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；

采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。

优选地，所述获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型，具体包括：

根据所述用户节点、所述雾节点和所述核心网在网络结构中的状态信息，获取高功率雾节点信息和若干个低功率雾节点信息；

基于所述高功率雾节点信息和所述若干个低功率雾节点信息，建立上行计算模型和下行缓存模型。

优选地，所述上行计算模型包括上行传输能耗、上行计算能耗、上行传输速率、系统总带宽和用户节点与雾节点上行链路状态表示；所述下行缓存模型包括下行传输能耗、下行传输速率、回程链路能耗和用户节点与雾节点下行链路状态表示。

优选地，所述基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题，具体包括：

基于所述上行传输能耗、所述下行传输能耗、所述用户节点与雾节点上行链路状态表示和所述用户节点与雾节点下行链路状态表示，计算所述用户节点与所述雾节点之间的计算能力之和、所述用户节点与所述雾节点之间的下行传输功率之和、上行任务执行时间和分配给所述用户节点与所述雾节点之间的带宽之和。

优选地，所述采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略，具体包括：

将强化学习的状态、动作和奖励进行描述；

获取Q学习算法，基于状态描述、动作描述和奖励描述，对所述Q学习算法进行改进，得到改进的Q学习算法；

基于所述改进的Q学习算法，对所述连接优化问题进行求解，使得所述计算能力之和不大于边缘服务器的总计算能力，所述下行传输功率之和不大于最大发射功率，所述上行任务执行时间小于预设时间间隔，所述带宽之和不大于所述系统总带宽。

优选地，所述基于所述改进的Q学习算法，对所述连接优化问题进行求解，使得所述计算能力之和不大于边缘服务器的总计算能力，所述下行传输功率之和不大于最大发射功率，所述上行任务执行时间小于预设时间间隔，所述带宽之和不大于所述系统总带宽，之后还包括：

将所述改进的Q学习算法中的Q表进行学习更新。

优选地，所述将强化学习的状态、动作和奖励进行描述，具体包括：

所述强化学习的状态包括所述用户节点与所述雾节点的计算状态、缓存状态和接入状态；

所述强化学习的动作包括所述用户节点与雾节点上行链路状态表示和所述用户节点与雾节点下行链路状态表示；

所述强化学习的奖励包括系统能耗负值。

第二方面，本发明实施例提供一种基于解耦的用户上下行接入系统，包括：

获取模块，用于获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；

建立模块，用于基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；

处理模块，用于采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述基于解耦的用户上下行接入方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述基于解耦的用户上下行接入方法的步骤。

本发明实施例提供的视频输出模式选择方法及设备，通过将上下行解耦技术与优化强化学习算法相结合，求解得到用户节点与雾节点的最优接入状态，从而降低系统的能耗，使系统的性能得到提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于解耦的用户上下行接入方法流程图；

图2为本发明实施例提供的组网模型架构图；

图3为本发明实施例提供的接入算法和比较方法之间随用户数增加整体能耗的曲线对比图；

图4为本发明实施例提供的接入算法和比较方法之间随低功耗雾节点计算能力增加整体能耗的曲线对比图；

图5为本发明实施例提供的接入算法和比较方法之间随每个缓存内容大小的增加整体能耗的曲线对比图；

图6为本发明实施例提供的接入算法和比较方法之间随输入数据增加整体能耗的曲线对比图；

图7为本发明实施例提供的一种基于解耦的用户上下行接入系统结构图；

图8为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例立足现有技术的不足，把强化学习与上下行解耦技术相结合，提出了在雾无线接入网络场景下降低能耗的最优接入方法，综合考虑了上下行，将上行业务定义为计算业务，下行业务定义为缓存业务，并将系统问题构建为一个组合优化问题，求解得到用户与雾节点的最优接入状态，从而降低系统的能耗，使系统的性能得到提升。

图1为本发明实施例提供的一种基于解耦的用户上下行接入方法流程图，如图1所示，包括：

S1，获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；

S2，基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；

S3，采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。

具体地，步骤S1中，获取组网中的用户节点信息，接入的雾节点信息，以及核心网的信息，根据上述信息构建整体的系统模型；

步骤S2中，在构建好的系统模型基础上，通过系统中上下行的各参数，建立待求解的用户节点和雾节点之间的连接优化问题；

步骤S3中，采用改进的优化强化学习算法，对上述建立的连接优化问题进行求解，得到用户节点与雾节点的最优接入策略，即满足低能耗的系统参数。

本发明实施例通过将上下行解耦技术与优化强化学习算法相结合，求解得到用户节点与雾节点的最优接入状态，从而降低系统的能耗，使系统的性能得到提升。

基于上述实施例，所述获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型，具体包括：

其中，所述上行计算模型包括上行传输能耗、上行计算能耗、上行传输速率、系统总带宽和用户节点与雾节点上行链路状态表示；所述下行缓存模型包括下行传输能耗、下行传输速率、回程链路能耗和用户节点与雾节点下行链路状态表示。

具体地，本发明实施例涉及的雾节点类型有两种：高功率的雾节点和低功率的雾节点。考虑有1个高功率的雾节点和4个低功率的雾节点。定义F为雾节点k在边缘的计算能力，包括F_low和F_high。F_low是低功率雾节点的计算能力，F_high是高功率雾节点的计算能力。4个用户随机分布于雾节点的覆盖范围区域，核心网位于雾节点的上方，两者之间的连接为回程连接，整体的网络架构如图2所示。用户向雾节点之间的传输为上行链路，即计算业务，雾节点向用户之间的传输为下行链路，即缓存业务。

首先，根据用户，雾节点，核心网状态信息，建立上行计算模型：

在提出的框架中，假定用户u的计算密集型数据需要计算，可以表示为I_u＝(R_u,Z_u)，其中R_u为输入数据的大小,Z_u为完成这些计算任务所需要的CPU周期总数。

根据测量用户与雾节点之间的距离(km)，推导路径损耗模型：

通过路径损耗模型推导增益，从而上行传输的速率可以表示为：

其中，B表示系统总带宽，

k∈K，即第k个雾节点上行所接入的用户数之和，

是用户u与雾节点k之间的上行传输功率，g_u,k为用户u与雾节点k的信道增益，

是加性高斯白噪声。

和

分别表示用户u与雾节点k的传输时延和任务执行时间，

和

可以分别表示为：

上行的能耗可以表示为：

其中，p_r为传输信号处理的恒定电路功率，f_u,k是雾节点k分配给用户u的计算能力。

上式可以进一步表示为：

然后，根据用户，雾节点，核心网状态信息，建立下行缓存模型：

假设每个雾节点可以缓存N_c个内容，每个缓存内容的大小为H，并且

为用户缓存指示。下行的传输速率经前述步骤分析可以表示为：

其中

k∈K，即第k个雾节点下行所接入的用户数之和，

是用户u与雾节点k之间的下行传输功率。如果雾节点k上缓存了用户u所需要的内容，那么下行传输的能耗可以表示为：

当雾节点k上没有用户u所要缓存的内容时，需要计算回程的能耗：

其中，

表示回程设备在支持最大数据速率

时的能量消耗，

是回程设备的功率系数，R_bh是回程交通。那么总体的能耗

可以表示为：

因此，下行的能耗可以表示为：

本发明实施例通过将系统模型中的雾节点划分为高功率雾节点和低功率雾节点，并进一步将上行计算、下行缓存和回程链路传输的传输速率以及上下行传输能耗和上行业务计算能耗进行量化，为后续建立系统连接优化问题提供了关键参数和重要评价指标。

基于上述任一实施例，所述基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题，具体包括：

具体地，在得出系统模型的一系列参数表示后，开始建立用户节点与雾节点连接的最优化问题：

本发明实施例将计算、缓存和接入作为一个优化问题来考虑，通过接入选择来降低计算和缓存整体的能耗，因此优化目标可以表示为：

s.t.

C1中

分别为上行、下行用户接入指示，保证用户u与雾节点k之间的计算能力之和不能超过边缘服务器的总计算能力，C2保证用户u与雾节点k之间的下行传输功率之和不能超过最大发射功率，C3保证上行任务u在时间间隔T_u之前完成，C4保证分配给用户u与雾节点k的带宽之和不能超过总带宽B。

本发明实施例通过获取系统模型的重要参数，建立各重要参数之间的连接关系，并建立对应的约束条件，使系统满足较低的能耗。

基于上述任一实施例，所述采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略，具体包括：

将强化学习的状态、动作和奖励进行描述；

其中，所述将强化学习的状态、动作和奖励进行描述，具体包括：

所述强化学习的奖励包括系统能耗负值。

具体地，首先分析强化学习的三个要素：状态、动作和奖励：

状态：状态可以表示为一个集合s＝{s^computing,s^cache,s^access}。s^computing代表计算状态，用户u与雾节点k的计算状态可以表示为

s^cache代表缓存状态，用户u与雾节点k的缓存状态可以表示为

s^access代表接入状态，用户u与雾节点k的接入状态可以表示为

动作：动作可以表示为一个集合

其中

代表用户u与雾节点k的上行链路是否连接，

代表用户u与雾节点k的下行链路是否连接。

奖励：对于每个步骤，代理选择当前状态为s下的动作a以生成即时奖励R(s,a)，代理的目标是从长远来看，使其获得的总报酬最大化，奖励R被视为系统能耗的负值，系统能耗是优化目标中定义的计算和缓存所产生的能耗之和。因此，奖励定义如下：

然后引入强化学习，并在该基础上进行改进。

强化学习可分为无模型强化学习和基于模型的强化学习，这取决于环境因素是否已知。无模型的强化学习算法之一为Q-learning，Q学习是经典的强化学习算法。记录Q值是一种学习方法，每个状态动作对都有一个值Q(s,a)。

Q学习算法是一种利用时序差分来解决学习控制问题的方法，Q(s,a)是行动a(a∈A)在一定时间内s状态下获得收益的期望，其中A在此之前被定义为动作的集合。环境将对代理选择的行为进行反馈。因此，该算法的主要思想是构造一个Q表来存储Q值，然后agent根据Q值选择收益最大的动作。

本发明实施例是在Q学习算法的基础上改进的。首先初始化Q表，状态s和动作a,在每次迭代时，随机选择状态s,在ΔQ>θ时,在0和1之间随机产生一个数x,如果x小于贪婪系数ε，系统随机选择一个动作，否则，系统选择一个动作a使得

执行动作a，状态s_t转换为s_t+1，观察奖励R和s_t+1，Q表可根据公式更新为

Q(s_t,a_t)＝Q(s_t,a_t)+α[R+γ maxQ(s_t+1,a)-Q(s_t,a_t)]

ΔQ＝R+γ maxQ(s_t+1,a)-Q(s_t,a_t)

本发明实施例通过对Q学习强化算法进行增强改进，对Q表值进行优化求解，实现对状态更新的收益求解转换，得到使系统最优求解的参数值。

基于上述任一实施例，所述基于所述改进的Q学习算法，对所述连接优化问题进行求解，使得所述计算能力之和不大于边缘服务器的总计算能力，所述下行传输功率之和不大于最大发射功率，所述上行任务执行时间小于预设时间间隔，所述带宽之和不大于所述系统总带宽，之后还包括：

将所述改进的Q学习算法中的Q表进行学习更新。

具体地，在得到Q表的更新公式后，执行s_t←s_t+1直到ΔQ<θ；

其中θ为阈值，α为学习率，γ为折扣因子。此处，Q学习通过不断学习更新Q表，待ΔQ<θ时，Q表停止迭代学习。

本发明实施例通过Q表不断进行学习更新，在每个状态上选择一个使最优Q值最大的动作，从而找到最优策略。

为了进一步验证本发明实施例提出的方法的性能，结合仿真实验结果进行性能分析及比较。

在仿真实验中，假设有4个低功率雾节点，1个高功率雾节点和4个UE随机分布在500*500的正方形区域。带宽B＝10MHz，低功率雾节点和高功率雾节点的最大发射功率分别设置为30dBm、38dBm。UE的最大发射功率设为23dBm。用于发送信号处理的恒定电路功率p_r＝500mW，用户u的高斯白噪声为

低功率雾节点的计算能力为F_low＝2GHz/sec。高功率雾节点的计算能力为F_high＝10GHz/sec，输入数据的大小为R_u＝4Mbit，CPU周期数Z_u(in Megacycles)服从(900,1100)的均匀分布，每个缓存内容的大小设置为H＝8Mbit，回程设备的功率系数为w_bh＝1×10^-8J/bit。

其中比较方法一为用强化学习的方法实现耦合接入，与本发明方法的区别在于上下行是耦合接入的，比较方法二为最大参考信号接收功率接入，参考信号接收功率是LTE网络中能够代表无线信号强度的关键参数之一，根据下行参考信号的强度为用户选择最大的参考信号接收功率的雾节点接入。得到结果如图3，图4，图5和图6所示。图3随着用户数增加整体能耗的变化曲线，图4为低功耗雾节点计算能力的增加整体能耗的曲线，图5为每个缓存内容的大小增加整体能耗曲线图，图6为随着输入数据的大小增加整体能耗的曲线。可以看出，相比于比较方法一和比较方法二，本发明实施例设计的用强化学习解耦上下行的方法提高了系统的性能，降低了整体的能耗。

图7为本发明实施例提供的一种基于解耦的用户上下行接入系统结构图，如图7所示，包括：获取模块71、建立模块72和处理模块73；其中：

获取模块71用于获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；建立模块72用于基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；处理模块73用于采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。

本发明实施例提供的系统用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

基于上述任一实施例，所述获取模块71包括：获取子模块711和建立子模块712；其中：

获取子模块711用于根据所述用户节点、所述雾节点和所述核心网在网络结构中的状态信息，获取高功率雾节点信息和若干个低功率雾节点信息；建立子模块712基于所述高功率雾节点信息和所述若干个低功率雾节点信息，建立上行计算模型和下行缓存模型；

基于上述任一实施例，所述建立模块72具体用于基于所述上行传输能耗、所述下行传输能耗、所述用户节点与雾节点上行链路状态表示和所述用户节点与雾节点下行链路状态表示，计算所述用户节点与所述雾节点之间的计算能力之和、所述用户节点与所述雾节点之间的下行传输功率之和、上行任务执行时间和分配给所述用户节点与所述雾节点之间的带宽之和。

基于上述任一实施例，所述处理模块73包括描述子模块731、改进子模块732和求解子模块733；其中：

描述子模块731用于将强化学习的状态、动作和奖励进行描述；改进子模块732用于获取Q学习算法，基于状态描述、动作描述和奖励描述，对所述Q学习算法进行改进，得到改进的Q学习算法；求解子模块733用于基于所述改进的Q学习算法，对所述连接优化问题进行求解，使得所述计算能力之和不大于边缘服务器的总计算能力，所述下行传输功率之和不大于最大发射功率，所述上行任务执行时间小于预设时间间隔，所述带宽之和不大于所述系统总带宽。

所述强化学习的奖励包括系统能耗负值。

基于上述任一实施例，所述处理模块73还包括更新子模块734，所述更新子模块734用于将所述改进的Q学习算法中的Q表进行学习更新。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型；基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题；采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于解耦的用户上下行接入方法，其特征在于，包括：

2.根据权利要求1所述的基于解耦的用户上下行接入方法，其特征在于，所述获取用户节点、雾节点和核心网的网络结构信息，根据所述网络结构信息构建系统模型，具体包括：

3.根据权利要求1所述的基于解耦的用户上下行接入方法，其特征在于，所述上行计算模型包括上行传输能耗、上行计算能耗、上行传输速率、系统总带宽和用户节点与雾节点上行链路状态表示；所述下行缓存模型包括下行传输能耗、下行传输速率、回程链路能耗和用户节点与雾节点下行链路状态表示。

4.根据权利要求3所述的基于解耦的用户上下行接入方法，其特征在于，所述基于所述系统模型，建立所述用户节点与所述雾节点的连接优化问题，具体包括：

5.根据权利要求4所述的基于解耦的用户上下行接入方法，其特征在于，所述采用优化强化学习算法，对所述连接优化问题进行求解，得到所述用户节点与所述雾节点的最优接入策略，具体包括：

将强化学习的状态、动作和奖励进行描述；

6.根据权利要求5所述的基于解耦的用户上下行接入方法，其特征在于，所述基于所述改进的Q学习算法，对所述连接优化问题进行求解，使得所述计算能力之和不大于边缘服务器的总计算能力，所述下行传输功率之和不大于最大发射功率，所述上行任务执行时间小于预设时间间隔，所述带宽之和不大于所述系统总带宽，之后还包括：

将所述改进的Q学习算法中的Q表进行学习更新。

7.根据权利要求5所述的基于解耦的用户上下行接入方法，其特征在于，所述将强化学习的状态、动作和奖励进行描述，具体包括：

所述强化学习的奖励包括系统能耗负值。

8.一种基于解耦的用户上下行接入系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于解耦的用户上下行接入方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于解耦的用户上下行接入方法的步骤。