CN109120457B - 基于分布式软件定义架构的智能云的业务处理方法 - Google Patents

基于分布式软件定义架构的智能云的业务处理方法 Download PDF

Info

Publication number
CN109120457B
CN109120457B CN201811070006.0A CN201811070006A CN109120457B CN 109120457 B CN109120457 B CN 109120457B CN 201811070006 A CN201811070006 A CN 201811070006A CN 109120457 B CN109120457 B CN 109120457B
Authority
CN
China
Prior art keywords
function
user
base station
learning
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811070006.0A
Other languages
English (en)
Other versions
CN109120457A (zh
Inventor
杨晓庆
余利
郝花雷
贺学剑
苏万荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201811070006.0A priority Critical patent/CN109120457B/zh
Publication of CN109120457A publication Critical patent/CN109120457A/zh
Application granted granted Critical
Publication of CN109120457B publication Critical patent/CN109120457B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了基于分布式软件定义架构的智能云的业务处理方法。该方法基于软件定义架构,将数据层业务和控制层业务虚拟化的分开处理,为实现基站智能化的处理用户请求的业务和自主学习式的分配处理业务所需要的资源。该系统采用分布式层次化逻辑结构设计,以闭环的方式完成基于请求式和推送式的资源分配服务,提高资源使用效率,通过推送基站有效的资源给用户提供更好的体验质量。我们首先采用低复杂度的带有用户体验质量分析的线上线下学习算法,其次,我们设计分布式用户‑基站联盟算法以实现系统的运行流程,实现基站资源的智能优化配置。

Description

基于分布式软件定义架构的智能云的业务处理方法
技术领域
本发明涉及一种基于软件定义架构和云计算的智能学习业务处理系统及方法,属于混合异构网络中自主学习式通信和智能资源分配领域。
背景技术
随着5G无线系统的发展,物联网的应用也纷至沓来如:无人机、感知网络、车联网、时控机器人等,无线世界已经实现了与人类的互联互通。这些应用所产生的数据,不可避免的涌现时空业务空前增长的现象。而用户端期望与基站建立个性化需求的服务,因为基站负责对网络用户的网络接入、资源分配和用户业务处理。因此,我们需要探索一个高效智能的业务处理机制以适应于下一代混合异构无线网络。
软件定义的架构,作为一种新的组网范式,可以通过虚拟化将数据层和控制层解耦,实现了从逻辑上对分布式小基站和移动设备的中心控制。而大数据、移动边缘计算或者雾计算也在如火如荼的发展。为及时将基站繁重的业务卸载,通过部署在网络边缘的边缘云或者雾结点为用户提供低延迟的计算服务。另外,随着强人工智能的发展,自动化和智能化已被视为是面向行业应用一种新趋势。例如,由谷歌深灵(DeepMitd)公司打造出的具有深度学习技术的围棋冠军AlphaGo,其智能化的学习技术为人工智能时代带来新的契机,其实现了类似人脑的功能:智能的实现学习。因此这种学习式的方法对计算和延迟敏感的应用展示出巨大的潜力和应用价值。
目前,没有相关工作考虑带有用户体验质量(QoE)分析的基于软件定义架构和云计算的智能学习业务处理方法。该方法是具有QoE分析的线上线下式的学习算法,实现了以请求式和推送式服务相互促进、及时反馈的良性循环模式,从而对资源进行高效的配置。
发明内容
技术问题:本发明针对上述方案中尚存的空白,提出了基于软件定义架构和云计算的智能学习业务处理系统及方法。该方法是具有用户QoE分析的线上线下式的学习算法。其以请求式和推送式服务相互促进、及时反馈的良性循环模式进行高效的资源配置。通过推送基站有效的资源为用户提供更好的体验质量。
技术方案:本发明提出一种基于分布式软件定义架构的智能云的业务处理方法。首先,我们设计双近似的线上线下强化学习算法,该算法带有用户QoE分析,通过分析将搜索空间:状态-行为对的空间降维;此外,为克服强化学习带有的延迟奖励或者惩罚,而影响到后续学习过程中根据此奖励或者惩罚计算下一时刻状态的值函数或者根据此奖励或者惩罚决定下一时刻行为的选择,为此,我们采用带有临时记录功能的资格迹进行信用评分,从而避免强化学习中具有的延迟赏罚的弊端。最后,我们设计分布式用户-基站联盟算法以展现智能业务处理系统的运行流程。
所述的智能业务处理系统运行的具体流程如下:
在基站端:
1)控制引擎业务:
C1:结合用户状态和发送的业务指令给数据引擎发送优先级的信令;
C2:调用改进的线上线下学习算法;
C3:结合基站当前状态向给数据引擎发送资源分配信令;
2)数据引擎业务:
D1:执行控制引擎发送的资源分配的信令
D2:根据式(1)计算改进的Q函数
Figure GDA0003258689300000031
的目标函数值
Figure GDA0003258689300000032
其中,θ表示QΩ(s,a)函数的权重,QΩ(s,a)表示改进的低维度的Q函数,
Figure GDA0003258689300000033
表示矩阵转置,s表示系统当前的状态,a表示系统执行的动作。
所述的Q函数表示:在强化学习中,智能体学习的目标函数。所述的智能体在我们提出的系统中表示为智能学习组件,其经过不断的试错学习经验积累,其Q学习的目标是面对若干种资源,不同用户的状态需求,在某个策略π下,将学习环境的状态转换成最优的行为,即在状态-动作空间中做出二进制变量的智能决策。
在式(1)中,θ由改进的权重式(2)计算得出:
Figure GDA0003258689300000034
其中,ξ是改进的Q函数
Figure GDA0003258689300000035
更新的学习率,ξ∈[0,1),其根据改进的经典贝尔曼方程(3)可以得到ξ的经验值,ξ=0.99。
Figure GDA0003258689300000041
Figure GDA0003258689300000042
表示从长期看,所获得的期望的奖励。R是在下一时刻(t+1)的立即回报,s′是下一状态。Pr(s′|s,a)是转移概率。Q函数是当系统处于状态s,采用相应的行为a的期望折扣累计代价(或者回报)。
Figure GDA0003258689300000043
Figure GDA0003258689300000044
分别是状态和行为的可行解集。β是折扣因子,表示改进的低维度的Q函数的学习率,其范围是[0,1)。改进的低维度的Q函数学习的最优策略通过式(4)获得。
Figure GDA0003258689300000045
所述的(2)式中δ表示:时间差分误差(TD error),即下一时刻的
Figure GDA0003258689300000046
函数的近似值与当前
Figure GDA0003258689300000047
Figure GDA0003258689300000048
的差,其由式(5)进行估计:
Figure GDA0003258689300000049
所述的(2)式中的
Figure GDA00032586893000000410
表示资格迹函数。由于强化学习具有延迟赏罚的特点,即时收益R,在所有后续时隙中,当前行为可能对当前即刻奖赏(惩罚)和后续的奖赏(惩罚)有影响。因此,引入一个资格迹的方法。该方法通过对先前已达的状态和行为分配信用或者惩罚,临时记录已达到的改进的Q函数
Figure GDA00032586893000000411
的历史,从而提供更高效的权值参考。其原理是:资格迹的每一步都积累已达的状态和行为,若当前步的状态值已达到Q值,则资格迹将会增加。若当前步的状态值未达到Q值,则资格迹将会逐渐下降,意味着当前已达的状态和行为更有资格参加学习过程。
在式(2)中,
Figure GDA00032586893000000412
表示在瞬时t时刻关于U个用户资格迹的特征向量。资格迹的更新方程如式(6)表示,
Figure GDA0003258689300000051
其中,
Figure GDA0003258689300000058
表示迹-延迟参数。
Figure GDA0003258689300000059
它将更新为当前达到的Q值。
D3:给用户返回推送的服务。
所述的改进的线上线下学习算法的步骤如下:
1)线上学习阶段:
V1:初始化参数
V2:若t<T,其中T表示一个周期,即最大的时隙数,t∈{1,2,…,T};若成立,则转V3,若不成立,则转V8;
V3:
Figure GDA0003258689300000052
利用概率ε贪婪选择下一时刻的行为,获得相应的回报和下一时刻的状态信息;
V4:观测学习环境状态和即刻代价或者回报R(t);
V5:将四元组(s,a,R(t),s′)保存到经验回放池;
V6:判断所述的改进的Q函数
Figure GDA0003258689300000053
是否收敛,若没有收敛,则根据式(7)更新所述的改进的Q函数
Figure GDA0003258689300000054
转V7;若收敛,则转到G1;
Figure GDA0003258689300000055
V7:返回在t+1时刻所述的改进的Q函数
Figure GDA0003258689300000056
的函数值
Figure GDA0003258689300000057
V8:进入下一周期。
2)线下学习阶段:
G1:权重参数赋初值;
G2:基站端计算的累计折扣回报或者代价R;
G3:判断经验池样本是否为空;若为空,转G4;若不为空,根据式(2)、(5)和(6)计算当前时刻误差权重值,并利用最小二乘法迭代更新下一时刻的权重误差函数值;
G4:判断权重误差是否小于收敛阈值,若是,则转G5;若不是,则转G6。
G5:利用梯度下降法更新参数集Ω,并根据式(10)计算Q函数值。
所述的Ω,在具体实施方式中有表述,这里不再赘述。
所述的低复杂度的Q函数参见具体实施细节中的定义部分。这里不再赘述。
G6:根据式(5)和(6)更新资格迹和TD误差,根据式(8)更新改进的低维度的Q函数。转G7;
所述的式(8)如下:
Figure GDA0003258689300000061
G7:t++;转V2。
有益效果:本发明对基于分布式软件定义架构的智能云的业务处理方法进行研究。该方法基于软件定义架构,将数据层业务和控制层业务虚拟化的分开处理,为实现基站智能化的处理用户请求服务的业务和自主学习式的分配处理业务所需要的资源。该系统采用分布式层次化逻辑结构设计,以闭环的方式完成基于请求式和推送式的资源分配服务,提高资源使用效率,通过推送基站有效的资源,为用户提供更好的体验质量,从而实现基站资源的智能优化配置。
附图说明
图1为异构网络环境中系统应用示意图;
图2为智能学习业务处理系统结构示意图;
图3为智能学习组件学习机制的过程示意图;
图4为低复杂度的线上线下学习算法流程图;
图5为基站端引擎工作流程图;
图6为用户端与基站端交互流程图;
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
基本思想:本发明基于软件定义架构和云计算的智能学习业务处理系统及方法。该方法基于软件定义架构,将数据层业务和控制层业务虚拟化的分开处理,为实现基站智能化的处理用户请求服务的业务和自主学习式的分配处理业务所需要的资源。该系统采用分布式层次化逻辑结构设计,以闭环的方式完成基于请求式和推送式的资源分配服务,提高资源使用效率,通过推送基站有效的资源为用户提供更好的体验质量。首先,我们设计双近似的线上线下强化学习算法,该算法带有用户QoE分析,通过分析将搜索空间:状态-行为对的空间降维;此外,为克服强化学习带有的延迟奖励或者惩罚,而影响到后续学习过程中根据此奖励或者惩罚计算下一时刻状态的值函数或者根据此奖励或者惩罚决定下一时刻行为的选择,为此,我们采用带有临时记录功能的资格迹进行信用评分,从而避免强化学习中具有的延迟赏罚的弊端。最后,我们设计分布式用户-基站联盟算法以展现智能业务处理系统的运行流程,实现基站资源的智能优化配置。
定义:基站端的Q函数
Figure GDA0003258689300000081
Figure GDA0003258689300000082
Figure GDA0003258689300000083
表示用户u(u∈[1,2,…,U])在时刻t,其在子信道b(b∈[1,2,…,B])上的逻辑信道的活动状态。
Figure GDA0003258689300000084
表示在时刻t,当前云资源c(c∈[1,2,…,C])的状态。
Figure GDA0003258689300000085
是个二进制变量,即yu,b(t)∈{0,1}和xu,m(t)∈{0,1},其中
Figure GDA0003258689300000086
Figure GDA0003258689300000087
Y(t)表示用户当前t时刻是否与基站建立连接;X(t)表示用户的业务是否能够被基站完全处理,如果不能完全处理则将部分业务卸载至云端处理。
对于用户设备,其是由有限的电池供电,请求业务和更新计算均消耗能量,因此,我们给出用户端Q函数的如下定义。
定义:用户端Q函数:
Figure GDA0003258689300000088
其中,
Figure GDA0003258689300000089
Figure GDA00032586893000000810
Figure GDA00032586893000000811
表示在t时刻,用户端可用的能量;
Figure GDA00032586893000000812
表示业务处理的紧急程度。其由用户发送的包结构字段获知。Q(t)=Emax-eloss(t)其中,Emax表示最大的电池能量。eloss(t)表示在t时刻消耗的能量。
通过分别对所述基站端Q函数
Figure GDA00032586893000000813
和所述用户端Q函数
Figure GDA00032586893000000814
的定义,结合用户端的QoE需求,我们对改进的Q函数进行建模。则集成的Q函数如式(9)所示:
Figure GDA0003258689300000091
其中,我们用
Figure GDA0003258689300000092
表示“定义上的等于”。
为降低由“状态-动作对”构成的Q表空间的维度灾,我们构造低复杂度的Q函数,所述的式(9)的右端第一项即用户端Q函数的定义表示为:
Figure GDA0003258689300000093
其中,求和符号表示所有用户发送的请求,若指示函数
Figure GDA0003258689300000094
的条件成立,则其值为1,否则为0。而
Figure GDA0003258689300000095
表示请求的平均代价,若用户u在时刻t时的可用能量大于收发信息的基本能量。ebase是维持通信的基本能量。在基站端用户Q函数改写为:
Figure GDA0003258689300000096
其中,
Figure GDA0003258689300000097
相似地,基站端所述的式(9)的右端第二项即基站端Q函数的定义
Figure GDA0003258689300000098
表述为:
Figure GDA0003258689300000099
其中,若子信道被占用,业务由基站单独处理,则表示系统的平均代价。则第(g,f)个H×T矩阵,即:
Figure GDA00032586893000000910
Figure GDA00032586893000000911
重写为:
Figure GDA00032586893000000912
为简便表示,我们用Ω定义参数集:
Figure GDA00032586893000000913
式(9)所描述的改进的低维度的Q函数QΩ(s,a)由式(10)重新定义:
Figure GDA0003258689300000101
因此,学习函数从原来的Q函数Q(s,a)转换为新的函数QΩ(s,a)。相应地,其复杂度从原来的指数空间降低到了多项式空间。
我们注意到,新的低复杂度的Q函数在权值和Q函数本身均进行了优化。而这与传统的Q表空间相比,依据QoE的分析,我们采用的方法明显降低了Q表的空间复杂度。
图1给出了异构网络环境中系统应用示意图。所述的智能业务处理系统10,应用于大型基站或者中型基站的场景,数据业务呈指数级上升,形成数量级样本,强化学习方法学习到目标就越准确。如图1所示,在异构的网络环境中,在宏基站6的覆盖范围内存在D2D用户1,与普通用户1或者小微基站用户3的通信环境。对于延迟敏感或者计算敏感的应用,如无人机,交互机器人等,宏基站6为满足用户严苛的用户体验,如低延迟,快速处理等,尽可能自己独立的处理用户设备发出的请求服务15,由于自身资源如数据库18,缓存等受限,如果必要情况下,基站会卸载部分业务给云端服务器9。
进一步地,基于软件定义网络的架构,我们框架分层三层:用户层2,数据层4和控制层7。用户层2:包含对需要任务卸载处理或者请求服务的普通用户1;数据层4:包含对需要任务卸载处理或者请求服务的小微基站2;控制层7:用于实现智能业务处理系统10以及云端服务器9与宏基站6的控制。
进一步地,宏基站6的资源的分配情况由智能业务处理系统10通过数据层17和控制层16反馈给宏基站6和云服务器9。
进一步地,智能业务处理系统10,主要包含虚拟控制引擎11,虚拟数据引擎12和智能学习组件13。智能业务处理系统10通过将QoE分析的结果反馈给用户,形成推送式服务14。
进一步地,用户基于推送的服务14,选择性地以请求式服务15的方式向基站申请推送式服务的资源,如此良性循环,形成完整的闭环链。
智能学习业务处理系统结构如图2所示,智能学习组件13是采用强化学习中的Q学习机制。智能学习组件相当于智能体13,其通过与学习环境001(学习对象)不断的交互,观测当前时刻t时学习环境的状态002,和行为003,及在采取某个策略下通过数据链路008将所获得的即时奖励004,数据引擎12计算下一时刻采取某个动作003比较能够获取到最大收益或者最低代价,则采用相应的行为003。并同时形成控制指令通过控制链路005发送给控制引擎11,控制引擎以推送式服务14形式发送给用户1。所述的学习环境001,包含宏基站6、数据库服务器18和云服务器9。其他标注同图1,这里不再赘述。
强化学习是在没有指导的情况下,通过探索和利用进行不断地累计经验的学习,尽管会遇到各种环境的各种不确定性。整个学习过程是通过经验回放池对经验数据进行存储,从而增加先验知识。这个过程也称为带有延迟奖励或者惩罚的试错学习。
所述的智能学习组件的学习机制过程如图3所示:观察学习环境101的当前时刻的状态s和采取某个策略的即刻奖励值(s,R)102,将当前时刻的行为a和状态s对:(s,a)114保存到经验回放池112中,并将下一时刻的元组(s,a,R(t),s′)113,保存到113中,从113中计算当前Q值
Figure GDA0003258689300000121
04,从113中获取下一时刻的状态和动作(s′,a′)110,作为目标值
Figure GDA0003258689300000122
111,利用误差函数梯度106,将目标值111和当前值104,计算误差函数的期望105,其结果利用梯度法调整权重106,利用改进的线上线下学习算法107,将调整参数后的
Figure GDA0003258689300000123
108返回给104,当前的Q值104返回最优的Q103
Figure GDA0003258689300000124
给学习环境101。从而完成完整的学习过程。
低复杂度的线上线下学习算法流程图如图4所示;该算法线上采用一步更新模式,线下进行调整学习的参数,从而降低线上边学习边调整参数这种传统学习模式的复杂度。其过程请参考改进的线上线下学习算法的步骤,这里不再赘述。
用户与站点联盟算法流程图如图5和图6所示:该算法主要阐述了软件定义的架构和学习组件的相互融合,以分布式的方式,展现出智能业务处理框架的运行流程。
上述描述仅作为本发明可实施的技术方案提出,不作为对其技术方案本身的单一限制条件。

Claims (4)

1.基于分布式软件定义架构的智能云的业务处理方法,其特征在于,基于软件定义架构的思想原理,由智能业务处理系统将数据层业务和控制层业务虚拟化的分开处理,实现基站智能化的处理用户请求业务和自主学习式的分配处理业务所需要的资源;所述的数据层业务表示数据引擎的业务,所述的控制层业务表示控制引擎的业务,所述的数据层业务和控制层业务虚拟化分开处理的运行步骤如下:
1)在基站端的控制引擎业务:
C1:结合用户状态和发送的业务指令给数据引擎发送优先级的信令;
C2:调用改进的线上线下学习算法;
C3:结合基站当前状态向数据引擎发送资源分配信令;
2)在基站端的数据引擎业务:
D1:执行控制引擎发送的资源分配的信令;
D2:根据式(1)计算改进的Q函数
Figure FDA0003258689290000011
的目标函数值:
Figure FDA0003258689290000012
其中,θ表示QΩ(s,a)函数的权重,QΩ(s,a)表示改进的低维度的Q函数,所述的改进的低维度的Q函数是当系统处于状态s,采用相应的行为a的期望折扣累计代价或者回报;
Figure FDA0003258689290000013
表示矩阵转置,s表示系统当前的状态,a表示系统执行的动作;
所述的Q函数表示:在强化学习中,智能体学习的目标函数;所述的智能体表示为智能学习组件经过不断的试错学习经验积累,其Q学习的目标是面对若干种资源,不同用户的状态需求,在某个策略π下,将学习环境的状态转换成最优的行为,即在状态-动作空间中做出二进制变量的智能决策;
在式(1)中,θ表示改进的权重由式(2)计算得出:
Figure FDA0003258689290000021
其中,t表示时刻,ξ是改进的Q函数
Figure FDA0003258689290000022
更新的学习率,ξ∈[0,1),其根据改进的经典贝尔曼方程式(3)可以得到ξ的经验值,ξ=0.99,
Figure FDA0003258689290000023
Figure FDA0003258689290000024
表示从长期看,所获得的期望的奖励;R是在下一时刻即t+1时刻的立即回报,s′是下一状态;Pr(s′|s,a)是转移概率;
Figure FDA00032586892900000213
Figure FDA00032586892900000212
分别是状态和行为的可行解集;β是折扣因子,表示改进的低维度的Q函数的学习率,其范围是[0,1);改进的低维度的Q函数学习的最优策略通过式(4)获得:
Figure FDA0003258689290000025
所述(2)式中δ表示时间差分误差即TD error,即下一时刻的
Figure FDA0003258689290000026
函数的近似值与当前
Figure FDA0003258689290000027
Figure FDA0003258689290000028
的差,时间差分误差由式(5)进行估计:
Figure FDA0003258689290000029
所述式(2)中的
Figure FDA00032586892900000210
表示资格迹函数;所述资格迹函数的更新由式(6)计算出:
Figure FDA00032586892900000211
其中,
Figure FDA00032586892900000214
表示迹-延迟参数,
Figure FDA00032586892900000215
所述的资格迹函数将更新为当前达到的Q值;
D3:给用户返回推送的服务;
所述式(1)中改进的低维度的Q函数QΩ(s,a)通过用户体验质量即QoE分析将搜索空间:状态-行为对的空间降维,实现原理是基于基站端Q函数
Figure FDA0003258689290000031
和用户端Q函数
Figure FDA0003258689290000032
的定义而得出,所述基站端Q函数
Figure FDA0003258689290000033
定义为
Figure FDA0003258689290000034
其中
Figure FDA0003258689290000035
表示用户u在t时刻占用逻辑子信道b的活动状态,其中,所述的用户u,u∈[1,2,...,U],U表示用户总数,所述的信道b,b∈[1,2,...,B],B表示子信道个数;
Figure FDA0003258689290000036
表示在时刻t,当前云端资源c的状态,c∈[1,2,...,C],C表示云端的资源总数;
Figure FDA0003258689290000037
Figure FDA0003258689290000038
表示二进制变量,其中,
Figure FDA0003258689290000039
Figure FDA00032586892900000310
Y(t)表示用户当前t时刻是否与基站建立连接;X(t)表示用户的业务是否能够被基站完全处理,如果用户的业务不能被基站完全处理则将用户的部分业务卸载至云端处理;
对于用户设备,其是由有限的电池供电,请求业务和更新计算均消耗能量,因此,用户端Q函数
Figure FDA00032586892900000318
的定义如下:
Figure FDA00032586892900000311
Figure FDA00032586892900000312
其中,
Figure FDA00032586892900000313
Figure FDA00032586892900000314
表示在t时刻用户端可用的能量,
Figure FDA00032586892900000315
其中,Emax表示最大的电池能量,eloss(t)表示在t时刻消耗的能量;
Figure FDA00032586892900000316
表示用户端在t时刻业务处理的紧急程度,所述的
Figure FDA00032586892900000319
由用户发送的包的结构字段获知;
通过分别对所述基站端Q函数
Figure FDA00032586892900000317
和所述用户端Q函数
Figure FDA0003258689290000041
的定义,结合用户端的体验质量的需求,所述改进的低维度的Q函数QΩ(s,a)由式(7)得出:
Figure FDA0003258689290000042
其中,
Figure FDA0003258689290000043
表示“定义上的等于”;
为降低由“状态-动作对”构成的Q表的空间维度,所述式(7)的右端第一项即用户端Q函数的定义表示为:
Figure FDA0003258689290000044
其中,求和符号表示所有用户发送的请求,若指示函数
Figure FDA0003258689290000045
的条件成立,则其值为1,否则为0;而
Figure FDA0003258689290000046
表示请求的平均代价,若用户u在时刻t时的可用能量大于收发信息的基本能量,ebase是维持通信的基本能量;在基站端用户的Q函数改写为:
Figure FDA0003258689290000047
其中,
Figure FDA0003258689290000048
相似地,在基站端所述的式(7)的右端第二项即基站端Q函数的定义
Figure FDA0003258689290000049
表述为:
Figure FDA00032586892900000410
其中,若子信道被占用,业务由基站单独处理,则∈g,f表示系统的平均代价,第(g,f)个H×T矩阵,即:
Figure FDA00032586892900000411
重写为
Figure FDA00032586892900000412
为简便表示,若用Ω定义参数集,
Figure FDA00032586892900000413
则式(7)的改进的低维度的QΩ(s,a)由式(8)重新定义:
Figure FDA0003258689290000051
因此,学习函数从原来的经典贝尔曼Q函数Q(s,a)转换为新的函数QΩ(s,a);相应地,所述的学习函数的复杂度从原来的指数空间降低到了多项式空间;
所述改进的低维度的Q函数QΩ(s,a)的更新,由式(9)计算:
Figure FDA0003258689290000052
其中,ξ是改进的Q函数
Figure FDA0003258689290000054
更新的学习率,ξ∈[0,1),β是折扣因子,表示其学习率,其范围是[0,1);
所述改进的线上线下学习算法是带有用户体验质量分析即QoE分析的线上线下式的学习算法,其以请求式和推送式服务相互促进、及时反馈的良性循环模式进行高效的资源配置,通过推送基站有效的资源为用户提供更好的体验质量即QoE,具体运行步骤如下:
1)线上学习阶段:
V1:初始化参数,
V2:若t<T,其中,T表示一个周期,即最大的时隙数,t∈{1,2,...,T};
若成立,则转V3,若不成立,则转V8;
V3:
Figure FDA0003258689290000053
利用概率ε贪婪选择下一时刻的行为,获得相应的回报和下一时刻的状态信息;
V4:观测学习环境状态和即刻代价或者回报R(t);
V5:将四元组(s,a,R(t),s′)保存到经验回放池;
V6:判断改进的Q函数
Figure FDA0003258689290000061
是否收敛,若没有收敛,则根据式(10)更新改进的Q函数
Figure FDA0003258689290000062
转V7;若收敛,则转到G1;
Figure FDA0003258689290000063
V7:返回在t+1时刻所述改进的Q函数
Figure FDA0003258689290000064
的函数值
Figure FDA0003258689290000065
V8:进入下一周期;
2)线下学习阶段:
G1:权重参数赋初值;
G2:基站端计算的累计折扣回报或者代价R;
G3:判断经验池样本是否为空;若为空,转G4;若不为空,根据式(2)、(5)和(6)计算当前时刻误差权重值,并利用最小二乘法迭代更新下一时刻的权重误差函数值;
G4:判断权重误差是否小于收敛阈值,若是,则转G5;若不是,则转G6;
G5:利用梯度下降法更新参数集Ω,并根据式(8)计算改进的低维度的Q函数QΩ(s,a)的函数值;
G6:分别根据式(5)和式(6)更新时间差分误差和资格迹,根据式(11)更新改进的低维度的Q函数,转G7;
所述的式(11)如下:
Figure FDA0003258689290000066
G7:t++;转V2。
2.根据权利要求1所述的基于分布式软件定义架构的智能云的业务处理方法,其特征在于,所述(2)式中的资格迹函数
Figure FDA0003258689290000071
是为克服强化学习带有的延迟奖励或者惩罚,而影响到后续学习过程中根据此奖励或者惩罚计算下一时刻状态的值函数或者根据此奖励或者惩罚决定下一时刻行为的选择,为此,采用带有临时记录功能的资格迹进行信用评分,从而避免强化学习中具有的延迟赏罚的弊端,通过对先前已达的状态和行为分配奖励或者惩罚,临时记录已达到的所述的改进的Q函数
Figure FDA0003258689290000072
从而提供更高效的权重参考。
3.根据权利要求1所述的基于分布式软件定义架构的智能云的业务处理方法,其特征在于,所述的实现基站智能化的处理用户请求业务和自主学习式的分配处理业务所需要的资源即设计分布式用户-基站联盟算法以实现系统的运行流程,通过基于软件定义网络的架构,将架构分层三层:用户层,数据层和控制层;所述的用户层即对需要任务卸载处理或者请求服务的普通用户;所述的数据层即对需要任务卸载处理或者请求服务的小微基站;所述的控制层用于实现所述的智能业务处理系统以及云端服务器与宏基站的控制。
4.根据权利要求1所述的基于分布式软件定义架构的智能云的业务处理方法,其特征在于,所述的智能业务处理系统包含控制引擎,数据引擎和智能学习组件,智能学习组件通过与学习环境不断的交互,观测当前时刻t时的学习环境的状态和行为,采取策略获得的即时奖励,数据引擎计算下一时刻采取的动作,获取最大收益或者最低代价,形成控制指令发送给所述的控制引擎,学习环境包含宏基站、数据库服务器和云服务器。
CN201811070006.0A 2018-09-13 2018-09-13 基于分布式软件定义架构的智能云的业务处理方法 Expired - Fee Related CN109120457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811070006.0A CN109120457B (zh) 2018-09-13 2018-09-13 基于分布式软件定义架构的智能云的业务处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811070006.0A CN109120457B (zh) 2018-09-13 2018-09-13 基于分布式软件定义架构的智能云的业务处理方法

Publications (2)

Publication Number Publication Date
CN109120457A CN109120457A (zh) 2019-01-01
CN109120457B true CN109120457B (zh) 2022-01-28

Family

ID=64859292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811070006.0A Expired - Fee Related CN109120457B (zh) 2018-09-13 2018-09-13 基于分布式软件定义架构的智能云的业务处理方法

Country Status (1)

Country Link
CN (1) CN109120457B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109709985B (zh) * 2019-01-21 2021-10-01 中国联合网络通信集团有限公司 一种无人机任务优化方法、装置及系统
CN109981723B (zh) * 2019-01-23 2021-11-09 桂林电子科技大学 基于深度强化学习的文件缓存处理系统及方法、通信系统
CN109982295B (zh) * 2019-03-21 2021-10-15 中国联合网络通信集团有限公司 业务模板的推送方法及业务模板的推送器
CN110022234B (zh) * 2019-04-16 2022-02-22 中国人民解放军国防科技大学 面向边缘计算的非结构化数据共享机制实现方法
CN110113195B (zh) * 2019-04-26 2021-03-30 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110290510A (zh) * 2019-05-07 2019-09-27 天津大学 支持d2d通信的分层无线网络下的边缘协作缓存方法
WO2021040592A1 (en) * 2019-08-30 2021-03-04 Telefonaktiebolaget Lm Ericsson (Publ) User plane selection using reinforcement learning
CN111913939B (zh) * 2020-08-12 2023-10-03 莫毓昌 一种基于强化学习的数据库集群优化系统及方法
CN112905315A (zh) * 2021-01-29 2021-06-04 北京邮电大学 移动边缘计算mec网络中的任务处理方法、装置及设备
CN114500604A (zh) * 2022-02-16 2022-05-13 北京信息科技大学 基于智能感知和最优传输模型的供应链监控系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
WO2017219890A1 (zh) * 2016-06-23 2017-12-28 华为技术有限公司 软件定义网络中生成路由控制动作的方法和相关设备
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017219890A1 (zh) * 2016-06-23 2017-12-28 华为技术有限公司 软件定义网络中生成路由控制动作的方法和相关设备
CN106899026A (zh) * 2017-03-24 2017-06-27 三峡大学 基于具有时间隧道思想的多智能体强化学习的智能发电控制方法
CN107911299A (zh) * 2017-10-24 2018-04-13 浙江工商大学 一种基于深度q学习的路由规划方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向绿色蜂窝网的流量预测分析与智能化基站管理策略研究;李荣鹏;《中国博士学位论文全文数据库 信息科技辑》;20170331(第03期);第51页、图1.6 *

Also Published As

Publication number Publication date
CN109120457A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109120457B (zh) 基于分布式软件定义架构的智能云的业务处理方法
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
CN112351503B (zh) 基于任务预测的多无人机辅助边缘计算资源分配方法
Chen et al. An intelligent task offloading algorithm (iTOA) for UAV edge computing network
Wang et al. Agent-enabled task offloading in UAV-aided mobile edge computing
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN110012039B (zh) 一种车联网中基于admm的任务分配与功率控制方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
Zheng et al. Digital twin empowered heterogeneous network selection in vehicular networks with knowledge transfer
CN112929849A (zh) 一种基于强化学习的可靠车载边缘计算卸载方法
CN116451934B (zh) 多无人机边缘计算路径优化与依赖任务调度优化方法及系统
CN113542376A (zh) 一种基于能耗与时延加权的任务卸载方法
Qi et al. Vehicular edge computing via deep reinforcement learning
Noman et al. Machine Learning Empowered Emerging Wireless Networks in 6G: Recent Advancements, Challenges & Future Trends
Shi et al. Energy-efficient UAV-enabled computation offloading for industrial internet of things: a deep reinforcement learning approach
Zhang et al. DeepMECagent: multi-agent computing resource allocation for UAV-assisted mobile edge computing in distributed IoT system
Lin et al. Deep reinforcement learning-based task scheduling and resource allocation for NOMA-MEC in Industrial Internet of Things
Wang et al. Improving the performance of tasks offloading for internet of vehicles via deep reinforcement learning methods
Wang et al. Cooperative End-Edge-Cloud Computing and Resource Allocation for Digital Twin Enabled 6G Industrial IoT
Li et al. Federated multiagent actor–critic learning task offloading in intelligent logistics
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN115967430A (zh) 一种基于深度强化学习的成本最优空地网络任务卸载方法
Chen et al. DRL-based Contract Incentive for Wireless-powered and UAV-assisted Backscattering MEC System
Chen et al. Deep reinforcement learning based contract incentive for UAVs and energy harvest assisted computing
Somesula et al. Deadline-aware cache placement scheme using fuzzy reinforcement learning in device-to-device mobile edge networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220128