CN108092804B - 基于Q-learning的电力通信网效用最大化资源分配策略生成方法 - Google Patents

基于Q-learning的电力通信网效用最大化资源分配策略生成方法 Download PDF

Info

Publication number
CN108092804B
CN108092804B CN201711305013.XA CN201711305013A CN108092804B CN 108092804 B CN108092804 B CN 108092804B CN 201711305013 A CN201711305013 A CN 201711305013A CN 108092804 B CN108092804 B CN 108092804B
Authority
CN
China
Prior art keywords
power communication
resource
resource allocation
pcb
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711305013.XA
Other languages
English (en)
Other versions
CN108092804A (zh
Inventor
谢小军
卓文合
于浩
吴非
金鑫
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711305013.XA priority Critical patent/CN108092804B/zh
Publication of CN108092804A publication Critical patent/CN108092804A/zh
Application granted granted Critical
Publication of CN108092804B publication Critical patent/CN108092804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于Q‑learning的电力通信网效用最大化资源分配策略生成方法,包括如下步骤:构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;资源管理仿真平台获取电力通信网基础设施的信息;资源管理仿真平台获取电力通信业务的信息;资源管理仿真平台基于Q‑learning生成电力通信业务的资源分配策略。本发明方法具有较快的收敛速度,通过与静态资源分配算法和动态资源分配算法的比较,验证了本发明方法在保证资源利用率较高的情况下,电力业务取得了较高的效用值,满足了更多业务的资源需求,提高了用户的满意度。

Description

基于Q-learning的电力通信网效用最大化资源分配策略生成 方法
技术领域
本发明涉及电力通信网资源分配技术领域,具体涉及一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法。
背景技术
智能电网业务的快速发展,对电力通信网的资源需求逐渐增多。网络虚拟化技术是当前网络转型的关键技术,在QoS保障方面具有较大优势。网络虚拟化环境下,电力通信网包括电力通信网基础设施(PTNI,Power Telecommunication Network Infrastructure)和电力通信业务(PCB,Power Communication Business),其中PTNI创造和管理基础网络,包含计算节点、链路资源等物理资源,而PCB根据电力通信用户的需求,为用户提供差异性服务。在此背景下,关于如何提高底层网络资源的利用率方面,已有较多研究有效的解决了虚拟化资源分配问题,提高了底层节点或链路资源的利用率。但是,已有研究没有很好的解决如何满足较多业务需求、提高用户满意度方面的问题。
发明内容
为了在提高电力通信网资源利用率的基础上,尽可能满足较多的业务需求,本发明建立了电力通信网资源分配模型,并提出了基于Q-learning的电力通信网效用最大化的资源分配策略生成方法,具体包括如下步骤:
1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;
2)资源管理仿真平台获取电力通信网基础设施的信息;
3)资源管理仿真平台获取电力通信业务的信息;
4)资源管理仿真平台基于Q-learning生成电力通信业务的资源分配策略。
步骤1)中,所述电力通信网基础设施用于向资源管理仿真平台上报资源供给信息,电力通信业务用于向资源管理仿真平台提出资源需求信息,资源管理仿真平台用于对电力通信网基础设施进行抽象、登记及分配。
步骤2)中,设电力通信网基础设施的集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报计算资源和链路资源的数量。
步骤3)中,假设存在M个电力通信业务,第j个PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量;
PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为
Figure GDA0001625715710000021
gk表示用户userk被分配的资源,rk表示用户userk使用的资源;
定义用户userk的效用函数为平均端到端用户的延迟,公式如下:
Figure GDA0001625715710000022
其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟.
Figure GDA0001625715710000023
表示链路效用函数的队列延迟;
定义PCBj的效用函数:
Figure GDA0001625715710000024
其中,αk是用户userk的权重;
PCBj每次提出资源需求时,选择的分配资源数量策略为
Figure GDA0001625715710000025
PCBj的所有策略构成的策略集Bi,即bi∈Bi
步骤4)中,设定资源管理仿真平台的目标为最大化所有电力通信业务的效用,公式如下:
Figure GDA0001625715710000026
其中
Figure GDA0001625715710000027
表示所有PTNI链路资源的带宽容量;
资源管理仿真平台定义PCBj的支付为τj,公式如下:
Figure GDA0001625715710000028
其中,
Figure GDA0001625715710000031
表示公式(4)的最优解,即
Figure GDA0001625715710000032
表示PCBj参与资源分配,但不计算PCBj的效用时公式(4)的最优解;
PCBj的效用函数定义:
Figure GDA0001625715710000033
步骤4)具体包括以下步骤:
41)建立基于Q-Learning的策略选择模块与环境的交互模型;
42)确定Q-learning理论要素;
43)运行基于Q-learning的电力通信业务的资源分配策略生成方法,生成电力通信网效用最大化资源分配策略。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。
由以上技术方案可知,本发明方法具有较快的收敛速度,通过与静态资源分配算法和动态资源分配算法的比较,验证了本发明方法在保证资源利用率较高的情况下,电力业务取得了较高的效用值,满足了更多业务的资源需求,提高了用户的满意度。
附图说明
图1为本发明的流程示意图;
图2为本发明中电力通信网资源管理模型的示意图;
图3为本发明中策略选择模块与环境交互模型示意图;
图4为本发明的PCB1最优动作的选择过程的示意图;
图5为本发明的PCB2最优动作的选择过程的示意图;
图6为本发明的PTNI资源的平均利用率比较的示意图;
图7为本发明的PCB的总效用比较的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
在本发明的方案中,为了在提高电力通信网资源利用率的基础上,尽可能满足较多的业务需求,本发明提供了一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法,如图1所示,包括以下步骤:
101)构建电力通信网资源管理模型,该模型包括资源管理仿真平台、电力通信网基础设施、电力通信业务三部分。
本发明提出的电力通信网资源管理模型如图2所示,该模型通过引入一类“资源管理仿真平台”实体,将资源分配问题转化为由电力通信网基础设施层、资源管理仿真平台、电力通信业务三方组成的博弈过程。其中,电力通信网基础设施向资源管理仿真平台上报资源供给信息,电力通信业务向资源管理仿真平台提出资源需求信息,资源管理仿真平台对电力通信网基础设施进行抽象、登记及分配。
102)资源管理仿真平台获取电力通信网基础设施(PTNI,PowerTelecommunication Network Infrastructure)的信息。
设PTNI集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报可以提供的计算资源和链路资源的数量,设PTNIi的计算资源的固定平均成本为
Figure GDA0001625715710000041
计算资源的单位成本为
Figure GDA0001625715710000042
计算资源的最大容量为
Figure GDA0001625715710000043
PTNIi的链路资源的固定平均成本为
Figure GDA0001625715710000044
链路资源的单位成本为
Figure GDA0001625715710000045
链路资源的最大容量为
Figure GDA0001625715710000046
103)资源管理仿真平台获取电力通信业务(PCB,Power CommunicationBusiness)的信息;
假设存在M个PCB,第j个PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量。PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为
Figure GDA0001625715710000047
gk表示用户userk被分配的资源,rk表示用户userk使用的资源.在文献[21]中,用户的效用函数被定义为平均端到端用户的延迟:
Figure GDA0001625715710000048
其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟.
Figure GDA0001625715710000051
表示链路效用函数的队列延迟,并且函数
Figure GDA0001625715710000052
是严格凹函数。基于此,本发明设定用户userk的效用函数为式(2).网络虚拟化环境可以提供链路延迟有保障的虚拟链路资源,本发明将所有链路的延迟均设置为1ms.式(2)表示用户效用函数的目标是最小化用户的端到端延迟:
Figure GDA0001625715710000053
Figure GDA0001625715710000054
定义PCBj的效用函数为公式(3),其中,αk是用户userk的权重.PCBj每次提出资源需求时,选择的分配资源数量策略为
Figure GDA0001625715710000055
PCBj的所有策略构成的策略集Bi,即bi∈Bi.PCBj的最优资源需求策略
Figure GDA0001625715710000056
表示PCBj对于网络带宽的最优资源分配量.电力通信网运行决策和仿真系统的目标是基于所有PCB的资源需求,生成最优的资源分配策略集合,并确保资源分配策略集合中包含尽可能多的PCB的最优资源分配策略。本发明中考虑PCBj的策略集为离散集合,策略集Bi中包含PCBj的真实资源需求
Figure GDA0001625715710000057
Figure GDA0001625715710000058
在每次进行资源分配时,所有PCB的资源需求信息由M维向量b来表示,即b={b1,b2,...,bM}。
104)资源管理仿真平台基于Q-learning的PCB资源分配策略生成算法生成PCB资源分配策略。
为了提高尽可能多的PCB用户的满意度,本发明设定资源管理仿真平台的目标是最大化所有PCB的效用:
Figure GDA0001625715710000059
其中
Figure GDA00016257157100000510
表示所有PTNI链路资源的带宽容量,约束条件表明所有PCB被分配的资源总和要小于PTNI的资源容量。
资源管理仿真平台定义PCBj的支付为τj,表示PCBj未加入网络时,网络中所有PCB的效用函数和,减去PCBj加入网络后其它PCB的效用函数和,如式(5)所示.
Figure GDA0001625715710000061
其中,
Figure GDA0001625715710000062
表示方程(4)的最优解,即
Figure GDA0001625715710000063
表示PCBj参与资源分配,但不计算PCBj的效用时式(4)的最优解。
综上所述,PCBj的效用函数定义为:
Figure GDA0001625715710000064
从式(6)可知,PCBj获得的资源数与提出的资源需求策略bj相一致时,PCBj可以获得收益最大化。如何选择bj值,不但与PCB本身的用户信息相关,而且与其它PCB策略相关。从式(6)可知,PCB的效用与它为用户提供的服务的平均端到端的延迟相关,所以,链路资源的带宽容量是资源约束瓶颈。因此,本发明主要解决带宽容量的瓶颈问题。
下面将Q学习理论应用到求解PCB最优资源分配策略生成问题。在仿真部分,将对该算法进行验证。
1)基于Q-Learning的策略选择模块与环境的交互
将Q-Learning应用于PCB的资源分配量策略选择问题,建立如图3所示的基于Q-Learning的策略选择模块与环境交互模型。在当前状态s选择特定动作a后,从外部环境得到回报r,通过观察下一个状态snext和得到Q(s,a)的值,可以判定是否进行下一次迭代。
2)Q-learning理论要素确定
为了使用Q-Learning求解PCB的最优资源分配策略,需要确定Q-Learning算法中用到的状态空间、动作集合、激励函数、搜索策略等关键要素,下面进行详细讨论。
21)状态空间的选择
将提出资源分配的PCB作为状态空间,令状态变量Si=PCBj,j=1,2,...,M,j为提出资源分配的PCB的序号,那么S={PCB1,PCB2,...,PCBM}。所以,当分配资源时,通过状态转移实现给所有PCB分配资源,当遍历完所有的状态,算法就结束。
22)动作集合的确定
资源分配问题的动作设定为当前PCB分配的资源数量,由于每个PCB的用户数量和每个用户分配的服务规模都随着时间,有一定的规律性,可以使用预测算法进行求解。例如,使用一次指数平滑法计算。计算出当前PCB分配的资源数量req后,以初始值star开始,以步长为step,将star与req相加,求出包括y个动作的当前PCB的动作集合A={a1,...,ay}。例如,req=100,star=-6,step=2,则,当前PCB的动作集合为{94,96,98,100,102}。
23)激励函数设计
本发明的目标是求解PCB的最优资源分配数量,实现PCB的效用最大化,所以,本发明将PCB使用当前资源分配策略获得的效用值,定义为PCB从每个完成的拍卖阶段获得的立即奖励R,激励函数定义为式(7),其中R(s,a)表示在当前状态s下,执行动作a时获得的立即回报,由于本发明将PCB获得的效用作为评价Q学习算法性能的指标,所以,PCB获得的效用值越大,表明Q学习算法的效果越好。
R(s,a)=ψ(s,a) (7)
24)搜索策略
搜索策略是探索未知的动作和利用已知的最优动作【24,27】,本发明使用ε-贪婪算法(ε-greedy),即,在状态s下,以概率ε随机选择动作a,以概率1-ε选择具有最大Q值的动作,即
Figure GDA0001625715710000071
Figure GDA0001625715710000072
其中,Q(s,a)表示在当前状态s和执行当前动作a的环境下,PCB可以得到的期望回报的估计值;snext∈S是在当前状态s执行动作a时,系统转换到的下一个状态;γ被定义为折扣因子,取值为0≤γ≤1,表示将来的回报折算成当前回报的系数.γ取值越大,表示将来的回报对当前的Q值影响越大。
Figure GDA0001625715710000073
为状态snext时,可以采取的动作集合。从式(9)可知,当前Q值包括当前状态下执行当前动作得到的立即回报,加上执行后续状态时Q的γ折扣值。
3)基于Q-learning的PCB资源分配策略生成方法
从确定Q-learning的关键理论要素部分可知,Q-learning是通过迭代学习最优的Q(s,a),并计算Q值对累积回报的估计值来寻找最优化的策略。基于此,本发明提出的基于Q-learning的PCB分配资源策略生成算法的步骤如下:
(1)随机初始化Q值矩阵Q=[Q(s,a)]M×Y.随机选择状态作为环境的初始状态;
(2)对每一次资源分配,重复执行下面的过程,直到满足结束条件:
a)查找Q矩阵中具有Q值最大的状态作为当前的激活状态s,即
Figure GDA0001625715710000081
b)基于当前的状态S=PCBj,根据ε-greedy算法,选择对应当前状态的动作an;对于状态SPj,执行动作an,并将结果带人式(7),计算执行动作an的收益;
c)使用式(9)更新当前状态s下采取动作a的Q值Q(s,a),并将Q矩阵中行号为i或者列号为j的Q值进行标记,其余的Q值不进行更新;
d)选择Q矩阵中除已经标记的Q值外的,具有最大Q值的状态作为当前的激活状态s';
e)返回到(2)重新执行,直到所有的状态都执行完毕。
本发明方法的性能分析
1)环境
本发明使用Matlab环境进行仿真,仿真中包括10个PTNI作为资源供给者,10个PCB作为资源需求者。PTNI的固定启动成本
Figure GDA0001625715710000082
Figure GDA0001625715710000083
都服从均匀分布(25,50),资源单位成本
Figure GDA0001625715710000084
Figure GDA0001625715710000085
都服从均匀分布(1.5,2.5),资源的最大供给量
Figure GDA0001625715710000086
Figure GDA0001625715710000087
都服从均匀分布(25,50)。设定PCB分配的计算资源容量与链路资源容量数量相同,PCB的资源分配量从初始600,步长50递增,直到卖者的总供给量,随机分布到所有的PCB当中。
2)评价指标
(1)PTNI的资源平均利用率
PTNI的资源平均利用率定义为被使用的PTNI资源数量除以总的PTNI资源数量;
Figure GDA0001625715710000091
(2)所有PCB的总效用
所有PCB的总效用定义为所有PCB的效用之和;
Figure GDA0001625715710000092
3)、验证基于Q-learning的PCB资源分配量策略选择算法的优劣。
本部分实验包括三部分:(1)通过性能分析,选取合适的γ、ε取值;(2)验证基于Q-learning的PCB的资源分配量策略生成算法的收敛速度;(3)验证本发明算法生成的资源分配策略的有效性.实验中动作集合的动作包括5个动作。
(1)选取合适的γ、ε取值
因为本发明的基于Q-learning的PCB资源分配策略生成算法的效率与γ、ε取值关系密切,通过仿真实验获得了γ在(0.1,0.9)范围、ε在(0.1,0.9)范围取值时,所有PCB获得最优分配策略时的平均迭代次数。从表1可知,当γ取值0.1,ε取值0.9时,PCB获得最优分配策略时的平均迭代次数最少.所以,在后面的实验中,本发明设置γ取值0.1,ε取值0.9。
表1:γ、ε取不同值时,PCB获得最优分配策略时的平均迭代次数
Figure GDA0001625715710000093
Figure GDA0001625715710000101
(2)最优动作的选择过程
为了验证基于Q-learning的PCB资源分配策略生成算法的收敛速度,随机选择两个PCB(称为PCB1,PCB2)在不同的迭代次数下,采取动作集合中不同动作{100,102,104,106,108}、{90,92,94,96,98}的概率。PCB1和PCB2选择最优动作的过程如图3、4所示。图中X轴表示算法的迭代次数;Y轴表示选择各种动作的概率.从图3、4中可知,算法通过1000次左右的迭代,PCB1和PCB2都能得到趋于稳定的最优策略。另外,PCB1的迭代次数较多.因为PCB1的立即回报比较大,导致Q值的改变量比较大.本发明的收敛条件为Q值的改变量小于10的-4次方时,才停止迭代。所以,PCB1的迭代次数比PCB2的迭代次数多。
(3)验证本发明算法生成的资源分配策略的有效性
为了验证通过使用本发明算法PCB获得资源分配策略的有效性,将本发明提出的算法与已有静态策略和动态策略进行比较:(1)直接使用预测的结果作为PCB资源分配的资源数量,模拟静态的资源分配策略.(2)在预测结果的基础上,加一个随机数字,模拟动态的资源分配策略。
PTNI资源平均利用率比较如图4所示,图中X轴表示资源分配量递增,从600开始;Y轴表示SN的平均利用率.PCB的总效用比较如图5所示,图中X轴表示资源分配量递增,从600开始;Y轴表示PCB的总效用值。
从图6和图7可知,本发明算法得到的资源分配策略可以保证PTNI资源平均利用率与静态和动态策略下的PTNI资源平均利用率区别不大。但是,本发明算法得到的资源分配策略可以保证PCB的总效用值高于静态和动态策略下的总效用值,从而可以提供更好的服务质量。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (8)

1.一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法,其特征在于,包括如下步骤:
1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;
2)资源管理仿真平台获取电力通信网基础设施的信息;
3)资源管理仿真平台获取电力通信业务的信息;
4)资源管理仿真平台基于Q-learning生成电力通信业务的资源分配策略;
步骤2)中,设电力通信网基础设施的集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报计算资源和链路资源的数量,设PTNIi的计算资源的固定平均成本为
Figure FDA0003057119220000011
计算资源的单位成本为
Figure FDA0003057119220000012
计算资源的最大容量为
Figure FDA0003057119220000013
PTNIi的链路资源的固定平均成本为
Figure FDA0003057119220000014
链路资源的单位成本为
Figure FDA0003057119220000015
链路资源的最大容量为
Figure FDA0003057119220000016
步骤3)中,假设存在M个电力通信业务,第j个电力通信业务PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量;
电力通信业务PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为
Figure FDA0003057119220000017
gk表示用户userk被分配的资源,rk表示用户userk使用的资源;
定义用户userk的效用函数为平均端到端用户的延迟,公式如下:
Figure FDA0003057119220000018
其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟,
Figure FDA0003057119220000019
表示链路效用函数的队列延迟;
定义PCBj的效用函数:
Figure FDA00030571192200000110
其中,αk是用户userk的权重;
电力通信业务PCBj每次提出资源需求时,选择的分配资源数量策略为
Figure FDA0003057119220000021
PCBj的所有策略构成的策略集Bi,即bi∈Bi
2.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤1)中,所述电力通信网基础设施用于向资源管理仿真平台上报资源供给信息,电力通信业务用于向资源管理仿真平台提出资源需求信息,资源管理仿真平台用于对电力通信网基础设施进行抽象、登记及分配。
3.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,设定用户userk的效用函数的目标是最小化用户的端到端延迟,公式如下:
Figure FDA0003057119220000022
其中,所有链路的延迟均设置为1ms。
4.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,所述电力通信业务PCBj的策略集为离散集合,策略集Bi中包含电力通信业务PCBj的真实资源需求
Figure FDA0003057119220000023
Figure FDA0003057119220000024
在每次进行资源分配时,所有电力通信业务的资源需求信息由M维向量b来表示,即b={b1,b2,...,bM}。
5.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤4)具体包括以下步骤:
41)建立基于Q-Learning的策略选择模块与环境的交互模型;
42)确定Q-learning理论要素;
43)运行基于Q-learning的电力通信业务的资源分配策略生成方法,生成电力通信网效用最大化资源分配策略。
6.根据权利要求5所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤41)中,建立基于Q-Learning的策略选择模块与环境交互模型,在当前状态s选择特定动作a后,从外部环境得到回报r,通过观察下一个状态snext和得到Q(s,a)的值,判定是否进行下一次迭代。
7.根据权利要求5所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤42)中,使用Q-Learning求解电力通信业务的最优资源分配策略,需要确定Q-Learning算法中用到的状态空间、动作集合、激励函数和搜索策略:
421)状态空间的选择:
将提出资源分配的电力通信业务作为状态空间,令状态变量Si=PCBj,j={1,2,…,M},j为提出资源分配的电力通信业务的序号;则,S={PCB1,PCB2,...,PCBM},表示将提出资源分配的电力通信业务PCBj作为状态空间S;当分配资源时,通过状态转移实现给所有电力通信业务分配资源,当遍历完所有的状态,算法结束;
422)动作集合的确定:
资源分配问题的动作设定为当前电力通信业务分配的资源数量,使用预测算法进行求解;
423)激励函数设计:
将电力通信业务使用当前资源分配策略获得的效用值,定义为电力通信业务从每个完成的拍卖阶段获得的立即奖励R,激励函数的公式如下:
R(s,a)=ψ(s,a) (7)
其中R(s,a)表示在当前状态s下,执行动作a时获得的立即回报;
424)使用ε-贪婪算法确定搜索策略:
在状态s下,以概率ε随机选择动作a,以概率1-ε选择具有最大Q值的动作,公式如下:
Figure FDA0003057119220000031
当前Q值包括当前状态下执行当前动作得到的立即回报,加上执行后续状态时Q的γ折扣值,公式如下:
Figure FDA0003057119220000032
其中,Q(s,a)表示在当前状态s和执行当前动作a的环境下,电力通信业务得到的期望回报的估计值;snext∈S是在当前状态s执行动作a时,系统转换到的下一个状态;γ被定义为折扣因子,取值为0≤γ≤1,
Figure FDA0003057119220000041
表示状态为snext时,采取的动作集合。
8.根据权利要求7所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤43)包括如下具体步骤:
431)随机初始化Q值矩阵Q=[Q(s,a)]M×Y,随机选择状态作为环境的初始状态;
432)对每一次资源分配,重复执行下面的过程,直到满足结束条件:
a)查找Q矩阵中具有Q值最大的状态作为当前的激活状态s,即
Figure FDA0003057119220000042
b)基于当前的状态S=PCBj,根据ε-greedy算法,选择对应当前状态的动作an;对于状态SPj,执行动作an,并将结果带入公式(7),计算执行动作an的收益;
c)使用公式(9)更新当前状态s下采取动作a的Q值Q(s,a),并将Q矩阵中行号为i或者列号为j的Q值进行标记,其余的Q值不进行更新;
d)选择Q矩阵中除已经标记的Q值外的,具有最大Q值的状态作为当前的激活状态s′;
e)返回到步骤a)重新执行,直到所有的状态都执行完毕。
CN201711305013.XA 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法 Active CN108092804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711305013.XA CN108092804B (zh) 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711305013.XA CN108092804B (zh) 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法

Publications (2)

Publication Number Publication Date
CN108092804A CN108092804A (zh) 2018-05-29
CN108092804B true CN108092804B (zh) 2021-07-30

Family

ID=62174183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711305013.XA Active CN108092804B (zh) 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法

Country Status (1)

Country Link
CN (1) CN108092804B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445947B (zh) * 2018-11-07 2020-11-06 东软集团股份有限公司 资源的分配处理方法、装置、设备及存储介质
CN110740054B (zh) * 2019-07-17 2022-04-01 东南大学 一种基于强化学习的数据中心虚拟化网络故障诊断方法
CN110661649B (zh) * 2019-09-05 2022-07-26 深圳供电局有限公司 一种电力通信网资源分配方法
CN113255347B (zh) * 2020-02-10 2022-11-15 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN113286269B (zh) * 2020-10-31 2023-03-07 国网河南省电力公司经济技术研究院 一种基于边缘计算的电力通信网络资源管理方法
CN112486690B (zh) * 2020-12-11 2024-01-30 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法
CN113256390A (zh) * 2021-06-16 2021-08-13 平安科技(深圳)有限公司 一种产品推荐方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956247A (zh) * 2016-04-26 2016-09-21 大连理工大学 基于基尼系数的三公调度模型构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544555A (zh) * 2013-08-22 2014-01-29 国家电网公司 一种电网调度自动化系统中的统一资源管理平台
CN103955373B (zh) * 2014-04-30 2017-06-30 浙江工商大学 一种sdn应用集成开发环境的设计方法
CN105657750B (zh) * 2015-12-29 2019-03-01 北京邮电大学 一种网络动态资源的计算方法及装置
CN106487011B (zh) * 2016-11-28 2019-06-25 东南大学 一种基于q学习的户用微电网能量优化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956247A (zh) * 2016-04-26 2016-09-21 大连理工大学 基于基尼系数的三公调度模型构建方法

Also Published As

Publication number Publication date
CN108092804A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108092804B (zh) 基于Q-learning的电力通信网效用最大化资源分配策略生成方法
Lu et al. Optimization of lightweight task offloading strategy for mobile edge computing based on deep reinforcement learning
Chen et al. Efficient task scheduling for budget constrained parallel applications on heterogeneous cloud computing systems
Hosseinioun et al. A new energy-aware tasks scheduling approach in fog computing using hybrid meta-heuristic algorithm
Kruekaew et al. Multi-objective task scheduling optimization for load balancing in cloud computing environment using hybrid artificial bee colony algorithm with reinforcement learning
Mapetu et al. Low-time complexity and low-cost binary particle swarm optimization algorithm for task scheduling and load balancing in cloud computing
Gill et al. BULLET: particle swarm optimization based scheduling technique for provisioned cloud resources
Mustafa et al. Resource management in cloud computing: Taxonomy, prospects, and challenges
Singh et al. QRSF: QoS-aware resource scheduling framework in cloud computing
Szabo et al. Science in the cloud: Allocation and execution of data-intensive scientific workflows
Witanto et al. Adaptive selection of dynamic VM consolidation algorithm using neural network for cloud resource management
Gao et al. A multi-objective ant colony system algorithm for virtual machine placement in cloud computing
Ghosh et al. A game theory based pricing strategy for job allocation in mobile grids
Kaur et al. Deep‐Q learning‐based heterogeneous earliest finish time scheduling algorithm for scientific workflows in cloud
Al-Olimat et al. Cloudlet scheduling with particle swarm optimization
Wen et al. Running industrial workflow applications in a software-defined multicloud environment using green energy aware scheduling algorithm
Tong et al. DDQN-TS: A novel bi-objective intelligent scheduling algorithm in the cloud environment
CN113822456A (zh) 一种云雾混构环境下基于深度强化学习的服务组合优化部署方法
Zhou et al. Concurrent workflow budget-and deadline-constrained scheduling in heterogeneous distributed environments
Gao et al. Com-DDPG: A multiagent reinforcement learning-based offloading strategy for mobile edge computing
Ying et al. Raven: Scheduling virtual machine migration during datacenter upgrades with reinforcement learning
Panadero et al. Multi criteria biased randomized method for resource allocation in distributed systems: Application in a volunteer computing system
Sobhanayak MOHBA: multi-objective workflow scheduling in cloud computing using hybrid BAT algorithm
Tao et al. Sensing-gain constrained participant selection mechanism for mobile crowdsensing
Shyam et al. Resource allocation in cloud computing using optimization techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant