CN108092804A - 基于Q-learning的电力通信网效用最大化资源分配策略生成方法 - Google Patents

基于Q-learning的电力通信网效用最大化资源分配策略生成方法 Download PDF

Info

Publication number
CN108092804A
CN108092804A CN201711305013.XA CN201711305013A CN108092804A CN 108092804 A CN108092804 A CN 108092804A CN 201711305013 A CN201711305013 A CN 201711305013A CN 108092804 A CN108092804 A CN 108092804A
Authority
CN
China
Prior art keywords
resource
pcb
resource allocation
user
telecom network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711305013.XA
Other languages
English (en)
Other versions
CN108092804B (zh
Inventor
谢小军
卓文合
于浩
吴非
金鑫
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711305013.XA priority Critical patent/CN108092804B/zh
Publication of CN108092804A publication Critical patent/CN108092804A/zh
Application granted granted Critical
Publication of CN108092804B publication Critical patent/CN108092804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供一种基于Q‑learning的电力通信网效用最大化资源分配策略生成方法,包括如下步骤:构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;资源管理仿真平台获取电力通信网基础设施的信息;资源管理仿真平台获取电力通信业务的信息;资源管理仿真平台基于Q‑learning生成电力通信业务的资源分配策略。本发明方法具有较快的收敛速度,通过与静态资源分配算法和动态资源分配算法的比较,验证了本发明方法在保证资源利用率较高的情况下,电力业务取得了较高的效用值,满足了更多业务的资源需求,提高了用户的满意度。

Description

基于Q-learning的电力通信网效用最大化资源分配策略生成 方法
技术领域
本发明涉及电力通信网资源分配技术领域,具体涉及一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法。
背景技术
智能电网业务的快速发展,对电力通信网的资源需求逐渐增多。网络虚拟化技 术是当前网络转型的关键技术,在QoS保障方面具有较大优势。网络虚拟化环境下, 电力通信网包括电力通信网基础设施(PTNI,Power Telecommunication Network Infrastructure)和电力通信业务(PCB,Power Communication Business),其中 PTNI创造和管理基础网络,包含计算节点、链路资源等物理资源,而PCB根据电力 通信用户的需求,为用户提供差异性服务。在此背景下,关于如何提高底层网络资源 的利用率方面,已有较多研究有效的解决了虚拟化资源分配问题,提高了底层节点 或链路资源的利用率。但是,已有研究没有很好的解决如何满足较多业务需求、提 高用户满意度方面的问题。
发明内容
为了在提高电力通信网资源利用率的基础上,尽可能满足较多的业务需求,本 发明建立了电力通信网资源分配模型,并提出了基于Q-learning的电力通信网效用 最大化的资源分配策略生成方法,具体包括如下步骤:
1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础 设施和电力通信业务;
2)资源管理仿真平台获取电力通信网基础设施的信息;
3)资源管理仿真平台获取电力通信业务的信息;
4)资源管理仿真平台基于Q-learning生成电力通信业务的资源分配策略。
步骤1)中,所述电力通信网基础设施用于向资源管理仿真平台上报资源供给 信息,电力通信业务用于向资源管理仿真平台提出资源需求信息,资源管理仿真平 台用于对电力通信网基础设施进行抽象、登记及分配。
步骤2)中,设电力通信网基础设施的集合为IPTNI={PTNI1,PTNI2,...,PTNIi}, 第i个PTNIi给资源管理仿真平台上报计算资源和链路资源的数量。
步骤3)中,假设存在M个电力通信业务,第j个PCBj给资源管理仿真平台上 报需要的计算资源和链路资源的数量;
PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用 函数为uuserk(gk,rk),gk表示用户userk被分配的资源,rk表示用户userk使用的资源;
定义用户userk的效用函数为平均端到端用户的延迟,公式如下:
其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的 链路延迟.表示链路效用函数的队列延迟;
定义PCBj的效用函数:
其中,αk是用户userk的权重;
PCBj每次提出资源需求时,选择的分配资源数量策略为PCBj的 所有策略构成的策略集Bi,即bi∈Bi
步骤4)中,设定资源管理仿真平台的目标为最大化所有电力通信业务的效用, 公式如下:
其中表示所有PTNI链路资源的带宽容量;
资源管理仿真平台定义PCBj的支付为τj,公式如下:
其中,表示公式(4)的最优解,即表 示PCBj参与资源分配,但不计算PCBj的效用时公式(4)的最优解;
PCBj的效用函数定义:
步骤4)具体包括以下步骤:
41)建立基于Q-Learning的策略选择模块与环境的交互模型;
42)确定Q-learning理论要素;
43)运行基于Q-learning的电力通信业务的资源分配策略生成方法,生成电力 通信网效用最大化资源分配策略。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优 点。
由以上技术方案可知,本发明方法具有较快的收敛速度,通过与静态资源分配 算法和动态资源分配算法的比较,验证了本发明方法在保证资源利用率较高的情况 下,电力业务取得了较高的效用值,满足了更多业务的资源需求,提高了用户的满 意度。
附图说明
图1为本发明的流程示意图;
图2为本发明中电力通信网资源管理模型的示意图;
图3为本发明中策略选择模块与环境交互模型示意图;
图4为本发明的PCB1最优动作的选择过程的示意图;
图5为本发明的PCB2最优动作的选择过程的示意图;
图6为本发明的PTNI资源的平均利用率比较的示意图;
图7为本发明的PCB的总效用比较的示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
在本发明的方案中,为了在提高电力通信网资源利用率的基础上,尽可能满足 较多的业务需求,本发明提供了一种基于Q-learning的电力通信网效用最大化资源 分配策略生成方法,如图1所示,包括以下步骤:
101)构建电力通信网资源管理模型,该模型包括资源管理仿真平台、电力通信 网基础设施、电力通信业务三部分。
本发明提出的电力通信网资源管理模型如图2所示,该模型通过引入一类“资 源管理仿真平台”实体,将资源分配问题转化为由电力通信网基础设施层、资源管 理仿真平台、电力通信业务三方组成的博弈过程。其中,电力通信网基础设施向资 源管理仿真平台上报资源供给信息,电力通信业务向资源管理仿真平台提出资源需 求信息,资源管理仿真平台对电力通信网基础设施进行抽象、登记及分配。
102)资源管理仿真平台获取电力通信网基础设施(PTNI,PowerTelecommunication Network Infrastructure)的信息。
设PTNI集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真 平台上报可以提供的计算资源和链路资源的数量,设PTNIi的计算资源的固定平均 成本为计算资源的单位成本为计算资源的最大容量为PTNIi的链路资源的固定平均成本为链路资源的单位成本为链路资源的最 大容量为
103)资源管理仿真平台获取电力通信业务(PCB,Power CommunicationBusiness)的信息;
假设存在M个PCB,第j个PCBj给资源管理仿真平台上报需要的计算资源和链 路资源的数量。PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户 userk的效用函数为uuserk(gk,rk),gk表示用户userk被分配的资源,rk表示用户userk使 用的资源.在文献[21]中,用户的效用函数被定义为平均端到端用户的延迟:
其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的 链路延迟.表示链路效用函数的队列延迟,并且函数是严格凹函数。基于此,本发明设定用户userk的效用函数为式(2).网络虚拟化环境 可以提供链路延迟有保障的虚拟链路资源,本发明将所有链路的延迟均设置为1ms. 式(2)表示用户效用函数的目标是最小化用户的端到端延迟:
定义PCBj的效用函数为公式(3),其中,αk是用户userk的权重.PCBj每次提 出资源需求时,选择的分配资源数量策略为PCBj的所有策略构成的策 略集Bi,即bi∈Bi.PCBj的最优资源需求策略表示PCBj对于网络带宽的最优资 源分配量.电力通信网运行决策和仿真系统的目标是基于所有PCB的资源需求,生 成最优的资源分配策略集合,并确保资源分配策略集合中包含尽可能多的PCB的最 优资源分配策略。本发明中考虑PCBj的策略集为离散集合,策略集Bi中包含PCBj的 真实资源需求在每次进行资源分配时,所有PCB的资源需求信息 由M维向量b来表示,即b={b1,b2,...,bM}。
104)资源管理仿真平台基于Q-learning的PCB资源分配策略生成算法生成PCB 资源分配策略。
为了提高尽可能多的PCB用户的满意度,本发明设定资源管理仿真平台的目标 是最大化所有PCB的效用:
其中表示所有PTNI链路资源的带宽容量,约束条件表明所有PCB被 分配的资源总和要小于PTNI的资源容量。
资源管理仿真平台定义PCBj的支付为τj,表示PCBj未加入网络时,网络中所 有PCB的效用函数和,减去PCBj加入网络后其它PCB的效用函数和,如式(5)所示.
其中,表示方程(4)的最优解,即表 示PCBj参与资源分配,但不计算PCBj的效用时式(4)的最优解。
综上所述,PCBj的效用函数定义为:
从式(6)可知,PCBj获得的资源数与提出的资源需求策略bj相一致时,PCBj可 以获得收益最大化。如何选择bj值,不但与PCB本身的用户信息相关,而且与其它 PCB策略相关。从式(6)可知,PCB的效用与它为用户提供的服务的平均端到端的延 迟相关,所以,链路资源的带宽容量是资源约束瓶颈。因此,本发明主要解决带宽 容量的瓶颈问题。
下面将Q学习理论应用到求解PCB最优资源分配策略生成问题。在仿真部分, 将对该算法进行验证。
1)基于Q-Learning的策略选择模块与环境的交互
将Q-Learning应用于PCB的资源分配量策略选择问题,建立如图3所示的基 于Q-Learning的策略选择模块与环境交互模型。在当前状态s选择特定动作a 后,从外部环境得到回报r,通过观察下一个状态snext和得到Q(s,a)的值,可以判 定是否进行下一次迭代。
2)Q-learning理论要素确定
为了使用Q-Learning求解PCB的最优资源分配策略,需要确定Q-Learning算 法中用到的状态空间、动作集合、激励函数、搜索策略等关键要素,下面进行详细 讨论。
21)状态空间的选择
将提出资源分配的PCB作为状态空间,令状态变量Si=PCBj,j=1,2,...,M, j为提出资源分配的PCB的序号,那么S={PCB1,PCB2,...,PCBM}。所以,当分配资 源时,通过状态转移实现给所有PCB分配资源,当遍历完所有的状态,算法就结束。
22)动作集合的确定
资源分配问题的动作设定为当前PCB分配的资源数量,由于每个PCB的用户数 量和每个用户分配的服务规模都随着时间,有一定的规律性,可以使用预测算法进 行求解。例如,使用一次指数平滑法计算。计算出当前PCB分配的资源数量req后, 以初始值star开始,以步长为step,将star与req相加,求出包括y个动作的当 前PCB的动作集合A={a1,...,ay}。例如,req=100,star=-6,step=2,则,当前PCB 的动作集合为{94,96,98,100,102}。
23)激励函数设计
本发明的目标是求解PCB的最优资源分配数量,实现PCB的效用最大化,所以, 本发明将PCB使用当前资源分配策略获得的效用值,定义为PCB从每个完成的拍卖 阶段获得的立即奖励R,激励函数定义为式(7),其中R(s,a)表示在当前状态s下, 执行动作a时获得的立即回报,由于本发明将PCB获得的效用作为评价Q学习算法 性能的指标,所以,PCB获得的效用值越大,表明Q学习算法的效果越好。
R(s,a)=ψ(s,a) (7)
24)搜索策略
搜索策略是探索未知的动作和利用已知的最优动作【24,27】,本发明使用ε- 贪婪算法(ε-greedy),即,在状态s下,以概率ε随机选择动作a,以概率1-ε选 择具有最大Q值的动作,即
其中,Q(s,a)表示在当前状态s和执行当前动作a的环境下,PCB可以得到的 期望回报的估计值;snext∈S是在当前状态s执行动作a时,系统转换到的下一个状 态;γ被定义为折扣因子,取值为0≤γ≤1,表示将来的回报折算成当前回报的系数. γ取值越大,表示将来的回报对当前的Q值影响越大。为状态snext时,可以采取 的动作集合。从式(9)可知,当前Q值包括当前状态下执行当前动作得到的立即回报, 加上执行后续状态时Q的γ折扣值。
3)基于Q-learning的PCB资源分配策略生成方法
从确定Q-learning的关键理论要素部分可知,Q-learning是通过迭代学习最 优的Q(s,a),并计算Q值对累积回报的估计值来寻找最优化的策略。基于此,本发 明提出的基于Q-learning的PCB分配资源策略生成算法的步骤如下:
(1)随机初始化Q值矩阵Q=[Q(s,a)]M×Y.随机选择状态作为环境的初始状态;
(2)对每一次资源分配,重复执行下面的过程,直到满足结束条件:
a)查找Q矩阵中具有Q值最大的状态作为当前的激活状态s,即
b)基于当前的状态S=PCBj,根据ε-greedy算法,选择对应当前状态的动作 an;对于状态SPj,执行动作an,并将结果带人式(7),计算执行动作an的收益;
c)使用式(9)更新当前状态s下采取动作a的Q值Q(s,a),并将Q矩阵中行 号为i或者列号为j的Q值进行标记,其余的Q值不进行更新;
d)选择Q矩阵中除已经标记的Q值外的,具有最大Q值的状态作为当前的激 活状态s';
e)返回到(2)重新执行,直到所有的状态都执行完毕。
本发明方法的性能分析
1)环境
本发明使用Matlab环境进行仿真,仿真中包括10个PTNI作为资源供给者,10 个PCB作为资源需求者。PTNI的固定启动成本都服从均匀分布(25,50), 资源单位成本都服从均匀分布(1.5,2.5),资源的最大供给量都服从均匀分布(25,50)。设定PCB分配的计算资源容量与链路资源容量数 量相同,PCB的资源分配量从初始600,步长50递增,直到卖者的总供给量,随机 分布到所有的PCB当中。
2)评价指标
(1)PTNI的资源平均利用率
PTNI的资源平均利用率定义为被使用的PTNI资源数量除以总的PTNI资源数量;
(2)所有PCB的总效用
所有PCB的总效用定义为所有PCB的效用之和;
3)、验证基于Q-learning的PCB资源分配量策略选择算法的优劣。
本部分实验包括三部分:(1)通过性能分析,选取合适的γ、ε取值;(2)验证基 于Q-learning的PCB的资源分配量策略生成算法的收敛速度;(3)验证本发明算法 生成的资源分配策略的有效性.实验中动作集合的动作包括5个动作。
(1)选取合适的γ、ε取值
因为本发明的基于Q-learning的PCB资源分配策略生成算法的效率与γ、ε取 值关系密切,通过仿真实验获得了γ在(0.1,0.9)范围、ε在(0.1,0.9)范围取值时, 所有PCB获得最优分配策略时的平均迭代次数。从表1可知,当γ取值0.1,ε取值 0.9时,PCB获得最优分配策略时的平均迭代次数最少.所以,在后面的实验中,本 发明设置γ取值0.1,ε取值0.9。
表1:γ、ε取不同值时,PCB获得最优分配策略时的平均迭代次数
(2)最优动作的选择过程
为了验证基于Q-learning的PCB资源分配策略生成算法的收敛速度,随机选择 两个PCB(称为PCB1,PCB2)在不同的迭代次数下,采取动作集合中不同动作{100, 102,104,106,108}、{90,92,94,96,98}的概率。PCB1和PCB2选择最优动 作的过程如图3、4所示。图中X轴表示算法的迭代次数;Y轴表示选择各种动作的 概率.从图3、4中可知,算法通过1000次左右的迭代,PCB1和PCB2都能得到趋于 稳定的最优策略。另外,PCB1的迭代次数较多.因为PCB1的立即回报比较大,导致 Q值的改变量比较大.本发明的收敛条件为Q值的改变量小于10的-4次方时,才停 止迭代。所以,PCB1的迭代次数比PCB2的迭代次数多。
(3)验证本发明算法生成的资源分配策略的有效性
为了验证通过使用本发明算法PCB获得资源分配策略的有效性,将本发明提出 的算法与已有静态策略和动态策略进行比较:(1)直接使用预测的结果作为PCB资源 分配的资源数量,模拟静态的资源分配策略.(2)在预测结果的基础上,加一个随机 数字,模拟动态的资源分配策略。
PTNI资源平均利用率比较如图4所示,图中X轴表示资源分配量递增,从600 开始;Y轴表示SN的平均利用率.PCB的总效用比较如图5所示,图中X轴表示资 源分配量递增,从600开始;Y轴表示PCB的总效用值。
从图6和图7可知,本发明算法得到的资源分配策略可以保证PTNI资源平均利 用率与静态和动态策略下的PTNI资源平均利用率区别不大。但是,本发明算法得到 的资源分配策略可以保证PCB的总效用值高于静态和动态策略下的总效用值,从而 可以提供更好的服务质量。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明 的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围 内。

Claims (11)

1.一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法,其特征在于,包括如下步骤:
1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;
2)资源管理仿真平台获取电力通信网基础设施的信息;
3)资源管理仿真平台获取电力通信业务的信息;
4)资源管理仿真平台基于Q-learning生成电力通信业务的资源分配策略。
2.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤1)中,所述电力通信网基础设施用于向资源管理仿真平台上报资源供给信息,电力通信业务用于向资源管理仿真平台提出资源需求信息,资源管理仿真平台用于对电力通信网基础设施进行抽象、登记及分配。
3.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤2)中,设电力通信网基础设施的集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报计算资源和链路资源的数量,设PTNIi的计算资源的固定平均成本为计算资源的单位成本为计算资源的最大容量为PTNIi的链路资源的固定平均成本为链路资源的单位成本为链路资源的最大容量为
4.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤3)中,假设存在M个电力通信业务,第j个PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量;
PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为gk表示用户userk被分配的资源,rk表示用户userk使用的资源;
定义用户userk的效用函数为平均端到端用户的延迟,公式如下:
其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟,表示链路效用函数的队列延迟;
定义PCBj的效用函数:
其中,αk是用户userk的权重;
PCBj每次提出资源需求时,选择的分配资源数量策略为PCBj的所有策略构成的策略集Bi,即bi∈Bi
5.根据权利要求4所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,设定用户userk的效用函数的目标是最小化用户的端到端延迟,公式如下:
其中,所有链路的延迟均设置为1ms。
6.根据权利要求4所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,所述PCBj的策略集为离散集合,策略集Bi中包含PCBj的真实资源需求在每次进行资源分配时,所有电力通信业务的资源需求信息由M维向量b来表示,即b={b1,b2,...,bM}。
7.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤4)中,设定资源管理仿真平台的目标为最大化所有电力通信业务的效用,公式如下:
其中表示所有PTNI链路资源的带宽容量;
资源管理仿真平台定义PCBj的支付为τj,公式如下:
其中,表示公式(4)的最优解,即 表示PCBj参与资源分配,但不计算PCBj的效用时公式(4)的最优解;
PCBj的效用函数定义:
8.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤4)具体包括以下步骤:
41)建立基于Q-Learning的策略选择模块与环境的交互模型;
42)确定Q-learning理论要素;
43)运行基于Q-learning的电力通信业务的资源分配策略生成方法,生成电力通信网效用最大化资源分配策略。
9.根据权利要求8所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤41)中,建立基于Q-Learning的策略选择模块与环境交互模型,在当前状态s选择特定动作a后,从外部环境得到回报r,通过观察下一个状态snext和得到Q(s,a)的值,判定是否进行下一次迭代。
10.根据权利要求8所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤42)中,使用Q-Learning求解电力通信业务的最优资源分配策略,需要确定Q-Learning算法中用到的状态空间、动作集合、激励函数和搜索策略:
421)状态空间的选择:
将提出资源分配的电力通信业务作为状态空间,令状态变量Si=PCBj,j={1,2,…,M},j为提出资源分配的电力通信业务的序号;则,S={PCB1,PCB2,...,PCBM},表示将提出资源分配的电力通信业务PCBj作为状态空间S;当分配资源时,通过状态转移实现给所有电力通信业务分配资源,当遍历完所有的状态,算法结束;
422)动作集合的确定:
资源分配问题的动作设定为当前电力通信业务分配的资源数量,使用预测算法进行求解;
423)激励函数设计:
将电力通信业务使用当前资源分配策略获得的效用值,定义为电力通信业务从每个完成的拍卖阶段获得的立即奖励R,激励函数的公式如下:
R(s,a)=ψ(s,a) (7)
其中R(s,a)表示在当前状态s下,执行动作a时获得的立即回报;
424)使用ε-贪婪算法确定搜索策略:
在状态s下,以概率ε随机选择动作a,以概率1-ε选择具有最大Q值的动作,公式如下:
当前Q值包括当前状态下执行当前动作得到的立即回报,加上执行后续状态时Q的γ折扣值,公式如下:
其中,Q(s,a)表示在当前状态s和执行当前动作a的环境下,电力通信业务得到的期望回报的估计值;snext∈S是在当前状态s执行动作a时,系统转换到的下一个状态;γ被定义为折扣因子,取值为0≤γ≤1,表示状态为snext时,采取的动作集合。
11.根据权利要求10所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤43)包括如下具体步骤:
431)随机初始化Q值矩阵Q=[Q(s,a)]M×Y,随机选择状态作为环境的初始状态;
432)对每一次资源分配,重复执行下面的过程,直到满足结束条件:
a)查找Q矩阵中具有Q值最大的状态作为当前的激活状态s,即
b)基于当前的状态S=PCBj,根据ε-greedy算法,选择对应当前状态的动作an;对于状态SPj,执行动作an,并将结果带入公式(7),计算执行动作an的收益;
c)使用公式(9)更新当前状态s下采取动作a的Q值Q(s,a),并将Q矩阵中行号为i或者列号为j的Q值进行标记,其余的Q值不进行更新;
d)选择Q矩阵中除已经标记的Q值外的,具有最大Q值的状态作为当前的激活状态s′;
e)返回到步骤a)重新执行,直到所有的状态都执行完毕。
CN201711305013.XA 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法 Active CN108092804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711305013.XA CN108092804B (zh) 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711305013.XA CN108092804B (zh) 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法

Publications (2)

Publication Number Publication Date
CN108092804A true CN108092804A (zh) 2018-05-29
CN108092804B CN108092804B (zh) 2021-07-30

Family

ID=62174183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711305013.XA Active CN108092804B (zh) 2017-12-08 2017-12-08 基于Q-learning的电力通信网效用最大化资源分配策略生成方法

Country Status (1)

Country Link
CN (1) CN108092804B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445947A (zh) * 2018-11-07 2019-03-08 东软集团股份有限公司 资源的分配处理方法、装置、设备及存储介质
CN110661649A (zh) * 2019-09-05 2020-01-07 深圳供电局有限公司 一种电力通信网资源分配方法
CN110740054A (zh) * 2019-07-17 2020-01-31 东南大学 一种基于强化学习的数据中心虚拟化网络故障诊断方法
CN112486690A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法
CN113255347A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN113256390A (zh) * 2021-06-16 2021-08-13 平安科技(深圳)有限公司 一种产品推荐方法、装置、计算机设备及存储介质
CN113286269A (zh) * 2020-10-31 2021-08-20 国网河南省电力公司经济技术研究院 一种基于边缘计算的电力通信网络资源管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544555A (zh) * 2013-08-22 2014-01-29 国家电网公司 一种电网调度自动化系统中的统一资源管理平台
CN103955373A (zh) * 2014-04-30 2014-07-30 浙江工商大学 一种sdn应用集成开发环境的设计方法
CN105657750A (zh) * 2015-12-29 2016-06-08 北京邮电大学 一种网络动态资源的计算方法及装置
CN105956247A (zh) * 2016-04-26 2016-09-21 大连理工大学 基于基尼系数的三公调度模型构建方法
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544555A (zh) * 2013-08-22 2014-01-29 国家电网公司 一种电网调度自动化系统中的统一资源管理平台
CN103955373A (zh) * 2014-04-30 2014-07-30 浙江工商大学 一种sdn应用集成开发环境的设计方法
CN105657750A (zh) * 2015-12-29 2016-06-08 北京邮电大学 一种网络动态资源的计算方法及装置
CN105956247A (zh) * 2016-04-26 2016-09-21 大连理工大学 基于基尼系数的三公调度模型构建方法
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445947A (zh) * 2018-11-07 2019-03-08 东软集团股份有限公司 资源的分配处理方法、装置、设备及存储介质
CN109445947B (zh) * 2018-11-07 2020-11-06 东软集团股份有限公司 资源的分配处理方法、装置、设备及存储介质
CN110740054A (zh) * 2019-07-17 2020-01-31 东南大学 一种基于强化学习的数据中心虚拟化网络故障诊断方法
CN110740054B (zh) * 2019-07-17 2022-04-01 东南大学 一种基于强化学习的数据中心虚拟化网络故障诊断方法
CN110661649A (zh) * 2019-09-05 2020-01-07 深圳供电局有限公司 一种电力通信网资源分配方法
CN110661649B (zh) * 2019-09-05 2022-07-26 深圳供电局有限公司 一种电力通信网资源分配方法
CN113255347A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN113286269A (zh) * 2020-10-31 2021-08-20 国网河南省电力公司经济技术研究院 一种基于边缘计算的电力通信网络资源管理方法
CN113286269B (zh) * 2020-10-31 2023-03-07 国网河南省电力公司经济技术研究院 一种基于边缘计算的电力通信网络资源管理方法
CN112486690A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法
CN112486690B (zh) * 2020-12-11 2024-01-30 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法
CN113256390A (zh) * 2021-06-16 2021-08-13 平安科技(深圳)有限公司 一种产品推荐方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN108092804B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN108092804A (zh) 基于Q-learning的电力通信网效用最大化资源分配策略生成方法
Chen et al. Efficient task scheduling for budget constrained parallel applications on heterogeneous cloud computing systems
Nguyen et al. Cooperative task offloading and block mining in blockchain-based edge computing with multi-agent deep reinforcement learning
Liu et al. Strategy configurations of multiple users competition for cloud service reservation
Zhang et al. Dynamic service placement in geographically distributed clouds
CN113364831B (zh) 基于区块链的多域异构算网资源可信协同方法
CN107706921A (zh) 基于纳什博弈的微电网电压调节方法和装置
CN110233755A (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN103064744A (zh) 一种基于SLA的面向多层Web应用的资源优化方法
Li et al. A game-based combinatorial double auction model for cloud resource allocation
Penmatsa et al. Cost minimization in utility computing systems
CN108170531A (zh) 一种基于深度信念网络的云数据中心请求流调度方法
TW200532518A (en) Methods and apparatus for managing computing resources based on yield management framework
Jeong et al. Energy trading system in microgrids with future forecasting and forecasting errors
CN106454958A (zh) 一种网络资源分配方法及装置
Zhang et al. A dynamic resource overbooking mechanism in fog computing
Zhao et al. Reinforcement learning for resource mapping in 5G network slicing
Cong et al. Customer adaptive resource provisioning for long-term cloud profit maximization under constrained budget
Kwantwi et al. Blockchain-based computing resource trading in autonomous multi-access edge network slicing: A dueling double deep Q-learning approach
CN106610866A (zh) 云存储环境下一种服务价值约束的任务调度算法
Gong et al. Slicing-based resource optimization in multi-access edge network using ensemble learning aided DDPG algorithm
CN115361392A (zh) 基于区块链的算力网络的控制方法、系统和存储介质
Sterz et al. Multi-stakeholder service placement via iterative bargaining with incomplete information
Ge et al. Dynamic hierarchical caching resource allocation for 5G-ICN slice
Gao et al. Deep reinforcement learning based node pairing scheme in edge-chain for IoT applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant