CN107690176A - 一种基于q学习算法的网络选择方法 - Google Patents

一种基于q学习算法的网络选择方法 Download PDF

Info

Publication number
CN107690176A
CN107690176A CN201710915293.XA CN201710915293A CN107690176A CN 107690176 A CN107690176 A CN 107690176A CN 201710915293 A CN201710915293 A CN 201710915293A CN 107690176 A CN107690176 A CN 107690176A
Authority
CN
China
Prior art keywords
network
value
state
action
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710915293.XA
Other languages
English (en)
Other versions
CN107690176B (zh
Inventor
李洋
冯宝
刘金锁
赵高峰
张立武
蔡世龙
刘文贵
完颜绍澎
卞宇翔
马涛
丁晨阳
胡阳
蒯本链
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Nanjing NARI Group Corp
Original Assignee
Nari Information and Communication Technology Co
Nanjing NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Information and Communication Technology Co, Nanjing NARI Group Corp filed Critical Nari Information and Communication Technology Co
Priority to CN201710915293.XA priority Critical patent/CN107690176B/zh
Publication of CN107690176A publication Critical patent/CN107690176A/zh
Application granted granted Critical
Publication of CN107690176B publication Critical patent/CN107690176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Q学习算法的网络选择方法,包括以下几个步骤:(1)初始化Q值表,设置折扣因子γ和学习率α;(2)确定设定时刻到达业务的类型k和当前两个网络的负载率BWi,得到当前的状态sn;(3)在动作集合A中选择可用动作,并记录该动作以及下一个网络状态sn+1;(4)根据执行选择动作后的网络状态,计算立即回报函数r;(5)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;(6)重复步骤(2)‑(5),直至Q值收敛,即更新前后Q值差值小于门限值;(7)返回步骤(3)选择动作,接入最佳网络。本发明能有效降低语音业务阻塞率和数据业务丢包率,提高网络平均吞吐量。

Description

一种基于Q学习算法的网络选择方法
技术领域
本发明涉及一种基于Q学习算法的网络选择方法,属于电力无线通信技术领域。
背景技术
当前,随着电力行业的发展,电网规模逐渐扩大,网络拓扑日益复杂,当前的以光纤通信为主的电力通信主干网络已经不能满足各种业务的需求。对于远距离接入节点,直接铺设光纤线路费用高昂,缺乏实际价值;在突发性灾害事故下,光纤线路故障难以及时抢修;对于新建变电站,光纤线路建设数量大、工期长,常常会影响到变电站的投产使用。在这些有线通信无法发挥关键作用的领域,无线通信网络技术及其组网系统的应用能够提供优质的通信保障。
因而,无线通信技术在智能电网中发挥越来越重要的作用。目前,电力无线通信采用多种制式,包含230MHz电台专网、WiMax、GPRS公网、CDMA公网、LTE230和LTE1800等多种不同的网络。面对当前用户量大、业务类型复杂等情况,任何单一制式的网络都不能完全满足用户需求,从而表现为多种异构网络共存,优势互补的局面。如何选择一种高可靠、高适应性的无线通信选择方案已成为电力通信领域研究的热点。
常用的网络选择法大都为多属性决策方法,如层次分析法、模糊逻辑法、基于理想排序法和灰度关联法等。虽然多属性决策方法能够比较全面的考虑网络参数,但因其需要根据经验或者专家判断事先确定网络权重,这会导致该类网络选择算法对网络环境的适应性较差,在复杂多变的网络环境下不能动态选择合适的接入网络。
发明内容
针对现有技术存在的不足,本发明目的是提供一种基于Q学习算法的网络选择方法,能有效降低语音业务阻塞率和数据业务丢包率,提高网络平均吞吐量。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明的一种基于Q学习算法的网络选择方法,包括以下几个步骤:
(1)初始化Q值表,设置折扣因子γ和学习率α;
(2)确定设定时刻到达业务的类型k(语音业务或数据业务)和当前230MHz无线网及1.8GHz无线网的负载状态BWi(i=1,2)(添加业务类型、网络种类、网络状态说明),得到当前的网络状态sn(状态s根据公式(9)得到);
(3)在动作集合A中选择可用动作,并记录该动作以及下一个网络状态sn+1
(4)根据执行选择动作后的负载状态,计算回报函数r;
(5)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;
(6)重复步骤(2)-(5),直至Q值收敛,即更新前后Q值差值小于门限值;
(7)返回步骤(3)选择动作,接入最佳网络。
Q学习算法具体方法如下:
假设在第n步,智能体记录当前环境的状态sn∈S,并根据此时的状态选择动作an∈A,在该动作完成后会产生一个即时回报函数rn(an),该回报由当前状态sn和选择动作an唯一决定;
在搜索策略π:s→a下,状态s的值定义为
其中,π(s)为在状态s下根据策略选择的动作;γ∈[0,1]为折扣因子,反映延时奖赏的相对比例;Psny[an]=Prob[yn=y|sn,an]为在第n步操作中在环境状态sn和选择动作an下,环境状态转移到yn的概率;y为所有状态yn的集合;由该式可得,状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报rn,并以概率Psy转移一个状态值为Vπ(y)的有效状态;
根据DP定理,至少存在一个最佳策略π*使得状态s的值取到最大值,记为
其中,a和rs(a)分别表示选择的动作与在状态s下该动作产生的回报值;
对于一个策略π,定义Q值函数为
Q值是对采取设定动作后的回报值的预测估计;
由式(2)和(3)可以看出,
假设此时使得Q值最大的动作为a*,则最佳策略表示为
π*(s)=a* (5)
智能体学习Q值函数,其选择最佳策略,即执行使Q值最大的动作;
Q值的学习通过迭代来完成,每个迭代过程更新一个Q值Q(s,a),为了更新所有的Q值,智能体不断与环境交互;当Q值多次迭代后不再发生大改变时,认为Q值收敛,Q学习过程结束;在每一次迭代中,Q值按照式(6)方法更新
Qn(s,a)=(1-αn)Qn-1(s,a)+αn(rn+γmaxQn(s',a')) (6)
其中,α∈[0,1)为学习率;s'和a'为采取选择动作后得到的状态,即与其对应的可选择的动作;
当回报函数rn有界,学习率0≤αn<1,且满足式(7)时
Q值函数Q(s,a)总以概率1收敛,即
Q学习算法由反映当前环境的网络状态S={s1,s2,…,sM},智能体选择的动作集合A={a1,a2,…,aN},回报函数r以及搜索策略π:S→A构成。
步骤(4)中,所述回报函数r的计算方法如下:
根据230MHz无线专网和1.8GHz无线专网两种网络的负载大小将每个网络的负载状态分为空闲、繁忙和阻塞三个状态,则在考虑到达业务为数据业务和语音业务两种情况下,状态向量表示为
s=[BW1,BW2,k] (9)
其中,BW1和BW2为两种网络的负载状态,取值为0,1或2,分别代表网络空闲、繁忙、阻塞;k为到达业务类型,k取值为0或1;故网络共有3×3×2=18个不同状态。
在网络模型中,用户采取动作集合为其接入的网络,即
A={1,2} (10)
其中,1表示用户接入230MHz无线专网;2表示用户接入1.8GHz无线专网;由此可得,Q值函数Q(s,a)为一18行2列的数值列表,在迭代过程中不断更新。
在每个状态下执行动作后就能获得立即回报,如果用户能成功接入网络,请求业务能够执行,则获得立即回报
r(a1)=r(a2)=1 (11)
若此时网络正忙,不能完成相应业务,则回报为
r(a1)=r(a2)=0 (12)。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
①迭代更新Q值函数,因而能适应动态变化的网络选择问题;
②最优策略考虑网络负载状态,能有效降低语音阻塞率和数据丢包率,提高网络平均吞吐量。
附图说明
图1是网络覆盖模型;
图2是增强学习算法原理图;
图3是网络选择流程图;
图4是语音阻塞率随业务到达率变化图;
图5是数据丢包率随业务到达率变化图;
图6平均吞吐量随业务到达率变化图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
本发明将Q学习算法与电力无线通信网络选择问题结合,根据当前网络负载状态和业务类型通过迭代逐步构造Q值函数,利用Q学习算法寻找最优策略,选择最佳接入网络。该算法的优点在于能适应动态变化的网络选择问题;此外将最优策略设为网络负载状态的函数,通过Q学习算法的在线学习能力,该算法能够有效提升网络吞吐量,降低业务阻塞率,提高网络选择性能。
一、系统模型
随着能源互联网的发展,为实现电力业务终端全覆盖,迫切需要建设宽窄带融合、广覆盖和深度覆盖结合的电力无线通信网络。因此,无线通信网络选择230MHz无线专网、1.8GHz无线专网两种网络混合分布模型,实现网络覆盖区域互补,如图1所示。考虑电力通信系统中两种常用的业务:语音业务与数据业务。覆盖范围内用户根据其业务需求根据网络选择算法连接至最佳网络。
在设定的网络场景中,230MHz无线专网的覆盖范围大于1.8GHz无线专网。在只有一种网络覆盖区域的用户直接连接至该网络,只考虑在两种网络重叠区域的网络选择问题。在实际环境中,用户业务随机到达,其持续时间以及资源需求量为一个随机变量,因而网络状态也是多变的。若仅仅对两种网络的各种属性加权,利用多属性决策法选择效用函数或判决函数最优的网络,由于该类方法的权值需要根据经验判断或者由专家评定,往往不能反映网络状态的动态变化情况。
为此,通过将Q学习算法引入到网络选择中,使其具有一定的学习能力,能够适应动态变化的网络,在考虑网络负载和业务类型的情况下,为每个会话寻找到最优的网络选择策略。
二、Q学习原理
增强学习是关于智能体通过外部环境的简单标量信号来不断演进,同时分析其动作后果的一系列问题集合。它有着学习主动性和自适应能力强等特点,在自动控制领域以及无线通信领域广泛运用。一般而言,基本的增强学习模型由反映当前环境的状态集合S={s1,s2,…,sM},智能体可以选择的动作集合A={a1,a2,…,aN},回报函数r以及搜索策略π:S→A构成,其基本原理如图2所示。智能体在明确的目标下,通过感知环境信息和搜索策略选择最优的动作,引起环境状态的改变并得到即时回报,更新评估函数,在完成该次学习后随后进行新一轮学习直至满足的条件终止学习。
Q学习算法是由Watkin在1989年提出的一种无模型增强学习算法。假设在第n步,Agent记录当前环境的状态sn∈S,并根据此时的状态选择动作an∈A,在该动作完成后会产生一个即时回报函数rn(an),该回报由当前状态sn和选择动作an唯一决定。
在搜索策略π下,状态s的值定义为
其中,π(s)为在状态s下根据策略选择的动作;γ∈[0,1]为折扣因子,反映延时奖赏的相对比例;Psny[an]=Prob[yn=y|sn,an]为在第n步操作中在环境状态sn和选择动作an下,环境状态转移到yn的概率。由该式可得,状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报rn,并以概率Psy转移一个状态值为Vπ(y)的“有效”状态。
根据DP(Dynamic programming)定理,至少存在一个最佳策略π*使得状态s的值取到最大值,记为
对于一个策略π,定义Q值函数(也称为动作值函数)为
也就是说,Q值是对采取某个动作后的回报值的预测估计。
由式(2)和(3)可以看出,
假设此时使得Q值最大的动作为a*,则最佳策略可以表示为
π*(s)=a* (5)
所以,如果智能体能学习Q值函数,则其很容易选择最佳策略,即执行使Q值最大的动作。
在实际过程中,Q值的学习通过迭代来完成。每个迭代过程更新一个Q值Q(s,a),为了更新所有的Q值,智能体需要不断与环境交互。当Q值多次迭代后不再发生较大改变时,可以认为Q值收敛,Q学习过程结束。在每一次迭代中,Q值可以按照式(6)方法更新
Qn(s,a)=(1-αn)Qn-1(s,a)+αn(rn+γmaxQn(s',a')) (6)
其中,α∈[0,1)为学习率;s'和a'为采取选择动作后得到的状态即与其对应的可选择的动作。
当回报函数rn有界,学习率0≤αn<1,且满足式(7)时
Q值函数Q(s,a)总以概率1收敛,即
三、Q学习要素设计
本节将上文介绍的Q学习算法运用到图1场景的网络选择问题中,使其能适应动态变化的网络选择问题。
由上文可得,Q学习主要由状态集合s,智能体可以选择的动作集合A,回报函数r以及搜索策略π构成。要将Q学习应用到电力无线通信系统的网络选择问题中,先要将Q学习的各个要素映射到网络模型中。
1)状态空间s
网络状态主要与网络负载状况和到达业务类型有关。根据230MHz无线专网和1.8GHz无线专网两种网络的负载大小将每个网络的负载状态分为空闲、繁忙和阻塞3个状态,则在考虑到达业务为数据业务和语音业务两种情况下,状态向量可以表示为
s=[BW1,BW2,k] (9)
其中,BW1和BW2为两种网络的负载状态,取值为0,1或2,分别代表网络空闲、繁忙、阻塞;k为到达业务类型,因为本发明只考虑语音和数据两种业务,所以k取值为0或1。故网络共有3×3×2=18个不同状态。
2)动作集合A
在图1所示的网络模型中,共考虑两种网络,用户需要根据网络选择算法选择一个最合适的网络接入,所以用户可以采取动作集合为其可以接入的网络,即
A={1,2} (10)
其中,1表示用户接入230MHz无线专网;2表示用户接入1.8GHz无线专网。由此可得,Q值函数Q(s,a)为一18行2列的数值列表,在迭代过程中不断更新。
3)回报函数r
在每个状态下执行动作后就能获得立即回报,设立即回报与网络负载状态有关。如果用户能成功接入网络,请求业务能够执行,则获得立即回报
r(a1)=r(a2)=1 (11)
若此时网络正忙,不能完成相应业务,则回报为
r(a1)=r(a2)=0 (12)
四、算法流程
考虑网路负载状态和到达业务属性,基于Q学习方法,可以得到230MHz无线网和1.8GHz无线网的网络选择方法,图3是基于Q学习网络选择算法的流程图,其具体步骤如下:
(1)初始化Q值表,设置折扣因子γ和学习率α;
(2)确定某时刻到达业务的类型k和当前两个网络的负载率BWi,得到当前的状态sn
(3)在动作集A中选择可用动作,并记录该动作以及下一个状态sn+1
(4)根据执行选择动作后的网络状态,计算立即回报函数r;
(5)根据式(6)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;
(6)重复步骤(2)-(5),直至Q值收敛,即更新前后Q值差值小于门限值;
(7)返回步骤(3)选择动作,接入最佳网络。
五、仿真与分析
本发明考虑电力无线通信系统中230MHz无线网和1.8GHz无线网的异构场景,其网络参数如表1所示。Q学习算法中,折扣因子为γ=0.8;学习因子为α=0.5。假设语音业务到达间隔服从60s的泊松分布,持续时间服从80s的指数分布,若网络在业务持续时间内没有足够的资源,则该语音业务被阻塞;数据业务到达率间隔从的20s的指数分布,持续时间服从80s的指数分布,若网络不能提供该数据所需的资源,则该数据业务被丢弃。语音业务和数据业务所需带宽分别为12.2kbps和32kbps。
表1网络参数
仿真中使用本发明的Q学习网络选择算法与随机网络选择方法,对比两种网络选择方法的性能。图4显示语音阻塞率随着业务到达率增加的变化趋势。可以看出,随着业务到达率的增加,网络越来越繁忙,语音业务的阻塞率逐渐增加。因为Q学习算法考虑网络负载情况,每次迭代中选择使Q值函数最大的动作,能够更好的适应网络的动态变化,因而能获得较低的语音业务阻塞率。图5显示数据丢包率随着两种业务增加的变化趋势。与语音业务类似,随着业务到达率增加,丢包率逐渐增大,但Q学习算法能有效降低数据业务丢包率,提高网络选择性能。
图6显示网络平均吞吐量随业务增加的变化趋势。因为Q学习算法能动态适应网络的变化情况,降低语音阻塞率和数据丢包率,所以能有效增加网络平均吞吐量,提高网络资源利用率。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于Q学习算法的网络选择方法,其特征在于,包括以下几个步骤:
(1)初始化Q值表,设置折扣因子γ和学习率α;
(2)确定设定时刻到达业务的类型k和当前230MHz无线网及1.8GHz无线网的负载状态BWi,i=1,2,得到当前的网络状态sn
(3)在动作集合A中选择可用动作,并记录该动作以及下一个网络状态sn+1
(4)根据执行选择动作后的负载状态,计算回报函数r;
(5)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;
(6)重复步骤(2)-(5),直至Q值收敛,即更新前后Q值差值小于门限值;
(7)返回步骤(3)选择动作,接入最佳网络。
2.根据权利要求1所述的基于Q学习算法的网络选择方法,其特征在于,Q学习算法具体方法如下:
假设在第n步,智能体记录当前环境的状态sn∈S,并根据此时的状态选择动作an∈A,在该动作完成后会产生一个即时回报函数rn(an),该回报由当前状态sn和选择动作an唯一决定;
在搜索策略π:s→a下,状态s的值定义为
<mrow> <msup> <mi>V</mi> <mi>&amp;pi;</mi> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>r</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>&amp;pi;</mi> <mo>(</mo> <mi>s</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;gamma;</mi> <munder> <mo>&amp;Sigma;</mo> <mi>y</mi> </munder> <msub> <mi>P</mi> <mrow> <mi>s</mi> <mi>y</mi> </mrow> </msub> <mo>&amp;lsqb;</mo> <mi>&amp;pi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <msup> <mi>V</mi> <mi>&amp;pi;</mi> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,π(s)为在状态s下根据策略选择的动作;γ∈[0,1]为折扣因子,反映延时奖赏的相对比例;为在第n步操作中在环境状态sn和选择动作an下,环境状态转移到yn的概率;y为所有状态yn的集合;由该式可得,状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报rn,并以概率Psy转移一个状态值为Vπ(y)的有效状态;
根据DP定理,至少存在一个最佳策略π*使得状态s的值取到最大值,记为
<mrow> <msup> <mi>V</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>V</mi> <msup> <mi>&amp;pi;</mi> <mo>*</mo> </msup> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>a</mi> </munder> <mo>{</mo> <msub> <mi>r</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;gamma;</mi> <munder> <mo>&amp;Sigma;</mo> <mi>y</mi> </munder> <msub> <mi>P</mi> <mrow> <mi>s</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <msup> <mi>V</mi> <msub> <mi>&amp;pi;</mi> <mo>*</mo> </msub> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,a和rs(a)分别表示选择的动作与在状态s下该动作产生的回报值;
对于一个策略π,定义Q值函数为
<mrow> <msup> <mi>Q</mi> <mi>&amp;pi;</mi> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>r</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;gamma;</mi> <munder> <mo>&amp;Sigma;</mo> <mi>y</mi> </munder> <msub> <mi>P</mi> <mrow> <mi>s</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&amp;pi;</mi> <mo>(</mo> <mi>s</mi> <mo>)</mo> <mo>)</mo> </mrow> <msup> <mi>V</mi> <mi>&amp;pi;</mi> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
Q值是对采取设定动作后的回报值的预测估计;
由式(2)和(3)可以看出,
<mrow> <msup> <mi>V</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>a</mi> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
假设此时使得Q值最大的动作为a*,则最佳策略表示为
π*(s)=a* (5)
智能体学习Q值函数,其选择最佳策略,即执行使Q值最大的动作;
Q值的学习通过迭代来完成,每个迭代过程更新一个Q值Q(s,a),为了更新所有的Q值,智能体不断与环境交互;当Q值多次迭代后不再发生大改变时,认为Q值收敛,Q学习过程结束;在每一次迭代中,Q值按照式(6)方法更新
Qn(s,a)=(1-αn)Qn-1(s,a)+αn(rn+γmaxQn(s',a')) (6)
其中,α∈[0,1)为学习率;s'和a'为采取选择动作后得到的状态,即与其对应的可选择的动作;
当回报函数rn有界,学习率0≤αn<1,且满足式(7)时
<mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&amp;infin;</mi> </munderover> <msubsup> <mi>&amp;alpha;</mi> <mi>n</mi> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;infin;</mi> <mo>,</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&amp;infin;</mi> </munderover> <msup> <mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;alpha;</mi> <mi>n</mi> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo>&lt;</mo> <mi>&amp;infin;</mi> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
Q值函数Q(s,a)总以概率1收敛,即
<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>&amp;RightArrow;</mo> <msup> <mi>Q</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>n</mi> <mo>&amp;RightArrow;</mo> <mi>&amp;infin;</mi> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
3.根据权利要求1所述的基于Q学习算法的网络选择方法,其特征在于,Q学习算法由反映当前环境的网络状态S={s1,s2,…,sM},智能体选择的动作集合A={a1,a2,…,aN},回报函数r以及搜索策略π:S→A构成。
4.根据权利要求3所述的基于Q学习算法的网络选择方法,其特征在于,步骤(4)中,所述回报函数r的计算方法如下:
根据230MHz无线专网和1.8GHz无线专网两种网络的负载大小将每个网络的负载状态分为空闲、繁忙和阻塞三个状态,则在考虑到达业务为数据业务和语音业务两种情况下,状态向量表示为
s=[BW1,BW2,k] (9)
其中,BW1和BW2为两种网络的负载状态,取值为0,1或2,分别代表网络空闲、繁忙、阻塞;k为到达业务类型,k取值为0或1;故网络共有3×3×2=18个不同状态。
5.根据权利要求3所述的基于Q学习算法的网络选择方法,其特征在于,在网络模型中,用户采取动作集合为其接入的网络,即
A={1,2} (10)
其中,1表示用户接入230MHz无线专网;2表示用户接入1.8GHz无线专网;由此可得,Q值函数Q(s,a)为一18行2列的数值列表,在迭代过程中不断更新。
6.根据权利要求3所述的基于Q学习算法的网络选择方法,其特征在于,在每个状态下执行动作后就能获得立即回报,如果用户能成功接入网络,请求业务能够执行,则获得立即回报
r(a1)=r(a2)=1 (11)
若此时网络正忙,不能完成相应业务,则回报为
r(a1)=r(a2)=0 (12)。
CN201710915293.XA 2017-09-30 2017-09-30 一种基于q学习算法的网络选择方法 Active CN107690176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710915293.XA CN107690176B (zh) 2017-09-30 2017-09-30 一种基于q学习算法的网络选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710915293.XA CN107690176B (zh) 2017-09-30 2017-09-30 一种基于q学习算法的网络选择方法

Publications (2)

Publication Number Publication Date
CN107690176A true CN107690176A (zh) 2018-02-13
CN107690176B CN107690176B (zh) 2020-08-25

Family

ID=61154015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710915293.XA Active CN107690176B (zh) 2017-09-30 2017-09-30 一种基于q学习算法的网络选择方法

Country Status (1)

Country Link
CN (1) CN107690176B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN109243021A (zh) * 2018-08-28 2019-01-18 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
CN109412661A (zh) * 2018-12-11 2019-03-01 厦门大学 一种大规模mimo系统下的用户分簇方法
CN109474960A (zh) * 2018-11-14 2019-03-15 南京邮电大学 一种基于q学习的双连接流量分配方法
CN109587519A (zh) * 2018-12-28 2019-04-05 南京邮电大学 基于q学习的异构网络多径视频传输控制系统及方法
CN109741172A (zh) * 2018-12-26 2019-05-10 厦门市七星通联科技有限公司 信贷预警方法、装置、系统及存储介质
CN110213776A (zh) * 2019-05-27 2019-09-06 南京邮电大学 一种基于Q学习和多属性决策的WiFi卸载方法
CN110363380A (zh) * 2019-05-30 2019-10-22 大连理工大学 一种集装箱堆场双场桥动态协同调度方法
CN110545563A (zh) * 2019-08-09 2019-12-06 成都信息工程大学 面向IPv6的基于动态能效的网络选择方法
CN111140911A (zh) * 2020-01-03 2020-05-12 南方电网科学研究院有限责任公司 一种智能楼宇综合供暖设备的调控方法
JP2021141356A (ja) * 2020-03-02 2021-09-16 日本電信電話株式会社 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647773A (zh) * 2012-05-02 2012-08-22 哈尔滨工业大学 基于q学习的异构网络接入控制优化选择方法
CN103327556A (zh) * 2013-07-04 2013-09-25 中国人民解放军理工大学通信工程学院 异构无线网络中优化用户QoE的动态网络选择方法
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647773A (zh) * 2012-05-02 2012-08-22 哈尔滨工业大学 基于q学习的异构网络接入控制优化选择方法
CN103327556A (zh) * 2013-07-04 2013-09-25 中国人民解放军理工大学通信工程学院 异构无线网络中优化用户QoE的动态网络选择方法
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TOSHIHITO KUDO,TOMOAKI OHTSUKI: "Q-Learning Based Cell Selection for UE Outage Reduction in Heterogeneous Networks", 《IEEE》 *
YUBIN XU等: "Q-learning Based Network Selection for WCDMA/WLAN Heterogeneous Wireless Networks", 《IEEE》 *
冯陈伟、袁江南: "基于强化学习的异构无线网络资源管理算法", 《电信科学》 *
徐玉滨陈佳美马琳: "基于Q学习的WLAN/WIMAX接入控制网络选择策略", 《华南理工大学学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN109243021A (zh) * 2018-08-28 2019-01-18 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
CN109243021B (zh) * 2018-08-28 2021-09-17 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
CN109474960A (zh) * 2018-11-14 2019-03-15 南京邮电大学 一种基于q学习的双连接流量分配方法
CN109412661B (zh) * 2018-12-11 2020-12-11 厦门大学 一种大规模mimo系统下的用户分簇方法
CN109412661A (zh) * 2018-12-11 2019-03-01 厦门大学 一种大规模mimo系统下的用户分簇方法
CN109741172A (zh) * 2018-12-26 2019-05-10 厦门市七星通联科技有限公司 信贷预警方法、装置、系统及存储介质
CN109741172B (zh) * 2018-12-26 2021-03-23 厦门市七星通联科技有限公司 信贷预警方法、装置、系统及存储介质
CN109587519A (zh) * 2018-12-28 2019-04-05 南京邮电大学 基于q学习的异构网络多径视频传输控制系统及方法
CN110213776A (zh) * 2019-05-27 2019-09-06 南京邮电大学 一种基于Q学习和多属性决策的WiFi卸载方法
CN110213776B (zh) * 2019-05-27 2021-11-26 南京邮电大学 一种基于Q学习和多属性决策的WiFi卸载方法
CN110363380B (zh) * 2019-05-30 2022-05-10 大连理工大学 一种集装箱堆场双场桥动态协同调度方法
CN110363380A (zh) * 2019-05-30 2019-10-22 大连理工大学 一种集装箱堆场双场桥动态协同调度方法
CN110545563A (zh) * 2019-08-09 2019-12-06 成都信息工程大学 面向IPv6的基于动态能效的网络选择方法
CN110545563B (zh) * 2019-08-09 2021-10-19 成都信息工程大学 面向IPv6的基于动态能效的网络选择方法
CN111140911A (zh) * 2020-01-03 2020-05-12 南方电网科学研究院有限责任公司 一种智能楼宇综合供暖设备的调控方法
JP2021141356A (ja) * 2020-03-02 2021-09-16 日本電信電話株式会社 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム
JP7270914B2 (ja) 2020-03-02 2023-05-11 日本電信電話株式会社 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法

Also Published As

Publication number Publication date
CN107690176B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN107690176B (zh) 一种基于q学习算法的网络选择方法
Sadeghi et al. Deep reinforcement learning for adaptive caching in hierarchical content delivery networks
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110225535B (zh) 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN111641681A (zh) 基于边缘计算和深度强化学习的物联网服务卸载决策方法
CN113687875B (zh) 一种车联网中车辆任务卸载方法及装置
CN115243217A (zh) 车联网边缘环境下基于ddqn的端边云协同调度方法及系统
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN105391490B (zh) 一种基于认知的卫星通信网络选择算法
CN112312299A (zh) 服务卸载方法、装置及系统
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN108833227A (zh) 一种基于边缘计算的智能家居通信优化调度系统及方法
CN106022475B (zh) 基于动态自适应混沌蚁群算法的Web服务组合方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN111723978A (zh) 一种基于虚拟映射适应多种电力业务差异性需求的指标评价方法
CN116567667A (zh) 一种基于深度强化学习的异构网络资源能效优化方法
CN116467069A (zh) 基于ppo算法的空间飞行信息系统资源调度方法及系统
TWI792784B (zh) 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
CN113938978B (zh) 一种基于强化学习的异构无线传感器寻路方法
Shao et al. A Network Selection Method Based on Q-Learning in Power Wireless Communication System
CN111241450A (zh) 分布式环境下动态Web服务组合方法
Wu et al. Learning-aided client association control for high-density WLANs
Mahesh et al. Fuzzy Logic based Call Admission Control for Next Generation Wireless Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant