CN103906238B - 一种带宽分配方法、装置及服务器 - Google Patents

一种带宽分配方法、装置及服务器 Download PDF

Info

Publication number
CN103906238B
CN103906238B CN201210568765.6A CN201210568765A CN103906238B CN 103906238 B CN103906238 B CN 103906238B CN 201210568765 A CN201210568765 A CN 201210568765A CN 103906238 B CN103906238 B CN 103906238B
Authority
CN
China
Prior art keywords
set bandwidths
network state
current network
terminal
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210568765.6A
Other languages
English (en)
Other versions
CN103906238A (zh
Inventor
梁立涛
肖建华
石勇
王志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Beijing Co Ltd
Original Assignee
China Mobile Group Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Beijing Co Ltd filed Critical China Mobile Group Beijing Co Ltd
Priority to CN201210568765.6A priority Critical patent/CN103906238B/zh
Publication of CN103906238A publication Critical patent/CN103906238A/zh
Application granted granted Critical
Publication of CN103906238B publication Critical patent/CN103906238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种带宽分配方法、装置及服务器,包括:针对终端当前发起的终端业务,获取该终端对应的当前网络状态;基于该当前网络状态和各预设带宽的各组合分别对应的Q值,确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望,该Q值越大,与该Q值对应的随机概率越大;按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;为该终端业务分配所选择出的预设带宽。采用本发明提供的方法、装置及服务器,解决了现有技术中无法为终端合理分配带宽的问题。

Description

一种带宽分配方法、装置及服务器
技术领域
本发明涉及无线通信领域,尤其涉及一种带宽分配方法、装置及服务器。
背景技术
在目前的很多通信网络中,例如TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access,时分同步码分多址)网络,当一个终端接入该网络时,该网络服务器先为该终端分配预设接入带宽;当该终端接入该网络后,该网络服务器获取该终端传输信道数据流量,分别和预设的上调带宽门限值、下调带宽门限值进行比较,当该终端传输信道数据流量大于该上调带宽门限值时,上调为该终端分配的带宽,当该终端传输信道数据流量小于该下调带宽门限值时,下调为该终端分配的带宽。
然而,由于不同业务对带宽需求不同,该上调带宽门限值和该下调带宽门限值很难设置合适。例如,即时通讯业务对带宽需求较低,而网页浏览业务对带宽需求较高,如果该上调带宽门限值设置过低,则可能会造成对带宽需求较低的终端的带宽进行上调,导致网络资源的利用率较低;而如果该上调带宽门限值设置过高,则可能会造成对带宽需求较高的终端的带宽没有进行上调,进而导致终端业务处理效率较低。同样,该下调带宽门限值也存在类似问题。可见,目前现有的带宽分配机制不能对带宽进行合理分配。
发明内容
本发明实施例提供一种带宽分配方法、装置及服务器,用以解决现有技术中存在的不能对带宽进行合理分配的问题。
本发明实施例提供一种带宽分配方法,包括:
针对终端当前发起的终端业务,获取所述终端对应的当前网络状态;
基于所述当前网络状态和各预设带宽的各组合分别对应的Q值,确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在所述当前网络状态下所述终端采用各预设带宽处理所述终端业务所产生的累积动作回报的期望,所述Q值越大,与所述Q值对应的随机概率越大;
按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;
为所述终端业务分配所选择出的预设带宽。
本发明实施例提供一种带宽分配装置,包括:
获取单元,用于针对终端当前发起的终端业务,获取所述终端对应的当前网络状态;
第一确定单元,用于基于所述当前网络状态和各预设带宽的各组合分别对应的Q值,确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在所述当前网络状态下所述终端采用各预设带宽处理所述终端业务所产生的累积动作回报的期望,所述Q值越大,与所述Q值对应的随机概率越大;
选择单元,用于按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;
分配单元,用于为所述终端业务分配所选择出的预设带宽。
本发明实施例提供一种服务器,包括上述带宽分配装置。
本发明有益效果包括:
本发明实施例提供的方法,基于当前网络状态和各预设带宽的各组合分别对应的Q值,确定各预设带宽对应的随机概率,其中,Q值越大,对应的随机概率越大,基于各预设带宽对应的随机概率,从各预设带宽中进行随机选择,将选择出的预设带宽分配给终端业务,可见较大的Q值的对应的预设带宽被选择出的概率也较大,由于Q值表征了在该当前网络状态下为终端业务分配预设带宽所产生的累积回报的期望,即Q值越大表明分配的预设带宽越合理,因此采用本发明实施例提供的方法能够实现对网络带宽进行更合理的分配。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的带宽分配方法的流程图;
图2为本发明实施例1提供的带宽分配方法的详细流程图;
图3为本发明实施例2提供的带宽分配装置的结构图。
具体实施方式
为了给出合理分配带宽的实现方案,本发明实施例提供了一种带宽分配方法、装置及服务器,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
强化学习是一种从环境到行为映射的学习。在强化学习过程中,环境不告诉强化学习系统如何去产生正确的动作,而是对已产生的动作的好坏做出评价(即回报)。强化学习系统根据外部环境所提供的信息及自身的经历进行学习,在不断的“动作-评价(回报)”的过程中获得知识,改进自己的动作方案来适应环境,以使累计动作回报达到最大化。
基于上述强化学习原理,本发明实施例提供一种带宽分配方法,如图1所示,包括:
步骤101、针对终端当前发起的终端业务,获取该终端对应的当前网络状态;
步骤102、基于该当前网络状态和各预设带宽的各组合分别对应的Q值,确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望,该Q值越大,与该Q值对应的随机概率越大;
步骤103、按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;
步骤104、为该终端业务分配所选择出的预设带宽。
其中,当前网络状态具体可以由当前网络可用带宽、终端业务类型以及终端接入场强表征。
在步骤102中,具体可采用玻尔兹曼分布算法,基于该当前网络状态和各预设带宽的各组合分别对应的Q值、该当前网络状态出现的次数和当前可分配的最大预设带宽,确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率,该次数越大,不同Q值各自对应的随机概率的差异越大。
也可以采用其它算法确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率,例如贪婪算法等。
进一步的,在步骤104,为该终端业务分配所选择出的预设带宽之后,还包括:
基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在该当前网络状态下为该终端业务分配所选择出的预设带宽后的业务处理时间、在该当前网络状态下为该终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值,确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报。
而当该终端业务不是该终端首次发起的终端业务时,在步骤102,确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前,还包括:
基于该终端发起的该终端业务的上一终端业务对应的上一网络状态和该上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在该上一网络状态下选择该上一选择出的预设带宽的次数、在该上一网络状态下该终端采用该上一选择出的预设带宽处理该上一终端业务所产生的动作回报、常数时间折现因子以及该当前网络状态和各预设带宽的各组合分别对应的Q值,更新该上一网络状态和该上一选择出的预设带宽的组合对应的Q值。
下面结合附图,以在TD-SCDMA网络中分配上行带宽为例,用具体实施例对本发明提供的带宽分配方法、装置及服务器进行详细描述。
实施例1:
当终端首次发起一个终端业务时,可以为该终端业务随机分配一个预设带宽,各预设带宽的集合为A={0,a1,a2,a3,......,an},an为当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量。在本实施例中,A={0,16,32,……,256},256为当前网络具有的最大带宽,A中每两个相邻预设带宽相差16。当为终端业务分配预设带宽0时,即表示拒绝该终端业务接入。
图2为本发明实施1提供的带宽分配方法的详细流程图,当终端不是首次发起一个终端业务时,触发该流程,具体包括:
步骤201、获取该终端的当前网络状态。
该当前网络状态st可以具体由当前网络可用带宽l、终端业务类型v以及终端接入场强h表征,即st=(h,v,l)。
在本实施例中,TD-SCDMA网络中终端接入场强h具体为PCCPCH(Primary CommonControl Physical Channel,主公共控制物理信道)RSCP(Received Signal Code Power,接收信号功率),h∈[-30,-103]dBm;v∈{1,2,……,V},由1,2,……,V表征终端业务的具体业务类型,具体可采用DPI(Deep Packet Inspection,深度包检测)技术获取终端业务的具体业务类型;当前网络可用带宽l具体为当前网络上行可用带宽,l∈[0,256]。
步骤202、更新该终端发起的当前终端业务的上一终端业务对应的上一网络状态和为该上一终端业务分配的上一选择出的预设带宽的组合对应的Q值,具体可采用如下公式更新:
Q'(ss,as)=Q(ss,as)+αΔQ(ss,as);
其中:
Q'(ss,as)为该上一网络状态ss和该上一选择出的预设带宽as的组合对应的更新后Q值;
Q(ss,as)为该上一网络状态ss和该上一选择出的预设带宽as的组合对应的更新前Q值;
r(ss,as)为在该上一网络状态ss下该终端采用该上一选择出的预设带宽as处理该上一终端业务所产生的动作回报;
γ为常数时间折现因子,一般按经验值可取0.8或0.9;
为在该上一网络状态ss下选择该上一选择出的预设带宽as的次数。
步骤203、确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率,具体可采用如下公式确定:
其中:
p(ai|st)为在该当前网络状态st下从各预设带宽中进行随机选择时所基于的与预设带宽ai对应的随机概率;
Q(st,ai)为该当前网络状态st和预设带宽ai的组合对应的Q值;
al为当前可分配的最大预设带宽;
为该当前网络状态st出现的次数。
由上述随机概率计算公式可见,随着当前网络状态st出现的次数的增长,参数T呈负指数规律逐渐下降。给定状态下带宽的选择将越来越取决于Q值,而非随机性地探索。
步骤204、按照确定的分别与不超过该最大预设带宽的各预设带宽对应的随机概率,从不超过该最大预设带宽的各预设带宽中进行随机选择。
具体可以根据不超过该最大预设带宽的各预设带宽对应的随机概率,建立不超过该最大预设带宽的各预设带宽对应的区间,并且,各预设带宽对应的区间的区间长度和各预设带宽对应的随机概率成正比,且各预设带宽对应的区间的集合无交集。较佳的,各预设带宽对应的区间的集合可以为[0,1],在选择时随机生成[0,1]内的随机数,该随机数落入的区间对应的预设带宽即为从不超过该最大预设带宽的各预设带宽中随机选择出的带宽。
步骤205、为该终端业务分配所选择出的预设带宽。
步骤206、确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报,具体可采用如下公式确定:
其中:
r(st,at)为在该当前网络状态st下该终端采用所选择出的预设带宽at处理该终端业务所产生的动作回报;
η(st,at)为在该当前网络状态st下为该终端业务分配所选择出的预设带宽at后的业务处理时间;
η(st,at-1)为在该当前网络状态st下为该终端业务分配比选择出的预设带宽at小预设数量的预设带宽at-1后的业务处理时间;
θv为为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值;
a1为当前可分配的不为0的最小预设带宽;
al为当前可分配的最大预设带宽;
为正常数。
终端每一次采用所选择出的预设带宽处理终端业务所产生的动作回报都将激励着下一次带宽分配向着正确的决策收敛。
在本实施例中,上述带宽分配方法各步骤的执行的主体可以为TD-SCDMA网络中的RNC(Radio Network Controller,无线网络控制器)。
可见,采用本发明实施例1提供的方法,在进行预设带宽的随机选择时,较大的Q值的对应的预设带宽被选择出的概率较大,由于Q值表征了在该当前网络状态下为终端业务分配预设带宽所产生的累积回报的期望,即Q值越大表明分配的预设带宽越合理,因此采用本发明实施例提供的方法能够实现对网络带宽进行更合理的分配。并且,相比于现有技术中设置上调带宽门限值和下调带宽门限值调整带宽的方式,还能够避免带宽的频繁调整,进而避免产生过多的无线承载或物理信道重配置,减少终端业务掉线率,能够提高用户的使用体验。
实施例2:
基于同一发明构思,根据本发明上述实施例提供的带宽分配方法,相应地,本发明实施例2还提供了带宽分配装置,装置结构示意图如图3所示,具体包括:
获取单元301,用于针对终端当前发起的终端业务,获取该终端对应的当前网络状态;
第一确定单元302,用于基于该当前网络状态和各预设带宽的各组合分别对应的Q值,确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望,该Q值越大,与该Q值对应的随机概率越大;
选择单元303,用于按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;
分配单元304,用于为该终端业务分配所选择出的预设带宽。
进一步的,该当前网络状态由当前网络可用带宽、终端业务类型以及终端接入场强表征。
进一步的,第一确定单元302具体用于基于该当前网络状态和各预设带宽的各组合分别对应的Q值、该当前网络状态出现的次数和当前可分配的最大预设带宽,确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率,该次数越大,不同Q值各自对应的随机概率的差异越大。
进一步的,第一确定单元302具体用于采用如下公式确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率:
其中,p(ai|st)为在该当前网络状态st下从各预设带宽中进行随机选择时所基于的与预设带宽ai对应的随机概率;Q(st,ai)为该当前网络状态st和预设带宽ai的组合对应的Q值;A为各预设带宽的集合{0,a1,a2,a3,......,an},an为该当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量;al为当前可分配的最大预设带宽;为该当前网络状态st出现的次数。
进一步的,该带宽分配装置,还包括:
第二确定单元305,用于在为该终端业务分配所选择出的预设带宽之后,基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在该当前网络状态下为该终端业务分配所选择出的预设带宽后的业务处理时间、在该当前网络状态下为该终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值,确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报。
进一步的,第二确定单元305具体用于采用如下公式确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报:
其中,r(st,at)为在该当前网络状态st下该终端采用所选择出的预设带宽at处理该终端业务所产生的动作回报;η(st,at)为在该当前网络状态st下为该终端业务分配所选择出的预设带宽at后的业务处理时间;η(st,at-1)为在该当前网络状态st下为该终端业务分配比选择出的预设带宽at小预设数量的预设带宽at-1后的业务处理时间;θv为为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值;a1为当前可分配的不为0的最小预设带宽;al为当前可分配的最大预设带宽;为正常数。
进一步的,该带宽分配装置,还包括更新单元306,用于当该终端业务为该终端第N次发起的终端业务时,N大于1,在确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前,基于该终端发起的该终端业务的上一终端业务对应的上一网络状态和该上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在该上一网络状态下选择该上一选择出的预设带宽的次数、在该上一网络状态下该终端采用该上一选择出的预设带宽处理该上一终端业务所产生的动作回报、常数时间折现因子以及该当前网络状态和各预设带宽的各组合分别对应的Q值,更新该上一网络状态和该上一选择出的预设带宽的组合对应的Q值。
进一步的,更新单元306具体用于采用如下公式更新该上一网络状态和该上一选择出的预设带宽的组合对应的Q值:
Q'(ss,as)=Q(ss,as)+αΔQ(ss,as);
其中,Q'(ss,as)为该上一网络状态ss和该上一选择出的预设带宽as的组合对应的更新后Q值;Q(ss,as)为该上一网络状态ss和该上一选择出的预设带宽as的组合对应的更新前Q值;r(ss,as)为在该上一网络状态ss下该终端采用该上一选择出的预设带宽as处理该上一终端业务所产生的动作回报;A为各预设带宽的集合{0,a1,a2,a3,......,an},an为该当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量;γ为常数时间折现因子;为在该上一网络状态ss下选择该上一选择出的预设带宽as的次数。
上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤,在此不再赘述。
实施例3:
基于同一发明构思,根据本发明上述实施例提供的带宽分配方法,相应地,本发明实施例3还提供了一种服务器,包括上述图3所示的带宽分配装置。
综上所述,本发明实施例提供的方案,针对终端当前发起的终端业务,获取该终端对应的当前网络状态;基于该当前网络状态和各预设带宽的各组合分别对应的Q值,确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望,该Q值越大,与该Q值对应的随机概率越大;按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;为该终端业务分配所选择出的预设带宽。采用本发明实施例提供的方案,能够为终端业务合理分配带宽。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

1.一种带宽分配方法,其特征在于,包括:
针对终端当前发起的终端业务,获取所述终端对应的当前网络状态;
基于所述当前网络状态和各预设带宽的各组合分别对应的Q值,确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在所述当前网络状态下所述终端采用各预设带宽处理所述终端业务所产生的累积动作回报的期望,所述Q值越大,与所述Q值对应的随机概率越大;
按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;
为所述终端业务分配所选择出的预设带宽;
其中,所述动作为在强化学习系统中已产生的动作,回报为环境对动作做出的评价,所述强化学习系统根据外部环境所提供的信息及自身的经历进行学习,在不断的“动作回报”的过程中获得知识,改进自己的动作方案来适应环境,以使累计动作回报达到最大化。
2.如权利要求1所述的方法,其特征在于,所述当前网络状态由当前网络可用带宽、终端业务类型以及终端接入场强表征。
3.如权利要求1所述的方法,其特征在于,确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率,具体包括:
基于所述当前网络状态和各预设带宽的各组合分别对应的Q值、所述当前网络状态出现的次数和当前可分配的最大预设带宽,确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率,所述次数越大,不同Q值各自对应的随机概率的差异越大。
4.如权利要求3所述的方法,其特征在于,具体采用如下公式确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率:
p ( a i | s t ) = e Q ( s t , a i ) / T Σ a ∈ A e Q ( s t , a ) / T , a i = 0 , a 1 , a 2 , a 3 , ... ... , a l ;
T = e - n s t ;
其中,p(ai|st)为在所述当前网络状态st下从各预设带宽中进行随机选择时所基于的与预设带宽ai对应的随机概率;Q(st,ai)为所述当前网络状态st和预设带宽ai的组合对应的Q值;A为各预设带宽的集合{0,a1,a2,a3,......,an},an为所述当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量;al为当前可分配的最大预设带宽;为所述当前网络状态st出现的次数。
5.如权利要求1所述的方法,其特征在于,在为所述终端业务分配所选择出的预设带宽之后,还包括:
基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在所述当前网络状态下为所述终端业务分配所选择出的预设带宽后的业务处理时间、在所述当前网络状态下为所述终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值,确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报;
其中,所述动作为在强化学习系统中已产生的动作,回报为环境对动作做出的评价,所述强化学习系统根据外部环境所提供的信息及自身的经历进行学习,在不断的“动作回报”的过程中获得知识,改进自己的动作方案来适应环境,以使累计动作回报达到最大化。
6.如权利要求5所述的方法,其特征在于,具体采用如下公式确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报:
其中,r(st,at)为在所述当前网络状态st下所述终端采用所选择出的预设带宽at处理所述终端业务所产生的动作回报;η(st,at)为在所述当前网络状态st下为所述终端业务分配所选择出的预设带宽at后的业务处理时间;η(st,at-1)为在所述当前网络状态st下为所述终端业务分配比选择出的预设带宽at小预设数量的预设带宽at-1后的业务处理时间;θv为为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值;a1为当前可分配的不为0的最小预设带宽;al为当前可分配的最大预设带宽;为正常数。
7.如权利要求1所述的方法,其特征在于,当所述终端业务为所述终端第N次发起的终端业务时,所述N大于1,在确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前,还包括:
基于所述终端发起的所述终端业务的上一终端业务对应的上一网络状态和所述上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在所述上一网络状态下选择所述上一选择出的预设带宽的次数、在所述上一网络状态下所述终端采用所述上一选择出的预设带宽处理所述上一终端业务所产生的动作回报、常数时间折现因子以及所述当前网络状态和各预设带宽的各组合分别对应的Q值,更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值。
8.如权利要求7所述的方法,其特征在于,具体采用如下公式更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值:
Q'(ss,as)=Q(ss,as)+α△Q(ss,as);
Δ Q ( s s , a s ) = r ( s s , a s ) + γ m a x a ∈ A Q ( s t , a ) - Q ( s s , a s ) ;
α = e - n s s , a s ;
其中,Q'(ss,as)为所述上一网络状态ss和所述上一选择出的预设带宽as的组合对应的更新后Q值;Q(ss,as)为所述上一网络状态ss和所述上一选择出的预设带宽as的组合对应的更新前Q值;r(ss,as)为在所述上一网络状态ss下所述终端采用所述上一选择出的预设带宽as处理所述上一终端业务所产生的动作回报;A为各预设带宽的集合{0,a1,a2,a3,......,an},an为所述当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量;γ为常数时间折现因子;为在所述上一网络状态ss下选择所述上一选择出的预设带宽as的次数。
9.一种带宽分配装置,其特征在于,包括:
获取单元,用于针对终端当前发起的终端业务,获取所述终端对应的当前网络状态;
第一确定单元,用于基于所述当前网络状态和各预设带宽的各组合分别对应的Q值,确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率;各Q值分别对应表征了在所述当前网络状态下所述终端采用各预设带宽处理所述终端业务所产生的累积动作回报的期望,所述Q值越大,与所述Q值对应的随机概率越大;
选择单元,用于按照分别与各预设带宽对应的随机概率,从各预设带宽中进行随机选择;
分配单元,用于为所述终端业务分配所选择出的预设带宽;
其中,所述动作为在强化学习系统中已产生的动作,回报为环境对动作做出的评价,所述强化学习系统根据外部环境所提供的信息及自身的经历进行学习,在不断的“动作回报”的过程中获得知识,改进自己的动作方案来适应环境,以使累计动作回报达到最大化。
10.如权利要求9所述的装置,其特征在于,所述当前网络状态由当前网络可用带宽、终端业务类型以及终端接入场强表征。
11.如权利要求9所述的装置,其特征在于,所述第一确定单元具体用于基于所述当前网络状态和各预设带宽的各组合分别对应的Q值、所述当前网络状态出现的次数和当前可分配的最大预设带宽,确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率,所述次数越大,不同Q值各自对应的随机概率的差异越大。
12.如权利要求11所述的装置,其特征在于,所述第一确定单元具体用于采用如下公式确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率:
p ( a i | s t ) = e Q ( s t , a i ) / T Σ a ∈ A e Q ( s t , a ) / T , a i = 0 , a 1 , a 2 , a 3 , ... ... , a l ;
T = e - n s t ;
其中,p(ai|st)为在所述当前网络状态st下从各预设带宽中进行随机选择时所基于的与预设带宽ai对应的随机概率;Q(st,ai)为所述当前网络状态st和预设带宽ai的组合对应的Q值;A为各预设带宽的集合{0,a1,a2,a3,......,an},an为所述当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量;al为当前可分配的最大预设带宽;为所述当前网络状态st出现的次数。
13.如权利要求9所述的装置,其特征在于,还包括:
第二确定单元,用于在为所述终端业务分配所选择出的预设带宽之后,基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在所述当前网络状态下为所述终端业务分配所选择出的预设带宽后的业务处理时间、在所述当前网络状态下为所述终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值,确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报;
其中,所述动作为在强化学习系统中已产生的动作,回报为环境对动作做出的评价,所述强化学习系统根据外部环境所提供的信息及自身的经历进行学习,在不断的“动作回报”的过程中获得知识,改进自己的动作方案来适应环境,以使累计动作回报达到最大化。
14.如权利要求13所述的装置,其特征在于,所述第二确定单元具体用于采用如下公式确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报:
其中,r(st,at)为在所述当前网络状态st下所述终端采用所选择出的预设带宽at处理所述终端业务所产生的动作回报;η(st,at)为在所述当前网络状态st下为所述终端业务分配所选择出的预设带宽at后的业务处理时间;η(st,at-1)为在所述当前网络状态st下为所述终端业务分配比选择出的预设带宽at小预设数量的预设带宽at-1后的业务处理时间;θv为为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值;a1为当前可分配的不为0的最小预设带宽;al为当前可分配的最大预设带宽;为正常数。
15.如权利要求9所述的装置,其特征在于,还包括更新单元,用于当所述终端业务为所述终端第N次发起的终端业务时,所述N大于1,在确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前,基于所述终端发起的所述终端业务的上一终端业务对应的上一网络状态和所述上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在所述上一网络状态下选择所述上一选择出的预设带宽的次数、在所述上一网络状态下所述终端采用所述上一选择出的预设带宽处理所述上一终端业务所产生的动作回报、常数时间折现因子以及所述当前网络状态和各预设带宽的各组合分别对应的Q值,更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值。
16.如权利要求15所述的装置,其特征在于,所述更新单元具体用于采用如下公式更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值:
Q'(ss,as)=Q(ss,as)+α△Q(ss,as);
Δ Q ( s s , a s ) = r ( s s , a s ) + γ m a x a ∈ A Q ( s t , a ) - Q ( s s , a s ) ;
α = e - n s s , a s ;
其中,Q'(ss,as)为所述上一网络状态ss和所述上一选择出的预设带宽as的组合对应的更新后Q值;Q(ss,as)为所述上一网络状态ss和所述上一选择出的预设带宽as的组合对应的更新前Q值;r(ss,as)为在所述上一网络状态ss下所述终端采用所述上一选择出的预设带宽as处理所述上一终端业务所产生的动作回报;A为各预设带宽的集合{0,a1,a2,a3,......,an},an为所述当前网络具有的最大带宽,且A中每两个相邻预设带宽相差预设数量;γ为常数时间折现因子;为在所述上一网络状态ss下选择所述上一选择出的预设带宽as的次数。
17.一种服务器,其特征在于,包括权利要求9-16任一所述的带宽分配装置。
CN201210568765.6A 2012-12-24 2012-12-24 一种带宽分配方法、装置及服务器 Active CN103906238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210568765.6A CN103906238B (zh) 2012-12-24 2012-12-24 一种带宽分配方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210568765.6A CN103906238B (zh) 2012-12-24 2012-12-24 一种带宽分配方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN103906238A CN103906238A (zh) 2014-07-02
CN103906238B true CN103906238B (zh) 2017-02-22

Family

ID=50997331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210568765.6A Active CN103906238B (zh) 2012-12-24 2012-12-24 一种带宽分配方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN103906238B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844985A (zh) * 2016-09-21 2018-03-27 腾讯科技(深圳)有限公司 一种概率产品数据处理方法、系统及终端
CN107147475B (zh) * 2017-06-28 2020-04-14 京信通信系统(中国)有限公司 一种调制编码方式的调整方法及基站
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN112714081B (zh) * 2019-10-24 2024-05-03 华为技术有限公司 一种数据处理方法及其装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102196579A (zh) * 2011-06-21 2011-09-21 西安电子科技大学 异构无线网络并行多接入系统中联合资源分配快速算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9332464B2 (en) * 2009-06-19 2016-05-03 Qualcomm Incorporated Method and apparatus that facilitates measurement procedures in multicarrier operation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102196579A (zh) * 2011-06-21 2011-09-21 西安电子科技大学 异构无线网络并行多接入系统中联合资源分配快速算法

Also Published As

Publication number Publication date
CN103906238A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
EP2952031B1 (en) Communication system for sharing resources between multiple network operators
DE60301035T2 (de) Verfahren und Vorrichtung zur Planung von Datenzübertragungen zu Nutzern in Telekommunikationsystemen
EP2680647A2 (en) Power control in LTE-advanced heterogeneous networks
CN102869106B (zh) Pdcch自适应调整方法及装置
CN103906238B (zh) 一种带宽分配方法、装置及服务器
US10701706B2 (en) Resource allocation method, apparatus, and system, and base station
CN102404853B (zh) 一种发送pdcch的方法和设备
CN108055701B (zh) 一种资源调度方法及基站
CN103096484B (zh) 终端调度方法和设备
CN102036378B (zh) 信道的分配方法和装置、基站可用资源的分配方法
CN102984717B (zh) 系统容量的估算方法及系统
CN107155192B (zh) 一种用户体验质量评估方法及装置
CN113382414A (zh) 基于网络切片的非正交多址接入系统资源分配方法及装置
CN108696928A (zh) 一种路由器发射功率的调整方法及系统
CN102572847B (zh) 频谱分配方法及系统
CN106793122A (zh) 一种异构网络每比特最小化无线资源安全分配方法
CN106936540A (zh) 用户设备及上行数据传输方法
EP2894892A1 (en) Frequency spectrum division method, device and system
CN104754655B (zh) 一种业务调整方法和设备
Zawawi et al. Rate Adaptation for Quality of Service (QoS) Improvement in IEEE 802.11 ax Wireless Local Area Network (WLAN
Lee et al. Reinforcement learning for random access in multi-cell networks
Liu et al. Slow-rate utility-based resource allocation in wireless networks
CN108768602A (zh) 独立免许可频段蜂窝移动通信系统选择授权用户反馈csi的方法
CN104243119B (zh) 一种信道资源分配方法和系统
CN103812627A (zh) 一种用于发送调度信息的方法、装置和基站

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant