CN103906238B

CN103906238B - 一种带宽分配方法、装置及服务器

Info

Publication number: CN103906238B
Application number: CN201210568765.6A
Authority: CN
Inventors: 梁立涛; 肖建华; 石勇; 王志明
Original assignee: China Mobile Group Beijing Co Ltd
Current assignee: China Mobile Group Beijing Co Ltd
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2017-02-22
Anticipated expiration: 2032-12-24
Also published as: CN103906238A

Abstract

本发明公开了一种带宽分配方法、装置及服务器，包括：针对终端当前发起的终端业务，获取该终端对应的当前网络状态；基于该当前网络状态和各预设带宽的各组合分别对应的Q值，确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率；各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望，该Q值越大，与该Q值对应的随机概率越大；按照分别与各预设带宽对应的随机概率，从各预设带宽中进行随机选择；为该终端业务分配所选择出的预设带宽。采用本发明提供的方法、装置及服务器，解决了现有技术中无法为终端合理分配带宽的问题。

Description

一种带宽分配方法、装置及服务器

技术领域

本发明涉及无线通信领域，尤其涉及一种带宽分配方法、装置及服务器。

背景技术

在目前的很多通信网络中，例如TD-SCDMA（Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址）网络，当一个终端接入该网络时，该网络服务器先为该终端分配预设接入带宽；当该终端接入该网络后，该网络服务器获取该终端传输信道数据流量，分别和预设的上调带宽门限值、下调带宽门限值进行比较，当该终端传输信道数据流量大于该上调带宽门限值时，上调为该终端分配的带宽，当该终端传输信道数据流量小于该下调带宽门限值时，下调为该终端分配的带宽。

然而，由于不同业务对带宽需求不同，该上调带宽门限值和该下调带宽门限值很难设置合适。例如，即时通讯业务对带宽需求较低，而网页浏览业务对带宽需求较高，如果该上调带宽门限值设置过低，则可能会造成对带宽需求较低的终端的带宽进行上调，导致网络资源的利用率较低；而如果该上调带宽门限值设置过高，则可能会造成对带宽需求较高的终端的带宽没有进行上调，进而导致终端业务处理效率较低。同样，该下调带宽门限值也存在类似问题。可见，目前现有的带宽分配机制不能对带宽进行合理分配。

发明内容

本发明实施例提供一种带宽分配方法、装置及服务器，用以解决现有技术中存在的不能对带宽进行合理分配的问题。

本发明实施例提供一种带宽分配方法，包括：

针对终端当前发起的终端业务，获取所述终端对应的当前网络状态；

基于所述当前网络状态和各预设带宽的各组合分别对应的Q值，确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率；各Q值分别对应表征了在所述当前网络状态下所述终端采用各预设带宽处理所述终端业务所产生的累积动作回报的期望，所述Q值越大，与所述Q值对应的随机概率越大；

按照分别与各预设带宽对应的随机概率，从各预设带宽中进行随机选择；

为所述终端业务分配所选择出的预设带宽。

本发明实施例提供一种带宽分配装置，包括：

获取单元，用于针对终端当前发起的终端业务，获取所述终端对应的当前网络状态；

第一确定单元，用于基于所述当前网络状态和各预设带宽的各组合分别对应的Q值，确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率；各Q值分别对应表征了在所述当前网络状态下所述终端采用各预设带宽处理所述终端业务所产生的累积动作回报的期望，所述Q值越大，与所述Q值对应的随机概率越大；

选择单元，用于按照分别与各预设带宽对应的随机概率，从各预设带宽中进行随机选择；

分配单元，用于为所述终端业务分配所选择出的预设带宽。

本发明实施例提供一种服务器，包括上述带宽分配装置。

本发明有益效果包括：

本发明实施例提供的方法，基于当前网络状态和各预设带宽的各组合分别对应的Q值，确定各预设带宽对应的随机概率，其中，Q值越大，对应的随机概率越大，基于各预设带宽对应的随机概率，从各预设带宽中进行随机选择，将选择出的预设带宽分配给终端业务，可见较大的Q值的对应的预设带宽被选择出的概率也较大，由于Q值表征了在该当前网络状态下为终端业务分配预设带宽所产生的累积回报的期望，即Q值越大表明分配的预设带宽越合理，因此采用本发明实施例提供的方法能够实现对网络带宽进行更合理的分配。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的带宽分配方法的流程图；

图2为本发明实施例1提供的带宽分配方法的详细流程图；

图3为本发明实施例2提供的带宽分配装置的结构图。

具体实施方式

为了给出合理分配带宽的实现方案，本发明实施例提供了一种带宽分配方法、装置及服务器，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

强化学习是一种从环境到行为映射的学习。在强化学习过程中，环境不告诉强化学习系统如何去产生正确的动作，而是对已产生的动作的好坏做出评价（即回报）。强化学习系统根据外部环境所提供的信息及自身的经历进行学习，在不断的“动作-评价（回报）”的过程中获得知识，改进自己的动作方案来适应环境，以使累计动作回报达到最大化。

基于上述强化学习原理，本发明实施例提供一种带宽分配方法，如图1所示，包括：

步骤101、针对终端当前发起的终端业务，获取该终端对应的当前网络状态；

步骤102、基于该当前网络状态和各预设带宽的各组合分别对应的Q值，确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率；各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望，该Q值越大，与该Q值对应的随机概率越大；

步骤103、按照分别与各预设带宽对应的随机概率，从各预设带宽中进行随机选择；

步骤104、为该终端业务分配所选择出的预设带宽。

其中，当前网络状态具体可以由当前网络可用带宽、终端业务类型以及终端接入场强表征。

在步骤102中，具体可采用玻尔兹曼分布算法，基于该当前网络状态和各预设带宽的各组合分别对应的Q值、该当前网络状态出现的次数和当前可分配的最大预设带宽，确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率，该次数越大，不同Q值各自对应的随机概率的差异越大。

也可以采用其它算法确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率，例如贪婪算法等。

进一步的，在步骤104，为该终端业务分配所选择出的预设带宽之后，还包括：

基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在该当前网络状态下为该终端业务分配所选择出的预设带宽后的业务处理时间、在该当前网络状态下为该终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值，确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报。

而当该终端业务不是该终端首次发起的终端业务时，在步骤102，确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前，还包括：

基于该终端发起的该终端业务的上一终端业务对应的上一网络状态和该上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在该上一网络状态下选择该上一选择出的预设带宽的次数、在该上一网络状态下该终端采用该上一选择出的预设带宽处理该上一终端业务所产生的动作回报、常数时间折现因子以及该当前网络状态和各预设带宽的各组合分别对应的Q值，更新该上一网络状态和该上一选择出的预设带宽的组合对应的Q值。

下面结合附图，以在TD-SCDMA网络中分配上行带宽为例，用具体实施例对本发明提供的带宽分配方法、装置及服务器进行详细描述。

实施例1：

当终端首次发起一个终端业务时，可以为该终端业务随机分配一个预设带宽，各预设带宽的集合为A={0,a₁,a₂,a₃,......,a_n}，a_n为当前网络具有的最大带宽，且A中每两个相邻预设带宽相差预设数量。在本实施例中，A={0，16，32，……，256}，256为当前网络具有的最大带宽，A中每两个相邻预设带宽相差16。当为终端业务分配预设带宽0时，即表示拒绝该终端业务接入。

图2为本发明实施1提供的带宽分配方法的详细流程图，当终端不是首次发起一个终端业务时，触发该流程，具体包括：

步骤201、获取该终端的当前网络状态。

该当前网络状态s_t可以具体由当前网络可用带宽l、终端业务类型v以及终端接入场强h表征，即s_t=（h，v，l）。

在本实施例中，TD-SCDMA网络中终端接入场强h具体为PCCPCH（Primary CommonControl Physical Channel，主公共控制物理信道）RSCP（Received Signal Code Power，接收信号功率），h∈[-30，-103]dBm；v∈{1，2，……，V}，由1，2，……，V表征终端业务的具体业务类型，具体可采用DPI（Deep Packet Inspection，深度包检测）技术获取终端业务的具体业务类型；当前网络可用带宽l具体为当前网络上行可用带宽，l∈[0，256]。

步骤202、更新该终端发起的当前终端业务的上一终端业务对应的上一网络状态和为该上一终端业务分配的上一选择出的预设带宽的组合对应的Q值，具体可采用如下公式更新：

Q'(s_s,a_s)=Q(s_s,a_s)+αΔQ(s_s,a_s)；

其中：

Q'(s_s,a_s)为该上一网络状态s_s和该上一选择出的预设带宽a_s的组合对应的更新后Q值；

Q(s_s,a_s)为该上一网络状态s_s和该上一选择出的预设带宽a_s的组合对应的更新前Q值；

r(s_s,a_s)为在该上一网络状态s_s下该终端采用该上一选择出的预设带宽a_s处理该上一终端业务所产生的动作回报；

γ为常数时间折现因子，一般按经验值可取0.8或0.9；

为在该上一网络状态s_s下选择该上一选择出的预设带宽a_s的次数。

步骤203、确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率，具体可采用如下公式确定：

其中：

p(a_i|s_t)为在该当前网络状态s_t下从各预设带宽中进行随机选择时所基于的与预设带宽a_i对应的随机概率；

Q(s_t,a_i)为该当前网络状态s_t和预设带宽a_i的组合对应的Q值；

a_l为当前可分配的最大预设带宽；

为该当前网络状态s_t出现的次数。

由上述随机概率计算公式可见，随着当前网络状态s_t出现的次数的增长，参数T呈负指数规律逐渐下降。给定状态下带宽的选择将越来越取决于Q值，而非随机性地探索。

步骤204、按照确定的分别与不超过该最大预设带宽的各预设带宽对应的随机概率，从不超过该最大预设带宽的各预设带宽中进行随机选择。

具体可以根据不超过该最大预设带宽的各预设带宽对应的随机概率，建立不超过该最大预设带宽的各预设带宽对应的区间，并且，各预设带宽对应的区间的区间长度和各预设带宽对应的随机概率成正比，且各预设带宽对应的区间的集合无交集。较佳的，各预设带宽对应的区间的集合可以为[0，1]，在选择时随机生成[0，1]内的随机数，该随机数落入的区间对应的预设带宽即为从不超过该最大预设带宽的各预设带宽中随机选择出的带宽。

步骤205、为该终端业务分配所选择出的预设带宽。

步骤206、确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报，具体可采用如下公式确定：

其中：

r(s_t,a_t)为在该当前网络状态s_t下该终端采用所选择出的预设带宽a_t处理该终端业务所产生的动作回报；

η(s_t,a_t)为在该当前网络状态s_t下为该终端业务分配所选择出的预设带宽a_t后的业务处理时间；

η(s_t,a_t-1)为在该当前网络状态s_t下为该终端业务分配比选择出的预设带宽a_t小预设数量的预设带宽a_t-1后的业务处理时间；

θ_v为为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值；

a₁为当前可分配的不为0的最小预设带宽；

a_l为当前可分配的最大预设带宽；

为正常数。

终端每一次采用所选择出的预设带宽处理终端业务所产生的动作回报都将激励着下一次带宽分配向着正确的决策收敛。

在本实施例中，上述带宽分配方法各步骤的执行的主体可以为TD-SCDMA网络中的RNC（Radio Network Controller，无线网络控制器）。

可见，采用本发明实施例1提供的方法，在进行预设带宽的随机选择时，较大的Q值的对应的预设带宽被选择出的概率较大，由于Q值表征了在该当前网络状态下为终端业务分配预设带宽所产生的累积回报的期望，即Q值越大表明分配的预设带宽越合理，因此采用本发明实施例提供的方法能够实现对网络带宽进行更合理的分配。并且，相比于现有技术中设置上调带宽门限值和下调带宽门限值调整带宽的方式，还能够避免带宽的频繁调整，进而避免产生过多的无线承载或物理信道重配置，减少终端业务掉线率，能够提高用户的使用体验。

实施例2：

基于同一发明构思，根据本发明上述实施例提供的带宽分配方法，相应地，本发明实施例2还提供了带宽分配装置，装置结构示意图如图3所示，具体包括：

获取单元301，用于针对终端当前发起的终端业务，获取该终端对应的当前网络状态；

第一确定单元302，用于基于该当前网络状态和各预设带宽的各组合分别对应的Q值，确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率；各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望，该Q值越大，与该Q值对应的随机概率越大；

选择单元303，用于按照分别与各预设带宽对应的随机概率，从各预设带宽中进行随机选择；

分配单元304，用于为该终端业务分配所选择出的预设带宽。

进一步的，该当前网络状态由当前网络可用带宽、终端业务类型以及终端接入场强表征。

进一步的，第一确定单元302具体用于基于该当前网络状态和各预设带宽的各组合分别对应的Q值、该当前网络状态出现的次数和当前可分配的最大预设带宽，确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率，该次数越大，不同Q值各自对应的随机概率的差异越大。

进一步的，第一确定单元302具体用于采用如下公式确定在该当前网络状态下从不超过该最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过该最大预设带宽的各预设带宽对应的随机概率：

其中，p(a_i|s_t)为在该当前网络状态s_t下从各预设带宽中进行随机选择时所基于的与预设带宽a_i对应的随机概率；Q(s_t,a_i)为该当前网络状态s_t和预设带宽a_i的组合对应的Q值；A为各预设带宽的集合{0,a₁,a₂,a₃，......,a_n}，a_n为该当前网络具有的最大带宽，且A中每两个相邻预设带宽相差预设数量；a_l为当前可分配的最大预设带宽；为该当前网络状态s_t出现的次数。

进一步的，该带宽分配装置，还包括：

第二确定单元305，用于在为该终端业务分配所选择出的预设带宽之后，基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在该当前网络状态下为该终端业务分配所选择出的预设带宽后的业务处理时间、在该当前网络状态下为该终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值，确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报。

进一步的，第二确定单元305具体用于采用如下公式确定在该当前网络状态下该终端采用所选择出的预设带宽处理该终端业务所产生的动作回报：

其中，r(s_t,a_t)为在该当前网络状态s_t下该终端采用所选择出的预设带宽a_t处理该终端业务所产生的动作回报；η(s_t,a_t)为在该当前网络状态s_t下为该终端业务分配所选择出的预设带宽a_t后的业务处理时间；η(s_t,a_t-1)为在该当前网络状态s_t下为该终端业务分配比选择出的预设带宽a_t小预设数量的预设带宽a_t-1后的业务处理时间；θ_v为为该终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值；a₁为当前可分配的不为0的最小预设带宽；a_l为当前可分配的最大预设带宽；为正常数。

进一步的，该带宽分配装置，还包括更新单元306，用于当该终端业务为该终端第N次发起的终端业务时，N大于1，在确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前，基于该终端发起的该终端业务的上一终端业务对应的上一网络状态和该上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在该上一网络状态下选择该上一选择出的预设带宽的次数、在该上一网络状态下该终端采用该上一选择出的预设带宽处理该上一终端业务所产生的动作回报、常数时间折现因子以及该当前网络状态和各预设带宽的各组合分别对应的Q值，更新该上一网络状态和该上一选择出的预设带宽的组合对应的Q值。

进一步的，更新单元306具体用于采用如下公式更新该上一网络状态和该上一选择出的预设带宽的组合对应的Q值：

Q'(s_s,a_s)=Q(s_s,a_s)+αΔQ(s_s,a_s)；

其中，Q'(s_s,a_s)为该上一网络状态s_s和该上一选择出的预设带宽a_s的组合对应的更新后Q值；Q(s_s,a_s)为该上一网络状态s_s和该上一选择出的预设带宽a_s的组合对应的更新前Q值；r(s_s,a_s)为在该上一网络状态s_s下该终端采用该上一选择出的预设带宽a_s处理该上一终端业务所产生的动作回报；A为各预设带宽的集合{0,a₁,a₂,a₃,......,a_n}，a_n为该当前网络具有的最大带宽，且A中每两个相邻预设带宽相差预设数量；γ为常数时间折现因子；为在该上一网络状态s_s下选择该上一选择出的预设带宽a_s的次数。

上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤，在此不再赘述。

实施例3：

基于同一发明构思，根据本发明上述实施例提供的带宽分配方法，相应地，本发明实施例3还提供了一种服务器，包括上述图3所示的带宽分配装置。

综上所述，本发明实施例提供的方案，针对终端当前发起的终端业务，获取该终端对应的当前网络状态；基于该当前网络状态和各预设带宽的各组合分别对应的Q值，确定在该当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率；各Q值分别对应表征了在该当前网络状态下该终端采用各预设带宽处理该终端业务所产生的累积动作回报的期望，该Q值越大，与该Q值对应的随机概率越大；按照分别与各预设带宽对应的随机概率，从各预设带宽中进行随机选择；为该终端业务分配所选择出的预设带宽。采用本发明实施例提供的方案，能够为终端业务合理分配带宽。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种带宽分配方法，其特征在于，包括：

为所述终端业务分配所选择出的预设带宽；

其中，所述动作为在强化学习系统中已产生的动作，回报为环境对动作做出的评价，所述强化学习系统根据外部环境所提供的信息及自身的经历进行学习，在不断的“动作回报”的过程中获得知识，改进自己的动作方案来适应环境，以使累计动作回报达到最大化。

2.如权利要求1所述的方法，其特征在于，所述当前网络状态由当前网络可用带宽、终端业务类型以及终端接入场强表征。

3.如权利要求1所述的方法，其特征在于，确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率，具体包括：

基于所述当前网络状态和各预设带宽的各组合分别对应的Q值、所述当前网络状态出现的次数和当前可分配的最大预设带宽，确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率，所述次数越大，不同Q值各自对应的随机概率的差异越大。

4.如权利要求3所述的方法，其特征在于，具体采用如下公式确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率：

p (a_{i} | s_{t}) = \frac{e^{Q (s_{t}, a_{i}) / T}}{\underset{a &Element; A}{Σ} e^{Q (s_{t}, a) / T}}, a_{i} = 0, a_{1}, a_{2}, a_{3}, ... ..., a_{l};

T = e^{- n_{s_{t}}};

其中，p(a_i|s_t)为在所述当前网络状态s_t下从各预设带宽中进行随机选择时所基于的与预设带宽a_i对应的随机概率；Q(s_t,a_i)为所述当前网络状态s_t和预设带宽a_i的组合对应的Q值；A为各预设带宽的集合{0,a₁,a₂,a₃,......,a_n}，a_n为所述当前网络具有的最大带宽，且A中每两个相邻预设带宽相差预设数量；a_l为当前可分配的最大预设带宽；为所述当前网络状态s_t出现的次数。

5.如权利要求1所述的方法，其特征在于，在为所述终端业务分配所选择出的预设带宽之后，还包括：

基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在所述当前网络状态下为所述终端业务分配所选择出的预设带宽后的业务处理时间、在所述当前网络状态下为所述终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值，确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报；

6.如权利要求5所述的方法，其特征在于，具体采用如下公式确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报：

其中，r(s_t,a_t)为在所述当前网络状态s_t下所述终端采用所选择出的预设带宽a_t处理所述终端业务所产生的动作回报；η(s_t,a_t)为在所述当前网络状态s_t下为所述终端业务分配所选择出的预设带宽a_t后的业务处理时间；η(s_t,a_t-1)为在所述当前网络状态s_t下为所述终端业务分配比选择出的预设带宽a_t小预设数量的预设带宽a_t-1后的业务处理时间；θ_v为为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值；a₁为当前可分配的不为0的最小预设带宽；a_l为当前可分配的最大预设带宽；为正常数。

7.如权利要求1所述的方法，其特征在于，当所述终端业务为所述终端第N次发起的终端业务时，所述N大于1，在确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前，还包括：

基于所述终端发起的所述终端业务的上一终端业务对应的上一网络状态和所述上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在所述上一网络状态下选择所述上一选择出的预设带宽的次数、在所述上一网络状态下所述终端采用所述上一选择出的预设带宽处理所述上一终端业务所产生的动作回报、常数时间折现因子以及所述当前网络状态和各预设带宽的各组合分别对应的Q值，更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值。

8.如权利要求7所述的方法，其特征在于，具体采用如下公式更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值：

Q'(s_s,a_s)＝Q(s_s,a_s)+α△Q(s_s,a_s)；

Δ Q (s_{s}, a_{s}) = r (s_{s}, a_{s}) + γ \underset{a &Element; A}{m a x} Q (s_{t}, a) - Q (s_{s}, a_{s});

α = e^{- n_{s_{s}, a_{s}}};

其中，Q'(s_s,a_s)为所述上一网络状态s_s和所述上一选择出的预设带宽a_s的组合对应的更新后Q值；Q(s_s,a_s)为所述上一网络状态s_s和所述上一选择出的预设带宽a_s的组合对应的更新前Q值；r(s_s,a_s)为在所述上一网络状态s_s下所述终端采用所述上一选择出的预设带宽a_s处理所述上一终端业务所产生的动作回报；A为各预设带宽的集合{0,a₁,a₂,a₃,......,a_n}，a_n为所述当前网络具有的最大带宽，且A中每两个相邻预设带宽相差预设数量；γ为常数时间折现因子；为在所述上一网络状态s_s下选择所述上一选择出的预设带宽a_s的次数。

9.一种带宽分配装置，其特征在于，包括：

分配单元，用于为所述终端业务分配所选择出的预设带宽；

10.如权利要求9所述的装置，其特征在于，所述当前网络状态由当前网络可用带宽、终端业务类型以及终端接入场强表征。

11.如权利要求9所述的装置，其特征在于，所述第一确定单元具体用于基于所述当前网络状态和各预设带宽的各组合分别对应的Q值、所述当前网络状态出现的次数和当前可分配的最大预设带宽，确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率，所述次数越大，不同Q值各自对应的随机概率的差异越大。

12.如权利要求11所述的装置，其特征在于，所述第一确定单元具体用于采用如下公式确定在所述当前网络状态下从不超过所述最大预设带宽的各预设带宽中进行随机选择时所基于的分别与不超过所述最大预设带宽的各预设带宽对应的随机概率：

p (a_{i} | s_{t}) = \frac{e^{Q (s_{t}, a_{i}) / T}}{\underset{a &Element; A}{Σ} e^{Q (s_{t}, a) / T}}, a_{i} = 0, a_{1}, a_{2}, a_{3}, ... ..., a_{l};

T = e^{- n_{s_{t}}};

13.如权利要求9所述的装置，其特征在于，还包括：

第二确定单元，用于在为所述终端业务分配所选择出的预设带宽之后，基于所选择出的预设带宽、当前可分配的最大预设带宽、当前可分配的不为0的最小预设带宽、在所述当前网络状态下为所述终端业务分配所选择出的预设带宽后的业务处理时间、在所述当前网络状态下为所述终端业务分配比选择出的预设带宽小预设数量的预设带宽后的业务处理时间和为所述终端业务分配两个相差预设数量的预设带宽后的两个业务处理时间的差值阈值，确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报；

14.如权利要求13所述的装置，其特征在于，所述第二确定单元具体用于采用如下公式确定在所述当前网络状态下所述终端采用所选择出的预设带宽处理所述终端业务所产生的动作回报：

15.如权利要求9所述的装置，其特征在于，还包括更新单元，用于当所述终端业务为所述终端第N次发起的终端业务时，所述N大于1，在确定在所述当前网络状态下从各预设带宽中进行随机选择时所基于的分别与各预设带宽对应的随机概率之前，基于所述终端发起的所述终端业务的上一终端业务对应的上一网络状态和所述上一终端业务对应的上一选择出的预设带宽的组合对应的Q值、在所述上一网络状态下选择所述上一选择出的预设带宽的次数、在所述上一网络状态下所述终端采用所述上一选择出的预设带宽处理所述上一终端业务所产生的动作回报、常数时间折现因子以及所述当前网络状态和各预设带宽的各组合分别对应的Q值，更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值。

16.如权利要求15所述的装置，其特征在于，所述更新单元具体用于采用如下公式更新所述上一网络状态和所述上一选择出的预设带宽的组合对应的Q值：

Q'(s_s,a_s)＝Q(s_s,a_s)+α△Q(s_s,a_s)；

Δ Q (s_{s}, a_{s}) = r (s_{s}, a_{s}) + γ \underset{a &Element; A}{m a x} Q (s_{t}, a) - Q (s_{s}, a_{s});

α = e^{- n_{s_{s}, a_{s}}};

17.一种服务器，其特征在于，包括权利要求9-16任一所述的带宽分配装置。