CN109743778A

CN109743778A - 一种基于强化学习的资源分配优化方法和系统

Info

Publication number: CN109743778A
Application number: CN201910031437.4A
Authority: CN
Inventors: 李方敏; 曾源远; 李扬帆; 张韬; 周舟; 彭小兵
Original assignee: Changsha University
Current assignee: Hunan Zhongkan Beidou Research Institute Co ltd
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-05-10
Anticipated expiration: 2039-01-14
Also published as: CN109743778B

Abstract

本发明公开了一种基于强化学习的资源分配优化方法，包括：获取下行链路的带宽值，并根据该带宽值获得在单个传输时间间隔内可调用的物理资源块数量，并获得待传输的用户业务数量、当前t时刻待传输用户业务在第n个物理资源块上的特征、以及t‑1时刻整个下行链路的特征，判断是需要提高下行链路的带宽利用率，还是需要提高下行链路的公平性，还是需要实现下行链路的带宽利用率和公平性的折衷，如果是需要提高下行链路的带宽利用率，则将特征输入到训练好的带宽利用率强化学习模型中，以得到第i个用户业务在第n个资源块上的度量值。本发明能解决现有算法由于仅仅考虑单一资源块最优分配而引起的局部最优解情况、从而会影响调度性能的技术问题。

Description

一种基于强化学习的资源分配优化方法和系统

技术领域

本发明属于无线通信技术领域，更具体地，涉及一种基于强化学习的资源分配优化方法和系统。

背景技术

长期演进(Long term evolution，简称LTE)网络作为主流的无线通信网络，目前已经得到了相当大的普及应用。下行链路调度是现有LTE网络中一个很重要的环节，目前普遍采用的下行链路调度方法主要有比例公平(Proportional fair，简称PF)算法、最大载比干(Max channel quality indicator，Max-CQI)算法、最大加权时延优先(ModifiedLargest Weighted Delay First，简称M-LWDF)算法、以及指数比例公平(Exponentialproportional fair，简称EXP/PF)算法。

然而，上述LTE下行链路调度算法的分配策略仅仅只考虑到单一资源块的最优分配，这虽然可能获得单个资源块的最优解，但若从全局考虑，则会有极大的可能性会陷入局部最优解，从而会影响分配性能。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于强化学习的资源分配优化方法和系统，其目的在于，解决现有LTE下行链路调度算法由于仅仅考虑单一资源块最优分配而引起的局部最优解情况，从而会影响调度性能的技术问题，且本发明通过基于历史分配数据来构建分配模型，具有普遍适用性和演进性。

为实现上述目的，按照本发明的一个方面，提供了一种基于强化学习的资源分配优化方法，包括以下步骤：

(1)获取下行链路的带宽值BD_dl，并根据该带宽值BD_dl获得在单个传输时间间隔内可调用的物理资源块数量m，并获得待传输的用户业务数量N、当前t时刻待传输用户业务在第n个物理资源块上的特征、以及t-1时刻整个下行链路的特征，其中n∈(1，m]；

(2)判断是需要提高下行链路的带宽利用率，还是需要提高下行链路的公平性，还是需要实现下行链路的带宽利用率和公平性的折衷，如果是需要提高下行链路的带宽利用率，则进入步骤(3)，如果需要提高下行链路的公平性，则进入步骤(4)，如果需要实现下行链路的带宽利用率和公平性的折衷，则进入步骤(5)；

(3)将步骤(1)得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征输入到训练好的带宽利用率强化学习模型中，以得到t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值，然后进入步骤(6)；

(4)将步骤(1)得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征输入到训练好的系统公平性强化学习模型中，以得到t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值，然后进入步骤(6)；

(5)将步骤(1)得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征分别输入到训练好的带宽利用率强化学习模型和系统公平性强化学习模型中，以分别得到仅优化带宽利用率的强化学习模型输出值Q_spec、以及仅优化系统公平性的模型输出值Q_fair，并根据强化学习模型输出值Q_spec和模型输出值Q_fair确定t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值；

(6)根据得到的t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值，将可调用的m个物理资源块依次分配给最大度量值对应的用户业务。

优选地，t-1时刻整个下行链路的特征以及t时刻下行链路上待传输的用户业务在第n个物理资源块上的特征用来表示，其中S_Spec^t-1表示下行链路在t-1时刻的带宽利用率，S_F^t-1表示下行链路在t-1时刻的系统公平性，表示t时刻下行链路上待传输的第i个用户业务在第n个物理资源块上的相对数据量比值，其数值范围为(0，1]，表示在t时刻下行链路上待传输的第i个用户业务在第n个物理资源块上的相对公平性。

优选地，S_Spec^t-1的具体计算公式如下：

其中表示下行链路上待传输的第i个用户业务在0到t-1时间内的传输数据总量；

S_F^t-1的具体计算公式如下：

的具体计算公式如下：

其中bit_max表示单一物理资源块所能传输的最大数据量；TB_n-TB_n-1表示第n个资源块被分配之后，用户业务的传输数据量的变化值；

的计算公式如下：

其中min_BIT^t-1表示的是截止到t-1时刻，所有用户业务中获得的最小传输数据量；max_BIT^t-1表示的是截止到t-1时刻，所有用户业务中获得的最大传输数据量；表示的是截止到t-1时刻，下行链路上待传输的第i个用户业务所获得的总数据传输量。

优选地，用户业务的传输数据量TB_n的具体计算过程如下：

TB_n＝GetBits(effvalue，n)

其中

其中sinr_j表示被分配到某一用户业务的第j个物理资源块上的信道条件，且有j∈(1，m]，effvalue表示被分配到某一用户业务的所有物理资源块的综合有效信号与干扰噪声的比值，GetBits()是传输数据量获取函数。

优选地，训练好的带宽利用率强化学习模型是通过以下过程生成的：首先基于上述同样的方法获取待传输用户业务在物理资源块上的特征、以及整个下行链路的特征，然后计算带宽利用率奖励函数：

其中β是一个常数。

优选地，训练好的系统公平性强化学习模型是通过以下过程生成的：首先基于上述同样的方法获取待传输用户业务在物理资源块上的特征、以及整个下行链路的特征，然后计算系统公平性奖励函数：

其中α是一个大于0的常数，μ的范围为(-1，无穷大]。

优选地，带宽利用率强化学习模型和系统公平性强化学习模型中的每一个都包括两个结构相同的神经网络，其中一个是当前神经网络，另外一个是目标神经网络；

每个神经网络包括一个输入层，一个隐藏层和一个损失函数层，且当前神经网络的网络参数在经过一定训练次数后被传递给目标神经网络，作为该目标神经网络的网络参数；

神经网络的第一层是输入层，输入4维度的特征矩阵；

神经网络的第二层是隐藏层，其接受来自输入层的数据，该层的神经元个数为15个，且激活函数为ReLu函数，输出的维度为15。

神经网络的第三层为损失函数层，其接收来自隐藏层的数据。

优选地，损失函数层使用的损失函数Loss表示为：

其中y^current表示当前神经网络的输出值，y^target表示基于贝尔曼方程以及目标神经网络得出的更新值，且有：

y^target＝r+0.9·Q(State^t+1，a，θ^target)

其中r表示奖励系数，θ^target表示目标神经网络的参数值，a表示强化学习的动作值；State^t+1表示当前t+1时刻待传输用户业务在第n个物理资源块上的特征、以及t时刻整个下行链路的特征，其表示为其中

其中S_Spec^t表示t时刻下行链路的带宽利用率；表示将第n个资源块被分配给下行链路上待传输的第i个用户业务之后，用户业务的传输数据量。

其中Δs是一个随机常数量；

。

优选地，步骤(5)中，t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值计算公式如下：

其中表示t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值。η₁，η₂分别是设定的比例系数。

按照本发明的另一方面，提供了一种基于强化学习的资源分配优化系统，包括：

第一模块，用于获取下行链路的带宽值BD_dl，并根据该带宽值BD_dl获得在单个传输时间间隔内可调用的物理资源块数量m，并获得待传输的用户业务数量N、当前t时刻待传输用户业务在第n个物理资源块上的特征、以及t-1时刻整个下行链路的特征，其中n∈(1，m]；

第二模块，用于判断是需要提高下行链路的带宽利用率，还是需要提高下行链路的公平性，还是需要实现下行链路的带宽利用率和公平性的折衷，如果是需要提高下行链路的带宽利用率，则进入第三模块，如果需要提高下行链路的公平性，则进入第四模块，如果需要实现下行链路的带宽利用率和公平性的折衷，则进入第五模块；

第三模块，用于将第一模块得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征输入到训练好的带宽利用率强化学习模型中，以得到t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值，然后进入第六模块；

第四模块，用于将第一模块得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征输入到训练好的系统公平性强化学习模型中，以得到t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值，然后进入第六模块；

第五模块，用于将第一模块得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征分别输入到训练好的带宽利用率强化学习模型和系统公平性强化学习模型中，以分别得到仅优化带宽利用率的强化学习模型输出值Q_spec、以及仅优化系统公平性的模型输出值Q_fair，并根据强化学习模型输出值Q_spec和模型输出值Q_fair确定t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值；

第六模块，用于根据得到的t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值，将可调用的m个物理资源块依次分配给最大度量值对应的用户业务。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明采用了步骤(3)、(4)、(5)的强化学习模型获得用户业务在物理资源块上的度量值，从而能够解决优化传统调度算法中由于考虑单一资源块最优分配而引起的局部最优问题，并进一步提高下行链路的性能。

(2)本发明通过基于带宽利用率和系统公平性两种性能指标设计相对应的奖励函数，从而可以实现分别与带宽利用率和系统公平性相对应的调度策略，继而可以实现不同实验背景、不同用户需求下的性能平衡。

附图说明

图1示出本发明方法中使用的强化学习算法伴随训练次数变化的损失变化值。

图2(a)到(c)示出三个随机的单视频业务场景下，本发明方法和现有算法在系统带宽利用率方面的性能比较。

图3(a)和(b)示出两个随机的混合视频业务场景下，本发明方法和现有算法在系统带宽利用率方面的性能比较。

图4(a)和(b)示出一个随机的混合视频业务场景下，本发明方法和现有算法在数据传输量方面的性能比较。

图5(a)和(b)示出另一个随机的混合视频业务场景下，本发明方法和现有算法在数据传输量方面的性能比较。

图6(a)到(c)示出三个随机的单视频业务场景和不同用户数量下，本发明方法和现有算法在系统公平性方面的性能比较。

图7(a)和(b)示出两个随机的混合视频业务场景和不同用户数量下，本发明方法和现有算法在系统公平性方面的性能比较。

图8(a)到(c)示出三个随机的单视频业务场景和不同用户数量下，本发明方法和现有算法在系统丢包率方面的性能比较。

图9(a)和(b)示出两个个随机的混合视频业务场景和不同用户数量下，本发明方法和现有算法在系统丢包率方面的性能比较。

图10示出单视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在带宽利用率方面的性能比较。

图11示出单视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统公平性方面的性能比较。

图12示出单视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统丢包率方面的性能比较。

图13示出混合视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在带宽利用率方面的性能比较。

图14示出混合视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统公平性方面的性能比较。

图15示出混合视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统丢包率方面的性能比较。

图16是本发明基于强化学习的资源分配优化方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的整体思路在于，提出一种基于强化学习的资源分配优化方法，其首先依据下行链路资源调度的特性构建了相关的马尔科夫状态转移模型；然后基于网络历史调度数据和DQN算法训练了强化学习的资源调度模型。

如图16所示，本发明基于强化学习的资源分配优化方法包括以下步骤：

(1)获取下行链路的带宽值BD_dl，并根据该带宽值BD_dl获得在单个传输时间间隔(1毫秒)内可调用的物理资源块数量m，并获得待传输的用户业务数量N(其取值等于下行链路的用户数量与下行链路中每个用户待传输的用户业务数量的乘积)、当前t时刻待传输用户业务在第n个物理资源块上的特征、以及t-1时刻整个下行链路的特征，其中n∈(1，m]；

具体而言，对于下行链路的带宽值分别为1.4、3、5、10、15、20MHz而言，其对应的物理资源块数量是6、15、25、50、75、100个。

在本步骤中，用户业务可以是例如视频业务(Video)、尽力而为型业务(Besteffort)等。

具体而言，本发明使用来表示t-1时刻整个下行链路的特征以及t时刻下行链路上待传输的用户业务在第n个物理资源块上的特征，其中S_Spec^t-1表示下行链路在t-1时刻的带宽利用率，S_F^t-1表示下行链路在t-1时刻的系统公平性，表示t时刻下行链路上待传输的第i个用户业务在第n个物理资源块上的相对数据量比值，其数值范围为(0，1]，表示在t时刻下行链路上待传输的第i个用户业务在第n个物理资源块上的相对公平性，

S_Spec^t-1的具体计算公式如下：

其中表示下行链路上待传输的第i个用户业务在0到t-1时间内的传输数据总量。

S_F^t-1的具体计算公式如下：

的具体计算公式如下：

其中bit_max表示单一物理资源块所能传输的最大数据量，其可以在3GPP协议标准中通过查表的方式获得，是一个定值；TB_n-TB_n-1表示第n个资源块被分配之后，用户业务的传输数据量的变化值，TB_n的具体计算过程如下：

TB_n＝GetBits(effvalue，n)

其中

其中sinr_j表示被分配到某一用户业务的第j个物理资源块上的信道条件，且有j∈(1，m]，effvalue表示被分配到某一用户业务的所有物理资源块的综合有效信号与干扰噪声的比值，GetBits()是传输数据量获取函数，其可以在3GPP协议标准中通过输入effvalue和m值的方式获得。

的计算公式如下：

(3)将步骤(1)得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征(包括t-1时刻下行链路的带宽利用率值S_Spec^t-1、t-1时刻下行链路的系统公平性S_F^t-1和t时刻用户业务i在第n个物理资源块上的相对数据量比值以及第i个用户业务在第n个物理资源块上的相对公平性)输入到训练好的带宽利用率强化学习模型中，以得到t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值。

本发明中训练好的带宽利用率强化学习模型是通过以下过程生成的：首先基于上述同样的方法获取待传输用户业务在物理资源块上的特征、以及整个下行链路的特征，然后定义带宽利用率奖励函数的计算方式，其计算公式如下：

其中表示在t时刻将第n个资源块分配给第i个用户业务后，在下行链路的带宽利用率上所能得到的收益(即奖励函数)，其中β是一个常数，取值范围是(0，无穷大)，当β越大时，用户业务的相对数据量比值对带宽利用率强化学习模型的输出值的影响越小，反之则越大。

本发明的带宽利用率强化学习模型主要由两个结构相同的神经网络组成，其中一个称为当前神经网络，另外一个称为目标神经网络，每个神经网络包括一个输入层，一个隐藏层和一个损失函数层，且当前神经网络的网络参数在经过一定训练次数(该训练次数的取值范围是20到100次)后被传递给目标神经网络，作为该目标神经网络的网络参数。

第一层是输入层，输入多维度的特征矩阵(其中维度的大小等于4)。

第二层是隐藏层，其接受来自输入层的数据，该层的神经元个数为15个，且激活函数为ReLu函数，输出的维度为15。

第三层为损失函数层，其接收来自隐藏层的数据，该层使用的损失函数Loss表示为：

其中y^current表示当前神经网络的输出值，y^target表示基于贝尔曼方程以及目标神经网络得出的更新值，具体公式如下：

y^target＝r+0.9·Q(State^t+1，a，θ^target)

其中r在带宽利用率强化学习模型中就是上述的θ^target表示目标神经网络的参数值，a表示强化学习的动作值，其取值等于1；State^t+1表示当前t+1时刻待传输用户业务在第n个物理资源块上的特征、以及t时刻整个下行链路的特征，其表示为

在带宽利用率强化学习模型中，上述四个参数的具体转变过程如下所示：

S_Spec^t表示t时刻下行链路的带宽利用率；表示将第n个资源块被分配给下行链路上待传输的第i个用户业务之后，用户业务的传输数据量。

t时刻下行链路公平性的计算公式不变。

表示在t+1时刻，下行链路上待传输的第i个用户业务在第n个物理资源块上的相对数据量比值，Δs是一个随机常数量，其取值范围为[0，0.1]。

表示在t+1时刻，下行链路上待传输的第i个用户业务在第n个物理资源块上的相对公平性。

(4)将步骤(1)得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征(包括t-1时刻下行链路的系统公平性值S_Spec^t-1、t-1时刻下行链路的系统公平性S_F^t-1和t时刻用户业务i在第n个物理资源块上的相对数据量比值以及第i个用户业务在第n个物理资源块上的相对公平性)输入到训练好的系统公平性强化学习模型中，以得到t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值。

本发明中训练好的系统公平性强化学习模型是通过以下过程生成的：首先基于上述同样的方法获取待传输用户业务在物理资源块上的特征、以及整个下行链路的特征，然后定义系统公平性奖励函数的计算方式，其计算公式如下：

其中表示在t时刻将第n个物理资源块分配给下行链路上待传输的第i个用户业务在下行链路的公平性上所能得到的收益，其中α是一个大于0的常数，所起的作用和β一致。μ的范围为(-1，无穷大]，当μ越大时，用户业务的相对公平性对系统公平性强化学习模型的输出结果的影响越小，反之则越大。

本发明的系统公平性强化学习模型主要由两个结构相同的神经网络组成，其中一个称为当前神经网络，另外一个称为目标神经网络，每个神经网络包括一个输入层，一个隐藏层和一个损失函数层，且当前神经网络的网络参数在经过一定训练次数(该训练次数的取值范围是20到100次)后被传递给目标神经网络，作为该目标神经网络的网络参数。

y^target＝r+0.9·Q(State^t+1，a，θ^target)

其中r在系统公平性强化学习模型中就是上述的θ^target表示目标神经网络的参数值，a表示强化学习的动作值，其取值等于1；State^t+1表示当前t+1时刻待传输用户业务在第n个物理资源块上的特征、以及t时刻整个下行链路的特征，其表示为

在系统公平性强化学习模型中，上述四个参数的具体转变过程如下所示：

S_Spec^t表示t时刻下行链路的系统公平性；表示将第n个资源块被分配给下行链路上待传输的第i个用户业务之后，用户业务的传输数据量。

t时刻下行链路公平性的计算公式不变。

(5)将步骤(1)得到的t-1时刻整个下行链路的特征、以及当前t时刻待传输用户业务在第n个物理资源块上的特征(包括t-1时刻下行链路的系统公平性值S_Spec^t-1、t-1时刻下行链路的系统公平性S_F^t-1和t时刻用户业务i在第n个物理资源块上的相对数据量比值以及第i个用户业务在第n个物理资源块上的相对公平性)分别输入到训练好的带宽利用率强化学习模型和系统公平性强化学习模型中，以分别得到仅优化带宽利用率的强化学习模型输出值Q_spec、以及仅优化系统公平性的模型输出值Q_fair，并根据强化学习模型输出值Q_spec和模型输出值Q_fair确定t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值。

具体而言，Q_spec表示奖励函数为的强化学习模型输出值；Q_fair表示奖励函数为的强化学习模型输出值，t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值计算公式如下：

表示t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值。η₁，η₂分别是设定的比例系数，其取值范围为[0，无穷大]。

仿真结果

以下对本发明基于强化学习的资源分配优化方法进行仿真分析，为充分保证模型的适用性，本部分需要考虑多个场景下的单视频业务、以及视频和尽力而为(Best effort，简称Be)业务混合的流量情形，其实验环境分别如下表1和表2所示：

表1 单视频业务仿真实验参数

表2 视频业务与Be业务混合仿真实验参数

相比于视频业务其传输数据量偏大以及具有实时性的特点，Be业务虽然对实时性不作要求，但是具有更大的传输数据量，因此在利用混合业务进行仿真时，系统设置的用户数量要远小于单一视频业务的数量。不同场景之间的区别主要在于用户初始点距离基站的位置以及移动的方向，多个不同场景下的实验结果将可以充分证明模型的适用性。

以下将本发明的方法和现有的多个下行链路资源调度算法进行对比，如下表3所示，其中AM是Arithmetic Mean(算术平均数)算法，PF是Proportional Fair(比例公平)算法，CEPF是Capacity Enhanced PF(即容量增强PF)算法，MCEPF是Modified capacityenhanced PF(改进容量增强PF)算法，MT是Maximum throughput(最大吞吐量)算法，Spec是本发明带宽利用率强化学习模型，Fair是本发明针对系统公平性强化学习模型。

表3

1、算法收敛性

在本部分中，首先验证了本发明所提出的带宽利用率(Spec)强化学习模型和系统公平性(Fair)强化学习模型的收敛性。图1示出强化学习算法伴随训练次数变化的损失变化值，其中spec_cost表示带宽利用率强化学习模型的损失，fair_cost表示系统公平性强化学习模型的损失。

从损失值图像上可以看出，随着训练次数的增加，模型的损失值不断减小。

由主要针对带宽利用率强化学习模型的图像数据可以看出，模型损失值快速减小并且最终保持稳定；由主要针对系统公平性强化学习模型的图像数据可以看出，公平性损失值的波动相对较大，这是因为公平性奖励值在设定过程中并不仅仅考虑公平性因子，而是同时考虑了数据变化量，因此在训练过程中过程波动较大。由损失值趋于稳定可以认定模型已经收敛。

2、带宽利用率

如图2(a)至(c)所示，其示出本发明方法和现有算法在不同用户数量、单视频业务情形下，3个随机场景的系统带宽利用率仿真对比结果。

由对比图像可以看出，随着用户数量的增加，系统(即下行链路)所经历的信道分布愈加丰富，因此系统的带宽利用率随之提高。从对比情况而言，本发明的强化学习模型在系统带宽利用率上相比于其他算法都获得了更好的性能。

混合业务场景与单视频业务场景的趋势一致。带宽利用率强化学习模型的带宽利用率能获得最佳效果。由于BE业务具有相当大的数据量，因此即便用户增多，系统带宽利用率的变动并不大。

从混合业务的数据量对比值可以看出，对于相对更追求公平性的PF算法，AM算法以及系统公平性强化学习模型而言，随着用户数量的增多，BE业务和视频业务的比例逐渐趋于1比1；而对于相对更追求吞吐量的其余几种算法而言，两种业务之间的比例越发增大，因此其带宽利用率相对来说更高，但公平性因此会受到严重削减。

3、系统公平性

由3个单视频业务随机场景下的公平性对比可知，在单一视频业务的情况下，除MT算法的公平性因为用户数量的增加而降低之外，其余考虑过用户公平性的算法虽然也有下降，但下降幅度相对不明显，而本发明系统公平性强化学习模型公平性相对而言是下降最为缓慢的，尤其是用户数量增多时，表现出的性能相对而言更好。

通过混合业务场景下的对比图像可得，系统公平性强化学习模型的带宽利用率相对较低，但是在公平性方面获得的性能尤为明显。因为Be业务的特点是传输数据量非常大，因此MT算法在分配资源过程中优先寻找信道质量较好的用户，所以公平性会随着用户的增多而降低；本发明的系统公平性强化学习模型在设定过程中同时考虑了公平性和吞吐量，考虑方面虽然和PF算法一致，但是实际的效用更好，甚至于强过AM算法。

4、系统丢包率

在单视频业务的情形下，由于业务之间不存在差别，因此整体的丢包率在数值上相差不多。对于带宽利用率强化学习模型而言，虽然整体的传输数据量最大，但是由于在传输过程中偏重于信道质量，并不会对排队延时较高但信道质量较差的用户数据进行传输，所以在传输过程中也会有一定数据包丢失；对于系统公平性强化学习模型而言，由于传输过程中既考虑了公平性，也考虑了信道质量，因此实际的丢包数量较低，故而最终的系统丢包率要优于带宽利用率强化学习模型。AM算法在公平性上的性能表现相对PF来说更好，因此其丢包率也总体处于一个较优的状态，但系统公平性强化学习模型的效果更好。

通过对比图像可得，对于MT算法，CEPF算法，MCEPF算法以及带宽利用率强化学习模型而言，由于这四种算法主要追求的是系统的吞吐量，因此不会对实时性业务进行专门处理，故而在整体传输过程中虽然获得了较高的吞吐量，但随着用户数量增加其视频业务的丢包率会增加的幅度相对较大；对于AM算法，PF算法以及系统公平性强化学习模型而言，由于其调度过程中讲求公平性，因此整体的吞吐量甚至有所下降，但是丢包率相对较小，且丢包率随用户增加的涨幅远低于另外4种算法。从图像上可以看出，系统公平性强化学习模型的丢包率是所有算法中效果最优以及涨幅最小的。

5、次级调度性能

图10示出单视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在带宽利用率方面的性能比较，其中“1比1”显示的是折衷模型(即步骤(5)中使用的模型)，1比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是1∶1。

图11示出单视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统公平性方面的性能比较，其中“1比1”显示的是折衷模型(即步骤(5)中使用的模型)，1比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是1∶1。

图12示出单视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统丢包率方面的性能比较，其中“1比1”显示的是折衷模型(即步骤(5)中使用的模型)，1比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是1∶1。

上述对比实验图像可得，虽然单视频业务的测试环境下变化并不明显，但是通过改变带宽利用率强化学习模型与系统公平性强化学习模型之间的参数比例还是可以获得相应改变。

图13示出混合视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在带宽利用率方面的性能比较，其中“1比1”和“7比1”显示的是折衷模型(即步骤(5)中使用的模型)，1比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是1∶1，7比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是7∶1。

图14示出混合视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统公平性方面的性能比较，其中“1比1”和“7比1”显示的是折衷模型(即步骤(5)中使用的模型)，1比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是1∶1，7比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是7∶1。

图15示出混合视频业务场景和不同用户数量下，本发明的带宽利用率强化学习模型、系统公平性学习模型、以及二者的折衷模型在系统丢包率方面的性能比较，其中“1比1”和“7比1”显示的是折衷模型(即步骤(5)中使用的模型)，1比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是1∶1，7比1表示步骤(5)中带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是7∶1。

混合业务场景下各指标的差异较为明显，当带宽利用率强化学习模型的参数较大时(即带宽利用率强化学习模型和系统公平性学习模型的比例系数η₁，η₂之间的比值是7)，系统的带宽利用率相对而言较高，但公平性和丢包率相对会下降。从总体趋势来看通过改变两个模型之间的参数，完全可以实现在带宽利用率和系统公平性之间的平衡，继而可以满足复杂业务流环境下的不同需求。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的资源分配优化方法，其特征在于，包括以下步骤：

(1)获取下行链路的带宽值BD_dl，并根据该带宽值BD_dl获得在单个传输时间间隔内可调用的物理资源块数量m，并获得待传输的用户业务数量N、当前t时刻待传输用户业务在第n个物理资源块上的特征、以及t-1时刻整个下行链路的特征，其中n∈(1,m]；

2.根据权利要求1所述的基于强化学习的资源分配优化方法，其特征在于，t-1时刻整个下行链路的特征以及t时刻下行链路上待传输的用户业务在第n个物理资源块上的特征用来表示，其中S_Spec^t-1表示下行链路在t-1时刻的带宽利用率，S_F^t-1表示下行链路在t-1时刻的系统公平性，表示t时刻下行链路上待传输的第i个用户业务在第n个物理资源块上的相对数据量比值，其数值范围为(0,1]，表示在t时刻下行链路上待传输的第i个用户业务在第n个物理资源块上的相对公平性。

3.根据权利要求2所述的基于强化学习的资源分配优化方法，其特征在于，

S_Spec^t-1的具体计算公式如下：

S_F^t-1的具体计算公式如下：

的具体计算公式如下：

的计算公式如下：

4.根据权利要求3所述的基于强化学习的资源分配优化方法，其特征在于，用户业务的传输数据量TB_n的具体计算过程如下：

TB_n＝GetBits(effvalue,n)

其中

其中sinr_j表示被分配到某一用户业务的第j个物理资源块上的信道条件，且有j∈(1,m]，effvalue表示被分配到某一用户业务的所有物理资源块的综合有效信号与干扰噪声的比值，GetBits()是传输数据量获取函数。

5.根据权利要求4所述的基于强化学习的资源分配优化方法，其特征在于，训练好的带宽利用率强化学习模型是通过以下过程生成的：首先基于上述同样的方法获取待传输用户业务在物理资源块上的特征、以及整个下行链路的特征，然后计算带宽利用率奖励函数：

其中β是一个常数。

6.根据权利要求4所述的基于强化学习的资源分配优化方法，其特征在于，训练好的系统公平性强化学习模型是通过以下过程生成的：首先基于上述同样的方法获取待传输用户业务在物理资源块上的特征、以及整个下行链路的特征，然后计算系统公平性奖励函数：

其中α是一个大于0的常数，μ的范围为(-1,无穷大]。

7.根据权利要求5或6所述的基于强化学习的资源分配优化方法，其特征在于，

带宽利用率强化学习模型和系统公平性强化学习模型中的每一个都包括两个结构相同的神经网络，其中一个是当前神经网络，另外一个是目标神经网络；

神经网络的第一层是输入层，输入4维度的特征矩阵；

8.根据权利要求7所述的基于强化学习的资源分配优化方法，其特征在于，损失函数层使用的损失函数Loss表示为：

y^target＝r+0.9·Q(State^t+1,a,θ^target)

其中Δs是一个随机常数量；

9.根据权利要求1所述的基于强化学习的资源分配优化方法，其特征在于，步骤(5)中，t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值计算公式如下：

其中表示t时刻下行链路上待传输的第i个用户业务在第n个资源块上的度量值。η₁,η₂分别是设定的比例系数。

10.一种基于强化学习的资源分配优化系统，其特征在于，包括：

第一模块，用于获取下行链路的带宽值BD_dl，并根据该带宽值BD_dl获得在单个传输时间间隔内可调用的物理资源块数量m，并获得待传输的用户业务数量N、当前t时刻待传输用户业务在第n个物理资源块上的特征、以及t-1时刻整个下行链路的特征，其中n∈(1,m]；