CN111416774B

CN111416774B - 网络拥塞控制方法、装置、计算机设备及存储介质

Info

Publication number: CN111416774B
Application number: CN202010186408.8A
Authority: CN
Inventors: 周勇; 熊俊杰; 卿济民; 杨锐斌; 徐本安; 苏聪
Original assignee: Maanshan College; Shenzhen Sunwin Intelligent Co Ltd
Current assignee: Maanshan College; Shenzhen Sunwin Intelligent Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-03-21
Anticipated expiration: 2040-03-17
Also published as: CN111416774A

Abstract

本发明涉及网络拥塞控制方法、装置、计算机设备及存储介质，该方法包括获取执行奖励矩阵，并进行初始化；获取最优奖励矩阵，并进行初始化；在增强算法中的策略中随机选择当前链路的初始状态；在当前链路的初始状态下，在数据流需要经过的链路中选择对应奖励最大的动作，根据所选择的动作对数据流分配对应的速率，以得到新的执行奖励矩阵及新的链路状态；根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵；判断训练集是否达到上限；若是，则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值，以得到目标矩阵；并进行网络拥塞控制。本发明实现在训练集已经达到最大值的情况下继续进行训练，避免网络拥塞的发生。

Description

网络拥塞控制方法、装置、计算机设备及存储介质

技术领域

本发明涉及网络通信技术领域，更具体地说是指网络拥塞控制方法、装置、计算机设备及存储介质。

背景技术

随着云计算的发展，数据中心内部通信业务急剧增加、网络流量显著增长，数据中心网络的带宽很难满足密集型应用的带宽需求，面临着网络拥塞的风险。传统的计算机网络是分布式的复杂结构，拥塞算法的设计极为困难，很难满足当前需求，SDN(软件定义网络，Software Defined Network)的出现和发展使数据中心网络拥塞控制的问题得到了新的解决办法。强化学习是一种无模型的学习算法，在强化学习的模型中，智能体可以与环境交互进行学习，做出很好的决策。

网络拥塞控制是一个决策的过程。强化学习解决问题的侧重点就是决策控制，Q-Learning算法是强化学习的一种经典的算法，对于强化学习算法的发展具有重要意义，使用Q-Learning可以使智能体在无模型的情况下学习，在现实环境中，由于网络拓扑复杂，Q-learning算法通常会面临“维数灾”问题，由于Q-learning算法单一学习周期的值函数估计表Q(S,a)规模为|S|*|a|，其中，S为状态，a为执行动作，Q(S，a)表示状态S下执行动作a获得的最大未来奖励，随着学习周期的增加，基本的Q-Learning算法使用储存表的方式存储训练集，当学习任务的空间维数巨大时，采用储存表已经无法满足学习任务的需求了，训练集将持续占用大量的存储资源，导致学习过程无法完成。

因此，有必要设计一种新的方法，实现在训练集已经达到最大值的情况下继续进行训练，以达到每一条流分配的速率可使链路的利用率最高的目标，且避免网络拥塞的发生。

发明内容

本发明的目的在于克服现有技术的缺陷，提供网络拥塞控制方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：网络拥塞控制方法，包括：

获取为每条数据流分配的速率后得到的奖励所构成的矩阵，以得到执行奖励矩阵，并对所述执行奖励矩阵进行初始化；

获取每条数据流分配的速率所对应的最大奖励构成的矩阵，以得到最优奖励矩阵，并对所述最优奖励矩阵进行初始化；

在增强算法中的策略中随机选择当前链路的初始状态；

在当前链路的初始状态下，在数据流需要经过的链路中选择对应奖励最大的动作，根据所选择的动作对数据流分配对应的速率，以得到新的执行奖励矩阵以及新的链路状态；

根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵；

判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限；

若链路的所有状态以及数据流分配对应的速率所构成的训练集达到上限，则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值，以得到目标矩阵；

根据所述目标矩阵进行网络拥塞控制；

若链路的所有状态以及数据流分配对应的速率所构成的训练集未达到上限，则返回所述在增强算法中的策略中随机选择当前链路的初始状态；

其中，所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的。

其进一步技术方案为：所述神经网络包括输入层、隐含层和输出层。

其进一步技术方案为：所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的，包括：

获取链路的所有状态以及数据流分配对应的速率，以得到训练集；

将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；

计算所述样本对应的最优奖励矩阵中元素与期望奖励值的误差；

判断所述误差是否小于阈值；

若所述误差不小于阈值，则使用梯度下降学习法进行神经网络的权重更新，并执行所述将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；

若所述误差小于阈值，则判断所述训练集的样本是否全部输入到神经网络的输入层；

若所述训练集的样本是全部输入到神经网络的输入层，则输出所述期望奖励值，以构成目标矩阵；

若所述训练集的样本未全部输入到神经网络的输入层，则执行所述将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值。

其进一步技术方案为：所述使用梯度下降学习法进行神经网络的权重更新，包括：

采用

进行神经网络的权重更新，其中，W′表示下一状态更新的神经网络的所有权重的参数向量，W表示当前神经网络的所有权重的参数向量，α_N表示神经网络的学习率，E为样本对应的最优奖励矩阵中元素与期望奖励值的误差。

其进一步技术方案为：所述根据所述目标矩阵进行网络拥塞控制之后，还包括：

判断增强学习算法中的策略所对应的状态是否都训练完毕；

若增强学习算法中的策略所对应的状态都训练完毕，则执行结束步骤；

若增强学习算法中的策略所对应的状态未训练完毕，则执行所述在增强算法中的策略中随机选择当前链路的初始状态。

其进一步技术方案为：所述根据所述目标矩阵进行网络拥塞控制，包括：

根据所述目标矩阵对每条数据流分配对应的速率，以得到运行情况；

判断所述运行情况是否出现网络拥塞；

若所述运行情况出现网络拥塞，则执行所述在增强算法中的策略中随机选择当前链路的初始状态；

若所述运行情况未出现网络拥塞，则执行所述判断增强学习算法中的策略所对应的状态是否都训练完毕。

其进一步技术方案为：所述根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵，包括：

根据新的执行奖励矩阵采用Q(S，a)≈Q(S，a)+α[r+γmax_aQ(S＇，a＇)-Q(S，a)进行迭代，以得到新的最优奖励矩阵，其中，α指的是学习效率，γ代表折扣因子，S＇为下一个链路的状态，a＇为下一链路的状态对应的执行动作，max_aQ(S＇，a＇)为下一个链路的状态对应的最大奖励；Q(S，a)为最优奖励矩阵内的元素，r为新的执行奖励矩阵内的元素。

本发明还提供了网络拥塞控制装置，包括：

第一初始化单元，用于获取为每条数据流分配的速率后得到的奖励所构成的矩阵，以得到执行奖励矩阵，并对所述执行奖励矩阵进行初始化；

第二初始化单元，用于获取每条数据流分配的速率所对应的最大奖励构成的矩阵，以得到最优奖励矩阵，并对所述最优奖励矩阵进行初始化；

状态选择单元，用于在增强算法中的策略中随机选择当前链路的初始状态；

执行获取单元，用于在当前链路的初始状态下，在数据流需要经过的链路中选择对应奖励最大的动作，根据所选择的动作对数据流分配对应的速率，以得到新的执行奖励矩阵以及新的链路状态；

迭代单元，用于根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵；

上限判断单元，用于判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限；若链路的所有状态以及数据流分配对应的速率所构成的训练集未达到上限，则返回所述在增强算法中的策略中随机选择当前链路的初始状态；

逼近单元，用于若链路的所有状态以及数据流分配对应的速率所构成的训练集达到上限，则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值，以得到目标矩阵；

控制单元，用于根据所述目标矩阵进行网络拥塞控制。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过将Q-Leaming算法应用于网络拥塞控制，在进行控制过程中对Q-Leaming算法进行学习，当Q-Leaming算法进行学习达到训练集上限，则采用BP神经网络进行逼近，在训练集已经达到最大值的情况下仍可以继续Q-Learning算法进行训练，以实现在训练集已经达到最大值的情况下继续进行训练，以达到每一条流分配的速率可使链路的利用率最高的目标，且避免网络拥塞的发生。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的网络拥塞控制方法的应用场景示意图；

图2为本发明实施例提供的网络拥塞控制方法的流程示意图；

图3为本发明实施例提供的网络拥塞控制方法的子流程示意图；

图4为本发明实施例提供的网络拥塞控制方法的子流程示意图；

图5为本发明实施例提供的网络拥塞控制装置的示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的网络拥塞控制方法的应用场景示意图。图2为本发明实施例提供的网络拥塞控制方法的示意性流程图。该网络拥塞控制方法应用于第一服务器中，该第一服务器与第二服务器进行控制，其中，第二服务器可以为分布式服务平台中的一台服务器，第一服务器用于输入目标矩阵，并以此进行第二服务器的速率控制。

请参阅图2，网络拥塞控制方法是在Q-Learning算法引入BP(反向传播神经网络，Back Propagation Neural Network)神经网络实现对行为值函数的逼近，可以在训练集已经达到最大值的情况下继续进行训练，直到达到目标。

其中，在Q-Learning中定义一个函数Q(S，a)，表示在链路的状态S下执行动作a获得的最大未来奖励并继续优化，最大未来奖励是指执行动作a中所得到的最大奖励值。有了这个函数就可以很方便的决策，那就是采取Q值最高所对应的执行动作，表示为：π(S)＝argmax_aQ(S，a)，其中，其中π(S)表示一种策略，即为在某个状态S下选择执行动作a的规则，只需要找到最优的Q值就可以做最好的决策。因为Q(S，a)表示的是最大未来奖励，所以Q(S，a)很显然等于执行动作a后的当前奖励和下一个状态S’的最大未来奖励，表示为：Q(S，a)＝r+γmax_a，Q(S＇，a，)，其中r代表执行动作a后得到的奖励，其中γ代表折扣因子，对未来奖励打一个折扣，γ通常取值0.9。Q-Learning的核心思想就是通过迭代找到最优的Q值，Q(S，a)≈Q(S，a)+α[r+γmax_aQ(S＇，a＇)-Q(S，a)进行迭代，以得到新的最优奖励矩阵，其中，α指的是学习效率，用于控制旧的Q值和新的Q值之间的差异度，如果α等于0，那么函数就没有迭代，α通常取值0.9。起初，函数用来更新的为只是一个估计的近似值，而且在学习的初期阶段这个数值很有可能是错误的。但是随着不断地学习，这个估计的近似值会越来越准确，而且只要学习和迭代的时间够长，Q函数就会收敛，近似的Q值会更新成为真实的Q值；γ代表折扣因子，S＇为下一个链路的状态，a＇为下一链路的状态对应的执行动作，max_aQ(S＇，a＇)为下一个链路的状态对应的最大奖励；Q(S，a)为最优奖励矩阵内的元素，r为新的执行奖励矩阵内的元素。

网络拥塞控制是指为若干条数据流经过数据中心网络的某些链路时为其分配速率，因此需要知道要为哪些数据流分配速率，并且每条数据流经过哪几条链路。此外，在强化学习模型中，描述的是在当前状态下执行某一动作后智能体会得到一个反馈并更新到下一个状态的问题，这个反馈又可以称它为奖励。采用Q-Learning算法训练，训练完成后智能体会学到一些知识，这些知识告诉智能体在某一状态应该采取哪一动作会得到最大的奖励，也就是最大未来奖励，在Q-Learning中这些知识是用一个Q矩阵来表示的，即最优奖励矩阵。

因此，网络拥塞控制可以用<F，S，A，R，Q>这样一个五元组来表示，其中，F表示待分配速率的数据流。这些数据流的队列长度为N，也就是说有N条流需要为它分配速率，这些数据流可以表示为：F＝(flow1，flow2，...，flowi，flowN)；S表示整个网络的链路状态信息，具体地，把链路的已用带宽情况作为链路的状态，数据中心网络有N条链路，所以链路的状态是一个长度为N的矢量，为了更好的对链路的状态进行描述，整个链路的状态可以表示为S＝(S1，S2，...，Si，SN)；A表示根据链路需求为待分配速率的数据流分配速率的行为，也就是上述所说的动作a，需要分配的数据流的队列长度为N，所以动作也是一个长度为N的矢量，在Q学习中，执行动作a是从一个动作集中选取的，所以会选取几个速率，为这些待分配的数据流分配的速率就从这几个速率当中选取，分配速率的动作可表示为：A＝(a1，a2，...ai，aN)；R表示执行动作a后得到的奖励，也就是所有R构成执行奖励矩阵，设定如果执行动作a后有链路发生了拥塞，则R为负数；如果执行动作a后链路的带宽占用情况发生变化但是没有发生拥塞，则反馈一个正的执行奖励，根据动作a对链路的链路利用率的影响情况赋值，链路利用率增强越大，执行奖励越大，链路达到拥塞阀值时，此时链路到达了允许的最高利用率，这时候取得最大的奖励值，超过阀值后，奖励值会变为负值，且不断减小，例如，链路的带宽为40G，如果超过35G认为发生拥塞，其奖励规则就是在0G至35G时执行奖励为正且不断增加，超过35G，执行奖励值为负且不断减小。每条链路状态的变化就形成一个R矩阵，也就是执行奖励矩阵，Q表示经过训练得到的Q矩阵，也就是目标矩阵，在没有训练之前，初始化的Q矩阵是一个零矩阵，也就是最优奖励矩阵初始化形成的矩阵，在训练的过程中，根据Q(S，a)≈Q(S，a)+α[r+γmax_aQ(S＇，a＇)-Q(S，a)，Q值会不断的迭代更新，最后收敛成一个完整的Q矩阵，即：

其中，q_ij表示从状态i转移到状态j时更新的Q值，也就是智能体学到的知识，Q值就是函数Q(S，a)，在Q-Learning算法中，根据Q(S，a)≈Q(S，a)+α[r+γmax_aQ(S＇，a＇)-Q(S，a)，可以求得Q值最大时采取的动作a，也就是为每条流分配的速率。

图2是本发明实施例提供的网络拥塞控制方法的流程示意图。如图2所示，该方法包括以下步骤S110至S190。

S110、获取为每条数据流分配的速率后得到的奖励所构成的矩阵，以得到执行奖励矩阵，并对所述执行奖励矩阵进行初始化。

在本实施例中，执行奖励矩阵是指执行动作a后得到的一个反馈值所构成的矩阵，也就是说为每条数据流分配的速率后得到的奖励所构成的矩阵。

对每一个动作，链路的状态都会发生变化，这样就会得到一个反馈，在所有的状态下，执行不同的动作会转换成不同的下一状态，这样就形成了一个执行奖励矩阵，初始化后得到的执行奖励矩阵是零矩阵。

S120、获取每条数据流分配的速率所对应的最大奖励构成的矩阵，以得到最优奖励矩阵，并对所述最优奖励矩阵进行初始化。

在本实施例中，最优奖励矩阵是指为每条数据流分配速率后所得到的最大奖励值，初始化后的最优奖励矩阵是一个零矩阵，需要后续通过不断地学习更新最优奖励矩阵也就是上述的Q矩阵里面的元素。

S130、在增强算法中的策略中随机选择当前链路的初始状态。

在本实施例中，当前链路指的是在该增强算法策略中的某一链路，数据网络中心具有N条链路，可随机选择任一链路作为训练Q-Learning算法的开始点，在随机选择当前这个链路的初始状态，也就是在数据网络中心中选择某一链路对应的某一状态作为当前链路的初始状态。

S140、在当前链路的初始状态下，在数据流需要经过的链路中选择对应奖励最大的动作，根据所选择的动作对数据流分配对应的速率，以得到新的执行奖励矩阵以及新的链路状态。

利用Q-Learning算法，在当前链路的状态下，根据数据流需要经过的链路，选择奖励最大的动作，再执行该动作，以对数据流分配对应的速率，以得到反馈，也就是新的执行奖励矩阵以及新的链路状态。

在本实施例中，该数据流指的是需要进行分配速率的数据流。

S150、根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵。

在本实施例中，新的最优奖励矩阵是指经过迭代后的最优奖励矩阵。

具体地，根据新的执行奖励矩阵采用Q(S，a)≈Q(S，a)+α[r+γmax_aQ(S＇，a＇)-Q(S，a)进行迭代，以得到新的最优奖励矩阵，其中，α指的是学习效率，γ代表折扣因子，S＇为下一个链路的状态，a＇为下一链路的状态对应的执行动作，max_aQ(S＇，a＇)为下一个链路的状态对应的最大奖励；Q(S，a)为最优奖励矩阵内的元素，r为新的执行奖励矩阵内的元素。

S160、判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限。

在本实施例中，Q-Learning算法的训练集存在一个上限，当Q-Learning算法的训练过程中达到了训练集的上限，则无法再进行学习和训练。

S170、若链路的所有状态以及数据流分配对应的速率所构成的训练集达到上限，则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值，以得到目标矩阵。

在本实施例中，目标矩阵是指构成的元素在对应的状态下执行对应的速率所得到的奖励最大的矩阵，也就是通过不断迭代和逼近后所形成的最大未来奖励的集合。

具体地，所述神经网络包括输入层、隐含层和输出层。

神经网络的每一层包含多个神经元，前层和后层通过权值连接。BP神经网络的学习过程由正向传播和反向传播两个部分组成，在正向传播过程中，每一层神经元的状态只影响下一层神经元结构，如果输出层的实际输出与期望输出之间存在误差，网络转向反向输出过程，通过梯度下降法逐层调节权值，逼近输出误差的极小值，以逼近最优Q值。假设网络的输入变量为X_i＝[X₁，X₂，...，X_k]，(i＝1，2，...，k)；预输出变量为Y＝[Y₁，Y₂，...，Y_m]，输入层与隐含层之间的权值为w_ij＝[w₁₁，w₁₂，…，w_kn]，(j＝1，2，...，n)；隐含层与输出层之间的权值为w_j＝[w₁，w₂，...，w_n]。

在一实施例中，请参阅图3，上述的所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的，包括步骤S171～S177。

S171、获取链路的所有状态以及数据流分配对应的速率，以得到训练集。

在本实施例中，训练集是指学习Q-Learning算法的训练集，也就是N条链路中所有状态值以及这些状态下的数据流分配对应的速率。

S172、将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值。

在本实施例中，期望奖励值是指训练集经过神经网络进行逼近后得到的最大奖励，也就是逼近后的Q值。

从训练集中取某一样本，把该样本的输入信息x1、x2即状态S、动作a输入到神经网络的输入层中；由神经网络正向计算出神经网络的期望输出Y，在这里输出Y可以表示为Q_BP(S，a)，

S173、计算所述样本对应的最优奖励矩阵中元素与期望奖励值的误差。

具体地，计算实际输出也就是所述样本对应的最优奖励矩阵Q(S，a)与期望输出Q_BP(S，a)的误差，误差E＝(Q(S，a)-Q_BP(S，a))²。

S174、判断所述误差是否小于阈值。

在本实施例中，阈值为0.001，当然，于其他实施例中，阈值可以设定为其他数值。

S175、若所述误差不小于阈值，则使用梯度下降学习法进行神经网络的权重更新，并执行所述步骤S172。

具体地，采用

进行神经网络的权重更新，其中，W＇表示下一状态更新的神经网络的所有权重的参数向量，W表示当前神经网络的所有权重的参数向量，α_N表示神经网络的学习率，E为样本对应的最优奖励矩阵中元素与期望奖励值的误差。

S176、若所述误差小于阈值，则判断所述训练集的样本是否全部输入到神经网络的输入层；

S177、若所述训练集的样本是全部输入到神经网络的输入层，则输出所述期望奖励值，以构成目标矩阵。

对训练集中的每一个样本重复以上步骤S171～S175，直到对整个训练样本集合的误差E小于0.001为止。

如果通过神经网络训练，神经网络的输出达到目标要求后，神经网络各节点之间的连接权值就确定下来了，就可以认为网络已经学习好了，就可以利用这个训练好的神经网络对未知样本进行识别预测，可以据此神经网络，根据不同的状态S、动作A模拟计算出最优的Q值，也就是最优的最大奖励值。

若所述训练集的样本未全部输入到神经网络的输入层，则执行所述步骤S172。

S180、根据所述目标矩阵进行网络拥塞控制。

具体地，利用目标矩阵对每条数据流分配速率，以进行网络拥塞的控制。

在一实施例中，请参阅图4，上述的步骤S180可包括步骤S181～S182。

S181、根据所述目标矩阵对每条数据流分配对应的速率，以得到运行情况。

在本实施例中，运行情况是指链路状态是否超过带宽阈值，当链路状态超过带宽阈值，则表示运行情况出现网络拥塞，当链路状态不超过带宽阈值，则表示运行情况未出现网络拥塞。

S182、判断所述运行情况是否出现网络拥塞；

若所述运行情况出现网络拥塞，则执行所述步骤S130；

若所述运行情况未出现网络拥塞，则执行所述步骤S190。

具体地，不管采取哪种策略都会在有限时间内到达终止状态并获得反馈，若发生拥塞则停止这一策略的这一状态下的训练，并返回下一轮训练，此时会重新选择增强学习算法中的策略，再次执行步骤S130，执行再一次训练。

S190、判断增强学习算法中的策略所对应的状态是否都训练完毕；

若增强学习算法中的策略所对应的状态未训练完毕，则执行所述步骤S130。

若链路的所有状态以及数据流分配对应的速率所构成的训练集未达到上限，则返回所述步骤S130。

判断增强学习算法中的策略所对应的所有状态是否已经训练结束，如果都训练完毕后仍不能获得更大的最优奖励矩阵对应的元素则所有策略训练完成，收敛到了最优的元素，如果还可以获得更大的最优奖励矩阵则返回步骤S130继续训练。在经过算法的一次次迭代后，最后会收敛得到一个最终Q值最大的Q矩阵，这个Q矩阵就是Q-Learning算法学习学到的知识，便可得知每一条流分配多大的速率才能使链路的利用率最高，又能避免拥塞的发生。

使用BP神经网络的方法进行辅助训练，训练不必存储每一个状态S、动作A和对应Q(S,a)，而是通过BP神经网络函数逼近的方法将状态S、动作A泛化到一个合理的Q值，这样可以使得学习过程持续并最终得到最大的Q值。

上述的网络拥塞控制方法，通过将Q-Learning算法应用于网络拥塞控制，在进行控制过程中对Q-Learning算法进行学习，当Q-Learning算法进行学习达到训练集上限，则采用BP神经网络进行逼近，在训练集已经达到最大值的情况下仍可以继续Q-Learning算法进行训练，以实现在训练集已经达到最大值的情况下继续进行训练，以达到每一条流分配的速率可使链路的利用率最高的目标，且避免网络拥塞的发生。

图5是本发明实施例提供的一种网络拥塞控制装置300的示意性框图。如图5所示，对应于以上网络拥塞控制方法，本发明还提供一种网络拥塞控制装置300。该网络拥塞控制装置300包括用于执行上述网络拥塞控制方法的单元，该装置可以被配置于第一服务器中。具体地，请参阅图5，该网络拥塞控制装置300包括第一初始化单元301、第二初始化单元302、状态选择单元303、执行获取单元304、迭代单元305、上限判断单元306、逼近单元307以及控制单元308。

第一初始化单元301，用于获取为每条数据流分配的速率后得到的奖励所构成的矩阵，以得到执行奖励矩阵，并对所述执行奖励矩阵进行初始化；第二初始化单元302，用于获取每条数据流分配的速率所对应的最大奖励构成的矩阵，以得到最优奖励矩阵，并对所述最优奖励矩阵进行初始化；状态选择单元303，用于在增强算法中的策略中随机选择当前链路的初始状态；执行获取单元304，用于在当前链路的初始状态下，在数据流需要经过的链路中选择对应奖励最大的动作，根据所选择的动作对数据流分配对应的速率，以得到新的执行奖励矩阵以及新的链路状态；迭代单元305，用于根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵；上限判断单元306，用于判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限；若链路的所有状态以及数据流分配对应的速率所构成的训练集未达到上限，则返回所述在增强算法中的策略中随机选择当前链路的初始状态；逼近单元307，用于若链路的所有状态以及数据流分配对应的速率所构成的训练集达到上限，则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值，以得到目标矩阵；控制单元308，用于根据所述目标矩阵进行网络拥塞控制。

在一实施例中，所述装置还包括构建单元。

所述构建单元，用于通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络，以得到BP神经网络逼近器；

在一实施例中，所述构建单元包括训练集获取子单元、正向计算子单元、误差计算子单元、误差判断子单元、更新子单元、样本判断子单元以及输出子单元。

训练集获取子单元，用于获取链路的所有状态以及数据流分配对应的速率，以得到训练集；正向计算子单元，用于将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；误差计算子单元，用于计算所述样本对应的最优奖励矩阵中元素与期望奖励值的误差；误差判断子单元，用于判断所述误差是否小于阈值；更新子单元，用于若所述误差不小于阈值，则使用梯度下降学习法进行神经网络的权重更新，并执行所述将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；样本判断子单元，用于若所述误差小于阈值，则判断所述训练集的样本是否全部输入到神经网络的输入层；若所述训练集的样本未全部输入到神经网络的输入层，则执行所述将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；输出子单元，用于若所述训练集的样本是全部输入到神经网络的输入层，则输出所述期望奖励值，以构成目标矩阵。

在一实施例中，所述更新子单元，用于采用

在一实施例中，所述装置还包括训练判断单元。

所述训练判断单元，用于判断增强学习算法中的策略所对应的状态是否都训练完毕；若增强学习算法中的策略所对应的状态都训练完毕，则执行结束步骤；若增强学习算法中的策略所对应的状态未训练完毕，则执行所述在增强算法中的策略中随机选择当前链路的初始状态。

在一实施例中，所述控制单元308包括情况获取子单元以及情况判断子单元。

情况获取子单元，用于根据所述目标矩阵对每条数据流分配对应的速率，以得到运行情况；情况判断子单元，用于判断所述运行情况是否出现网络拥塞；若所述运行情况出现网络拥塞，则执行所述在增强算法中的策略中随机选择当前链路的初始状态；若所述运行情况未出现网络拥塞，则执行所述判断增强学习算法中的策略所对应的状态是否都训练完毕。

在一实施例中，所述迭代单元305，用于根据新的执行奖励矩阵采用Q(S，a)≈Q(S，a)+α[r+γmax_aQ(S＇，a＇)-Q(S，a)进行迭代，以得到新的最优奖励矩阵，其中，α指的是学习效率，γ代表折扣因子，S＇为下一个链路的状态，a＇为下一链路的状态对应的执行动作，max_aQ(S＇，a＇)为下一个链路的状态对应的最大奖励；Q(S，a)为最优奖励矩阵内的元素，r为新的执行奖励矩阵内的元素。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述网络拥塞控制装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述网络拥塞控制装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种网络拥塞控制方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种网络拥塞控制方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取为每条数据流分配的速率后得到的奖励所构成的矩阵，以得到执行奖励矩阵，并对所述执行奖励矩阵进行初始化；获取每条数据流分配的速率所对应的最大奖励构成的矩阵，以得到最优奖励矩阵，并对所述最优奖励矩阵进行初始化；在增强算法中的策略中随机选择当前链路的初始状态；在当前链路的初始状态下，在数据流需要经过的链路中选择对应奖励最大的动作，根据所选择的动作对数据流分配对应的速率，以得到新的执行奖励矩阵以及新的链路状态；根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵；判断链路的所有状态以及数据流分配对应的速率所构成的训练集是否达到上限；若链路的所有状态以及数据流分配对应的速率所构成的训练集达到上限，则采用使用BP神经网络逼近器逼近新的最优奖励矩阵所有的元素所对应的最优奖励值，以得到目标矩阵；根据所述目标矩阵进行网络拥塞控制；若链路的所有状态以及数据流分配对应的速率所构成的训练集未达到上限，则返回所述在增强算法中的策略中随机选择当前链路的初始状态。

所述神经网络包括输入层、隐含层和输出层。

在一实施例中，处理器502在实现所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的步骤时，具体实现如下步骤：

获取链路的所有状态以及数据流分配对应的速率，以得到训练集；将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；计算所述样本对应的最优奖励矩阵中元素与期望奖励值的误差；判断所述误差是否小于阈值；若所述误差不小于阈值，则使用梯度下降学习法进行神经网络的权重更新，并执行所述将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值；若所述误差小于阈值，则判断所述训练集的样本是否全部输入到神经网络的输入层；若所述训练集的样本是全部输入到神经网络的输入层，则输出所述期望奖励值，以构成目标矩阵；若所述训练集的样本未全部输入到神经网络的输入层，则执行所述将所述训练集中某一样本输入到神经网络的输入层，进行正向计算，以得到期望奖励值。

在一实施例中，处理器502在实现所述使用梯度下降学习法进行神经网络的权重更新步骤时，具体实现如下步骤：

采用

在一实施例中，处理器502在实现所述根据所述目标矩阵进行网络拥塞控制步骤之后，还实现如下步骤：

判断增强学习算法中的策略所对应的状态是否都训练完毕；若增强学习算法中的策略所对应的状态都训练完毕，则执行结束步骤；若增强学习算法中的策略所对应的状态未训练完毕，则执行所述在增强算法中的策略中随机选择当前链路的初始状态。

在一实施例中，处理器502在实现所述根据所述目标矩阵进行网络拥塞控制步骤时，具体实现如下步骤：

根据所述目标矩阵对每条数据流分配对应的速率，以得到运行情况；判断所述运行情况是否出现网络拥塞；若所述运行情况出现网络拥塞，则执行所述在增强算法中的策略中随机选择当前链路的初始状态；若所述运行情况未出现网络拥塞，则执行所述判断增强学习算法中的策略所对应的状态是否都训练完毕。

在一实施例中，处理器502在实现所述根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵步骤时，具体实现如下步骤：

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

所述神经网络包括输入层、隐含层和输出层。

在一实施例中，所述处理器在执行所述计算机程序而实现所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述使用梯度下降学习法进行神经网络的权重更新步骤时，具体实现如下步骤：

采用

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述目标矩阵进行网络拥塞控制步骤之后，还实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述目标矩阵进行网络拥塞控制步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.网络拥塞控制方法，其特征在于，包括：

在增强算法中的策略中随机选择当前链路的初始状态；

根据所述目标矩阵进行网络拥塞控制；

其中，所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的；

所述神经网络包括输入层、隐含层和输出层；

所述BP神经网络逼近器是通过链路的所有状态以及数据流分配对应的速率所构成的训练集训练神经网络所得的，包括：

判断所述误差是否小于阈值；

2.根据权利要求1所述的网络拥塞控制方法，其特征在于，所述使用梯度下降学习法进行神经网络的权重更新，包括：

采用

3.根据权利要求1所述的网络拥塞控制方法，其特征在于，所述根据所述目标矩阵进行网络拥塞控制之后，还包括：

判断增强学习算法中的策略所对应的状态是否都训练完毕；

4.根据权利要求3所述的网络拥塞控制方法，其特征在于，所述根据所述目标矩阵进行网络拥塞控制，包括：

判断所述运行情况是否出现网络拥塞；

5.根据权利要求1所述的网络拥塞控制方法，其特征在于，所述根据新的执行奖励矩阵进行迭代，以得到新的最优奖励矩阵，包括：

根据新的执行奖励矩阵采用Q(S,a)≈Q(S,a)+α[r+γmax_aQ(S′,a′)-Q(S,a)进行迭代，以得到新的最优奖励矩阵，其中，α指的是学习效率，γ代表折扣因子，S′为下一个链路的状态，a′为下一链路的状态对应的执行动作，max_aQ(S′,a′)为下一个链路的状态对应的最大奖励；Q(S,a)为最优奖励矩阵内的元素，r为新的执行奖励矩阵内的元素。

6.网络拥塞控制装置，其特征在于，包括：

控制单元，用于根据所述目标矩阵进行网络拥塞控制；

所述装置还包括构建单元；

所述构建单元包括训练集获取子单元、正向计算子单元、误差计算子单元、误差判断子单元、更新子单元、样本判断子单元以及输出子单元；

7.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至5中任一项所述的方法。