CN109788566A

CN109788566A - 基于深度增强学习的网络资源分配方法

Info

Publication number: CN109788566A
Application number: CN201910047058.4A
Authority: CN
Inventors: 潘甦; 张亚楠
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-05-21
Anticipated expiration: 2039-01-18
Also published as: CN109788566B

Abstract

本发明揭示了一种基于深度增强学习的网络资源分配方法，包括如下步骤：S1、建立基于缓存的CSCN的下行传输链路系统模型，通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率；S2、提出博弈问题，以最大化网络吞吐量为目标，使用博弈论将问题公式化为一个多智能体非合作博弈问题；S3、使用LSTM模型来预测用户的移动模式，SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户；S4、建立RL‑LSTM框架，使得SBS完成对信道资源的有效分配。本发明充分考虑了用户的移动模式和用户所连接SBS的缓存状态，使得SBS选择传输条件最优的用户，提升了系统的网络吞吐量。

Description

基于深度增强学习的网络资源分配方法

技术领域

本发明涉及一种资源分配方法，具体而言，涉及一种基于深度增强学习的网络资源分配方法，属于新型蜂窝网络的信道资源分配领域。

背景技术

随着众多移动设备的广泛普及和应用，为了满足现阶段移动数据快速增长的需求，业内有关人士提出了大量全新的网络架构。

基于缓存的CSCN(Cloud-based small cell network,云小型蜂窝网络CSCN)是目前最具前景的架构之一，其由一个云池和若干个连接于云池的SBS(small base station,小基站)组成。由于SBS相对于宏基站具有功率小、价格低且能够灵活补充宏基站不能覆盖的盲区等优点，因此，对基于缓存的CSCN的资源分配研究非常有意义。

传统的随机分配方法通过SBS随机分配信道给用户，尽管这一方法能够实现网络信道资源的分配，但是采用这样的方式，会出现信道资源利用率低的问题，从而会导致用户满意度的降低。

综上所述，如何在现有技术的基础上提出一种全新的网络资源分配方法，充分结合诸多现有技术的优点、克服其不足，从而实现对信道资源的合理分配、最大限度地提高系统的网络吞吐量，也就成为了目前业内研究人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于深度增强学习的网络资源分配方法，包括如下步骤：

S1、建立基于缓存的CSCN的下行传输链路系统模型，通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率；

S2、提出博弈问题，以最大化网络吞吐量为目标，使用博弈论将问题公式化为一个多智能体非合作博弈问题；

S3、使用LSTM模型来预测用户的移动模式，SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户；

S4、建立RL-LSTM框架，使得SBS完成对信道资源的有效分配。

优选地，S1包括如下步骤：

S11、建立基于缓存的CSCN的下行传输链路系统模型，

所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成，每个SBS由l表示，时间段τ内考虑系统的网络吞吐量，将τ划分为F个等时间的时间周期t，τ＝Ft；

在所述基于缓存的CSCN的下行传输链路系统模型中，U个用户由所有SBS通过C个子信道提供服务，每个子信道由c表示，每个用户连接到最近的SBS，在每个SBS中，每个子信道每次只能分配给一个用户，每个用户每次仅占用一个子信道，p_l,c(t)代表在时间周期tSBS^l的子信道c的传输功率；

内容服务器存储的请求内容为M，每个SBS的缓存存储的内容为G，其中G≤M；

用户请求的内容可通过两种传输链路进行独立传输，所述两种传输链路分别为由SBS缓存至用户以及由云池至SBS缓存再至用户。

优选地，S1还包括如下步骤：

S12、计算用户通过由SBS缓存至用户这一链路的传输速率，

用户在SBS^l的子信道c的数据传输速率为

其中，g_l,c(t)为信道增益系数，为路径损耗系数，d_l,c(t)为在时间周期t用户与SBS^l之间的距离，σ²为高斯噪声的功率；

S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率，用户在SBS^l的子信道c的数据传输速率为

其中，V_f为用户在回程链路的数据传输速率，R_l,c，1(t)为SBS^l通过由SBS缓存至用户这一链路的数据传输速率；

S14、结合S12及S13的结果，得出在时间周期t内SBS^l的数据传输速率为

其中，α_l,c,t∈[0,1]表示在时间周期t内在子信道c上SBS^l占用的时间百分比；和均为指标函数，若SBS^l通过由SBS缓存至用户这一链路通信并占用了子信道c，那么为1，否则为0；若SBS^l通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c，那么为1，否则为0。

优选地，S2包括如下步骤：

S21、使用博弈论将问题公式转化为一个多智能体非合作博弈问题，

其中L个SBS代表L个博弈方，集合A_l＝{a_l,1,...,a_l,a,...,a_l,Al}是博弈方l可选择的一组动作向量，|A_l|表示动作向量的数量；

是A_l上的概率空间分布,其中，π_l,a＝Pr(a＝a_l,a)表示博弈方l采用动作向量a_l,a的概率；

SBS^l的一个动作向量表示为a_l＝[(a_l,1,1,...,a_l,1,F),...,(a_l,C,1,...,a_l,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置，包括在每个时间周期t SBS是否选择了子信道c及在时间周期t在子信道c上占用的时间；

在τ的每一个时间周期t内每个SBS必须选择一个动作对a_l,c,t＝(x_l,c,t,α_l,c,t)∈A_l，其中，x_l,c,t∈{0,1}表示如果在时间周期t SBS^l选择了信道c，x_l,c,t＝1，否则为x_l,c,t＝0；α_l,c,t∈[0,1]表示在时间周期t在子信道c上SBS^l占用的时间百分比；

S22、根据S14中的公式，计算出在时间段τ内SBS^l的效用函数为

其中，a_l表示SBS^l的动作向量，a_-l(t)表示其他所有SBS的动作向量，R_l(t)为在时间周期t SBS^l的传输速率；

S23、每个SBS的目标均为最大化其效用函数，因此目标函数可写为

其中，l'表示除SBS^l外，其他所有的SBS；

S24、根据所有SBS的策略来定义性能，

每个SBS的目标是参考所有其他SBS的动作空间的概率分布，选择最优概率分布π_l来最大化效用函数，

将博弈问题写成

优选地，S3包括如下步骤：

S31、对用户移动位置进行预测，

使用LSTM模型来预测用户在下一个τ的位置，公式为

y_τ＝σ(W'h_τ)，

f_τ＝σ(W_f[h_τ-1,x_τ]+b_f)，

i_τ＝σ(W_i[h_τ-1,x_τ]+b_i)，

o_τ＝σ(W_o[h_τ-1,x_τ]+b_o)，

C_τ＝f_τ*C_τ-1+i_τ*tanh(W_c[h_τ-1,x_τ]+b_c)，

其中，x_τ＝[p_τ-k+1,...,p_τ-k+i,...,p_τ]是输入向量，p_T-k+i代表用户在时间段T-k+1的位置；y_τ是输出值，表示用户在下一个τ的预测位置；h_τ是隐藏层输出向量；C_τ是细胞状态；W_i、W_o、W_f和W_c分别是当前输入向量x_τ和输入门、输出门、遗忘门及细胞连接上的权重参数矩阵；W'是隐藏层和输出层连接上的权重参数矩阵；σ和tanh都是激活函数；

S32、对用户传输条件进行评估，

在时间周期t中，评估用户的传输条件的函数可定义为

f(t)＝w₁I(t)-w₂d(t)，

其中，I(t)∈(0,1)表示在时间周期t某个用户连接的SBS是否有其需要的缓存内容，有则I(t)＝1，否则I(t)＝0；d(t)表示这个用户和它所连接SBS之间的距离；w₁和w₂均为大于零的权重因子；用户的f(t)与用户被SBS选择的可能性成正比。

优选地，S4包括如下步骤：

S41、建立RL-LSTM框架，所述RL-LSTM框架由M个LSTM编码器、L个LSTM解码器以及多层感知网络(MLP)组成，每个SBS都被建模为LSTM网络解码器。解码器l预测第t个时间周期的动作向量x_l,t和α_l,c,t，x_l,t和α_l,c,t上的概率向量分别为

μ_l,c,t＝S(W_μh_l,t),α_l,c,t～N(μ_l,c,t,Var(α_l,c,t))，

其中，μ_l,c,t和Var(α_l,c,t)分别是高斯分布的均值和方差；和W_μ∈Rⁿ是参数；σ(.)是softmax函数，对于q＝1,...,O，S(.)是S形函数，用于将值归一化为(0,1)；h_l,t是解码器l在时间周期t的隐藏层向量；是在时间周期t所有编码器的输入历史流量向量；x_l,<t＝[x_l,1,...,x_l,t-1]；α_l,c,<t＝[α_l,c,1,...,α_l,c,t-1]。

S42、SBS^l的整个动作序列的概率为

其中，F代表时间段τ内的F个时间周期t，是在时间段τ所有编码器的输入历史流量序列；

S43、判断是否存在混合策略使博弈问题G存在纳什均衡，

使用训练数据集D来训练RL-LSTM框架，在训练阶段使用增强学习算法来计算奖励函数的期望值的梯度，反向传播算法来更新LSTM参数，当训练次数满足设置的最大训练时间周期时停止训练；

博弈问题G的基于梯度的学习算法允许收敛到该博弈的平衡点；在动作空间上存在最好的概率空间分布使得对于策略向量π^*∈ΔA＝ΔA₁×...×ΔA_L是纳什平衡；

其中，表示采用策略π_l给博弈方l带来的回报，表示A_l上最好的概率空间分布，表示A_-l上最好的概率空间分布。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明的方法在信道分配的过程中充分考虑了用户的移动模式和用户所连接SBS的缓存状态，使得SBS能够选择传输条件最优的用户，有助于提升系统的网络吞吐量。

同时，本发明通过建立RL-LSTM框架的方式使得系统内的SBS能够有效地进行信道资源的合理分配，从而进一步提升了系统整体的网络吞吐量。

此外，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于其他关于网络资源分配的技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的流程示意图；

图2为本发明的系统模型示意图。

具体实施方式

如图1所示，本发明揭示了一种基于深度增强学习的网络资源分配方法，本发明的方法在充分考虑用户的移动模式和用户所连接SBS的缓存状态的情况下，将基于缓存的CSCN的信道分配问题公式化为博弈问题，然后使用RL-LSTM框架来有效分配信道，提高网络吞吐量。具体而言，包括如下步骤：

S1、建立基于缓存的CSCN的下行传输链路系统模型，通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率。

S2、提出博弈问题，以最大化网络吞吐量为目标，使用博弈论将问题公式化为一个多智能体非合作博弈问题，其中每个SBS的目标参考其他所有SBS的动作空间概率分布、选择最优概率分布来最大化效用函数。

S3、在信道分配中考虑用户的移动性将有助于提高系统的网络吞吐量。使用LSTM(Long Short-Term Memory，长短期记忆网络)模型来预测用户的移动模式，SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户。

S4、建立RL-LSTM(Reinforcement Learning-Long Short Term Memory，强化学习-长短期记忆网络)框架，使得SBS完成对信道资源的有效分配。

S1包括如下步骤：

S11、建立基于缓存的CSCN的下行传输链路系统模型，

如图2所示，所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成，每个SBS由l表示，我们在时间段τ内考虑系统的网络吞吐量，为了计算精确，我们将τ划分为F个等时间的时间周期t，τ＝Ft。

在所述基于缓存的CSCN的下行传输链路系统模型中，U个用户由所有SBS通过C个子信道提供服务，每个子信道由c表示，每个用户连接到最近的SBS，在每个SBS中，每个子信道每次只能分配给一个用户，每个用户每次仅占用一个子信道，p_l,c(t)代表在时间周期tSBS^l的子信道c的传输功率。

内容服务器存储的请求内容为M，每个SBS的缓存存储的内容为G，其中G≤M。

S1还包括如下步骤：

S12、计算用户通过由SBS缓存至用户这一链路的传输速率，

用户在SBS^l的子信道c的数据传输速率为

其中，g_l,c(t)为信道增益系数，为路径损耗系数，d_l,c(t)为在时间周期t用户与SBS^l之间的距离，σ²为高斯噪声的功率。

其中，V_f为用户在回程链路的数据传输速率，R_l,c，1(t)为SBS^l通过由SBS缓存至用户这一链路的数据传输速率。

其中，α_l,c,t∈[0,1]表示在时间周期t内在子信道c上SBS^l占用的时间百分比。和均为指标函数，若SBS^l通过由SBS缓存至用户这一链路通信并占用了子信道c，那么为1，否则为0。若SBS^l通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c，那么为1，否则为0。

S2包括如下步骤：

其中L个SBS代表L个博弈方，集合是博弈方l可选择的一组动作向量，|A_l|表示动作向量的数量。

是A_l上的概率空间分布,其中，π_l,a＝Pr(a＝a_l,a)表示博弈方l采用动作向量a_l,a的概率。

SBS^l的一个动作向量表示为a_l＝[(a_l,1,1,...,a_l,1,F),...,(a_l,C,1,...,a_l,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置，包括在每个时间周期t SBS是否选择了子信道c及在时间周期t在子信道c上占用的时间。

在τ的每一个时间周期t内每个SBS必须选择一个动作对a_l,c,t＝(x_l,c,t,α_l,c,t)∈A_l，其中，x_l,c,t∈{0,1}表示如果在时间周期t SBS^l选择了信道c，x_l,c,t＝1，否则为x_l,c,t＝0。α_l,c,t∈[0,1]表示在时间周期t在子信道c上SBS^l占用的时间百分比。

S22、根据S14中的公式，计算出在时间段τ内SBS^l的效用函数为

其中，a_l表示SBS^l的动作向量，a_-l(t)表示其他所有SBS的动作向量，R_l(t)为在时间周期t SBS^l的传输速率。在时间段τSBS^l的性能不仅取决于它自己的动作，还取决于其他所有SBS所采用的动作。

其中，l'表示除SBS^l外，其他所有的SBS。

S24、根据所有SBS的策略来定义性能，

将博弈问题写成

S3包括如下步骤：

在SBS给用户分配信道的过程中，SBS默认选择用户传输条件最优的U_max个用户。计算用户的传输条件需要知道SBS与用户的距离和用户所连接SBS的缓存状态，SBS从而决定是否选择该用户。下面我们分成两个阶段：用户移动位置预测和用户传输条件评估。

S31、对用户移动位置进行预测，

使用LSTM模型来预测用户在下一个τ的位置，公式为

y_τ＝σ(W'h_τ)，

f_τ＝σ(W_f[h_τ-1,x_τ]+b_f)，

i_τ＝σ(W_i[h_τ-1,x_τ]+b_i)，

o_τ＝σ(W_o[h_τ-1,x_τ]+b_o)，

C_τ＝f_τ*C_τ-1+i_τ*tanh(W_c[h_τ-1,x_τ]+b_c)，

其中，x_τ＝[p_τ-k+1,...,p_τ-k+i,...,p_τ]是输入向量，p_T-k+i代表用户在时间段T-k+1的位置。y_τ是输出值，表示用户在下一个τ的预测位置。h_τ是隐藏层输出向量。C_τ是细胞状态。W_i、W_o、W_f和W_c分别是当前输入向量x_τ和输入门、输出门、遗忘门及细胞连接上的权重参数矩阵。W'是隐藏层和输出层连接上的权重参数矩阵。σ和tanh都是激活函数。

S32、对用户传输条件进行评估，

假设我们已经准确地预测了在时间段τ的用户位置并假设用户在两个位置之间进行均速运动，因此，我们首先根据用户的位置和缓存状态，在每个时间周期内评估用户的传输条件。

在时间周期t中，评估用户的传输条件的函数可定义为

f(t)＝w₁I(t)-w₂d(t)，

其中，I(t)∈(0,1)表示在时间周期t某个用户连接的SBS是否有其需要的缓存内容，有则I(t)＝1，否则I(t)＝0。d(t)表示这个用户和它所连接SBS之间的距离。w₁和w₂均为大于零的权重因子。用户的f(t)与用户被SBS选择的可能性成正比。在确定时间周期t内的用户后，SBS可将信道分配给用户。

S4包括如下步骤：

S41、建立RL-LSTM框架，所述RL-LSTM框架由M个LSTM编码器、L个LSTM解码器以及多层感知网络(MLP)组成，它用来预测所有SBS在下一个时间段τ的动作序列。每个SBS都被建模为LSTM网络解码器。解码器l预测第t个时间周期的动作向量x_l,t和α_l,c,t，x_l,t和α_l,c,t上的概率向量分别为

μ_l,c,t＝S(W_μh_l,t),α_l,c,t～N(μ_l,c,t,Var(α_l,c,t))，

其中，μ_l,c,t和Var(α_l,c,t)分别是高斯分布的均值和方差。和W_μ∈Rⁿ是参数。σ(.)是softmax函数，对于q＝1,...,O，S(.)是S形函数，用于将值归一化为(0,1)。h_l,t是解码器l在时间周期t的隐藏层向量。是在时间周期t所有编码器的输入历史流量向量。x_l,<t＝[x_l,1,...,x_l,t-1]。α_l,c,<t＝[α_l,c,1,...,α_l,c,t-1]。

S42、根据S41中的公式可得，SBS^l的整个动作序列的概率为

其中，F代表时间段τ内的F个时间周期t，是在时间段τ所有编码器的输入历史流量序列。

S43、通过S42中公式可以得到SBS^l在时间段τ的一个动作序列的概率，需要判断是否存在混合策略使得博弈问题G存在纳什均衡。

此处需要证明博弈问题G存在纳什均衡。在本方案中使用训练数据集D来训练RL-LSTM框架，在训练阶段使用增强学习算法来计算奖励函数的期望值的梯度，反向传播算法来更新LSTM参数，当训练次数满足设置的最大训练时间周期时停止训练。

由于效用函数u_l(a_l,a_-l)是底数为2的对数函数(凸函数)的仿射组合，所有效用函数u_l(a_l,a_-l)也是凸函数。因此，博弈问题G的基于梯度的学习算法允许收敛到该博弈的平衡点。在动作空间上存在最好的概率空间分布使得对于策略向量π^*∈ΔA＝ΔA₁×...×ΔA_L是纳什平衡。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度增强学习的网络资源分配方法，其特征在于，包括如下步骤：

S4、建立RL-LSTM框架，使得SBS完成对信道资源的有效分配。

2.根据权利要求1所述的基于深度增强学习的网络资源分配方法，其特征在于，S1包括如下步骤：

S11、建立基于缓存的CSCN的下行传输链路系统模型，

在所述基于缓存的CSCN的下行传输链路系统模型中，U个用户由所有SBS通过C个子信道提供服务，每个子信道由c表示，每个用户连接到最近的SBS，在每个SBS中，每个子信道每次只能分配给一个用户，每个用户每次仅占用一个子信道，p_l,c(t)代表在时间周期t SBS l的子信道c的传输功率；

3.根据权利要求2所述的基于深度增强学习的网络资源分配方法，其特征在于，S1还包括如下步骤：

S12、计算用户通过由SBS缓存至用户这一链路的传输速率，

用户在SBSl的子信道c的数据传输速率为

其中，g_l,c(t)为信道增益系数，为路径损耗系数，d_l,c(t)为在时间周期t用户与SBS l之间的距离，σ²为高斯噪声的功率；

S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率，

用户在SBSl的子信道c的数据传输速率为

其中，V_f为用户在回程链路的数据传输速率，R_l,c，1(t)为SBSl通过由SBS缓存至用户这一链路的数据传输速率；

S14、结合S12及S13的结果，得出在时间周期t内SBSl的数据传输速率为

其中，α_l,c,t∈[0,1]表示在时间周期t内在子信道c上SBS l占用的时间百分比；和均为指标函数，若SBSl通过由SBS缓存至用户这一链路通信并占用了子信道c，那么为1，否则为0；若SBSl通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c，那么为1，否则为0。

4.根据权利要求3所述的基于深度增强学习的网络资源分配方法，其特征在于，S2包括如下步骤：

其中L个SBS代表L个博弈方，集合是博弈方l可选择的一组动作向量，|A_l|表示动作向量的数量；

SBSl的一个动作向量表示为a_l＝[(a_l,1,1,...,a_l,1,F),...,(a_l,C,1,...,a_l,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置，包括在每个时间周期tSBS是否选择了子信道c及在时间周期t在子信道c上占用的时间；

在τ的每一个时间周期t内每个SBS必须选择一个动作对a_l,c,t＝(x_l,c,t,α_l,c,t)∈A_l，其中，x_l,c,t∈{0,1}表示如果在时间周期t SBS l选择了信道c，x_l,c,t＝1，否则为x_l,c,t＝0；α_l,c,t∈[0,1]表示在时间周期t在子信道c上SBS l占用的时间百分比；

S22、根据S14中的公式，计算出在时间段τ内SBSl的效用函数为

其中，a_l表示SBS l的动作向量，a_-l(t)表示其他所有SBS的动作向量，R_l(t)为在时间周期t SBS l的传输速率；

其中，l'表示除SBS l外，其他所有的SBS；

S24、根据所有SBS的策略来定义性能，

将博弈问题写成

5.根据权利要求4所述的基于深度增强学习的网络资源分配方法，其特征在于，S3包括如下步骤：

S31、对用户移动位置进行预测，

使用LSTM模型来预测用户在下一个τ的位置，公式为

y_τ＝σ(W'h_τ)，

f_τ＝σ(W_f[h_τ-1,x_τ]+b_f)，

i_τ＝σ(W_i[h_τ-1,x_τ]+b_i)，

o_τ＝σ(W_o[h_τ-1,x_τ]+b_o)，

C_τ＝f_τ*C_τ-1+i_τ*tanh(W_c[h_τ-1,x_τ]+b_c)，

S32、对用户传输条件进行评估，

在时间周期t中，评估用户的传输条件的函数可定义为

f(t)＝w₁I(t)-w₂d(t)，

6.根据权利要求5所述的基于深度增强学习的网络资源分配方法，其特征在于，S4包括如下步骤：

μ_l,c,t＝S(W_μh_l,t),α_l,c,t～N(μ_l,c,t,Var(α_l,c,t))，

S42、SBS l的整个动作序列的概率为

S43、判断是否存在混合策略使博弈问题G存在纳什均衡，

博弈问题G的基于梯度的学习算法允许收敛到该博弈的平衡点；在动作空间上存在最好的概率空间分布使得对于策略向量是纳什平衡；