CN113191487B

CN113191487B - 基于分布式ppo算法的自适应连续功率控制方法

Info

Publication number: CN113191487B
Application number: CN202110469413.4A
Authority: CN
Inventors: 谢显中; 范子申
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-04-07
Anticipated expiration: 2041-04-28
Also published as: CN113191487A

Abstract

本发明涉及一种基于分布式PPO算法的自适应连续功率控制方法，属于深度强化学习领域，包括S1：首先用多个线程代表多个副网络，多个副网络共享一个全局PPO网络策略参数，对所有参数进行初始化；S2：多个线程并发地执行全局PPO网络的策略，平行在各自不同的环境中去收集一定批量的数据信息；S3：多个线程将收集到的样本数据传送给全局PPO网络，多个线程停止收集样本数据；S4：全局PPO网络根据多个线程传递过来的样本数据训练网络，更新策略参数；S5：全局PPO网络更新参数后，停止更新参数，并控制多个线程继续并发地收集样本数据信息，然后重复步骤S4，直到任务结束。

Description

基于分布式PPO算法的自适应连续功率控制方法

技术领域

本发明属于深度强化学习领域，涉及一种基于分布式PPO算法的自适应连续功率控制方法。

背景技术

在文献Proximal Policy Optimization Based Continuous Intelligent PowerControl in Cognitive Radio Network中，利用了一种基于策略的深度强化学习算法，近端策略优化算法(Proximal Policy Optimization,PPO)算法来帮助认知无线网络中的次级用户实现自适应的连续功率控制，从而共享主用户的频谱资源，实现主用户和自己的成功通信。

PPO算法是一种基于AC框架的深度强化学习算法，具有人工神经网络的PPO算法可以处理无限的状态空间环境，而且它是基于策略的方法，可以处理无限的动作空间，很符合本文提出的在复杂环境中实现次级用户智能连续功率控制，以便共享主用户频谱资源的目标。

PPO算法主要比较好的解决了传统基于策略的方法中对更新步数敏感和网络更新效率过慢的问题。这主要是PPO算法采用了重要性采样的方法将on-policy的方法转变为了off-policy的方法，可以反复使用经验数据，提升了网络的更新效率，并且通过加入限制更新步长的方法，解决了策略方法对更新步长过于敏感的问题。传统的策略方法是用一个网络θ执行参数化后的策略π_θ去与环境交互，采样数据和训练网络，当这个网络的参数更新后，以前根据这个策略采集到的数据不能再用来训练这个网络，需要用新的策略重新采样数据，这就会导致网络对样本信息的利用率不高，参数更新效率很低，造成巨大的时间消耗。重要性采样的方法是构建一个输出动作概率分布与网络θ很相近的网络θ'去与环境交互采用样本数据，然后执行策略π_θ'去训练网络θ若干次，由于网络θ'的参数是固定不变的，因此实现了对采样数据的重复利用，提高了网络的更新效率。在传统的策略梯度方法中，梯度计算公式为：

采用重要性采样的方法后，可以将(1)式变为：

于是得到了新的基于PPO算法的目标函数：

其中J^θ′(θ)代表的含义与环境互动的网络θ'更新网络θ。这样就将on-policy的方法转换为了off-policy的方法，可以实现对采样数据的重复利用，然而传统策略方法中对更新步长敏感的问题依然存在，即如果这两个网络的输出动作概率分布相差太远的话，就会导致训练很难收敛，为了使这两个网络的分布不会相差太远，PPO算法在(1.3)式中又增加了限制条件，如下所示：

式中ratio_t(θ)为

表示的是两个网络策略的比值，clip是裁剪函数，当这两个网络的动作概率分布相差太远则进行裁剪，即当ratio_t(θ)的值小于1-ε，则取1-ε；如果ratio_t(θ)的值大于1+ε，则取1+ε，一般ε的值为0.1或0.2。这样就可以有效的防止过大的更新，解决了策略方法对更新步长敏感的问题。

虽然上述的PPO算法可以有效的帮助次级用户学习到最优的连续功率控制策略，但由于在神经网络的训练中，深度神经网络的参数量比较大，大量的迭代更新这些参数会导致复杂度比较高，训练时间较长。

发明内容

有鉴于此，本发明的目的在于提供一种分布式的PPO(Distributed PPO,DPPO)方法来提高训练的速度，减少训练时间。与PPO方法不同的是，DPPO具有多个副网络和一个主网络，副网络共享主网络的策略参数，在训练中副网络执行主网络的策略平行的在各自的环境中收集样本信息，并将样本传递给主网络，主网络根据这些副网络传递的样本信息进行训练，更新策略参数，之后多个副网络继续用主网络更新后的新策略参数继续并发的收集样本数据给主网络训练，直到训练结束。

为达到上述目的，本发明提供如下技术方案：

一种基于分布式PPO算法的自适应连续功率控制方法，包括以下步骤：

S1：首先用多个线程代表多个副网络，所述多个副网络共享一个全局PPO网络策略参数，对所有参数进行初始化；

S2：所述多个线程并发地执行全局PPO网络的策略，平行在各自不同的环境中去收集一定批量的数据信息；

S3：所述多个线程将收集到的样本数据传送给全局PPO网络，多个线程停止收集样本数据；

S4：所述全局PPO网络根据多个线程传递过来的样本数据训练网络，更新策略参数；

S5：所述全局PPO网络更新参数后，停止更新参数，并控制所述多个线程继续并发地收集样本数据信息，然后重复步骤S4，直到任务结束。

进一步，步骤S1中，初始化多个线程workers；初始化一个全局的PPO网络参数；初始化Actor网络的参数θ和另一个网络θ'，Critic网络的参数φ；初始化θ'网络的更新次数M和Critic网络的更新次数B；初始化传感器数量以及干扰误差等环境参数；初始化网络训练的回合数N，每回合的迭代步骤数T以及采样的批量步数Batchsize；初始化主用户和次级用户的功率，代入主用户的功率控制策略得到下一个时间帧的功率，进而获得环境的初始状态s₀。

进一步，步骤S2中，多个workers执行全局PPO网络中Actor网络的策略π_θ在各自的环境中采集样本数据{s_t,a_t,r_t}。

进一步，步骤S3中，多个workers各自执行Batchsize步后停止采集数据，将采集到的样本信息传递给全局的PPO网络。

进一步，步骤S4-S5中，全局PPO网络计算累积函数优势函数A^θ，并将网络θ的参数赋值给网络θ'，θ'网络重复利用步骤S3中采集的样本数据更新M次，每次按照梯度公式(4)进行梯度计算，更新自己的网络参数；Critic网络φ进行B次参数的更新，每次更新是对优势函数A^θ'进行梯度下降算法，尽量减小优势函数的值，从而优化θ'网络策略，然后停止更新；

式中

表示的是需要优化的目标函数，对其进行梯度上升计算以求得最大的期望奖励；

表示的是奖励期望值；s_t表示智能体在t时刻的状态、a_t表示智能体在t时刻采取的动作；π_θ'表示的是θ'网络的策略，表示的是智能体在某个特定状态下采取某个特定动作的概率；A^θ'(s_t,a_t)表示θ'网络的优势函数，用来表示当前时刻采取的动作比平均动作好多少，如果优势函数大于0，则继续提高这个策略的概率，如果小于0，则减少这个策略的概率；

ratio_t(θ)为

表示的是两个网络策略的比值；clip是裁剪函数，当这两个网络的动作概率分布相差太远则进行裁剪，即当ratio_t(θ)的值小于1-ε，则取1-ε；如果ratio_t(θ)的值大于1+ε，则取1+ε。

进一步，步骤S4-S5中，网络θ获得网络θ'训练过的新参数，多线程共享到全局PPO网络的新参数，当每个线程的在这个回合的步骤数达到T的时候这一回合的训练结束，否则返回步骤S2。

进一步，步骤S4-S5中，回合数达到N的时候终止训练，否则进行下一回合的训练，重新初始化主用户和次级用户的初始功率，获得初始状态s₀，继续从步骤S2开始进行迭代训练。

本发明的有益效果在于：基于多线程的DPPO算法训练后的次级用户网络可以达到与单线程的PPO算法同样效果，次级用户可以在不同的参数情况下学习到最优的连续功率控制策略，提升了训练所需的样本采样时间，主网络可以在短时间收集到训练所需的样本数据，DPPO算法的训练速度明显提升，有效的缩短了训练的时间。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为认知无线网络中频谱共享场景示意图；

图2为基于分布式PPO算法的自适应连续功率控制方法流程示意图；

图3为DPPO算法与PPO算法训练后的网络系统容量对比图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种基于分布式PPO算法的自适应连续功率控制方法，在图1的认知无线网络场景中使用的PPO算法可以帮助次级用户在复杂的环境中有效的学习到最优的连续功率控制策略，实现与主用户频谱资源的共享。

采用重要性采样的方法后，可以将(1.1)式变为：

于是得到了新的基于PPO算法的目标函数：

式中ratio_t(θ)为

PPO算法的具体步骤包括：

1.初始化Actor网络的参数θ和另一个网络θ'，Critic网络的参数φ；初始化θ'网络的更新次数M和Critic网络的更新次数B等；初始化传感器数量以及干扰误差等环境参数等；初始化网络训练的回合数N，每回合的迭代步骤数T以及采样的批量步数Batchsize等；初始化主用户和次级用户的功率，代入主用户的功率控制策略得到下一个时间帧的功率，进而获得环境的初始状态s₀。

2.训练开始，Actor网络执行π_θ采集样本数据{s_t,a_t,r_t}，执行Batchsize步后，计算累积函数优势函数A^θ，并将网络θ的参数赋值给网络θ'。

3.θ'网络重复利用步骤2中采集的样本数据更新M次，每次更新是按照梯度公式(1.4)进行梯度计算，更新自己的网络参数；Critic网络φ进行B次参数的更新，每次更新是对优势函数A^θ'进行梯度下降算法，尽量减小优势函数的值，从而优化θ'网络策略。

4.网络θ获得网络θ'训练过的新参数。

5.当这一回合的步骤数达到T的时候终止这一回合的训练，否则继续重复步骤2。

6.回合数达到N的时候终止训练，否则进行下一回合的训练，重新初始化主用户和次级用户的初始功率，获得初始状态s₀，继续重复步骤2进行迭代训练。

但是由于深度神经网络的参数量比较大，使用PPO方法在大量的训练中迭代更新这些参数会导致复杂度比较高，训练时间较长。基于此，如图2所示，本发明提出了一种分布式的PPO(Distributed PPO，DPPO)算法来提高训练的速度，减少训练时间。与PPO方法不同的是，DPPO具有多个副网络和一个主网络，副网络共享主网络的策略参数，在训练中副网络执行主网络的策略平行的在各自的环境中收集样本信息，并将样本传递给主网络，主网络根据这些副网络传递的样本信息进行训练，更新策略参数，之后多个副网络继续用主网络更新后的新策略参数继续并发的收集样本数据给主网络训练，直到训练结束。通过这种方式，提升了训练所需的样本采样时间，主网络可以在短时间收集到训练所需的样本数据，实验结果表明，DPPO算法的训练速度明显提升，有效的缩短了训练的时间。

DPPO算法是在PPO算法的基础上增加了多个线程去采集数据的方法。这些线程共享一个全局的PPO网络，它们执行这个全局PPO网络的策略在各自的环境中并发的收集样本数据信息，它们并不自己计算梯度，只负责将收集的样本信息传递给全局的PPO网络供其训练，这样做显著的提升了样本信息采集的时间，减少了神经网络的训练时间，下面是具体的步骤。

1.初始化多个线程workers；初始化一个全局的PPO网络参数；其余与1.2节中第一步的初始化参数一致。

2.训练开始，多个workers执行全局PPO网络中Actor网络的策略π_θ在各自的环境中采集样本数据{s_t,a_t,r_t}，各自执行Batchsize步后停止采集数据，将采集到的样本信息传递给全局的PPO网络。

3.全局的PPO网络计算累积函数优势函数A^θ，并将网络θ的参数赋值给网络θ'，θ'网络重复利用步骤2中采集的样本数据更新M次，每次按照梯度公式(1.4)进行梯度计算，更新自己的网络参数；Critic网络φ进行B次参数的更新，每次更新是对优势函数A^θ'进行梯度下降算法，尽量减小优势函数的值，从而优化θ'网络策略，然后停止更新。

4.网络θ获得网络θ'训练过的新参数，多线程共享到全局PPO网络的新参数，当每个线程的在这个回合的步骤数达到T的时候这一回合的训练结束，否则继续重复步骤2。

5.回合数达到N的时候终止训练，否则进行下一回合的训练，重新初始化主用户和次级用户的初始功率，获得初始状态s₀，继续从步骤2开始进行迭代训练。

图3为DPPO算法与PPO算法训练后的网络系统容量对比试验仿真结果，图3中PU-DPPO代表在DPPO算法中主用户的容量，SU-DPPO代表在DPPO算法中次级用户的容量，PU-PPO代表在PPO算法中主用户的容量，SU-PPO代表在DPPO算法中次级用户的容量。从仿真结果可以看出基于DPPO算法训练后的系统容量与PPO算法训练后的系统容量很接近，这证明了DPPO算法的有效性，并且在实验中通过对训练时间的记录发现，基于DPPO的算法训练时间为261秒，基于PPO算法的训练时间为350秒，这证明了DPPO算法进一步的提高了网络训练的速度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于分布式PPO算法的自适应连续功率控制方法，其特征在于：包括以下步骤：

S1：首先用多个线程代表多个副网络，所述多个副网络共享一个全局PPO网络策略参数，对所有参数进行初始化，包括初始化多个线程workers；初始化一个全局的PPO网络参数；初始化Actor网络的参数θ和另一个网络θ'，Critic网络的参数φ；初始化θ'网络的更新次数M和Critic网络的更新次数B；初始化传感器数量以及干扰误差等环境参数；初始化网络训练的回合数N，每回合的迭代步骤数T以及采样的批量步数Batchsize；初始化主用户和次级用户的功率，代入主用户的功率控制策略得到下一个时间帧的功率，进而获得环境的初始状态s₀；

S5：所述全局PPO网络更新参数后，停止更新参数，并控制所述多个线程继续并发地收集样本数据信息，然后重复步骤S4，直到任务结束；

步骤S4-S5中，全局PPO网络计算累积函数优势函数A^θ，并将网络θ的参数赋值给网络θ'，θ'网络重复利用步骤S3中采集的样本数据更新M次，每次按照梯度公式(4)进行梯度计算，更新自己的网络参数；Critic网络φ进行B次参数的更新，每次更新是对优势函数A^θ'进行梯度下降算法，尽量减小优势函数的值，从而优化θ'网络策略，然后停止更新；

clip(ratio_t(θ),1-ε,1+ε)A^θ′(s_t,a_t))]

式中

ratio_t(θ)为

2.根据权利要求1所述的基于分布式PPO算法的自适应连续功率控制方法，其特征在于：步骤S2中，多个workers执行全局PPO网络中Actor网络的策略π_θ在各自的环境中采集样本数据{s_t,a_t,r_t}。

3.根据权利要求2所述的基于分布式PPO算法的自适应连续功率控制方法，其特征在于：步骤S3中，多个线程workers各自执行Batchsize步后停止采集数据，将采集到的样本信息传递给全局的PPO网络。

4.根据权利要求1所述的基于分布式PPO算法的自适应连续功率控制方法，其特征在于：步骤S4-S5中，网络θ获得网络θ'训练过的新参数，多线程共享到全局PPO网络的新参数，当每个线程的在这个回合的步骤数达到T的时候这一回合的训练结束，否则返回步骤S2。

5.根据权利要求4所述的基于分布式PPO算法的自适应连续功率控制方法，其特征在于：步骤S4-S5中，回合数达到N的时候终止训练，否则进行下一回合的训练，重新初始化主用户和次级用户的初始功率，获得初始状态s₀，继续从步骤S2开始进行迭代训练。