CN113392971B

CN113392971B - 策略网络训练方法、装置、设备及可读存储介质

Info

Publication number: CN113392971B
Application number: CN202110653456.8A
Authority: CN
Inventors: 吴静; 张明琦; 江昊; 周建国; 陈琪美
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-09-02
Anticipated expiration: 2041-06-11
Also published as: CN113392971A

Abstract

本发明提供一种策略网络训练方法、装置、设备及可读存储介质。该方法包括：将N个高带宽数据输入M个智能体，得到每个智能体基于输入的高带宽数据生成的选择动作，以及选择动作对应的奖励值，并构建i个样本，根据每个样本的奖励值，将样本放入优化经验池或常规验池；以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；重复执行上述步骤，直至策略网络和价值网络收敛。通过本发明，智能体不断与环境进行交互，利用环境反馈给其的奖励值来决定智能体的下一个动作。因此，所需要的先验知识更少，能够在未知的环境中进行学习，得到较优的策略网络。

Description

策略网络训练方法、装置、设备及可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种策略网络训练方法、装置、设备及可读存储介质。

背景技术

全方位的生态要素观测系统属于异构网络，可以包括卫星网络、蜂窝移动网络、空中网络、无线Mesh网络、陆上数据中心等等，所承载的业务类型复杂，数据种类多样。虽然传感器与物联网的相关技术已被广泛应用于生态和环境监测领域，但在典型脆弱生态环境中，其所监测到的数据往往是矢量数据，维度高、数据量大，例如高光谱数据、通量数据、连续视频数据等等，这些数据往往会占用大量的网络带宽。而近年来随着卫星网络、空中网络、无线Mesh网络的快速发展，为生态网络的观测传输提供了多种渠道，高带宽的监测数据可以基于相应的目标选择不同的接入网络进行传输。因此，选择合适的接入网络传输所监测到的数据是很有必要的。

生态观测网络中的传统算法或者需要事先分析网络中的流量特征，或者需要大量的人工先验性经验进行路由计算，难以动态地适应数据的波动性，导致策略缺乏灵活性，无法对其进行精确的分析与建模。近年来，随着机器学习相关研究与算法的发展，人工智能方法在解决复杂网络的建模问题中发挥出了巨大的优势，通过对大量数据的训练与分析，最终可以得到最优的映射模型。但是基于监督学习的机器学习方法存在以下劣势：一方面，得出进行学习的训练集与测试集需要很大的开销；另一方面，当网络的状态变化时，需要对模型重新进行训练，以防止原模型无法得到较好的效果。

发明内容

为解决上述技术问题，本发明提供一种策略网络训练方法、装置、设备及可读存储介质。

第一方面，本发明提供一种策略网络训练方法，所述策略网络训练方法包括：

将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D′为第i+1个高带宽数据；

根据每个样本中的r₁至r_M，得到每个样本的奖励值；

将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池；

以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；

返回执行所述将N个高带宽数据输入M个智能体的步骤，直至策略网络和价值网络收敛。

可选的，所述以预设采样机制从优化经验池以及常规验池中获取样本的步骤包括：

根据权重ω确定第一数量以及第二数量，从优化经验池中获取第一数量个样本，从常规验池中获取第二数量个样本，其中：

n_ot为当前网络与目标网络输出的动作相同时的样本数量，N_batch为每一次从优化经验池以及常规验池中获取的总样本数量，ω_max为权重ω的上界，ω_max∈[0,1]，(1-ω)N_batch为第一数量，ωN_batch为第二数量。

n_ot为当前网络与目标网络输出的动作相同时的样本数量，N_batch为每一次从优化经验池以及常规验池中获取的总样本数量，ω_max为权重ω的上界，ω_max∈[0,1]，ε为探索因子，(1-ω)N_batch为第一数量，ωN_batch为第二数量。

基于各个样本的重要因子δ_i从优化经验池以及常规验池中获取样本，其中：

r_i为样本的奖励值，N_i为样本被采样过的次数，T为样本在训练回合中所处于的时间步。

可选的，所述通过训练样本对策略网络和价值网络进行更新的步骤包括：

通过训练样本，最小化目标网络与当前网络的Loss值更新价值网络；

通过训练样本经过价值网络后得到的Q值，评价策略网络的优劣，并通过梯度下降调整策略网络的参数，使得训练样本经过价值网络后得到更大的Q值。

可选的，所述策略网络训练方法还包括：

以软更新策略更新策略网络与价值网络中目标网络的参数。

可选的，所述策略网络训练方法还包括：

每通过训练样本对策略网络和价值网络进行一次更新，则循环次数累加1次，当循环次数达到预设次数时，确定策略网络和价值网络收敛。

第二方面，本发明还提供一种策略网络训练装置，所述策略网络训练装置包括：

样本构建模块，用于将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D′为第i+1个高带宽数据；

奖励值计算模块，用于根据每个样本中的r₁至r_M，得到每个样本的奖励值；

分发模块，用于将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池；

训练模块，用于以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；

循环模块，用于返回执行所述将N个高带宽数据输入M个智能体的步骤，直至策略网络和价值网络收敛。

第三方面，本发明还提供一种策略网络训练设备，所述策略网络训练设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的策略网络训练程序，其中所述策略网络训练程序被所述处理器执行时，实现如上所述的策略网络训练方法的步骤。

第四方面，本发明还提供一种可读存储介质，所述可读存储介质上存储有策略网络训练程序，其中所述策略网络训练程序被处理器执行时，实现如上所述的策略网络训练方法的步骤。

本发明中，将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D′为第i+1个高带宽数据；根据每个样本中的r₁至r_M，得到每个样本的奖励值；将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池；以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；返回执行所述将N个高带宽数据输入M个智能体的步骤，直至策略网络和价值网络收敛。通过本发明，智能体不断与环境进行交互，利用环境反馈给其的奖励值来决定智能体的下一个动作。因此，所需要的先验知识更少，适用于复杂的问题，能够在未知的环境中进行学习，得到较优的策略网络，从而使用策略网络为高带宽数据选择接入网络。

附图说明

图1为本发明实施例方案中涉及的策略网络训练设备的硬件结构示意图；

图2为本发明策略网络训练方法一实施例的流程示意图；

图3为本发明策略网络训练装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

第一方面，本发明实施例提供一种策略网络训练设备。

参照图1，图1为本发明实施例方案中涉及的策略网络训练设备的硬件结构示意图。本发明实施例中，策略网络训练设备可以包括处理器1001(例如中央处理器CentralProcessing Unit，CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity，WI-FI接口)；存储器1005可以是高速随机存取存储器(random access memory，RAM)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本发明的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及策略网络训练程序。其中，处理器1001可以调用存储器1005中存储的策略网络训练程序，并执行本发明实施例提供的策略网络训练方法。

第二方面，本发明实施例提供了一种策略网络训练方法。

一实施例中，参照图2，图2为本发明策略网络训练方法一实施例的流程示意图。如图2所示，策略网络训练方法包括：

步骤S10，将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D′为第i+1个高带宽数据；

本实施例中，定义状态空间s＝(D₁,D₂,…,D_N)作为输入，分别输入到M个智能体，其中，D_i为第i个高带宽数据。定义奖励函数为：

r_i＝α·t_i+β·T_i+γ·c_i

其中，α、β、γ为调整因子，由网络的具体运行策略决定。奖励值r_i越大，说明此时高带宽数据选用此接入网络可以获得更好的综合效果，智能体通过反馈的报酬值来不断更新网络。由于生态观测网络是异构网络，对于空中网络存在通信间断的问题，主要体现在接入时刻与通信时间这两个指标上。对于卫星网络主要考虑通信代价的问题，即将通信资费作为指标。因此，将奖励值定义为综合考虑接入时刻t_i、通信时间T_i与通信代价c_i的函数。

对状态空间中的任一个高带宽数据D_i而言，将其输入M个智能体后，每个智能体都为其选择一个接入网络，即可得到每个智能体基于输入的D_i生成的选择动作a_j，并根据奖励函数，得到每个选择动作a_j对应的奖励值r_j，然后以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，从而得到i个样本。

其中，搭建深度神经网络作为Actor网络(策略网络)μ，用于智能体选择策略生成相应的动作，μ表示该网络的参数；搭建深度神经网络作为Critic网络(价值网络)Q，用来评价生成的策略的价值，φ表示该网络的参数；Actor网络和Critic网络中都有当前网络online network和目标网络target network。

进一步地，可将自适应噪声加入到搭建的策略网络的参数中，从而改变智能体做出的决策。参数噪声可以使算法更有效地探索周围的环境，考虑更多的可能动作，提升模型的训练效果。因此，对于每一个智能体，加入随机噪声后，对于第i个观测数据D_i，其动作的计算可表示为：

a_i＝μ_i(D_i)+N_t。

步骤S20，根据每个样本中的r₁至r_M，得到每个样本的奖励值；

本实施例中，可以以每个样本中的r₁至r_M的平均值作为每个样本的奖励值，还可以是去除每个样本中的r₁至r_M中的最大值和最小值后再计算平均值作为每个样本的奖励值。具体如何根据根据每个样本中的r₁至r_M，得到每个样本的奖励值，可根据实际情况进行设置，在此不做限制。

步骤S30，将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池；

本实施例中，得到每个样本的奖励值后，将每个样本的奖励值与阈值进行对比，根据对比结果，将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池。

步骤S40，以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；

本实施例中，通过预设采样机制分别从优化经验池以及常规验池中获取样本，得到训练样本，再通过训练样本对策略网络和价值网络进行更新。其中，预设采样机制可以是以分别以固定值从优化经验池以及常规验池中获取样本。

进一步地，一实施例中，以预设采样机制从优化经验池以及常规验池中获取样本的步骤包括：

本实施例中，基于步骤S30得到的双经验池，采用自适应采样机制，以权重ω控制在不同经验池中获取样本的数量。

本实施例中，引入探索因子，通过上述方式在存在探索因子的情况下，确定权重ω，然后根据权重ω确定在不同经验池中获取样本的数量，保证模型在训练初期仍能获得多样性充足的样本。

本实施例中，采用优先级采样机制，以更高的概率选取高质量的样本，根据训练过程中样本的奖励值和抽样次数，设计了重要因子δ_i：

其中，r_i为样本的奖励值，N_i为样本被采样过的次数，T为样本在训练回合中所处于的时间步，T越大，代表该样本越新。由于生态观测网络中的数据动态性强，学习新产生的数据对模型的训练更有利。

样本的重要因子越大，则其被选择的概率也越大：

P_i＝P_i+λδ_i,

P_i的初始值设为1，N为两经验池中总样本的数量。通过自适应权重调整来确定从两个经验池中分别采样样本的数量，利用优先级采样的方式保证从经验池中选取的样本能够加速模型的收敛。

本实施例中，得到训练样本后，即可通过训练样本对策略网络和价值网络进行更新。

进一步地，一实施例中，通过训练样本对策略网络和价值网络进行更新的步骤包括：

本实施例中，利用训练样本，通过最小化目标网络与当前网络的Loss值来更新Critic网络：

其中，y代表采样的样本在经过Critic的目标网络后所得到的Q值。因此，可以利用样本在经过当前网络与目标网络后，所得到Q值的误差来更新Critic网络。

通过策略梯度更新Actor网络：

即通过训练样本经过Critic网络后所得到的Q值，来评价用于生成策略的Actor网络产生动作的优劣。通过梯度下降来使Actor网络的参数向着可以生成更大Q值的方向移动。

进一步地，一实施例中，策略网络训练方法还包括：

以软更新策略更新策略网络与价值网络中目标网络的参数。

本实施例中，以软更新策略更新Actor网络与Critic网络中目标网络的参数：

Actor网络与Critic网络中的当前网络参数μ_i与φ_i更新的是比较频繁的，为了使网络模型能够收敛，需要让Actor网络与Critic网络中的目标网络参数

与

变化的较为缓慢，采用软更新的方式进行更新，可以达到该目标。

步骤S50，返回执行所述将N个高带宽数据输入M个智能体的步骤，直至策略网络和价值网络收敛。

本实施例中，完成对策略网络和价值网络的更新后，若策略网络和价值网络未收敛，则返回执行步骤S10，从而再次执行步骤S10至步骤S40的步骤，即再次对策略网络和价值网络进行更新，若策略网络和价值网络未收敛，则再次返回执行步骤S10，从而再次执行步骤S10至步骤S40的步骤，即再次对策略网络和价值网络进行更新，并检测策略网络和价值网络是否收敛，以此类推，直至策略网络和价值网络收敛时，完成训练，并将此时得到的策略网络部署到网关，为监测到的高带宽数据选择接入网络。

进一步地，一实施例中，策略网络训练方法还包括：

本实施例中，每通过训练样本对策略网络和价值网络进行一次更新，则循环次数累加1次，当循环次数达到预设次数(例如100)时，确定策略网络和价值网络收敛。

本实施例中，将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D′为第i+1个高带宽数据；根据每个样本中的r₁至r_M，得到每个样本的奖励值；将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池；以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；返回执行所述将N个高带宽数据输入M个智能体的步骤，直至策略网络和价值网络收敛。通过本实施例，智能体不断与环境进行交互，利用环境反馈给其的奖励值来决定智能体的下一个动作。因此，所需要的先验知识更少，适用于复杂的问题，能够在未知的环境中进行学习，得到较优的策略网络，从而使用策略网络为高带宽数据选择接入网络。

第三方面，本发明实施例还提供一种策略网络训练装置。

一实施例中，参照图3，图3为本发明策略网络训练装置一实施例的功能模块示意图。如图3所示，策略网络训练装置包括：

样本构建模块10，用于将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D′)作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D′为第i+1个高带宽数据；

奖励值计算模块20，用于根据每个样本中的r₁至r_M，得到每个样本的奖励值；

分发模块30，用于将奖励值大于阈值的样本放入优化经验池，将奖励值不大于阈值的样本放入常规验池；

训练模块40，用于以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新；

循环模块50，用于返回执行所述将N个高带宽数据输入M个智能体的步骤，直至策略网络和价值网络收敛。

进一步地，一实施例中，训练模块40，用于：

进一步地，一实施例中，训练模块40，用于：

进一步地，一实施例中，训练模块40，用于：

进一步地，一实施例中，训练模块40，用于：

以软更新策略更新策略网络与价值网络中目标网络的参数。

进一步地，一实施例中，循环模块50，用于：

其中，上述策略网络训练装置中各个模块的功能实现与上述策略网络训练方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

第四方面，本发明实施例还提供一种可读存储介质。

本发明可读存储介质上存储有策略网络训练程序，其中所述策略网络训练程序被处理器执行时，实现如上述的策略网络训练方法的步骤。

其中，策略网络训练程序被执行时所实现的方法可参照本发明策略网络训练方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种策略网络训练方法，其特征在于，所述策略网络训练方法包括：

将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D')作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D'为第i+1个高带宽数据；

根据每个样本中的r₁至r_M，得到每个样本的奖励值；

以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新，其中，策略网络和价值网络中都有当前网络和目标网络；

所述以预设采样机制从优化经验池以及常规验池中获取样本的步骤包括：

n_ot为当前网络与目标网络输出的动作相同时的样本数量，N_batch为每一次从优化经验池以及常规验池中获取的总样本数量，ω_max为权重ω的上界，ω_max∈[0,1]，(1-ω)N_batch为第一数量，ωN_batch为第二数量；

2.如权利要求1所述的策略网络训练方法，其特征在于，所述以预设采样机制从优化经验池以及常规验池中获取样本的步骤包括：

3.如权利要求2所述的策略网络训练方法，其特征在于，所述以预设采样机制从优化经验池以及常规验池中获取样本的步骤包括：

4.如权利要求1所述的策略网络训练方法，其特征在于，所述通过训练样本对策略网络和价值网络进行更新的步骤包括：

5.如权利要求4所述的策略网络训练方法，其特征在于，所述策略网络训练方法还包括：

以软更新策略更新策略网络与价值网络中目标网络的参数。

6.如权利要求1至5中任一项所述的策略网络训练方法，其特征在于，所述策略网络训练方法还包括：

7.一种策略网络训练装置，其特征在于，所述策略网络训练装置包括：

样本构建模块，用于将N个高带宽数据输入M个智能体，得到每个智能体基于输入的D_i生成的选择动作a_j，以及选择动作a_j对应的奖励值r_j，以(D_i，a₁,...,a_M，r₁,...,r_M，D')作为一个样本，得到i个样本，其中，D_i为第i个高带宽数据，D'为第i+1个高带宽数据；

训练模块，用于以预设采样机制从优化经验池以及常规验池中获取样本，作为训练样本，通过训练样本对策略网络和价值网络进行更新，其中，策略网络和价值网络中都有当前网络和目标网络；

所述训练模块，具体用于：

8.一种策略网络训练设备，其特征在于，所述策略网络训练设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的策略网络训练程序，其中所述策略网络训练程序被所述处理器执行时，实现如权利要求1至6中任一项所述的策略网络训练方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有策略网络训练程序，其中所述策略网络训练程序被处理器执行时，实现如权利要求1至6中任一项所述的策略网络训练方法的步骤。