CN114065929A

CN114065929A - 一种深度强化学习模型的训练方法、装置及存储介质

Info

Publication number: CN114065929A
Application number: CN202110843219.8A
Authority: CN
Inventors: 张佳能; 李辉; 周俊成
Original assignee: Chengdu Rongao Technology Co ltd
Current assignee: Chengdu Rongao Technology Co ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-02-18

Abstract

本申请提供了一种深度强化学习模型的训练方法、装置及存储介质。该方法包括如下步骤：(1)构建强化学习智能体(2)初始化网络参数，分配大小为N的经验缓冲池；(3)在线演员网络根据当前状态s_t输出相应动作a_t，智能体执行动作a_t进入下一状态s_t+1，获得奖励反馈r_t，并存储交互信息元组；(4)根据效用对交互信息元组进行采样；(5)将采样的交互信息元组用于在线评论家网络和在线演员网络的更新；(6)使用软更新方式对目标演员网络对目标评论家网络进行更新。该方法使用了优先级加权和来计算交互信息元组的效用值，综合考虑了样本的利用效用和探索效用，可以更好的利用过往经验来加快神经网络的收敛，同时不陷入局部最优。

Description

一种深度强化学习模型的训练方法、装置及存储介质

技术领域

本申请例涉及机器学习领域，具体而言，涉及一种深度强化学习模型的训练方法、装置及存储介质。

背景技术

深度强化学习作为机器学习领域的一个重要分支，已经被广泛用于解决各类复杂的决策问题，例如影像游戏、机器控制，交通信号灯控制等。深度强化学习智能体采用“试错”的方式与环境交互，通过最大化从环境中获得的累计奖励来学习最优策略，往往需要数以万计次的尝试才可能收敛。如何加快强化学习的收敛速度和样本的利用率是近年来的关注焦点。

经验回放方法可以重用过去的经验来更新目标策略，提高样本的利用率，已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样，期望更好地利用经验样本。但目前的优先经验回放方式集中于如何从经验缓冲池中采样可以加快神经网络的速度，例如以TD-error、 Reward为标准进行经验样本的选取。但这类采样会降低从经验缓冲池采样的样本的多样性，使神经网络收敛于局部最优。

发明内容

本申请提供一种深度强化学习模型的训练方法、装置及存储介质，旨在解决由于现有优先经验回放方法无法提供一种有效的采样方式，忽略采样样本的探索效用以及利用效用，导致的训练易收敛至局部最优的问题。

本申请的第一方面提供了一种深度强化学习模型的训练方法，所述方法包括以下步骤：构建强化学习智能体，包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络；初始化网络参数，根据环境复杂度计算初步探索系数，分配空间大小为N的经验缓冲池；在线演员网络根据当前智能体所处状态s_t输出相应动作a_t，智能体执行动作a_t使环境进入下一状态s_t+1，并获取＜s_t,a_t＞对应的环境奖励反馈值r_t，将交互信息元组＜s_t,a_t,s_t+1,r_t＞存储到经验缓冲池；从经验缓冲池中采样效用最大的交互信息元组作为批处理样本；使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络；使用在线评论家网络软更新目标评论家网络，在线演员网络软更新目标演员网络；当损失函数收敛或者训练次数达到预设训练次数，结束训练并获取当前网络模型参数。

可选地，根据环境状态空间复杂度和动作空间复杂度计算探索系数，对于连续状态空间和连续动作空间，采用维度来表示复杂度，对于离散状态空间和离散动作空间，采用个数来表示复杂度。根据环境的状态空间复杂度和动作空间复杂度与预设阈值之间的比例关系计算初步探索系数。

可选地，从经验缓冲池中采样效用最大的交互信息元组批处理样本，采样的步骤包括：第一次采样，从经验缓冲池中采样λ*k个交互信息元组样本，其中，k为批处理样本大小，λ≥1决定优先经验回放的比例，λ＝1对应于均匀采样，λ＝N/k对应选取所有样本中的优先级最高的k个样本；第二次采样，计算从第一次采样的交互信息元组中的样本优先级加权和，从中选取k个样本；样本优先级加权和由两部分组成，一部分是交互信息元组中的状态s_t和智能体当前所处的状态s_cur之间的相似度，另一部分是交互信息元组的动作a_t和当前智能体面对s_t时所采取的动作φ(s_t)之间的相似度。

计算交互信息元组中的样本优先级加权和，包括以下步骤：计算交互信息元组中的状态和当前智能体所处的状态之间的相似度，对于图像表示的状态，将图像经过与在线评论家网络相同参数的卷积神经网络处理，得到状态的特征表示；计算交互信息元组的动作a_t和当前智能体面对交互信息元组中的状态时所采取的动作θ(s_t)之间的相似度；计算样本优先级加权和；其中，加权和与状态相似度成正相关，与动作相似度成负相关。

交互信息元组中的状态和当前智能体所处的状态之间的相似度为：

其中，f(s)表示状态s的状态表征，对于状态为图像的情况，f(s)＝(s,θ^s)，θ^s表示与在线评论家网络参数相同的特征提取神经网络；对于状态为特征的情况，f(s)＝s。

交互信息元组的动作a_t和当前智能体在状态s_t所采取的动作θ(s_t)之间的相似度为：

样本的优先级加权和计算公式如下：

priority＝α_s·simility(f(s_t),f(s_cur))+α_a·simility(a_t,φ(s_t))

其中，α_s＞0表示状态相似度权重，α_a＜0表示动作相似度。

将交互信息元组用于在线评论家网络和在线演员网络的更新，包括：

在线评论家网络的梯度更新，公式如下：

其中，Q_θ为在线评论家网络的输出，Q_θ(s_t,a_t)表示＜s_t,a_t＞对应的Q值，

为目标评论家网络的输出。

在线评论家网络的梯度更新，公式如下：

其中，π_φ为在线演员网络的输出，π_φ(a_t∣s_t)表示智能体在s_t状态下会采取动作a_t。

可选的，每隔固定迭代周期更新两个目标网络：

其中，

为目标演员网络参数，

为目标评论家网络参数，τ为软更新系数。

本申请提供的一种深度强化学习模型的训练方法具有以下多种技术效果：

一、通过初步探索系数在探索和利用之前进行权衡，保证经验缓冲池样本多样性的同时降低冗余性。

二、通过状态相似度和动作相似度的加权，可以综合考虑样本的探索效用和利用效用，并随着训练进程的推进而自动调整，可以有效提高样本利用率，并在提高训练速度的同时避免陷入局部最优。

本申请的第二方面提供了一种深度强化学习模型的训练装置，所述装置包括：构建模块，用于构建强化学习智能体，包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络；初始化模块，用于初始化网络参数，并根据环境复杂度设置探索系数，分配足够大小的经验缓冲池；交互模块，用于智能体与环境交互，生成交互信息元组并将其存入经验缓冲池；采样模块，用于计算经验缓冲池中样本的效用值，并采用其中效用最大的一部分用于接下来的网络训练；训练模块，利用强化学习算法进行网络训练；结束模块，达到结束条件时候获取训练之后的网络参数，并存储至存储器。

另一方面，本申请还提供了一种计算机可读存储介质，其内储有计算机应用程序，所述计算机应用程序执行时实现如上强化学习模型的训练方法的各个步骤。

附图说明

为了更清楚的说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要的使用的附图做简要介绍。其中：

图1为本申请一实施例示出的一种深度强化学习模型的训练流程图；

图2为本申请一实施例示出的经验缓冲池采样示意图；

图3为本申请二实施例示出的训练装置结构示意图。

具体实施方式

为使本申请的目的，技术方法和优点更加清晰明了，下文将结合实施例中的附图对本申请作进一步描述。需要说明的是，此处所描述的实施例仅用于解释本申请，但不用与限定本申请。

本申请提供的一种深度强化学习模型的训练方法可以包括以下步骤：

步骤S101，构建强化学习智能体，包括在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络；

其中，在线评论家网络与目标评论家网络结构相同，在线演员网络与目标演员网络结构相同。

步骤S102，初始化网络参数，根据环境复杂度计算探索系数，分配足够大小的经验缓冲池；

其中，不同的环境复杂度包括：状态空间是否连续、状态空间的维度/个数、动作空间是否连续，动作空间的维度/个数；探索系数与环境复杂度正相关；例如，在现代空战仿真环境中(以红蓝双方战机进行1V1博弈为例)，红方飞机所能获取到的状态包括蓝方飞机的6个自由度的位置消息，以及己方的位置信息，状态空间是连续的且状态空间维数较大，而动作则是偏转角和加速度，动作空间是连续的且拥有多个子动作，因此，1v1的空战仿真强化学习训练环境的复杂系数较高，相应的探索系数也较高。

步骤S103，在线演员网络根据当前智能体所处状态s_t输出相应动作a_t，智能体执行动作a_t使环境进入下一状态s_t+1，并获取＜s_t,a_t＞对应的环境奖励反馈值r_t，将交互信息元组＜s_t,a_t,s_t+1,r_t＞存储到经验缓冲池。

示例地，在现代空战仿真环境中(以红蓝双方战机进行1V1博弈为例)，红方飞机可以将当前时刻的状态(例如自身位置信息，蓝方飞机的位置信息，环境信息等)输入到自身的在线演员网络，以获取到当前红方飞机应执行的动作，执行后便进入下一状态。此时可以根据红方飞机是否到达有利态势或者是否击毁蓝方飞机给予单步奖励。

步骤S104，从经验缓冲池中选择效用最大的交互信息元组。

经验回放方法通过重用过去的经验来更新当前策略，可以提高样本的利用率。但经验缓冲池中样本的质量参次不齐。类比人类，从不同的经历中能学习的东西有所不同，有些经历能使人受益匪浅，而有些经历能给予的帮助则微乎其微。可以理解的是，从经验缓冲池中选择效用最大可以更好的促进神经网络的收敛及优化。

需要说明的是，经验缓冲池的容量的量级往往是10⁶或者更大，倘若计算经验缓冲池中所有样本效用值将带来巨大的计算开销。为了降低时间复杂度，采样方式分为两步：首先从经验缓冲池中随机采样λ*k个样本；再对第一步采样样本根据效用值大小采样k个样本。其中，k为批处理样本大小，λ≥1决定优先经验回放的比例，其中λ＝1对应于均匀采样；λ＝N/k对应选取所有样本中的优先级最高的k个样本。

在步骤S104中，效用值的计算包括以下三个步骤：计算交互信息元组中的状态s_t和当前智能体所处的状态s_cur之间的相似度simility(s_t,s_cur)，对于图像表示的状态，以图像为输入，采用与评论家相同参数的卷积神经网络，得到状态的特征表示；计算交互信息元组的动作a_t和当前智能体面对交互信息元组中的状态时所采取的动作θ(s_t)之间的相似度simility(a_t,θ(s_t))；计算样本的优先级加权和；其中，加权和与状态相似度成正相关，与动作相似度成负相关。

需要说明的是，为了加快神经网络的收敛的同时保证神经网络不陷入局部最优，经验缓冲池样本的多样性是前提条件，采样样本的多样性是必要条件。因而，对于经验缓冲池的采样也需要权衡探索和利用。也就是对应步骤S104中的两种相似度。

为了保证探索，对于那些包含访问频率低的状态的经验样本以更高的采样频率，智能体在训练过程中形成的状态分布为：

其中p(s₀)为初始状态出现的概率。对于状态s而言，如果ρ^π(s)很大，也就意味着智能体经常访问状态s，具有较高的探索意义，同理，如果ρ^π(s)很小，接近于 0，也就意味着智能体很少访问状态s，探索意义较低。由于训练过程中策略不断地变化，无法直接获取ρ^π(s)，鉴于相似的状态会有相似的分布，将当前状态与经验样本中状态的差异作为样本的探索程度的衡量。

为了保证利用，将不同策略对于同一状态所采取的动作的差异来量化策略之间的差异，即样本的利用效用。

需要说明的是，对于不同的状态空间和动作空间，所采取的相似度的计算方式是有所不同的。例如以图像作为输入的强化学习环境，鉴于图像中可能存在无关信息或存在噪点，首先利用卷积神经网络获取图像表征，然后对图像表征进行状态相似度比较。

示例地，在现代空战仿真环境中(以红蓝双方战机进行1V1博弈为例)，训练初期由于红方飞机不知道蓝方飞机的位置而进行随机探索，训练过程中产生的交互信息元组中的大部分是无意义的，通过相似度加权采样，可以使得红方飞机尽可以地从经验缓冲池中获取与蓝方飞机相遇的有效交互信息；训练中期红方飞机总是可以和蓝方飞机相遇，通过优先级加权和采样，可以使得红方飞机尽可能的探索多方位到达有利态势。

步骤S105，将步骤S104采样的交互信息元组用于在线评论家网络和在线演员网络的训练更新。包括：

在线评论家网络的梯度更新，公式如下:

在线评论家网络的梯度更新，公式如下：

步骤S106，每隔固定迭代周期更新两个目标网络：

步骤S107，当损失函数收敛或者达到预设训练次数，结束训练并获取当前获取网络模型参数。

基于同一发明构思，本申请另一实施例提供一种深度强化学习模型的训练装置。

图3是本申请实施例的一种深度强化学习模型的训练装置。

如图3所示，该深度强化学习模型的训练装置包括：构建模块100，初始化模块200，交互模块300，采样模块400，训练模块500，结束模块600。

其中，构建模块100用于构建强化学习神经网络，包括在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络。初始化模块200用于初始化网络参数，并根据环境复杂度设置探索系数，分配足够大小的经验缓冲池。交互模块300用于智能体与环境交互，生成交互信息元组并将其存入经验缓冲池。采样模块400用于计算经验缓冲池中样本的效用值，并采用其中效用最大的一部分用于接下来的网络训练。训练模块500用于强化学习算法进行网络训练。结束模块600用于训练结束后获取网络参数，并存储至存储器。本申请装置可以充分利用经验缓冲池中的经验，可部分解决强化学习优先经验回放中存在的局部收敛的问题，并且可以实现更快的收敛速度，提升了学习效率。

需要说明的是，在本申请的一个实施例中，装置中的初始化模块200不仅要网络参数的初始化，还要实现对训练环境的初步理解，设定探索系数，作为采样模块300中的优先级加权和的权重参考。

需要说明的是，在本申请的一个实施例中，装置中的采样模块300与一般的采样模块有所不同，采样模块300需要进行多次采样来平衡计算成本和精确程度。第一次采样将交互信息元组样本的数量减少一个或者多个数量级，然后对第一次采样后的样本计算样本优先级加权和。对于观测图像直接输入状态的情况，采样模块中还必须包含图像特征提取模块用于图像特征状态相似度。

根据本申请实施例提出的一种深度强化学习模型的训练装置，智能体能够实现对训练环境的初步理解，并每次都从过往经验中获取到效用值最高的批处理样本用于神经网络的训练，部分解决优先经验回放中存在的局部收敛的问题，并实现更快的收敛速度。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质。其内储有计算机应用程序，其特征在于，所述计算机应用程序执行时实现本申请上述任一实施例所述方法的任一步骤。

Claims

1.一种深度强化学习模型的训练方法，其特征在于，所述方法包括下述步骤：

步骤1：构建强化学习智能体，包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络；

步骤2：初始化网络参数，根据环境复杂度计算初步探索系数，分配空间大小为N的经验缓冲池；

步骤3：在线演员网络根据当前智能体所处状态s_t输出相应动作a_t，智能体执行动作a_t使环境进入下一状态s_t+1，并获取＜s_t,a_t＞对应的环境奖励反馈值r_t，将交互信息元组＜s_t,a_t,s_t+1,r_t＞存储到经验缓冲池；

步骤4：从经验缓冲池中采样效用最大的交互信息元组；

步骤5：使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络；

步骤6：使用在线演员网络软更新目标演员网络，在线评论家网络软更新目标评论家网络；

步骤7：当损失函数收敛或者达到预设训练次数，结束训练并获取当前获取网络模型参数。

2.如权利1所述训练方法，其特征在于，步骤4中，从经验缓冲池中采样效用最大的交互信息元组样本，效用是指样本对于训练过程的有利程度，即后文所述的样本优先级加权和。采样的步骤包括：

第一次采样，从经验缓冲池中采样λ*k个交互信息元组样本；其中，k为批处理样本大小，λ≥1决定优先经验回放的比例，λ＝1对应均匀采样，λ＝N/k对应选取所有样本中的优先级最高的k个样本。

第二次采样，计算从第一次采样的交互信息元组中的样本优先级加权和，从中选取k个样本；样本优先级加权和由两部分组成，一部分是交互信息元组中的状态s_t和智能体当前所处的状态s_cur之间的相似度，另一部分是交互信息元组的动作a_t和当前智能体面对s_t时所采取的动作φ(s_t)之间的相似度。

其中，f(s)表示状态s下对应的状态表征，对于状态为图像的情况，f(s)＝(s,θ^s)，θ^s表示与在线评论家网络参数相同的特征提取神经网络；对于状态为特征的情况，f(s)＝s。

交互信息元组的动作a_t和当前智能体在状态s_t所采取的动作φ(s_t)之间的相似度为：

样本的优先级加权和计算公式如下：

priority＝α_s·simility(f(s_t),f(s_cur))+α_a·simility(a_t,φ(s_t))

其中，α_s＞0表示状态相似度权重，α_a＜0表示动作相似度。

3.如权利1所述训练方法，其特征在于，步骤6中，将采样样本用于在线评论家网络和在线演员网络的更新，包括：

在线评论家网络的梯度更新，公式如下：

其中，γ为折扣因子，Q_θ为在线评论家网络的输出，Q_θ(s_t,a_t)表示＜s_t,a_t＞对应的Q值，

为目标评论家网络的输出。

在线评论家网络的梯度更新，公式如下：

4.如权利1所述方法，其特征在于，步骤7中，使用在线演员网络软更新目标演员网络，在线评论家网络软更新目标评论家网络，所述步骤包括：每隔固定迭代周期更新两个目标网络，

目标演员网络更新公式如下：

其中，

为目标演员网络参数，τ为软更新系数。

目标评论家网络更新公式如下：

其中，

为目标评论家网络参数，τ为软更新系数。

5.一种深度强化学习模型的训练装置，其特征在于，所述装置包括：

构建模块，用于构建强化学习智能体，包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络；

初始化模块，用于初始化网络参数，并根据环境复杂度计算探索系数，分配足够大小的经验缓冲池。

交互模块，用于智能体与环境交互，生成交互信息元组并将其存入经验缓冲池。

采样模块，用于计算经验缓冲池中样本的效用值，并采用其中效用最大的一部分用于接下来的网络训练。

训练模块，利用强化学习算法进行网络训练。

结束模块，达到结束条件时候获取训练之后的网络参数，并存储至存储器。

6.一种计算机可读存储介质，其内储有计算机应用程序，其特征在于，所述计算机应用程序执行时实现权利要求1-5所述方法的任一步骤。