CN110490319B

CN110490319B - 一种基于融合神经网络参数的分布式深度强化学习方法

Info

Publication number: CN110490319B
Application number: CN201910693037.XA
Authority: CN
Inventors: 李辉
Original assignee: Chengdu Rongao Technology Co ltd
Current assignee: Chengdu Rongao Technology Co ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2020-06-26
Anticipated expiration: 2039-07-30
Also published as: CN110490319A

Abstract

本发明提出了一种基于融合神经网络参数的分布式深度强化学习。包括如下步骤：(1)在每个工作节点上部署深度强化学习代理；(2)每隔一定时间，所有工作节点将各自的当前网络参数和当前得到的平均回报发向参数服务器；(3)参数服务器接收所有工作节点发送过来的当前网络参数和平均回报；(4)参数服务器根据每个工作节点的平均回报占所有平均回报总和的比例来确定参数系数；(5)参数服务器根据所有的当前网络参数和其参数系数计算新的当前网络参数；(6)所有工作节点使用这个新的当前网络参数开始学习。本发明提升了深度强化算法的效果且有效的解决了工作节点频繁向参数服务器发送神经网络的参数梯度所带来的时间消耗问题。

Description

一种基于融合神经网络参数的分布式深度强化学习方法

技术领域

本发明涉及人工智能领域，特别是一种分布式深度强化学习方法。

背景技术

深度强化学习算法，是一种将深度学习的感知能力和强化学习的决策能力相结合的算法，通过端对端的学习方式实现从原始输入到输出的控制。该算法在工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域有广泛应用。但是，要让深度强化学习代理训练出比较好的模型，需要花费大量的时间和计算资源，仅凭一台计算机已经不满足使用需求，这种需求导致了分布式深度强化学习的出现。

参数服务器作为分布式深度强化学习训练和存储的通用范式，在学术界和工业界得到了广泛应用。在参数服务器系统中，服务器节点在整个工作节点上收集和共享神经网络参数，工作节点从服务器节点读取神经网络参数并独立更新训练结果。整个体系结构基于一系列的训练迭代，当所有工作节点在训练了一批数据后返回更新的神经网络参数时，迭代就完成了。在这种模型下，每个工作节点都要频繁的向参数服务器发送参数梯度，然后等待参数服务器发送更新过后的神经网络参数。上述过程消耗时间过长的问题亟待解决。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于融合神经网络参数的分布式深度强化学习方法，即参数服务器将所有工作节点发来的神经网络参数进行融合从而得到新的神经网络参数，包括如下步骤：

(1)在每个工作节点上部署深度强化学习代理，初始化神经网络参数和环境起始状态，然后代理与环境进行交互，更新神经网络参数；

(2)每隔一定时间，所有工作节点将各自的神经网络参数和当前得到的平均回报发向参数服务器，等待参数服务器发回最新的神经网络参数；

(3)参数服务器接收所有工作节点发送过来的神经网络参数和平均回报；

(4)参数服务器根据平均回报计算每个工作节点对应的参数系数；

(5)参数服务器根据每个工作节点对应的参数系数和神经网络参数计算新的神经网络参数，然后将新的神经网络参数发给所有的工作节点；

(6)所有工作节点接收参数服务器发送过来的新的神经网络参数，然后用这个新的神经网络参数开始学习。

所述的步骤(5)的新的神经网络参数的具体计算方法为：

P＝p₁*a₁+p₂*a₂+…+p_n*a_n

1＝a₁+a₂+…+a_n

a₁到a_n为N个工作节点对应的参数系数，p₁到p_n为N个工作节点发送的神经网络参数，P为更新过后的神经网络参数。参数服务器将更新过后的神经网络参数P同步地发送给所有的工作节点；工作节点接收更新过后的神经网络参数后在用新的神经网络参数继续与环境进行交互。

本发明的优点主要包括：

(1)本发明具有通用性，与具体深度强化学习算法无关；

(2)本发明是让工作节点发送神经网络参数而不是梯度，如果发送的是神经网络的梯度，则需要产生梯度后就需要及时送往参数服务器，所以工作节点会频繁的向参数服务器发送梯度。本发明中工作节点产生梯度后直接更新神经网络参数，在一定时间后将神经网络参数发向参数服务器，工作节点向参数服务器发送神经网络参数的频率比较低，从而节省了工作节点发送和等待的时间，并且减轻了参数服务器的负载；

(3)本发明中参数服务器是根据所有工作节点的神经网络参数来更新，通过对神经网络增加扰动，提高了神经网络的稳定性；

(4)如图4所示，本发明能提高算法的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要的附图做简单地介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对应本领域普通技术人员来说，在没有付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例中的框架图。

图2为本发明的具体流程图。

图3为本发明实施例中基于DQN的算法流程图。

图4为本发明基于DQN算法和正常DQN算法结果的对比图，该次实验使用了雅达利游戏Breakout环境和三个工作节点。

具体实施方式

下面将结合本发明中的实施例附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明中一部分实施例，而不是全部地实施例。

本发明提出了一种基于融合神经网络参数的分布式深度强化学习方法，具有通用性、稳定性、效果好等优点。

本发明概括来说主要包括如下步骤：

(1)在每个工作节点上部署深度强化学习代理，并且初始化神经网络参数和环境起始状态，然后代理与环境进行交互，更新神经网络参数；

下面结合实施例和附图对本发明的内容进行进一步的解释。本发明支持off-policy和on-policy的深度强化学习算法，也支持off-line和on-line的学习方式，可以部署在单机环境也可以部署在多机环境，具有很强的通用性。为了更好的描述本发明，实施例中使用了DQN算法和多机环境来具体描述本发明，且实施例中的环境有确定的终止状态，可以划分为回合来交互，这里的回合指的是从开始状态直到结束状态，或者是执行到最大步数。

上述一种基于融合神经网络参数的分布式深度强化学习方法的流程图如图2所示。这里对上述步骤进行详细描述。

步骤(1)具体为：将每个深度强化学习代理部署在其对应的工作节点，每个工作节点拥有一个当前网络和一个目标网络，还有一个经验池。当前网络，用来产生Q值，目标网络，用来产生Target Q值，经验池用来存放代理与环境交互所得到的经验。代理使用的策略是ε-greedy贪心策略，有一定概率选择Q值最大的动作，否则随机选择一个动作。代理将状态送到当前网络，得到Q值，根据策略选择动作，然后执行该动作，得到下一状态和回报值；如果经验池的经验到达一定数量，代理从中取出一批经验，分别送到当前网络和目标网络，得到相应的Q值和Target Q值；损失函数为:

用损失函数L计算梯度，然后更新当前网络；当执行到一定步数后，用当前网络来更新目标网络的参数。

步骤(2)具体为：每隔一定回合，所有工作节点向参数服务器发送当前网络参数、目标网络参数和平均回报。平均回报为每个回合所得的总奖励值的总和除以总回合数。

步骤(3)具体为：参数服务器可以根据每个工作节点的平均回报占所有平均回报总和的比例来确定参数系数。例如，所有工作节点的回报值都为正时，可以通过以下公式计算：

r_k为第k个工作节点的回报，n为工作节点的个数，a_k为第k个工作节点的参数系数。假设有三个工作节点，第一个工作节点的平均回报为360，第二个工作节点的平均回报为480，第三个工作节点的平均回报为360，那这三个工作节点的总平均回报为1200。根据上述公式，可计算出工作节点1、工作节点2和工作节点3的参数系数分别为0.3、0.4和0.3。如果工作节点的回报值有正有负，可以通过以下方法解决：

e为自然指数，r_k为第k个工作节点的回报，n为工作节点的个数，a_k为第k个工作节点的参数系数。前面所提的两种方法是简单的确定参数系数的方法，也可以根据其他方式来计算参数系数。

步骤(5)具体为：

P＝p₁*a₁+p₂*a₂+…+p_n*a_n

T＝t₁*a₁+t₂*a₂+…+t_n*a_n

1＝a₁+a₂+…+a_n

a₁到a_n为N个工作节点对应的参数系数，p₁到p_n为N个工作节点发送的当前网络参数，t₁到t_n为N个工作节点发送的目标网络参数，P为更新过后的当前网络参数，T为更新过后的目标网络参数。参数服务器将更新过后的当前网络参数P和目标网络参数T同步地发送给所有的工作节点。工作节点收到当前网络和目标网络参数后在用新的神经网络参数继续与环境进行交互。

Claims

1.一种基于融合神经网络参数的分布式深度强化学习方法，其特征在于，包含以下步骤：

(1)在每个工作节点上部署深度强化学习代理，并且初始化当前网络参数、目标网络参数和环境起始状态；代理与环境进行交互，然后更新当前网络参数和目标网络参数；

(2)每隔一定时间，所有工作节点将各自的当前网络参数、目标网络参数和当前得到的平均回报发向参数服务器，等待参数服务器发回最新的当前网络参数和目标网络参数；平均回报为所有回合得到的总奖励值除以总回合数；

(3)参数服务器接收所有工作节点发送过来的当前网络参数、目标网络参数和平均回报，参数服务器可以根据每个工作节点的平均回报占所有平均回报总和的比例来确定参数系数；参数系数的具体计算方法为：

e为自然指数，r_k为第k个工作节点的回报，n为工作节点的个数，a_k为计算得到的第k个工作节点的参数系数；

(4)参数服务器根据每个工作节点对应的参数系数计算新的当前网络参数和目标网络参数，然后将新的当前网络参数和目标网络参数发给所有的工作节点；新的当前网络参数和目标网络参数的具体计算方法为：

P＝p₁*a₁+p₂*a₂+…+p_n*a_n

T＝t₁*a₁+t₂*a₂+…+t_n*a_n

1＝a₁+a₂+…+a_n

a₁到a_n为n个工作节点对应的参数系数，p₁到p_n为n个工作节点发送的当前网络参数，t₁到t_n为n个工作节点发送的目标网络参数，P为更新过后的当前网络参数，T为更新过后的目标网络参数；

(5)所有工作节点接收参数服务器发送过来的新的当前网络参数和目标网络参数，然后用这个新的当前网络参数和目标网络参数开始学习。