CN109242099B

CN109242099B - 强化学习网络的训练方法、装置、训练设备及存储介质

Info

Publication number: CN109242099B
Application number: CN201810892642.5A
Authority: CN
Inventors: 王峥; 梁明兰
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2020-11-10
Anticipated expiration: 2038-08-07
Also published as: CN109242099A

Abstract

本发明适用机器学习领域，提供了一种强化学习网络的训练方法、装置、训练设备及存储介质，该方法包括：当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以进行权重配置，获取强化学习网络的当前状态，以及当前状态的奖励值和贡献值，通过遍历动作库的动作组合，获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，通过得到下一状态的最大Q值，获取当前状态的目标Q值，生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对强化学习网络进行训练，直到损失函数收敛，从而降低了训练强化学习网络的计算量，进而加快了强化学习网络的训练速度、提高了训练效率。

Description

强化学习网络的训练方法、装置、训练设备及存储介质

技术领域

本发明属于机器学习领域，尤其涉及一种强化学习网络的训练方法、装置、训练设备及存储介质。

背景技术

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，是智能体(Agent)从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境在智能控制机器人及分析预测等领域有许多应用。

近年来，强化学习广泛应用于机器人控制领域、计算机视觉领域、自然语言处理、博弈论领域、自动驾驶。训练强化学习网络过程通常在CPU与GPU设备上实现，其计算量相当大，在实际应用过程中，存在着占用资源多、运算速度慢、效率低等问题，并且因内存访问带宽的限制导致计算能力无法进一步提升。

发明内容

本发明的目的在于提供一种强化学习网络的训练方法、装置、训练设备以及存储介质，旨在解决由于现有技术无法提供一种有效的强化学习网络的训练方法，导致训练计算量大、效率低的问题。

一方面，本发明提供了一种强化学习网络的训练方法，所述方法包括下述步骤：

当接收到训练强化学习网络的请求时，设置所述强化学习网络的网络参数，以对所述强化学习网络进行权重配置；

获取所述强化学习网络的当前状态，在预先构建的状态奖励库中对所述当前状态进行匹配，获取所述当前状态的奖励值和贡献值；

在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；

根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行，以使所述强化学习网络进入下一状态，获取所述下一状态的最大Q值，并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式，获取所述当前状态的目标Q值；

根据所述当前状态的目标Q值生成所述强化学习网络的损失函数，通过预设调整算法调整所述强化学习网络的网络参数，以继续对所述强化学习网络进行训练，直到所述损失函数收敛。

另一方面，本发明提供了一种强化学习网络的训练装置，所述装置包括：

参数设置单元，用于当接收到训练强化学习网络的请求时，设置所述强化学习网络的网络参数，以对所述强化学习网络进行权重配置；

匹配获取单元，用于获取所述强化学习网络的当前状态，在预先构建的状态奖励库中对所述当前状态进行匹配，获取所述当前状态的奖励值和贡献值；

遍历获取单元，用于在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；

执行获取单元，用于根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行，以使所述强化学习网络进入下一状态，获取所述下一状态的最大Q值，并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式，获取所述当前状态的目标Q值；以及

生成调整单元，用于根据所述强化学习网络的目标Q值生成所述强化学习网络的损失函数，通过预设调整算法调整所述强化学习网络的网络参数，以继续对所述强化学习网络进行训练，直到所述损失函数收敛。

另一方面，本发明还提供了一种强化学习网络训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述强化学习网络的训练方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述强化学习网络的训练方法的步骤。

本发明当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以进行权重配置，获取强化学习网络的当前状态，以及当前状态的奖励值和贡献值，通过遍历动作库的动作组合，获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，通过得到下一状态的最大Q值，获取当前状态的目标Q值，生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对强化学习网络进行训练，直到损失函数收敛，从而降低了训练强化学习网络的计算量，进而加快了强化学习网络的训练速度、提高了训练效率。

附图说明

图1是本发明实施例一提供的强化学习网络的训练方法的实现流程图；

图2是本发明实施例一提供的状态奖励库的优选存储结构示意图；

图3是本发明实施例一提供的动作库的优选存储结构示意图；

图4是本发明实施例二提供的强化学习网络的训练装置的结构示意图；

图5是本发明实施例三提供的强化学习网络的训练装置的结构示意图；

图6是本发明实施例四提供的一种强化学习网络训练设备的结构示意图；以及

图7是本发明实施例四提供的一种强化学习网络训练设备的优选结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的强化学习网络的训练方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以对强化学习网络进行权重配置。

本发明实施例适用于强化学习网络训练设备，例如，MATLAB(Matrix Laboratory，矩阵实验室)等训练设备。在本发明实施例中，当接收到训练强化学习网络的请求时，设置学习网络的网络参数，以对学习网络进行权重配置，具体地，先写入网络参数，当进行网络运算时，根据写入的网络参数启动强化学习网络相应神经元的计算模式，通过这种方式来配置每层网络的每个神经元的参数，从而实现数据并行处理，进而提高了数据处理效率。

在步骤S102中，获取强化学习网络的当前状态，在预先构建的状态奖励库中对当前状态进行匹配，获取当前状态的奖励值和贡献值。

在本发明实施例中，状态奖励库为预先构建的存储了状态节点和对应奖励值的集合，在接收到训练请求之后，获取强化学习网络的当前状态，并提取当前状态的特征数据，通过该当前状态的特征数据计算得到当前状态的贡献值，然后，在状态奖励库中对当前状态进行匹配，得到当前状态的奖励值。

作为示例地，如图2所示，图中示出了状态奖励库的优选存储结构，状态奖励库分为n个奖励组，分别对应n个特殊状态的奖励值，数据的开头存储了奖励值组数n，数据库的结尾存储了一般状态的奖励值，即第(n+1)个奖励值，每一个奖励组都包括不同的状态节点，即不同状态值，不同的状态节点对应着不同范围的状态值。

优选地，在预先构建的状态奖励库中对当前状态进行匹配时，将当前状态与状态奖励库中的预设数量个奖励组对应的所有状态节点进行匹配，当当前状态位于预设数量个奖励组中预设状态节点中时，将预设状态奖励组的奖励值设置为当前状态的奖励值，否则将当前状态的奖励值设置为预设一般状态奖励值，从而快速获取当前状态的即时奖励。具体地，由于当前状态只能位于一个状态节点中，或者，当前状态位于所有状态节点外，因此，在匹配状态节点时，可采用逐一匹配状态节点的方法进行匹配，当当前状态位于预设状态节点中时，停止匹配其他的状态节点，并将预设状态节点对应的奖励值设置为当前状态的奖励值，当逐一匹配所有状态节点后，都没有匹配成功，则将一般状态奖励值设置为当前状态的奖励值。

在步骤S103中，在预先构建的动作库中遍历动作库的动作组合，获取动作组合的贡献值，并根据当前状态的贡献值和动作组合的贡献值，获取强化学习网络的当前状态的最大Q值。

在本发明实施例中，动作库为预先构建的存储了学习网络可输出的所有动作的集合，Q值为强化学习网络中状态映射到动作值的表征，遍历动作库的所有动作组合，获取每个动作组合(实时动作)的贡献值，在遍历动作库的动作组合时，每得到一个动作组合，将通过当前状态的贡献值和动作组合的贡献值计算每一个动作组合的Q值，从而可获得强化学习网络的当前状态的最大Q值。

作为示例地，如图3所示，图中示出了动作库的优选存储结构，动作库分为动作内存模块和实时动作内存模块，动作内存模块用于存储所有动作的信息，具体有动作维数n、每个动作维数的步长值、最大值和起始值，实时动作内存模块用于存储即将输出的动作信息，具体为n维动作中每个动作的动作值，作为示例地，在自动驾驶的强化学习网络中，动作有左转(第一维)、右转(第二维)、刹车(第三维)等，对应的动作值为(1,a)、(2,b)、(3,c)其中，1、2、3分别代表动作的维度(例如，第一维、第二维和第三维)，a、b、c分别为第一、二、三维动作对应的度量值。

优选地，在预先构建的动作库中遍历动作库的动作组合时，将动作库中预设动作列表上的预设数量维动作的起始值，依次设置为动作库中预设实时动作表上的预设数量个实时动作值，获取预设动作列表上的预设第一维动作的步长值，并将预设第一维动作的步长值逐次累加到预设第一维动作对应的实时动作值，当对应的实时动作值逐次累加到预设第一维动作对应的范围之外时，获取预设动作列表上的预设第二维动作的步长值，并将预设第二维动作的步长值逐次累加到预设第二维动作对应的实时动作值，从而快速、准确地计算出每个实时动作对该学习网络的贡献值。其中，预设第一维动作和预设第二维动作都为预设数量维动作中的一维动作。

在步骤S104中，根据当前状态的最大Q值获取强化学习网络的当前动作并执行，以得到强化学习网络的下一状态，获取下一状态的最大Q值，并通过下一状态的最大Q值、当前状态的奖励值和预设目标值公式，获取当前状态的目标Q值。

在本发明实施例中，当前动作为当前状态时，强化学习网络需要执行的动作，预设目标值公式具体为Target_Q(s,a；θ)＝r(s)+γmaxQ(s',a'；θ)，其中，Target_Q(s,a；θ)为当前状态的目标Q值，s为当前状态，a为当前动作，r(s)为当前状态的奖励值，γ为折扣因子，θ为网络参数，maxQ(s',a'；θ)为下一状态的最大Q值。具体地，按照贪婪策略，根据当前状态的最大Q值获取强化学习网络的当前动作并执行，进入下一状态，此时，重复步骤S102和步骤S103的方法，得到下一状态的最大Q值，再通过预设目标值公式得到当前状态的目标Q值。

优选地，在获取当前状态的目标Q值之后，将当前状态、当前动作、当前状态的奖励值和下一状态作为训练样本进行存储，从而加快了后续的收敛过程。

优选地，强化学习网络训练设备包含2个处理器，其中一个芯片为AI芯片，该AI芯片的架构介于ASIC(Application Specific Integrated Circuit，专用集成电路)和FPGA(Field－Programmable Gate Array，现场可编程逻辑门阵列)之间，用于处理强化学习网络训练过程中根据当前状态决策、响应当前动作的部分过程，从而通过提高内存的访问带宽提高强化学习网络的训练速度。

在步骤S105中，根据当前状态的目标Q值生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对学习网络进行训练，直到损失函数收敛。

在本发明实施例中，得到当前状态的目标Q值后，生成强化学习网络的损失函数，具体的，该损失函数为L(θ)＝E[(Target_Q(s,a；θ)-Q(s,a；θ))²]，其中，Target_Q(s,a；θ)为当前状态的目标Q值，E为均方差，Q(s,a；θ)为实时Q值，s为当前状态，a为当前动作，θ为网络参数，然后通过预设调整算法对神经网络参数进行调整，以继续对学习网络进行训练，直到损失函数收敛，从而最终完成强化学习网络的训练。具体地，预设调整算法为SGD(stochastic gradient descent，随机梯度下降)算法。

在本发明实施例中，当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以进行权重配置，获取强化学习网络的当前状态，以及当前状态的奖励值和贡献值，通过遍历动作库的动作组合，获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，通过得到下一状态的最大Q值，获取当前状态的目标Q值，生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对强化学习网络进行训练，直到损失函数收敛，从而降低了训练强化学习网络的计算量，进而加快了强化学习网络的训练速度、提高了训练效率。

实施例二：

图4示出了本发明实施例二提供的强化学习网络的训练装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

参数设置单元41，用于当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以对强化学习网络进行权重配置；

匹配获取单元42，用于获取强化学习网络的当前状态，在预先构建的状态奖励库中对当前状态进行匹配，获取当前状态的奖励值和贡献值；

遍历获取单元43，用于在预先构建的动作库中遍历动作库的动作组合，获取动作组合的贡献值，并根据当前状态的贡献值和动作组合的贡献值，获取强化学习网络的当前状态的最大Q值；

执行获取单元44，用于根据当前状态的最大Q值获取强化学习网络的当前动作并执行，以得到强化学习网络的下一状态，获取下一状态的最大Q值，并通过下一状态的最大Q值、当前状态的奖励值和预设目标值公式，获取当前状态的目标Q值；以及

生成调整单元45，用于根据当前状态的目标Q值生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对学习网络进行训练，直到损失函数收敛。

在本发明实施例中，强化学习网络的训练装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施例一的描述，在此不再赘述。

实施例三：

图5示出了本发明实施例三提供的强化学习网络的训练装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

参数设置单元51，用于当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以对强化学习网络进行权重配置；

匹配获取单元52，用于获取强化学习网络的当前状态，在预先构建的状态奖励库中对当前状态进行匹配，获取当前状态的奖励值和贡献值；

遍历获取单元53，用于在预先构建的动作库中遍历动作库的动作组合，获取动作组合的贡献值，并根据当前状态的贡献值和动作组合的贡献值，获取强化学习网络的当前状态的最大Q值；

执行获取单元54，用于根据当前状态的最大Q值获取强化学习网络的当前动作并执行，以得到强化学习网络的下一状态，获取下一状态的最大Q值，并通过下一状态的最大Q值、当前状态的奖励值和预设目标值公式，获取当前状态的目标Q值；

经验存储单元55，用于将当前状态、当前动作、当前状态的奖励值和下一状态作为训练样本进行存储；以及

生成调整单元56，用于根据当前状态的目标Q值生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对学习网络进行训练，直到损失函数收敛。

其中，匹配获取单元52包括：

匹配子单元521，用于将当前状态与状态奖励库中的预设数量个奖励组对应的所有状态节点进行匹配；以及

状态值设置单元522，用于当当前状态位于预设数量个奖励组中预设状态节点中时，将预设状态奖励组的奖励值设置为当前状态的奖励值，否则将当前状态的奖励值设置为预设一般状态奖励值。

遍历获取单元53包括：

起始值设置单元531，用于将动作库中预设动作列表上的预设数量维动作的起始值，依次设置为动作库中预设实时动作表上的预设数量个实时动作值；

第一累加单元532，用于获取预设动作列表上的预设第一维动作的步长值，并将预设第一维动作的步长值逐次累加到预设第一维动作对应的实时动作值；以及

第二累加单元533，用于当对应的实时动作值逐次累加到预设第一维动作对应的范围之外时，获取预设动作列表上的预设第二维动作的步长值，并将预设第二维动作的步长值逐次累加到预设第二维动作对应的实时动作值。

实施例四：

图6示出了本发明实施例四提供的强化学习网络训练设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

本发明实施例的强化学习网络训练设备6包括处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63。该处理器51执行计算机程序63时实现上述强化学习网络的训练方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，处理器61执行计算机程序63时实现上述各个强化学习网络的训练装置实施例中各单元的功能，例如图4所示单元41至45以及图5所示单元51至56的功能。

如图7所示，强化学习网络训练设备的优选结构示意图。优选地，强化学习网络训练设备7包括第一处理器711、第二处理器712,、第一存储器721、第二存储器722、以及存储在存储器第一存储器721和第二存储器722中的计算机程序73，计算机计算程序73可在第一处理器711和第二处理器712上运行。具体地，第一处理器711为ASIC(专用集成电路)芯片，从而提高了该学习网络的效率，并降低功率消耗。第一处理器711执行计算机程序73时实现上述强化学习网络的训练方法实施例中的步骤，例如图1所示的步骤S101至S103，第二处理器712执行计算机程序73时实现上述强化学习网络的训练方法实施例中的步骤，例如图1所示的步骤S104至S105。或者，第一处理器711执行计算机程序73时实现上述各个强化学习网络的训练装置实施例中各单元的功能，例如图4所示单元41至43以及图5所示单元51至53的功能，第二处理器712执行计算机程序73时实现上述各个强化学习网络的训练装置实施例中各单元的功能，例如图4所示单元44至45以及图5所示单元54至56的功能。

在本发明实施例中，该处理器执行计算机程序时，当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以进行权重配置，获取强化学习网络的当前状态，以及当前状态的奖励值和贡献值，通过遍历动作库的动作组合，获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，通过得到下一状态的最大Q值，获取当前状态的目标Q值，生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对强化学习网络进行训练，直到损失函数收敛，从而降低了训练强化学习网络的计算量，进而加快了强化学习网络的训练速度、提高了训练效率。

该处理器执行计算机程序时实现上述强化学习网络的训练方法实施例中的步骤可参考实施例一的描述，在此不再赘述。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述强化学习网络的训练方法实施例中的步骤，例如，图1所示的步骤S101至S105。或者，该计算机程序被处理器执行时实现上述各个强化学习网络的训练装置实施例中各单元的功能，例如图4所示单元41至45以及图5所示单元51至56的功能。

在本发明实施例中，在计算机程序被处理器执行后，当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以进行权重配置，获取强化学习网络的当前状态，以及当前状态的奖励值和贡献值，通过遍历动作库的动作组合，获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，通过得到下一状态的最大Q值，获取当前状态的目标Q值，生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对强化学习网络进行训练，直到损失函数收敛，从而降低了训练强化学习网络的计算量，进而加快了强化学习网络的训练速度、提高了训练效率。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、存储介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种强化学习网络的训练方法，其特征在于，所述方法包括下述步骤：

在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；其中，所述动作库分为动作内存模块和实时动作内存模块，动作内存模块用于存储所有动作的信息，具体有动作维数n、每个动作维数的步长值、最大值和起始值，实时动作内存模块用于存储即将输出的动作信息，具体为n维动作中每个动作的动作值；

根据所述当前状态的目标Q值生成所述强化学习网络的损失函数，通过预设调整算法调整所述网络参数，以继续对所述强化学习网络进行训练，直到所述损失函数收敛。

2.如权利要求1所述的方法，其特征在于，在预先构建的状态奖励库中对强化学习网络的当前状态进行匹配的步骤，包括：

将所述当前状态与所述状态奖励库中的预设数量个奖励组对应的所有状态节点进行匹配；

当所述当前状态位于所述预设数量个奖励组中预设状态节点中时，将所述预设状态奖励组的奖励值设置为所述当前状态的奖励值，否则将所述当前状态的奖励值设置为预设一般状态奖励值。

3.如权利要求1所述的方法，其特征在于，在预先构建的动作库中遍历所述动作库的动作组合的步骤，包括：

将所述动作库中预设动作列表上的预设数量维动作的起始值，依次设置为所述动作库中预设实时动作表上的预设数量个实时动作值；

获取所述预设动作列表上的预设第一维动作的步长值，并将所述预设第一维动作的步长值逐次累加到所述预设第一维动作对应的所述实时动作值；

当所述对应的所述实时动作值逐次累加到所述预设第一维动作对应的范围之外时，获取所述预设动作列表上的预设第二维动作的步长值，并将所述预设第二维动作的步长值逐次累加到所述预设第二维动作对应的所述实时动作值。

4.如权利要求1所述的方法，其特征在于，获取所述当前状态的目标Q值的步骤之后，所述方法还包括：

将所述当前状态、所述当前动作、所述当前状态的奖励值和所述下一状态作为训练样本进行存储。

5.一种强化学习网络的训练装置，其特征在于，所述装置包括：

遍历获取单元，用于在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；其中，所述动作库分为动作内存模块和实时动作内存模块，动作内存模块用于存储所有动作的信息，具体有动作维数n、每个动作维数的步长值、最大值和起始值，实时动作内存模块用于存储即将输出的动作信息，具体为n维动作中每个动作的动作值；

6.如权利要求5所述的装置，其特征在于，所述匹配获取单元包括：

匹配子单元，用于将所述当前状态与所述状态奖励库中的预设数量个奖励组对应的所有状态节点进行匹配；以及

状态值设置单元，用于当所述当前状态位于所述预设数量个奖励组中预设状态节点中时，将所述预设状态奖励组的奖励值设置为所述当前状态的奖励值，否则将所述当前状态的奖励值设置为预设一般状态奖励值。

7.如权利要求5所述的装置，其特征在于，所述遍历获取单元包括：

起始值设置单元，用于将所述动作库中预设动作列表上的预设数量维动作的起始值，依次设置为所述动作库中预设实时动作表上的预设数量个实时动作值；

第一累加单元，用于获取所述预设动作列表上的预设第一维动作的步长值，并将所述预设第一维动作的步长值逐次累加到所述预设第一维动作对应的所述实时动作值；以及

第二累加单元，用于当所述对应的所述实时动作值逐次累加到所述预设第一维动作对应的范围之外时，获取所述预设动作列表上的预设第二维动作的步长值，并将所述预设第二维动作的步长值逐次累加到所述预设第二维动作对应的所述实时动作值。

8.如权利要求5所述的装置，其特征在于，所述装置还包括：

经验存储单元，用于将所述当前状态、所述当前动作、所述当前状态的奖励值和所述下一状态作为训练样本进行存储。

9.一种强化学习网络训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4项所述方法的步骤。