CN111582439B

CN111582439B - 状态部分可观测强化学习算法的高效采样更新方法及装置

Info

Publication number: CN111582439B
Application number: CN202010291366.4A
Authority: CN
Inventors: 薛晨; 杨君; 许函; 陈章; 梁斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2021-08-10
Anticipated expiration: 2040-04-14
Also published as: CN111582439A

Abstract

本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置，其中，方法包括：采集智能体与环境交互生成的交互数据，并将交互数据添加至样本池中；从样本池中随机选取多条样本片段，生成训练样本数据；根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法，可以极大缩短算法训练时间、提高算法表现，不但提高更新效率，而且有效保证更新的准确性，提升算法的使用体验。

Description

状态部分可观测强化学习算法的高效采样更新方法及装置

技术领域

本发明涉及强化学习技术领域，特别涉及一种状态部分可观测强化学习算法的高效采样更新方法及装置。

背景技术

在强化学习中，智能体与环境进行交互的过程可概括为一个马氏决策过程，在每一个离散时刻，智能体观测到环境的状态，并根据学得的策略以及此观测值选择其做出的动作。然而，现实世界中的任务常常由于传感器的限制，无法获取完全信息而导致只能观测到部分状态信息，即智能体无法直接感知到环境的完整状态信息，只能得到部分状态的观测值。

相关技术中，将深度强化学习算法与长短时记忆网络(Long Short-Term Memory，LSTM)相结合，即将智能体与环境交互的历史信息进行整合，作为当前的记忆，智能体根据此记忆选择动作。由于记忆信息与状态信息相比具有强烈的时序相关性，传统基于状态信息的采样更新方式在状态部分可观强化学习算法中不再适用，不但更新效率低，且无法保证更新的准确性，体验较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种状态部分可观测强化学习算法的高效采样更新方法，该方法可以提高更新效率，且有效保证更新的准确性，提升算法的使用体验。

本发明的另一个目的在于提出一种状态部分可观测强化学习算法的高效采样更新装置。

为达到上述目的，本发明一方面实施例提出了一种状态部分可观测强化学习算法的高效采样更新方法，包括以下步骤：采集智能体与环境交互生成的交互数据，并将所述交互数据添加至样本池中；从所述样本池中随机选取多条样本片段，生成训练样本数据；根据所述训练样本数据对更新长短时记忆网络的网络参数。

本发明实施例的状态部分可观测强化学习算法的高效采样更新方法，解决目前存在的采样更新方式存在效率低下，使得算法学习速率大幅降低的问题，可以极大缩短算法训练时间、提高算法表现，不但提高更新效率，而且有效保证更新的准确性，提升算法的使用体验。

另外，根据本发明上述实施例的状态部分可观测强化学习算法的高效采样更新方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集智能体与环境交互生成的交互数据，并将所述交互数据添加至样本池中，包括：根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络计算当前时刻记忆值；通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作；通过所述智能体与所述环境交互做出所述动作，且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值；将本时步交互过程中产生的所述交互数据添加至所述样本池中。

进一步地，在本发明的一个实施例中，所述从所述样本池中随机选取多条样本片段，生成训练样本数据，包括：获取所述样本池中样本的数量，并随机选取n个片段首时步的索引；根据每条片段首时步的索引，在所述样本池中取出对应样本片段，添加至训练样本中。

进一步地，在本发明的一个实施例中，所述根据所述训练样本数据对更新长短时记忆网络的网络参数，包括：更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果；根据所述前向传播结果计算损失函数，并进行梯度的反向传播；根据梯度以及学习率的大小对所述网络参数进行更新。

进一步地，在本发明的一个实施例中，所述更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果，包括：将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值；根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算当前时刻记忆，并将更新的记忆值传输给后续神经网络；判断交互过程是否终止，其中，若终止，则将记忆值置为0，否则所述记忆值保持不变，并将所述记忆值传输给下一时刻。

为达到上述目的，本发明另一方面实施例提出了一种状态部分可观测强化学习算法的高效采样更新装置，包括：添加模块，用于采集智能体与环境交互生成的交互数据，并将所述交互数据添加至样本池中；获取模块，用于从所述样本池中随机选取多条样本片段，生成训练样本数据；更新模块，用于根据所述训练样本数据对更新长短时记忆网络的网络参数。

本发明实施例的状态部分可观测强化学习算法的高效采样更新装置，解决目前存在的采样更新方式存在效率低下，使得算法学习速率大幅降低的问题，可以极大缩短算法训练时间、提高算法表现，不但提高更新效率，而且有效保证更新的准确性，提升算法的使用体验。

另外，根据本发明上述实施例的状态部分可观测强化学习算法的高效采样更新装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述添加模块包括：第一计算单元，用于根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络计算当前时刻记忆值；第二计算单元，用于通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作；判断单元，用于通过所述智能体与所述环境交互做出所述动作，且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值；第一添加单元，用于将本时步交互过程中产生的所述交互数据添加至所述样本池中。

进一步地，在本发明的一个实施例中，所述获取模块包括：获取单元，用于获取所述样本池中样本的数量，并随机选取n个片段首时步的索引；第二添加单元，用于根据每条片段首时步的索引，在所述样本池中取出对应样本片段，添加至训练样本中。

进一步地，在本发明的一个实施例中，所述更新模块包括：第一更新单元，用于更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果；第三计算单元，用于根据所述前向传播结果计算损失函数，并进行梯度的反向传播；第二更新单元，用于根据梯度以及学习率的大小对所述网络参数进行更新。

进一步地，在本发明的一个实施例中，所述第一更新单元具体用于将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值，并且根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算当前时刻记忆，并将更新的记忆值传输给后续神经网络，以及判断交互过程是否终止，其中，若终止，则将记忆值置为0，否则所述记忆值保持不变，并将所述记忆值传输给下一时刻。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的状态部分可观测强化学习算法的高效采样更新方法的流程图；

图2为根据本发明一个实施例的智能体与环境交互和智能体内部神经网络结构的示意图；

图3为根据本发明一个实施例的长短时记忆网络按时间步展开示意图；

图4为根据本发明一个实施例的样本存储方式的示意图；

图5为根据本发明一个具体实施例的状态部分可观测强化学习算法的高效采样更新方法的流程图；

图6为根据本发明实施例的状态部分可观测强化学习算法的高效采样更新装置的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新方法及装置，首先将参照附图描述根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新方法。

图1是本发明实施例的状态部分可观测强化学习算法的高效采样更新方法的流程图。

如图1所示，该状态部分可观测强化学习算法的高效采样更新方法包括以下步骤：

在步骤S101中，采集智能体与环境交互生成的交互数据，并将交互数据添加至样本池中。

可以理解的是，在添加数据环节，智能体与环境进行交互，并将交互得到的数据添加到样本池中，从而实现将智能体与环境交互的历史信息编码成记忆值的功能。

进一步地，在本发明的一个实施例中，采集智能体与环境交互生成的交互数据，并将交互数据添加至样本池中，包括：根据智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络计算当前时刻记忆值；通过智能体全连接网络根据当前时刻记忆值计算当前时刻选择的动作；通过智能体与环境交互做出动作，且环境根据智能体动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值；将本时步交互过程中产生的交互数据添加至样本池中。

具体地，在添加数据环节，智能体根据当前网络学得的策略与环境进行交互，并将得到的交互数据添加至样本池中。

结合图2和如图3所示，图2(a)为智能体与环境交互图，图2(b)为智能体内部神经网络结构图，图3中以片段长度l＝4为例，在每一时刻t，智能体接收到环境状态的部分观测值o_t，并将该观测值o_t与智能体上一时刻的动作a_t-1、上一时刻的记忆值h_t-1一起，输入到长短时记忆网络中，计算出当前时刻的记忆值h_t。接下来将当前时刻的记忆h_t输入到后续的全连接(Multi-Layer Perceptron，MLP)网络中，得到智能体在当前时刻选择做出的动作a_t。之后环境根据智能体做出的动作给出当前时刻的奖励值r_t，并给出下一时刻状态的部分观测值o_t+1以及任务是否终止的判断标签done_t。

如图4所示，智能体与环境每完成一个时间步(step)的交互，都将交互数据(o_t,a_t,r_t,o_t+1,done_t,h_t)添加至样本池中，记为d_i。其中，样本池中数据不需按不同交互过程分开存储，将所有交互数据按顺序存放即可，即可以直接将下一次交互过程的数据添加至上次交互过程的末尾。因而样本池可选用数组与矩阵等更高效的数据结构，其第一维即为每个独立的step。

在步骤S102中，从样本池中随机选取多条样本片段，生成训练样本数据。

可以理解的是，在获取样本环节，随机在样本池中选取样本片段，从而实现对带记忆样本数据的高效存储与采样的功能。

进一步地，在本发明的一个实施例中，从样本池中随机选取多条样本片段，生成训练样本数据，包括：获取样本池中样本的数量，并随机地选取n个片段首时步的索引；根据每条片段首时步的索引，在样本池中取出对应样本片段，添加至训练样本中。

具体地，在获取样本环节，从样本池中随机选取n条固定长度的样本片段作为神经网络的训练数据。

获取当前样本池中样本step的总量M，从[0,M-l]中随机不重复地选取n个数作为采样片段首个时间步的索引。对于每个采样片段首时间步索引i，将该位置及其之后长度为l的数据(d_i,d_i+1,…d_i+l-1)取出作为一条样本片段。

在步骤S103中，根据训练样本数据对更新长短时记忆网络的网络参数。

可以理解的是，在更新网络环节，利用样本片段数据计算出的梯度对网络参数进行更新。

进一步地，在本发明的一个实施例中，根据训练样本数据对更新长短时记忆网络的网络参数，包括：更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果；根据前向传播结果计算损失函数，并进行梯度的反向传播；根据梯度以及学习率的大小对网络参数进行更新。

其中，在本发明的一个实施例中，更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果，包括：将每片段首时步的上一时刻记忆值初始化为样本池中存储值；根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算当前时刻记忆，并将更新的记忆值传输给后续神经网络；判断交互过程是否终止，其中，若终止，则将记忆值置为0，否则记忆值保持不变，并将记忆值传输给下一时刻。

具体地，在更新网络环节，利用样本数据计算出的梯度对神经网络的参数进行更新。

对于每个样本片段，样本池中存储的记忆值为智能体与环境进行交互时的网络参数计算出来的。而随着训练的进行，网络一直在迭代更新，智能体与环境进行交互的时刻下旧网络计算出来的记忆值将与进行采样更新的时刻下新网络计算出来的记忆值有一定的区别。为尽量减小这种偏差的影响，我们只将每个片段首时步的上一时刻记忆值h_t-1初始化为其存储值，其后每个时步的h_t-1均由上一时刻根据当前最新的网络参数重新计算得到。

在每一时步结束前对本次交互过程是否终止作一次判断，若终止，则其后下一步的数据即为新一次交互过程的初始时刻，将其上一时刻记忆值h_t-1重新置为0。

最后根据样本数据计算出损失函数，并进行梯度反向传播，从而对网络参数进行更新。

下面以一个具体实施例对本发明实施例的方法的工作原理进行具体赘述。

如图5所示，本发明实施例的方法包括：

步骤1：智能体与环境进行交互获取数据并将其添加至样本池中。

步骤101：智能体接收环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络根据上述三类信息计算出当前时刻记忆值。

步骤102：智能体全连接网络根据当前时刻记忆值计算出当前时刻选择的动作。

步骤103：智能体与环境交互做出动作，环境根据智能体动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值。

步骤104：将本时步交互过程中产生的数据添加至样本池中。

步骤2：从样本池中随机选取n条样本片段作为训练样本数据。

步骤201：获取当前样本池中样本的数量，随机选取n个片段首时步的索引。

步骤202：根据每条片段首时步的索引，在样本池中取出该样本片段并添加至训练样本中。

步骤3：根据训练样本数据对网络参数进行更新。

步骤301：更新每一条片段数据的记忆值，进行神经网络的前向传播。

步骤3001：将每一片段首时步的上一时刻记忆值初始化为样本池中存储值。

步骤3002：根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算出当前时刻记忆，并将该更新的记忆值传输给后续神经网络。

步骤3003：判断交互过程是否终止(若终止，则将记忆值置为0；若未终止，则记忆值保持不变)，并将此记忆值传输给下一时刻。

步骤302：根据前向传播得到的结果计算出损失函数，并进行梯度的反向传播。

步骤303：根据梯度以及学习率的大小对网络参数进行更新。

综上，在本发明的实施例中，首先，传统强化学习算法假设获取到的观测值即为完整状态信息，而现实世界中的任务由于传感器的限制以及噪声的存在，状态信息往往是不完全可观的，因而引入长短时记忆网络并对记忆数据的采样更新方式进行改进将极大提高强化学习算法在现实任务中的表现。其次，在将采样数据按顺序依次输入循环神经网络时，采用随机选取样本片段的方式替代原始选取整个交互过程的方式，使得样本数据的时序相关性大大降低。并且，将样本片段首时步的上一时刻记忆设为之前存储的记忆值，使得神经网络能够学得更长远的记忆。最后，在网络更新时引入标签数据判断样本片段中的数据是否来自同一交互过程，而在采样时无需保证片段中的数据均来自同一交互过程，使得样本数据的存储以及采样效率得到明显提高。

另外，本发明实施例无需区分是否属于同一交互过程，将数据直接按顺序拼接的存储方式，且无需区分是否属于同一交互过程，直接从样本池中选取连续存储的一段数据的采样方式，并且更新网络环节中，根据交互过程是否终止传输给下一时刻不同的记忆值，以及更新网络环节中，样本片段首时步的上一时刻记忆值初始化为样本池中存储的记忆值。

根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新方法，通过随机采样数据片段并将首个时间步的上一时刻记忆初始化为之前存储的记忆值，大大降低样本数据的时序相关性且使得网络依然能学得较长时间的记忆。通过添加交互结束的标签数据，同一采样片段中的数据不再必须属于同一交互过程，从而使得样本数据存储以及采样的两个过程的效率都得到明显提高，解决目前存在的采样更新方式存在效率低下，使得算法学习速率大幅降低的问题，可以极大缩短算法训练时间、提高算法表现，不但提高更新效率，而且有效保证更新的准确性，提升算法的使用体验。

其次参照附图描述根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新装置。

如图6所示，该状态部分可观测强化学习算法的高效采样更新装置10包括：添加模块100、获取模块200和更新模块300。

具体地，添加模块100，用于采集智能体与环境交互生成的交互数据，并将交互数据添加至样本池中。

获取模块200，用于从样本池中随机选取多条样本片段，生成训练样本数据。

更新模块300，用于根据训练样本数据对更新长短时记忆网络的网络参数。

进一步地，在本发明的一个实施例中，添加模块100包括：第一计算单元、第二计算单元、判断单元和第一添加单元。

其中，第一计算单元，用于根据智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络计算当前时刻记忆值。

第二计算单元，用于通过智能体全连接网络根据当前时刻记忆值计算当前时刻选择的动作。

判断单元，用于通过智能体与环境交互做出动作，且环境根据智能体动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值。

第一添加单元，用于将本时步交互过程中产生的交互数据添加至样本池中。

进一步地，在本发明的一个实施例中，获取模块200包括：获取单元和第二添加单元。

其中，获取单元，用于获取样本池中样本的数量，并随机选取n个片段首时步的索引。

第二添加单元，用于根据每条片段首时步的索引，在样本池中取出对应样本片段，添加至训练样本中。

进一步地，在本发明的一个实施例中，更新模块300包括：第一更新单元、第三计算单元和第二更新单元。

其中，第一更新单元，用于更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果。

第三计算单元，用于根据前向传播结果计算损失函数，并进行梯度的反向传播。

第二更新单元，用于根据梯度以及学习率的大小对网络参数进行更新。

进一步地，在本发明的一个实施例中，第一更新单元具体用于将每片段首时步的上一时刻记忆值初始化为样本池中存储值，并且根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算当前时刻记忆，并将更新的记忆值传输给后续神经网络，以及判断交互过程是否终止，其中，若终止，则将记忆值置为0，否则记忆值保持不变，并将记忆值传输给下一时刻。

需要说明的是，前述对状态部分可观测强化学习算法的高效采样更新方法实施例的解释说明也适用于该实施例的状态部分可观测强化学习算法的高效采样更新装置，此处不再赘述。

根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新装置，通过随机采样数据片段并将首个时间步的上一时刻记忆初始化为之前存储的记忆值，大大降低样本数据的时序相关性且使得网络依然能学得较长时间的记忆。通过添加交互结束的标签数据，同一采样片段中的数据不再必须属于同一交互过程，从而使得样本数据存储以及采样的两个过程的效率都得到明显提高，解决目前存在的采样更新方式存在效率低下，使得算法学习速率大幅降低的问题，可以极大缩短算法训练时间、提高算法表现，不但提高更新效率，而且有效保证更新的准确性，提升算法的使用体验。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种状态部分可观测强化学习算法的高效采样更新方法，其特征在于，包括以下步骤：

采集智能体与环境交互生成的交互数据，并将所述交互数据添加至样本池中，包括：根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络计算当前时刻记忆值；通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作；通过所述智能体与所述环境交互做出所述动作，且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值；将本时步交互过程中产生的所述交互数据添加至所述样本池中，其中，将所述交互数据按顺序存放存储至所述样本池；

从所述样本池中随机选取多条样本片段，生成训练样本数据；以及

根据所述训练样本数据对更新长短时记忆网络的网络参数，其中，在更新长短时记忆网络的网络参数时，引入标签数据判断样本片段中的数据是否来自同一交互过程。

2.根据权利要求1所述的方法，其特征在于，所述从所述样本池中随机选取多条样本片段，生成训练样本数据，包括：

获取所述样本池中样本的数量，并随机选取n个片段首时步的索引；

根据每条片段首时步的索引，在所述样本池中取出对应样本片段，添加至训练样本中。

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本数据对更新长短时记忆网络的网络参数，包括：

更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果；

根据所述前向传播结果计算损失函数，并进行梯度的反向传播；

根据梯度以及学习率的大小对所述网络参数进行更新。

4.根据权利要求3所述的方法，其特征在于，所述更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果，包括：

将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值；

根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算当前时刻记忆，并将更新的记忆值传输给后续神经网络；

判断交互过程是否终止，其中，若终止，则将记忆值置为0，否则所述记忆值保持不变，并将所述记忆值传输给下一时刻。

5.一种状态部分可观测强化学习算法的高效采样更新装置，其特征在于，包括：

添加模块，用于采集智能体与环境交互生成的交互数据，并将所述交互数据添加至样本池中；

获取模块，用于从所述样本池中随机选取多条样本片段，生成训练样本数据；以及

更新模块，用于根据所述训练样本数据对更新长短时记忆网络的网络参数，所述更新模块具体用于引入标签数据判断样本片段中的数据是否来自同一交互过程；

所述添加模块包括：

第一计算单元，用于根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作，长短时记忆网络计算当前时刻记忆值；

第二计算单元，用于通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作；

判断单元，用于通过所述智能体与所述环境交互做出所述动作，且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值；

第一添加单元，用于将本时步交互过程中产生的所述交互数据添加至所述样本池中，所述第一添加单元具体用于将所述交互数据按顺序存放存储至所述样本池。

6.根据权利要求5所述的装置，其特征在于，所述获取模块包括：

获取单元，用于获取所述样本池中样本的数量，并随机选取n个片段首时步的索引；

第二添加单元，用于根据每条片段首时步的索引，在所述样本池中取出对应样本片段，添加至训练样本中。

7.根据权利要求6所述的装置，其特征在于，所述更新模块包括：

第一更新单元，用于更新每条片段数据的记忆值，并进行神经网络的前向传播，得到前向传播结果；

第三计算单元，用于根据所述前向传播结果计算损失函数，并进行梯度的反向传播；

第二更新单元，用于根据梯度以及学习率的大小对所述网络参数进行更新。

8.根据权利要求7所述的装置，其特征在于，所述第一更新单元具体用于将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值，并且根据上一时刻动作、上一时刻记忆值、当前时刻观测值，由最新长短时记忆网络计算当前时刻记忆，并将更新的记忆值传输给后续神经网络，以及判断交互过程是否终止，其中，若终止，则将记忆值置为0，否则所述记忆值保持不变，并将所述记忆值传输给下一时刻。