CN111582439B - 状态部分可观测强化学习算法的高效采样更新方法及装置 - Google Patents

状态部分可观测强化学习算法的高效采样更新方法及装置 Download PDF

Info

Publication number
CN111582439B
CN111582439B CN202010291366.4A CN202010291366A CN111582439B CN 111582439 B CN111582439 B CN 111582439B CN 202010291366 A CN202010291366 A CN 202010291366A CN 111582439 B CN111582439 B CN 111582439B
Authority
CN
China
Prior art keywords
sample
memory
updating
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010291366.4A
Other languages
English (en)
Other versions
CN111582439A (zh
Inventor
薛晨
杨君
许函
陈章
梁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010291366.4A priority Critical patent/CN111582439B/zh
Publication of CN111582439A publication Critical patent/CN111582439A/zh
Application granted granted Critical
Publication of CN111582439B publication Critical patent/CN111582439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置,其中,方法包括:采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中;从样本池中随机选取多条样本片段,生成训练样本数据;根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。

Description

状态部分可观测强化学习算法的高效采样更新方法及装置
技术领域
本发明涉及强化学习技术领域,特别涉及一种状态部分可观测强化学习算法的高效采样更新方法及装置。
背景技术
在强化学习中,智能体与环境进行交互的过程可概括为一个马氏决策过程,在每一个离散时刻,智能体观测到环境的状态,并根据学得的策略以及此观测值选择其做出的动作。然而,现实世界中的任务常常由于传感器的限制,无法获取完全信息而导致只能观测到部分状态信息,即智能体无法直接感知到环境的完整状态信息,只能得到部分状态的观测值。
相关技术中,将深度强化学习算法与长短时记忆网络(Long Short-Term Memory,LSTM)相结合,即将智能体与环境交互的历史信息进行整合,作为当前的记忆,智能体根据此记忆选择动作。由于记忆信息与状态信息相比具有强烈的时序相关性,传统基于状态信息的采样更新方式在状态部分可观强化学习算法中不再适用,不但更新效率低,且无法保证更新的准确性,体验较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种状态部分可观测强化学习算法的高效采样更新方法,该方法可以提高更新效率,且有效保证更新的准确性,提升算法的使用体验。
本发明的另一个目的在于提出一种状态部分可观测强化学习算法的高效采样更新装置。
为达到上述目的,本发明一方面实施例提出了一种状态部分可观测强化学习算法的高效采样更新方法,包括以下步骤:采集智能体与环境交互生成的交互数据,并将所述交互数据添加至样本池中;从所述样本池中随机选取多条样本片段,生成训练样本数据;根据所述训练样本数据对更新长短时记忆网络的网络参数。
本发明实施例的状态部分可观测强化学习算法的高效采样更新方法,解决目前存在的采样更新方式存在效率低下,使得算法学习速率大幅降低的问题,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。
另外,根据本发明上述实施例的状态部分可观测强化学习算法的高效采样更新方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述采集智能体与环境交互生成的交互数据,并将所述交互数据添加至样本池中,包括:根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络计算当前时刻记忆值;通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作;通过所述智能体与所述环境交互做出所述动作,且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值;将本时步交互过程中产生的所述交互数据添加至所述样本池中。
进一步地,在本发明的一个实施例中,所述从所述样本池中随机选取多条样本片段,生成训练样本数据,包括:获取所述样本池中样本的数量,并随机选取n个片段首时步的索引;根据每条片段首时步的索引,在所述样本池中取出对应样本片段,添加至训练样本中。
进一步地,在本发明的一个实施例中,所述根据所述训练样本数据对更新长短时记忆网络的网络参数,包括:更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果;根据所述前向传播结果计算损失函数,并进行梯度的反向传播;根据梯度以及学习率的大小对所述网络参数进行更新。
进一步地,在本发明的一个实施例中,所述更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果,包括:将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值;根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算当前时刻记忆,并将更新的记忆值传输给后续神经网络;判断交互过程是否终止,其中,若终止,则将记忆值置为0,否则所述记忆值保持不变,并将所述记忆值传输给下一时刻。
为达到上述目的,本发明另一方面实施例提出了一种状态部分可观测强化学习算法的高效采样更新装置,包括:添加模块,用于采集智能体与环境交互生成的交互数据,并将所述交互数据添加至样本池中;获取模块,用于从所述样本池中随机选取多条样本片段,生成训练样本数据;更新模块,用于根据所述训练样本数据对更新长短时记忆网络的网络参数。
本发明实施例的状态部分可观测强化学习算法的高效采样更新装置,解决目前存在的采样更新方式存在效率低下,使得算法学习速率大幅降低的问题,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。
另外,根据本发明上述实施例的状态部分可观测强化学习算法的高效采样更新装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述添加模块包括:第一计算单元,用于根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络计算当前时刻记忆值;第二计算单元,用于通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作;判断单元,用于通过所述智能体与所述环境交互做出所述动作,且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值;第一添加单元,用于将本时步交互过程中产生的所述交互数据添加至所述样本池中。
进一步地,在本发明的一个实施例中,所述获取模块包括:获取单元,用于获取所述样本池中样本的数量,并随机选取n个片段首时步的索引;第二添加单元,用于根据每条片段首时步的索引,在所述样本池中取出对应样本片段,添加至训练样本中。
进一步地,在本发明的一个实施例中,所述更新模块包括:第一更新单元,用于更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果;第三计算单元,用于根据所述前向传播结果计算损失函数,并进行梯度的反向传播;第二更新单元,用于根据梯度以及学习率的大小对所述网络参数进行更新。
进一步地,在本发明的一个实施例中,所述第一更新单元具体用于将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值,并且根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算当前时刻记忆,并将更新的记忆值传输给后续神经网络,以及判断交互过程是否终止,其中,若终止,则将记忆值置为0,否则所述记忆值保持不变,并将所述记忆值传输给下一时刻。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的状态部分可观测强化学习算法的高效采样更新方法的流程图;
图2为根据本发明一个实施例的智能体与环境交互和智能体内部神经网络结构的示意图;
图3为根据本发明一个实施例的长短时记忆网络按时间步展开示意图;
图4为根据本发明一个实施例的样本存储方式的示意图;
图5为根据本发明一个具体实施例的状态部分可观测强化学习算法的高效采样更新方法的流程图;
图6为根据本发明实施例的状态部分可观测强化学习算法的高效采样更新装置的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新方法及装置,首先将参照附图描述根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新方法。
图1是本发明实施例的状态部分可观测强化学习算法的高效采样更新方法的流程图。
如图1所示,该状态部分可观测强化学习算法的高效采样更新方法包括以下步骤:
在步骤S101中,采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中。
可以理解的是,在添加数据环节,智能体与环境进行交互,并将交互得到的数据添加到样本池中,从而实现将智能体与环境交互的历史信息编码成记忆值的功能。
进一步地,在本发明的一个实施例中,采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中,包括:根据智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络计算当前时刻记忆值;通过智能体全连接网络根据当前时刻记忆值计算当前时刻选择的动作;通过智能体与环境交互做出动作,且环境根据智能体动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值;将本时步交互过程中产生的交互数据添加至样本池中。
具体地,在添加数据环节,智能体根据当前网络学得的策略与环境进行交互,并将得到的交互数据添加至样本池中。
结合图2和如图3所示,图2(a)为智能体与环境交互图,图2(b)为智能体内部神经网络结构图,图3中以片段长度l=4为例,在每一时刻t,智能体接收到环境状态的部分观测值ot,并将该观测值ot与智能体上一时刻的动作at-1、上一时刻的记忆值ht-1一起,输入到长短时记忆网络中,计算出当前时刻的记忆值ht。接下来将当前时刻的记忆ht输入到后续的全连接(Multi-Layer Perceptron,MLP)网络中,得到智能体在当前时刻选择做出的动作at。之后环境根据智能体做出的动作给出当前时刻的奖励值rt,并给出下一时刻状态的部分观测值ot+1以及任务是否终止的判断标签donet
如图4所示,智能体与环境每完成一个时间步(step)的交互,都将交互数据(ot,at,rt,ot+1,donet,ht)添加至样本池中,记为di。其中,样本池中数据不需按不同交互过程分开存储,将所有交互数据按顺序存放即可,即可以直接将下一次交互过程的数据添加至上次交互过程的末尾。因而样本池可选用数组与矩阵等更高效的数据结构,其第一维即为每个独立的step。
在步骤S102中,从样本池中随机选取多条样本片段,生成训练样本数据。
可以理解的是,在获取样本环节,随机在样本池中选取样本片段,从而实现对带记忆样本数据的高效存储与采样的功能。
进一步地,在本发明的一个实施例中,从样本池中随机选取多条样本片段,生成训练样本数据,包括:获取样本池中样本的数量,并随机地选取n个片段首时步的索引;根据每条片段首时步的索引,在样本池中取出对应样本片段,添加至训练样本中。
具体地,在获取样本环节,从样本池中随机选取n条固定长度的样本片段作为神经网络的训练数据。
获取当前样本池中样本step的总量M,从[0,M-l]中随机不重复地选取n个数作为采样片段首个时间步的索引。对于每个采样片段首时间步索引i,将该位置及其之后长度为l的数据(di,di+1,…di+l-1)取出作为一条样本片段。
在步骤S103中,根据训练样本数据对更新长短时记忆网络的网络参数。
可以理解的是,在更新网络环节,利用样本片段数据计算出的梯度对网络参数进行更新。
进一步地,在本发明的一个实施例中,根据训练样本数据对更新长短时记忆网络的网络参数,包括:更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果;根据前向传播结果计算损失函数,并进行梯度的反向传播;根据梯度以及学习率的大小对网络参数进行更新。
其中,在本发明的一个实施例中,更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果,包括:将每片段首时步的上一时刻记忆值初始化为样本池中存储值;根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算当前时刻记忆,并将更新的记忆值传输给后续神经网络;判断交互过程是否终止,其中,若终止,则将记忆值置为0,否则记忆值保持不变,并将记忆值传输给下一时刻。
具体地,在更新网络环节,利用样本数据计算出的梯度对神经网络的参数进行更新。
对于每个样本片段,样本池中存储的记忆值为智能体与环境进行交互时的网络参数计算出来的。而随着训练的进行,网络一直在迭代更新,智能体与环境进行交互的时刻下旧网络计算出来的记忆值将与进行采样更新的时刻下新网络计算出来的记忆值有一定的区别。为尽量减小这种偏差的影响,我们只将每个片段首时步的上一时刻记忆值ht-1初始化为其存储值,其后每个时步的ht-1均由上一时刻根据当前最新的网络参数重新计算得到。
在每一时步结束前对本次交互过程是否终止作一次判断,若终止,则其后下一步的数据即为新一次交互过程的初始时刻,将其上一时刻记忆值ht-1重新置为0。
最后根据样本数据计算出损失函数,并进行梯度反向传播,从而对网络参数进行更新。
下面以一个具体实施例对本发明实施例的方法的工作原理进行具体赘述。
如图5所示,本发明实施例的方法包括:
步骤1:智能体与环境进行交互获取数据并将其添加至样本池中。
步骤101:智能体接收环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络根据上述三类信息计算出当前时刻记忆值。
步骤102:智能体全连接网络根据当前时刻记忆值计算出当前时刻选择的动作。
步骤103:智能体与环境交互做出动作,环境根据智能体动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值。
步骤104:将本时步交互过程中产生的数据添加至样本池中。
步骤2:从样本池中随机选取n条样本片段作为训练样本数据。
步骤201:获取当前样本池中样本的数量,随机选取n个片段首时步的索引。
步骤202:根据每条片段首时步的索引,在样本池中取出该样本片段并添加至训练样本中。
步骤3:根据训练样本数据对网络参数进行更新。
步骤301:更新每一条片段数据的记忆值,进行神经网络的前向传播。
步骤3001:将每一片段首时步的上一时刻记忆值初始化为样本池中存储值。
步骤3002:根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算出当前时刻记忆,并将该更新的记忆值传输给后续神经网络。
步骤3003:判断交互过程是否终止(若终止,则将记忆值置为0;若未终止,则记忆值保持不变),并将此记忆值传输给下一时刻。
步骤302:根据前向传播得到的结果计算出损失函数,并进行梯度的反向传播。
步骤303:根据梯度以及学习率的大小对网络参数进行更新。
综上,在本发明的实施例中,首先,传统强化学习算法假设获取到的观测值即为完整状态信息,而现实世界中的任务由于传感器的限制以及噪声的存在,状态信息往往是不完全可观的,因而引入长短时记忆网络并对记忆数据的采样更新方式进行改进将极大提高强化学习算法在现实任务中的表现。其次,在将采样数据按顺序依次输入循环神经网络时,采用随机选取样本片段的方式替代原始选取整个交互过程的方式,使得样本数据的时序相关性大大降低。并且,将样本片段首时步的上一时刻记忆设为之前存储的记忆值,使得神经网络能够学得更长远的记忆。最后,在网络更新时引入标签数据判断样本片段中的数据是否来自同一交互过程,而在采样时无需保证片段中的数据均来自同一交互过程,使得样本数据的存储以及采样效率得到明显提高。
另外,本发明实施例无需区分是否属于同一交互过程,将数据直接按顺序拼接的存储方式,且无需区分是否属于同一交互过程,直接从样本池中选取连续存储的一段数据的采样方式,并且更新网络环节中,根据交互过程是否终止传输给下一时刻不同的记忆值,以及更新网络环节中,样本片段首时步的上一时刻记忆值初始化为样本池中存储的记忆值。
根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新方法,通过随机采样数据片段并将首个时间步的上一时刻记忆初始化为之前存储的记忆值,大大降低样本数据的时序相关性且使得网络依然能学得较长时间的记忆。通过添加交互结束的标签数据,同一采样片段中的数据不再必须属于同一交互过程,从而使得样本数据存储以及采样的两个过程的效率都得到明显提高,解决目前存在的采样更新方式存在效率低下,使得算法学习速率大幅降低的问题,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。
其次参照附图描述根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新装置。
图6为根据本发明实施例的状态部分可观测强化学习算法的高效采样更新装置的方框示意图。
如图6所示,该状态部分可观测强化学习算法的高效采样更新装置10包括:添加模块100、获取模块200和更新模块300。
具体地,添加模块100,用于采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中。
获取模块200,用于从样本池中随机选取多条样本片段,生成训练样本数据。
更新模块300,用于根据训练样本数据对更新长短时记忆网络的网络参数。
进一步地,在本发明的一个实施例中,添加模块100包括:第一计算单元、第二计算单元、判断单元和第一添加单元。
其中,第一计算单元,用于根据智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络计算当前时刻记忆值。
第二计算单元,用于通过智能体全连接网络根据当前时刻记忆值计算当前时刻选择的动作。
判断单元,用于通过智能体与环境交互做出动作,且环境根据智能体动作转移至下一状态并返回给智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值。
第一添加单元,用于将本时步交互过程中产生的交互数据添加至样本池中。
进一步地,在本发明的一个实施例中,获取模块200包括:获取单元和第二添加单元。
其中,获取单元,用于获取样本池中样本的数量,并随机选取n个片段首时步的索引。
第二添加单元,用于根据每条片段首时步的索引,在样本池中取出对应样本片段,添加至训练样本中。
进一步地,在本发明的一个实施例中,更新模块300包括:第一更新单元、第三计算单元和第二更新单元。
其中,第一更新单元,用于更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果。
第三计算单元,用于根据前向传播结果计算损失函数,并进行梯度的反向传播。
第二更新单元,用于根据梯度以及学习率的大小对网络参数进行更新。
进一步地,在本发明的一个实施例中,第一更新单元具体用于将每片段首时步的上一时刻记忆值初始化为样本池中存储值,并且根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算当前时刻记忆,并将更新的记忆值传输给后续神经网络,以及判断交互过程是否终止,其中,若终止,则将记忆值置为0,否则记忆值保持不变,并将记忆值传输给下一时刻。
需要说明的是,前述对状态部分可观测强化学习算法的高效采样更新方法实施例的解释说明也适用于该实施例的状态部分可观测强化学习算法的高效采样更新装置,此处不再赘述。
根据本发明实施例提出的状态部分可观测强化学习算法的高效采样更新装置,通过随机采样数据片段并将首个时间步的上一时刻记忆初始化为之前存储的记忆值,大大降低样本数据的时序相关性且使得网络依然能学得较长时间的记忆。通过添加交互结束的标签数据,同一采样片段中的数据不再必须属于同一交互过程,从而使得样本数据存储以及采样的两个过程的效率都得到明显提高,解决目前存在的采样更新方式存在效率低下,使得算法学习速率大幅降低的问题,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种状态部分可观测强化学习算法的高效采样更新方法,其特征在于,包括以下步骤:
采集智能体与环境交互生成的交互数据,并将所述交互数据添加至样本池中,包括:根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络计算当前时刻记忆值;通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作;通过所述智能体与所述环境交互做出所述动作,且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值;将本时步交互过程中产生的所述交互数据添加至所述样本池中,其中,将所述交互数据按顺序存放存储至所述样本池;
从所述样本池中随机选取多条样本片段,生成训练样本数据;以及
根据所述训练样本数据对更新长短时记忆网络的网络参数,其中,在更新长短时记忆网络的网络参数时,引入标签数据判断样本片段中的数据是否来自同一交互过程。
2.根据权利要求1所述的方法,其特征在于,所述从所述样本池中随机选取多条样本片段,生成训练样本数据,包括:
获取所述样本池中样本的数量,并随机选取n个片段首时步的索引;
根据每条片段首时步的索引,在所述样本池中取出对应样本片段,添加至训练样本中。
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本数据对更新长短时记忆网络的网络参数,包括:
更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果;
根据所述前向传播结果计算损失函数,并进行梯度的反向传播;
根据梯度以及学习率的大小对所述网络参数进行更新。
4.根据权利要求3所述的方法,其特征在于,所述更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果,包括:
将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值;
根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算当前时刻记忆,并将更新的记忆值传输给后续神经网络;
判断交互过程是否终止,其中,若终止,则将记忆值置为0,否则所述记忆值保持不变,并将所述记忆值传输给下一时刻。
5.一种状态部分可观测强化学习算法的高效采样更新装置,其特征在于,包括:
添加模块,用于采集智能体与环境交互生成的交互数据,并将所述交互数据添加至样本池中;
获取模块,用于从所述样本池中随机选取多条样本片段,生成训练样本数据;以及
更新模块,用于根据所述训练样本数据对更新长短时记忆网络的网络参数,所述更新模块具体用于引入标签数据判断样本片段中的数据是否来自同一交互过程;
所述添加模块包括:
第一计算单元,用于根据所述智能体接收的环境当前时刻的观测值、上一时刻记忆值、上一时刻动作,长短时记忆网络计算当前时刻记忆值;
第二计算单元,用于通过智能体全连接网络根据所述当前时刻记忆值计算当前时刻选择的动作;
判断单元,用于通过所述智能体与所述环境交互做出所述动作,且所述环境根据所述智能体动作转移至下一状态并返回给所述智能体奖励信号、下一时刻的观测值、交互过程是否终止的判断值;
第一添加单元,用于将本时步交互过程中产生的所述交互数据添加至所述样本池中,所述第一添加单元具体用于将所述交互数据按顺序存放存储至所述样本池。
6.根据权利要求5所述的装置,其特征在于,所述获取模块包括:
获取单元,用于获取所述样本池中样本的数量,并随机选取n个片段首时步的索引;
第二添加单元,用于根据每条片段首时步的索引,在所述样本池中取出对应样本片段,添加至训练样本中。
7.根据权利要求6所述的装置,其特征在于,所述更新模块包括:
第一更新单元,用于更新每条片段数据的记忆值,并进行神经网络的前向传播,得到前向传播结果;
第三计算单元,用于根据所述前向传播结果计算损失函数,并进行梯度的反向传播;
第二更新单元,用于根据梯度以及学习率的大小对所述网络参数进行更新。
8.根据权利要求7所述的装置,其特征在于,所述第一更新单元具体用于将所述每片段首时步的上一时刻记忆值初始化为样本池中存储值,并且根据上一时刻动作、上一时刻记忆值、当前时刻观测值,由最新长短时记忆网络计算当前时刻记忆,并将更新的记忆值传输给后续神经网络,以及判断交互过程是否终止,其中,若终止,则将记忆值置为0,否则所述记忆值保持不变,并将所述记忆值传输给下一时刻。
CN202010291366.4A 2020-04-14 2020-04-14 状态部分可观测强化学习算法的高效采样更新方法及装置 Active CN111582439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291366.4A CN111582439B (zh) 2020-04-14 2020-04-14 状态部分可观测强化学习算法的高效采样更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291366.4A CN111582439B (zh) 2020-04-14 2020-04-14 状态部分可观测强化学习算法的高效采样更新方法及装置

Publications (2)

Publication Number Publication Date
CN111582439A CN111582439A (zh) 2020-08-25
CN111582439B true CN111582439B (zh) 2021-08-10

Family

ID=72112469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291366.4A Active CN111582439B (zh) 2020-04-14 2020-04-14 状态部分可观测强化学习算法的高效采样更新方法及装置

Country Status (1)

Country Link
CN (1) CN111582439B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597002A (zh) * 2018-03-21 2018-09-28 李荣陆 一种基于深度强化学习的自动布局装置
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN109788566A (zh) * 2019-01-18 2019-05-21 南京邮电大学 基于深度增强学习的网络资源分配方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910351B (zh) * 2017-04-19 2019-10-11 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN108038545A (zh) * 2017-12-06 2018-05-15 湖北工业大学 基于Actor-Critic神经网络连续控制的快速学习算法
US10860927B2 (en) * 2018-09-27 2020-12-08 Deepmind Technologies Limited Stacked convolutional long short-term memory for model-free reinforcement learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597002A (zh) * 2018-03-21 2018-09-28 李荣陆 一种基于深度强化学习的自动布局装置
CN109063823A (zh) * 2018-07-24 2018-12-21 北京工业大学 一种智能体探索3d迷宫的批a3c强化学习方法
CN109788566A (zh) * 2019-01-18 2019-05-21 南京邮电大学 基于深度增强学习的网络资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度强化学习的多智能体城市道路交叉口交通流优化控制研究";高思琦;《中国优秀硕士学位论文全文数据库-工程科技Ⅱ辑》;20200115;第2020年卷(第1期);摘要,第4-5章 *

Also Published As

Publication number Publication date
CN111582439A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Graves et al. Automated curriculum learning for neural networks
CN111914936B (zh) 语料数据的数据特征增强方法、装置及计算机设备
CN111445108B (zh) 数据驱动的配电网线变关系诊断方法、装置及系统
WO2009120083A1 (en) Automated filling of conditional probability data in a decision support apparatus that uses a bayesian belief network
CN113268611B (zh) 一种基于深度知识跟踪与强化学习的学习路径优化方法
CN108961460B (zh) 基于稀疏esgp与多目标优化的故障预测方法及装置
CN108345213B (zh) Mimo紧格式无模型控制器基于系统误差的参数自整定方法
CN110543978A (zh) 基于小波神经网络的交通流数据预测方法和装置
CN114637881B (zh) 基于多代理度量学习的图像检索方法
CN111582439B (zh) 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111563203A (zh) 一种基于快速非负隐特征分析的智能家居用户-服务兴趣度个性化预测装置和预测方法
CN113138344A (zh) 一种基于分数阶扩展卡尔曼滤波算法的soc估计方法
CN110990548B (zh) 强化学习模型的更新方法和装置
CN103607219A (zh) 一种电力线通信系统的噪声预测方法
CN111063000A (zh) 基于神经网络结构搜索的磁共振快速成像方法和装置
CN116226613A (zh) 一种滚动轴承剩余寿命预测方法、设备及存储介质
CN117129895A (zh) 电池健康状态计算方法、装置、存储介质以及车辆
CN114399901B (zh) 一种控制交通系统的方法和设备
CN113671386B (zh) 一种氢燃料电池耐久性能分析方法及装置
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
CN110558972B (zh) 一种心电信号深度学习模型的轻量化方法
CN113850485A (zh) 跨领域的多源数据评价模型训练方法、系统、装置及介质
CN108008634B (zh) Miso偏格式无模型控制器基于偏导信息的参数自整定方法
CN113963551B (zh) 基于协作定位的车辆定位方法、系统、设备及介质
KR102584409B1 (ko) 인공지능 학습모델 성능저하 감지 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant