CN112264999A - 用于智能体连续空间行动规划的方法、装置及存储介质 - Google Patents
用于智能体连续空间行动规划的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112264999A CN112264999A CN202011174304.1A CN202011174304A CN112264999A CN 112264999 A CN112264999 A CN 112264999A CN 202011174304 A CN202011174304 A CN 202011174304A CN 112264999 A CN112264999 A CN 112264999A
- Authority
- CN
- China
- Prior art keywords
- action
- node
- network module
- value
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Robotics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mechanical Engineering (AREA)
- Probability & Statistics with Applications (AREA)
- Automation & Control Theory (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种用于智能体连续空间行动规划的方法、装置及存储介质,方法包括步骤:S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at;S2、构建并训练神经网络模型,每隔一段时间根据与环境交互的数据训练及更新神经网络模型;S3、基于神经网络模型进行KR‑PV‑UCT模拟,包括选择过程、扩展过程、评估过程和反向传播过程;S4、选择当前根节点下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。与现有技术相比,本发明将KR‑UCT与神经网络融合运用到高维连续行动空间,在保证效果的前提下减少控制的延迟,实现智能体连续空间行动的高效规划。
Description
技术领域
本发明涉及一种智能体行动规划方法,尤其是涉及一种用于智能体连续空间行动规划的方法、装置及存储介质。
背景技术
现实世界是一个四维的连续空间,其中大多数场景涉及到高维连续行动规划。例如,人体由上百条肌肉所驱动,为了完成一项基本的任务,大脑需要寻找出最佳的驱动这些肌肉的方式;每个机构由不同的人所构成,机构的领导人需要需找出最佳的驱动这些人的方式来完成某个目标。高维连续行动空间中的行动规划任务在生活中如此常见,因此解决高维连续行动空间的行动规划任务具有十分重要的现实意义。高维连续行动空间中的行动规划任务涉及到智能体根据已有环境模型进行模拟推演,最终从高维的行动空间中选出一个最佳的行动与环境进行交互这一过程。
蒙塔卡洛树搜索作为一种高效的规划方法,在棋盘类等低维离散的决策或控制场景中取得了一定的效果。蒙特卡洛树的每个节点代表不同的状态,每条边代表不同的行动,节点到节点的连接表示在一个状态下执行对应边所代表的行动后转移到下一个状态。根节点表示当前状态,根节点的所有后辈节点表示未来状态。每次模拟(推演)包含四个过程:
(1)选择过程:从根节点R开始,根据子节点选择策略递归地选择子节点,直到到达亟需扩展的节点L。判断一个节点是否为亟需扩展的节点的方法为:首先,这个节点不是终端节点(即任务完成时的状态);其次,这个节点在之前的模拟中未曾被访问过。子节点的选择策略为:
其中A为当前节点的子节点结合,C为平衡探索和开发的参数,vi为对行动i价值的估计,ni为子节点i的访问次数。
(2)扩展过程:根据现有的可选动作集合,为节点L添加子节点,并从子节点中随机选择一个子节点VL。
(3)模拟过程:从节点VL开始根据一个默认的策略在环境中进行随机走棋,直到到达终端节点T,并得到终结点的状态价值VT。
(4)反向传播过程:根据公式(1)将模拟过程中得到的信息VT更新从节点VL到节点R上路径上的节点信息。
在经过充分次数的模拟之后,蒙特卡洛搜索根据模拟产生的数据从根节点的行动集中选择当前情况下最佳的一个行动与外部环境进行交互。
然而,由于蒙特卡洛树本身固有的离散属性,蒙特卡洛树搜索只能局限于低维的离散行动空间。最简单的将蒙特卡罗树搜索扩展到连续行动空间的方法是直接将连续行动空间进行离散化,但是随着维数的增加蒙特卡洛树搜索需要考虑的行动也成指数的增加,为了从行动空间中选出最佳的行动,蒙特卡洛树搜索的模拟时间也成指数增长。为了减少蒙特卡罗树搜索在连续行动空间中行动集过大的问题,Chaslot等人提出了逐步加宽的策略。逐步加宽策略在每个节点的扩展过程中先随机初始化一个行动集合,在随后的模拟中一旦当前节点的信息足够区分出行动集中的不同动作的优劣时,蒙特卡洛树搜索便向行动集合中添加新的行动,从而缩减了蒙特卡洛树搜索所需要考虑的行动数目,进而降低了模拟所需的时间。Couetoux等人则通过行动之间的相似性将模拟中获得的信息泛化到不同的行动上,从而提高了信息的使用效率,进而降低了模拟所需的时间。Yee等人结合逐步加宽和快速价值估计的策略一方面从行动空间中选择有代表性的行动进行蒙特卡洛树搜索,另一方面通过核密度估计将模拟中获得的局部信息泛化到树结构中去,从而降低了蒙特卡洛树在连续行动空间中所需的时间。
同蒙特卡洛树搜索一样,KR-UCT在每次模拟的过程中也包含了选择、扩展、模拟和反向传播这四个过程。具体细节如下:
(1)选择过程:每次模拟从根节点R开始,根据子节点选择策略递归地选择子节点,直到到达某一个满足条件的节点L。在这里,满足条件的节点要么是一个亟待扩展的节点,要么这个节点已经被充分访问。子节点的选择策略为:
W(a)=∑b∈AK(a,b)nb (4)
其中A是节点的行动集合,E(v|a)是在当前节点所对应得状态下行动a的价值的期望,W(a)是通过行动a的兄弟行动的访问次数对a的访问次数的估计,K(a,b)是行动a与行动b之间的核函数,可以看作是行动a与行动b之间的相似性,nb是行动b的真实访问次数,是行动b的真实价值。
(2)扩展过程:当节点L是一个亟待扩展的节点,KR-UCT随机从行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟。当节点L是已经被充分访问过的节点,KR-UCT向节点的行动集中添加新的行动。如果一个行动与行动集中最好的行动相似,同时又不能被行动集很好的代表,那么这个行动作为新行动被添加到行动集中。新行动的筛选公式为:
newAction=argmaxK(action,a)>τW(a) (5)
(3)模拟过程:当扩展过程完成后,KR-UCT通过一个默认的策略随机走棋直到终端节点T。
(4)反向传播过程:根据终端节点的信息和方程(2),更新从节点L到节点R路径及兄弟节点的信息。
在经过充分的模拟之后,KR-UCT从根节点中选择最好的行动与环境进行交互,选择行动的方式如下:
KR-UCT虽然提高了蒙特卡洛树的模拟效率,但仍然是无法利用与外部环境的交互信息,即KR-UCT在第t步不能使用前t-1步与环境交互的信息。KR-UCT是无记忆性的,即KR-UCT在第t+1步进行蒙塔卡罗树搜索时不能使用前t步与环境的交互信息,因而在每一步为了从高维连续行动空间中选出最佳的行动,KR-UCT不得不耗费大量的时间对未来进行推演,引发了控制上的延迟问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于智能体连续空间行动规划的方法、装置及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种智能体连续空间行动规划方法,该方法包括如下步骤:
S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at;
S2、构建并训练神经网络模型,包括策略网络模块、价值网络模块,所述的策略网络模块用于获取某一状态下的行动概率分布,所述的价值网络模块用于计算某一状态下的价值,每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络;
S3、KR-PV-UCT模拟,依次包括如下四个过程:
选择过程:从根节点R开始,根据子节点选择策略选择子节点,直到到达某一个满足条件的节点L,所述的根节点表示的是智能体当前的状态,所述的子节点表示在智能体大脑模拟中父节点执行完一次行动后转移到的状态,所述的节点L为亟待扩展的节点或已经被充分访问的节点;
扩展过程:当节点L为亟待扩展的节点,利用策略网络模块从连续行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟,当节点L为已经被充分访问的节点,则向原有行动集合中添加新的行动;
评估过程:当扩展过程完成后,使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(sl),Sl为评估的叶子节点对应的智能体的状态;
反向传播过程:根据叶子节点的价值v(sl),利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值;
S4、选择当前根节点R下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。
优选地,所述的策略网络模块包括依次连接的输入层、两个隐藏层和输出层,输入层、两个隐藏层的参数与价值网络模块共享,策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。
优选地,根据下式损失函数对策略网络模块进行训练:
其中,ψi为第i次迭代策略网络模块的参数,为第i次迭代策略网络模块的损失函数,M为第i次训练时的训练样本的大小,p(am)为策略模块的标签,为策略网络模块的输出,为KR-PV-UCT模拟从根节点中选出的最佳的行动。
优选地,所述的价值网络模块包括依次连接的输入层、两个隐藏层和输出层,价值网络模块的标签通过智能体与环境交互时产生的信息得到,随后利用有监督学习的方式进行训练完成价值网络模块的进化。
优选地,所述的价值网络模块的标签通过下式得到:
优选地,根据下式损失函数对价值网络模块进行训练:
优选地,步骤S3的选择过程中子节点选择策略为:
其中,action表示选择的子节点,A是节点的行动集合,a、b为A中的任意两个行动,E(v|a)是行动a价值的期望,W(a)为对行动a访问次数的估计,W(b)为对行动b访问次数的估计,K(a,b)是行动a与行动b之间的核函数,K(a,b)表示行动a与行动b之间的相似性,nb是行动b的真实访问次数,是行动b的真实价值。
优选地,步骤S4选择最优行动的方式为:
其中,actionfinal为选择的最优行动,A是根节点的行动集合,C为超参数。
一种用于智能体连续空间行动规划的装置,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现上述用于智能体连续空间行动规划的方法的步骤。
一种用于智能体连续空间行动规划的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述用于智能体连续空间行动规划的方法的步骤。
与现有技术相比,本发明具有如下优点:
本发明构建了神经网络模型,并将神经网络模型与KR-UCT结合形成KR-PV-UCT搜索,策略网络模块的使用为KR-UCT排除的大量的行动,从而可以加快KR-UCT模拟的效率,可以使KR-UCT更好的应用于高维连续行动空间;价值网络模块的使用剪枝了KR-UCT中的随机走棋过程,并且通过神经网络将信息泛化到不同的状态,使用价值网络模块比随机走棋过程对状态价值的估计更准确;使KR-UCT进行少量的模拟便可从行动集中获得一个优化的行动,本发明将KR-UCT与神经网络集合,并扩展到了高维连续行动空间,从而使KR-UCT在可接受的时间内筛选出一个较好的行动,进而在保证效果的前提下减少控制的延迟,实现智能体连续空间行动的高效规划。
附图说明
图1为本发明一种用于智能体连续空间行动规划的方法的流程框图;
图2为本发明实施例中神经网络模型的结构示意图;
图3为本发明KR-PV-UCT的算法流程框图;
图4为本发明KRPV的算法流程框图;
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例1
结合图1、图4所示,本实施例提供一种智能体连续空间行动规划方法,该方法包括如下步骤:
S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at;
S2、构建并训练神经网络模型,包括策略网络模块、价值网络模块,策略网络模块用于获取某一状态下的行动概率分布,价值网络模块用于计算某一状态下的价值,每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络;
S3、KR-PV-UCT模拟,依次包括如下四个过程(具体如图3所示):
选择过程:从根节点R开始,根据子节点选择策略选择子节点,直到到达某一个满足条件的节点L,根节点表示的是智能体当前的状态,子节点表示父节点执行完一次行动后转移到的状态,节点L为亟待扩展的节点或已经被充分访问的节点;
扩展过程:当节点L为亟待扩展的节点,利用策略网络模块从连续行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟,当节点L为已经被充分访问的节点,则向原有行动集合中添加新的行动,新行动的选择标准为:如果一个行动与原有行动集中最好的行动相似,同时又不能被原有行动集很好的代表时,那么这个行动作为新行动被添加到行动集中;
评估过程:当扩展过程完成后,使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(sl),Sl为评估的叶子节点对应的智能体的状态;
反向传播过程:根据叶子节点的价值v(sl),利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值;
S4、选择当前根节点R下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。
策略网络模块包括依次连接的输入层、两个隐藏层和输出层,输入层、两个隐藏层的参数与价值网络模块共享,策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。
根据下式损失函数对策略网络模块进行训练:
其中,ψi为第i次迭代策略网络模块的参数,为第i次迭代策略网络模块的损失函数,M为第i次训练时的训练样本的大小,p(am)为策略模块的标签,为策略网络模块的输出,为KR-PV-UCT模拟从根节点中选出的最佳的行动。
价值网络模块包括依次连接的输入层、两个隐藏层和输出层,价值网络模块的标签通过智能体与环境交互时产生的信息得到,随后利用有监督学习的方式进行训练完成价值网络模块的进化。
价值网络模块的标签通过下式得到:
根据下式损失函数对价值网络模块进行训练:
步骤S3的选择过程中子节点选择策略为:
其中,action表示选择的子节点,A是节点的行动集合,a、b为A中的任意两个行动,E(v|a)是行动a价值的期望,W(a)为对行动a访问次数的估计,W(b)为对行动b访问次数的估计,K(a,b)是行动a与行动b之间的核函数,K(a,b)表示行动a与行动b之间的相似性,nb是行动b的真实访问次数,是行动b的真实价值。
步骤S4选择最优行动的方式为:
其中,actionfinal为选择的最优行动,A是根节点的行动集合,C为超参数,C用于平衡探索(Exploration)和利用(Exploitation)。
KR-UCT的主要思想是将局部信息泛化到不同行动上,进而增加了模拟的信息利用效率,在相同次数的模拟下提供了更多可供区分不同行动的信息,降低了所需的算力。本发明借鉴深度神经网络优秀的泛化能力,使用神经网络学习及泛化KR-UCT与环境的交互信息,从而使KR-UCT在可接受的时间内筛选出一个较好的行动,进而在保证效果得前提下减少控制的延迟。本发明总共包含两大部分,一是神经网络部分,另外一部分是神经网络与KR-UCT的结合部分。神经网络部分包含策略模块、价值模块两个部分。其中策略模块用来在模拟的探索过程中初始化行动集;价值模块用来在模拟的模拟过程中剪枝随机走棋操作。而价值模块的训练标签来自于智能体与环境的交互,策略模块的标签来自于蒙特卡洛树搜索的根节点信息。在每次与环境交互的过程中,KR-UCT与神经网络结合找出当前状态下最优的行动,在KR-UCT与神经网络寻找过程中,策略模块为每个节点筛选出合适的行动进行推演,在推演到一定深度时,价值模块适时截断推演过程以减少时间的浪费。在神经网络的训练阶段,我们利用模拟后蒙特卡洛树的根节点信息制作策略模块的标签,并使用有监督学习的方式完成这两个模块的进化。在每个时间步,我们收集与环境的交互信息,随后根据Bellman方程制作价值模块的标签,随后使用有监督学习的方式完成价值模块的进化。
本实施例以HalfCheetah任务为例阐述具体的技术方案,但本发明不局限于HalfCheetah场景,适用于任何的高维连续行动空间场景。本发明的主要目的是在保证在HalfCheetah场景中性能的同时,较少与环境交互的次数。本发明主要由神经网络和神经网络与KR-UCT结合部分两大部分构成,详细可分为价值网络模块、策略网络模块、KR-PV-UCT模块和KRPV模块这四个模块。图2为整个神经网络的结构,其中V(st)是状态价值网络模块、P(st)是策略网络模块。
HalfCheetah:
HalfCheetah是一个平面两足机器人,有9个刚性连杆,包括两条腿和一个躯干,以及6个驱动关节。在HalfCheetah中,在第t步的观测量st是一个20个维度的矢量,包括每个关节的角度、速度和双足机器人的质心坐标。在第t时刻控制HalfCheetah的控制向量at是一个6维的矢量,每个维度代表了双足机器人每个驱动关节控制量。双足机器人的任务是在尽可能的向前运动,并且保证所需要的能量损耗保持最小,即最大化其中,r(s,a)=vx-0.05·||a||2,vx为双足机器人向前运动的速度。
策略网络模块:
在KR-UCT的扩展过程中,KR-UCT使用了一个不可学习的随机分布初始化节点行动集,即随机地对行动空间进行采样,随后进行蒙特卡洛树搜索。使用不可学习的随机分布不能利用与环境交互所获得的信息,也不能从行动空间中筛选出有代表性的行动。针对这个问题,本发明使用一个可学习的随机分布学习在不同状态下不同行动的概率分布,随后根据这个分布从行动空间中选择筛选出有代表性的行动构成节点的行动集进行蒙特卡罗树搜索。
如图2所示,策略网络模块由输入层、两个隐藏层和输出层构成,其中输入层和输出层神经单元的个数由具体的任务所决定。输入层、两个隐藏层的参数与价值网络模块共享。策略网络的标签由蒙特卡洛树模拟时从根节点中选出的最好的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。随后对策略网络进行训练进而完成策略模块的进化,图2中,Pθ(St)是策略网络模块的输出。
价值网络模块:
如图2所示,价值网络模块由输入层、两个隐藏层和输出层构成,其中输入层的神经单元的个数由具体的控制任务所确定。两个隐藏层的神经元的个数为128个,输出层只有一个神经单元构成,图2中,是价值网络模块的输出。
将价值网络模块、策略网络模块以及KR-PV-UCT融合到一块便得到了最终KRPV算法。结合图4所示,KRPV的算法流程如下:
(1)初始化神经网络的参数θ,ψ。令t为计数器,设置t=0。st是在t时刻的环境观测量,包括每个关节的角度、速度和双足机器人的质心坐标。at是在第t时刻控制HalfCheetah的控制向量,为6个电机的控制参数,为在t时刻KR-PV-UCT模块通过推演所找到的最优的行动,在t时刻状态st下执行完行动后环境所反馈的奖励,rast为t时刻KR-PV-UCT模块中树结构的根节点所有的边所对应的行动结合用来作为,ravt为t时刻rast中每个行动所对应的子节点的价值集合。
(2)初始化数据池B
(3)在每次迭代中:
1、在每一次与环境交互中,直到任务结束:
(14)t=t+1
本发明构建了神经网络模型,并将神经网络模型与KR-UCT结合形成KR-PV-UCT搜索,策略网络模块的使用为KR-UCT排除的大量的行动,从而可以加快KR-UCT模拟的效率,可以时KR-UCT更好的应用于高维连续行动空间;价值网络模块的使用剪枝了KR-UCT中的随机走棋过程,并且通过神经网络将信息泛化到不同的状态,使用价值网络模块比随机走棋过程对状态价值的估计更准确;使KR-UCT进行少量的模拟便可从行动集中获得一个优化的行动,本发明将KR-UCT与神经网络集合,并扩展到了高维连续行动空间,从而使KR-UCT在可接受的时间内筛选出一个较好的行动,进而在保证效果的前提下减少控制的延迟,实现智能体连续空间行动的高效规划。
需要说明的是:本发明的方法可以扩展到其他智能体的运动规划问题上,不限于本实施例所列举的HalfCheetah机器人,神经网络模型的具体结构也不限于本实施例图2中给出的网络结构。
实施例2
本实施例提供一种用于智能体连续空间行动规划的装置,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如实施例1中用于智能体连续空间行动规划的方法的步骤,此处,用于智能体连续空间行动规划的方法与实施例1相同,这里不再赘述。
实施例3
本实施例提供一种用于智能体连续空间行动规划的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如实施例1中用于智能体连续空间行动规划的方法的步骤,此处,用于智能体连续空间行动规划的方法与实施例1相同,这里也不再赘述。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (10)
1.一种用于智能体连续空间行动规划的方法,该方法包括如下步骤:
S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at;
S2、构建并训练神经网络模型,包括策略网络模块、价值网络模块,所述的策略网络模块用于获取某一状态下的行动概率分布,所述的价值网络模块用于计算某一状态下的价值,每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络;
S3、KR-PV-UCT模拟,依次包括如下四个过程:
选择过程:从根节点R开始,根据子节点选择策略选择子节点,直到到达某一个满足条件的节点L,所述的根节点表示的是智能体当前的状态,所述的子节点表示在智能体大脑模拟中父节点执行完一次行动后转移到的状态,所述的节点L为亟待扩展的节点或已经被充分访问的节点;
扩展过程:当节点L为亟待扩展的节点,利用策略网络模块从连续行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟,当节点L为已经被充分访问的节点,则向原有行动集合中添加新的行动;
评估过程:当扩展过程完成后,使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(sl),Sl为评估的叶子节点对应的智能体的状态;
反向传播过程:根据叶子节点的价值v(sl),利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值;
S4、选择当前根节点R下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。
2.根据权利要求1所述的一种用于智能体连续空间行动规划的方法,其特征在于,所述的策略网络模块包括依次连接的输入层、两个隐藏层和输出层,输入层、两个隐藏层的参数与价值网络模块共享,策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。
4.根据权利要求1所述的一种用于智能体连续空间行动规划的方法,其特征在于,所述的价值网络模块包括依次连接的输入层、两个隐藏层和输出层,价值网络模块的标签通过智能体与环境交互时产生的信息得到,随后利用有监督学习的方式进行训练完成价值网络模块的进化。
9.一种用于智能体连续空间行动规划的装置,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如权利要求1~8任一项所述的用于智能体连续空间行动规划的方法的步骤。
10.一种用于智能体连续空间行动规划的存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~8任一项所述的用于智能体连续空间行动规划的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011174304.1A CN112264999B (zh) | 2020-10-28 | 2020-10-28 | 用于智能体连续空间行动规划的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011174304.1A CN112264999B (zh) | 2020-10-28 | 2020-10-28 | 用于智能体连续空间行动规划的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112264999A true CN112264999A (zh) | 2021-01-26 |
CN112264999B CN112264999B (zh) | 2022-06-28 |
Family
ID=74344373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011174304.1A Active CN112264999B (zh) | 2020-10-28 | 2020-10-28 | 用于智能体连续空间行动规划的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112264999B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836805A (zh) * | 2021-02-25 | 2021-05-25 | 季华实验室 | Krfpv算法、执行装置、电子设备、存储介质以及神经网络 |
CN113146624A (zh) * | 2021-03-25 | 2021-07-23 | 重庆大学 | 基于最大角聚集策略的多智能体控制方法 |
CN114083539A (zh) * | 2021-11-30 | 2022-02-25 | 哈尔滨工业大学 | 一种基于多智能体强化学习的机械臂抗干扰运动规划方法 |
CN116203964A (zh) * | 2023-03-13 | 2023-06-02 | 阿波罗智联(北京)科技有限公司 | 一种控制车辆行驶的方法、设备和装置 |
CN116713999A (zh) * | 2023-08-07 | 2023-09-08 | 南京云创大数据科技股份有限公司 | 一种多机械臂多目标寻找的训练方法及训练装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
US20180251126A1 (en) * | 2017-03-01 | 2018-09-06 | Zoox, Inc. | Trajectory generation and execution architecture |
CN110297490A (zh) * | 2019-06-17 | 2019-10-01 | 西北工业大学 | 基于强化学习算法的异构模块化机器人自重构规划方法 |
WO2020062911A1 (en) * | 2018-09-26 | 2020-04-02 | Huawei Technologies Co., Ltd. | Actor ensemble for continuous control |
CN111582469A (zh) * | 2020-03-23 | 2020-08-25 | 成都信息工程大学 | 多智能体协作信息处理方法、系统、存储介质、智能终端 |
-
2020
- 2020-10-28 CN CN202011174304.1A patent/CN112264999B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180251126A1 (en) * | 2017-03-01 | 2018-09-06 | Zoox, Inc. | Trajectory generation and execution architecture |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
WO2020062911A1 (en) * | 2018-09-26 | 2020-04-02 | Huawei Technologies Co., Ltd. | Actor ensemble for continuous control |
CN110297490A (zh) * | 2019-06-17 | 2019-10-01 | 西北工业大学 | 基于强化学习算法的异构模块化机器人自重构规划方法 |
CN111582469A (zh) * | 2020-03-23 | 2020-08-25 | 成都信息工程大学 | 多智能体协作信息处理方法、系统、存储介质、智能终端 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836805A (zh) * | 2021-02-25 | 2021-05-25 | 季华实验室 | Krfpv算法、执行装置、电子设备、存储介质以及神经网络 |
CN112836805B (zh) * | 2021-02-25 | 2024-05-10 | 季华实验室 | Krfpv算法、执行装置、电子设备、存储介质以及神经网络 |
CN113146624A (zh) * | 2021-03-25 | 2021-07-23 | 重庆大学 | 基于最大角聚集策略的多智能体控制方法 |
CN113146624B (zh) * | 2021-03-25 | 2022-04-29 | 重庆大学 | 基于最大角聚集策略的多智能体控制方法 |
CN114083539A (zh) * | 2021-11-30 | 2022-02-25 | 哈尔滨工业大学 | 一种基于多智能体强化学习的机械臂抗干扰运动规划方法 |
CN116203964A (zh) * | 2023-03-13 | 2023-06-02 | 阿波罗智联(北京)科技有限公司 | 一种控制车辆行驶的方法、设备和装置 |
CN116203964B (zh) * | 2023-03-13 | 2024-02-09 | 阿波罗智联(北京)科技有限公司 | 一种控制车辆行驶的方法、设备和装置 |
CN116713999A (zh) * | 2023-08-07 | 2023-09-08 | 南京云创大数据科技股份有限公司 | 一种多机械臂多目标寻找的训练方法及训练装置 |
CN116713999B (zh) * | 2023-08-07 | 2023-10-20 | 南京云创大数据科技股份有限公司 | 一种多机械臂多目标寻找的训练方法及训练装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112264999B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112264999B (zh) | 用于智能体连续空间行动规划的方法、装置及存储介质 | |
Liu et al. | Autonomy oriented computing: from problem solving to complex systems modeling | |
Jeerige et al. | Comparison of deep reinforcement learning approaches for intelligent game playing | |
US11086938B2 (en) | Interpreting human-robot instructions | |
CN110014428B (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
Lonza | Reinforcement Learning Algorithms with Python: Learn, understand, and develop smart algorithms for addressing AI challenges | |
Plasencia et al. | Open source robotic simulators platforms for teaching deep reinforcement learning algorithms | |
Gym et al. | Deep reinforcement learning with python | |
Keselman et al. | Reinforcement learning with a* and a deep heuristic | |
Taghizadeh et al. | A novel graphical approach to automatic abstraction in reinforcement learning | |
Ziya et al. | Comparative study for deep reinforcement learning with CNN, RNN, and LSTM in autonomous navigation | |
Zhao et al. | Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach | |
Velasquez et al. | Dynamic automaton-guided reward shaping for monte carlo tree search | |
Mohtasib et al. | A study on dense and sparse (visual) rewards in robot policy learning | |
Moro et al. | Goal-directed planning via hindsight experience replay | |
Laversanne-Finot et al. | Intrinsically motivated exploration of learned goal spaces | |
CN117634645A (zh) | 一种用于多智能体强化学习中的对比学习表征方法 | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
CN116306947A (zh) | 一种基于蒙特卡洛树探索的多智能体决策方法 | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
Greengard | Better algorithms through faster math | |
Liu et al. | Stationary deep reinforcement learning with quantum k-spin hamiltonian regularization | |
Penkov et al. | Explaining transition systems through program induction | |
Driessens | Focused imagination: Hard attention for reinforcement learning with imagination | |
Kumar et al. | A Novel Algorithm for Optimal Trajectory Generation Using Q Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Wei Inventor after: Liu Tianxing Inventor after: Tian Xiaohe Inventor before: Li Wei Inventor before: Liu Tianxing Inventor before: Gan middle school Inventor before: Tian Xiaohe |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |