CN112264999A - 用于智能体连续空间行动规划的方法、装置及存储介质 - Google Patents

用于智能体连续空间行动规划的方法、装置及存储介质 Download PDF

Info

Publication number
CN112264999A
CN112264999A CN202011174304.1A CN202011174304A CN112264999A CN 112264999 A CN112264999 A CN 112264999A CN 202011174304 A CN202011174304 A CN 202011174304A CN 112264999 A CN112264999 A CN 112264999A
Authority
CN
China
Prior art keywords
action
node
network module
value
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011174304.1A
Other languages
English (en)
Other versions
CN112264999B (zh
Inventor
李伟
刘天星
甘中学
田小禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202011174304.1A priority Critical patent/CN112264999B/zh
Publication of CN112264999A publication Critical patent/CN112264999A/zh
Application granted granted Critical
Publication of CN112264999B publication Critical patent/CN112264999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mechanical Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用于智能体连续空间行动规划的方法、装置及存储介质,方法包括步骤:S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at;S2、构建并训练神经网络模型,每隔一段时间根据与环境交互的数据训练及更新神经网络模型;S3、基于神经网络模型进行KR‑PV‑UCT模拟,包括选择过程、扩展过程、评估过程和反向传播过程;S4、选择当前根节点下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。与现有技术相比,本发明将KR‑UCT与神经网络融合运用到高维连续行动空间,在保证效果的前提下减少控制的延迟,实现智能体连续空间行动的高效规划。

Description

用于智能体连续空间行动规划的方法、装置及存储介质
技术领域
本发明涉及一种智能体行动规划方法,尤其是涉及一种用于智能体连续空间行动规划的方法、装置及存储介质。
背景技术
现实世界是一个四维的连续空间,其中大多数场景涉及到高维连续行动规划。例如,人体由上百条肌肉所驱动,为了完成一项基本的任务,大脑需要寻找出最佳的驱动这些肌肉的方式;每个机构由不同的人所构成,机构的领导人需要需找出最佳的驱动这些人的方式来完成某个目标。高维连续行动空间中的行动规划任务在生活中如此常见,因此解决高维连续行动空间的行动规划任务具有十分重要的现实意义。高维连续行动空间中的行动规划任务涉及到智能体根据已有环境模型进行模拟推演,最终从高维的行动空间中选出一个最佳的行动与环境进行交互这一过程。
蒙塔卡洛树搜索作为一种高效的规划方法,在棋盘类等低维离散的决策或控制场景中取得了一定的效果。蒙特卡洛树的每个节点代表不同的状态,每条边代表不同的行动,节点到节点的连接表示在一个状态下执行对应边所代表的行动后转移到下一个状态。根节点表示当前状态,根节点的所有后辈节点表示未来状态。每次模拟(推演)包含四个过程:
(1)选择过程:从根节点R开始,根据子节点选择策略递归地选择子节点,直到到达亟需扩展的节点L。判断一个节点是否为亟需扩展的节点的方法为:首先,这个节点不是终端节点(即任务完成时的状态);其次,这个节点在之前的模拟中未曾被访问过。子节点的选择策略为:
Figure BDA0002748271170000011
其中A为当前节点的子节点结合,C为平衡探索和开发的参数,vi为对行动i价值的估计,ni为子节点i的访问次数。
(2)扩展过程:根据现有的可选动作集合,为节点L添加子节点,并从子节点中随机选择一个子节点VL。
(3)模拟过程:从节点VL开始根据一个默认的策略在环境中进行随机走棋,直到到达终端节点T,并得到终结点的状态价值VT
(4)反向传播过程:根据公式(1)将模拟过程中得到的信息VT更新从节点VL到节点R上路径上的节点信息。
在经过充分次数的模拟之后,蒙特卡洛搜索根据模拟产生的数据从根节点的行动集中选择当前情况下最佳的一个行动与外部环境进行交互。
然而,由于蒙特卡洛树本身固有的离散属性,蒙特卡洛树搜索只能局限于低维的离散行动空间。最简单的将蒙特卡罗树搜索扩展到连续行动空间的方法是直接将连续行动空间进行离散化,但是随着维数的增加蒙特卡洛树搜索需要考虑的行动也成指数的增加,为了从行动空间中选出最佳的行动,蒙特卡洛树搜索的模拟时间也成指数增长。为了减少蒙特卡罗树搜索在连续行动空间中行动集过大的问题,Chaslot等人提出了逐步加宽的策略。逐步加宽策略在每个节点的扩展过程中先随机初始化一个行动集合,在随后的模拟中一旦当前节点的信息足够区分出行动集中的不同动作的优劣时,蒙特卡洛树搜索便向行动集合中添加新的行动,从而缩减了蒙特卡洛树搜索所需要考虑的行动数目,进而降低了模拟所需的时间。Couetoux等人则通过行动之间的相似性将模拟中获得的信息泛化到不同的行动上,从而提高了信息的使用效率,进而降低了模拟所需的时间。Yee等人结合逐步加宽和快速价值估计的策略一方面从行动空间中选择有代表性的行动进行蒙特卡洛树搜索,另一方面通过核密度估计将模拟中获得的局部信息泛化到树结构中去,从而降低了蒙特卡洛树在连续行动空间中所需的时间。
同蒙特卡洛树搜索一样,KR-UCT在每次模拟的过程中也包含了选择、扩展、模拟和反向传播这四个过程。具体细节如下:
(1)选择过程:每次模拟从根节点R开始,根据子节点选择策略递归地选择子节点,直到到达某一个满足条件的节点L。在这里,满足条件的节点要么是一个亟待扩展的节点,要么这个节点已经被充分访问。子节点的选择策略为:
Figure BDA0002748271170000021
Figure BDA0002748271170000022
W(a)=∑b∈AK(a,b)nb (4)
其中A是节点的行动集合,E(v|a)是在当前节点所对应得状态下行动a的价值的期望,W(a)是通过行动a的兄弟行动的访问次数对a的访问次数的估计,K(a,b)是行动a与行动b之间的核函数,可以看作是行动a与行动b之间的相似性,nb是行动b的真实访问次数,
Figure BDA0002748271170000032
是行动b的真实价值。
(2)扩展过程:当节点L是一个亟待扩展的节点,KR-UCT随机从行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟。当节点L是已经被充分访问过的节点,KR-UCT向节点的行动集中添加新的行动。如果一个行动与行动集中最好的行动相似,同时又不能被行动集很好的代表,那么这个行动作为新行动被添加到行动集中。新行动的筛选公式为:
newAction=argmaxK(action,a)>τW(a) (5)
(3)模拟过程:当扩展过程完成后,KR-UCT通过一个默认的策略随机走棋直到终端节点T。
(4)反向传播过程:根据终端节点的信息和方程(2),更新从节点L到节点R路径及兄弟节点的信息。
在经过充分的模拟之后,KR-UCT从根节点中选择最好的行动与环境进行交互,选择行动的方式如下:
Figure BDA0002748271170000031
KR-UCT虽然提高了蒙特卡洛树的模拟效率,但仍然是无法利用与外部环境的交互信息,即KR-UCT在第t步不能使用前t-1步与环境交互的信息。KR-UCT是无记忆性的,即KR-UCT在第t+1步进行蒙塔卡罗树搜索时不能使用前t步与环境的交互信息,因而在每一步为了从高维连续行动空间中选出最佳的行动,KR-UCT不得不耗费大量的时间对未来进行推演,引发了控制上的延迟问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于智能体连续空间行动规划的方法、装置及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种智能体连续空间行动规划方法,该方法包括如下步骤:
S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at
S2、构建并训练神经网络模型,包括策略网络模块、价值网络模块,所述的策略网络模块用于获取某一状态下的行动概率分布,所述的价值网络模块用于计算某一状态下的价值,每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络;
S3、KR-PV-UCT模拟,依次包括如下四个过程:
选择过程:从根节点R开始,根据子节点选择策略选择子节点,直到到达某一个满足条件的节点L,所述的根节点表示的是智能体当前的状态,所述的子节点表示在智能体大脑模拟中父节点执行完一次行动后转移到的状态,所述的节点L为亟待扩展的节点或已经被充分访问的节点;
扩展过程:当节点L为亟待扩展的节点,利用策略网络模块从连续行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟,当节点L为已经被充分访问的节点,则向原有行动集合中添加新的行动;
评估过程:当扩展过程完成后,使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(sl),Sl为评估的叶子节点对应的智能体的状态;
反向传播过程:根据叶子节点的价值v(sl),利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值;
S4、选择当前根节点R下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。
优选地,所述的策略网络模块包括依次连接的输入层、两个隐藏层和输出层,输入层、两个隐藏层的参数与价值网络模块共享,策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。
优选地,根据下式损失函数对策略网络模块进行训练:
Figure BDA0002748271170000041
其中,ψi为第i次迭代策略网络模块的参数,
Figure BDA0002748271170000042
为第i次迭代策略网络模块的损失函数,M为第i次训练时的训练样本的大小,p(am)为策略模块的标签,
Figure BDA0002748271170000043
为策略网络模块的输出,
Figure BDA0002748271170000044
为KR-PV-UCT模拟从根节点中选出的最佳的行动。
优选地,所述的价值网络模块包括依次连接的输入层、两个隐藏层和输出层,价值网络模块的标签通过智能体与环境交互时产生的信息得到,随后利用有监督学习的方式进行训练完成价值网络模块的进化。
优选地,所述的价值网络模块的标签通过下式得到:
Figure BDA0002748271170000051
其中,st为第t时间步时智能体所处的状态,
Figure BDA0002748271170000052
是状态st的价值标签,Ri为智能体在第i步时的奖励,γ为衰减因子,T为一个周期内总时间步。
优选地,根据下式损失函数对价值网络模块进行训练:
Figure BDA0002748271170000053
其中,M为第i次训练时的训练样本的大小,
Figure BDA0002748271170000054
为第i次迭代价值网络模块的参数,
Figure BDA0002748271170000055
为第i次迭代价值网络模块的损失函数,
Figure BDA0002748271170000056
是状态s的价值标签,
Figure BDA0002748271170000057
为第i次迭代时价值网络模块对状态s的价值评估。
优选地,步骤S3的选择过程中子节点选择策略为:
Figure BDA0002748271170000058
Figure BDA0002748271170000059
Figure BDA00027482711700000510
其中,action表示选择的子节点,A是节点的行动集合,a、b为A中的任意两个行动,E(v|a)是行动a价值的期望,W(a)为对行动a访问次数的估计,W(b)为对行动b访问次数的估计,K(a,b)是行动a与行动b之间的核函数,K(a,b)表示行动a与行动b之间的相似性,nb是行动b的真实访问次数,
Figure BDA00027482711700000511
是行动b的真实价值。
优选地,步骤S4选择最优行动的方式为:
Figure BDA00027482711700000512
其中,actionfinal为选择的最优行动,A是根节点的行动集合,C为超参数。
一种用于智能体连续空间行动规划的装置,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现上述用于智能体连续空间行动规划的方法的步骤。
一种用于智能体连续空间行动规划的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述用于智能体连续空间行动规划的方法的步骤。
与现有技术相比,本发明具有如下优点:
本发明构建了神经网络模型,并将神经网络模型与KR-UCT结合形成KR-PV-UCT搜索,策略网络模块的使用为KR-UCT排除的大量的行动,从而可以加快KR-UCT模拟的效率,可以使KR-UCT更好的应用于高维连续行动空间;价值网络模块的使用剪枝了KR-UCT中的随机走棋过程,并且通过神经网络将信息泛化到不同的状态,使用价值网络模块比随机走棋过程对状态价值的估计更准确;使KR-UCT进行少量的模拟便可从行动集中获得一个优化的行动,本发明将KR-UCT与神经网络集合,并扩展到了高维连续行动空间,从而使KR-UCT在可接受的时间内筛选出一个较好的行动,进而在保证效果的前提下减少控制的延迟,实现智能体连续空间行动的高效规划。
附图说明
图1为本发明一种用于智能体连续空间行动规划的方法的流程框图;
图2为本发明实施例中神经网络模型的结构示意图;
图3为本发明KR-PV-UCT的算法流程框图;
图4为本发明KRPV的算法流程框图;
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例1
结合图1、图4所示,本实施例提供一种智能体连续空间行动规划方法,该方法包括如下步骤:
S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at
S2、构建并训练神经网络模型,包括策略网络模块、价值网络模块,策略网络模块用于获取某一状态下的行动概率分布,价值网络模块用于计算某一状态下的价值,每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络;
S3、KR-PV-UCT模拟,依次包括如下四个过程(具体如图3所示):
选择过程:从根节点R开始,根据子节点选择策略选择子节点,直到到达某一个满足条件的节点L,根节点表示的是智能体当前的状态,子节点表示父节点执行完一次行动后转移到的状态,节点L为亟待扩展的节点或已经被充分访问的节点;
扩展过程:当节点L为亟待扩展的节点,利用策略网络模块从连续行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟,当节点L为已经被充分访问的节点,则向原有行动集合中添加新的行动,新行动的选择标准为:如果一个行动与原有行动集中最好的行动相似,同时又不能被原有行动集很好的代表时,那么这个行动作为新行动被添加到行动集中;
评估过程:当扩展过程完成后,使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(sl),Sl为评估的叶子节点对应的智能体的状态;
反向传播过程:根据叶子节点的价值v(sl),利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值;
S4、选择当前根节点R下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。
策略网络模块包括依次连接的输入层、两个隐藏层和输出层,输入层、两个隐藏层的参数与价值网络模块共享,策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。
根据下式损失函数对策略网络模块进行训练:
Figure BDA0002748271170000071
其中,ψi为第i次迭代策略网络模块的参数,
Figure BDA0002748271170000072
为第i次迭代策略网络模块的损失函数,M为第i次训练时的训练样本的大小,p(am)为策略模块的标签,
Figure BDA0002748271170000073
为策略网络模块的输出,
Figure BDA0002748271170000074
为KR-PV-UCT模拟从根节点中选出的最佳的行动。
价值网络模块包括依次连接的输入层、两个隐藏层和输出层,价值网络模块的标签通过智能体与环境交互时产生的信息得到,随后利用有监督学习的方式进行训练完成价值网络模块的进化。
价值网络模块的标签通过下式得到:
Figure BDA0002748271170000075
其中,st为第t时间步时智能体所处的状态,
Figure BDA0002748271170000076
是状态st的价值标签,Ri为智能体在第i步时的奖励,γ为衰减因子,T为一个周期内总时间步。
根据下式损失函数对价值网络模块进行训练:
Figure BDA0002748271170000081
其中,M为第i次训练时的训练样本的大小,
Figure BDA0002748271170000082
为第i次迭代价值网络模块的参数,
Figure BDA0002748271170000083
为第i次迭代价值网络模块的损失函数,
Figure BDA0002748271170000084
是状态s的价值标签,
Figure BDA0002748271170000085
为第i次迭代时价值网络模块对状态s的价值评估。
步骤S3的选择过程中子节点选择策略为:
Figure BDA0002748271170000086
Figure BDA0002748271170000087
Figure BDA0002748271170000088
其中,action表示选择的子节点,A是节点的行动集合,a、b为A中的任意两个行动,E(v|a)是行动a价值的期望,W(a)为对行动a访问次数的估计,W(b)为对行动b访问次数的估计,K(a,b)是行动a与行动b之间的核函数,K(a,b)表示行动a与行动b之间的相似性,nb是行动b的真实访问次数,
Figure BDA0002748271170000089
是行动b的真实价值。
步骤S4选择最优行动的方式为:
Figure BDA00027482711700000810
其中,actionfinal为选择的最优行动,A是根节点的行动集合,C为超参数,C用于平衡探索(Exploration)和利用(Exploitation)。
KR-UCT的主要思想是将局部信息泛化到不同行动上,进而增加了模拟的信息利用效率,在相同次数的模拟下提供了更多可供区分不同行动的信息,降低了所需的算力。本发明借鉴深度神经网络优秀的泛化能力,使用神经网络学习及泛化KR-UCT与环境的交互信息,从而使KR-UCT在可接受的时间内筛选出一个较好的行动,进而在保证效果得前提下减少控制的延迟。本发明总共包含两大部分,一是神经网络部分,另外一部分是神经网络与KR-UCT的结合部分。神经网络部分包含策略模块、价值模块两个部分。其中策略模块用来在模拟的探索过程中初始化行动集;价值模块用来在模拟的模拟过程中剪枝随机走棋操作。而价值模块的训练标签来自于智能体与环境的交互,策略模块的标签来自于蒙特卡洛树搜索的根节点信息。在每次与环境交互的过程中,KR-UCT与神经网络结合找出当前状态下最优的行动,在KR-UCT与神经网络寻找过程中,策略模块为每个节点筛选出合适的行动进行推演,在推演到一定深度时,价值模块适时截断推演过程以减少时间的浪费。在神经网络的训练阶段,我们利用模拟后蒙特卡洛树的根节点信息制作策略模块的标签,并使用有监督学习的方式完成这两个模块的进化。在每个时间步,我们收集与环境的交互信息,随后根据Bellman方程制作价值模块的标签,随后使用有监督学习的方式完成价值模块的进化。
本实施例以HalfCheetah任务为例阐述具体的技术方案,但本发明不局限于HalfCheetah场景,适用于任何的高维连续行动空间场景。本发明的主要目的是在保证在HalfCheetah场景中性能的同时,较少与环境交互的次数。本发明主要由神经网络和神经网络与KR-UCT结合部分两大部分构成,详细可分为价值网络模块、策略网络模块、KR-PV-UCT模块和KRPV模块这四个模块。图2为整个神经网络的结构,其中V(st)是状态价值网络模块、P(st)是策略网络模块。
HalfCheetah:
HalfCheetah是一个平面两足机器人,有9个刚性连杆,包括两条腿和一个躯干,以及6个驱动关节。在HalfCheetah中,在第t步的观测量st是一个20个维度的矢量,包括每个关节的角度、速度和双足机器人的质心坐标。在第t时刻控制HalfCheetah的控制向量at是一个6维的矢量,每个维度代表了双足机器人每个驱动关节控制量。双足机器人的任务是在尽可能的向前运动,并且保证所需要的能量损耗保持最小,即最大化
Figure BDA0002748271170000091
其中,r(s,a)=vx-0.05·||a||2,vx为双足机器人向前运动的速度。
策略网络模块:
在KR-UCT的扩展过程中,KR-UCT使用了一个不可学习的随机分布初始化节点行动集,即随机地对行动空间进行采样,随后进行蒙特卡洛树搜索。使用不可学习的随机分布不能利用与环境交互所获得的信息,也不能从行动空间中筛选出有代表性的行动。针对这个问题,本发明使用一个可学习的随机分布学习在不同状态下不同行动的概率分布,随后根据这个分布从行动空间中选择筛选出有代表性的行动构成节点的行动集进行蒙特卡罗树搜索。
如图2所示,策略网络模块由输入层、两个隐藏层和输出层构成,其中输入层和输出层神经单元的个数由具体的任务所决定。输入层、两个隐藏层的参数与价值网络模块共享。策略网络的标签由蒙特卡洛树模拟时从根节点中选出的最好的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。随后对策略网络进行训练进而完成策略模块的进化,图2中,Pθ(St)是策略网络模块的输出。
价值网络模块:
如图2所示,价值网络模块由输入层、两个隐藏层和输出层构成,其中输入层的神经单元的个数由具体的控制任务所确定。两个隐藏层的神经元的个数为128个,输出层只有一个神经单元构成,图2中,
Figure BDA0002748271170000101
是价值网络模块的输出。
将价值网络模块、策略网络模块以及KR-PV-UCT融合到一块便得到了最终KRPV算法。结合图4所示,KRPV的算法流程如下:
(1)初始化神经网络的参数θ,
Figure BDA0002748271170000102
ψ。令t为计数器,设置t=0。st是在t时刻的环境观测量,包括每个关节的角度、速度和双足机器人的质心坐标。at是在第t时刻控制HalfCheetah的控制向量,为6个电机的控制参数,
Figure BDA0002748271170000103
为在t时刻KR-PV-UCT模块通过推演所找到的最优的行动,
Figure BDA0002748271170000104
在t时刻状态st下执行完行动
Figure BDA0002748271170000105
后环境所反馈的奖励,rast为t时刻KR-PV-UCT模块中树结构的根节点所有的边所对应的行动结合用来作为,ravt为t时刻rast中每个行动所对应的子节点的价值集合。
(2)初始化数据池B
(3)在每次迭代中:
1、在每一次与环境交互中,直到任务结束:
(11)从KR-PV-UCT算法结合使用神经网络和KR-UCT来获取当前状态st下的最优行动
Figure BDA0002748271170000106
搜索树根节点的行动集合rast以及每个行动的价值ravt
(12)执行动作
Figure BDA0002748271170000107
获得奖励rt和下一步的状态st+1
(13)将
Figure BDA0002748271170000108
保存到数据池B中。
(14)t=t+1
2、在每次训练中从数据池中采样一个数据批,随后根据这些数据和下述公式更新神经网络的参数θ,
Figure BDA0002748271170000109
ψ。将更新后的神经网络替换掉KR-PV-UCT中的神经网络。
Figure BDA00027482711700001010
Figure BDA00027482711700001011
Figure BDA0002748271170000111
本发明构建了神经网络模型,并将神经网络模型与KR-UCT结合形成KR-PV-UCT搜索,策略网络模块的使用为KR-UCT排除的大量的行动,从而可以加快KR-UCT模拟的效率,可以时KR-UCT更好的应用于高维连续行动空间;价值网络模块的使用剪枝了KR-UCT中的随机走棋过程,并且通过神经网络将信息泛化到不同的状态,使用价值网络模块比随机走棋过程对状态价值的估计更准确;使KR-UCT进行少量的模拟便可从行动集中获得一个优化的行动,本发明将KR-UCT与神经网络集合,并扩展到了高维连续行动空间,从而使KR-UCT在可接受的时间内筛选出一个较好的行动,进而在保证效果的前提下减少控制的延迟,实现智能体连续空间行动的高效规划。
需要说明的是:本发明的方法可以扩展到其他智能体的运动规划问题上,不限于本实施例所列举的HalfCheetah机器人,神经网络模型的具体结构也不限于本实施例图2中给出的网络结构。
实施例2
本实施例提供一种用于智能体连续空间行动规划的装置,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如实施例1中用于智能体连续空间行动规划的方法的步骤,此处,用于智能体连续空间行动规划的方法与实施例1相同,这里不再赘述。
实施例3
本实施例提供一种用于智能体连续空间行动规划的存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如实施例1中用于智能体连续空间行动规划的方法的步骤,此处,用于智能体连续空间行动规划的方法与实施例1相同,这里也不再赘述。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种用于智能体连续空间行动规划的方法,该方法包括如下步骤:
S1、将智能体连续空间行动过程中的状态观测量组成向量构成状态St,将智能体连续空间行动过程中的驱动控制量组成向量构成行动at
S2、构建并训练神经网络模型,包括策略网络模块、价值网络模块,所述的策略网络模块用于获取某一状态下的行动概率分布,所述的价值网络模块用于计算某一状态下的价值,每隔一段时间重复S2根据与环境交互的数据训练及更新神经网络;
S3、KR-PV-UCT模拟,依次包括如下四个过程:
选择过程:从根节点R开始,根据子节点选择策略选择子节点,直到到达某一个满足条件的节点L,所述的根节点表示的是智能体当前的状态,所述的子节点表示在智能体大脑模拟中父节点执行完一次行动后转移到的状态,所述的节点L为亟待扩展的节点或已经被充分访问的节点;
扩展过程:当节点L为亟待扩展的节点,利用策略网络模块从连续行动空间中初始化一个行动集,随后从行动集中随机选择一个行动进行模拟,当节点L为已经被充分访问的节点,则向原有行动集合中添加新的行动;
评估过程:当扩展过程完成后,使用价值网络模块对新的叶子节点进行评估得到叶子节点的价值v(sl),Sl为评估的叶子节点对应的智能体的状态;
反向传播过程:根据叶子节点的价值v(sl),利用价值网络模块更新从节点L以及其兄弟节点到根节点R的每个路径上各个节点所对应的价值;
S4、选择当前根节点R下最优的行动与环境进行交互,智能体达到下一状态,重复S3~S4。
2.根据权利要求1所述的一种用于智能体连续空间行动规划的方法,其特征在于,所述的策略网络模块包括依次连接的输入层、两个隐藏层和输出层,输入层、两个隐藏层的参数与价值网络模块共享,策略网络模块的标签由KR-PV-UCT模拟从根节点中选出的最佳的行动而获得,即最佳的行动的概率为1,其他行动的概率为0。
3.根据权利要求2所述的一种用于智能体连续空间行动规划的方法,其特征在于,根据下式损失函数对策略网络模块进行训练:
Figure FDA0002748271160000021
其中,ψi为第i次迭代策略网络模块的参数,
Figure FDA0002748271160000022
为第i次迭代策略网络模块的损失函数,M为第i次训练时的训练样本的大小,p(am)为策略模块的标签,
Figure FDA0002748271160000023
为策略网络模块的输出,
Figure FDA0002748271160000024
为KR-PV-UCT模拟从根节点中选出的最佳的行动。
4.根据权利要求1所述的一种用于智能体连续空间行动规划的方法,其特征在于,所述的价值网络模块包括依次连接的输入层、两个隐藏层和输出层,价值网络模块的标签通过智能体与环境交互时产生的信息得到,随后利用有监督学习的方式进行训练完成价值网络模块的进化。
5.根据权利要求4所述的一种用于智能体连续空间行动规划的方法,其特征在于,所述的价值网络模块的标签通过下式得到:
Figure FDA0002748271160000025
其中,st为第t时间步时智能体所处的状态,
Figure FDA0002748271160000026
是状态st的价值标签,Ri为智能体在第i步时的奖励,γ为衰减因子,T为一个周期内总时间步。
6.根据权利要求4所述的一种用于智能体连续空间行动规划的方法,其特征在于,根据下式损失函数对价值网络模块进行训练:
Figure FDA0002748271160000027
其中,M为第i次训练时的训练样本的大小,
Figure FDA0002748271160000028
为第i次迭代价值网络模块的参数,
Figure FDA0002748271160000029
为第i次迭代价值网络模块的损失函数,
Figure FDA00027482711600000210
是状态s的价值标签,
Figure FDA00027482711600000211
为第i次迭代时价值网络模块对状态s的价值评估。
7.根据权利要求1所述的一种用于智能体连续空间行动规划的方法,其特征在于,步骤S3的选择过程中子节点选择策略为:
Figure FDA00027482711600000212
Figure FDA00027482711600000213
Figure FDA00027482711600000214
其中,action表示选择的子节点,A是节点的行动集合,a、b为A中的任意两个行动,E(v|a)是行动a价值的期望,W(a)为对行动a访问次数的估计,W(b)为对行动b访问次数的估计,K(a,b)是行动a与行动b之间的核函数,K(a,b)表示行动a与行动b之间的相似性,nb是行动b的真实访问次数,
Figure FDA0002748271160000031
是行动b的真实价值。
8.根据权利要求7所述的一种用于智能体连续空间行动规划的方法,其特征在于,步骤S4选择最优行动的方式为:
Figure FDA0002748271160000032
其中,actionfinal为选择的最优行动,A是根节点的行动集合,C为超参数。
9.一种用于智能体连续空间行动规划的装置,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如权利要求1~8任一项所述的用于智能体连续空间行动规划的方法的步骤。
10.一种用于智能体连续空间行动规划的存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~8任一项所述的用于智能体连续空间行动规划的方法的步骤。
CN202011174304.1A 2020-10-28 2020-10-28 用于智能体连续空间行动规划的方法、装置及存储介质 Active CN112264999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011174304.1A CN112264999B (zh) 2020-10-28 2020-10-28 用于智能体连续空间行动规划的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011174304.1A CN112264999B (zh) 2020-10-28 2020-10-28 用于智能体连续空间行动规划的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112264999A true CN112264999A (zh) 2021-01-26
CN112264999B CN112264999B (zh) 2022-06-28

Family

ID=74344373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011174304.1A Active CN112264999B (zh) 2020-10-28 2020-10-28 用于智能体连续空间行动规划的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112264999B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836805A (zh) * 2021-02-25 2021-05-25 季华实验室 Krfpv算法、执行装置、电子设备、存储介质以及神经网络
CN113146624A (zh) * 2021-03-25 2021-07-23 重庆大学 基于最大角聚集策略的多智能体控制方法
CN114083539A (zh) * 2021-11-30 2022-02-25 哈尔滨工业大学 一种基于多智能体强化学习的机械臂抗干扰运动规划方法
CN116203964A (zh) * 2023-03-13 2023-06-02 阿波罗智联(北京)科技有限公司 一种控制车辆行驶的方法、设备和装置
CN116713999A (zh) * 2023-08-07 2023-09-08 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
US20180251126A1 (en) * 2017-03-01 2018-09-06 Zoox, Inc. Trajectory generation and execution architecture
CN110297490A (zh) * 2019-06-17 2019-10-01 西北工业大学 基于强化学习算法的异构模块化机器人自重构规划方法
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180251126A1 (en) * 2017-03-01 2018-09-06 Zoox, Inc. Trajectory generation and execution architecture
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
CN110297490A (zh) * 2019-06-17 2019-10-01 西北工业大学 基于强化学习算法的异构模块化机器人自重构规划方法
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836805A (zh) * 2021-02-25 2021-05-25 季华实验室 Krfpv算法、执行装置、电子设备、存储介质以及神经网络
CN112836805B (zh) * 2021-02-25 2024-05-10 季华实验室 Krfpv算法、执行装置、电子设备、存储介质以及神经网络
CN113146624A (zh) * 2021-03-25 2021-07-23 重庆大学 基于最大角聚集策略的多智能体控制方法
CN113146624B (zh) * 2021-03-25 2022-04-29 重庆大学 基于最大角聚集策略的多智能体控制方法
CN114083539A (zh) * 2021-11-30 2022-02-25 哈尔滨工业大学 一种基于多智能体强化学习的机械臂抗干扰运动规划方法
CN116203964A (zh) * 2023-03-13 2023-06-02 阿波罗智联(北京)科技有限公司 一种控制车辆行驶的方法、设备和装置
CN116203964B (zh) * 2023-03-13 2024-02-09 阿波罗智联(北京)科技有限公司 一种控制车辆行驶的方法、设备和装置
CN116713999A (zh) * 2023-08-07 2023-09-08 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置
CN116713999B (zh) * 2023-08-07 2023-10-20 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置

Also Published As

Publication number Publication date
CN112264999B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN112264999B (zh) 用于智能体连续空间行动规划的方法、装置及存储介质
Liu et al. Autonomy oriented computing: from problem solving to complex systems modeling
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
US11086938B2 (en) Interpreting human-robot instructions
CN110014428B (zh) 一种基于强化学习的时序逻辑任务规划方法
Lonza Reinforcement Learning Algorithms with Python: Learn, understand, and develop smart algorithms for addressing AI challenges
Plasencia et al. Open source robotic simulators platforms for teaching deep reinforcement learning algorithms
Gym et al. Deep reinforcement learning with python
Keselman et al. Reinforcement learning with a* and a deep heuristic
Taghizadeh et al. A novel graphical approach to automatic abstraction in reinforcement learning
Ziya et al. Comparative study for deep reinforcement learning with CNN, RNN, and LSTM in autonomous navigation
Zhao et al. Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach
Velasquez et al. Dynamic automaton-guided reward shaping for monte carlo tree search
Mohtasib et al. A study on dense and sparse (visual) rewards in robot policy learning
Moro et al. Goal-directed planning via hindsight experience replay
Laversanne-Finot et al. Intrinsically motivated exploration of learned goal spaces
CN117634645A (zh) 一种用于多智能体强化学习中的对比学习表征方法
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Greengard Better algorithms through faster math
Liu et al. Stationary deep reinforcement learning with quantum k-spin hamiltonian regularization
Penkov et al. Explaining transition systems through program induction
Driessens Focused imagination: Hard attention for reinforcement learning with imagination
Kumar et al. A Novel Algorithm for Optimal Trajectory Generation Using Q Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Wei

Inventor after: Liu Tianxing

Inventor after: Tian Xiaohe

Inventor before: Li Wei

Inventor before: Liu Tianxing

Inventor before: Gan middle school

Inventor before: Tian Xiaohe

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant