CN115081612A - 用以改进机器人策略学习的设备和方法 - Google Patents
用以改进机器人策略学习的设备和方法 Download PDFInfo
- Publication number
- CN115081612A CN115081612A CN202210250821.5A CN202210250821A CN115081612A CN 115081612 A CN115081612 A CN 115081612A CN 202210250821 A CN202210250821 A CN 202210250821A CN 115081612 A CN115081612 A CN 115081612A
- Authority
- CN
- China
- Prior art keywords
- model
- strategy
- training data
- state
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009471 action Effects 0.000 claims abstract description 48
- 238000012937 correction Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000007704 transition Effects 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 15
- 238000004519 manufacturing process Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 230000036962 time dependent Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 7
- 239000003795 chemical substances by application Substances 0.000 description 18
- 238000009826 distribution Methods 0.000 description 9
- 230000002787 reinforcement Effects 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 239000012636 effector Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 241001028048 Nicola Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 238000010413 gardening Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000012285 ultrasound imaging Methods 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0011—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
- G05D1/0016—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement characterised by the operator's input device
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/17—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Feedback Control In General (AREA)
Abstract
用以改进机器人策略学习的设备和方法。一种用于学习策略的计算机实现的方法,包括以下步骤:至少记录代理与其遵循策略的环境的交互情节,并将所记录的情节添加到训练数据集合。基于训练数据来优化转变动力学模型,使得转变动力学模型取决于训练数据中包含的状态和动作来预测环境的下一状态。通过优化回报,基于训练数据和转变动力学模型来优化策略参数。该方法的特征在于,转变动力学模型包括表征全局模型的第一模型和表征校正模型的第二模型,该校正模型被配置为校正第一模型的输出。
Description
本发明涉及一种用于通过改进的环境模型学习策略的方法、一种计算机程序和一种机器可读存储介质、一种实行所述方法的系统。
现有技术
在强化学习中,目标是控制真实的、未知的随机系统,其特征在于转变动力学p:
方程(1):
方程(2):
实际上,确切的动力学p是未知的。一种解决方式将是从与真实系统p交互中收集数据,并使用它来优化策略。这样做的另一种方式是基于模型的强化学习,其中基于来自方程(1)的轨迹数据学习近似的动力学模型。也就是说,将当前策略π θ 应用于系统,并在以下伪代码的第4行中记录状态转变:
用于基于通用模型的强化学习的伪代码:
存在两种主要方式来减轻模型误差。一种是改进第5行中伪代码的模型训练,而替代方法聚焦于第6行中的策略优化。
Michael Janner, Justin Fu, Marvin Zhang和Sergey Levine的“When totrust your model: Model-based policy optimization”(在Advances in NeuralInformation Processing Systems中, volume 32, pages 12519–12530. CurranAssociates, Inc., 2019)提出以从D env 独立同分布选择的状态开始,仅用模型模拟短范围。由于模拟误差与该范围的长度相结合,因此这减小误差的大小。然而,它没有解决来自推广(rollout)的模型误差的根本问题,并且使推广范围成为基本的(并且调谐起来具有挑战的)超参数。
Andreas Doerr, Christian Daniel, Duy Nguyen-Tuong, Alonso Marco,Stefan Schaal, Toussaint Marc和Sebastian Trimpe的“Optimizing long-termpredictions for model-based policy search”(volume 78 of Proceedings ofMachine Learning Research, pages 227–238. PMLR, 13–15 Nov 2017. URL)取而代之地聚焦于学习近似模型以在长期预测任务上具有低误差。
迭代学习控制(D. A. Bristow, M. Tharayil和A. G. Alleyne的“A survey ofiterative learning control”,IEEE Control Systems Magazine, 26(3):96–114,2006)描述了聚焦于基于模型的RL的特定子情况的一类方法,其中策略π和学习模型两者是固定的,除了时间相关误差项,该时间相关误差项可以基于其学习模型的线性化以及以状态和动作为二次的回报函数而以封闭形式计算。
本发明的优点
方程(3):
为此目的,提出了一种特定形式的模型学习,它可以附加于其他模型学习方法一起使用以改进学习性能。特别地,虽然现有方法仅基于环境数据学习真实动力学p的全局模型g,但是提出附加地学习(同策略(on-policy))校正项。于是所得模型近似由方程(4)给出:
方程(4):
其具有可以是状态相关的全局模型g和同策略校正模型d t 。
如果全局模型和/或校正项d t 是概率性的,则求和运算被解释为由分布编码的随机变量的总和。
虽然全局模型g全局地近似动力学(包括异策略(off-policy),或者换句话说,对于RL过程期间所有收集的数据),但是同策略校正确保了低误差的同策略(或者换句话说,利用与当前策略相似的策略已经收集的数据)。
如果从具有如方程(4)中提出的预期转变动力学的D env 中的情节重播动作序列,则可以从真实环境获得确切的情节数据。因此,方程(3)中的同策略模型误差减少,这导致在优化策略时改进的稳定性和数据效率。
在确定性转变动力学和策略的特例中,校正项导致同策略模型中的零误差。
发明内容
在第一方面,本发明涉及一种用于为代理、特别是至少部分自主的机器人学习策略的计算机实现的方法。取决于当前状态,可以将策略配置为输出动作或动作上的分布。如果遵循由策略提出的动作,将实现策略已经对于其优选地通过强化学习进行了优化的目标。
该方法以初始化策略π θ 和转变动力学模型开始,倘若代理实行动作(a),则该转变动力学模型取决于当前状态(s t )和所述动作(a)两者预测在环境和/或代理的下一状态(s t+1)之上的分布。因此,可以说转变动力学模型近似转变概率或确定性转变并输出下一状态。注意,环境也可以是系统,其中代理例如是系统的参与者(actor)。转变动力学模型将当前状态和动作(例如由策略确定的动作)取作输入,并返回下一状态或下一状态之上的分布。
此后跟随着重复以下步骤,直到满足终止条件:
通过遵循策略π θ 并且将记录的情节添加到训练数据D env 的集合来至少记录代理与其环境的交互情节。情节可以是代理的轨迹。
记录的交互可以包括成对的状态和应用的动作或者应用的动作和此后到达的下一状态。然后,情节包括从第一动作开始直到最后一个动作的所有对。记录交互的步骤可以在真实世界环境中执行。附加地或替代地,该步骤通过环境模拟来实行。状态通常由传感器感测,其中传感器感测代理的状态和/或代理的环境状态,然后将其用作策略的输入。在环境模拟的情况下,模拟状态。
情节可以同步或异步、同策略或异策略收集并具有完整或部分轨迹。
在将情节添加到经训练的数据之后,跟随着基于训练数据D env 对转变动力学模型()的优化,使得转变动力学模型()取决于包含在训练数据D env 中的状态和动作来预测环境的下一状态。有趣的是,所有记录的情节可以独立于经训练策略的过程而被重新使用。该属性使得该步骤非常采样高效。
转变动力学模型()的特征在于,它包括表征全局模型的第一模型(g)和也被称为同策略校正模型的校正模型(d t ),该校正模型(d t )被配置为校正第一模型的输出。换句话说,转变动力学模型是第一和第二模型的叠加。在下文中,校正模型也被称为校正项。转变动力学模型被配置为预测环境和/或代理在实行针对当前状态的预定义动作时将处于的下一状态。因此,它预测下一时间步长的状态,其中时间步长可以与实行动作或感测状态的时间点相关。时间步长也可以是离散值,它表征自预定义的起始点起所实行的动作数量。校正模型被配置为在实行动作之后校正第一模型相对于环境真实状态的误差。例如,第一模型取决于当前状态和例如由策略确定的动作来预测环境的状态。然后,校正模型校正第一模型的预测状态,使得在代理针对当前状态实行所述动作之后,预测状态尽可能地类似于环境的真实状态。换句话说,校正模型校正第一模型的输出,以获得尽可能接近环境将呈现的状态的预测状态。因此,校正模型校正第一模型以获得关于环境、特别是环境动力学的更准确的状态。
注意,转变动力学模型被学习来近似环境的动力学,并且优选地是代理的动力学。这可以实现所述模型基于来自D env 的情节数据尽可能准确地预测状态。
优选地,第一模型取决于环境的当前状态和动作,并且如果实行输入的动作,则输出环境的预测状态。校正项取决于时间或时间步长和/或当前状态。替代地,校正项是提取的校正值,其由训练数据的记录状态和第一模型的预测状态之间的差异来确定。校正项输出对于第一模型的校正。第一模型被参数化,其中其参数在优化转变动力学模型的步骤中被优化。相比之下,校正模型输出可以直接添加到第一模型的离散校正,或者校正项也在训练数据的记录状态和第一模型的预测状态之间的差异上进行参数化和优化。校正项的特例是非参数化函数,而取而代之由时间离散误差项组成。
在前一步骤完成之后,此后跟随着通过经由遵循(当前)策略π θ 优化至少一个情节之上的回报r,从而基于训练数据D env 和转变动力学模型优化策略π θ 参数θ,其中转变动力学模型用于预测应用策略时的下一状态。换句话说,策略不是应用于环境上,取而代之它与转变动力学模型交互。该优化步骤也可以称为通过基于模型的强化学习来优化策略。所述优化包括特别是取决于回报来更新策略的参数。
给定学习的转变动力学模型,可以使用任何策略优化方法。除许多其他事物之外,示例还包括软参与者-评论者(Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel和Sergey Levine的“Soft actor-critic: Off-policy maximum entropy deep reinforcement learningwith a stochastic actor”,2018),或者随机值梯度(Nicolas Heess, Gregory Wayne,David Silver, Timothy Lillicrap, Tom Erez和Yuval Tassa的“Learning continuouscontrol policies by stochastic value gradients”,In C. Cortes, N. Lawrence, D.Lee, M. Sugiyama和R. Garnett, editors的“Advances in Neural InformationProcessing Systems”,volume 28, pages 2944–2952. Curran Associates, Inc., 2015.URL )。
该策略可以是神经网络,或任何其他参数化的分布或动作之上的确定性函数。
回报指示所采取的状态和/或动作的质量。典型地,该回报信号被设计来操控学习算法的行为。一般地,回报信号将大的值赋予合期望的状态/动作,并将小的(或负的)值赋予代理应当避免的状态/动作。可能的回报信号包括但不限于:某个参考状态信号的负跟踪误差、特定任务成功的指示函数或其平滑变体(例如,指数函数)、负二次成本项(类似于来自最优控制的方法)等。如果学习算法应当同时为多个目标而努力,也可能的是构建另一个回报信号作为加权的一些其他回报信号。
如果不满足终止条件,将以记录情节开始重复上面刚解释的步骤。终止条件可以是相对于策略优化而选择的收敛标准。注意,如果转变动力学模型足够准确,则可以跳过记录情节的步骤。
换句话说,第一方面提出的方法通过添加状态和/或时间相关项来扩展转变动力学模型,以减少同策略的模型预测,即在由当前控制策略选择的动作下。这具有如下优点:转变动力学模型在没有与环境的附加交互的情况下变得更准确。因为转变动力学模型的准确性仅对于与学习策略相关的部分有所改进,特别是对于通过遵循策略而达到的所述部分有所改进,所以所述方法自动地仅集中于全局模型的相关部分来改进它。
提出了为了优化转变动力学模型()在训练数据上优化第一模型之后选择校正项,使得对于从训练数据D env 上的策略π θ 中选择的动作,转变动力学模型误差是低的。校正模型适用于当前策略,以为每个收敛状态提供最准确的转变动力学模型。优选地,校正模型被优化,使得全局模型的误差对于当前策略是最小的,其中当前策略是取决于新添加的训练数据当前被优化的策略。
方程(5):
此外,提出了校正模型d t 与第一项g联合优化。优选地,为了优化策略参数θ,可以通过策略π θ 下的动作的可能性(或对数可能性)来重新加权校正模型d t ,以确保同策略模型拟合。
此外,提出了校正项d t 是状态和/或时间相关的。该时间可以是自情节开始起经过的时间。在训练期间,自情节开始起经过的时间是从已经感测到环境的第一状态的时间点直到感测到当前状态的当前时间点可以测量的时间。当利用根据本发明第一方面获得的策略时,也可以应用相同的定义。替代地,时间可以表征自情节的第一动作起已经实行的动作数量。
此外,提出了校正项是概率函数,其中所述概率函数通过近似推断来优化。当确切的学习和推断在计算上难以处理时,近似推断方法通过折衷计算时间来换取准确性,从而使得从大数据学习现实模型成为可能。
策略的所确定动作可以被用来提供用于控制代理的参与者的控制信号,包括用于控制机器人的以上方法的所有步骤,并且进一步包括以下步骤:取决于所述输出信号确定所述致动器控制信号。优选地,所述致动器控制至少部分自主的机器人和/或制造机器和/或访问控制系统。
注意,可以学习策略以用于控制代理的动力学和/或稳定性。该策略可以接收表征代理和/或环境的状态的传感器值作为输入。该策略被训练成通过最大化阶段回报来遵循最优轨迹。该策略输出表征控制值的值,使得代理将遵循最优轨迹。
将参考以下各图更详细地讨论本发明的实施例。各图示出了:
图1 方法的流程图;
图2 控制系统,具有控制其环境中的致动器的分类器;
图3 控制至少部分自主的机器人的控制系统;
图4 控制制造机器的控制系统;
图5 控制自动化个人助理的控制系统;
图6 控制访问控制系统的控制系统;
图7 控制监督系统的控制系统;
图8 控制成像系统的控制系统。
具体实施方式
在基于模型的强化学习中,学习真实系统p的转变概率或确定性转变的近似模型。也就是说,学习模型将当前状态和控制动作取作输入,并返回下一状态或下一状态之上的分布。因此,该模型可以用于使用现有策略优化方法结合来优化策略。所提出的同策略校正采用对的固定的或学习的近似,并利用状态和/或时间相关项来扩展它,以减少同策略的模型预测,即在当前控制策略π所选择的动作下。
图1中示出的是用于学习用于控制机器人的策略的方法的实施例的流程图。
此后跟随着循环,直到满足终止条件:
循环的第一步骤是至少记录(S2)代理与其遵循策略(π θ )的环境的交互情节。后续,记录的情节被添加(S3)到训练数据(D env )的集合。
在完成步骤S4之后,跟随着步骤S5。该步骤包括通过经由遵循策略(π θ )而优化至少一个情节之上的回报,来基于训练数据(D env )和转变动力学模型()优化策略(π θ )参数(θ)。给定步骤S4的转变动力学模型(),可以使用任何策略优化方法。除许多其他事物之外,示例还包括软参与者-评论者、随机值梯度、近似策略优化和最大后验策略优化。
如果步骤S5已经完成并且不满足终止条件,则可以重复该循环。
如果该循环已经终止,则所得的优化策略可以用于计算用于控制物理系统的控制信号,所述物理系统例如是计算机控制的机器、机器人、载具、家用电器、电动工具、制造机器或访问控制系统。它通过学习用于控制物理系统的策略并且然后相应地操作物理系统来这样做。一般来说,如上所述获得的策略与任何种类的系统交互。照此,应用范围非常广泛。在下文中,示例性地描述了一些应用。
图2中示出的是在其环境20中的致动器10的一个实施例。致动器10与控制系统40交互。致动器10及其环境20将被统称为致动器系统。在优选均匀间隔的距离处,传感器30感测致动器系统的状况。传感器30可以包括几个传感器。对所感测的状况进行编码的传感器30的输出信号S(或者,在传感器30包括多个传感器的情况下,每个传感器的输出信号S)被传输到控制系统40。可能的传感器包括但不限于:陀螺仪、加速度计、力传感器、相机、雷达、lidar、角度编码器等。注意,传感器通常不直接测量系统的状态,而是观察状态的结果,例如,相机检测图像而不是直接检测汽车与其他交通参与方的相对位置。然而,可能的是从如图像或lidar测量之类的高维观察中过滤状态。
由此,控制系统40接收传感器信号S的流。然后,它取决于传感器信号S的流计算一系列致动器控制命令A,该一系列致动器控制命令A然后被传输到致动器10。
控制系统40在可选的接收单元50中接收传感器30的传感器信号S的流。接收单元50将传感器信号S变换成状态s。替代地,在没有接收单元50的情况下,每个传感器信号S可以直接取作输入信号s。
输入信号s然后被传递到策略60,该策略60例如可以由人工神经网络给出。
策略60从输入信号s确定输出信号y。输出信号y可以是动作a。输出信号y被传输到可选的转换单元80,该可选的转换单元80将输出信号y转换成控制命令A。致动器控制命令A然后被传输到致动器10,用于相应地控制致动器10。替代地,输出信号y可以直接取作控制命令A。
致动器10接收致动器控制命令A,被相应地控制,并且实行对应于致动器控制命令A的动作。致动器10可以包括控制逻辑,该控制逻辑将致动器控制命令A变换成另外的控制命令,该另外的控制命令然后被用于控制致动器10。
在另外的实施例中,控制系统40可以包括传感器30。在甚至另外的实施例中,控制系统40替代地或附加地可以包括致动器10。
在一个实施例中,策略60可以被设计为用于控制物理系统的信号,所述物理系统例如是计算机控制的机器、机器人、载具、家用电器、电动工具、制造机器或访问控制系统。它通过学习用于控制物理系统的策略并且然后相应地操作物理系统来这样做。
在仍另外的实施例中,可以设想的是控制系统40控制显示器10a而不是致动器10。
此外,控制系统40可以包括处理器45(或多个处理器)和其上存储有指令的至少一个机器可读存储介质46,如果实行所述指令,则使得控制系统40实行根据本发明一个方面的方法。
图3示出了一实施例,其中控制系统40用于控制至少部分自主的机器人、例如至少部分自主的载具100。
传感器30可以包括一个或多个视频传感器和/或一个或多个雷达传感器和/或一个或多个超声波传感器和/或一个或多个LiDAR传感器和/或一个或多个位置传感器(如例如GPS)。这些传感器中的一些或全部优选地但不是必须地集成在载具100中。
替代地或附加地,传感器30可以包括用于确定致动器系统状态的信息系统。这样的信息系统的一个示例是天气信息系统,其确定环境20中天气的目前或未来状态。
例如,使用输入信号s,策略60可以例如控制至少部分自主的机器人以实现预定义的目标状态。输出信号y控制至少部分自主的机器人。
优选地集成在载具100中的致动器10可以由载具100的制动器、推进系统、发动机、传动系或转向装置来给出。优选地,可以确定致动器控制命令A,使得致动器(或多个致动器)10被控制,使得载具100避免与至少部分自主机器人的环境中的对象碰撞。
优选地,至少部分自主的机器人是自主汽车。汽车状态的可能描述可以包括它的位置、速度、与其他交通参与方的相对距离、路面的摩擦系数(可以因例如雨、雪、干燥等不同的环境而变化)。可以测量该状态的传感器包括陀螺仪、车轮处的角度编码器、相机/lidar/雷达等。这种类型的学习的回报信号将表征汽车对预先计算的轨迹(也称为参考轨迹)多么好地遵循。参考轨迹可以由最佳规划器来确定。该系统的动作可以是转向角、制动和/或油门。优选地,制动压力或转向角由策略输出,所述策略特别是使得实现最小的制动距离或实行回避操纵,如(次)最优规划器将这样做。
注意,对于该实施例,可以学习策略以用于控制至少部分自主的机器人的动力学和/或稳定性。例如,如果机器人处于安全危急情形,则策略可以例如通过实行紧急制动来控制机器人操纵它脱离所述危急情形。然后,该策略可以输出表征负加速度的值,其中取决于所述值来控制参与者,例如用与负加速度相关的力来中断。
在另外的实施例中,至少部分自主的机器人可以由另一个移动机器人(未示出)给出,该另一个移动机器人(未示出)可以例如通过飞行、游泳、潜水或行走来移动。移动机器人尤其可以是至少部分自主的割草机,或者至少部分自主的清洁机器人。
在另外的实施例中,至少部分自主的机器人可以由园艺机器人(未示出)给出,该园艺机器人(未示出)使用传感器30、优选地是光学传感器来确定环境20中的植物的状态。致动器10可以是用于喷洒化学物质的喷嘴。可以确定致动器控制命令A,以使得致动器10向植物喷洒合适量的合适化学物质。
在甚至另外的实施例中,至少部分自主的机器人可以由家用电器(未示出)给出,该家用电器(未示出)如例如是洗衣机、炉子、烤箱、微波炉或洗碗机。传感器30(例如光学传感器)可以检测将由家居电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器30可以检测洗衣机内部衣物的状态。然后可以取决于检测到的衣物材料来确定致动器控制信号A。
图4中示出的是一实施例,其中控制系统40用于控制例如作为生产线的一部分的制造系统200的制造机器11(例如冲压切割机、切割机或枪钻)。控制系统40控制致动器10,该致动器10进而控制制造机器11。
传感器30可以由光学传感器给出,该光学传感器捕获例如制造产品12的属性。策略60可以取决于制造产品12的状态来确定操控产品12的动作。控制制造机器11的致动器10然后可以取决于所确定的制造产品12的状态被控制,用于制造产品12的后续制造步骤。或者,可以设想的是,取决于所确定的制造产品12的状态,在后续制造产品12的制造期间控制致动器10。
用于制造的优选实施例涉及通过机器人自主(拆卸)组装某些对象。状态可以取决于传感器来确定。优选地,为了组装对象,状态表征机器人操控器本身和应当被操控的对象。对于机器人操控器,状态可以由其关节角和角速度以及其末端执行器的位置和取向组成。该信息可以通过关节中的角度编码器以及测量机器人关节角速率的陀螺仪来测量。从运动学方程中,可能的是推导出末端执行器位置和取向。取而代之,也可能的是利用相机图像或lidar扫描来推断与机器人操控器的相对位置和取向。机器人任务的回报信号可以例如拆分成组装过程的不同阶段。例如,当在组装期间将销插入孔中时,合适的回报信号将编码销相对于孔的位置和取向。典型地,机器人系统经由每个关节处的电动机来致动。因此,取决于实现,学习算法的动作可以是所需的扭矩或者是直接施加到电机的电压/电流。
图5中示出的是一实施例,其中控制系统40用于控制自动化个人助理250。传感器30可以是例如用于接收用户249的手势的视频图像的光学传感器。替代地,传感器30也可以是例如用于接收用户249的语音命令的音频传感器。
控制系统40然后确定用于控制自动化个人助理250的致动器控制命令A。根据传感器30的传感器信号S确定致动器控制命令A。传感器信号S被传输到控制系统40。例如,策略60可以被配置为例如取决于表征手势识别的状态来确定动作,该手势识别可以由算法来确定以标识用户249做出的手势。控制系统40然后可以确定致动器控制命令A,用于传输到自动化个人助理250。然后,它将所述致动器控制命令A传输到自动化个人助理250。
例如,可以根据由分类器60识别的所标识用户手势来确定致动器控制命令A。然后,它可以包括使得自动化个人助理250从数据库检索信息并以适合于用户249接收的形式输出该检索到的信息的信息。
在另外的实施例中,可以设想的是,代替自动化个人助理250,控制系统40控制根据所标识的用户手势控制的家用电器(未示出)。家用电器可以是洗衣机、炉子、烤箱、微波炉或洗碗机。
图6中示出的是一实施例,其中控制系统控制访问控制系统300。访问控制系统可以被设计成物理地控制访问。例如,它可以包括门401。传感器30被配置为检测与决定是否准许访问相关的场景。例如,它可以是用于提供图像或视频数据、用于检测人脸的光学传感器。
图7中示出的是一实施例,其中控制系统40控制监督系统400。该实施例在很大程度上与图5中所示的实施例等同。因此,将仅详细描述不同的方面。传感器30被配置为检测被监督的场景。控制系统不一定控制致动器10,而是控制显示器10a。例如,机器学习系统60可以确定场景的分类,例如光学传感器30检测到的场景是否可疑。被传输到显示器10a的致动器控制信号A然后可以例如被配置为使得显示器10a取决于所确定的分类来调整所显示的内容,例如突出显示被机器学习系统60认为可疑的对象。
图8中示出的是用于控制成像系统500的控制系统40的实施例,成像系统500例如是MRI装置、x射线成像装置或超声成像装置。传感器30例如可以是成像传感器。策略60然后可以基于其输入状态确定表征轨迹的动作,以取得成像系统500的记录。
术语“计算机”涵盖用于处理预定义计算指令的任何设备。这些计算指令可以以软件的形式,或者以硬件的形式,或者还以软件和硬件的混合形式。
进一步理解,过程不仅可以完全以如描述的软件来实现。它们也可以以硬件或者以软件和硬件的混合形式来实现。
Claims (13)
1.一种用于学习用于代理的策略的计算机实现的方法,包括以下步骤:
- 重复以下步骤,直到满足终止条件:
-至少记录(S2)代理与遵循策略(π θ )的环境的交互情节,并且将记录的情节添加(S3)到训练数据(D env )的集合;
其特征在于
5.根据前述权利要求中任一项所述的方法,其中校正模型(d t )与第一模型(g)联合优化。
6.根据前述权利要求中任一项所述的方法,其中校正模型(d t )是状态或时间相关的,其中时间表征自相应情节开始起经过的时间跨度。
7.根据权利要求6所述的方法,其中环境是确定性的,并且校正模型是时间相关的。
8.根据前述权利要求中任一项所述的方法,其中校正模型是概率函数,其中所述概率函数通过近似推断来优化。
9.一种用于取决于根据前述权利要求中任一项获得的学习策略(π θ )来操作代理的计算机实现的方法,其中传感器感测代理的环境,并且其中取决于所感测的环境来确定当前状态(s t ),并且其中所述学习策略(π θ )取决于当前状态来确定用于代理的动作(a t ),其中代理实行所述动作。
10.根据前述权利要求中任一项所述的方法,其中代理是至少部分自主的机器人(100)和/或制造机器(200)和/或访问控制系统(300)。
11.一种计算机程序,其被配置为如果所述计算机程序由处理器(45,145)实行,则使得计算机实行根据权利要求1至10中任一项的方法及其所有步骤。
12.一种机器可读存储介质(46,146),其上存储根据权利要求11的计算机程序。
13.一种用于操作致动器(10)的控制系统(40),所述控制系统(40)包括利用根据权利要求1至8中任一项所述的方法训练的策略(60),并且被配置为根据所述策略(60)的输出来操作所述致动器(10)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21162920.9A EP4060567A1 (en) | 2021-03-16 | 2021-03-16 | Device and method to improve learning of a policy for robots |
EP21162920.9 | 2021-03-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115081612A true CN115081612A (zh) | 2022-09-20 |
Family
ID=74946996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210250821.5A Pending CN115081612A (zh) | 2021-03-16 | 2022-03-15 | 用以改进机器人策略学习的设备和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220297290A1 (zh) |
EP (1) | EP4060567A1 (zh) |
CN (1) | CN115081612A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402956B (zh) * | 2023-06-02 | 2023-09-22 | 深圳大学 | 智能驱动的三维物体可交互重建方法、装置、设备和介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10285760B2 (en) * | 2015-02-04 | 2019-05-14 | Queen's University At Kingston | Methods and apparatus for improved electromagnetic tracking and localization |
US10558929B2 (en) * | 2016-05-31 | 2020-02-11 | The Boeing Company | Monitored machine performance as a maintenance predictor |
US11119483B2 (en) * | 2018-02-22 | 2021-09-14 | Alan M. Kadin | System and method for conscious machines |
US20210178600A1 (en) * | 2019-12-12 | 2021-06-17 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning |
US20220261630A1 (en) * | 2021-02-18 | 2022-08-18 | International Business Machines Corporation | Leveraging dynamical priors for symbolic mappings in safe reinforcement learning |
-
2021
- 2021-03-16 EP EP21162920.9A patent/EP4060567A1/en active Pending
-
2022
- 2022-03-01 US US17/652,983 patent/US20220297290A1/en active Pending
- 2022-03-15 CN CN202210250821.5A patent/CN115081612A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220297290A1 (en) | 2022-09-22 |
EP4060567A1 (en) | 2022-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morales et al. | A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning | |
Jesus et al. | Deep deterministic policy gradient for navigation of mobile robots in simulated environments | |
Grigorescu et al. | Neurotrajectory: A neuroevolutionary approach to local state trajectory learning for autonomous vehicles | |
Sadeghzadeh et al. | Self-learning visual servoing of robot manipulator using explanation-based fuzzy neural networks and Q-learning | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
Liu et al. | Episodic memory-based robotic planning under uncertainty | |
Katyal et al. | High-speed robot navigation using predicted occupancy maps | |
CN118201742A (zh) | 使用图神经网络的多机器人协调 | |
CN113671942A (zh) | 用于控制机器人的设备和方法 | |
CN111949013A (zh) | 控制载具的方法和用于控制载具的装置 | |
Mustafa | Towards continuous control for mobile robot navigation: A reinforcement learning and slam based approach | |
EP3884436A1 (en) | Controlling agents using latent plans | |
Chen et al. | Deep reinforcement learning of map-based obstacle avoidance for mobile robot navigation | |
CN115081612A (zh) | 用以改进机器人策略学习的设备和方法 | |
Gök | Dynamic path planning via Dueling Double Deep Q-Network (D3QN) with prioritized experience replay | |
CN117553798A (zh) | 复杂人群场景中移动机器人的安全导航方法、设备及介质 | |
CN111984000A (zh) | 用于自动影响执行器的方法和设备 | |
CN113959446B (zh) | 一种基于神经网络的机器人自主物流运输导航方法 | |
US20230090127A1 (en) | Device and method for controlling an agent | |
Paudel | Learning for robot decision making under distribution shift: A survey | |
KR102617418B1 (ko) | 센서 구성과 로봇 형태에 적응 가능한 강화학습 기반 자율주행 방법, 컴퓨터 시스템, 및 컴퓨터 프로그램 | |
Alamiyan-Harandi et al. | A new framework for mobile robot trajectory tracking using depth data and learning algorithms | |
Zhou et al. | Deep reinforcement learning with long-time memory capability for robot mapless navigation | |
CN114474040A (zh) | 用于优化机器人的策略的方法 | |
Demir et al. | Motion planning and control with randomized payloads on real robot using deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |