CN112292239A - 用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备 - Google Patents
用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备 Download PDFInfo
- Publication number
- CN112292239A CN112292239A CN201980043512.7A CN201980043512A CN112292239A CN 112292239 A CN112292239 A CN 112292239A CN 201980043512 A CN201980043512 A CN 201980043512A CN 112292239 A CN112292239 A CN 112292239A
- Authority
- CN
- China
- Prior art keywords
- technical system
- steps
- environment
- operating
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004088 simulation Methods 0.000 claims abstract description 90
- 238000010801 machine learning Methods 0.000 claims abstract description 50
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 24
- 230000000704 physical effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 description 9
- 239000012636 effector Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39406—Obtain optimal parameters of model of system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40494—Neural network for object trajectory prediction, fuzzy for robot path
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备。借助至少一个传感器(101)检测(1)技术系统(TS)的初始状态(AZ)和环境(UM)并且因此创建技术系统(TS)的物理仿真模型(SIM)。借助仿真模型(SIM)并且从初始状态(AZ)出发并且参考规定的目标状态(ZZ),仿真技术系统(TS)的操作步骤的不同组合,其中改变技术系统的用于实施操作步骤的调节参数。借助仿真数据并且借助对相应操作步骤的评定来训练机器学习例程并且利用经训练的机器学习例程确定操作步骤的优化组合。输出操作步骤的优化组合的调节参数来控制技术系统(TS)。
Description
技术领域
本发明涉及用于计算机辅助地确定用于适宜操作技术系统、特别是自主技术系统、诸如自主机器人的调节参数的方法和设备。
背景技术
借助自主技术系统、诸如自主机器人可以操纵物体。在此作为示例可以提到由机器人的末端执行器来抓住对象。常规控制方法例如基于由传感器识别物体和环境和其中的技术系统并且借助路径规划算法来确定用于抓住对象的合适操作流程或路径。因此,常规方法通常只能观察并且只能困难地预测技术系统的环境的实际状态,如基于物理规律来预测,所述物理规律的行为影响所述环境。
例如可以使用所谓的同时定位与地图创建方法(英文:“SimultaneousLocalization and Mapping”),其也称为SLAM方法,其中借助传感器数据检测或评估自主技术系统的环境。特别是检测自主技术系统本身和必要时其他物体在环境中的位置和定向。借助通常基于数学和/或数值方法的路径规划算法可以确定自主技术系统的允许且适宜的路径或操作步骤的序列。但是,这种方法通常不考虑操作自主技术系统的后果或其他物理效应。
发明内容
因此,本发明的任务是实现以下可能性:在考虑技术系统的环境的情况下确定技术系统的适宜操作步骤。
该任务通过具有专利权利要求1的特征的方法、设备和计算机程序产品来解决。本发明的有利实施方式和扩展方案在从属权利要求中说明。
本发明的第一方面涉及一种用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法,其包括以下方法步骤:
- 借助至少一个传感器检测技术系统的初始状态和环境,
- 生成技术系统和其环境的物理仿真模型,
- 确定技术系统的目标状态,
- 从初始状态出发并且参考目标状态,借助物理仿真模型来仿真技术系统的操作步骤的不同组合,其中改变技术系统的用于实施操作步骤的调节参数,并且输出相应的所产生的仿真数据,
- 借助相应的所产生的仿真数据并且借助对相应操作步骤的评定来训练机器学习例程,
- 借助经训练的机器学习例程来确定操作步骤的优化组合,其中操作步骤的优化组合与适宜的评定相关联,以及
- 输出操作步骤的优化组合的调节参数来控制技术系统。
本发明的优点是借助结合机器学习例程的计算机辅助仿真可以以快速且高效的方式确定技术系统的操作或操作流程或路径,因为特别是物理效应、诸如重力或碰撞,和物理参量可以在确定操作步骤的优化组合时予以考虑。机器学习例程可以确定适宜的操作步骤,这些操作步骤利用物理效应、诸如与环境的相互作用,因为机器学习例程借助仿真数据来训练。特别是可以创建并代替常规SLAM方法来使用物理仿真模型。在机器学习方法的范围内,路径规划尤其可以通过以不同路径重复执行物理仿真来实现,即例如借助不同的调节参数来进行对技术系统的不同控制可能性。调节参数或控制参数尤其包括用于控制技术系统的控制命令或指令。通过例如正面评定路径可以实现优化的路径规划,因为例如可以将物理定律一并考虑到规划中。由此,对适宜的操作流程的确定特别是灵活的,因为例如不是固定不变地规定操作步骤的序列。
技术系统尤其可以是自主技术系统、诸如自主机器人。确定操作步骤的组合尤其可以理解为动作顺序的规划、操作规划或路径规划,其中各个操作步骤借助调节参数来控制。操作步骤尤其可以理解为技术系统的动作或运动。
机器学习例程可以理解为机器学习方法、诸如神经网络。尤其可以使用监督学习方法、诸如强化学习方法(英文:“Reinforcement Learning”)。机器学习例程从技术系统的由至少一个传感器确定的初始状态出发并且参考目标状态来进行训练。换言之,为了训练机器学习例程而规定目标状态并且训练机器学习例程,使得该机器学习例程从初始状态出发来确定导致目标状态的操作步骤的组合。
目标状态例如可以被规定和/或作为数据记录而读入。从初始状态出发,操作步骤的不同组合可以导致目标状态,其中所述不同组合中的一些组合能够是更适宜的。不同操作步骤可以借助仿真模型来进行计算机辅助仿真并且分别输出仿真数据。仿真数据例如可以包括技术系统的调节参数的值、状态、动作和反应以及技术系统的物理效应和参量以及技术系统的环境。
每个操作步骤和/或其效果可以被评定或者每个操作步骤可以分别与评定相关联。机器学习例程尤其可以借助分别与一个操作步骤相关联的评定来训练,诸如借助回报函数(英文:“reward function”)来训练。尤其可以优选适宜的操作步骤,其中术语“适宜”在本发明的上下文中可以理解为有利、有用、合适、合理、有效、高能效、快速、短路程等。确定适宜操作步骤的组合例如可以通过比较操作步骤的不同组合的总评定来实现,其中可以选择具有适宜的总评定的那个组合。
在方法的一种有利的实施方式中,一旦操作步骤的至少一个组合的仿真数据可用,就可以训练机器学习例程。
尤其能够有利的是,并行执行技术系统的计算机辅助仿真以及机器学习例程的训练。尤其可以并行计算多个仿真。例如可以在多于一个的计算单元、诸如图形处理器上执行并行计算。因此,例如可以实现快速且有效确定操作步骤的适宜组合。
在方法的另一有利的实施方式中,可以针对多于一个的目标状态和/或针对多于一个的初始状态执行对技术系统的仿真和对机器学习例程的训练并且分别确定具有适宜评定的操作步骤的组合并且将其存储在存储单元中。
例如可以借助在不同初始状态的仿真数据并且参考不同的目标状态来训练多于一个的机器学习例程并且分别存储操作步骤的与适宜评定相关联的组合。因此,对于技术系统的不同状态可以优选地存储相应的经训练的机器学习例程,使得当例如探测到技术系统的相应初始状态时可以快速访问所述相应的经训练的机器学习例程。也可以仿真相似的动作,训练相应的机器学习例程并且将其用于今后的训练,使得可以缩短计算时间。存储单元尤其可以是数据库。
在方法的另一有利的实施方式中,具有适宜评定的操作步骤的优化组合的调节参数可以根据目标状态而存储在存储单元中。
优选地,可以借助经训练的机器学习例程确定操作步骤的与适宜评定相关联的组合并且技术系统的调节这些操作步骤的相应调节参数可以保存在数据库中。因此,这些调节参数例如可以用于具有相同初始和目标状态的今后动作。
在方法的另一有利的实施方式中,操作步骤的优化组合的调节参数可以传输到技术系统。
调节参数可以为了控制技术系统而传输到技术系统,使得技术系统可以实施操作步骤的组合。优选地,可以仅将用于控制操作步骤的与适宜评定相关联的组合的调节参数传输到技术系统。
在方法的另一有利的实施方式中,目标状态可以根据技术系统的所检测的初始状态和/或所检测的环境来确定。
优选地,可以借助至少一个传感器确定初始状态并且据此确定目标状态。例如,目标状态可以与初始状态相关联或者可以从规定的目标状态的集合中选择目标状态。作为示例可以提到借助摄像机检测物体,其中根据该探测来规定目标状态、例如“抓住物体”。
在方法的另一有利的实施方式中,可以根据操作步骤的结果和/或参考目标状态来评定操作步骤。
可以根据动作的结果或效果来评定技术系统的操作步骤、诸如末端执行器的动作。特别是评定可以与操作步骤相关联。尤其可以根据所确定的目标状态来进行评定。
在方法的另一有利的实施方式中,可以根据技术系统的目标状态和/或环境和/或类型来构建物理仿真模型。
优选地,可以根据技术系统的目标状态和/或环境和/或类型来选择仿真模型和计算机辅助仿真的复杂度和/或维度。
在方法的另一有利的实施方式中,技术系统的初始状态和环境可以持续借助传感器来检测并且物理仿真模型可以借助传感器数据持续更新。
优选地,借助传感器连续地或在规定时间点监视技术系统的当前初始状态和环境,使得可以相应地调整物理仿真模型。
在方法的另一有利的实施方式中,技术系统的环境中的物体的物理特性可以作为参数数据来检测,被存储在存储单元中并且被整合在物理仿真模型中。
除了物体识别之外,在例如数据库中可以查询物体的物理特性或参数。技术系统的环境中的物体的物理参量、诸如重量或材料特性可以事先被检测并且被存储在存储单元中。物理特性尤其可以作为参数数据或作为输入数据被用于仿真模型。因此,例如可以详细仿真物理效应、诸如物体在地球重力场中的下落。
在方法的另一有利的实施方式中,可以时间并行地在多于一个的计算单元上仿真技术系统的操作步骤的不同组合。
优选地,计算机辅助仿真和/或对机器学习例程的训练可以并行地在诸如图形处理器(英文:“graphics processing unit”,简称GPU)上执行。因此,尤其可以快速且有效地计算适宜操作步骤的组合。
本发明的另一方面涉及一种用于计算机辅助地确定用于适宜操作技术系统的调节参数的设备,该设备包括:
- 用于检测技术系统的初始状态和环境的至少一个传感器,
- 用于生成技术系统和其环境的物理仿真模型的生成模块,
- 用于确定技术系统的目标状态的目标模块,
- 用于从初始状态出发并且参考目标状态,借助物理仿真模型来仿真技术系统的操作步骤的不同组合的仿真模块,其中改变技术系统的用于实施操作步骤的调节参数,并且输出相应的所产生的仿真数据,
- 用于根据相应的所产生的仿真数据借助对相应操作步骤的结果的评定来训练机器学习例程的训练模块,
- 用于借助经训练的机器学习例程来确定操作步骤的优化组合的优化模块,其中操作步骤的优化组合与适宜的评定相关联,以及
- 用于输出操作步骤的优化组合的调节参数来控制技术系统的输出模块。
该设备尤其可以集成到技术系统中或与该技术系统耦合。
在一种有利的实施方式中,设备包括用于将调节参数传输到技术系统的传输模块。
在另一有利的实施方式中,设备包括存储单元和/或至少一个计算单元。
存储单元例如可以是数据库。计算单元尤其可以是处理器或图像处理器。
此外,本发明包括一种计算机程序产品,其可以直接加载到可编程计算机中,该计算机程序产品包括适用于执行根据本发明的方法的步骤的程序代码部分。
附图说明
根据本发明的方法和设备的实施例在附图中示例性示出并且根据随后的说明书详细阐述。以示意图:
图1示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法的流程图;
图2示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法的示意图;以及
图3示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的设备的示意图。
彼此相应的对象在所有图中配备有相同的附图标记。
具体实施方式
图1示意性示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法的流程图,该方法包括以下方法步骤。
在下文中,技术系统尤其可以是自主技术系统、诸如工业环境中的自主机器人。技术系统可以实施操作的操作步骤,以便从初始情况出发电动所确定的目标状态。借助调节参数规定操作步骤,即借助调节参数控制技术系统。
在根据本发明的方法的步骤1中,借助至少一个传感器检测技术系统和其环境的初始状态的数据。至少一个传感器可以是技术系统的一部分,与该部分耦合或与该部分相关联。例如,技术系统可以是生产设施中的工业机器人,借助摄像机检测该工业机器人的当前位置、定向和环境。该环境例如可以是技术系统的规定的动作半径内的直接环境。环境的特性和/或状态参量尤其可以是处于那里的对象或物理参量、如空间高度或温度。
在步骤2中,借助由至少一个传感器检测的数据来生成技术系统和其环境的物理仿真模型。尤其是,可以已经事先创建了技术系统的物理仿真模型,仅仅借助所检测的数据作为输入数据来调整该仿真模型。仿真模型尤其是物理仿真模型,其中实现自然定律、诸如重力。
可以根据技术系统的目标状态和/或环境和/或类型来选择物理仿真模型的复杂度和/或域和/或维度。例如可设想的是,使用刚体力学的仿真,以便仿真由机器人抓住固体对象。根据技术系统的应用领域,可以进行来自其他物理域的仿真。例如,自主技术系统可以执行化学流体动力学或财政经济过程,使得可以构建相应的域特定的仿真,以便预测技术系统的动作的效果。
在步骤3中确定并且读入目标状态的数据。目标状态例如可以作为参数数据记录或矢量存在并且尤其描述操作的结果状态。尤其是,目标状态可以被规定和/或借助所检测的初始情况来确定。目标状态例如可以说明:应该由技术系统利用末端执行器来抓住物体,其中初始状态例如描述技术系统的环境中的物体。
在步骤4中,例如在一个或多个处理器上执行技术系统的计算机辅助的物理仿真。对此,读入初始状态的数据、环境的数据和目标状态的数据并且从这些数据出发来进行仿真。尤其是仿真技术系统的操作步骤的至少一个组合,其中仿真从初始状态开始并且选择操作步骤,使得由技术系统达到规定的目标状态。
此外,环境中的物体的例如作为参数数据存储在数据库中的物理特性可以被读入并且在仿真模型中予以考虑。例如借助传感器可以检测待抓住的物体的大小。对此,借助对物体的物理特性的收集例如可以确定表面的形态或重量并且将其用在仿真中。
也可能的是,从初始状态出发,操作步骤的不同组合可以达到目标状态。例如,自主机器人可以围绕不同的轴旋转可运动机器人臂并且因此以不同的路径达到目标位置。优选地,操作步骤的不同组合借助物理仿真来进行仿真,其中相应地改变用于控制不同操作步骤的调节参数。随后输出操作步骤的相应组合的仿真数据。仿真数据可以用作训练机器学习方法的训练数据。
仿真数据尤其也可以包含与环境相互作用的信息。例如,在机器人捕捉物体时能够合理的是,在物体被接住或抓住之前首先让物体弹回。与墙壁、即环境的相互作用和由此产生的操作步骤可以借助物理仿真来计算。
在步骤5中,借助相应的仿真数据来训练机器学习例程。学习例程例如可以是神经网络,其借助强化学习来训练。训练可以借助对相应操作步骤的评定来进行。例如可以根据操作步骤的结果和/或参考目标状态来评定操作步骤。评定尤其可以说明操作步骤是否是适宜的。
尤其是,一旦以计算的方式存在操作步骤的组合的第一仿真数据,就可以训练机器学习例程。仿真和对机器学习例程的训练可以优选地几乎并行地计算。
在步骤6中,借助经训练的机器学习例程可以确定与适宜评定相关联的操作步骤的优化组合,其中“优化”也可以理解为“近似最优”。换言之,可以确定操作步骤的例如特别适宜的序列。该确定例如可以借助将操作步骤的组合的总评定与操作步骤的另一组合的总评定进行比较来实现。尤其是,借助经训练的机器学习例程可以确定技术系统的适宜操作,其中对此规定目标状态并且确定技术系统的初始状态和环境的传感器数据。
在步骤7中,与操作步骤的优化组合相关联的调节参数可以被输出用于控制技术系统。调节参数可以传递到技术系统,以便该技术系统可以实施操作步骤的适宜组合。
图2以框图示意性示出根据本发明的设备100。设备100例如可以集成在技术系统中或者与技术系统经由通信连接C来耦合。
设备100包括至少一个传感器101和/或与技术系统的至少一个传感器耦合。设备100还包括用于生成技术系统和其环境的物理仿真模型SIM的生成模块102、目标模块103、仿真模块104、用于训练机器学习例程的训练模块105、用于借助机器学习例程确定操作步骤的优化组合的优化模块106、输出模块107、传输模块108、至少一个存储单元109和至少计算单元110。优选地,模块和/或单元彼此耦合。尤其是,根据本发明的设备100的各个单元可以是单独地构建在不同的系统中的并且彼此耦合,诸如多个传感器,它们安装在技术系统TS的环境中并且与其他单元通信。
借助生成模块102生成技术系统的物理仿真模型SIM,其中可以根据所检测的初始状态和/或环境来选择仿真模型的复杂度、域和维度。借助目标模块103读入技术系统的目标状态。应该从初始状态出发并且根据技术系统的环境,由操作步骤的组合达到目标状态。通过调节参数来控制技术系统,其中至少一个调节参数限定操作步骤。
在仿真模块104中,借助仿真模型SIM,从初始状态出发并且参考目标状态来仿真操作步骤的不同组合。例如也可以在多于一个的计算单元110上并行执行多个仿真。也可以针对不同的初始状态和/或不同的目标状态分别执行至少一个仿真并且输出相应的仿真数据。
在训练模块105中,借助作为训练数据的仿真数据训练机器学习例程,以确定操作步骤的适宜组合。对此,例如根据操作步骤的相应结果来评定操作步骤的组合的各个经仿真的操作步骤。由此得出借助仿真数据训练的机器学习例程,其可以输出具有适宜评定的操作步骤的组合。经训练的机器学习例程可以从训练模块105输出到优化模块106。在优化模块106中确定操作步骤的适宜组合。在优化模块106中,将经训练的机器学习方法例如应用于初始状态和环境的传感器数据,以便确定操作步骤的适宜组合。
通过输出模块107将用于控制操作步骤的所选择的组合的调节参数输出给技术系统并且由传输模块108传输到该技术系统来实施操作步骤。
在存储单元109中可以存储仿真数据和/或调节参数。例如,针对不同的初始状态和/或目标状态可以执行不同仿真。从这些仿真数据出发,可以训练至少一个机器学习例程并且借助经训练的机器学习例程可以确定操作步骤的适宜组合。
至少一个计算单元110例如可以是处理器或图像处理器,在该处理器或图像处理器上,根据本发明的计算机程序产品可以执行根据本发明的方法的步骤。尤其是可以将多个计算单元(未示出)用于并行仿真和/或对机器学习例程的训练。
设备100尤其可以用于控制自主技术系统,其中用于达到规定目标状态的适宜操作步骤借助机器学习例程和物理仿真来确定。
图3示意性示出根据本发明的方法的一个实施例。作为技术系统TS示出自主机器人,其借助根据本发明的设备100来控制,使得该自主机器人可以执行适宜操作步骤的优化组合。自主机器人包括传感器101、诸如摄像机,利用该传感器可以检测自主机器人的位置和定向以及其环境UM。摄像机优选地与设备100耦合。例如,摄像机101只检测机器人TS的环境的规定范围、诸如机器人的动作范围。环境UM和机器人TS的定向的所检测的数据作为输入数据被提供用于计算机辅助仿真。此外,在机器人的环境中可以探测到物体OBJ。初始状态AZ的数据例如包括物体OBJ和机器人臂的位置。
规定目标状态ZZ、诸如由机器人臂摄取并抓住物体OBJ。
在设备100中,从初始状态AZ出发并且参考目标状态ZZ来执行机器人和其环境的计算机辅助的物理仿真,参见步骤4。对此,读入初始状态AZ和环境UM的所检测的数据以及目标状态ZZ的数据并且创建仿真模型。仿真模型尤其包括技术系统TS和其环境UM的物理特性。附加地,对于探测到的物体OBJ可以从数据库中调用物理特性、诸如重量并且将其用于仿真模型。
仿真数据被传送到设备100的训练模块105,以便训练机器学习例程,以确定适宜操作步骤的组合,参见步骤5和6。借助仿真数据作为训练数据来训练机器学习例程。对此,分别评定各个所仿真的操作步骤。例如,操作步骤根据其结果来进行评定。借助经训练的机器学习例程可以确定操作步骤的适宜组合。操作步骤的适宜组合例如可以具有由机器人TS快速且高能效地抓住物体OBJ作为结果。
适宜操作步骤的所确定的组合被传输到机器人臂并且借助相应的调节参数由该机器人臂来实施。机器人臂执行各个操作步骤,使得达到规定的目标状态ZZ。
所有描述的和/或图示的特征可以在本发明的范围内有利地相互组合。本发明不限于所描述的实施例。
Claims (15)
1.用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法,所述方法包括以下方法步骤:
- 借助至少一个传感器(101)检测(1)技术系统(TS)的初始状态(AZ)和环境(UM),
- 生成(2)技术系统(TS)和其环境(UM)的物理仿真模型(SIM),
- 确定(3)技术系统(TS)的目标状态(ZZ),
- 从初始状态(AZ)出发并且参考目标状态(ZZ),借助物理仿真模型(SIM)来仿真技术系统(TS)的操作步骤的不同组合,其中改变技术系统的用于实施操作步骤的调节参数,并且输出相应的所产生的仿真数据,
- 借助相应的所产生的仿真数据并且借助对相应操作步骤的评定来训练(5)机器学习例程,
- 借助经训练的机器学习例程来确定(6)操作步骤的优化组合,其中操作步骤的优化组合与适宜的评定相关联,以及
- 输出(7)操作步骤的优化组合的调节参数来控制技术系统(TS)。
2.根据权利要求1所述的方法,其中一旦操作步骤的至少一个组合的仿真数据可用,就训练机器学习例程。
3.根据上述权利要求之一所述的方法,其中针对多于一个的目标状态(ZZ)和/或针对多于一个的初始状态(AZ)执行对技术系统(TS)的仿真和对机器学习例程的训练并且分别确定具有适宜评定的操作步骤的组合并且将所述组合存储在存储单元中。
4.根据上述权利要求之一所述的方法,其中具有适宜评定的操作步骤的优化组合的调节参数根据目标状态(ZZ)而被存储在存储单元中。
5.根据上述权利要求之一所述的方法,其中操作步骤的优化组合的调节参数被传输到技术系统(TS)。
6.根据上述权利要求之一所述的方法,其中根据技术系统(TS)的所检测的初始状态(AZ)和/或所检测的环境(UM)确定目标状态(ZZ)。
7.根据上述权利要求之一所述的方法,其中根据操作步骤的结果和/或参考目标状态(ZZ)来实施对操作步骤的评定。
8.根据上述权利要求之一所述的方法,其中根据技术系统(TS)的目标状态(ZZ)和/或环境(UM)和/或类型来构建物理仿真模型(SIM)。
9.根据上述权利要求之一所述的方法,其中持续地借助传感器检测技术系统(TS)的环境(UM)和初始状态并且借助传感器数据持续更新物理仿真模型(SIM)。
10.根据上述权利要求之一所述的方法,其中技术系统(TS)的环境(UM)中的物体(OBJ)的物理特性作为参数数据被检测,被存储在存储单元中并且被整合在物理仿真模型(SIM)中。
11.根据上述权利要求之一所述的方法,其中时间并行地在多于一个的计算单元上仿真技术系统(TS)的操作步骤的不同组合。
12.用于计算机辅助地确定用于适宜操作技术系统的调节参数的设备(100),所述设备包括:
- 用于检测技术系统(TS)的初始状态和环境的至少一个传感器(101),
- 用于生成技术系统(TS)和其环境(UM)的物理仿真模型(SIM)的生成模块(102),
- 用于确定技术系统(TS)的目标状态(ZZ)的目标模块(103),
- 用于从初始状态(AZ)出发并且参考目标状态(ZZ),借助物理仿真模型(SIM)来仿真技术系统(TS)的操作步骤的不同组合的仿真模块(104),其中改变技术系统(TS)的用于实施操作步骤的调节参数,并且输出相应的所产生的仿真数据,
- 用于根据相应的所产生的仿真数据借助对相应操作步骤的结果的评定来训练机器学习例程的训练模块(105),
- 用于借助经训练的机器学习例程来确定操作步骤的优化组合的优化模块(106),其中操作步骤的组合与适宜的评定相关联,以及
- 用于输出操作步骤的优化组合的调节参数来控制技术系统(TS)的输出模块(107)。
13.根据权利要求12所述的设备,其包括用于将调节参数传输到技术系统(TS)的传输模块(108)。
14.根据权利要求12或13所述的设备,其包括至少一个存储单元(109)和/或至少一个计算单元(110)。
15.一种计算机程序产品,其可直接加载到可编程计算机上,所述计算机程序产品包括适合于执行根据权利要求1至11之一所述的方法的步骤的程序代码部分。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18180479.0A EP3587046A1 (de) | 2018-06-28 | 2018-06-28 | Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems |
EP18180479.0 | 2018-06-28 | ||
PCT/EP2019/066145 WO2020002072A1 (de) | 2018-06-28 | 2019-06-19 | Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112292239A true CN112292239A (zh) | 2021-01-29 |
CN112292239B CN112292239B (zh) | 2024-03-12 |
Family
ID=62816418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980043512.7A Active CN112292239B (zh) | 2018-06-28 | 2019-06-19 | 用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210122038A1 (zh) |
EP (2) | EP3587046A1 (zh) |
CN (1) | CN112292239B (zh) |
ES (1) | ES2952403T3 (zh) |
WO (1) | WO2020002072A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061365A (zh) * | 2022-07-22 | 2022-09-16 | 浙江中控技术股份有限公司 | 参数整定模型的构建方法及工业过程控制方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101573667A (zh) * | 2007-01-02 | 2009-11-04 | 西门子公司 | 用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法 |
CN106662847A (zh) * | 2014-07-01 | 2017-05-10 | 西门子公司 | 用于借助于仿真模块的计算机辅助的设施控制优化的方法 |
US9811074B1 (en) * | 2016-06-21 | 2017-11-07 | TruPhysics GmbH | Optimization of robot control programs in physics-based simulated environment |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9597797B2 (en) * | 2013-11-01 | 2017-03-21 | Brain Corporation | Apparatus and methods for haptic training of robots |
EP3537867B1 (en) * | 2016-11-08 | 2023-08-02 | Dogtooth Technologies Limited | A robotic fruit picking system |
JP6577522B2 (ja) * | 2017-06-07 | 2019-09-18 | ファナック株式会社 | 制御装置及び機械学習装置 |
WO2019060626A1 (en) * | 2017-09-20 | 2019-03-28 | Google Llc | USE OF SIMULATION AND DOMAIN ADAPTATION FOR ROBOTIC CONTROL |
US20190126472A1 (en) * | 2017-10-27 | 2019-05-02 | Deepmind Technologies Limited | Reinforcement and imitation learning for a task |
US10875176B2 (en) * | 2018-04-04 | 2020-12-29 | Kuka Systems North America Llc | Process control using deep learning training model |
US10635944B2 (en) * | 2018-06-15 | 2020-04-28 | Google Llc | Self-supervised robotic object interaction |
EP3613545A1 (en) * | 2018-08-24 | 2020-02-26 | Siemens Aktiengesellschaft | Simulation assisted planning of motions to lift heavy objects |
JP7336856B2 (ja) * | 2019-03-01 | 2023-09-01 | 株式会社Preferred Networks | 情報処理装置、方法及びプログラム |
CN110216671A (zh) * | 2019-05-14 | 2019-09-10 | 苏州软体机器人科技有限公司 | 一种基于计算机仿真的机械抓手训练方法及系统 |
CN111300431B (zh) * | 2020-03-31 | 2021-04-23 | 山东大学 | 面向跨场景的机器人视觉模仿学习方法及系统 |
EP4060439A1 (en) * | 2021-03-19 | 2022-09-21 | Siemens Aktiengesellschaft | System and method for feeding constraints in the execution of autonomous skills into design |
-
2018
- 2018-06-28 EP EP18180479.0A patent/EP3587046A1/de not_active Withdrawn
-
2019
- 2019-06-19 EP EP19734310.6A patent/EP3793785B1/de active Active
- 2019-06-19 US US17/256,128 patent/US20210122038A1/en active Pending
- 2019-06-19 ES ES19734310T patent/ES2952403T3/es active Active
- 2019-06-19 WO PCT/EP2019/066145 patent/WO2020002072A1/de unknown
- 2019-06-19 CN CN201980043512.7A patent/CN112292239B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101573667A (zh) * | 2007-01-02 | 2009-11-04 | 西门子公司 | 用于对技术系统、尤其是燃气轮机进行计算机辅助的调节和/或控制的方法 |
CN106662847A (zh) * | 2014-07-01 | 2017-05-10 | 西门子公司 | 用于借助于仿真模块的计算机辅助的设施控制优化的方法 |
US9811074B1 (en) * | 2016-06-21 | 2017-11-07 | TruPhysics GmbH | Optimization of robot control programs in physics-based simulated environment |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115061365A (zh) * | 2022-07-22 | 2022-09-16 | 浙江中控技术股份有限公司 | 参数整定模型的构建方法及工业过程控制方法 |
CN115061365B (zh) * | 2022-07-22 | 2022-11-11 | 浙江中控技术股份有限公司 | 参数整定模型的构建方法及工业过程控制方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020002072A1 (de) | 2020-01-02 |
CN112292239B (zh) | 2024-03-12 |
EP3793785B1 (de) | 2023-07-26 |
US20210122038A1 (en) | 2021-04-29 |
EP3793785A1 (de) | 2021-03-24 |
ES2952403T3 (es) | 2023-10-31 |
EP3587046A1 (de) | 2020-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210001482A1 (en) | Machine learning device, robot controller, robot system, and machine learning method for learning action pattern of human | |
US11511420B2 (en) | Machine learning device, robot system, and machine learning method for learning operation program of robot | |
Sigaud et al. | On-line regression algorithms for learning mechanical models of robots: a survey | |
CN110315505A (zh) | 机器学习装置及方法、机器人控制装置、机器人视觉系统 | |
EP3424650B1 (en) | A method and apparatus for performing control of a movement of a robot arm | |
US10864630B2 (en) | Control device and machine learning device | |
WO2020065001A1 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
EP3747604A1 (en) | Robot device controller, robot device arrangement and method for controlling a robot device | |
JP2021501433A (ja) | ターゲットシステム用制御システムの生成 | |
US10875176B2 (en) | Process control using deep learning training model | |
WO2020002069A1 (de) | Verfahren und vorrichtung zum rechnergestützten ermitteln von regelparametern für eine günstige handlung eines technischen systems | |
Sacks et al. | Learning to optimize in model predictive control | |
CN112292239B (zh) | 用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备 | |
Çallar et al. | Hybrid learning of time-series inverse dynamics models for locally isotropic robot motion | |
Caporali et al. | Deformable linear objects manipulation with online model parameters estimation | |
Pretorius et al. | A neural network-based kinematic and light-perception simulator for simple robotic evolution | |
Sun et al. | Characterizing continuous manipulation families for dexterous soft robot hands | |
Keymeulen et al. | Comparison between an off-line model-free and an on-line model-based evolution applied to a robotics navigation system using evolvable hardware | |
Shimo et al. | Use of evolutionary robots as an auxiliary tool for developing behavioral models of rats in an elevated plus-maze | |
Grimes et al. | Learning nonparametric policies by imitation | |
Keymeulen et al. | Off-line model-free and on-line model-based evolution for tracking navigation using evolvable hardware | |
Pretorius et al. | Towards an artificial neural network-based simulator for behavioural evolution in evolutionary robotics | |
Kicki et al. | Learning quasi-static 3d models of markerless deformable linear objects for bimanual robotic manipulation | |
Laezza | Robot Learning for Manipulation of Deformable Linear Objects | |
WO2023166574A1 (ja) | 学習装置、制御装置、学習方法及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |