JP2021030360A - モデル生成装置、モデル生成方法、制御装置及び制御方法 - Google Patents
モデル生成装置、モデル生成方法、制御装置及び制御方法 Download PDFInfo
- Publication number
- JP2021030360A JP2021030360A JP2019152396A JP2019152396A JP2021030360A JP 2021030360 A JP2021030360 A JP 2021030360A JP 2019152396 A JP2019152396 A JP 2019152396A JP 2019152396 A JP2019152396 A JP 2019152396A JP 2021030360 A JP2021030360 A JP 2021030360A
- Authority
- JP
- Japan
- Prior art keywords
- task state
- task
- model
- target
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 215
- 238000010801 machine learning Methods 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 94
- 230000008859 change Effects 0.000 claims description 44
- 230000007704 transition Effects 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 28
- 230000002787 reinforcement Effects 0.000 claims description 28
- 238000013459 approach Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 4
- 239000012636 effector Substances 0.000 description 163
- 230000008569 process Effects 0.000 description 77
- 238000003860 storage Methods 0.000 description 76
- 238000012545 processing Methods 0.000 description 71
- 239000011159 matrix material Substances 0.000 description 67
- 230000006870 function Effects 0.000 description 63
- 230000009466 transformation Effects 0.000 description 53
- 238000004364 calculation method Methods 0.000 description 45
- 238000011960 computer-aided design Methods 0.000 description 36
- 238000013528 artificial neural network Methods 0.000 description 27
- 210000002569 neuron Anatomy 0.000 description 25
- 238000004891 communication Methods 0.000 description 24
- 230000010365 information processing Effects 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000003066 decision tree Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000013480 data collection Methods 0.000 description 6
- 239000007921 spray Substances 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/17—Mechanical parametric or variational design
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40519—Motion, trajectory planning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Geometry (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Manipulator (AREA)
Abstract
Description
まず、図1を用いて、本発明が適用される場面の一例について説明する。図1は、本発明の適用場面の一例を模式的に例示する。図1に示されるとおり、本実施形態に係る制御システム100は、モデル生成装置1及び制御装置3を備えている。モデル生成装置1及び制御装置3は、ネットワークを介して互いに接続されてよい。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。
本実施形態に係るモデル生成装置1は、対象の位置関係において2つの対象物が互いに接触するか否かを判定するための判定モデル50を生成するように構成されたコンピュータである。具体的には、本実施形態に係るモデル生成装置1は、2つの対象物の間の位置関係を示す訓練データ122及び当該位置関係において2つの対象物が互いに接触するか否かを示す正解データ123の組み合わせによりそれぞれ構成される複数の学習データセット121を取得する。
本実施形態に係る制御装置3は、第1対象物及び第2対象物の存在する環境下で、第2対象物に対して第1対象物を移動するタスクを遂行するロボット装置の動作を制御するように構成されたコンピュータである。上記第1タスク及び第2タスクは、この「第2対象物に対して第1対象物を移動するタスク」の一例である。第1タスクを遂行する場面では、エンドエフェクタTが第1対象物の一例であり、ワークWが第2対象物の一例である。また、第2タスクを遂行する場面では、ワークWが第1対象物の一例であり、他のワークGが第2対象物の一例である。上記のとおり、マニピュレータ4が、ロボット装置の一例である。
以上のとおり、本実施形態に係るモデル生成装置1は、機械学習により、対象の位置関係において2つの対象物が接触するか否かを判定するための判定モデル50を生成する。機械学習により生成された学習済みの判定モデル50によれば、対象の位置関係(本実施形態では、相対座標)が連続値で与えられても、判定モデル50のデータ量の大きな増加を伴うことなく、その位置関係で2つの対象物が互いに接触するか否かを判定することができる。そのため、本実施形態によれば、2つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。
[ハードウェア構成]
<モデル生成装置>
次に、図4を用いて、本実施形態に係るモデル生成装置1のハードウェア構成の一例について説明する。図4は、本実施形態に係るモデル生成装置1のハードウェア構成の一例を模式的に例示する。
次に、図5を用いて、本実施形態に係る制御装置3のハードウェア構成の一例について説明する。図5は、本実施形態に係る制御装置3のハードウェア構成の一例を模式的に例示する。
次に、図6を用いて、本実施形態に係るマニピュレータ4のハードウェア構成の一例について説明する。図6は、本実施形態に係るマニピュレータ4のハードウェア構成の一例を模式的に例示する。
<モデル生成装置>
次に、図7を用いて、本実施形態に係るモデル生成装置1のソフトウェア構成の一例について説明する。図7は、本実施形態に係るモデル生成装置1のソフトウェア構成の一例を模式的に例示する。
次に、判定モデル50の構成の一例について説明する。本実施形態に係る判定モデル50は、深層学習に用いられる多層構造のニューラルネットワークにより構成される。図7の例では、判定モデル50は、3層構造の全結合型ニューラルネットワークにより構成されている。判定モデル50は、入力層501、中間(隠れ)層502、及び出力層503を備えている。ただし、判定モデル50の構造は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、判定モデル50の備える中間層の数は、1つに限られなくてもよく、2つ以上であってもよい。或いは、中間層502は、省略されてもよい。
次に、図8を用いて、本実施形態に係る制御装置3のソフトウェア構成の一例について説明する。図8は、本実施形態に係る制御装置3のソフトウェア構成の一例を模式的に例示する。
モデル生成装置1及び制御装置3の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、モデル生成装置1及び制御装置3の各ソフトウェアモジュールがいずれも汎用のCPUによって実現される例について説明している。しかしながら、以上のソフトウェアモジュールの一部又は全部が、1又は複数の専用のプロセッサにより実現されてもよい。また、モデル生成装置1及び制御装置3それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。
[モデル生成装置]
次に、図9を用いて、モデル生成装置1の動作例について説明する。図9は、本実施形態に係るモデル生成装置1による判定モデル50の機械学習に関する処理手順の一例を示すフローチャートである。以下で説明する処理手順は、本発明の「モデル生成方法」の一例である。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
ステップS101では、制御部11は、データ取得部111として動作し、判定モデル50の機械学習に使用する複数の学習データセット121を取得する。各学習データセット121は、2つの対象物の間の位置関係を示す訓練データ122及び当該位置関係において2つの対象物が互いに接触するか否かを示す正解データ123の組み合わせにより構成される。
ステップS102では、制御部11は、機械学習部112として動作し、取得された複数の学習データセット121を使用して、判定モデル50の機械学習を実施する。本実施形態では、制御部11は、機械学習により、各学習データセット121について、訓練データ122を入力層501に入力すると、対応する正解データ123に適合する出力値が出力層503から出力されるように判定モデル50を訓練する。これにより、制御部11は、対象の位置関係において2つの対象物が互いに接触するか否かを判定する能力を習得した学習済みの判定モデル50を構築する。
ステップS103では、制御部11は、保存処理部113として動作し、機械学習により構築された学習済みの判定モデル50に関する情報を学習結果データ125として所定の記憶領域に保存する。本実施形態では、制御部11は、ステップS102により構築された学習済みの判定モデル50の構造及び演算パラメータを示す情報を学習結果データ125として生成する。そして、制御部11は、生成された学習結果データ125を所定の記憶領域に保存する。
(A)推論モデルの生成
次に、図10を用いて、制御装置3の推論モデル55の生成に関する動作例について説明する。図10は、本実施形態に係る制御装置3による推論モデル55の生成に関する処理手順の一例を示すフローチャートである。なお、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
ステップS201では、制御部31は、マニピュレータ4の遂行するタスクに関して、最終目標のタスク状態の指定を受け付ける。タスク状態は、第1対象物及び第2対象物の間の位置関係により表現される。本実施形態では、位置関係は、相対座標により表現される。
ステップS202では、制御部31は、任意のタスク状態を開始点に設定する。開始点に設定されるタスク状態は、タスクの遂行を開始する時点におけるタスク状態に相当する。開始点となるタスク状態は、ランダムに設定されてもよいし、或いは、オペレータの入力により指定されてもよい。オペレータによる開始点の指定方法は、上記最終目標の指定方法と同様であってよい。また、開始点となるタスク状態は、任意のアルゴリズムにより決定されてよい。一例として、各対象物の実物を実空間に配置し、カメラにより各対象物を撮影することで、各対象物の写る画像データを取得してもよい。そして、得られた画像データに対して画像処理(例えば、CADデータ320によるマッチング)を行うことで、開始点となるタスク状態が決定されてもよい。その他、開始点となるタスク状態は、CADデータ320を利用して適宜決定されてもよい。
ステップS205では、制御部31は、最終目標のタスク状態に近付くように、現在のタスク状態に対して次に遷移する目標のタスク状態を決定する。
ステップS208では、制御部31は、ステップS205により決定された目標のタスク状態にマニピュレータ4の現在のタスク状態を遷移させる。そして、制御部31は、マニピュレータ4のタスク状態が最終目標のタスク状態に到達したか否か、すなわち、遷移先のタスク状態が最終目標のタスク状態であるか否かを判定する。タスク状態の遷移は、シミュレーションにより仮想空間上で行われてよい。最終目標のタスク状態に到達したと判定した場合、制御部31は、次のステップS209に処理を進める。一方、最終目標のタスク状態に到達していないと判定した場合、制御部31は、ステップS205に処理を戻し、更なる目標のタスク状態を決定する。
ステップS209では、制御部31は、ステップS202〜ステップS208の処理を繰り返すか否かを判定する。処理を繰り返す基準は、実施の形態に応じて適宜決定されてよい。
ステップS210では、制御部31は、モデル生成部318として動作する。すなわち、制御部31は、学習済みの判定モデル50による判定の結果を利用して得られた学習データ323を使用して、第1対象物が第2対象物に接触しないように、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論するための推論モデル55を生成する。推論モデル55を生成する方法については後述する。
次に、上記ステップS210における推論モデル55の生成方法の具体例について説明する。本実施形態では、制御部31は、以下の2つの方法のうちの少なくともいずれかの方法により、推論モデル55を生成することができる。
第1の方法では、制御部31は、機械学習を実施することで、推論モデル55を生成する。この場合、推論モデル55は、機械学習モデルにより構成される。機械学習モデルの種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。推論モデル55は、例えば、関数式、データテーブル等により表現されてよい。関数式で表現される場合、推論モデル55は、例えば、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木等により構成されてよい。また、機械学習の方法も、特に限定されなくてもよく、推論モデル55の構成に応じて適宜選択されてよい。推論モデル55の機械学習の方法には、例えば、教師あり学習、強化学習等が採用されてよい。以下、推論モデル55を構成する機械学習モデル及び機械学習の方法それぞれの2つの例について説明する。
図12は、推論モデル55を構成する機械学習モデル及び機械学習の方法の第1の例を模式的に示す。第1の例では、推論モデル55にニューラルネットワーク、機械学習の方法に教師あり学習を採用する。なお、図12の例では、説明の便宜上、推論モデル55、学習データ323、及び推論モデルデータ325それぞれの一例を、推論モデル551、学習データ3231、及び推論モデルデータ3251と表記する。
第1の例では、推論モデル551は、3層構造の再帰型ニューラルネットワークにより構成されている。具体的に、推論モデル551は、入力層N51、LSTM(長期短期記憶:Long short-term memory)ブロックN52、及び出力層N53を備えている。LSTMブロックN52は、中間層に対応する。
推論モデル551の教師あり学習に利用される学習データ3231は、訓練データ(入力データ)及び正解データ(教師信号)の組み合わせを含む複数の学習データセットL30により構成される。訓練データは、訓練用の現在のタスク状態L31における相対座標及び訓練用の最終目標のタスク状態L32における相対座標により構成されてよい。正解データは、訓練用の目標のタスク状態L33における相対座標により構成されてよい。なお、訓練データ及び正解データの形式は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、訓練データには、相対座標がそのまま利用されてもよいし、或いは、相対座標を特徴量に変換することで得られた値が利用されてもよい。
上記ステップS210では、制御部31は、取得された複数の学習データセットL30を使用して、推論モデル551の機械学習(教師あり学習)を実施する。第1の例では、制御部31は、機械学習により、各学習データセットL30について、訓練データを入力層N51に入力すると、正解データに適合する出力値を出力層N53から出力するように推論モデル551を訓練する。これにより、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル551を生成することができる。
なお、機械学習の方法に教師あり学習を採用する場合、推論モデル551の構成は、ニューラルネットワークに限られなくてよい。ニューラルネットワーク以外の機械学習モデルが推論モデル551として採用されてもよい。推論モデル551を構成する機械学習モデルには、例えば、サポートベクタマシン、回帰モデル、決定木等が採用されてもよい。教師あり学習の方法は、上記の例に限定されなくてよく、機械学習モデルの構成に応じて適宜選択されてよい。
図13は、推論モデル55を構成する機械学習モデル及び機械学習の方法の第2の例を模式的に示す。第2の例では、機械学習の方法に強化学習を採用する。なお、図13の例では、説明の便宜上、推論モデル55、学習データ323、及び推論モデルデータ325それぞれの一例を、推論モデル552、学習データ3232、及び推論モデルデータ3252と表記する。
第2の例では、推論モデル552には、価値ベース、方策ベース、又はその両方が採用されてよい。価値ベースを採用する場合、推論モデル552は、例えば、状態価値関数、行動価値関数(Q関数)等の価値関数により構成されてよい。状態価値関数は、与えられた状態の価値を出力するように構成される。行動価値関数は、与えられた状態に対して各行動の価値を出力するように構成される。方策ベースを採用する場合、推論モデル552は、例えば、方策関数により構成されてよい。方策関数は、与えられた状態に対して各行動を選択する確率を出力するように構成される。両方を採用する場合、推論モデル552は、例えば、価値関数(Critic)及び方策関数(Actor)により構成されてよい。各関数は、例えば、データテーブル、関数式等により表現されてよい。関数式により表現する場合、各関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。なお、中間(隠れ)層が複数存在する多層構造のニューラルネットワークにより各関数を構成することで、深層強化学習が実施されてよい。
強化学習では、基本的に、方策に従って行動することで、学習の環境と相互作用するエージェントが仮定される。エージェントの実体は、例えば、CPUである。推論モデル552は、上記の構成により、行動を決定する方策として動作する。エージェントは、与えられた学習の環境内で、強化する行動に関する状態を観測する。本実施形態では、観測対象となる状態は、相対座標により規定されるタスク状態であり、実行される行動は、現在のタスク状態から目標のタスク状態への遷移である。方策は、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を決定(推論)するように構成される。
上記ステップS210では、制御部31は、得られた状態遷移データに基づいて、価値を最大化するように推論モデル552の演算パラメータの値を更新する。推論モデル552の演算パラメータの値を調整する方法は、推論モデル552の構成に応じて適宜選択されてよい。例えば、推論モデル552がニューラルネットワークにより構成される場合、推論モデル552の演算パラメータの値は、誤差逆伝播法等により、上記第1の例と同様の方法で調整されてよい。
本実施形態では、機械学習モデルにより推論モデル55を構成する場合、推論モデル55の構成には、上記2つの例の少なくともいずれかが採用されてもよい。制御部31は、上記2つの機械学習の方法の少なくともいずれかを採用することで、第1対象物が第2対象物に接触しないように、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル55を生成することができる。よって、第1の方法によれば、タスクの遂行に利用可能な推論モデル55を適切に生成することができる。
図14Aは、第2の方法における学習データ323の一例を模式的に例示する。図14Bは、第2の方法における推論モデル55の構成の一例を模式的に例示する。第2の方法では、推論モデル55は、タスク状態の集合を表現するタスク空間SP内の各座標のポテンシャルを規定するポテンシャル場により構成される。なお、図14A及び図14Bでは、説明の便宜上、推論モデル55、学習データ323、及び推論モデルデータ325それぞれの一例を、推論モデル553、学習データ3233、及び推論モデルデータ3253と表記する。
本実施形態では、推論モデル55を生成する方法として、上記2つの方法のうちの少なくともいずれかが採用されてよい。制御部31は、上記2つの方法のうちの少なくともいずれかを採用することで、第1対象物が第2対象物に接触しないように、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論するように構成された推論モデル55を生成することができる。
次に、図15A、図15B及び図16を用いて、本実施形態に係る制御装置3のロボット装置(マニピュレータ4)の動作制御に関する動作例について説明する。図15A及び図15Bは、本実施形態に係る制御装置3によるロボット装置(マニピュレータ4)の動作制御に関する処理手順の一例を示すフローチャートである。図16は、動作制御の過程における各要素の計算処理のフローの一例を示す。上記推論モデル55の生成に関する処理手順を含め、以下で説明する処理手順は、本発明の「制御方法」の一例である。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。なお、以下で説明するロボット装置(マニピュレータ4)の動作の制御は、実空間上で実施されてもよいし、或いは仮想空間上で実施されてもよい。
ステップS301では、制御部31は、遂行するタスクの指定を受け付ける。タスクの指定を受け付ける方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、制御部31は、入力装置35を介したタスクの名称の入力により、遂行するタスクの指定を受け付けてもよい。また、例えば、制御部31は、遂行するタスクの候補を示すリストを出力装置36に出力し、オペレータに遂行するタスクをリストから選択させることで、遂行するタスクの指定を受け付けてもよい。
ステップS303では、制御部31は、タスクを遂行する環境を観測する各センサからセンシングデータを取得する。
ステップS304では、制御部31は、取得されたセンシングデータに基づいて、エンドエフェクタTがワークWを保持しているか否かを判定する。判定方法は、特に限定されなくてもよく、センシングデータに応じて適宜決定されてよい。
ステップS305では、制御部31は、ステップS304の判定の結果に基づいて、マニピュレータ4の動作モードを設定する。具体的には、エンドエフェクタTがワークWを保持していないと判定した場合、制御部31は、エンドエフェクタTの注目点T0をマニピュレータ4の手先に設定し、エンドエフェクタTによりワークWを保持する第1タスクを遂行するモードに動作モードを設定する。一方、エンドエフェクタTがワークWを保持していると判定した場合、制御部31は、ワークWの注目点W0をマニピュレータ4の手先に設定し、エンドエフェクタTにより保持されたワークWを他のワークGに組み付ける第2タスクを遂行するモードに動作モードを設定する。動作モードの設定が完了すると、制御部31は、次のステップS306に処理を進める。
ステップS306では、制御部31は、状態取得部312として動作し、マニピュレータ4の現在のタスク状態s(j)を取得する。
ステップS307では、制御部31は、取得されたセンシングデータからマニピュレータ4の手先の座標の現在値x(j)を算出する。本実施形態では、手先座標の現在値x(j)の算出には、カメラS1、各エンコーダS2、及び触覚センサS3の少なくともいずれかにより得られるセンシングデータが利用されてよい。制御部31は、以下の2つの方法のうちの少なくともいずれかにより手先座標の現在値x(j)を算出することができる。
図16に示されるとおり、第1の方法では、制御部31は、順運動学計算により、各エンコーダS2により得られる関節空間におけるマニピュレータ4の各関節の角度の現在値q(j)から、観測空間におけるマニピュレータ4の手先の座標の現在値x(j)を導出する。以下、エンドエフェクタTがワークWを保持していない場合とワークWを保持している場合とに分けて説明する。
エンドエフェクタTがワークWを保持していない場合、エンドエフェクタTの注目点T0が手先に設定されている。この場合、制御部31は、各関節の第1同次変換行列により導出される第1変換行列群(φ)を変換関数として用いた順運動学計算により、各関節の角度の現在値q(j)から設定された手先座標の現在値x(j)を算出する。
一方、エンドエフェクタTがワークWを保持している場合、ワークWの注目点W0が手先に設定されている。この場合、まず、制御部31は、エンドエフェクタTの注目点T0の座標系からワークWの注目点W0の座標系に座標を変換するための第2同次変換行列(tTw)を取得する。
第2の方法では、制御部31は、CADデータ320を利用して、カメラS1により得られた画像データに対して各対象物のモデルをマッチングすることで、マニピュレータ4の手先の座標の現在値x(j)を導出する。この場合、制御部31は、上記ステップS306によりタスク空間で取得された現在のタスク状態s(j)から、マニピュレータ4の手先の座標の現在値x(j)を導出してもよい。
本実施形態では、制御部31は、上記2つの方法のうちの少なくともいずれかを採用することにより、マニピュレータ4の手先の座標の現在値x(j)を算出することができる。マニピュレータ4の手先の座標の現在値x(j)を算出すると、制御部31は、次のステップS308に処理を進める。なお、ステップS307の処理を実行するタイミングは、このような例に限定されなくてもよい。ステップS307の処理は、後述するステップS310の処理を実行する前の任意のタイミングで実行されてよい。例えば、ステップS307の処理は、上記ステップS306よりも前に実行されてよい。また、例えば、CADデータ320を用いたマッチングを行うケースでは、ステップS307の処理は、上記ステップS306又はステップS304の処理と共に実行されてよい。
ステップS308では、制御部31は、行動決定部313として動作し、最終目標のタスク状態sgに近付くように、取得された現在のタスク状態s(j)に対して次に遷移する目標のタスク状態ss(j)を決定する。本実施形態では、制御部31は、推論モデルデータ325を参照し、上記ステップS210の処理により生成された推論モデル55を利用して、現在のタスク状態s(j)に対して次に遷移する目標のタスク状態ss(j)を決定する。
ステップS309では、制御部31は、指令決定部315として動作し、決定された目標のタスク状態ss(j)から手先の座標の目標値xs(j)を算出する。図16に示されるとおり、制御部31は、上記変換関数(ψ)を利用することで、タスク空間における目標のタスク状態ss(j)を観測空間における手先の座標の目標値xs(j)に変換することができる。
ステップS310では、制御部31は、指令決定部315として動作し、手先座標の現在値x(j)及び手先座標の目標値xs(j)から手先座標の変化量(Δx(j))を決定する。具体的には、図16に示されるとおり、制御部31は、手先座標の現在値(x(j))及び目標値(xs(j))の偏差に基づいて手先座標の変化量(Δx(j))を決定する。例えば、手先座標の現在値及び目標値の偏差(xs−x)と変化量(Δx)との関係は、以下の式12により与えられてよい。なお、手先座標の変化量(Δx)は、手先座標の現在値及び目標値の差分の一例である。
ステップS311では、制御部31は、指令決定部315として動作し、上記順運動学計算における変換関数の逆関数を用いた逆運動学計算により、決定された手先座標の変化量(Δx(j))から各関節の角度の変化量(Δq(j))を算出する。具体的には、手先座標の変化量(Δx)と各関節の角度の変化量(Δq)とは、以下の式13により表現することができる。
ステップS312では、制御部31は、指令決定部315として動作し、算出された各関節の角度の変化量に基づいて、各関節に対する指令値を決定する。指令値を決定する方法には、例えば、PID(Proportional-Integral-Differential)制御、PI制御等の公知の方法が採用されてよい。各関節に対する指令値は、ロボット装置に与える制御指令の一例である。本実施形態では、制御部31は、ステップS309〜ステップS312の処理により、マニピュレータ4のタスク状態を現在のタスク状態s(j)から目標のタスク状態ss(j)に変化させるように、マニピュレータ4に与える制御指令を決定することができる。制御指令を決定すると、制御部31は、次のステップS313に処理を進める。
ステップS313では、制御部31は、駆動部316として動作し、決定された制御指令をマニピュレータ4に与えることで、マニピュレータ4を駆動する。本実施形態では、制御部31は、決定された各指令値により、マニピュレータ4の各関節を駆動する。なお、駆動方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、制御部31は、マニピュレータ4の各関節を直接的に駆動してもよい。或いは、マニピュレータ4は、コントローラ(不図示)を備えてもよい。この場合、制御部31は、各関節に対する指令値をコントローラに与えることで、マニピュレータ4の各関節を間接的に駆動してもよい。決定された制御指令に従って、マニピュレータ4を駆動すると、制御部31は、次のステップS314に処理を進める。
ステップS314〜ステップS316の処理は、サイクルが(j)から(j+1)に進んでいる点を除き、上記ステップS303、ステップS306及びステップS307の処理と同様である。すなわち、ステップS314では、制御部31は、各センサからセンシングデータを取得する。ステップS315では、制御部31は、状態取得部312として動作し、マニピュレータ4の現在のタスク状態s(j+1)を取得する。ステップS316では、制御部31は、取得されたセンシングデータからマニピュレータ4の手先の座標の現在値x(j+1)を算出する。手先座標の現在値x(j+1)を算出すると、制御部31は、次のステップS317に処理を進める。
ステップS317では、制御部31は、ステップS313による駆動の結果、マニピュレータ4のタスク状態が目標のタスク状態ss(j)に遷移したか否かを判定する。
ステップS318では、制御部31は、最終目標のタスク状態sgを実現することができたか否かを判定する。
以上のとおり、本実施形態に係るモデル生成装置1は、上記ステップS101及びステップS102の処理により、機械学習を実施することで、対象の位置関係において2つの対象物が接触するか否かを判定するための判定モデル50を生成する。機械学習により生成された学習済みの判定モデル50によれば、対象の位置関係が連続値で与えられても、判定モデル50のデータ量の大きな増加を伴うことなく、その位置関係で2つの対象物が互いに接触するか否かを判定することができる。したがって、本実施形態によれば、2つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。
上記実施形態では、エンドエフェクタT、ワークW、及び他のワークGそれぞれが対象物の一例である。ただし、接触するか否かを判定する対象となる対象物は、このような例に限定されなくてもよい。対象物は、実空間又は仮想空間内で取り扱い可能なあらゆる種類の物体を含んでもよい。対象物は、上記エンドエフェクタT、ワークW、及び他のワークGの他、例えば、障害物等のロボット装置の動作に関連し得る物体であってもよい。
上記実施形態では、制御装置3は、推論モデル55を生成する際に、学習済みの判定モデル50を利用している。しかしながら、学習済みの判定モデル50の利用形態は、このような例に限定されなくてもよい。制御装置3は、マニピュレータ4の動作を制御する際に、学習済みの判定モデル50を利用してもよい。
上記実施形態では、制御装置3は、上記ステップS308において、推論モデル55を利用して、目標のタスク状態を決定している。しかしながら、目標のタスク状態を決定する方法は、このような例に限定されなくてもよい。目標のタスク状態の決定には、推論モデル55が利用されなくてもよい。例えば、上記ステップS308では、上記ステップS205と同様に、目標のタスク状態が決定されてよい。一例として、制御部31は、パスプランニング等の公知の方法により、目標のタスク状態を決定してもよい。また、例えば、目標のタスク状態の系列は予め与えられてもよい。この場合、上記ステップS308では、制御部31は、当該系列を示すデータを参照することで、次に遷移する目標のタスク状態を決定してもよい。上記ステップS501も同様である。
上記実施形態では、2つの対象物の間の位置関係は相対座標により表現される。しかしながら、位置関係を表現する方法は、このような例に限定されなくてもよい。例えば、2つの対象物それぞれの絶対座標により位置関係が表現されてもよい。この場合、各絶対座標を相対座標に変換され、上記各情報処理が実行されてもよい。
また、上記実施形態では、制御装置3は、ステップS307及びステップS309〜ステップS312において、マニピュレータ4の手先座標の目標値から解析的に各関節に与える指令値(制御指令)を決定している。しかしながら、制御指令を決定する方法は、このような例に限定されなくてもよい。ロボット装置のタスク状態を現在のタスク状態から目標のタスク状態に変化させるように、ロボット装置に与える制御指令が適宜決定されてよい。
上記実施形態では、判定モデル50は、全結合型ニューラルネットワークにより構成されている。しかしながら、判定モデル50を構成するニューラルネットワークの種類は、このような例に限定されなくてもよい。判定モデル50は、全結合型ニューラルネットワークの他、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク等により構成されてもよい。また、判定モデル50は、複数種類のニューラルネットワークの組み合わせにより構成されてもよい。
11…制御部、12…記憶部、13…通信インタフェース、
14…外部インタフェース、
15…入力装置、16…出力装置、17…ドライブ、
91…記憶媒体、81…モデル生成プログラム、
111…データ取得部、112…機械学習部、
113…保存処理部、
120…CADデータ、
121…学習データセット、
122…訓練データ、123…正解データ、
125…学習結果データ、
3…制御装置、
31…制御部、32…記憶部、33…通信インタフェース、
34…外部インタフェース、
35…入力装置、36…出力装置、37…ドライブ、
93…記憶媒体、83…制御プログラム、
311…目標設定部、312…状態取得部、
313…行動決定部、314…接触判定部、
315…指令決定部、316…駆動部、
317…データ収集部、318…モデル生成部、
319…保存処理部、
320…CADデータ、321…ロボットデータ、
323…学習データ、325…推論モデルデータ、
4…マニピュレータ(ロボット装置)、
40…台座部、
41〜46…関節部、491〜494…リンク、
T…エンドエフェクタ、
T0…注目点、CT…ローカル座標系、
W…ワーク、
W0…注目点、CW…ローカル座標系、
G…他のワーク、CG…ローカル座標系、
RC1・RC2…相対座標、
S1…カメラ、S2…エンコーダ、S3…触覚センサ、
50…判定モデル、
501…入力層、502…中間(隠れ)層、
503…出力層、
55…推論モデル
Claims (11)
- 2つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記2つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、
取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施する機械学習部であって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、機械学習部と、
を備える、
モデル生成装置。 - 前記2つの対象物の間の前記位置関係は、相対座標により表現される、
請求項1に記載のモデル生成装置。 - 前記2つの対象物のうちの少なくともいずれかは、ロボット装置の動作により移動する対象である、
請求項1又は2に記載のモデル生成装置。 - コンピュータが、
2つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記2つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、
取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施するステップであって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、ステップと、
を実行する、
モデル生成方法。 - 第1対象物及び第2対象物の存在する環境下で、第1対象物を移動するタスクを遂行するロボット装置の動作を制御するための制御装置であって、
前記ロボット装置の現在のタスク状態を取得する状態取得部であって、タスク状態は、前記第1対象物及び前記第2対象物の間の位置関係により規定される、状態取得部と、
最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定する行動決定部と、
前記第1対象物及び前記第2対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第1対象物及び前記第2対象物が互いに接触するか否かを判定する接触判定部であって、前記学習済みの判定モデルは、機械学習により、前記第1対象物及び前記第2対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第1対象物及び前記第2対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、接触判定部と、
前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定する指令決定部と、
決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置を駆動する駆動部と、
を備える、
制御装置。 - 前記第1対象物及び前記第2対象物の間の位置関係は、相対座標により表現される、
請求項5に記載の制御装置。 - 前記学習済みの判定モデルによる前記判定の結果を利用して、前記第1対象物が前記第2対象物に接触しないように、前記現在のタスク状態及び前記最終目標のタスク状態から次に遷移する前記目標のタスク状態を推論するための推論モデルを生成するモデル生成部を更に備え、
前記行動決定部は、生成された前記推論モデルを利用して、前記現在のタスク状態に対して次に遷移する前記目標のタスク状態を決定する、
請求項5又は6に記載の制御装置。 - 前記モデル生成部は、機械学習を実施することで、前記推論モデルを生成する、
請求項7に記載の制御装置。 - 前記機械学習は、対象のタスク状態において前記第1対象物及び前記第2対象物が互いに接触するか否かを前記学習済みの判定モデルにより判定した結果、並びに当該対象のタスク状態及び前記最終目標のタスク状態の間の距離に応じて報酬が設定された強化学習により構成され、
前記報酬は、前記第1対象物及び前記第2対象物が互いに接触せず、かつ前記距離が短いほど多く設定され、前記第1対象物及び前記第2対象物が互いに接触する、又は前記距離が長いほど少なく設定され、
前記機械学習を実施することは、前記報酬が多く得られるように前記推論モデルを構成する演算パラメータの値の修正を繰り返すことを含む、
請求項8に記載の制御装置。 - 前記推論モデルは、前記タスク状態の集合を表現するタスク空間内の各座標のポテンシャルを規定するポテンシャル場により構成され、
前記モデル生成部は、
前記タスク空間内で、前記学習済みの判定モデルを利用して、前記第1対象物が前記第2対象物に接触しないように、パスプランニングを実施することで、それぞれ開始点として与えられた複数のタスク状態それぞれから前記最終目標のタスク状態までの経路を生成し、
生成された各経路の通過する頻度に応じて、前記各座標のポテンシャルを設定することで、前記ポテンシャル場を生成し、
前記行動決定部は、生成された前記ポテンシャル場における、前記現在のタスク状態に対応する座標に設定されたポテンシャルの勾配に応じて、次に遷移する前記目標のタスク状態を決定する、
請求項7に記載の制御装置。 - 第1対象物及び第2対象物の存在する環境下で、第1対象物を移動するタスクを遂行するロボット装置の動作を制御するための制御方法であって、
コンピュータが、
前記第1対象物及び前記第2対象物の現在のタスク状態を取得するステップであって、タスク状態は、前記第1対象物及び前記第2対象物の間の位置関係により規定される、ステップと、
最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定するステップと、
前記第1対象物及び前記第2対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第1対象物及び前記第2対象物が互いに接触するか否かを判定するステップであって、前記学習済みの判定モデルは、機械学習により、前記第1対象物及び前記第2対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第1対象物及び前記第2対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、ステップと、
前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定するステップと、
決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置の動作を制御するステップと、
を実行する、
制御方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019152396A JP7295421B2 (ja) | 2019-08-22 | 2019-08-22 | 制御装置及び制御方法 |
US17/628,244 US12097616B2 (en) | 2019-08-22 | 2020-07-22 | Model generation apparatus, model generation method, control apparatus, and control method |
EP20855703.3A EP4019207A4 (en) | 2019-08-22 | 2020-07-22 | PATTERN GENERATION DEVICE, PATTERN GENERATION METHOD, CONTROL DEVICE AND CONTROL METHOD |
CN202080050401.1A CN114096968A (zh) | 2019-08-22 | 2020-07-22 | 模型生成装置、模型生成方法、控制装置以及控制方法 |
PCT/JP2020/028446 WO2021033486A1 (ja) | 2019-08-22 | 2020-07-22 | モデル生成装置、モデル生成方法、制御装置及び制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019152396A JP7295421B2 (ja) | 2019-08-22 | 2019-08-22 | 制御装置及び制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021030360A true JP2021030360A (ja) | 2021-03-01 |
JP7295421B2 JP7295421B2 (ja) | 2023-06-21 |
Family
ID=74660856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019152396A Active JP7295421B2 (ja) | 2019-08-22 | 2019-08-22 | 制御装置及び制御方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US12097616B2 (ja) |
EP (1) | EP4019207A4 (ja) |
JP (1) | JP7295421B2 (ja) |
CN (1) | CN114096968A (ja) |
WO (1) | WO2021033486A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023037634A1 (ja) * | 2021-09-07 | 2023-03-16 | オムロン株式会社 | 指令値生成装置、方法、及びプログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4112243A4 (en) * | 2020-02-28 | 2023-03-29 | NEC Corporation | CONTROL DEVICE, ORDER METHOD AND RECORDING MEDIA |
DE112021001595T5 (de) * | 2020-05-25 | 2022-12-29 | Fanuc Corporation | Robotersystem |
US20220305649A1 (en) * | 2021-03-25 | 2022-09-29 | Naver Corporation | Reachable manifold and inverse mapping training for robots |
US20220374718A1 (en) * | 2021-05-12 | 2022-11-24 | Microsoft Technology Licensing, Llc | Backpropagation using parametrizing angles of unitary matrix |
CN113359480B (zh) * | 2021-07-16 | 2022-02-01 | 中国人民解放军火箭军工程大学 | 基于mappo算法多无人机与用户协同通信优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018149628A (ja) * | 2017-03-13 | 2018-09-27 | ファナック株式会社 | 機械学習により補正した計測データでワークの取り出しを行うロボットシステム、計測データ処理装置および計測データ処理方法 |
US20190047143A1 (en) * | 2017-08-08 | 2019-02-14 | Fanuc Corporation | Control device and learning device |
WO2019097676A1 (ja) * | 2017-11-17 | 2019-05-23 | 三菱電機株式会社 | 3次元空間監視装置、3次元空間監視方法、及び3次元空間監視プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102016009030B4 (de) * | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
EP3497628A1 (en) * | 2016-09-15 | 2019-06-19 | Google LLC | Control policies for robotic agents |
DE112018000477B4 (de) | 2017-01-23 | 2023-03-02 | Panasonic Intellectual Property Management Co., Ltd. | Ereignisvorhersagesystem, Ereignisvorhersageverfahren, Programm und Aufzeichnungsmedium, auf dem dieses aufgezeichnet ist |
US10537995B2 (en) | 2017-05-08 | 2020-01-21 | Seiko Epson Corporation | Controller and control method of robot, and robot system |
US20190184561A1 (en) * | 2017-12-15 | 2019-06-20 | The Regents Of The University Of California | Machine Learning based Fixed-Time Optimal Path Generation |
JP6870122B2 (ja) * | 2018-02-01 | 2021-05-12 | 本田技研工業株式会社 | ロボットシステム及びロボットの制御方法 |
JP6810087B2 (ja) * | 2018-03-29 | 2021-01-06 | ファナック株式会社 | 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法 |
WO2020136770A1 (ja) * | 2018-12-26 | 2020-07-02 | 三菱電機株式会社 | 移動体制御装置、移動体制御学習装置、及び移動体制御方法 |
-
2019
- 2019-08-22 JP JP2019152396A patent/JP7295421B2/ja active Active
-
2020
- 2020-07-22 CN CN202080050401.1A patent/CN114096968A/zh active Pending
- 2020-07-22 EP EP20855703.3A patent/EP4019207A4/en active Pending
- 2020-07-22 WO PCT/JP2020/028446 patent/WO2021033486A1/ja unknown
- 2020-07-22 US US17/628,244 patent/US12097616B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018149628A (ja) * | 2017-03-13 | 2018-09-27 | ファナック株式会社 | 機械学習により補正した計測データでワークの取り出しを行うロボットシステム、計測データ処理装置および計測データ処理方法 |
US20190047143A1 (en) * | 2017-08-08 | 2019-02-14 | Fanuc Corporation | Control device and learning device |
JP2019030941A (ja) * | 2017-08-08 | 2019-02-28 | ファナック株式会社 | 制御装置及び学習装置 |
WO2019097676A1 (ja) * | 2017-11-17 | 2019-05-23 | 三菱電機株式会社 | 3次元空間監視装置、3次元空間監視方法、及び3次元空間監視プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023037634A1 (ja) * | 2021-09-07 | 2023-03-16 | オムロン株式会社 | 指令値生成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US12097616B2 (en) | 2024-09-24 |
EP4019207A4 (en) | 2023-02-15 |
CN114096968A (zh) | 2022-02-25 |
EP4019207A1 (en) | 2022-06-29 |
WO2021033486A1 (ja) | 2021-02-25 |
JP7295421B2 (ja) | 2023-06-21 |
US20220258336A1 (en) | 2022-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021033486A1 (ja) | モデル生成装置、モデル生成方法、制御装置及び制御方法 | |
WO2021033471A1 (ja) | 制御装置、制御方法、及び制御プログラム | |
US11745355B2 (en) | Control device, control method, and non-transitory computer-readable storage medium | |
JP5210883B2 (ja) | 物理的な多関節システムの部位の動作を制御する、コンピュータを使用する方法、物理的な多関節システムの部位の動作を制御するシステム、人間とは別体の物理的多関節システムに前記人間の動作を追従させる、コンピュータを用いた方法、人間とは別体の物理的多関節システムによって前記人間の動作を追従させるシステム、及び、ソースシステムとは別体の物理的多関節システムの部位の動きを制御する、コンピュータを用いた方法 | |
JP5210884B2 (ja) | 物理的多関節システムの姿勢を制御するコンピュータを用いた方法および多関節システムを位置決めするシステム | |
Al-Sharo et al. | Generalized Procedure for Determining the Collision-Free Trajectory for a Robotic Arm | |
WO2021033472A1 (ja) | 制御装置、制御方法、及び制御プログラム | |
Meeussen et al. | Contact-state segmentation using particle filters for programming by human demonstration in compliant-motion tasks | |
Laschi et al. | Learning-based control strategies for soft robots: Theory, achievements, and future challenges | |
JP2022176917A (ja) | ロボットデバイスを制御するための方法 | |
Hudson et al. | Model-based autonomous system for performing dexterous, human-level manipulation tasks | |
Chalasani et al. | A computational framework for complementary situational awareness (csa) in surgical assistant robots | |
JP7263987B2 (ja) | 制御装置、制御方法、及び制御プログラム | |
JP7391635B2 (ja) | 制御システム | |
WO2022168634A1 (ja) | ロボット制御装置、ロボット制御方法、及びロボット制御プログラム | |
WO2022044615A1 (ja) | 学習装置、学習方法、学習プログラム、制御装置、制御方法、及び制御プログラム | |
JP7435815B2 (ja) | 動作指令生成装置、動作指令生成方法及びプログラム | |
Aydogmus et al. | Implementation of singularity-free inverse kinematics for humanoid robotic arm using Bayesian optimized deep neural network | |
Falahi et al. | Using orthogonal basis functions and template matching to learn whiteboard cleaning task by imitation | |
Vergara et al. | Expediting the Deployment of Industrial Robotic Applications by Learning from Operators Part 1: Generating reactive approach motions using generalized trajectories from demonstrations | |
Khandekara et al. | Fusion of human arm synergy and artificial neural network for programming of a robot by demonstration | |
Yan et al. | AViTa: Adaptive Visual-Tactile Dexterous Grasping | |
Bagnell et al. | Additional Information: If you wish to contact a Curtin researcher associated with this document, you may obtain an email address from http://find. curtin. edu. au/staff/index. cfm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230310 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7295421 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |