JP2020057161A - 学習装置、制御装置、学習方法、及び学習プログラム - Google Patents
学習装置、制御装置、学習方法、及び学習プログラム Download PDFInfo
- Publication number
- JP2020057161A JP2020057161A JP2018186800A JP2018186800A JP2020057161A JP 2020057161 A JP2020057161 A JP 2020057161A JP 2018186800 A JP2018186800 A JP 2018186800A JP 2018186800 A JP2018186800 A JP 2018186800A JP 2020057161 A JP2020057161 A JP 2020057161A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data
- environment information
- environment
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 67
- 238000010801 machine learning Methods 0.000 claims abstract description 145
- 238000004088 simulation Methods 0.000 claims abstract description 102
- 238000012545 processing Methods 0.000 claims description 101
- 238000012549 training Methods 0.000 claims description 88
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 description 60
- 230000008569 process Effects 0.000 description 38
- 238000004891 communication Methods 0.000 description 22
- 230000007613 environmental effect Effects 0.000 description 20
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 230000010365 information processing Effects 0.000 description 14
- 238000011176 pooling Methods 0.000 description 13
- 238000010304 firing Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/4183—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by data acquisition, e.g. workpiece identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39271—Ann artificial neural network, ffw-nn, feedforward neural network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Manufacturing & Machinery (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mechanical Engineering (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Manipulator (AREA)
- Numerical Control (AREA)
- Feedback Control In General (AREA)
Abstract
Description
まず、図1を用いて、本発明が適用される場面の一例について説明する。図1は、本実施形態に係る制御システム100の適用場面の一例を模式的に例示する。図1の例では、生産ラインに配置される産業用ロボットR(例えば、ロボットハンド)の動作を制御する場面を想定している。産業用ロボットRは、本発明の「ロボット装置」の一例である。しかしながら、本発明の適用対象は、このような例に限定されなくてもよく、何らかのロボット装置の動作を制御するあらゆる場面に適用可能である。
[ハードウェア構成]
<学習装置>
次に、図2を用いて、本実施形態に係る学習装置1のハードウェア構成の一例について説明する。図2は、本実施形態に係る学習装置1のハードウェア構成の一例を模式的に例示する。
次に、図3を用いて、本実施形態に係る制御装置2のハードウェア構成の一例について説明する。図3は、本実施形態に係る制御装置2のハードウェア構成の一例を模式的に例示する。
次に、図4を用いて、本実施形態に係る学習装置1のソフトウェア構成の一例について説明する。図4は、本実施形態に係る学習装置1のソフトウェア構成の一例を模式的に例示する。
次に、図5A及び図5Bを用いて、抽出器5の構成の一例について説明する。図5Aは、本実施形態に係る抽出器5の第1訓練ステップの過程の一例を模式的に例示する。図5Bは、本実施形態に係る抽出器5の第2訓練ステップの過程の一例を模式的に例示する。図5A及び図5Bに示されるとおり、本実施形態に係る抽出器5は、ニューラルネットワークにより構成されている。当該ニューラルネットワークは、第1部分51、第2部分52、及び第3部分53に分かれている。第1部分51及び第2部分52は、ニューラルネットワークの入力側に並列に配置される。これに対して、第3部分53は、ニューラルネットワークの出力側に配置される。
次に、図5Cを用いて、制御器6の構成の一例について説明する。図5Cは、本実施形態に係る制御器6の機械学習の過程の一例を模式的に例示する。図5Cに示されるとおり、本実施形態に係る制御器6は、いわゆる深層学習に用いられる多層構造のニューラルネットワークにより構成されており、入力層61、中間層(隠れ層)62、及び出力層63を備えている。ただし、制御器6の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。例えば、制御器6は、2層以上の中間層62を備えてもよい。
次に、図6を用いて、本実施形態に係る制御装置2のソフトウェア構成の一例について説明する。図6は、本実施形態に係る制御装置2のソフトウェア構成の一例を模式的に例示する。
学習装置1及び制御装置2の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、学習装置1及び制御装置2の各ソフトウェアモジュールがいずれも汎用のCPUによって実現される例について説明している。しかしながら、以上のソフトウェアモジュールの一部又は全部が、1又は複数の専用のプロセッサにより実現されてもよい。また、学習装置1及び制御装置2それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。
[学習装置]
次に、学習装置1の動作例について説明する。本実施形態に係る学習装置1は、抽出器5の機械学習を実施する第1モード及び制御器6の機械学習を実施する第2モードの2つのモードのいずれかを選択し、選択されたモードで動作可能に構成されている。以下で説明する各モードにおける処理手順は、本発明の「学習方法」の一例である。ただし、必ずしも2つのモードに分かれていなければならない訳ではない。各モードは、適宜省略又は変更されてよい。また、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。更に、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
まず、図7を用いて、本実施形態に係る学習装置1による抽出器5の機械学習(第1モード)の処理手順の一例について説明する。図7は、本実施形態に係る学習装置1による抽出器5の機械学習の処理手順の一例を示すフローチャートである。
ステップS101では、制御部11は、第1データ取得部111として動作し、シミュレーションデータ701及び第1環境情報702の組み合わせによりそれぞれ構成された複数の第1学習データセット70を取得する。
ステップS102では、制御部11は、第1学習処理部114として動作し、複数の第1学習データセット70を利用して、抽出器5の機械学習を実施する。この機械学習では、制御部11は、各第1学習データセットについて、シミュレーションデータ701から、対応する第1環境情報702と一致する環境情報を抽出するように抽出器5を訓練する。本ステップS102は、本発明の「第1訓練ステップ」の一例である。
ステップS103では、制御部11は、第2データ取得部112として動作し、実データ731及び第2環境情報732の組み合わせによりそれぞれ構成された複数の第2学習データセット73を取得する。
ステップS104では、制御部11は、第1学習処理部114として動作し、複数の第2学習データセット73を利用して、抽出器5の機械学習を実施する。この機械学習では、制御部11は、各第2学習データセット73について、実データ731から、対応する第2環境情報732と一致する環境情報を抽出するように抽出器5を訓練する。本ステップS104は、本発明の「第2訓練ステップ」の一例である。
ステップS105では、制御部11は、保存処理部116として動作し、機械学習済みの抽出器5に関する情報を第1学習結果データ125として記憶部12に保存する。本実施形態では、制御部11は、上記ステップS102及びS104により、第1学習データセット70及び第2学習データセット73を利用して、抽出器5の機械学習を実施している。つまり、抽出器5の機械学習を実施することは、上記ステップS102及びS104を含んでいる。ステップS105では、制御部11は、ステップS102及びS104の機械学習により構築された抽出器5の構成及びパラメータを示す情報を第1学習結果データ125として生成する。そして、制御部11は、生成した第1学習結果データ125を記憶部12に保存する。これにより、制御部11は、本実施形態に係る抽出器5の機械学習(第1モード)の一連の処理を終了する。
次に、図8を用いて、本実施形態に係る学習装置1による制御器6の機械学習(第2モード)の処理手順の一例について説明する。図8は、本実施形態に係る学習装置1による制御器6の機械学習の処理手順の一例を示すフローチャートである。
ステップS201では、制御部11は、第3データ取得部113として動作し、第3環境情報761及び状態情報762並びに制御コマンド763の組み合わせによりそれぞれ構成された複数の第3学習データセット76を取得する。
ステップS202では、制御部11は、第2学習処理部115として動作し、複数の第3学習データセット76を利用して、制御器6の機械学習を実施する。この機械学習では、制御部11は、各第3学習データセット76について、第3環境情報761及び状態情報762が入力されると、対応する制御コマンド763と一致する制御コマンドを出力するように制御器6を訓練する。本ステップS202は、本発明の「制御器を訓練する訓練ステップ」の一例である。
ステップS203では、制御部11は、保存処理部116として動作し、機械学習済みの制御器6に関する情報を第2学習結果データ128として記憶部12に保存する。本実施形態では、制御部11は、ステップS202の機械学習により構築された制御器6の構成及びパラメータを示す情報を第2学習結果データ128として生成する。そして、制御部11は、生成した第2学習結果データ128を記憶部12に保存する。これにより、制御部11は、本実施形態に係る制御器6の機械学習(第2モード)の一連の処理を終了する。
次に、図9を用いて、制御装置2の動作例について説明する。図9は、本実施形態に係る制御装置2の処理手順の一例を示すフローチャートである。ただし、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
ステップS301では、制御部21は、データ取得部211として動作し、産業用ロボットRのタスクを実行する環境を監視するセンサにより得られたセンサデータを取得する。本実施形態では、制御部21は、外部インタフェース24を介して、カメラCAにより産業用ロボットRの環境を撮影することで得られた画像データ80をセンサデータとして取得する。画像データ80は、動画像データであってもよいし、静止画像データであってもよい。
ステップS302では、制御部21は、情報抽出部212として動作し、機械学習済みの抽出器5を利用して、タスクを実行する環境に関する環境情報81を画像データ80から抽出する。本実施形態では、制御部21は、第1学習結果データ125を参照して、機械学習済みの抽出器5の設定を行う。そして、制御部21は、画像データ80を第2部分52に入力し、入力側から順に各層(521〜523、531〜533)に含まれる各ニューロンの発火判定を行う。これにより、制御部21は、画像データ80から環境情報81を抽出した結果に対応する出力値を第3部分53から取得する。環境情報81を取得すると、制御部21は、次のステップS303に処理を進める。
ステップS303では、制御部21は、コマンド決定部213として動作し、機械学習済みの制御器6を利用して、環境情報81及び状態情報83により示される条件下でタスクを産業用ロボットRに実行させるための制御コマンド85を決定する。本実施形態では、制御部21は、第2学習結果データ128を参照して、機械学習済みの制御器6の設定を行う。そして、制御部21は、環境情報81及び状態情報83を入力層61に入力し、入力側から順に各層61〜63に含まれる各ニューロンの発火判定を行う。これにより、制御部21は、環境情報81及び状態情報83から制御コマンド85を導出した結果に対応する出力値を出力層63から取得する。この出力値を得ることで、制御部21は、制御コマンド85を決定する。制御コマンド85を決定すると、制御部21は、次のステップS304に処理を進める。
ステップS304では、制御部21は、動作制御部214として動作し、決定した制御コマンド85に基づいて、産業用ロボットRの動作を制御する。本実施形態では、制御部21は、外部インタフェース24を介して、制御コマンド85に対応する制御信号を産業用ロボットRに送信することで、制御コマンド85により規定される動作を産業用ロボットRに実行させる。これにより、産業用ロボットRの動作を制御すると、制御部21は、本動作例に係る処理を終了する。この後、制御部21は、ステップS301から一連の処理を繰り返すことで、産業用ロボットRの動作を継続的に制御してもよい。
以上のように、本実施形態では、産業用ロボットRの動作を制御するための制御モジュールが、抽出器5及び制御器6の2つの構成要素に分割されている。本実施形態に係る学習装置1は、ステップS101〜S104の一連の処理により、シミュレーションデータ701及び実データ731の両方を利用して、両データ(701、731)から共通の特徴(環境情報)を抽出するように抽出器5を構築する。これにより、シミュレーションデータ701と実データ731との間の乖離を吸収した上で、ステップS102によるシミュレーションデータ701を利用した第1訓練ステップの成果を、ステップS104による実データ731を利用した第2訓練ステップに反映させることができる。そのため、機械学習に利用するシミュレーションデータ701(第1学習データセット70)の件数が十分であれば、機械学習に利用する実データ731(第2学習データセット73)の件数が少なくても、実環境で得られるセンサデータから環境情報を精度よく抽出可能な機械学習済みの抽出器5を構築することができる。
以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。
上記実施形態では、抽出器5には畳み込みニューラルネットワークが利用され、制御器6には多層構造の全結合ニューラルネットワークが用いられている。しかしながら、抽出器5及び制御器6それぞれを構成するニューラルネットワークの構造及び種類は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、抽出器5及び制御器6それぞれには、再帰型ニューラルネットワークが用いられてもよい。
上記実施形態に係る各情報処理(図7〜図9)について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。例えば、ステップS101がステップS102の前に実行され、ステップS103がステップS104の前に実行されるのであれば、ステップS101〜S104の処理順序は適宜変更されてよい。上記ステップS104では、第3部分53のパラメータの値を固定するのではなく、ステップS102と同様に、第2部分52及び第3部分53のパラメータの値を調節してもよい。上記ステップS301における状態情報83を取得する処理は、ステップS303の処理を実行するまでに完了していればよい。また、例えば、第2訓練ステップ(ステップS104)は、第1訓練ステップ(ステップS102)の前に実行されてもよい。この場合、制御部11は、第2訓練ステップ(ステップS104)を実行することで、第2部分52のパラメータの値を調節する。この第2訓練ステップでは、第3部分53のパラメータの値は、上記実施形態と同様に固定のままであってもよいし、第2部分52と共に調節されてもよい。第2訓練ステップを実行した後、制御部11は、第2部分52の各パラメータの調節した値を第1部分51の対応するパラメータに複製する。続いて、制御部11は、第1訓練ステップ(ステップS102)を実行することで、第1部分51のパラメータの値を調節する。この第1訓練ステップでは、第3部分53のパラメータの値は、上記実施形態と同様に第1部分51と共に調節されてもよいし、固定のままであってもよい。第1訓練ステップを実行した後、制御部11は、第1部分51の各パラメータの調節した値を第2部分52の対応するパラメータに複製する。これにより、シミュレーションデータ701を利用した機械学習の成果を実データ731を利用した機械学習に反映させることができる。
上記実施形態では、抽出器5の出力は環境情報に直接的に対応し、制御器6の出力は制御コマンドに直接的に対応することを想定している。しかしながら、抽出器5及び制御器6の出力形式は、このような例に限定されなくてもよい。上記実施形態において、抽出器5の出力値に対して何らかの情報処理を実行することで環境情報が導出されてよい。同様に、制御器6の出力値に対して何らかの情報処理を実行することで制御コマンドが導出されてもよい。
上記実施形態では、産業用ロボットRの環境を監視するセンサとして、カメラCAが利用されている。しかしながら、産業用ロボットRの環境を監視するセンサは、このような例に限定されなくてもよい。センサは、例えば、カメラ、圧力センサ、ロードセル及びこれらの組み合わせにより構成されてよい。シミュレーションデータ701及び実データ731は、利用するセンサに応じて適宜取得されてよい。
上記実施形態では、制御対象のロボット装置として、産業用ロボットRを例示している。しかしながら、制御対象のロボット装置は、自動的に駆動可能に構成された少なくとも1つの駆動部を有している装置であれば、その種類は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。ロボット装置には、上記産業用ロボットRの他、例えば、自律型ロボット、自動運転動作を実行可能に構成された移動体(例えば、ドローン等の飛行体、自動車等の車両)等が採用されてよい。センサは、ロボット装置のタスクを実行する環境をモニタリング(又はセンシング)可能な装置であれば、その種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。センサには、例えば、カメラ、LIDARセンサ、サーモセンサ、圧力センサ、ロードセル等が採用されてよい。センサデータ(シミュレーションデータ、実データ)の種類は、センサの種類に応じて適宜選択されてよい。センサデータは、例えば、画像(例えば、RGB画像、深度画像等)データ、LIDARセンサによる測定データ、サーモデータ、圧力データ等であってよい。
1…学習装置、
11…制御部、12…記憶部、13…通信インタフェース、
14…入力装置、15…出力装置、16…ドライブ、
111…第1データ取得部、112…第2データ取得部、
113…第3データ取得部、
114…第1学習処理部、115…第2学習処理部、
116…保存処理部、
121…学習プログラム、
125…第1学習結果データ、128…第2学習結果データ、
2…制御装置、
21…制御部、22…記憶部、23…通信インタフェース、
24…外部インタフェース、
25…入力装置、26…出力装置、27…ドライブ、
211…データ取得部、212…情報抽出部、
213…コマンド決定部、214…動作制御部、
221…制御プログラム、
5…抽出器、
51…第1部分、
511…畳み込み層、512…プーリング層、
513…全結合層、
52…第2部分、
521…畳み込み層、522…プーリング層、
523…全結合層、
53…第3部分、
531…全結合層、532…アップサンプリング層、
533…畳み込み層、
6…制御器、
61…入力層、62…中間(隠れ)層、63…出力層、
70…第1学習データセット、
701…シミュレーションデータ(訓練データ)、
702…第1環境情報(正解データ)、
73…第2学習データセット、
731…実データ(訓練データ)、
732…第2環境情報(正解データ)、
76…第3学習データセット、
761…第3環境情報(訓練データ)、
762…状態情報(訓練データ)、
763…制御コマンド(正解データ)、
80…画像データ(センサデータ)、
81…環境情報、
83…状態情報、85…制御コマンド、
91・92…記憶媒体、
CA…カメラ、R…産業用ロボット(ロボット装置)
Claims (11)
- ロボット装置のタスクを実行する環境を監視するセンサをシミュレートすることで生成されたシミュレーションデータ、及び前記シミュレーションデータに表れる前記タスクを実行する環境に関する第1環境情報の組み合わせによりそれぞれ構成された複数の第1学習データセットを取得する第1データ取得部と、
前記センサから得られた実データ、及び前記実データに表れる前記タスクを実行する環境に関する第2環境情報の組み合わせによりそれぞれ構成された複数の第2学習データセットを取得する第2データ取得部と、
前記タスクを実行する環境に関する第3環境情報及び前記タスクを実行する際の前記ロボット装置の状態に関する状態情報、並びに前記第3環境情報及び前記状態情報により示される条件下で前記タスクを前記ロボット装置に実行させるための制御コマンドの組み合わせによりそれぞれ構成された複数の第3学習データセットを取得する第3データ取得部と、
前記第1学習データセット及び前記第2学習データセットを利用して、抽出器の機械学習を実施する第1学習処理部と、
前記第3学習データセットを利用して、制御器の機械学習を実施する第2学習処理部と、
を備え、
前記抽出器の機械学習を実施することは、
前記各第1学習データセットについて、前記シミュレーションデータから、対応する前記第1環境情報と一致する環境情報を抽出するように前記抽出器を訓練する第1訓練ステップと、
前記第1訓練ステップを実行した後、前記各第2学習データセットについて、前記実データから、対応する前記第2環境情報と一致する環境情報を抽出するように前記抽出器を訓練する第2訓練ステップと、
を含み、
前記制御器の機械学習を実施することは、前記第3環境情報及び前記状態情報が入力されると、対応する前記制御コマンドと一致する制御コマンドを出力するように前記制御器を訓練する訓練ステップを含む、
学習装置。 - 前記各第1学習データセットの前記シミュレーションデータは、前記センサをシミュレートする条件をランダムに変更しながら生成される、
請求項1に記載の学習装置。 - 前記抽出器は、ニューラルネットワークにより構成され、
前記ニューラルネットワークは、第1部分、第2部分、及び第3部分に分かれており、
前記第1部分及び前記第2部分は、前記ニューラルネットワークの入力側に並列に配置され、同じ構造を有することにより共通のパラメータを有しており、
前記第1部分は、前記シミュレーションデータの入力を受け付けるように構成され、
前記第2部分は、前記実データの入力を受け付けるように構成され、
前記第3部分は、前記ニューラルネットワークの出力側に配置され、前記第1部分及び前記第2部分それぞれの出力を受け付けるように構成され、
前記第1訓練ステップでは、前記第1学習処理部は、前記各第1学習データセットについて、前記シミュレーションデータを前記第1部分に入力すると、対応する前記第1環境情報と一致する出力値が前記第3部分から出力されるように、前記第1部分及び前記第3部分それぞれのパラメータの値を調整し、
前記第1訓練ステップを実行した後、前記第2訓練ステップを実行する前に、前記第1学習処理部は、前記第1部分のパラメータの調整した値を前記第2部分のパラメータに複製する、
請求項1又は2に記載の学習装置。 - 前記第2訓練ステップでは、前記第1学習処理部は、前記第3部分のパラメータの値は固定のまま、前記各第2学習データセットについて、前記実データを前記第2部分に入力すると、対応する前記第2環境情報と一致する出力値が前記第3部分から出力されるように、前記第2部分のパラメータの値を調整する、
請求項3に記載の学習装置。 - 前記第3環境情報は、前記機械学習が完了した後の前記抽出器を利用して、前記センサをシミュレートすることで生成された他のシミュレーションデータから抽出することで得られる、
請求項1から4のいずれか1項に記載の学習装置。 - 前記ロボット装置は、生産ラインにおける産業用ロボットであり、
前記センサは、カメラ、圧力センサ、ロードセル及びこれらの組み合わせにより構成され、
前記各環境情報は、セグメンテーション情報、前記タスクの対象となるワークの属性に関する情報、前記タスクを実行する位置に関する情報、障害物の有無を示す情報、及び障害物の属性に関する情報の少なくともいずれかを含み、
前記制御コマンドは、前記産業用ロボットの駆動量を規定する、
請求項1から5のいずれか1項に記載の学習装置。 - 前記ロボット装置は、自律的に動作可能に構成された自律型ロボットであり、
前記センサは、カメラ、サーモセンサ、マイクロフォン及びこれらの組み合わせにより構成され、
前記各環境情報は、セグメンテーション情報及び前記タスクの実行に関連する対象物の属性に関する情報の少なくともいずれかを含み、
前記制御コマンドは、前記自律型ロボットの駆動量、出力音声及び画面表示の少なくともいずれかを規定する、
請求項1から5のいずれか1項に記載の学習装置。 - 前記ロボット装置は、自動運転動作を実行可能に構成された移動体であり、
前記センサは、カメラ、ライダセンサ及びこれらの組み合わせにより構成され、
前記各環境情報は、前記移動体の進行する通路に関する情報及び前記移動体の進行方向に存在する対象物に関する情報の少なくともいずれかを含み、
前記制御コマンドは、前記車両のアクセル量、ブレーキ量、ハンドルの操舵角、ライトの点灯及びクラクションの使用の少なくともいずれかを規定する、
請求項1から5のいずれか1項に記載の学習装置。 - ロボット装置の動作を制御する制御装置であって、
前記ロボット装置のタスクを実行する環境を監視するセンサにより得られたセンサデータ、及び前記タスクを実行する際の前記ロボット装置の状態に関する状態情報を取得するデータ取得部と、
請求項1から8のいずれか1項に記載の学習装置により構築された機械学習済みの前記抽出器を利用して、前記タスクを実行する環境に関する環境情報を前記センサデータから抽出する情報抽出部と、
前記学習装置により構築された機械学習済みの前記制御器を利用して、前記環境情報及び前記状態情報により示される条件下で前記タスクを前記ロボット装置に実行させるための制御コマンドを決定するコマンド決定部と、
決定された前記制御コマンドに基づいて、前記ロボット装置の動作を制御する動作制御部と、
を備える、
制御装置。 - コンピュータが、
ロボット装置のタスクを実行する環境を監視するセンサをシミュレートすることで生成されたシミュレーションデータ、及び前記シミュレーションデータに表れる前記タスクを実行する環境に関する第1環境情報の組み合わせによりそれぞれ構成された複数の第1学習データセットを取得するステップと、
前記センサから得られた実データ、及び前記実データに表れる前記タスクを実行する環境に関する第2環境情報の組み合わせによりそれぞれ構成された複数の第2学習データセットを取得するステップと、
前記タスクを実行する環境に関する第3環境情報及び前記タスクを実行する際の前記ロボット装置の状態に関する状態情報、並びに前記第3環境情報及び前記状態情報により示される条件下で前記タスクを前記ロボット装置に実行させるための制御コマンドの組み合わせによりそれぞれ構成された複数の第3学習データセットを取得するステップと、
前記第1学習データセット及び前記第2学習データセットを利用して、抽出器の機械学習を実施するステップと、
前記第3学習データセットを利用して、制御器の機械学習を実施するステップ、
を実行し、
前記抽出器の機械学習を実施するステップは、
前記各第1学習データセットについて、前記シミュレーションデータから、対応する前記第1環境情報と一致する環境情報を抽出するように前記抽出器を訓練する第1訓練ステップと、
前記第1訓練ステップを実行した後、前記各第2学習データセットについて、前記実データから、対応する前記第2環境情報と一致する環境情報を抽出するように前記抽出器を訓練する第2訓練ステップと、
を含み、
前記制御器の機械学習を実施するステップは、前記第3環境情報及び前記状態情報が入力されると、対応する前記制御コマンドと一致する制御コマンドを出力するように前記制御器を訓練する訓練ステップを含む、
学習方法。 - コンピュータに、
ロボット装置のタスクを実行する環境を監視するセンサをシミュレートすることで生成されたシミュレーションデータ、及び前記シミュレーションデータに表れる前記タスクを実行する環境に関する第1環境情報の組み合わせによりそれぞれ構成された複数の第1学習データセットを取得するステップと、
前記センサから得られた実データ、及び前記実データに表れる前記タスクを実行する環境に関する第2環境情報の組み合わせによりそれぞれ構成された複数の第2学習データセットを取得するステップと、
前記タスクを実行する環境に関する第3環境情報及び前記タスクを実行する際の前記ロボット装置の状態に関する状態情報、並びに前記第3環境情報及び前記状態情報により示される条件下で前記タスクを前記ロボット装置に実行させるための制御コマンドの組み合わせによりそれぞれ構成された複数の第3学習データセットを取得するステップと、
前記第1学習データセット及び前記第2学習データセットを利用して、抽出器の機械学習を実施するステップと、
前記第3学習データセットを利用して、制御器の機械学習を実施するステップ、
を実行させるための学習プログラムであって、
前記抽出器の機械学習を実施するステップは、
前記各第1学習データセットについて、前記シミュレーションデータから、対応する前記第1環境情報と一致する環境情報を抽出するように前記抽出器を訓練する第1訓練ステップと、
前記第1訓練ステップを実行した後、前記各第2学習データセットについて、前記実データから、対応する前記第2環境情報と一致する環境情報を抽出するように前記抽出器を訓練する第2訓練ステップと、
を含み、
前記制御器の機械学習を実施するステップは、前記第3環境情報及び前記状態情報が入力されると、対応する前記制御コマンドと一致する制御コマンドを出力するように前記制御器を訓練する訓練ステップを含む、
学習プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018186800A JP7110884B2 (ja) | 2018-10-01 | 2018-10-01 | 学習装置、制御装置、学習方法、及び学習プログラム |
EP19869874.8A EP3862830A4 (en) | 2018-10-01 | 2019-09-24 | LEARNING DEVICE, CONTROL DEVICE, LEARNING METHOD AND LEARNING PROGRAM |
PCT/JP2019/037273 WO2020071174A1 (ja) | 2018-10-01 | 2019-09-24 | 学習装置、制御装置、学習方法、及び学習プログラム |
CN201980051955.0A CN112534367B (zh) | 2018-10-01 | 2019-09-24 | 学习装置、控制装置、学习方法以及计算机可读存储介质 |
US17/269,534 US11971709B2 (en) | 2018-10-01 | 2019-09-24 | Learning device, control device, learning method, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018186800A JP7110884B2 (ja) | 2018-10-01 | 2018-10-01 | 学習装置、制御装置、学習方法、及び学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020057161A true JP2020057161A (ja) | 2020-04-09 |
JP7110884B2 JP7110884B2 (ja) | 2022-08-02 |
Family
ID=70055307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018186800A Active JP7110884B2 (ja) | 2018-10-01 | 2018-10-01 | 学習装置、制御装置、学習方法、及び学習プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11971709B2 (ja) |
EP (1) | EP3862830A4 (ja) |
JP (1) | JP7110884B2 (ja) |
CN (1) | CN112534367B (ja) |
WO (1) | WO2020071174A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022132558A1 (en) * | 2020-12-16 | 2022-06-23 | Micron Technology, Inc. | Evolutionary imitation learning |
KR102594810B1 (ko) * | 2022-10-04 | 2023-10-30 | 세이지리서치 주식회사 | 비전 검사를 위한 이미지 생성을 위한 도메인 변환기의 학습 방법 |
WO2024029349A1 (ja) * | 2022-08-02 | 2024-02-08 | ソニーセミコンダクタソリューションズ株式会社 | 情報処理装置、情報処理方法、および記録媒体 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10552736B1 (en) * | 2019-03-06 | 2020-02-04 | Capital One Services, Llc | Counter data generation for data profiling using only true samples |
US11813748B2 (en) * | 2020-10-13 | 2023-11-14 | Google Llc | Simulating multiple robots in virtual environments |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010527086A (ja) * | 2007-07-23 | 2010-08-05 | ソウル大学校産学協力団 | キャラクタシミュレーション方法およびシステム |
JP2012043225A (ja) * | 2010-08-19 | 2012-03-01 | National Institute Of Information & Communication Technology | 相互機械学習装置、相互機械学習方法、及びプログラム |
JP2016107346A (ja) * | 2014-12-02 | 2016-06-20 | 国立大学法人東京工業大学 | 動作の転移装置、動作の転移方法及びプログラム |
KR20170052870A (ko) * | 2015-11-05 | 2017-05-15 | 삼성전자주식회사 | 알고리즘 학습 방법 및 장치 |
JP2017185577A (ja) * | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
US9811074B1 (en) * | 2016-06-21 | 2017-11-07 | TruPhysics GmbH | Optimization of robot control programs in physics-based simulated environment |
JP2018136767A (ja) * | 2017-02-22 | 2018-08-30 | オムロン株式会社 | 光学センサ、学習装置、及び画像処理システム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4111044B2 (ja) * | 2003-04-21 | 2008-07-02 | 株式会社安川電機 | ロボット制御装置 |
US7890194B2 (en) * | 2005-12-13 | 2011-02-15 | Brooks Automation, Inc. | Robotics programming interface |
CN107924484A (zh) | 2015-07-23 | 2018-04-17 | 丰田汽车欧洲股份有限公司 | 用于在环境背景下模拟类人控制行为的系统和基于计算机的方法 |
JP6148316B2 (ja) | 2015-07-31 | 2017-06-14 | ファナック株式会社 | 故障条件を学習する機械学習方法及び機械学習装置、並びに該機械学習装置を備えた故障予知装置及び故障予知システム |
EP3435296A4 (en) | 2016-03-25 | 2019-07-03 | Sony Corporation | INFORMATION PROCESSING DEVICE |
JP2017182129A (ja) | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置。 |
CN106080590B (zh) * | 2016-06-12 | 2018-04-03 | 百度在线网络技术(北京)有限公司 | 车辆控制方法和装置以及决策模型的获取方法和装置 |
JP6469065B2 (ja) | 2016-10-28 | 2019-02-13 | ファナック株式会社 | 機械学習装置及び加工時間予測装置 |
JP6457473B2 (ja) | 2016-12-16 | 2019-01-23 | ファナック株式会社 | ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法 |
JP2018107315A (ja) | 2016-12-27 | 2018-07-05 | ファナック株式会社 | プリント板組立作業のための機械学習装置、制御装置、産業機械、組立システム及び機械学習方法 |
CN107479368B (zh) * | 2017-06-30 | 2021-09-21 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN107392125A (zh) * | 2017-07-11 | 2017-11-24 | 中国科学院上海高等研究院 | 智能模型的训练方法/系统、计算机可读存储介质及终端 |
-
2018
- 2018-10-01 JP JP2018186800A patent/JP7110884B2/ja active Active
-
2019
- 2019-09-24 CN CN201980051955.0A patent/CN112534367B/zh active Active
- 2019-09-24 EP EP19869874.8A patent/EP3862830A4/en active Pending
- 2019-09-24 US US17/269,534 patent/US11971709B2/en active Active
- 2019-09-24 WO PCT/JP2019/037273 patent/WO2020071174A1/ja unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010527086A (ja) * | 2007-07-23 | 2010-08-05 | ソウル大学校産学協力団 | キャラクタシミュレーション方法およびシステム |
JP2012043225A (ja) * | 2010-08-19 | 2012-03-01 | National Institute Of Information & Communication Technology | 相互機械学習装置、相互機械学習方法、及びプログラム |
JP2016107346A (ja) * | 2014-12-02 | 2016-06-20 | 国立大学法人東京工業大学 | 動作の転移装置、動作の転移方法及びプログラム |
KR20170052870A (ko) * | 2015-11-05 | 2017-05-15 | 삼성전자주식회사 | 알고리즘 학습 방법 및 장치 |
JP2017185577A (ja) * | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
US9811074B1 (en) * | 2016-06-21 | 2017-11-07 | TruPhysics GmbH | Optimization of robot control programs in physics-based simulated environment |
JP2018136767A (ja) * | 2017-02-22 | 2018-08-30 | オムロン株式会社 | 光学センサ、学習装置、及び画像処理システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022132558A1 (en) * | 2020-12-16 | 2022-06-23 | Micron Technology, Inc. | Evolutionary imitation learning |
WO2024029349A1 (ja) * | 2022-08-02 | 2024-02-08 | ソニーセミコンダクタソリューションズ株式会社 | 情報処理装置、情報処理方法、および記録媒体 |
KR102594810B1 (ko) * | 2022-10-04 | 2023-10-30 | 세이지리서치 주식회사 | 비전 검사를 위한 이미지 생성을 위한 도메인 변환기의 학습 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP3862830A4 (en) | 2022-07-06 |
CN112534367B (zh) | 2023-09-19 |
US20210181728A1 (en) | 2021-06-17 |
EP3862830A1 (en) | 2021-08-11 |
CN112534367A (zh) | 2021-03-19 |
JP7110884B2 (ja) | 2022-08-02 |
US11971709B2 (en) | 2024-04-30 |
WO2020071174A1 (ja) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020071174A1 (ja) | 学習装置、制御装置、学習方法、及び学習プログラム | |
Zhang et al. | Towards vision-based deep reinforcement learning for robotic motion control | |
CN111587408B (zh) | 机器人导航和对象跟踪 | |
US10981272B1 (en) | Robot grasp learning | |
KR102365465B1 (ko) | 로봇 행동들에 대한 보정들의 결정 및 이용 | |
US11724398B2 (en) | Efficient robot control based on inputs from remote client devices | |
JP6946831B2 (ja) | 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法 | |
JP6608890B2 (ja) | 機械学習装置、ロボットシステム及び機械学習方法 | |
CN110084307B (zh) | 一种基于深度强化学习的移动机器人视觉跟随方法 | |
US11823048B1 (en) | Generating simulated training examples for training of machine learning model used for robot control | |
JP6439817B2 (ja) | 認識的アフォーダンスに基づくロボットから人間への物体ハンドオーバの適合 | |
CN109397285B (zh) | 一种装配方法、装配装置及装配设备 | |
CN112534471B (zh) | 图像生成装置及方法、机器人训练系统以及存储介质 | |
JP7117237B2 (ja) | ロボット制御装置、ロボットシステム及びロボット制御方法 | |
JP6671694B1 (ja) | 機械学習装置、機械学習システム、データ処理システム及び機械学習方法 | |
EP3812107A1 (en) | Robot control device, and method and program for controlling the same | |
JP6907206B2 (ja) | 運動計画の方法、運動計画のための装置及び非一時的コンピュータ可読記録媒体 | |
CN114556383A (zh) | 模型生成装置、推定装置、模型生成方法以及模型生成程序 | |
JP6904287B2 (ja) | 制御装置、制御方法、及び制御プログラム | |
Macchini et al. | Does spontaneous motion lead to intuitive Body-Machine Interfaces? A fitness study of different body segments for wearable telerobotics | |
CN116529033A (zh) | 细粒度工业机器人组件 | |
JP2022173888A (ja) | シミュレーション情報反映装置、方法、プログラム、及びシステム | |
CN114571456B (zh) | 基于机器人技能学习的电连接器装配方法及系统 | |
JP2020052032A (ja) | 撮像装置及び撮像システム | |
Watada et al. | A decision making system of robots introducing a re-construction of emotions based on their own experiences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7110884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |