JP2022077226A

JP2022077226A - 機器制御プログラム、機器制御方法および機器制御装置

Info

Publication number: JP2022077226A
Application number: JP2020187979A
Authority: JP
Inventors: 泰斗横田; Yasuto Yokota; 彼方鈴木; Kanata Suzuki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-05-23
Also published as: US20220143824A1

Abstract

【課題】安定した機器の動作を実現する。【解決手段】実施形態の機器制御プログラムは、生成する処理と、制御する処理とをコンピュータに実行させる。生成する処理は、第１のタイミングの第１の環境情報および第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成する。また、生成する処理は、第２のタイミングの第２の環境情報および第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成する。また、生成する処理は、第３のタイミングにおいて第２の動作情報に基づいて機器の動作を制御し、第３のタイミングの第３の環境情報と、第２の動作情報とに基づいて、第１の機械学習モデルを用いて、第５の動作情報を生成する。制御する処理は、第４のタイミングにおいて、第４の動作情報に基づいて機器の動作を制御し、第５のタイミングにおいて、第５の動作情報に基づいて、機器の動作を制御する。【選択図】図１

Description

本発明の実施形態は、機器制御プログラム、機器制御方法および機器制御装置に関する。

近年、産業用の機械やロボットアームにおける制御においては、ティーチング作業を減らすためにＲＮＮ（Recurrent Neural Network）やＬＳＴＭ（Long Short-Term Memory）などの回帰型ニューラルネットワークの導入が進んでいる。

この回帰型ニューラルネットワークを用いた機器制御においては、ＬＳＴＭを用いて現在の入力から１ステップ後のロボットアームの姿勢に関する姿勢情報を予測し、予測した姿勢情報を用いてロボットアームを動作させる従来技術が知られている。

K Suzuki, H Mori and T Ogata, "Undefined-behavior guarantee by switching to model-based controller according to the embedded dynamics in Recurrent Neural Network", arXiv:2003.04862 . https://arxiv.org/abs/2003.04862

しかしながら、上記の従来技術では、姿勢情報を予測する各ステップの処理時間がボトルネックとなり、例えば動作速度が早くなると各ステップにおける姿勢の変化量が大きくなる。このように、各ステップにおける姿勢の変化量が大きくなると、機器の動作がコマ送りのように不安定になるという問題がある。

１つの側面では、安定した機器の動作を実現できる機器制御プログラム、機器制御方法および機器制御装置を提供することを目的とする。

第１の案では、機器制御プログラムは、生成する処理と、制御する処理とをコンピュータに実行させる。生成する処理は、第１のタイミングの機器の動作環境を表す第１の環境情報と、第１のタイミングの機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成する。また、生成する処理は、第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、第２のタイミングの機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成する。また、生成する処理は、第２のタイミングより後の第３のタイミングにおいて第２の動作情報に基づいて機器の動作を制御し、第３のタイミングの機器の動作環境を表す第３の環境情報と、第２の動作情報とに基づいて、第１の機械学習モデルを用いて、第５の動作情報を生成する。制御する処理は、第３のタイミングより後の第４のタイミングにおいて、第４の動作情報に基づいて機器の動作を制御し、第４のタイミングより後の第５のタイミングにおいて、第５の動作情報に基づいて、機器の動作を制御する。

安定した機器の動作を実現できる。

図１は、実施形態の概要を説明する説明図である。図２は、ロボットアームの一例を説明する説明図である。図３は、実施形態にかかる機器制御装置の機能構成例を示すブロック図である。図４は、実施形態にかかる機器制御装置の事前作業の一例を示すフローチャートである。図５は、実施形態にかかる機器制御装置の動作例を示すフローチャートである。図６は、ｎ＝３の場合の動作の概要を説明する説明図である。図７は、コンピュータ構成の一例を説明する説明図である。

以下、図面を参照して、実施形態にかかる機器制御プログラム、機器制御方法および機器制御装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する…装置およびプログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態の概要を説明する説明図である。図１に示すように、本実施形態では、機器の一例としてのロボットアーム１００における制御を、ＲＮＮやＬＳＴＭなどの回帰型ニューラルネットワークである機械学習モデルＭ１を用いて行う。なお、制御の対象とする機器は、ロボットアーム１００に限定しない。例えば、自動旋盤における制御軸の位置、加工物の送り速度、加工速度などの制御を機械学習モデルＭ１を用いて行ってもよい。

図２は、ロボットアーム１００の一例を説明する説明図である。図２に示すように、ロボットアーム１００は、軸Ｊ１～Ｊ６の自由度を有する産業用ロボットアームである。このように、自由度の高いロボットアーム１００は、アーム先端位置の空間座標では姿勢が一意に定まらない。このため、事前に動作ごとにアームの軌道を決定した上で、その動作状態を実現する動作情報としてロボットアーム１００の姿勢（軸Ｊ１～Ｊ６それぞれの角度の変化）を示す姿勢情報を予測する機械学習モデルＭ１が機械学習によって作成される。

具体的には、現在時刻をｔとしたとき、時刻ｔにおけるロボットアーム１００を含む周囲の外観を撮像した画像Ｄ１より、オートエンコーダ（ＡＥ：AutoEncoder）などがロボットアーム１００の動作環境を表す特徴量（ｆ_ｔ）を抽出する（Ｓ１）。例えば、オートエンコーダを用いる場合は、画像Ｄ１をオートエンコーダに入力して中間層から得られた値（潜在変数）を特徴量（ｆ）とする（任意の時刻である場合は添字のｔは省略する）。この特徴量ｆ_ｔは、時刻ｔ（現在）におけるロボットアーム１００の動作環境を表す環境情報の一例である。

なお、特徴量ｆ_ｔについては、ロボットアーム１００を撮像した画像Ｄ１から抽出するものに限定するものではない。例えば、特徴量ｆ_ｔは、ロボットアーム１００に設置されたカメラで撮像した画像、すなわちロボットアーム１００からの視点で撮像した画像から抽出してもよい。また、特徴量ｆ_ｔは、ロボットアーム１００に設置された位置センサ、加速度センサなどの各種センサのセンサデータまたはこのセンサデータからＡＥ等を介して抽出したデータであってもよい。

事前学習では、ロボットアーム１００の現在の姿勢情報（ｍ_ｔ）と、特徴量（ｆ_ｔ）とを機械学習モデルＭ１に入力する。ついで、事前学習では、処理のタイミング（ステップ）において１ステップ（ｔ＋１）後の機械学習モデルＭ１の推定値（出力）が、その時点の姿勢情報（ｍ_ｔ＋１）と、特徴量（ｆ_ｔ＋１）となるように機械学習モデルＭ１のパラメータを設定する（Ｓ２）。

この機械学習モデルＭ１については、機械学習モデルＭ１が推定（出力）した１ステップ後（ｔ＋１）の推定値（ｆ_ｔ＋１，ｍ_ｔ＋１）を自身の入力とし、さらに次のステップ（ｔ＋２）の推定値（ｆ_ｔ＋２，ｍ_ｔ＋２）を出力するようにする。また、機械学習モデルＭ１については、このループ処理を複数回（例えばｎ回）繰り返すことで、複数ステップ後（ｔ＋ｎ）の推定値（ｆ_ｔ＋ｎ，ｍ_ｔ＋ｎ）を出力するようにする（Ｓ３）。このようにループ処理を行うことで、機械学習モデルＭ１では、例えば１ステップ前の姿勢情報および特徴量の取得（入力）を待たずに、数ステップ前に取得したデータから複数ステップ先の推定を行うことができる。

本実施形態では、この機械学習モデルＭ１を例えば複製して複数（少なくとも２つ以上）のインスタンスを並列化しておく。そして、本実施形態では、現時点のステップで取得した情報（姿勢情報および特徴量）を複数用意した機械学習モデルＭ１の１つに入力する。ついで、本実施形態では、次のステップでは取得した情報を別の機械学習モデルＭ１に入力するように、１ステップずつずらして機械学習モデルＭ１に入力する。これにより、本実施形態では、制御に用いる動作情報（ｍ）が得られる時間間隔を機械学習モデルＭ１の個数に応じて短くすることができる。

例えば、本実施形態では、ｎステップ後を予測する機械学習モデルＭ１を、ｎ個並列化することで、複数（ｎ）ステップ先までの各ステップにおける動作情報（ｍ_ｔ＋１、…ｍ_{ｔ＋ｎ－１}）を予測することができる。

一例として、３ステップ後を推定する２つの機械学習モデルＭ１を用いる場合、本実施形態では、第１のタイミング（例えばｔ）における動作環境を表す特徴量（ｆ_ｔ）と、姿勢情報（ｍ_ｔ）とに基づいて、一方の機械学習モデルＭ１を用いて、姿勢情報（ｆ_ｔ＋３）を生成する。ついで、本実施形態では、第２のタイミング（例えばｔ＋１）における動作環境を表す特徴量（ｆ_ｔ＋１）と、姿勢情報（ｍ_ｔ＋１）とに基づいて、他方の機械学習モデルＭ１を用いて、姿勢情報（ｆ_ｔ＋４）を生成する。ついで、本実施形態では、第３のタイミング（例えばｔ＋２）において機械学習モデルＭ１が推定した姿勢情報（ｆ_ｔ＋３）に基づいてロボットアーム１００の動作を制御する。また、本実施形態では、第３のタイミング（ｔ＋２）における動作環境を表す特徴量（ｆ_ｔ＋２）と、姿勢情報（ｍ_ｔ＋２）とに基づいて、推定が完了した機械学習モデルＭ１を用いて、姿勢情報（ｍ_ｔ＋５）を生成する。

以後は、機械学習モデルＭ１を用いた推定と、その推定により得られた姿勢情報に基づく制御を繰り返す。例えば、第４のタイミング（例えばｔ＋３）では、第２のタイミングの情報に基づき機械学習モデルＭ１が推定した姿勢情報（ｆ_ｔ＋４）に基づいてロボットアーム１００の動作を制御する。また、第５のタイミング（例えばｔ＋４）では、第３のタイミングの情報に基づき機械学習モデルＭ１が推定した姿勢情報（ｆ_ｔ＋５）に基づいてロボットアーム１００の動作を制御する。

図３は、実施形態にかかる機器制御装置の機能構成例を示すブロック図である。図３に示すように、機器制御装置１は、ロボットアーム１００の動作を制御する情報処理装置であり、取得部１０、生成部２０および機器制御部３０を有する。

取得部１０は、ロボットアーム１００の動作環境を表す特徴量（ｆ）およびロボットアーム１００の動作状態を示す姿勢情報（ｍ）を取得する処理部である。具体的には、取得部１０は、ロボットアーム１００を撮像するカメラ１０１の画像をＡＥ１０２に入力して得られた画像の特徴量（ｆ）を取得する。また、取得部１０は、ロボットアーム１００の軸Ｊ１～Ｊ６に対応して設けられたセンサ（例えばエンコーダ）からの出力をもとに、各軸の姿勢情報（ｍ）を取得する。取得部１０は、取得した特徴量（ｆ）および姿勢情報（ｍ）を生成部２０へ出力する。

生成部２０は、取得部１０が取得した特徴量（ｆ）および姿勢情報（ｍ）より、ロボットアーム１００の動作の制御に用いる取得時より数ステップ後（例えばｎステップ後）の姿勢情報（ｍ）を生成する処理部である。具体的には、生成部２０は、特徴量（ｆ）および姿勢情報（ｍ）の入力に対してｎステップ後の特徴量（ｆ）および姿勢情報（ｍ）を推定する機械学習モデルＭ１に対応するＬＳＴＭ２１を複数（例えばｎ個）有する。各ＬＳＴＭ２１は、特徴量（ｆ）および姿勢情報（ｍ）の入力に対し、１ステップ後の特徴量（ｆ）および姿勢情報（ｍ）の推定値を入力に回すループを繰り返すことで、ｎステップ後の特徴量（ｆ）および姿勢情報（ｍ）を推定する。

生成部２０は、特定のステップで取得部１０が取得した特徴量（ｆ）および姿勢情報（ｍ）を複数用意したＬＳＴＭ２１の１つに入力する。ついで、生成部２０は、その次のステップでは取得部１０が取得した特徴量（ｆ）および姿勢情報（ｍ）を別のＬＳＴＭ２１に入力するように、１ステップずつずらしてＬＳＴＭ２１に入力する。このように、生成部２０は、複数のＬＳＴＭ２１を用いて得られた姿勢情報（ｍ）を機器制御部３０へ出力する。

機器制御部３０は、生成部２０が生成した姿勢情報（ｍ）をもとにロボットアーム１００の動作を制御する処理部である。具体的には、機器制御部３０は、生成部２０が生成した姿勢情報（ｍ）を目標値としてロボットアーム１００の動作を制御する。

図４は、実施形態にかかる機器制御装置１の事前作業の一例を示すフローチャートである。図４に示すように、事前作業においては、まず、ロボットアーム１００に動作として学習させたい動作パターンを十数例程度、手動で操作する。機器制御装置１では、この操作時におけるカメラ１０１の画像Ｄ１およびロボットアーム１００の姿勢情報（ｍ）をセットにして教示データを作成する（Ｓ１０）。

例えば、ホームポジション→テーブルの上のボルトを把持→脇の箱の中にボルトを置く→ホームポジションとする１つの動作パターンについて、２０セット手動で操作する。これにより、機器制御装置１は、２０セット（１セットあたり約５００ステップ）＝１００００ステップ分の教示データを生成する。

ついで、事前作業では、教示データに含まれる画像Ｄ１をもとに、ＡＥ１０２の学習を行う（Ｓ１１）。具体的には、Ｓ１０で作成した教示データの画像Ｄ１をＡＥ１０２の入力し、ＡＥ１０２の入力と出力との誤差が小さくなるように（ＡＥ１０２の出力が入力した画像Ｄ１と同じになるように）学習する。

例えば、１００００ステップ分の教示データに含まれる１００００枚の画像Ｄ１について、３００×３００ｐｉｘに解像度を落としたもので、訓練数を３００エポックとしてＡＥ１０２を学習する。

機器制御装置１では、Ｓ１１による学習後のＡＥ１０２における中間層の値（潜在変数）をＬＳＴＭ２１に入力する特徴量（ｆ）とする。

ついで、事前作業では、教示データに含まれる画像Ｄ１の特徴量（ｆ）と、ロボットアーム１００の姿勢情報（ｍ）とをもとにＬＳＴＭ２１の学習を行う（Ｓ１２）。

具体的には、時刻（ｔ）のステップの教示データを使って、時刻（ｔ＋１）のステップの教示データの値を予測できるようにＬＳＴＭ２１を学習する。このとき、教示データの画像Ｄ１についてはＡＥ１０２に入力し、ＡＥ１０２から抽出した特徴量（ｆ）をＬＳＴＭ２１の入力とする。また、対応する教示データの姿勢情報（ｍ）は、直接ＬＳＴＭ２１に入力する。正解は、１ステップ後の教示データ（姿勢情報（ｍ）および特徴量（ｆ））とする。

ついで、事前作業では、学習完了したＬＳＴＭ２１のパラメータをコピーし、同一のパラメータを持つｎ個のＬＳＴＭ２１のインスタンスを作成（複製）する（Ｓ１３）。このＬＳＴＭ２１の個数（ｎ）は、ユーザが予め設定してもよい。

図５は、実施形態にかかる機器制御装置１の動作例を示すフローチャートである。図５に示すように、処理が開始されると、取得部１０は、現在の画像Ｄ１をＡＥ１０２に入力して得られた特徴量（ｆ）と、現在のロボットアーム１００の姿勢情報（ｍ）とを取得する（Ｓ２０）。

ついで、生成部２０は、複数のＬＳＴＭ２１の中から、予測が完了して処理待ちのＬＳＴＭ２１に対して、Ｓ２０で取得した特徴量（ｆ）および姿勢情報（ｍ）を入力する（Ｓ２１）。

特徴量（ｆ）および姿勢情報（ｍ）の入力を受けたＬＳＴＭ２１では、出力（１ステップ先の推定値）を自身の入力として繰り返すループ処理により、ｎステップ先の姿勢情報（ｍ）を予測する（Ｓ２２）。

このように、生成部２０では、開始ステップが１つずつずれた状態でｎ個のＬＳＴＭ２１が並行して予測処理を実行する（Ｓ２３）。生成部２０は、ｎステップ先の予測が完了したＬＳＴＭ２１より得られたｎステップ先の姿勢情報（ｍ）を機器制御部３０へ出力する。

ついで、機器制御部３０は、生成部２０により予測された姿勢情報（ｍ）に基づきロボットアーム１００の動作を制御する（Ｓ２４）。ついで、機器制御部３０は、ロボットアーム１００の動作が終了位置まで到達したか否かなどの終了条件を満たすか否かを判定する（Ｓ２５）。

終了条件を満たさない場合（Ｓ２５：Ｎｏ）、機器制御部３０は、Ｓ２０へ処理を戻し、ロボットアーム１００の動作制御に関する処理を継続する。終了条件を満たす場合（Ｓ２５：Ｙｅｓ）、機器制御部３０は、ロボットアーム１００の動作制御に関する処理を終了する。

図６は、ｎ＝３の場合の動作の概要を説明する説明図である。具体的には、図６の例は、それぞれが入力に対して１ステップの処理時間で３ステップ先を予測するＬＳＴＭ２１～２３の３つのＬＳＴＭを用いてロボットアーム１００を制御するケースの一例である。なお、図示例では、特徴量（ｆ）および姿勢情報（ｍ）を取得してＬＳＴＭ２１～２３へ入力に至るまで１ステップ分の時間（受信時間）を要するものとする。同様に、ＬＳＴＭ２１～２３が推定した特徴量（ｆ）および姿勢情報（ｍ）をロボットアーム１００に送信するまでに１ステップ分の時間（送信時間）を要するものとする。

図６に示すように、時刻ｔでは、１ステップ前（ｔ－１）の情報（ｆ_ｔ－１，ｍ_ｔ－１）がＬＳＴＭ２１に入力される（Ｓ３０）。ＬＳＴＭ２１は、１ステップ後に３ステップ先の情報（ｆ_ｔ＋２，ｍ_ｔ＋２）を予測し、姿勢情報（ｍ_ｔ＋２）をロボットアーム１００へ送信する。これにより、ロボットアーム１００では、２ステップ後の（時刻ｔ＋２）にその姿勢情報（ｍ_ｔ＋２）を得ることができる。

同様に、時刻ｔ＋１では、１ステップ前（ｔ）の情報（ｆ_ｔ，ｍ_ｔ）がＬＳＴＭ２２に入力される（Ｓ３１）。ＬＳＴＭ２２は、１ステップ後に３ステップ先の情報（ｆ_ｔ＋３，ｍ_ｔ＋３）を予測し、姿勢情報（ｍ_ｔ＋３）をロボットアーム１００へ送信する。これにより、ロボットアーム１００では、２ステップ後の（時刻ｔ＋３）にその姿勢情報（ｍ_ｔ＋３）を得ることができる。

同様に、時刻ｔ＋２では、１ステップ前（ｔ＋１）の情報（ｆ_ｔ＋１，ｍ_ｔ＋１）がＬＳＴＭ２３に入力される（Ｓ３２）。ＬＳＴＭ２３は、１ステップ後に３ステップ先の情報（ｆ_ｔ＋４，ｍ_ｔ＋４）を予測し、姿勢情報（ｍ_ｔ＋４）をロボットアーム１００へ送信する。これにより、ロボットアーム１００では、２ステップ後の（時刻ｔ＋４）にその姿勢情報（ｍ_ｔ＋４）を得ることができる。

時刻ｔ＋３では、１ステップ前（ｔ＋２）の情報（ｆ_ｔ＋２，ｍ_ｔ＋２）が処理待ちのＬＳＴＭ２１に入力される（Ｓ３３）。これにより、ＬＳＴＭ２１は、１ステップ後に３ステップ先の情報（ｆ_ｔ＋５，ｍ_ｔ＋５）を予測し、姿勢情報（ｍ_ｔ＋５）をロボットアーム１００へ送信する。

以下、同様の処理が繰り返されることで、機器制御装置１では、１ステップごとの姿勢情報（ｍ）を例えば目標値としてロボットアーム１００に送信することで、ロボットアーム１００の動作を制御することができる。このように、データの送受信に時間を要する場合であっても、制御に用いる動作情報が得られる時間間隔を短くすることで、機器制御装置１は、ロボットアーム１００を高速、かつ、滑らかに動作させることができる。

以上のように、機器制御装置１の生成部２０は、第１のタイミングの機器の動作環境を表す第１の環境情報と、第１のタイミングの第１の動作情報とに基づいて、ＬＳＴＭ２１を用いて、第２の動作情報を生成する。また、生成部２０は、第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、第２のタイミングの第３の動作情報とに基づいて、ＬＳＴＭ２２を用いて、第４の動作情報を生成する。機器制御装置１の機器制御部３０は、第２のタイミングより後の第３のタイミングにおいて第２の動作情報に基づいて機器の動作を制御する。また、生成部２０は、第３のタイミングの機器の動作環境を表す第３の環境情報と、第２の動作情報とに基づいて、ＬＳＴＭ２１を用いて、第５の動作情報を生成する。また、機器制御部３０は、第３のタイミングより後の第４のタイミングにおいて、第４の動作情報に基づいて機器の動作を制御し、第４のタイミングより後の第５のタイミングにおいて、第５の動作情報に基づいて機器の動作を制御する。

このように、機器制御装置１では、例えば２つのＬＳＴＭ２１、２２を用いて各タイミングで得られた動作情報に基づいて機器の動作を制御するので、１つのＬＳＴＭ２１を用いる場合よりも、制御に用いる動作情報が得られる時間間隔を短くできる。したがって、機器制御装置１は、機器の動作速度が早くなる場合でも、制御に用いる動作情報の変化量を小さく抑えて、機器の動きを滑らかなものとすることができ、安定した機器の動作を実現できる。

また、機器制御装置１では、各タイミングにおける環境情報のそれぞれは、それぞれのタイミングにおける機器の動作環境を撮像した画像から抽出する。このように、機器制御装置１は、各タイミングおいて、機器の動作環境を撮像した画像より環境情報を取得してもよい。

また、機器制御装置１では、例えばＬＳＴＭ２１を用いて、第１のタイミングより後の第２のタイミングに関する第２の環境情報の推定値と、第３の動作情報の推定値とを生成し、この生成した推定値に基づき第２のタイミングより後の第３のタイミングの制御に用いる第２の動作情報を生成する。このように、機器制御装置１は、１つ後のタイミングの動作情報を推定するＬＳＴＭ２１を用いて、さらに１つ先のタイミングの動作情報を推定してもよい。

また、機器制御装置１の２０は、ｉ番目（ｉは自然数）のタイミングの機器の動作環境を表すｉ番の環境情報と、ｉ番目のタイミングの機器の動作状態を表すｉ番の動作情報とに基づいて、ｍ個（ｍは２以上の自然数）の機械学習モデルＭ１の一つを用いて、ｉ＋ｎ番目（ｎ＝ｍ－１）のタイミングの動作情報を生成する。機器制御装置１の機器制御部３０は、ｉ番目より後のタイミング（ｉ＋ｎ番目のタイミング）において、生成部２０が生成したｉ＋ｎ番目のタイミングの動作情報に基づいて機器の動作を制御する。

このように、機器制御装置１では、例えばｍ個の機械学習モデルＭ１を用いて得られた動作情報に基づいて機器の動作を制御するので、１つの機械学習モデルＭ１を用いる場合よりも、制御に用いる動作情報が得られる時間間隔を機械学習モデルＭ１の個数に応じて短くできる。例えば、ｎ＝ｍ－１とすると、各タイミングで得られた動作情報に基づいて機器の動作を制御することができる。したがって、機器制御装置１は、機器の動作速度が早くなる場合でも、制御に用いる動作情報の変化量を小さく抑えて、機器の動きを滑らかなものとすることができ、安定した機器の動作を実現できる。

例えば、ロボットアーム１００の姿勢情報（ｍ）の取得に２秒、ロボットアーム１００が次のステップの姿勢に移動するまで１秒、機械学習モデルＭ１の予測に１秒要するものとする。１つの機械学習モデルＭ１を用いる場合は、次のとおりであり、動作情報（姿勢情報）を予測して機器を動作する処理が一巡するのに最短で４秒かかる。
１秒目：時刻ｔの姿勢情報（ｍ_ｔ）から機械学習モデルＭ１が時刻ｔ＋１の姿勢情報（ｍ_ｔ＋１）を予測
２秒目：ロボットアーム１００が時刻ｔ＋１の姿勢に移動
３秒目：時刻ｔ＋１のロボットアーム１００の姿勢情報を取得（１秒目）
４秒目：時刻ｔ＋１のロボットアーム１００の姿勢情報を取得（２秒目）
５秒目：時刻ｔ＋１の姿勢情報（ｍ_ｔ＋１）から機械学習モデルＭ１が時刻ｔ＋２の姿勢情報（ｍ_ｔ＋ｗ）を予測

これに対し、上記の条件で機械学習モデルＭ１の個数を４とする場合は、次のとおりであり、処理が一巡するのに最短で１秒で済む。
１秒目：時刻ｔ－２の姿勢情報（ｍ_ｔ－２）から機械学習モデルＭ１が時刻ｔ＋２の姿勢を予測、ロボットアーム１００が時刻ｔ＋１の姿勢に移動、時刻ｔのロボットアーム１００の姿勢情報を取得（１秒目）
２秒目：時刻ｔ－１の姿勢情報（ｍ_ｔ－１）から機械学習モデルＭ１が時刻ｔ＋３の姿勢を予測、ロボットアーム１００が時刻ｔ＋２の姿勢に移動、時刻ｔ＋１のロボットアーム１００の姿勢情報を取得（１秒目）、時刻ｔのロボットアーム１００の姿勢情報を取得（２秒目）
３秒目：時刻ｔの姿勢情報（ｍ_ｔ）から機械学習モデルＭ１が時刻ｔ＋４の姿勢を予測、ロボットアーム１００が時刻ｔ＋３の姿勢に移動、時刻ｔ＋２のロボットアーム１００の姿勢情報を取得（１秒目）、時刻ｔ＋１のロボットアーム１００の姿勢情報を取得（２秒目）
４秒目：時刻ｔ＋１の姿勢情報（ｍ_ｔ＋１）から機械学習モデルＭ１が時刻ｔ＋５の姿勢を予測、ロボットアーム１００が時刻ｔ＋４の姿勢に移動、時刻ｔ＋３のロボットアーム１００の姿勢情報を取得（１秒目）、時刻ｔ＋２のロボットアーム１００の姿勢情報を取得（２秒目）

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、機器制御装置１で行われる取得部１０、生成部２０および機器制御部３０の各種処理機能は、制御部の一例としてのＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、機器制御装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図７は、コンピュータ構成の一例を説明位する説明図である。

図７に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカー２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、機器制御装置１は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

ハードディスク装置２０９には、上記の実施形態で説明した機能構成（例えば取得部１０、生成部２０および機器制御部３０）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の機能構成（例えば取得部１０、生成部２０および機器制御部３０）に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）第１のタイミングの機器の動作環境を表す第１の環境情報と、前記第１のタイミングの前記機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成し、
前記第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、前記第２のタイミングの前記機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成し、
前記第２のタイミングより後の第３のタイミングにおいて前記第２の動作情報に基づいて前記機器の動作を制御し、前記第３のタイミングの機器の動作環境を表す第３の環境情報と、前記第２の動作情報とに基づいて、前記第１の機械学習モデルを用いて、第５の動作情報を生成し、
前記第３のタイミングより後の第４のタイミングにおいて、前記第４の動作情報に基づいて前記機器の動作を制御し、
前記第４のタイミングより後の第５のタイミングにおいて、前記第５の動作情報に基づいて、前記機器の動作を制御する、
処理をコンピュータに実行させることを特徴とする機器制御プログラム。

（付記２）前記第１の環境情報は、前記第１のタイミングにおける前記機器の動作環境を撮像した画像から抽出される、
ことを特徴とする付記１に記載の機器制御プログラム。

（付記３）前記第２の動作情報を生成する処理は、前記第１の機械学習モデルを用いて、前記第２のタイミングに関する前記第２の環境情報の推定値と、前記第３の動作情報の推定値とを生成し、前記第２の環境情報の推定値と前記第３の動作情報の推定値に基づき前記第２の動作情報を生成する処理を含む、
ことを特徴とする付記１または２に記載の機器制御プログラム。

（付記４）ｉ番目（ｉは自然数）のタイミングの機器の動作環境を表すｉ番の環境情報と、前記ｉ番目のタイミングの前記機器の動作状態を表すｉ番の動作情報とに基づいて、ｍ個（ｍは２以上の自然数）の機械学習モデルの一つを用いて、ｉ＋ｎ番目（ｎ＝ｍ－１）のタイミングの動作情報を生成し、
前記ｉ＋ｎ番目のタイミングにおいて、生成した前記ｉ＋ｎ番目のタイミングの動作情報に基づいて前記機器の動作を制御する、
処理をコンピュータに実行させることを特徴とする機器制御プログラム。

（付記５）第１のタイミングの機器の動作環境を表す第１の環境情報と、前記第１のタイミングの前記機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成し、
前記第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、前記第２のタイミングの前記機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成し、
前記第２のタイミングより後の第３のタイミングにおいて前記第２の動作情報に基づいて前記機器の動作を制御し、前記第３のタイミングの機器の動作環境を表す第３の環境情報と、前記第２の動作情報とに基づいて、前記第１の機械学習モデルを用いて、第５の動作情報を生成し、
前記第３のタイミングより後の第４のタイミングにおいて、前記第４の動作情報に基づいて前記機器の動作を制御し、
前記第４のタイミングより後の第５のタイミングにおいて、前記第５の動作情報に基づいて、前記機器の動作を制御する、
処理をコンピュータが実行することを特徴とする機器制御方法。

（付記６）前記第１の環境情報は、前記第１のタイミングにおける前記機器の動作環境を撮像した画像から抽出される、
ことを特徴とする付記５に記載の機器制御方法。

（付記７）前記第２の動作情報を生成する処理は、前記第１の機械学習モデルを用いて、前記第２のタイミングに関する前記第２の環境情報の推定値と、前記第３の動作情報の推定値とを生成し、前記第２の環境情報の推定値と前記第３の動作情報の推定値に基づき前記第２の動作情報を生成する処理を含む、
ことを特徴とする付記５または６に記載の機器制御方法。

（付記８）ｉ番目（ｉは自然数）のタイミングの機器の動作環境を表すｉ番の環境情報と、前記ｉ番目のタイミングの前記機器の動作状態を表すｉ番の動作情報とに基づいて、ｍ個（ｍは２以上の自然数）の機械学習モデルの一つを用いて、ｉ＋ｎ番目（ｎ＝ｍ－１）のタイミングの動作情報を生成し、
前記ｉ＋ｎ番目のタイミングにおいて、生成した前記ｉ＋ｎ番目のタイミングの動作情報に基づいて前記機器の動作を制御する、
処理をコンピュータが実行することを特徴とする機器制御方法。

（付記９）第１のタイミングの機器の動作環境を表す第１の環境情報と、前記第１のタイミングの前記機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成し、
前記第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、前記第２のタイミングの前記機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成し、
前記第２のタイミングより後の第３のタイミングにおいて前記第２の動作情報に基づいて前記機器の動作を制御し、前記第３のタイミングの機器の動作環境を表す第３の環境情報と、前記第２の動作情報とに基づいて、前記第１の機械学習モデルを用いて、第５の動作情報を生成し、
前記第３のタイミングより後の第４のタイミングにおいて、前記第４の動作情報に基づいて前記機器の動作を制御し、
前記第４のタイミングより後の第５のタイミングにおいて、前記第５の動作情報に基づいて、前記機器の動作を制御する、
処理を実行する制御部を含むことを特徴とする機器制御装置。

（付記１０）前記第１の環境情報は、前記第１のタイミングにおける前記機器の動作環境を撮像した画像から抽出される、
ことを特徴とする付記９に記載の機器制御装置。

（付記１１）前記第２の動作情報を生成する処理は、前記第１の機械学習モデルを用いて、前記第２のタイミングに関する前記第２の環境情報の推定値と、前記第３の動作情報の推定値とを生成し、前記第２の環境情報の推定値と前記第３の動作情報の推定値に基づき前記第２の動作情報を生成する処理を含む、
ことを特徴とする付記９または１０に記載の機器制御装置。

（付記１２）ｉ番目（ｉは自然数）のタイミングの機器の動作環境を表すｉ番の環境情報と、前記ｉ番目のタイミングの前記機器の動作状態を表すｉ番の動作情報とに基づいて、ｍ個（ｍは２以上の自然数）の機械学習モデルの一つを用いて、ｉ＋ｎ番目（ｎ＝ｍ－１）のタイミングの動作情報を生成し、
前記ｉ＋ｎ番目のタイミングにおいて、生成した前記ｉ＋ｎ番目のタイミングの動作情報に基づいて前記機器の動作を制御する、
処理を実行する制御部を含むことを特徴とする機器制御装置。

１…機器制御装置
１０…取得部
２０…生成部
２１～２３…ＬＳＴＭ
３０…機器制御部
１００…ロボットアーム
１０１…カメラ
１０２…ＡＥ
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカー
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｄ１…画像
Ｊ１～Ｊ６…軸
Ｍ１…機械学習モデル

Claims

第１のタイミングの機器の動作環境を表す第１の環境情報と、前記第１のタイミングの前記機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成し、
前記第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、前記第２のタイミングの前記機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成し、
前記第２のタイミングより後の第３のタイミングにおいて前記第２の動作情報に基づいて前記機器の動作を制御し、前記第３のタイミングの機器の動作環境を表す第３の環境情報と、前記第２の動作情報とに基づいて、前記第１の機械学習モデルを用いて、第５の動作情報を生成し、
前記第３のタイミングより後の第４のタイミングにおいて、前記第４の動作情報に基づいて前記機器の動作を制御し、
前記第４のタイミングより後の第５のタイミングにおいて、前記第５の動作情報に基づいて、前記機器の動作を制御する、
処理をコンピュータに実行させることを特徴とする機器制御プログラム。
前記第１の環境情報は、前記第１のタイミングにおける前記機器の動作環境を撮像した画像から抽出される、
ことを特徴とする請求項１に記載の機器制御プログラム。
前記第２の動作情報を生成する処理は、前記第１の機械学習モデルを用いて、前記第２のタイミングに関する前記第２の環境情報の推定値と、前記第３の動作情報の推定値とを生成し、前記第２の環境情報の推定値と前記第３の動作情報の推定値に基づき前記第２の動作情報を生成する処理を含む、
ことを特徴とする請求項１または２に記載の機器制御プログラム。
ｉ番目（ｉは自然数）のタイミングの機器の動作環境を表すｉ番の環境情報と、前記ｉ番目のタイミングの前記機器の動作状態を表すｉ番の動作情報とに基づいて、ｍ個（ｍは２以上の自然数）の機械学習モデルの一つを用いて、ｉ＋ｎ番目（ｎ＝ｍ－１）のタイミングの動作情報を生成し、
前記ｉ＋ｎ番目のタイミングにおいて、生成した前記ｉ＋ｎ番目のタイミングの動作情報に基づいて前記機器の動作を制御する、
処理をコンピュータに実行させることを特徴とする機器制御プログラム。
第１のタイミングの機器の動作環境を表す第１の環境情報と、前記第１のタイミングの前記機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成し、
前記第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、前記第２のタイミングの前記機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成し、
前記第２のタイミングより後の第３のタイミングにおいて前記第２の動作情報に基づいて前記機器の動作を制御し、前記第３のタイミングの機器の動作環境を表す第３の環境情報と、前記第２の動作情報とに基づいて、前記第１の機械学習モデルを用いて、第５の動作情報を生成し、
前記第３のタイミングより後の第４のタイミングにおいて、前記第４の動作情報に基づいて前記機器の動作を制御し、
前記第４のタイミングより後の第５のタイミングにおいて、前記第５の動作情報に基づいて、前記機器の動作を制御する、
処理をコンピュータが実行することを特徴とする機器制御方法。
第１のタイミングの機器の動作環境を表す第１の環境情報と、前記第１のタイミングの前記機器の動作状態を表す第１の動作情報とに基づいて、第１の機械学習モデルを用いて、第２の動作情報を生成し、
前記第１のタイミングの後の第２のタイミングの機器の動作環境を表す第２の環境情報と、前記第２のタイミングの前記機器の動作状態を表す第３の動作情報とに基づいて、第２の機械学習モデルを用いて、第４の動作情報を生成し、
前記第２のタイミングより後の第３のタイミングにおいて前記第２の動作情報に基づいて前記機器の動作を制御し、前記第３のタイミングの機器の動作環境を表す第３の環境情報と、前記第２の動作情報とに基づいて、前記第１の機械学習モデルを用いて、第５の動作情報を生成し、
前記第３のタイミングより後の第４のタイミングにおいて、前記第４の動作情報に基づいて前記機器の動作を制御し、
前記第４のタイミングより後の第５のタイミングにおいて、前記第５の動作情報に基づいて、前記機器の動作を制御する、
処理を実行する制御部を含むことを特徴とする機器制御装置。