JP7428769B2

JP7428769B2 - 柔軟で適応的なロボット学習のための人間ロボット協働

Info

Publication number: JP7428769B2
Application number: JP2022157396A
Authority: JP
Inventors: カウルラニート; アチャリヤジョイデップ; ガウアスダンシュ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-10-04
Filing date: 2022-09-30
Publication date: 2024-02-06
Anticipated expiration: 2042-09-30
Also published as: US20230104775A1; JP2023054769A

Description

本開示は、一般的に産業システムに関し、より詳細には人間ロボット協働が関わる機械学習システムに関する。

工場では、産業ロボットは、溶接、組み立て、ピックアンドプレース等のタスクを実行するようにプログラムされる。しかしながら、産業ロボットに関連する多くの課題があり、たとえば製造ラインに小さな変更が必要である場合、新たなタスク仕様を満たすようにロボットを再設計し再利用するために、インテグレータが呼び出されることがよくある。さらに、これらのロボットは、ロボットプログラミングインターフェースに関してかなり柔軟性がなく、多くの場合、使用が難しく、幅広いプログラミング知識を必要とし、それにより、ロボットの目的を容易に変更するライン作業者の能力が制限される。

これらの課題を解消するために、工場での人間－ロボット協働が増えつつあり、その場合、ロボットは、人間が行うことを学習する必要がある。典型的には、ロボット学習は、ロボットを教えることを含む。本明細書に記載される実施態様例は、ロボットが人間の動作を観測することによって学習するより適応的で柔軟な技法を含む。既存の技術では、人間は一般に、ロボットが理解し学習するために正しいシーケンスでタスクを実行し、又は人間のデモンストレーションのより正確なセンサ読み取りのためにウェアラブルセンサを使用する。さらに、これらの技術は、タスク終了時の製品の品質を使用して、ロボットタスク実行と比較する。しかしながら、製造ラインでは、各タスクが実行された後、品質情報が利用可能ではないことがあり、それにより、各タスクの品質の推定が必要とされる。

本明細書に記載される実施態様例では、人間がタスクを実行する際に人間の動作を記録し、人間の動作における変化点を観測することによってこれらのタスクをサブタスクに分類し、次いで最終製品品質に基づいてサブタスクの品質を推定するシステム及び方法がある。さらに、サブタスクシーケンス順も決定され、これは次いで、ロボット学習のために同じタスクを実行している複数のロボットに送信される。

本開示の態様は方法を含むことができ、本方法は、複数のサブタスクと関連付けられた情報を受信することであって、受信される情報は、関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものを、受信することと、複数のサブタスクの各々に対して品質評価を行うことと、複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて、１つ又は複数のサブタスクシーケンスの各々を評価することと、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、１つ又は複数のサブタスクシーケンスのうちの、関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することとを含むことができる。

本開示の態様は、命令を含むことができるコンピュータプログラムを含むことができ、命令は、複数のサブタスクと関連付けられた情報を受信することであって、受信される情報は、関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものを、受信することと、複数のサブタスクの各々に対して品質評価を行うことと、複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて、１つ又は複数のサブタスクシーケンスの各々を評価することと、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、１つ又は複数のサブタスクシーケンスのうちの、関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することとを行うことを含む。コンピュータプログラムは、非一時的コンピュータ可読媒体に記憶することができ、１つ又は複数のプロセッサによって実行することができる。

本開示の態様はシステムを含むことができ、本システムは、複数のサブタスクと関連付けられた情報を受信する手段であって、受信される情報は、関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものを、受信する手段と、複数のサブタスクの各々に対して品質評価を行う手段と、複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定する手段と、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて、１つ又は複数のサブタスクシーケンスの各々を評価する手段と、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、１つ又は複数のサブタスクシーケンスのうちの、関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力する手段とを含むことができる。

本開示の態様は装置を含むことができ、本装置はプロセッサを含むことができ、プロセッサは、複数のサブタスクと関連付けられた情報を受信することであって、受信される情報は、関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものを、受信することと、複数のサブタスクの各々に対して品質評価を行うことと、複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質に基づいて、１つ又は複数のサブタスクシーケンスの各々を評価することと、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、１つ又は複数のサブタスクシーケンスのうちの、関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することとを行うように構成される。

本開示の態様は装置を含むことができ、本装置は、命令を記憶する１つ又は複数のコンピュータ可読媒体と、１つ又は複数のコンピュータ可読媒体に記憶された命令を実行して、プロセスを実行するプロセッサとを含むことができ、プロセスは、複数のサブタスクと関連付けられた情報を受信することであって、受信される情報は、関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものを、受信することと、複数のサブタスクの各々に対して品質評価を行うことと、複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて、１つ又は複数のサブタスクシーケンスの各々を評価することと、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、１つ又は複数のサブタスクシーケンスのうちの、関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することとを含む。

図１（ａ）および図１（ｂ）は、一実施態様例による工場での２つのシナリオを示す。図２は、一実施態様例によるアーキテクチャの全体図を示す。図３は、一実施態様例による製造システムが関わる解決策アーキテクチャを示す。図４は、一実施態様例による、ＥＲＰシステムからタスクテンプレート取得モジュールに送信される一例のタスク情報テーブルを示す。図５は、一実施態様例による人間の動作のサブタスク学習モジュールの流れ図を示す。図６は、一実施態様例によるサブタスク学習モジュールの流れ図を示す。図７（ａ）および図７（ｂ）は、それぞれ一実施態様例によるスクリュードライバ例を使用したサブタスク識別ステップの一例を示す。図８は、一実施態様例による、サブタスク学習モジュールからサブタスク評価モジュールに送信されるテーブルの一例を示す。図９は、一実施態様例による、各サブタスクの特徴ベクトルを解析するためのサブタスク評価モジュールの流れ図を示す。図１０は、一実施態様例による、サブタスク評価モジュールからの確率分布データベースの一例を示す。図１１は、一実施態様例によるタスク再構築モジュールに送信されるテーブルの例を示す。図１２は、一実施態様例による、所与のタスクＩＤ及び作業セルタイプについて、複数のタスクシーケンスが生成され評価されるタスク再構築モジュールの一例を示す。図１３（ａ）は、一実施態様例による、エッジビデオモジュールとコアビデオモジュールとの間の通信を示し、図１３（ｂ）は、一実施態様例による、タスク及び作業セル管理のための管理情報の一例を示す。図１４は、一実施態様例による、タスク再構築シーケンスがロボット学習モジュールに送信され、関連するサブタスクビデオクリップが、サブタスクビデオクリップ取得ステップを使用してエッジビデオモジュールから送信される、ロボット学習システムの流れ図を示す。図１５（ａ）および図１５（ｂ）は、ぞれぞれ一実施態様例による作業製品の一例の上面図および側面図を示す。図１６は、幾つかの実施態様例での使用に適した一例のコンピュータデバイスを有する一例の計算環境を示す。

以下の詳細な説明は、図及び本願の実施態様例の詳細を提供する。図間の冗長要素の参照番号及び説明は、明確にするために省かれている。説明全体を通して使用される用語は、例として提供され、限定を意図しない。例えば、「自動」という用語の使用は、本願の実施態様を実施する当業者の所望の実施に応じて、実施態様の特定の態様の使用者又は実施態様の特定の態様にわたる管理者の制御を伴う完全自動実施態様又は半自動実施態様を含み得る。選択は、ユーザインターフェース若しくは他の入力手段を通してユーザによって行うことができ、又は所望のアルゴリズムを通して実施することができる。本明細書に記載される実施態様例は、単独で又は組み合わせて利用することができ、実施態様例の機能は、所望の実施態様に従って任意の手段を通して実施することができる。

工場では、製品を完成させるために使用される一連のタスクを詳述した明確に定義されたタスク記述テンプレート（即ち作業指示）がある。製品は作業セルにおいて製造される。各作業セルにはロボット及び人間の作業者が割り当てられる。人間の作業者は、時間の経過とともに変化する可能性があり、ロボットを有する作業セルに存在しないことがある。

本明細書に記載される実施態様例では、ロボットは、特定の製品のタスクテンプレートをダウンロードし、人間のタスクを観測し、サブタスクを学習し、製品品質情報を入力として取得する。

本明細書に記載される実施態様例では、工場内の全てのロボットは、この情報を（例えばロボット識別子（ＩＤ）、人間オペレータプロファイル、製品ＩＤ等の）メタデータと共に中央ロボット知識サーバに供給する。

実施態様例では、大域機械学習（ＭＬ）アルゴリズムが、全てのロボットからの全ての入力にわたる｛サブタスク、品質｝ペアリングを考慮することによって所与のタスクの正しいサブタスクを決定し、そのタスクを行っている各ロボットにこの情報をフィードバックする。

実施態様例では、大域アルゴリズムはサブタスクの最適順を決定し、次いでこれは、ロボット学習のために、そのタスクを実行している各ロボットに送信される。

図１（ａ）及び図１（ｂ）は、一実施態様例による工場における２つのシナリオを示す。具体的には、図１（ａ）は、人間の作業者１０１が、エッジ学習システム３０１に接続されたロボット２０１の傍らで作業している一例を示す。ロボット２０１には、人間の作業者を観測するために、ロボットビジョン２０１１も装備されている。同様に、図１（ｂ）でも、エッジ学習システム３０２がロボット２０２に接続され、ロボット２０２にはロボットビジョン２０２１が装備されている。しかしながら、図１（ｂ）では、人間は存在しない。タスクを実行するようにロボットをトレーニングするためには、人間の動作が必要とされる。

本明細書に記載される実施態様例では、全てのエッジ学習システムに接続されるコア学習システムが提案され、エッジ学習システムは、タスクを実行している人間動作のビデオデータを集め、これらの動作を処理してサブタスクにし、サブタスク評価及びサブタスクシーケンス再構築に向けてそれをコア学習システムに送信する。その後直ちに、コア学習システムは、ロボットがタスクを効率的に学習するために、タスクの更新されたサブタスクシーケンスをエッジ学習システムに送信する。人間が作業セルに存在しない場合（即ち図１（ｂ）の場合）であっても、コア学習システムは、サブタスクシーケンス情報及びビデオをエッジ学習システム３０２に送信し、それにより、タスクを実行する技能をロボットが効率的に学習できるようにする。

上述した実施態様例は、人間の作業者を観測するために、ロボット２０１に設置されたロボットビジョン２０１１又は他のカメラ若しくは撮像デバイスを含むが、人間の作業者を観測するために他のシステムを利用することもでき、本開示はそれに限定されない。例えば、所望の実施態様により、人間の作業者は、人間の作業者が動作しているエリアを見る別個のカメラ及び／又は他の撮像センサ（例えば赤外線センサ、深度カメラ等）によって観測され得る等である。

図２は、一実施態様例によるアーキテクチャの全体図を示す。実施態様例では、製造システム５０１はエッジ学習システム３０１及び３０２に接続され、品質情報を含み、品質情報は、ネットワーク接続８０１を通してコア学習システム４０１に移送される。製造システム５０１は、ネットワーク接続６０１及び６０２を通してもエッジ学習システム３０１及び３０２に接続され、製造システムは、作業セルにおける各ロボット２０１及び人間１０１の協働に対して実行されるべきタスクについての情報を提供する。２つのエッジ学習システム３０１、３０２の各々はそれぞれロボット２０１、２０２に接続される。ロボット２０１にはロボットビジョン２０１１が装備され、ロボット２０２にはロボットビジョン２０２１が装備される。エッジ学習システム３０１、３０２は、ネットワーク接続７０１及び７０２を通してコア学習システム４０１にそれぞれ接続され、コア学習システム４０１は、機械学習モデルを走らせて、タスクを複数のサブタスクに分割し、サブタスクを評価し、ロボット学習に最良のサブタスクシーケンスを準備する中央サーバとして機能する。

図３は、一実施態様例による、企業リソース計画（ＥＲＰ）システム５０１１及び製品品質チェックシステム５０１２も含む製造システム５０１を含む解決策アーキテクチャを示す。ＥＲＰシステム５０１１は、タスクスケジュールの生成から財務記録の維持までの工場における生産の全ての側面を管理する統合システムである。製品品質チェックシステム５０１２は、タスク完了後、製品の品質を追跡する。製造システム５０１におけるＥＲＰシステム５０１１及び製品品質チェックシステム５０１２は、エッジ学習システム３０１及びコア学習システム４０１に接続される。エッジ学習システム３０１は、タスク完了のための人間の動作のビデオクリップを記録し、各サブタスクを識別するために使用されるため、これらの２つのシステムは好ましい。コア学習システム４０１は、個々のサブタスクを評価し、ロボット学習に正しいサブタスクシーケンスを再構築するために使用される。図３の実施態様例では、１つのコア学習システム４０１及び複数のエッジ学習システム３０１（例えばロボットがある各作業セルに１つ）が存在することができる。それ故、コア学習システム４０１は他のエッジ学習システム３０１と通信し、同じタスクについてのロボット学習のタスクシーケンスを分散させ、又はロボット学習に必要とされる単一／複数のサブタスクを送信する。

エッジ学習システム３０１は、ＥＲＰシステム５０１１によって送信されたタスクテンプレート取得モジュール３０１１を使用してタスクを明確化し、ロボットビジョンモジュール３０１２を使用してロボットビジョンから人間の動作を記録し、タスクをサブタスクに分割し、サブタスク学習モジュール３０１３を使用して各サブタスクビデオを生成するシステムである。これらのサブタスクビデオは、エッジビデオモジュール３０１４を使用してエッジビデオデータベース（ＤＢ）３０１５に記憶される。エッジビデオモジュール３０１４は、エッジにおいて生成された現在のビデオを保存し、コア学習システム４０１によって送信されたビデオを更新する。次にエッジビデオモジュール３０１４において更新されたビデオは、ロボット学習モジュール３０１６に送信され、タスク完了の精度を高めるために、ロボットがサブタスクの学習を順次開始する。

コア学習システム４０１はサブタスク評価モジュール４０１１を含み、サブタスク評価モジュール４０１１は、サブタスク学習モジュール３０１３及び製品品質チェックシステム５０１２からサブタスクビデオを取得し、機械学習アルゴリズムを使用して、サブタスク品質を予測する。推定されたサブタスク品質は次いでタスク再構築モジュール４０１２に送信され、タスク再構築モジュール４０１２は、品質情報及び正しいサブタスクシーケンスの頻度を使用して、サブタスクシーケンスを評価する。評価されたサブタスクシーケンスは、以下のようにロボット学習モジュール３０１６を介して関連付けられたロボットをトレーニングするのに使用することができる。サブタスクシーケンスの評価を使用して、サブタスクシーケンスを選択する。サブタスクシーケンスは次いでコアビデオモジュール４０１３に送信されて、エッジビデオモジュール３０１４からの各ビデオを要求し、サブタスクビデオをコアビデオデータベース（ＤＢ）４０１４に記憶する。選択されたサブタスクシーケンス及びサブタスクビデオは次いで、７０１３を経由してロボット学習モジュール３０１６に送信することができる。

図４は、一実施態様例による、ＥＲＰシステム５０１１からタスクテンプレート取得モジュール３０１１に送信される一例のタスク情報テーブルを示す。このテーブルは、製品識別情報（ＩＤ）６０１ａ、作業セル識別情報（ＩＤ）６０１ｂ、並びにタスク番号６０１ｄ及びタスク識別情報（ＩＤ）６０１ｃ等のタスク情報を含むことができる。タスク番号６０１ｄは、１つの製品のために作業セルによって完了すべきタスクのスケジュールを示し、各タスク番号にはタスクＩＤ６０１ｃが割り当てられる。このテーブルはＥＲＰシステムによって生成され、タスクの情報は各エッジ学習システム３０１、３０２に送信される（図２から）。

図５は、一実施態様例による、ロボットビジョンモジュール３０１２が人間の動作を記録し、タスクビデオをサブタスク学習モジュール３０１３に送信するサブタスク学習モジュール３０１３の流れ図を示す。サブタスク学習モジュール３０１３は変化点検出ステップ３０１３ａを含み、このステップにおいて、タスクビデオにおける人間の動作の有意な変化に基づいて時間期間が識別される。その後、個々の時間期間について、サブタスクがサブタスク識別ステップ３０１３ｂを使用して識別される。次いでサブタスクビデオクリップ生成ステップ３０１３ｃを使用して、これらのサブタスク及び各時間期間を使用して各サブタスクのビデオクリップを生成する。サブタスク及び各ビデオクリップが生成された後、特徴抽出ステップ３０１３ｄを使用して各ビデオクリップから、特徴ベクトルの形態で特徴が抽出される。次いで、ステップ３０１３ｅにおいて、特徴ベクトルはタスク情報（図４に示される）に関連するメタデータと共にコア学習モジュール４０１に送信される。

図６は、一実施態様例による、ロボットビジョンモジュール３０１２からのタスクビデオクリップは、ビデオクリップ中の変化点に基づいて［Ｔ１，Ｔ５］に分割され、次いでサブタスク［Ｓ０００１，Ｓ０００２，Ｓ０００１，Ｓ０００２，Ｓ０００３］が識別されるサブタスク学習モジュール３０１３の流れ図を示す。時間期間及びサブタスクＩＤを使用して、各サブタスクのビデオクリップが生成され、特徴ベクトルの形態である各動作特徴が抽出される。これらの動作特徴は、ビデオから時空間特徴をシームレスに抽出することができる２Ｄ畳み込みニューラルネットワーク膨張に基づく２ストリーム膨張３Ｄ畳み込みニューラルネットワーク（Ｉ３Ｄ）等の技法を使用してビデオクリップから抽出される。所望の実施態様に従って他の技法を利用してもよく、本開示はそれに限定されない。

これらの特徴ベクトルはタスクについてのメタデータ（タスクＩＤ、作業者セルＩＤ、作業者ＩＤ等）と共にコア学習システム４０１に送信される。図６の例では、サブタスクＩＤＳ０００１及びＳ０００２は反復性であるが、サブタスクＳ０００３は、除去する必要があるノイズとして現れる。この除去はサブタスク識別ステップ３０１３ｂにおいて行われる。

図７（ａ）及び図７（ｂ）は、一実施態様例による、組立て部品が、スクリュードライバを使用して複数のねじ頭を組立て部品に螺着することによって組み立てられる一例のサブタスク識別ステップ３０１３ｂを示す。この例では、Ｓ０００１、Ｓ０００２、Ｓ０００３、及びＳ０００４によって示されるように、４つの異なるサブタスクが識別される。図７（ａ）及び図７（ｂ）の２つの図は４つの共通サブタスクを示すが、これらのサブタスクの実行シーケンスは異なる。図７（ａ）では、４つのサブタスクは順次実行されて、１つのねじを締め、その後、同じ順序を使用して次のねじが締められる。

しかしながら、図７（ｂ）では、同じ４つのサブタスクが実行されるが、図７（ａ）と同じ順序ではない。ここでは、全てのねじはまず、人間によってピックアップされ、組み立て部品上に配置され、続けて個々のねじ締めを介して締められる。この例は、所与のタスクＩＤのサブタスクシーケンスが、異なる作業者間で様々であり得、又は同じ作業者で異なる時点で様々であり得ることを示す。

図８は、一実施態様例による、サブタスク学習モジュール３０１３からサブタスク評価モジュール４０１１に送信されるテーブルの一例を示す。このテーブルは、図４に記載のようにＥＲＰシステム５０１１から受信されるタスクＩＤ７０１１ａ、作業者ＩＤ情報７０１１ｂ、作業セルＩＤ及びタイプ７０１１ｃ等のタスクメタデータを含むことができる。例えば、作業セルタイプは、人間がいない作業セル又はセル配置が異なるコーナーセルを示すことができる。同じタイプを有する作業セルＩＤは同じ順序のサブタスクシーケンスを有することができる。さらに、サブタスクＩＤ７０１１ｅ及び各特徴ベクトル７０１１ｄと共にサブタスク学習モジュール３０１３によって生成されたサブタスクシーケンス７０１１ｆがこのテーブルに含まれてもよい。

図９は、一実施態様例による、サブタスク学習モジュール３０１３からの各サブタスクの特徴ベクトルが解析されて、サブタスク品質を予測する、サブタスク評価モジュール４０１１の流れ図を示す。最初のステップ４０１１ａは、確率分布を初期化することである。次いで、その特徴の全てにわたるサブタスクの分布を記憶しているデータベース４０１１ｂがある。その間、サブタスク特徴サンプル７０１１が評価に向けて新たな特徴を送信する場合、分布を使用することにより、サブタスク品質が、サブタスク品質推定ステップ４０１１ｃを使用して推定される（即ちサブタスクにラベルを生成する）。サブタスク品質を使用して４０１１ｃ、最終タスク品質が予測され（４０１１ｄ）、製造システムから取得されたタスク８０１１の実際の品質と比較され、その結果は損失関数として計算される４０１１ｅ。この損失関数を使用して、確率分布は更新され（４０１１ｆ）、次いでサブタスク品質情報はタスク再構築モジュール４０１２に送信される。サブタスク品質が強化学習技法を使用して推定されるサブタスク評価モジュール４０１１に関わるステップについて下述する。

サブタスクの各々の品質評価／品質チェックを生成するために、サブタスク評価モジュール４０１１の第１のステップにおいて、各サブタスクＳＴ_ｉについて、ｆ_ｉが、分布Ｐ_ｉ［ｔ］に従った各サブタスクのサンプリング特徴ベクトルとして使用される。第２のステップにおいて、サブタスク評価モジュール４０１１は特徴ベクトルをクラスタリングし、各サブタスクＳＴ_ｉ後の品質チェッカを表すバイナリ関数Ψ_ｉを学習するために適した閾値を適用する。第３のステップにおいて、サブタスク評価モジュール４０１１はΨ_ｉ（ｆ_ｉ）＝ｑｃ_ｉを設定する。

１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて１つ又は複数のサブタスクシーケンスの各々を評価するために、第４のステップにおいて、サブタスク評価モジュール４０１１はこれらの生成されたｑｃ_ｉｓ（各サブタスクの品質チェック／評価）を使用して、タスクｑｃ_{Ｆｉｎａｌ}での最終品質チェックにおける予測能力を見る。第５のステップにおいて、サブタスク評価モジュール４０１１は、ｑｃ_１、ｑｃ_２、ｑｃ_３、・・・、ｑｃ_{（ｌａｓｔｓｕｂｔａｓｋ－１）}を使用してｑｃ_{Ｆｉｎａｌ}を予測する関数を構築する。第６のステップにおいて、サブタスク評価モジュール４０１１は、製品品質チェックシステム５０１２からタスクの実際の品質チェックＱＣを取得する。第７のステップにおいて、サブタスク評価モジュール４０１１は検証データセットを使用し、タスクの実際の品質チェックＱＣと比較したｑｃ_{Ｆｉｎａｌ}の予測に基づく報酬を生成する。第８のステップにおいて、サブタスク評価モジュール４０１１はこの報酬を使用して、各ｉについてＰ_ｉ［ｔ］に基づいてＰ_ｉ［ｔ＋１］を更新する。第９のステップにおいて、第１のステップ～第６のステップが、必要な数のトレーニングエポックに対して繰り返される。第１０のステップにおいて、Ｐ_ｉ［ｔ_{ｆｉｎａｌ}］に基づいて、サブタスク評価モジュール４０１１は、有効品質チェックであるｑｃ_ｉを各サブタスクＳＴ_ｉに割り当てる。

図１０は、一実施態様例による、サブタスク評価モジュール４０１１からの一例の確率分布データベース４０１１ｂを示す。このデータベースは、使用されている特徴４０１１ｂｄ及び各確率推定４０１１ｂｃと共にタスクＩＤ４０１１ｂａ及びサブタスクＩＤ４０１１ｂｂを含む。確率推定４０１１ｂｃは、どの特徴／ビンがサブタスク選択により有用であるかを示す。

図１１は、一実施態様例による、サブタスク品質転送７０１４を介してタスク再構築モジュール４０１２に送信されるテーブルの例を示す。これらのテーブルは、タスクＩＤ、作業者ＩＤ、並びに作業セルＩＤ及びタイプについての情報を含む。さらに、テーブルは、サブタスクＩＤ、各特徴ベクトル情報、並びに品質チェック及び図９に関して説明した対応するステップを使用してサブタスク評価モジュール４０１１によって評価された各正確性尺度も含む。ここでは、シーケンス順が異なり、正確性も異なる作業者ＩＤ及び作業セルＩＤで変化する２つのそのようなテーブルが示される。複数のサブタスクＩＤ列が図１１に示されており、（例えば、異なる作業者によるタスク実行又はタスク実行に異なるパターンを有する同じ作業者からのタスク実行に起因して）特定のタスクに複数のシーケンスが存在し得ることを示す。さらに、各シーケンスは複数のサブタスクを有することもできる。

図１２は、一実施態様例による、所与のタスクＩＤ及び作業セルタイプについて、複数のタスクシーケンスが生成され評価されるタスク再構築モジュール４０１２のテーブルの一例を示す。具体的には、図１２は、図１１に示されたテーブルが結合されて、以下のように式（１）に実証されるように選択される正しいシーケンスを示す、図１１の一拡張例を示す。全てのタスクシーケンスから、より高い正確値を有する全てのサブタスクを有する多くのタスクシーケンスが存在することになる。次いでこれらのより正確なサブタスクシーケンスを使用して、ロボットが正確性タスクを学習し実行するのに最良のシーケンスを識別する。例えば、ここでは、観測の総数はｎ＝１００であり、第１のシーケンスは３６回観測され、２５回正しかった。

同様に、第２のシーケンスは５９回観測され、４６回正しく、第３のシーケンスは５回しか観測されず、４回正しかった。そのような場合、第２のシーケンスが、ロボットが学習するのに適したシーケンスになる。このシーケンスは最大数の正しいシーケンスを有し、最大回数、行われた。

それ故、ｘが、シーケンスがｎ回の観測で観測された回数であり、ｙが、シーケンスが正しかった回数である場合、下記式（１）となる。

図１３（ａ）は、一実施態様例による、エッジビデオモジュール３０１４、３０２４とコアビデオモジュール４０１３との間の通信を示す。ここで、コアビデオモジュール４０１３は、ロボット学習に正しいサブタスクシーケンスを取得し、ここで、コアビデオモジュールは、要求されたビデオを送信するようにエッジビデオモジュールＡ３０１４に要求する（７０１２ａを通して）。次いでエッジビデオモジュールは要求されたビデオを問い合わせ、ビデオを（７０１２ｂを介して）コアビデオモジュール４０１３に送信する。その後、コアビデオモジュール４０１３はビデオをコアビデオデータベースに記憶し、そのビデオをエッジビデオモジュールＢ３０２４に送信し、エッジビデオモジュールＢ３０２４はサブタスクビデオを更新し、そのデータベースに記憶する。

図１３（ｂ）は、一実施態様例による、タスク及び作業セル管理のための管理情報の一例を示す。管理情報例は、製造システム５０１において管理することができ、作業セルにわたり同様のサブタスク又はタスクを共有するために、図１３（ａ）に示すようにコアビデオモジュール４０１３等のモジュールによって利用される。タスクが特定の生産エリアにわたって同じである場合、管理情報は、同じタスクを有する生産エリアを追跡するのに使用することができ、それにより、異なるエッジ学習システムにわたる再構築されたタスクの分配を促進する。しかしながら、タスクは同じではないが、それでもなおサブタスクの幾つかが類似する場合、その他のエッジ学習システムは、図１３（ａ）に示すようにコア学習システムからビデオを要求することができ、そこからコアビデオモジュール４０１３は管理情報を使用して、対応するビデオを分配することができる。管理情報は、作業セルＩＤ、タスクＩＤ、サブタスクシーケンス、及びサブタスクを含むことができるが、それに限定されず、所望の実施態様に応じて追加情報を省いてもよく、又は追加情報を追加してもよい。この例では、作業セルＡ及び作業セルＢは、管理情報によって管理されるサブタスクにおいて同じサブタスクを共有するため、それにより、図１３（ａ）に示すように、コアビデオモジュール４０１３はモジュールＡを参照して、サブタスクのビデオを取得し、そのビデオをモジュールＢに転送することができる。

図１４は、一実施態様例による、タスク再構築シーケンスが７０１３を通してロボット学習モジュール３０１６に送信され、関連するサブタスクビデオクリップがサブタスクビデオクリップ取得ステップ３０１６ａを使用してエッジビデオモジュール３０１４から送信されるロボット学習システム３０１６の流れ図を示す。サブタスクビデオクリップはここでは、所望の実施態様に従って、軌道、人間－物体相互作用、人間の姿勢、及び他の情報等のロボット学習についての情報を抽出するのに使用される。サブタスクビデオクリップ及びタスク再構築シーケンスは両方とも、ロボット学習のために抽出された特徴として提供され、サブタスク学習モジュールは異なり得る。次いでビデオクリップを使用して、ビデオフレーム抽出ステップ３０１６ｂを使用してビデオフレームを抽出し、これらのフレームの各々は処理されて、サブタスク動作セグメント化ステップ３０１６ｃを使用して動作をセグメント化し、これらのセグメント化されたビデオフレームにも、タスク再構築シーケンスと関連付けられた一意の識別子が割り当てられる。３０１６ｄにおいて、サブタスクのセグメント化されたビデオフレームから、接続されたウェイポイント（点又はエンドエフェクタ姿勢のシーケンス）のセット、ロボット操作に使用される、位置情報、速度情報、及び加速度情報等の軌道パラメータについての情報を含む軌道が生成される。これらの軌道は、物体のピックアンドプレースに役立つエンドエフェクタの情報も含むことになる。軌道及びエンドエフェクタ姿勢は次いで、軌道及びエンドエフェクタ姿勢学習ステップ３０１６ｅを使用してトレーニングされ、軌道及びエンドエフェクタ姿勢学習ステップ３０１６ｅにおいて、強化学習（ＲＬ）技法等の技法を用いて、観測からサブタスクシーケンスを学習して、タスク全体を実行するようにロボットをトレーニングする。次いで３０１６ｆにおいて、このトレーニングされたモデルをシミュレーション環境で使用して、ロボット動作をテストし、次いでリアルロボットタスク転送ステップ３０１６ｇを使用して、作業セルにおけるリアルロボットに展開する。本発明で使用される枠組みは、ＭｏｖｅＩｔパッケージ等の技法が運動計画、ロボットの操作及び制御に使用され、Ｇａｚｅｂｏシミュレータが、シミュレーション環境でロボット動作をテストするのに使用されるロボットオペレーティングシステム（ＲＯＳ）である。

実施態様例による解決策説明の一例を図３に関して提供する。製造システム５０１におけるＥＲＰシステム５０１１によって作業指示が作成される。この作業指示は、製造する製品についての情報及び作業セル情報を含む。作業指示例は、タスクが、４個のねじを使用することによって部品Ａを部品Ｂに取り付けることである部品組み立て（図１５（ａ）及び図１５（ｂ）を参照する）である。それ故、人間のタスクは、４個のねじを部品Ｂ上に配置し、スクリュードライバを使用してこれらのねじを締めることである。

第１のステップにおいて、作業指示はまず、人間及びロボットの両方が作業セルに存在する各エッジ学習システム３０１に送信される。第２のステップにおいて、作業指示が受信されると、ロボットビジョンモジュール３０１２は、タスクを実行している人間の記録を開始する。

第３のステップにおいて、タスクのビデオ記録後、サブタスク学習モジュール３０１３は、人間の動作の任意の有意な変化を調べて、ビデオを複数のサブタスクビデオに分割することによってこのビデオを処理する。サブタスク学習モジュール３０１３によって識別されるこれらのサブタスクは、
ｉ．作業空間から部品Ｂをピックアップし、
ｉｉ．部品Ｂを部品Ａの上に置き、
ｉｉｉ．作業空間からねじ１をピックアップし、
ｉｖ．ねじ１を部品Ｂ上に置き、
ｖ．作業空間からスクリュードライバをピックアップし、
ｖｉ．スクリュードライバを使用してねじ１を締め、
ｖｉｉ．全てのねじが締められるまでサブステップｉｉｉ～ｖｉを続ける
である。

次いでサブタスク学習モジュール３０１３の第４のステップにおいて、第３のステップにおいて識別されたサブタスク及びそれらの各ビデオクリップに一意の識別子（ＩＤ）が与えられ、Ｉ３Ｄ等の畳み込みニューラルネットワーク（ＣＮＮ）ベースの方法を使用して、個々のビデオクリップから特徴が抽出される。実施態様例では、ＣＮＮベースの方法は、所望の実施態様に応じて、限定されないが、リカレントニューラルネットワーク（ＲＮＮ）ベースの方法、セグメントベースの方法、マルチストリームネットワーク等の他のニューラルネットワークベースの方法で置換することができ、本開示はＣＮＮベースの方法に限定されない。次いで第５のステップにおいて、ビデオクリップはエッジビデオモジュール３０１４を通してエッジビデオデータベース（ＤＢ）３０１５に記憶される。次いで第６のステップにおいて、第４のステップからのサブタスク及びそれらの各特徴は、コア学習モジュール４０１中のサブタスク評価モジュール４０１１に送信される。第７のステップにおいて、サブタスク評価モジュール４０１１はサブタスク品質を予測し、次いでこれを使用して、タスク品質を予測し、次いで、製品品質チェックシステム５０１２によって提供されるタスクの実際の品質と予測されたタスク品質を比較する。サブタスク評価に関わるステップは以下である。

ｉ．４つのサブタスクＳＴ_１、ＳＴ_２、ＳＴ_３、ＳＴ_４があると考える。
・例えば、
ＳＴ_１：ねじをピックアップし、
ＳＴ_２：ねじを部品Ｂ上に置き、
ＳＴ_３：スクリュードライバをピックアップし、
ＳＴ_４：スクリュードライバを用いてねじを締める。
ｆ_１、ｆ_２、ｆ_３、ｆ_４は、分布Ｐ_ｉ［ｔ］に従ってビデオクリップから第４のステップにおいて抽出された４つのサブタスクＳＴ_ｉ（式中、ｉ＝１，２，３，４である）のサンプリング特徴ベクトルである。
・例えば、
ｆ_１：ねじから人間の手までの距離（ピクセル単位）、
ｆ_２：ねじから部品Ｂの中心までの距離（ピクセル単位）、
ｆ_３：スクリュードライバから人間の手までの距離（ピクセル単位）、
ｆ_４：スクリュードライバからねじ頭までの距離（ピクセル単位）。
サブタスクデータをＭ回収集する。
（ｆ_１ ^（ｊ），ｆ_２ ^（ｊ），ｆ_３ ^（ｊ），ｆ_４ ^（ｊ））_ｊ＝１ ^Ｍ

ｉｉ．Ｍデータ点を使用してこれらの特徴ベクトルをクラスタリングし、適した閾値を適用して、各サブタスクＳＴ_ｉ後の品質チェッカを表す４つのバイナリ関数Ψ_ｉ（ｉ＝１，２，３，４）を学習する。したがって、各Ψ_ｉの出力は０（異常）又は１（正常）のいずれかである。次いで各ｊ＝１，・・・，Ｍについて、各サブタスク品質を推定する：

Ψ_１（ｆ_１ ^（ｊ））＝ｑｃ_１ ^（ｊ）
Ψ_２（ｆ_２ ^（ｊ））＝ｑｃ_２ ^（ｊ）
Ψ_３（ｆ_３ ^（ｊ））＝ｑｃ_３ ^（ｊ）
Ψ_４（ｆ_４ ^（ｊ））＝ｑｃ_４ ^（ｊ）

ｉｉｉ．ｑｃ_１ ^（ｊ）、ｑｃ_２ ^（ｊ）、ｑｃ_３ ^（ｊ）、ｑｃ_４ ^（ｊ）を使用して、ｑｃ_{Ｆｉｎａｌ} ^（ｊ）を予測する。
・例えば、ｑｃ_{Ｆｉｎａｌ} ^（ｊ）は単に積であることができる：
ｑｃ_{Ｆｉｎａｌ} ^（ｊ）＝ｑｃ_１ ^（ｊ）・ｑｃ_２ ^（ｊ）・ｑｃ_３ ^（ｊ）・ｑｃ_４ ^（ｊ）

ｉｖ．ｊ＝１，２，３，・・・，ＭについてタスクＴの実際のＱＣ^（ｊ）を得る。

ｖ．モデルを検証するためにＭ’データ点を収集する。実際のＱＣ^（ｊ）と比較したｑｃ_{Ｆｉｎａｌ} ^（ｊ）の予測に基づいて報酬Ｒ_{ｌｅａｒｎ} ^（ｊ）を生成する。

・報酬が高い場合、サブタスク品質チェック推定は正しい。
・報酬が低い場合、品質チェック推定は誤っている。
・例えば：予測されたｑｃ_{Ｆｉｎａｌ} ^（ｊ）＝０であるｑｃ_１ ^（ｊ）＝０、ｑｃ_２ ^（ｊ）＝１、ｑｃ_３ ^（ｊ）＝１、ｑｃ_４ ^（ｊ）＝１を考える。これは、実際のタスク品質チェックＱＣ^（ｊ）＝１である場合、より低い報酬につながるはずである。

ｖｉ．個々の報酬Ｒ_{ｌｅａｒｎ} ^（ｊ）を結合して、全体検証セットの単一の報酬Ｒ_{ｌｅａｒｎ}にする。Ｒ_{ｌｅａｒｎ}を使用し、各ｉ＝１，２，３，４についてＰ_ｉ［ｔ］に基づいてＰ_ｉ［ｔ＋１］を更新する。
・それ故、Ｐ_ｉ［ｔ］が時間ｔにおける第ｉのサブタスクの特徴ベクトルにわたる確率分布を表す場合、Ｒ_{ｌｅａｒｎ}を使用して新たな分布を取得する：Ｐ_ｉ［ｔ＋１］←（Ｒ_{ｌｅａｒｎ}，Ｐ_ｉ［ｔ］）。

ｖｉｉ．必要とされるトレーニングエポックの数だけ、ステップｉ～ｖｉを適用する。

ｖｉｉｉ．Ｐ_ｉ［ｔ_{ｆｉｎａｌ}］に基づいて、各サブタスクＳＴ_ｉの有効品質チェックであるｑｃ_ｉを割り当てる。

次いで第８のステップにおいて、サブタスク評価モジュール４０１１は各サブタスクの品質チェックを生成し、次いでタスク再構成モジュール４０１２は、式１を使用して複数の正しいサブタスクシーケンスから最良シーケンスを選択する。異なるサブタスクシーケンスの一例を図７に示し、最良サブタスクシーケンス選択例を図１２に示す。

第９のステップにおいて、所与のタスクの最良サブタスクシーケンスを選択した後、図１３（ａ）に示すように、コアビデオモジュール４０１３はエッジビデオモジュールからのビデオを要求し、ビデオを他のエッジ学習モジュールに送信する。

第１０のステップにおいて、ロボットは、サブタスクシーケンスのビデオクリップを使用してタスクを学習し始める準備ができ、ビデオフレームがまず、ビデオクリップから抽出され、一意の識別子が各フレームに与えられ、フレームはセグメント化されて、動作を識別する。サブタスクの動作フレームを使用して、そのサブタスクの軌道が生成される。サブタスクに複数の軌道が生成され、モデルがトレーニングされ、シミュレーションにおいてロボットの動作をテストするのに使用される。その後、学習しテストされたモデルは、リアルタイムタスク実行に向けてリアルロボットに転送される。

実施態様例は、産業設定において機械学習モデルをトレーニングし管理するシステムを含む。具体的には、特定の生産エリアにわたる類似性を利用することにより、これらのエリアを一緒にグループ化し、人間の姿勢データを使用して、人間の活動又は作業者が従事している特定のタスクを予測するモデルを効率的にトレーニングすることが可能である。具体的には、実施態様例は、各生産エリアに独立してモデルを構築する従来の方法を廃止し、異なる環境間の共通性を利用する。

図１６は、エッジ学習システム３０１、コア学習システム４０１、又は製造システム５０１の促進等の幾つかの実施態様例における使用に適したコンピュータデバイス例を有する計算環境例を示す。

計算環境１６００におけるコンピュータデバイス１６０５は、１つ又は複数の処理ユニット、コア、又はプロセッサ１６１０、メモリ１６１５（例えばＲＡＭ、及び／又はＲＯＭ等）、内部ストレージ１６２０（例えば磁気、光学、固体状態ストレージ、及び／又はオーガニック）、及び／又はＩ／Ｏインターフェース１６２５を含むことができ、これらのいずれかは、情報を通信するために通信機構若しくはバス１６３０に結合することができ、又はコンピュータデバイス１６０５に組み込むことができる。Ｉ／Ｏインターフェース１６２５は、所望の実施態様に応じて、カメラから画像を受信し、又は画像をプロジェクタ若しくはディスプレイに提供するようにも構成される。

コンピュータデバイス１６０５は、入力／ユーザインターフェース１６３５及び出力デバイス／インターフェース１６４０に通信可能に結合することができる。入力／ユーザインターフェース１６３５及び出力デバイス／インターフェース１６４０のいずれか一方又は両方は、有線又は無線インターフェースであることができ、脱着可能であることができる。入力／ユーザインターフェース１６３５は、物理的であれ又は仮想であれ、入力（例えばボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソル制御機構、マイクロホン、カメラ、点字、運動センサ、及び／又は光学リーダ等）の提供に使用することができる任意のデバイス、構成要素、センサ、又はインターフェースを含み得る。出力デバイス／インターフェース１６４０は、ディスプレイ、テレビジョン、モニタ、プリンタ、スピーカ、又は点字等を含み得る。幾つかの実施態様例では、入力／ユーザインターフェース１６３５及び出力デバイス／インターフェース１６４０は、コンピュータデバイス１６０５に組み込むことができ、又は物理的に結合することができる。他の実施態様例では、他のコンピュータデバイスが、コンピュータデバイス１６０５の入力／ユーザインターフェース１６３５及び出力デバイス／インターフェース１６４０として機能し得、又はそれらの機能を提供し得る。

コンピュータデバイス１６０５の例には、限定されないが、高度モバイルデバイス（例えば、スマートフォン、車両及び他の機械内のデバイス、人間及び動物によって携帯されるデバイス等）、モバイルデバイス（例えばタブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビジョン、ラジオ等）、及び可動用に設計されていないデバイス（例えばデスクトップコンピュータ、他のコンピュータ、情報キオスク、１つ又は複数プロセッサが内部に組み込まれ、且つ／又は１つ又は複数のプロセッサに結合されたテレビジョン、ラジオ等）があり得る。

コンピュータデバイス１６０５は、外部ストレージ１６４５及びネットワーク１６５０と通信可能に結合されて（例えばＩ／Ｏインターフェース１６２５を介して）、同じ又は異なる構成の１つ又は複数のコンピュータデバイスを含め、任意の数のネットワーク接続された構成要素、デバイス、及びシステムと通信することができる。コンピュータデバイス１６０５又は任意の接続されたコンピュータデバイスは、サーバ、クライアント、シンサーバ、汎用機械、若しくは専用機械として機能し、サーバ、クライアント、シンサーバ、汎用機械、若しくは専用機械のサービスを提供し、又はサーバ、クライアント、シンサーバ、汎用機械、専用機械、又は別の名称で呼ばれることができる。

Ｉ／Ｏインターフェース１６２５は、限定されないが、計算環境１６００内の少なくとも全ての接続された構成要素、デバイス、及びネットワークに及び／又はこれらから情報を通信するために任意の通信又はＩ／Ｏプロトコル又は規格（例えばＥｔｈｅｒｎｅｔ、８０２．１１ｘ、ユニバーサルシステムバス、ＷｉＭａｘ、モデム、セルラネットワークプロトコル等）を使用する有線インターフェース及び／又は無線インターフェースを含むことができる。ネットワーク１６５０は、任意のネットワーク又はネットワーク（例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話回線網、セルラネットワーク、衛星ネットワーク等）の任意の組合せであることができる。

コンピュータデバイス１６０５は、一時的媒体及び非一時的媒体を含めコンピュータ使用可能又はコンピュータ可読媒体を使用することができ、且つ／又はそれらを使用して通信することができる。一時的媒体は、伝送媒体（例えば金属ケーブル、光ファイバ）、信号、搬送波等を含む。非一時的媒体は、磁気媒体（例えばディスク及びテープ）、光学媒体（例えばＣＤ、ＲＯＭ、デジタルビデオディスク、Ｂｌｕ－ｒａｙディスク（登録商標））、固体状態媒体（例えばＲＡＭ、ＲＯＭ、フラッシュメモリ、固体状態ストレージ）、及び他の不揮発性ストレージ又はメモリを含む。

コンピュータデバイス１６０５は、幾つかの計算環境例において技法、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実施するのに使用することができる。コンピュータ実行可能命令は、一時的媒体から読み出されて非一時的媒体に記憶することができ、非一時的媒体から読み出すことができる。実行可能命令は、任意のプログラミング、スクリプト、及び機械言語（例えばＣ、Ｃ＋＋、Ｃ＃、Ｊａｖａ、ＶｉｓｕａｌＢａｓｉｃ、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ等）の１つ又は複数からのものであることができる。

プロセッサ１６１０は、ネイティブ又は仮想環境において任意のオペレーティングシステム（ＯＳ）（図示せず）下で実行することができる。異なるユニットが互いと、ＯＳと、及び他のアプリケーション（図示せず）と通信するために、論理ユニット１６６０、アプリケーションプログラミングインターフェース（ＡＰＩ）ユニット１６６５、入力ユニット１６７０、出力ユニット１６７５、及びユニット間通信メカニズム１６９５を含む１つ又は複数のアプリケーションを展開することができる。記載されたユニット及び要素の設計、機能、構成、又は実装は様々であることができ、提供される説明に限定されない。

幾つかの実施態様例では、情報又は実行命令は、ＡＰＩユニット１６６５によって受信されると、１つ又は複数の他のユニット（例えば論理ユニット１６６０、入力ユニット１６７０、出力ユニット１６７５）に通信され得る。幾つかの場合、論理ユニット１６６０は、上述した幾つかの実施態様例において、ユニット間の情報フローを制御し、ＡＰＩユニット１６６５、入力ユニット１６７０、出力ユニット１６７５によって提供されるサービスを指示するように構成し得る。例えば、１つ又は複数のプロセス又は実施態様のフローは、論理ユニット１６６０のみにより又はＡＰＩユニット１６６５と併せて制御し得る。入力ユニット１６７０は、実施態様例に記載される計算の入力を得るように構成し得、出力ユニット１６７５は、実施態様例に記載される計算に基づいて出力を提供するように構成し得る。

プロセッサ１６１０は、図３及び図９に示すように、複数のサブタスクと関連付けられた情報、人間の動作と関連付けられた受信情報を受信して、関連付けられたロボットをエッジシステムにおいてトレーニングし、複数のサブタスクの各々に対して品質評価を行い、複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定し、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて、１つ又は複数のサブタスクシーケンスの各々を評価し、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、関連付けられたロボットをトレーニングするための、１つ又は複数のサブタスクシーケンスのうちのサブタスクシーケンスを出力するように構成することができる。

実施態様例では、ロボットと関連付けられたエッジシステムからの複数のサブタスクと関連付けられる情報はビデオクリップを含むことができ、各ビデオクリップは、複数のサブタスクからのサブタスクと関連付けられ、プロセッサ１６１０は、図５及び図６に示すように、サブタスクのうちの、１つ又は複数のサブタスクシーケンスの各々と関連付けられたサブタスクと関連付けられた、ビデオクリップのうちのビデオクリップを提供することにより、１つ又は複数のサブタスクシーケンスの各々の評価に基づいて、１つ又は複数のサブタスクシーケンスのうちのサブタスクシーケンスを出力して、関連付けられたロボットをトレーニングするように構成される。

実施態様例では、図３及び図９の３０１２及び５０１２に示すように、ロボットは、ビデオを記録するように構成されたロボットビジョンを含むことができ、ビデオからビデオクリップが生成され、製造システムは、実行のために複数のサブタスクを含むタスクをエッジシステムに提供し、１つ又は複数のサブタスクシーケンスの各々の評価のために、タスクの品質評価を提供するように構成される。

所望の実施態様に応じて、ビデオクリップは、図２、図３、及び図５に示すように複数のサブタスクの人間の動作を含むことができる。一実施態様例では、ビデオクリップは、ロボットとは別個のカメラによって記録することができる。

図７（ａ）及び図７（ｂ）に示すように、プロセッサ１６１０は、特徴抽出から決定される、人間の動作の変化点検出に基づいて、複数のサブタスクの各々を認識するように更に構成することができ、変化点検出から検出された変化点を利用して、時間期間によって複数のサブタスクの各々を分ける。

図３、図５、及び図６の３０１３に示すように、所望の実施態様に応じて、エッジシステムは、複数のサブタスクを識別し、識別に基づいて複数のサブタスクと関連付けられた情報を提供するように構成することができる。

実施態様例では、プロセッサ１６１０は、サブタスク評価モジュール４０１１、図９～図１１、並びにその中の流れ図によって示されるように、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価から、１つ又は複数のサブタスクシーケンスの各々の品質評価を提供するように構成された関数を構築し、検証セットを利用して１つ又は複数のサブタスクシーケンスの各々の品質評価を評価し、強化学習に基づいて１つ又は複数のサブタスクシーケンスの各々の品質評価の評価に基づいて関数を変更し、構築すること、利用すること、及び変更することを繰り返して、関数を最終決定し、最終決定された関数を実行して１つ又は複数のサブタスクシーケンスの各々を評価することにより、１つ又は複数のサブタスクシーケンスの各々と関連付けられた複数のサブタスクの各々の品質評価に基づいて１つ又は複数のサブタスクシーケンスの各々の評価を行うことができる。

プロセッサ１６１０は、図１１、図１２、及び図１４におけるロボット学習によって示されるように、出力された評価を用いて関連付けられたロボットをトレーニングするように構成することもでき、関連付けられたロボットをトレーニングすることは、１つ又は複数のサブタスクシーケンスの各々出力された評価及び頻度に基づいて、１つ又は複数のサブタスクシーケンスのうちのサブタスクシーケンスを選択することと、１つ又は複数のサブタスクシーケンスのうちの選択されたサブタスクシーケンスの各々に対応するビデオフレームを抽出することと、抽出されたビデオフレームから動作をセグメント化することと、セグメント化された動作から関連付けられたロボットの軌道及び軌道パラメータを決定することと、軌道、軌道パラメータ、及びセグメント化された動作に基づいて関連付けられたロボットに対して強化学習を実行して、１つ又は複数のサブタスクシーケンスのうちの選択されたサブタスクシーケンスを学習することとを含む。

詳細な説明の幾つかの部分は、コンピュータ内の動作のアルゴリズム及び象徴的表現に関して提示されている。これらのアルゴリズムの説明及び象徴的表現は、当業者に革新の本質を伝えるためにデータ処理技術の当業者によって使用される手段である。アルゴリズムは、所望の最終状態又は結果に繋がる一連の定義されたステップである。実施態様例では、実行されるステップは、具体的な結果を達成するために具体的な数量の物理的操作を必要とする。

特に別記される場合を除き、考察から明らかなように、説明全体を通して、「処理」、「計算」、「算出」、「決定」、又は「表示」等の用語を利用した考察が、コンピュータシステム又はコンピュータシステムのレジスタ及びメモリ内で物理的（電子）数量として表されるデータを操作し、コンピュータシステムのメモリ、レジスタ、又は他の情報ストレージ、伝送又は表示デバイス内で物理的数量として同様に表される他のデータに変換する他の情報処理デバイスの動作及びプロセスを含むことができることが理解される。

実施態様例は、本明細書における動作を実行する装置に関することもできる。この装置は、特に所要目的に向けて構築されてもよく、又は１つ若しくは複数のコンピュータプログラムによって選択的にアクティブ化若しくは再構成される１つ若しくは複数の汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体等のコンピュータ可読媒体に記憶し得る。コンピュータ可読記憶媒体は、限定されないが、光ディスク、磁気ディスク、読み取り専用メモリ、ランダムアクセスメモリ、固体状態デバイス及びドライブ、又は電子情報の記憶に適した任意の他のタイプの有形若しくは非一時的媒体等の有形媒体を含み得る。コンピュータ可読信号媒体は、搬送波等の媒体を含み得る。本明細書に提示されたアルゴリズム及びディスプレイは、本質的に、いかなる特定のコンピュータ又は他の装置にも関連しない。コンピュータプログラムは、所望の実施態様の動作を実行する命令を含む純粋なソフトウェア実装を含むことができる。

種々の汎用システムは、本明細書における例に従ってプログラム及びモジュールと併用し得、又は所望の方法ステップの実行により特化した装置を構築することが好都合であると分かることがある。加えて、実施態様例はいかなる特定のプログラミング言語も参照して説明されていない。本明細書に記載の実施態様例の教示を実施するために、多様なプログラミング言語が使用可能なことが理解されよう。プログラミング言語の命令は、１つ又は複数の処理デバイス、例えば中央演算処理装置（ＣＰＵ）、プロセッサ、又はコントローラによって実行し得る。

当技術分野で既知のように、上述した動作はハードウェア、ソフトウェア、又はソフトウェアとハードウェアの何らかの組合せによって実行することができる。実施態様例の種々の態様は、回路及び論理デバイス（ハードウェア）を使用して実施してもよく、一方、他の態様は、プロセッサによって実行されると、本願の実施態様を実行する方法をプロセッサに実行させる、機械可読媒体に記憶された命令（ソフトウェア）を使用して実施してもよい。さらに、本願の幾つかの実施態様例は、ハードウェアのみで実行してもよく、一方、他の実施態様例はソフトウェアのみで実行してもよい。さらに、記載される種々の機能は、単一のユニットで実行することもでき、又は任意の数の方法で幾つかの構成要素に分散することもできる。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体に記憶された命令に基づいて汎用コンピュータ等のプロセッサによって実行し得る。所望の場合、命令は、圧縮され且つ／又は暗号化された形式で媒体に記憶することができる。

さらに、本明細書の検討及び本願の教示の実施から、本願の他の実施態様が当業者には明らかになろう。記載される実施態様例の種々の態様及び／又は構成要素は単独で又は任意の組合せで使用することができる。本明細書及び実施態様例が単なる例として見なされることが意図され、本願の真の範囲及び趣旨は以下の特許請求の範囲によって示される。

１０１、１０２人間の作業者
２０１、２０２ロボット
３０１、３０２エッジ学習システム
４０１コア学習システム
５０１製造システム
６０１、６０２、７０１、７０２、８０１ネットワーク接続
６０１ａ製品ＩＤ
６０１ｂ作業セルＩＤ
６０１ｃタスクＩＤ
６０１ｄタスク番号
１６００計算環境
１６０５コンピュータデバイス
１６１０プロセッサ
１６１５メモリ
１６２０内部ストレージ
１６２５Ｉ／Ｏインターフェース
１６３０バス
１６３５入力／ユーザインターフェース
１６４０出力デバイス／インターフェース
１６４５外部ストレージ
１６５０ネットワーク
１６６０論理ユニット
１６６５ＡＰＩユニット
１６７０入力ユニット
１６７５出力ユニット
１６９５ユニット間通信メカニズム
２０１１、２０２１ロボットビジョン
３０１１タスクテンプレート取得モジュール
３０１２ロボットビジョンモジュール
３０１３サブタスク学習モジュール
３０１３ａ変化点検出ステップ
３０１３ｂサブタスク識別ステップ
３０１３ｃサブタスクビデオクリップ生成ステップ
３０１３ｄ特徴抽出ステップ
３０１４、３０２４エッジビデオモジュール
３０１５エッジビデオデータベース
３０１６ロボット学習モジュール
３０１６ａサブタスクビデオクリップ取得ステップ
３０１６ｂビデオフレーム抽出ステップ
３０１６ｃサブタスク動作セグメント化ステップ
３０１６ｄ軌道生成ステップ
３０１６ｅ軌道及びエンドエフェクタ姿勢学習ステップ
１０１６ｆタスクシミュレーション実行ステップ
３０１６ｇリアルロボットタスク転送ステップ
４０１１サブタスク評価モジュール
４０１１ａ確率分布初期化ステップ
４０１１ｂデータベース
４０１１ｂｂ、７０１１ｅサブタスクＩＤ
４０１１ｂｃ確率推定
４０１１ｂｄ特徴
４０１１ｃサブタスク品質推定ステップ
４０１１ｄタスク品質予測ステップ
４０１１ｅ損失関数計算ステップ
４０１２タスク再構築モジュール
４０１３コアビデオモジュール
４０１４コアビデオデータベース
５０１１企業リソース計画システム
５０１２製品品質チェックシステム
７０１１サブタスク特徴サンプル
７０１１ｂ作業者ＩＤ情報
７０１１ｃ作業セルＩＤ及びタイプ
７０１１ｄ特徴ベクトル
７０１１ｆサブタスクシーケンス
７０１４サブタスク品質転送
８０１１タスク

Claims

複数のサブタスクと関連付けられた情報を受信することと、前記受信される情報は、当該情報に関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものであり、
前記複数のサブタスクの各々に対して品質評価を行うことと、
前記複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価に基づいて、前記１つ又は複数のサブタスクシーケンスの各々を評価することと、
前記１つ又は複数のサブタスクシーケンスの各々の前記評価に基づいて、前記１つ又は複数のサブタスクシーケンスのうちの、前記関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することと、
を含む、コンピュータによって実行される方法。
前記関連付けられたロボットを前記エッジシステムにおいてトレーニングするための前記人間の動作と関連付けられた情報は、ビデオクリップを含み、前記ビデオクリップの各々は前記複数のサブタスクと関連付けられ、
前記１つ又は複数のサブタスクシーケンスのうちの、前記関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することは、前記サブタスクのうちの、前記１つ又は複数のサブタスクシーケンスの各々と関連付けられたサブタスクと関連付けられた、前記ビデオクリップを提供することを含む、請求項１に記載の方法。
前記ロボットは、ビデオを記録するように構成されたロボットビジョンを含み、前記ビデオから前記ビデオクリップが生成され、
製造システムは、実行のために前記エッジシステムに前記複数のサブタスクを含むタスクを提供し、前記１つ又は複数のサブタスクシーケンスの各々の前記評価のために、前記タスクの品質評価を提供するように構成される、請求項２に記載の方法。
前記ビデオクリップは、前記複数のサブタスクの前記人間の動作を含む、請求項２に記載の方法。
前記ビデオクリップに対する特徴抽出から決定される前記人間の動作への変化点検出に基づいて、前記複数のサブタスクの各々を認識することを更に含み、前記変化点検出から検出される変化点は、時間期間によって前記複数のサブタスクの各々を分けるのに利用される、請求項４に記載の方法。
前記ビデオクリップは、前記ロボットとは別個のカメラによって記録される、請求項２に記載の方法。
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価に基づいて、前記１つ又は複数のサブタスクシーケンスの各々を評価することは、
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価から、前記１つ又は複数のサブタスクシーケンスの各々の品質評価を提供するように構成された関数を構築することと、
検証セットを利用すること、前記検証セットは、前記１つ又は複数のサブタスクシーケンスの各々の前記品質評価を評価するものであり、
強化学習に基づいて、前記１つ又は複数のサブタスクシーケンスの各々の前記品質評価の前記評価に基づいて前記関数を変更することと、
前記構築すること、前記利用すること、及び前記変更することを繰り返し、前記関数を最終決定することと、
前記最終決定された関数を実行し、前記１つ又は複数のサブタスクシーケンスの各々を評価することと、
を含む、請求項１に記載の方法。
前記１つ又は複数のサブタスクシーケンスの各々の前記評価を使用して、前記関連付けられたロボットをトレーニングすることは、
前記１つ又は複数のサブタスクシーケンスの各々の前記出力された評価及び頻度に基づいて、前記１つ又は複数のサブタスクシーケンスのうちのサブタスクシーケンスを選択することと、
前記１つ又は複数のサブタスクシーケンスのうちの前記選択されたサブタスクシーケンスの各々に対応するビデオフレームを抽出することと、
前記抽出されたビデオフレームから動作をセグメント化することと、
前記セグメント化された動作から前記関連付けられたロボットの軌道及び軌道パラメータを決定することと、
前記軌道、前記軌道パラメータ、及び前記セグメント化された動作に基づいて強化学習を前記関連付けられたロボットに対して実行して、前記１つ又は複数のサブタスクシーケンスのうちの前記選択されたサブタスクシーケンスを学習することと、
を含む、請求項１に記載の方法。
プロセスを実行するための命令を記憶した非一時的コンピュータ可読媒体であって、前記プロセスは、
複数のサブタスクと関連付けられた情報を受信することと、前記受信される情報は、当該情報に関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものであり、
前記複数のサブタスクの各々に対して品質評価を行うことと、
前記複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価に基づいて、前記１つ又は複数のサブタスクシーケンスの各々を評価することと、
前記１つ又は複数のサブタスクシーケンスの各々の前記評価に基づいて、前記１つ又は複数のサブタスクシーケンスのうちの、前記関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することと、
を含む、非一時的コンピュータ可読媒体。
前記関連付けられたロボットを前記エッジシステムにおいてトレーニングするための前記人間の動作と関連付けられた情報は、ビデオクリップを含み、前記ビデオクリップの各々は前記複数のサブタスクと関連付けられ、
前記１つ又は複数のサブタスクシーケンスのうちの、前記関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することは、前記サブタスクのうちの、前記１つ又は複数のサブタスクシーケンスの各々と関連付けられたサブタスクと関連付けられた、前記ビデオクリップを提供することを含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記ロボットは、ビデオを記録するように構成されたロボットビジョンを含み、前記ビデオから前記ビデオクリップが生成され、
製造システムは、実行のために前記エッジシステムに前記複数のサブタスクを含むタスクを提供し、前記１つ又は複数のサブタスクシーケンスの各々の前記評価のために、前記タスクの品質評価を提供するように構成される、請求項１０に記載の非一時的コンピュータ可読媒体。
前記ビデオクリップは、前記複数のサブタスクの前記人間の動作を含む、請求項１０に記載の非一時的コンピュータ可読媒体。
前記命令は、前記ビデオクリップに対する特徴抽出から決定される前記人間の動作への変化点検出に基づいて、前記複数のサブタスクの各々を認識することを更に含み、前記変化点検出から検出される変化点は、時間期間によって前記複数のサブタスクの各々を分けるのに利用される、請求項１２に記載の非一時的コンピュータ可読媒体。
前記ビデオクリップは、前記ロボットとは別個のカメラによって記録される、請求項１０に記載の非一時的コンピュータ可読媒体。
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価に基づいて、前記１つ又は複数のサブタスクシーケンスの各々を評価することは、
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価から、前記１つ又は複数のサブタスクシーケンスの各々の品質評価を提供するように構成された関数を構築することと、
検証セットを利用することと、前記検証セットは、前記１つ又は複数のサブタスクシーケンスの各々の前記品質評価を評価するものであり、
強化学習に基づいて、前記１つ又は複数のサブタスクシーケンスの各々の前記品質評価の前記評価に基づいて前記関数を変更することと、
前記構築すること、前記利用すること、及び前記変更することを繰り返し、前記関数を最終決定することと、
前記最終決定された関数を実行し、前記１つ又は複数のサブタスクシーケンスの各々を評価することと、
を含む、請求項９に記載の非一時的コンピュータ可読媒体。
前記１つ又は複数のサブタスクシーケンスの各々の前記評価を使用して、前記関連付けられたロボットをトレーニングすることは、
前記１つ又は複数のサブタスクシーケンスの各々の前記出力された評価及び頻度に基づいて、前記１つ又は複数のサブタスクシーケンスのうちのサブタスクシーケンスを選択することと、
前記１つ又は複数のサブタスクシーケンスのうちの前記選択されたサブタスクシーケンスの各々に対応するビデオフレームを抽出することと、
前記抽出されたビデオフレームから動作をセグメント化することと、
前記セグメント化された動作から前記関連付けられたロボットの軌道及び軌道パラメータを決定することと、
前記軌道、前記軌道パラメータ、及び前記セグメント化された動作に基づいて強化学習を前記関連付けられたロボットに対して実行して、前記１つ又は複数のサブタスクシーケンスのうちの前記選択されたサブタスクシーケンスを学習することと、
を含む、請求項９に記載の非一時的コンピュータ可読媒体。
プロセッサを備える装置であって、前記プロセッサは、
複数のサブタスクと関連付けられた情報を受信することと、前記受信される情報は、当該情報に関連付けられたロボットをエッジシステムにおいてトレーニングするために人間の動作と関連付けられるものであり、
前記複数のサブタスクの各々に対して品質評価を行うことと、
前記複数のサブタスクから１つ又は複数のサブタスクシーケンスを決定することと、
前記１つ又は複数のサブタスクシーケンスの各々と関連付けられた前記複数のサブタスクの各々の前記品質評価に基づいて、前記１つ又は複数のサブタスクシーケンスの各々を評価することと、
前記１つ又は複数のサブタスクシーケンスの各々の前記評価に基づいて、前記１つ又は複数のサブタスクシーケンスのうちの、前記関連付けられたロボットをトレーニングするためのサブタスクシーケンスを出力することと、
を行うように構成される、装置。