JP7398830B2

JP7398830B2 - ピックアンドプレイスシステムのための深層強化学習装置及び方法

Info

Publication number: JP7398830B2
Application number: JP2022110447A
Authority: JP
Inventors: ファムトゥエンレ; 李東ヒョン
Original assignee: アジャイルソーダインコーポレイテッド
Priority date: 2021-08-05
Filing date: 2022-07-08
Publication date: 2023-12-15
Anticipated expiration: 2042-07-08
Also published as: US20230040623A1; JP2023024296A; KR102346900B1

Description

特許法第３０条第２項適用令和３年７月１２日に学会予稿集をウェブサイトに掲載ｈｔｔｐ：／／ｗｗｗ．ｕｂｉｑｕｉｔｏｕｓｒｏｂｏｔｓ．ｏｒｇ／２０２１／ｉｎｄｅｘ．ｐｈｐｈｔｔｏｓ：／／ｒａｓ．ｐａｐｅｒｃｅｐｔ．ｎｅｔ／ｃｏｎｆｅｒｅｎｃｅｓ／ｃｏｎｆｅｒｅｎｃｅｓ／ＵＲ２１／ｐｒｏｇｒａｍ／ＵＲ２１ＣｏｎｔｅｎｔＬｉｓｔＷｅｂ＿２．ｈｔｍｌ

本発明は、ピックアンドプレイスシステムのための深層強化学習装置及び方法に関する発明であり、より詳細には、実時間環境においてロボット運営体制（ＲＯＳ）を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成する、ピックアンドプレイスシステムのための深層強化学習装置及び方法に関する。

強化学習は、環境（environment）と相互作用しつつ目標を達成するエージェントを扱う学習方法であり、ロボットや人工知能分野で多用されている。

かかる強化学習は、学習の行動主体である強化学習エージェント（Agent）がどのような行動をすればより多い報酬（Reward）が受けられるかを見つけ出すことを目的とする。

すなわち、決まった正解がない状態でも報酬を最大化させるために何をするかを学習することであり、入力と出力が明確な関係を持っている状況で事前にどのような行為をするかを聞いて行うのではなく、試行錯誤をたどりながら報酬を最大化させることを学習する過程を経る。

また、エージェントは時間ステップが流れるにしたがって順次にアクションを選択し、該アクションが環境に及ぼした影響に基づいて報酬（reward）を受ける。

図１は、従来技術に係る強化学習装置の構成を示すブロック図であり、図１に示すように、エージェント１０が強化学習モデルの学習によってアクション（Action、又は行動）Ａを決定する方法を学習させ、各アクションであるＡはその次の状態（state）Ｓに影響を及ぼし、成功した程度は、報酬（Reward）Ｒから測定できる。

すなわち、報酬は、強化学習モデルを用いて学習を進行する場合に、ある状態（State）によってエージェント１０が決定するアクション（行動）に対する補償点数であって、学習によるエージェント１０の意思決定に対する一種のフィードバックである。

環境２０は、エージェント１０が取れる行動、それに伴う報酬などの全ての規則であり、状態、アクション、報酬などはいずれも環境の構成要素であり、エージェント１０以外の全ての決まったものが環境である。

一方、強化学習によってエージェント１０は未来の報酬が最大化するようにアクションを取るので、報酬をどのように策定するかが学習結果に多く影響を及ぼす。

かかる強化学習は、人の介入無しでロボットを用いた工場自動化を自動でアップデートするための核心機能として作用する。

一方、ピックアンドプレイスシステム（Pick and Place System、ＰＰＳ）は、労力を代替するための工場製造工程で用いられてきたが、システムの正確性及び性能を高める統合システムが開発し難いという問題点があった。

また、製造工程が頻繁に変更される過程で性能を最適化するために新しい工程に対するアップデートが行われなければならないが、このとき、考慮すべき多い媒介変数によって多数のモジュールが構成されてシステムが複雑化し、ＰＰＳ設計のためのフレームワークの開発が難しいという問題点があった。

韓国登録特許第１０－２２１１０１２号（発明の名称：ロボット操作のための深層強化学習）

このような問題点を解決するために、本発明は、実時間環境でロボット運営体制（ＲＯＳ）を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成する、ピックアンドプレイスシステムのための深層強化学習装置及び方法を提供することに目的がある。

上記の目的を達成するために、本発明の一実施例は、ピックアンドプレイスシステムのための深層強化学習装置であって、提供されたアクション（Action）に対して一つ以上のロボットのパーキング位置と配置位置間の経路を要請し、受信したロボットの動きによる経路に基づいてシミュレーションを行い、強化学習に用いられる状態（State）情報と報酬（Reward）情報を提供するレンダリングエンジン、前記レンダリングエンジンから提供された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行ってロボットの動きが最適化するようにアクションを決定する強化学習エージェント、及び、前記アクションに基づいてロボットが動くように制御し、前記レンダリングエンジンの要請に対応してロボットの動きによる経路情報を前記レンダリングエンジンに提供する制御エンジン、を含むことができる。

また、前記実施例に係る強化学習エージェントは、ロボットの現在状態と選択可能な物体の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定することができる。

また、前記実施例は、ロボットの動きによる経路情報が、実際環境でロボットが動いた経路及びあらかじめ保存されたシミュレータープログラム上でロボットが動いた経路のいずれか一つであってよい。

また、前記実施例に係るレンダリングエンジンは、ウェブ（Ｗｅｂ）を通じて視覚化する応用プログラムがさらに設置されてよい。

また、前記実施例に係る強化学習エージェントは、報酬が遅延（Delay）することに対応して遅延報酬（Delayed Reward）処理を行うことができる。

また、前記実施例に係る強化学習エージェントは、シミュレーション上の不確実性と動く物体を考慮するためのＬＳＴＭ（Long Short Term Memory）レイヤを備えることができる。

また、前記実施例に係る強化学習エージェントは、最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することができる。

また、本発明の一実施例は、ピックアンドプレイスシステムのための深層強化学習方法であって、ａ）強化学習エージェントが、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジンに要請して収集する段階、ｂ）強化学習エージェントが前記収集された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行ってロボットの動きが最適化するようにアクションを決定する段階、ｃ）前記レンダリングエンジンが決定されたアクションを出力すると、制御エンジンが、前記アクションに基づいてロボットが動くように制御する段階、及び、ｄ）前記レンダリングエンジンが、ロボットの経路情報を受信し、動きによる経路に基づいてシミュレーションを行う段階、を含むことができる。

また、前記実施例に係るｂ）段階は、ロボットの現在状態と選択可能な物体の情報によって、特定ロボットに任意の物体を握るかを割り振るアクションを決定することができる。

また、前記実施例は、ａ）段階で収集される情報が一つ以上のロボットのパーキング位置と配置位置間の経路を含むロボットの動き情報であってよい。

また、前記実施例に係るｂ）段階は、報酬が遅延（Delay）することに対応して遅延報酬（Delayed Reward）処理を行うことができる。

また、前記実施例に係るｂ）段階は、強化学習エージェントが最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することができる。

また、前記実施例に係るｃ）段階は、制御エンジンが実際環境でロボット及びあらかじめ保存されたシミュレータープログラム上でロボットが動くように制御し、それに対応する動き経路を抽出することができる。

本発明は、強化学習エージェント、レンダリングエンジン、制御エンジンを含むシミュレーション学習フレームワークを構成し、実時間環境でロボット運営体制（ＲＯＳ）を用いてピックアンドプレイス関連決定を下すために強化学習を適用することができる。

このようなシミュレーション学習フレームワークの強化学習によって生成された人工知能モデルはピックアンドプレイスシステムに用いられ、様々なハードウェアと実時間制約を満たす安定した経路モーションを具現することができる。

一般の強化学習装置の構成を示すブロック図である。本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置を概略的に示すブロック図である。図２の実施例に係るピックアンドプレイスシステムのための深層強化学習装置の構成を示すブロック図である。図２の実施例に係るピックアンドプレイスシステムのための深層強化学習装置のピックアンドプレイスシステムを示す例示図である。本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習方法を説明するためのフローチャートである。図５の実施例に係るピックアンドプレイスシステムのための深層強化学習方法のエピソード設定過程を説明するためのフローチャートである。

以下では、本発明の好ましい実施例及び添付の図面を参照して、本発明を詳細に説明する。ただし、図面中の同一の参照符号は同一の構成要素を示すことを前提にして説明する。

本発明の実施のための具体的な内容を説明するに先立ち、本発明の技術的要旨と直接関連していない構成については、本発明の技術的要旨を乱さない範囲内で省略していることに留意されたい。

また、本明細書及び特許請求の範囲に使われる用語又は単語は、発明者が自身の発明を最善の方法で説明するために適切な用語の概念を定義できるという原則に立って、発明の技術的思想に符合する意味及び概念として解釈されるべきであろう。

本明細書において、ある部分がある構成要素を「含む」という表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでよいということを意味する。

また、「‥部」、「‥器」、「‥モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれら両者の結合で区別可能である。

また、「少なくとも一つの」という用語は、単数及び複数を含む用語と定義され、少なくとも一つのという用語が存在しなくても、各構成要素が単数又は複数で存在してよく、単数又は複数を意味できることは自明であろう。

また、各構成要素が単数又は複数で備えられることは、実施例によって変更可能であろう。

以下、添付の図面を参照して、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置及び方法の好ましい実施例を詳細に説明する。

図２は、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置を概略的に示すブロック図であり、図３は、図２の実施例に係るピックアンドプレイスシステムのための深層強化学習装置の構成を示すブロック図であり、図４は、図２の実施例に係るピックアンドプレイスシステムのための深層強化学習装置のピックアンドプレイスシステムを示す例示図である。

図２～図４を参照すると、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置１００は、実時間環境でロボット運営体制（ＲＯＳ）を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成できるように、レンダリングエンジン１１０と、強化学習エージェント１２０と、制御エンジン１３０と、環境１４０とを含んで構成されてよい。

レンダリングエンジン１１０は、ピックアンドプレイス環境を作る構成であり、ロボット２００、２００ａ、２００ｂの動き経路、すなわち、ピックアンドプレイス動作による軌跡に基づいてシミュレーションを行うことができる。

また、レンダリングエンジン１１０は、強化学習エージェント１２０に、強化学習に用いられる状態（State）情報と、シミュレーションに基づく報酬（Reward）情報を伝達してアクションを要請する。

これに応じて、強化学習エージェント１２０は、要請されたアクションをレンダリングエンジン１１０に提供する。

また、レンダリングエンジン１１０は、物体４００の運動学を写実的且つ物理的にシミュレーションできるようにコア部１１１が構成されてよく、物理エンジンが適用されたシミュレーターで構成されてもよい。

ここで、状態は、ロボット２００、２００ａ、２００ｂの現在状態、物体の位置であってよく、物体の最大個数と、現在ロボット２００、２００ａ、２００ｂが摘まみ得る物体の位置を含む。

また、報酬は、物体の位置が変わることにしたがって物体を成功的に摘んだ場合と、ロボットの経路を計画したが、物体を摘むことができなかった場合とに区分できる。

また、報酬は、強化学習エージェント１２０が極力速くピックアンドプレイスするように奨励するために、報酬関数にはピックアンドプレイス時間周期に対する負数値が含まれてよい。

また、ロボットが物体を選択できなかった場合に、報酬関数に、例えば「－１０」の罰点を追加することもできる。

また、レンダリングエンジン１１０は、強化学習エージェント１２０から提供されたアクション（Action）に対して、一つ以上のロボット２００、２００ａ、２００ｂのパーキング位置と配置位置間の経路を制御エンジン１３０に要請することができる。

また、レンダリングエンジン１１０は、制御エンジン１３０とデータを送受信できるようにプロトコルを提供でき、制御エンジン１３０に物体４００を摘む位置と配置位置間の経路生成要請を伝送できるように、ＲＯＳ＃１１２が構成されてよい。

すなわち、ＲＯＳ＃１１２は、レンダリングエンジン１１０と制御エンジン１３０とを連動可能にする。

また、レンダリングエンジン１１０は、強化学習エージェント１２０のモデルを訓練するための強化学習アルゴリズムを適用できるようにＭＬ（Machine Learning）－エージェント１１３が構成されてよい。

また、ＭＬ－エージェントは、強化学習エージェント１２０に情報を伝達でき、レンダリングエンジン１１０のシミュレーターと例えば「Ｐｙｔｈｏｎ」などのプログラム間のインターフェースを行うこともできる。

また、レンダリングエンジン１１０は、ウェブ（Ｗｅｂ）を通じて視覚化可能に、ウェブベースのグラフィックライブラリー（ＷｅｂＧＬ）１１４を含んで構成されてよい。

すなわち、ジャバスクリプトプログラミング言語を用いて、互換性のあるウェブブラウザにおいてインタラクティブな３Ｄグラフィックを使用できるように構成することができる。

強化学習エージェント１２０は、状態情報と報酬情報を用いたエピソードに基づいて、ロボット２００、２００ａ、２００ｂの動きが最適化するようにアクションを決定する構成であり、強化学習アルゴリズムを含んで構成されてよい。

ここで、エピソードは、コンベヤーベルト３００が作動しながら動く物体４００に対してロボット２００、２００ａ、２００ｂがピックアンドプレイス動作を行う環境１４０を構成し、強化学習エージェント１２０は、どの物体４００を摘まむかを選択し、成功的に摘んだ物体の個数が目標に到達することを、１回のエピソードとして設定する。

また、強化学習アルゴリズムは、報酬を最大化するための最適の方策を探すために、価値ベース接近方式又は方策ベース接近方式のいずれかを用いることができる。

価値ベース接近方式において最適の方策は、エージェントの経験に基づいて近似した最適価値関数から派生し、方策ベース接近方式は、価値関数近似から分離された最適の方策を学習し、訓練された方策が近似値関数方向に改善される。

本実施例では、方策ベースアルゴリズムであるＰＰＯ（Proximal Policy Optimization）アルゴリズムを用いる。

ＰＰＯアルゴリズムを用いると、現在方策から遠ざからず、傾斜上昇によって方策が改善されて方策改善がより安定してなされ、方策改善は目標を最大化してなされ得る。

また、強化学習エージェント１２０は、ピックアンドプレイスを行うロボット２００、２００ａ、２００ｂの現在状態と、コンベヤーベルト３００上で選択可能な物体４００の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定する。

また、強化学習エージェント１２０は、報酬が遅延（Delay）することに対応して遅延報酬（Delayed Reward）処理を行うことができる。

また、強化学習エージェント１２０は、特徴抽出のための入力状態の後に２つのＭＬＰ（Multiple Layer Perceptron）を含むことができ、シミュレーション上の不確実性と動く物体４００を考慮するために、ＬＳＴＭ（Long Short Term Memory）レイヤを備えることができる。

すなわち、時系列及びシーケンスデータにおいてステップ間の長期従属性を学習し、長いシーケンスに対する勾配流れが改善され得るようにする。

また、強化学習エージェント１２０の強化学習ベースアルゴリズムは、低いベルト速度ではなく高いベルト速度で到着した物体を待つのに相対的に時間がかからないので、最も短いピックアンドプレイス時間周期を生成する確率値が高い個体を選択するように学習し、ベルト速度にかかわらずにベルト速度を上げるとピックアンドプレイス時間が短縮し得るようにする。

一方、ピックアンドプレイス時間周期で表示される総計画時間とロボット実行時間は、プランナーのコンピューティング時間、物体の到着確率及びロボットの実行時間（実時間ハードウェア制約）の不確実性によって不確実であり得る。

これは、各ロボットに対する物体割り当て決定に影響を与えることがあり、このような不確実性下で対象を適応的に選択するようにエージェントを学習する強化学習アルゴリズムを提供することができる。

したがって、強化学習アルゴリズムは、ピックアンドプレイス周期時間を最小化し、選択した物体の数を最大化するなどの様々な側面を満たし得るようにシステムを制御する強化学習エージェント１２０の学習がなされ得るようにする。

制御エンジン１３０は、アクションに基づいてロボット２００、２００ａ、２００ｂが動くように制御し、当該ロボット２００、２００ａ、２００ｂの動きによる経路情報を抽出して提供する構成であり、ロボット制御システム（ＲＯＳ）を含んで構成されてよい。

ここで、ロボット２００、２００ａ、２００ｂの動きによる経路情報は、例えば、コンベヤーベルト３００に沿って移動する物体４００をピックアンドプレイスする実際環境でロボット２００、２００ａ、２００ｂが動いた経路であってよい。

また、ロボット制御システム（ＲＯＳ）は、ロボット操作と経路プランニング（Path Planning）などを用いてシミュレーター上でロボットの動きが適用され得るようにし、ロボット制御システムを用いて制御される動作を、シミュレーションの他に実際環境においても適用可能にする。

また、ロボット２００、２００ａ、２００ｂの動きによる経路情報は、あらかじめ保存されたシミュレータープログラム上でロボット２００、２００ａ、２００ｂが動いた経路であってよい。

また、制御エンジン１３０は、あらかじめ設定されたロボット２００、２００ａ、２００ｂの経路計画情報を用いてロボット（２００、２００ｂ、２００ｂ）が動作するように制御できる。

また、制御エンジン１３０は、マニピュレーターのための統合ライブラリーであるＭｏｖｅｌｔパッケージを用いて、開放型モーションライブラリー（Open Motion Planning Library）を使用して経路を生成できる。

すなわち、制御エンジン１３０は、初期関節角度と目標関節角度間の有効な経路（例えば、滑らかで衝突のない経路）を検索する。

また、マニピュレーターは、動くコンベヤーベルトに沿って配置され、ピックアンドプレイス作業を反復して行うロボットであってよい。

また、制御エンジン１３０は、現在位置からピッキング位置まで及びピッキング位置から配置位置までの長い経路を生成する代わりに、それぞれ４個の計画段階に該当する４個の経路を生成できる。

すなわち、制御エンジン１３０は、現在位置から、例えば、ロボットの把持部が対象物体４００上にある待機位置（又は、同一の位置）までの経路を生成する「事前把握過程」と、物体が到着すると、待機位置からパーキング位置まで経路を生成する「把握過程」と、把持部を待機位置に再び持ち上げる経路を生成する「ピックアップ過程」と、待機位置から配置位置まで経路を生成する「プレイス過程」によって４個の軌跡を獲得することができる。

環境１４０は、単一ロボット環境であるか或いは多重ロボット環境であってよい。

コンベヤーベルト３００は、一定方向に沿って整列され、任意の幅（例えば、３０ｃｍ）を有してよく、ロボット２００、２００ａ、２００ｂは、幅に沿って全ての領域に到達できる。

物体４００は、調節可能なコンベヤーベルト３００の速度に従う速度でコンベヤーベルト３００の一側（例えば、右側）から始まり、新しい物体は、任意の位置と時間間隔をおいてランダム（無作為）に到着してよい。

また、物体４００は、容易に摘み取り可能に一定大きさのキューブ形態で構成されてよい。

次に、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習方法を説明する。

図５は、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習方法を説明するためのフローチャートであり、図６は、図５の実施例に係るピックアンドプレイスシステムのための深層強化学習方法のエピソード設定過程を説明するためのフローチャートである。

図２～図６を参照すると、本発明の一実施例は、ピックアンドプレイスシステムのための深層強化学習方法は、強化学習エージェント１２０が、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジン１１０に要請すると、レンダリングエンジン１１０が制御エンジン１３０に状態情報と報酬情報を要請して収集（Ｓ１００）する。

また、Ｓ１００段階で収集される情報は、一つ以上のロボット２００、２００ａ、２００ｂのパーキング位置と配置位置間の経路を含むロボット２００、２００ａ、２００ｂの動き情報であってよい。

また、Ｓ１００段階で収集された状態情報と報酬情報は強化学習エージェント１２０に提供され、強化学習エージェント１２０は、状態情報と報酬情報に基づいて、ロボット２００、２００ａ、２００ｂの動きが最適化するようにアクションを設定（Ｓ２００）する。

ここで、アクションは、強化学習エージェント１２０が、連続した個体数によってｎ個の選択項目の個別集合からアクションを取り込むことができ、個体を選択した後、現在個体位置、ベルト速度及び現在関節角度などに基づいて、選択した位置を計算することができる。

また、Ｓ２００段階で、強化学習エージェント１２０は、コンベヤーベルト３００が作動しながら動く物体４００に対してロボット２００、２００ａ、２００ｂがピックアンドプレイス動作を行う環境１４０で、どの物体４００を摘まむかを選択し、成功的に摘んだ物体の個数が目標に到達することを、１回のエピソードとして設定する。

また、Ｓ２００段階で、強化学習エージェント１２０は、ピックアンドプレイスを行うロボット２００、２００ａ、２００ｂの現在状態とコンベヤーベルト３００上で選択可能な物体４００の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定する。

すなわち、特定ロボットに対するアクション要請を受信（Ｓ２１０）すると、ロボットの現在状態と選択可能情報に基づいてアクションを設定（Ｓ２２０）し、強化学習を行うこともできる。

また、Ｓ２００段階で、強化学習エージェント１２０は、報酬が遅延（Delay）することに対応して遅延報酬（Delayed Reward）処理を行うこともできる。

続いて、レンダリングエンジン１１０は、Ｓ２００段階で決定されたアクションを受信して制御エンジン１３０に出力（Ｓ３００）する。

制御エンジン１３０は、Ｓ２００段階で生成されたアクションに基づいてロボット２００、２００ａ、２００ｂが動くように制御（Ｓ４００）する。

Ｓ４００段階で、制御エンジン１３０は、アクションに基づくロボット２００、２００ａ、２００ｂの動作が実際環境で連動されたロボット２００、２００ａ、２００ｂが動作するように制御し、それに対応して動いた経路（又は、軌跡）を抽出することができる。

また、Ｓ４００段階で、制御エンジン１３０は、あらかじめ保存されたシミュレータープログラム上でアクションに基づいてロボット２００、２００ａ、２００ｂが動くように制御し、それに対応する動き経路を抽出することもできる。

また、Ｓ４００段階は、ロボット２００、２００ａ、２００ｂの経路情報がレンダリングエンジン１１０に提供され、レンダリングエンジン１１０は、ロボット２００、２００ａ、２００ｂの動きによる経路に基づいてシミュレーションする過程を行うことができる。

Ｓ４００段階のシミュレーションによってレンダリングエンジン１１０は、物体の位置が変わるに従って物体を成功的に摘んだ場合と、ロボットの経路を計画したが、物体を摘むことができなかった場合とに対する報酬を区分して強化学習エージェント１２０に提供する。

次は、フレームワークの検証のためにベルト速度、配置、及び図３のようにロボット２００、２００ａ、２００ｂの個数の様々な構成によってエージェントの動作を分析した実験結果である。

１０個の個体を選択した後、総作業時間を計算したメトリック（Metric）を、フレームワークの評価に使用した。

表１は評価結果であり、３つの基準アルゴリズムに対する提案アルゴリズムの総作動時間を示す。

ここで、ランダムは、無作為に個体を選択することであり、ＦＳＦＰ（First See First Pick）は、常に、観察可能な個体目録から一番目の個体を選択することであり、ＳＰ（Shortest Path）は、ロボットから最も近い個体を選択することである。

一つのロボットシステムで構成されたアルゴリズムによって訓練されたエージェントは、全ての状況に適応しようと試み、その性能は、ランダム、ＦＳＦＰ、ＳＰに比べてそれぞれ、１５％、２．９％、２．９％向上したことが分かる。

また、ハードウェアの制約とプランナーのコンピューティング時間によって変わる経路計画を規則ベースアルゴリズムが考慮しない事実で改善され得る。

また、強化学習ベースアルゴリズムは、最も短いピックアンドプレイス時間周期を生成する可能性が高い個体を選択するようにエージェントを学習させ、ベルト速度にかかわらず、ベルト速度を上げると、ピックアンドプレイス時間が短縮し得る。

これは、低いベルト速度ではなく高いベルト速度で到着した物体を待つのに相対的に時間がかからないためである。

また、配置位置はエージェントの行動にも影響を与えることができる。

特に、配置がロボットの左側にある場合に、エージェント動作は常に、配置に最も近い最左側の個体（例えば、配置位置に対する最短経路）を選択するＦＳＦＰエージェントに収斂する。

また、ロボットの右側に配置されたエージェントは、ＦＳＦＰとＳＰとの混合方策を学習し、特に、一番目の決定段階でエージェントは一番目に到着した個体（ＦＳＦＰ動作）を選択し、次の決定段階では、ＳＰエージェントの動作に最も近い個体（一般に、二番目又は三番目の個体）を選択する。

複数のロボットシステムを用いると、ロボット数を増やし、ピックアンドプレイス時間が減少し得る。

したがって、実時間環境でロボット運営体制（ＲＯＳ）を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成することができる。

また、行動ベースシステムを活性化し、コンベヤーベルト基盤システムの妥当性と拡張性が確認でき、強化学習アルゴリズムを用いるためにフレームワークを様々なロボットシステムに拡張できる。

また、シミュレーション上の不確実性と動く物体を考慮することによって、システムに対するより現実的な環境を改善することが可能になる。

上記のように、本発明の好ましい実施例を参照して説明したが、当該技術分野における熟練した当業者であれば、添付する特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更可能であることが理解できよう。

また、本発明の特許請求の範囲に記載の図面番号は、説明の明瞭性と便宜のために記載したものに過ぎず、それらに限定されることはなく、実施例を説明する過程において、図面上の線の厚さや構成要素のサイズなどは、説明の明瞭性と便宜のために誇張して示されることもある。

また、上述の用語は、本発明での機能を考慮して定義された用語であり、それらはユーザ、運用者の意図又は慣例によって変更可能であるので、それらの用語に対する解釈は、本明細書全般ににわたる内容に基づいて下されるべきであろう。

また、明示的に図示又は説明されなくとも、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の記載事項から、本発明に係る技術的思想を含む様々な形態の変形が可能であることは明らかであり、それらも本発明の権利範囲に属する。

また、添付の図面を参照して説明された上記の実施例は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲はそれらの実施例に限定されない。

１００：強化学習装置
１１０：レンダリングエンジン
１１１：コア部
１１２：ＲＯＳ＃
１１３：ＭＬ－エージェント
１１４：ＷｅｂＧＬ
１２０：強化学習エージェント
１３０：制御エンジン
１４０：環境
２００、２００ａ、２００ｂ：ロボット
３００：コンベヤーベルト
４００：物体

Claims

提供されたアクション（Action）に対して複数のロボット（２００、２００ａ、２００ｂ）のパーキング位置と配置位置間の経路を要請し、受信した前記複数のロボット（２００、２００ａ、２００ｂ）の動きによる経路に基づいてシミュレーションを行い、強化学習に用いられる状態（State）情報と報酬（Reward）情報を提供するレンダリングエンジン（１１０）と、
前記レンダリングエンジン（１１０）から提供された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行って前記複数のロボット（２００、２００ａ、２００ｂ）の動きが最適化するようにアクションを決定する強化学習エージェント（１２０）と、
前記アクションに基づいて前記複数のロボット（２００、２００ａ、２００ｂ）が動くように制御し、前記レンダリングエンジン（１１０）の要請に対応して前記複数のロボット（２００、２００ａ、２００ｂ）の動きによる経路情報を前記レンダリングエンジン（１１０）に提供する、前記レンダリングエンジン（１１０）と分離した制御エンジン（１３０）と、
を含み、
前記強化学習エージェント（１２０）は、前記複数のロボット（２００、２００ａ、２００ｂ）の現在状態と選択可能な物体４００の情報によって、前記複数のロボット（２００、２００ａ、２００ｂ）のうちの特定ロボットに任意の物体を把持するかを割り振るアクションを決定し、
前記複数のロボット（２００、２００ａ、２００ｂ）の動きによる経路情報は、実際環境で前記複数のロボット（２００、２００ａ、２００ｂ）が動いた経路及びあらかじめ保存されたシミュレータプログラム上で前記複数のロボット（２００、２００ａ、２００ｂ）が動いた経路のいずれか一つであり、
前記レンダリングエンジン（１１０）は、前記レンダリングエンジン（１１０）と前記制御エンジン（１３０）とを連動可能とするロボット制御システムを含み、
前記ロボット制御システムは、前記複数のロボット（２００、２００ａ、２００ｂ）の動作を前記実際環境または、前記シミュレータプログラム上で適用可能とする情報を前記制御エンジン（１３０）に送信する、
ピックアンドプレイスシステムのための深層強化学習装置。
前記レンダリングエンジン（１１０）は、ウェブ（Ｗｅｂ）を通じて視覚化する応用プログラムがさらに設置されたことを特徴とする、
請求項１に記載のピックアンドプレイスシステムのための深層強化学習装置。
前記強化学習エージェント（１２０）は、報酬が遅延（Delay）することに対応して遅延報酬（Delayed Reward）処理を行うことを特徴とする、請求項１に記載のピックアンドプレイスシステムのための深層強化学習装置。
前記強化学習エージェント（１２０）は、シミュレーション上の不確実性と動く物体４００を考慮するためのＬＳＴＭ（Long Short Term Memory）レイヤを備えたことを特徴とする、請求項１に記載のピックアンドプレイスシステムのための深層強化学習装置。
前記強化学習エージェント（１２０）は、最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することを特徴とする、請求項１に記載のピックアンドプレイスシステムのための深層強化学習装置。
ａ）強化学習エージェント（１２０）が、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジン（１１０）に要請して収集する段階と、
ｂ）強化学習エージェント（１２０）が、前記収集された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行って複数のロボット（２００、２００ａ、２００ｂ）の動きが最適化するようにアクションを決定する段階と、
ｃ）前記レンダリングエンジン（１１０）が決定されたアクションを出力すると、前記レンダリングエンジン（１１０）と分離した制御エンジン（１３０）が前記アクションに基づいて前記複数のロボット（２００、２００ａ、２００ｂ）が動くように制御する段階と、
ｄ）前記レンダリングエンジン（１１０）が前記複数のロボット（２００、２００ａ、２００ｂ）の経路情報を受信し、動きによる経路に基づいてシミュレーションを行う段階と、
を含み、
前記ｂ）段階は、前記複数のロボット（２００、２００ａ、２００ｂ）の現在状態と選択可能な物体４００の情報によって、前記複数のロボット（２００、２００ａ、２００ｂ）のうちの特定ロボットに任意の物体を把持するかを割り振るアクションを決定し、
前記ｃ）段階は、前記制御エンジン（１３０）が実際環境で前記複数のロボット（２００、２００ａ、２００ｂ）及びあらかじめ保存されたシミュレータプログラム上で前記複数のロボット（２００、２００ａ、２００ｂ）が動くように制御し、それに対応する動き経路を抽出し、
前記複数のロボット（２００、２００ａ、２００ｂ）の動きによる経路情報は、前記実際環境で前記複数のロボット（２００、２００ａ、２００ｂ）が動いた経路及びあらかじめ保存された前記シミュレータプログラム上で前記複数のロボット（２００、２００ａ、２００ｂ）が動いた経路のいずれか一つであり、
前記レンダリングエンジン（１１０）は、前記レンダリングエンジン（１１０）と前記制御エンジン（１３０）とを連動可能とするロボット制御システムを含み、
前記ロボット制御システムは、前記複数のロボット（２００、２００ａ、２００ｂ）の動作を前記実際環境または、前記シミュレータプログラム上で適用可能とする情報を前記制御エンジン（１３０）に送信する、
ピックアンドプレイスシステムのための深層強化学習方法。
前記ａ）段階で収集される情報は、前記複数のロボット（２００、２００ａ、２００ｂ）のパーキング位置と配置位置間の経路を含む前記複数のロボット（２００、２００ａ、２００ｂ）の動き情報であることを特徴とする、請求項６に記載のピックアンドプレイスシステムのための深層強化学習方法。
前記ｂ）段階は、報酬が遅延（Delay）することに対応して遅延報酬（Delayed Reward）処理を行うことを特徴とする、請求項６に記載のピックアンドプレイスシステムのための深層強化学習方法。
前記ｂ）段階は、強化学習エージェント（１２０）が最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することを特徴とする、請求項６に記載のピックアンドプレイスシステムのための深層強化学習方法。