JP7398830B2 - ピックアンドプレイスシステムのための深層強化学習装置及び方法 - Google Patents

ピックアンドプレイスシステムのための深層強化学習装置及び方法 Download PDF

Info

Publication number
JP7398830B2
JP7398830B2 JP2022110447A JP2022110447A JP7398830B2 JP 7398830 B2 JP7398830 B2 JP 7398830B2 JP 2022110447 A JP2022110447 A JP 2022110447A JP 2022110447 A JP2022110447 A JP 2022110447A JP 7398830 B2 JP7398830 B2 JP 7398830B2
Authority
JP
Japan
Prior art keywords
reinforcement learning
robots
pick
information
rendering engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022110447A
Other languages
English (en)
Other versions
JP2023024296A (ja
Inventor
ファム トゥエン レ
李東ヒョン
Original Assignee
アジャイルソーダ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アジャイルソーダ インコーポレイテッド filed Critical アジャイルソーダ インコーポレイテッド
Publication of JP2023024296A publication Critical patent/JP2023024296A/ja
Application granted granted Critical
Publication of JP7398830B2 publication Critical patent/JP7398830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1671Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1682Dual arm manipulator; Coordination of several manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • B25J9/1687Assembly, peg and hole, palletising, straight line, weaving pattern movement
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39106Conveyor, pick up article, object from conveyor, bring to test unit, place it
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Manipulator (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Numerical Control (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)

Description

特許法第30条第2項適用 令和3年7月12日に学会予稿集をウェブサイトに掲載 http://www.ubiquitousrobots.org/2021/index.php httos://ras.papercept.net/conferences/conferences/UR21/program/UR21ContentListWeb_2.html
本発明は、ピックアンドプレイスシステムのための深層強化学習装置及び方法に関する発明であり、より詳細には、実時間環境においてロボット運営体制(ROS)を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成する、ピックアンドプレイスシステムのための深層強化学習装置及び方法に関する。
強化学習は、環境(environment)と相互作用しつつ目標を達成するエージェントを扱う学習方法であり、ロボットや人工知能分野で多用されている。
かかる強化学習は、学習の行動主体である強化学習エージェント(Agent)がどのような行動をすればより多い報酬(Reward)が受けられるかを見つけ出すことを目的とする。
すなわち、決まった正解がない状態でも報酬を最大化させるために何をするかを学習することであり、入力と出力が明確な関係を持っている状況で事前にどのような行為をするかを聞いて行うのではなく、試行錯誤をたどりながら報酬を最大化させることを学習する過程を経る。
また、エージェントは時間ステップが流れるにしたがって順次にアクションを選択し、該アクションが環境に及ぼした影響に基づいて報酬(reward)を受ける。
図1は、従来技術に係る強化学習装置の構成を示すブロック図であり、図1に示すように、エージェント10が強化学習モデルの学習によってアクション(Action、又は行動)Aを決定する方法を学習させ、各アクションであるAはその次の状態(state)Sに影響を及ぼし、成功した程度は、報酬(Reward)Rから測定できる。
すなわち、報酬は、強化学習モデルを用いて学習を進行する場合に、ある状態(State)によってエージェント10が決定するアクション(行動)に対する補償点数であって、学習によるエージェント10の意思決定に対する一種のフィードバックである。
環境20は、エージェント10が取れる行動、それに伴う報酬などの全ての規則であり、状態、アクション、報酬などはいずれも環境の構成要素であり、エージェント10以外の全ての決まったものが環境である。
一方、強化学習によってエージェント10は未来の報酬が最大化するようにアクションを取るので、報酬をどのように策定するかが学習結果に多く影響を及ぼす。
かかる強化学習は、人の介入無しでロボットを用いた工場自動化を自動でアップデートするための核心機能として作用する。
一方、ピックアンドプレイスシステム(Pick and Place System、PPS)は、労力を代替するための工場製造工程で用いられてきたが、システムの正確性及び性能を高める統合システムが開発し難いという問題点があった。
また、製造工程が頻繁に変更される過程で性能を最適化するために新しい工程に対するアップデートが行われなければならないが、このとき、考慮すべき多い媒介変数によって多数のモジュールが構成されてシステムが複雑化し、PPS設計のためのフレームワークの開発が難しいという問題点があった。
韓国登録特許第10-2211012号(発明の名称:ロボット操作のための深層強化学習)
このような問題点を解決するために、本発明は、実時間環境でロボット運営体制(ROS)を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成する、ピックアンドプレイスシステムのための深層強化学習装置及び方法を提供することに目的がある。
上記の目的を達成するために、本発明の一実施例は、ピックアンドプレイスシステムのための深層強化学習装置であって、提供されたアクション(Action)に対して一つ以上のロボットのパーキング位置と配置位置間の経路を要請し、受信したロボットの動きによる経路に基づいてシミュレーションを行い、強化学習に用いられる状態(State)情報と報酬(Reward)情報を提供するレンダリングエンジン、前記レンダリングエンジンから提供された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行ってロボットの動きが最適化するようにアクションを決定する強化学習エージェント、及び、前記アクションに基づいてロボットが動くように制御し、前記レンダリングエンジンの要請に対応してロボットの動きによる経路情報を前記レンダリングエンジンに提供する制御エンジン、を含むことができる。
また、前記実施例に係る強化学習エージェントは、ロボットの現在状態と選択可能な物体の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定することができる。
また、前記実施例は、ロボットの動きによる経路情報が、実際環境でロボットが動いた経路及びあらかじめ保存されたシミュレータープログラム上でロボットが動いた経路のいずれか一つであってよい。
また、前記実施例に係るレンダリングエンジンは、ウェブ(Web)を通じて視覚化する応用プログラムがさらに設置されてよい。
また、前記実施例に係る強化学習エージェントは、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことができる。
また、前記実施例に係る強化学習エージェントは、シミュレーション上の不確実性と動く物体を考慮するためのLSTM(Long Short Term Memory)レイヤを備えることができる。
また、前記実施例に係る強化学習エージェントは、最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することができる。
また、本発明の一実施例は、ピックアンドプレイスシステムのための深層強化学習方法であって、a)強化学習エージェントが、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジンに要請して収集する段階、b)強化学習エージェントが前記収集された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行ってロボットの動きが最適化するようにアクションを決定する段階、c)前記レンダリングエンジンが決定されたアクションを出力すると、制御エンジンが、前記アクションに基づいてロボットが動くように制御する段階、及び、d)前記レンダリングエンジンが、ロボットの経路情報を受信し、動きによる経路に基づいてシミュレーションを行う段階、を含むことができる。
また、前記実施例に係るb)段階は、ロボットの現在状態と選択可能な物体の情報によって、特定ロボットに任意の物体を握るかを割り振るアクションを決定することができる。
また、前記実施例は、a)段階で収集される情報が一つ以上のロボットのパーキング位置と配置位置間の経路を含むロボットの動き情報であってよい。
また、前記実施例に係るb)段階は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことができる。
また、前記実施例に係るb)段階は、強化学習エージェントが最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することができる。
また、前記実施例に係るc)段階は、制御エンジンが実際環境でロボット及びあらかじめ保存されたシミュレータープログラム上でロボットが動くように制御し、それに対応する動き経路を抽出することができる。
本発明は、強化学習エージェント、レンダリングエンジン、制御エンジンを含むシミュレーション学習フレームワークを構成し、実時間環境でロボット運営体制(ROS)を用いてピックアンドプレイス関連決定を下すために強化学習を適用することができる。
このようなシミュレーション学習フレームワークの強化学習によって生成された人工知能モデルはピックアンドプレイスシステムに用いられ、様々なハードウェアと実時間制約を満たす安定した経路モーションを具現することができる。
一般の強化学習装置の構成を示すブロック図である。 本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置を概略的に示すブロック図である。 図2の実施例に係るピックアンドプレイスシステムのための深層強化学習装置の構成を示すブロック図である。 図2の実施例に係るピックアンドプレイスシステムのための深層強化学習装置のピックアンドプレイスシステムを示す例示図である。 本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習方法を説明するためのフローチャートである。 図5の実施例に係るピックアンドプレイスシステムのための深層強化学習方法のエピソード設定過程を説明するためのフローチャートである。
以下では、本発明の好ましい実施例及び添付の図面を参照して、本発明を詳細に説明する。ただし、図面中の同一の参照符号は同一の構成要素を示すことを前提にして説明する。
本発明の実施のための具体的な内容を説明するに先立ち、本発明の技術的要旨と直接関連していない構成については、本発明の技術的要旨を乱さない範囲内で省略していることに留意されたい。
また、本明細書及び特許請求の範囲に使われる用語又は単語は、発明者が自身の発明を最善の方法で説明するために適切な用語の概念を定義できるという原則に立って、発明の技術的思想に符合する意味及び概念として解釈されるべきであろう。
本明細書において、ある部分がある構成要素を「含む」という表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでよいということを意味する。
また、「‥部」、「‥器」、「‥モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれら両者の結合で区別可能である。
また、「少なくとも一つの」という用語は、単数及び複数を含む用語と定義され、少なくとも一つのという用語が存在しなくても、各構成要素が単数又は複数で存在してよく、単数又は複数を意味できることは自明であろう。
また、各構成要素が単数又は複数で備えられることは、実施例によって変更可能であろう。
以下、添付の図面を参照して、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置及び方法の好ましい実施例を詳細に説明する。
図2は、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置を概略的に示すブロック図であり、図3は、図2の実施例に係るピックアンドプレイスシステムのための深層強化学習装置の構成を示すブロック図であり、図4は、図2の実施例に係るピックアンドプレイスシステムのための深層強化学習装置のピックアンドプレイスシステムを示す例示図である。
図2~図4を参照すると、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習装置100は、実時間環境でロボット運営体制(ROS)を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成できるように、レンダリングエンジン110と、強化学習エージェント120と、制御エンジン130と、環境140とを含んで構成されてよい。
レンダリングエンジン110は、ピックアンドプレイス環境を作る構成であり、ロボット200、200a、200bの動き経路、すなわち、ピックアンドプレイス動作による軌跡に基づいてシミュレーションを行うことができる。
また、レンダリングエンジン110は、強化学習エージェント120に、強化学習に用いられる状態(State)情報と、シミュレーションに基づく報酬(Reward)情報を伝達してアクションを要請する。
これに応じて、強化学習エージェント120は、要請されたアクションをレンダリングエンジン110に提供する。
また、レンダリングエンジン110は、物体400の運動学を写実的且つ物理的にシミュレーションできるようにコア部111が構成されてよく、物理エンジンが適用されたシミュレーターで構成されてもよい。
ここで、状態は、ロボット200、200a、200bの現在状態、物体の位置であってよく、物体の最大個数と、現在ロボット200、200a、200bが摘まみ得る物体の位置を含む。
また、報酬は、物体の位置が変わることにしたがって物体を成功的に摘んだ場合と、ロボットの経路を計画したが、物体を摘むことができなかった場合とに区分できる。
また、報酬は、強化学習エージェント120が極力速くピックアンドプレイスするように奨励するために、報酬関数にはピックアンドプレイス時間周期に対する負数値が含まれてよい。
また、ロボットが物体を選択できなかった場合に、報酬関数に、例えば「-10」の罰点を追加することもできる。
また、レンダリングエンジン110は、強化学習エージェント120から提供されたアクション(Action)に対して、一つ以上のロボット200、200a、200bのパーキング位置と配置位置間の経路を制御エンジン130に要請することができる。
また、レンダリングエンジン110は、制御エンジン130とデータを送受信できるようにプロトコルを提供でき、制御エンジン130に物体400を摘む位置と配置位置間の経路生成要請を伝送できるように、ROS # 112が構成されてよい。
すなわち、ROS # 112は、レンダリングエンジン110と制御エンジン130とを連動可能にする。
また、レンダリングエンジン110は、強化学習エージェント120のモデルを訓練するための強化学習アルゴリズムを適用できるようにML(Machine Learning)-エージェント113が構成されてよい。
また、ML-エージェントは、強化学習エージェント120に情報を伝達でき、レンダリングエンジン110のシミュレーターと例えば「Python」などのプログラム間のインターフェースを行うこともできる。
また、レンダリングエンジン110は、ウェブ(Web)を通じて視覚化可能に、ウェブベースのグラフィックライブラリー(WebGL)114を含んで構成されてよい。
すなわち、ジャバスクリプトプログラミング言語を用いて、互換性のあるウェブブラウザにおいてインタラクティブな3Dグラフィックを使用できるように構成することができる。
強化学習エージェント120は、状態情報と報酬情報を用いたエピソードに基づいて、ロボット200、200a、200bの動きが最適化するようにアクションを決定する構成であり、強化学習アルゴリズムを含んで構成されてよい。
ここで、エピソードは、コンベヤーベルト300が作動しながら動く物体400に対してロボット200、200a、200bがピックアンドプレイス動作を行う環境140を構成し、強化学習エージェント120は、どの物体400を摘まむかを選択し、成功的に摘んだ物体の個数が目標に到達することを、1回のエピソードとして設定する。
また、強化学習アルゴリズムは、報酬を最大化するための最適の方策を探すために、価値ベース接近方式又は方策ベース接近方式のいずれかを用いることができる。
価値ベース接近方式において最適の方策は、エージェントの経験に基づいて近似した最適価値関数から派生し、方策ベース接近方式は、価値関数近似から分離された最適の方策を学習し、訓練された方策が近似値関数方向に改善される。
本実施例では、方策ベースアルゴリズムであるPPO(Proximal Policy Optimization)アルゴリズムを用いる。
PPOアルゴリズムを用いると、現在方策から遠ざからず、傾斜上昇によって方策が改善されて方策改善がより安定してなされ、方策改善は目標を最大化してなされ得る。
また、強化学習エージェント120は、ピックアンドプレイスを行うロボット200、200a、200bの現在状態と、コンベヤーベルト300上で選択可能な物体400の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定する。
また、強化学習エージェント120は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことができる。
また、強化学習エージェント120は、特徴抽出のための入力状態の後に2つのMLP(Multiple Layer Perceptron)を含むことができ、シミュレーション上の不確実性と動く物体400を考慮するために、LSTM(Long Short Term Memory)レイヤを備えることができる。
すなわち、時系列及びシーケンスデータにおいてステップ間の長期従属性を学習し、長いシーケンスに対する勾配流れが改善され得るようにする。
また、強化学習エージェント120の強化学習ベースアルゴリズムは、低いベルト速度ではなく高いベルト速度で到着した物体を待つのに相対的に時間がかからないので、最も短いピックアンドプレイス時間周期を生成する確率値が高い個体を選択するように学習し、ベルト速度にかかわらずにベルト速度を上げるとピックアンドプレイス時間が短縮し得るようにする。
一方、ピックアンドプレイス時間周期で表示される総計画時間とロボット実行時間は、プランナーのコンピューティング時間、物体の到着確率及びロボットの実行時間(実時間ハードウェア制約)の不確実性によって不確実であり得る。
これは、各ロボットに対する物体割り当て決定に影響を与えることがあり、このような不確実性下で対象を適応的に選択するようにエージェントを学習する強化学習アルゴリズムを提供することができる。
したがって、強化学習アルゴリズムは、ピックアンドプレイス周期時間を最小化し、選択した物体の数を最大化するなどの様々な側面を満たし得るようにシステムを制御する強化学習エージェント120の学習がなされ得るようにする。
制御エンジン130は、アクションに基づいてロボット200、200a、200bが動くように制御し、当該ロボット200、200a、200bの動きによる経路情報を抽出して提供する構成であり、ロボット制御システム(ROS)を含んで構成されてよい。
ここで、ロボット200、200a、200bの動きによる経路情報は、例えば、コンベヤーベルト300に沿って移動する物体400をピックアンドプレイスする実際環境でロボット200、200a、200bが動いた経路であってよい。
また、ロボット制御システム(ROS)は、ロボット操作と経路プランニング(Path Planning)などを用いてシミュレーター上でロボットの動きが適用され得るようにし、ロボット制御システムを用いて制御される動作を、シミュレーションの他に実際環境においても適用可能にする。
また、ロボット200、200a、200bの動きによる経路情報は、あらかじめ保存されたシミュレータープログラム上でロボット200、200a、200bが動いた経路であってよい。
また、制御エンジン130は、あらかじめ設定されたロボット200、200a、200bの経路計画情報を用いてロボット(200、200b、200b)が動作するように制御できる。
また、制御エンジン130は、マニピュレーターのための統合ライブラリーであるMoveltパッケージを用いて、開放型モーションライブラリー(Open Motion Planning Library)を使用して経路を生成できる。
すなわち、制御エンジン130は、初期関節角度と目標関節角度間の有効な経路(例えば、滑らかで衝突のない経路)を検索する。
また、マニピュレーターは、動くコンベヤーベルトに沿って配置され、ピックアンドプレイス作業を反復して行うロボットであってよい。
また、制御エンジン130は、現在位置からピッキング位置まで及びピッキング位置から配置位置までの長い経路を生成する代わりに、それぞれ4個の計画段階に該当する4個の経路を生成できる。
すなわち、制御エンジン130は、現在位置から、例えば、ロボットの把持部が対象物体400上にある待機位置(又は、同一の位置)までの経路を生成する「事前把握過程」と、物体が到着すると、待機位置からパーキング位置まで経路を生成する「把握過程」と、把持部を待機位置に再び持ち上げる経路を生成する「ピックアップ過程」と、待機位置から配置位置まで経路を生成する「プレイス過程」によって4個の軌跡を獲得することができる。
環境140は、単一ロボット環境であるか或いは多重ロボット環境であってよい。
コンベヤーベルト300は、一定方向に沿って整列され、任意の幅(例えば、30cm)を有してよく、ロボット200、200a、200bは、幅に沿って全ての領域に到達できる。
物体400は、調節可能なコンベヤーベルト300の速度に従う速度でコンベヤーベルト300の一側(例えば、右側)から始まり、新しい物体は、任意の位置と時間間隔をおいてランダム(無作為)に到着してよい。
また、物体400は、容易に摘み取り可能に一定大きさのキューブ形態で構成されてよい。
次に、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習方法を説明する。
図5は、本発明の一実施例に係るピックアンドプレイスシステムのための深層強化学習方法を説明するためのフローチャートであり、図6は、図5の実施例に係るピックアンドプレイスシステムのための深層強化学習方法のエピソード設定過程を説明するためのフローチャートである。
図2~図6を参照すると、本発明の一実施例は、ピックアンドプレイスシステムのための深層強化学習方法は、強化学習エージェント120が、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジン110に要請すると、レンダリングエンジン110が制御エンジン130に状態情報と報酬情報を要請して収集(S100)する。
また、S100段階で収集される情報は、一つ以上のロボット200、200a、200bのパーキング位置と配置位置間の経路を含むロボット200、200a、200bの動き情報であってよい。
また、S100段階で収集された状態情報と報酬情報は強化学習エージェント120に提供され、強化学習エージェント120は、状態情報と報酬情報に基づいて、ロボット200、200a、200bの動きが最適化するようにアクションを設定(S200)する。
ここで、アクションは、強化学習エージェント120が、連続した個体数によってn個の選択項目の個別集合からアクションを取り込むことができ、個体を選択した後、現在個体位置、ベルト速度及び現在関節角度などに基づいて、選択した位置を計算することができる。
また、S200段階で、強化学習エージェント120は、コンベヤーベルト300が作動しながら動く物体400に対してロボット200、200a、200bがピックアンドプレイス動作を行う環境140で、どの物体400を摘まむかを選択し、成功的に摘んだ物体の個数が目標に到達することを、1回のエピソードとして設定する。
また、S200段階で、強化学習エージェント120は、ピックアンドプレイスを行うロボット200、200a、200bの現在状態とコンベヤーベルト300上で選択可能な物体400の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定する。
すなわち、特定ロボットに対するアクション要請を受信(S210)すると、ロボットの現在状態と選択可能情報に基づいてアクションを設定(S220)し、強化学習を行うこともできる。
また、S200段階で、強化学習エージェント120は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うこともできる。
続いて、レンダリングエンジン110は、S200段階で決定されたアクションを受信して制御エンジン130に出力(S300)する。
制御エンジン130は、S200段階で生成されたアクションに基づいてロボット200、200a、200bが動くように制御(S400)する。
S400段階で、制御エンジン130は、アクションに基づくロボット200、200a、200bの動作が実際環境で連動されたロボット200、200a、200bが動作するように制御し、それに対応して動いた経路(又は、軌跡)を抽出することができる。
また、S400段階で、制御エンジン130は、あらかじめ保存されたシミュレータープログラム上でアクションに基づいてロボット200、200a、200bが動くように制御し、それに対応する動き経路を抽出することもできる。
また、S400段階は、ロボット200、200a、200bの経路情報がレンダリングエンジン110に提供され、レンダリングエンジン110は、ロボット200、200a、200bの動きによる経路に基づいてシミュレーションする過程を行うことができる。
S400段階のシミュレーションによってレンダリングエンジン110は、物体の位置が変わるに従って物体を成功的に摘んだ場合と、ロボットの経路を計画したが、物体を摘むことができなかった場合とに対する報酬を区分して強化学習エージェント120に提供する。
次は、フレームワークの検証のためにベルト速度、配置、及び図3のようにロボット200、200a、200bの個数の様々な構成によってエージェントの動作を分析した実験結果である。
10個の個体を選択した後、総作業時間を計算したメトリック(Metric)を、フレームワークの評価に使用した。
表1は評価結果であり、3つの基準アルゴリズムに対する提案アルゴリズムの総作動時間を示す。
ここで、ランダムは、無作為に個体を選択することであり、FSFP(First See First Pick)は、常に、観察可能な個体目録から一番目の個体を選択することであり、SP(Shortest Path)は、ロボットから最も近い個体を選択することである。
一つのロボットシステムで構成されたアルゴリズムによって訓練されたエージェントは、全ての状況に適応しようと試み、その性能は、ランダム、FSFP、SPに比べてそれぞれ、15%、2.9%、2.9%向上したことが分かる。
また、ハードウェアの制約とプランナーのコンピューティング時間によって変わる経路計画を規則ベースアルゴリズムが考慮しない事実で改善され得る。
また、強化学習ベースアルゴリズムは、最も短いピックアンドプレイス時間周期を生成する可能性が高い個体を選択するようにエージェントを学習させ、ベルト速度にかかわらず、ベルト速度を上げると、ピックアンドプレイス時間が短縮し得る。
これは、低いベルト速度ではなく高いベルト速度で到着した物体を待つのに相対的に時間がかからないためである。
また、配置位置はエージェントの行動にも影響を与えることができる。
特に、配置がロボットの左側にある場合に、エージェント動作は常に、配置に最も近い最左側の個体(例えば、配置位置に対する最短経路)を選択するFSFPエージェントに収斂する。
また、ロボットの右側に配置されたエージェントは、FSFPとSPとの混合方策を学習し、特に、一番目の決定段階でエージェントは一番目に到着した個体(FSFP動作)を選択し、次の決定段階では、SPエージェントの動作に最も近い個体(一般に、二番目又は三番目の個体)を選択する。
複数のロボットシステムを用いると、ロボット数を増やし、ピックアンドプレイス時間が減少し得る。
したがって、実時間環境でロボット運営体制(ROS)を用いてピックアンドプレイス関連決定を下すために強化学習を適用できるようにシミュレーション学習フレームワークを構成して、様々なハードウェアと実時間制約を満たす安定した経路モーションを生成することができる。
また、行動ベースシステムを活性化し、コンベヤーベルト基盤システムの妥当性と拡張性が確認でき、強化学習アルゴリズムを用いるためにフレームワークを様々なロボットシステムに拡張できる。
また、シミュレーション上の不確実性と動く物体を考慮することによって、システムに対するより現実的な環境を改善することが可能になる。
上記のように、本発明の好ましい実施例を参照して説明したが、当該技術分野における熟練した当業者であれば、添付する特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更可能であることが理解できよう。
また、本発明の特許請求の範囲に記載の図面番号は、説明の明瞭性と便宜のために記載したものに過ぎず、それらに限定されることはなく、実施例を説明する過程において、図面上の線の厚さや構成要素のサイズなどは、説明の明瞭性と便宜のために誇張して示されることもある。
また、上述の用語は、本発明での機能を考慮して定義された用語であり、それらはユーザ、運用者の意図又は慣例によって変更可能であるので、それらの用語に対する解釈は、本明細書全般ににわたる内容に基づいて下されるべきであろう。
また、明示的に図示又は説明されなくとも、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の記載事項から、本発明に係る技術的思想を含む様々な形態の変形が可能であることは明らかであり、それらも本発明の権利範囲に属する。
また、添付の図面を参照して説明された上記の実施例は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲はそれらの実施例に限定されない。
100:強化学習装置
110:レンダリングエンジン
111:コア部
112:ROS #
113:ML-エージェント
114:WebGL
120:強化学習エージェント
130:制御エンジン
140:環境
200、200a、200b:ロボット
300:コンベヤーベルト
400:物体

Claims (9)

  1. 提供されたアクション(Action)に対して複数のロボット(200、200a、200b)のパーキング位置と配置位置間の経路を要請し、受信した前記複数のロボット(200、200a、200b)の動きによる経路に基づいてシミュレーションを行い、強化学習に用いられる状態(State)情報と報酬(Reward)情報を提供するレンダリングエンジン(110)
    前記レンダリングエンジン(110)から提供された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行って前記複数のロボット(200、200a、200b)の動きが最適化するようにアクションを決定する強化学習エージェント(120)と、
    前記アクションに基づいて前記複数のロボット(200、200a、200b)が動くように制御し、前記レンダリングエンジン(110)の要請に対応して前記複数のロボット(200、200a、200b)の動きによる経路情報を前記レンダリングエンジン(110)に提供する、前記レンダリングエンジン(110)と分離した制御エンジン(130)
    を含み、
    前記強化学習エージェント(120)は、前記複数のロボット(200、200a、200b)の現在状態と選択可能な物体400の情報によって、前記複数のロボット(200、200a、200b)のうちの特定ロボットに任意の物体を把持するかを割り振るアクションを決定し、
    前記複数のロボット(200、200a、200b)の動きによる経路情報は、実際環境で前記複数のロボット(200、200a、200b)が動いた経路及びあらかじめ保存されたシミュレータプログラム上で前記複数のロボット(200、200a、200b)が動いた経路のいずれか一つであり、
    前記レンダリングエンジン(110)は、前記レンダリングエンジン(110)と前記制御エンジン(130)とを連動可能とするロボット制御システムを含み、
    前記ロボット制御システムは、前記複数のロボット(200、200a、200b)の動作を前記実際環境または、前記シミュレータプログラム上で適用可能とする情報を前記制御エンジン(130)に送信する、
    ピックアンドプレイスシステムのための深層強化学習装置。
  2. 前記レンダリングエンジン(110)は、ウェブ(Web)を通じて視覚化する応用プログラムがさらに設置されたことを特徴とする、
    請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
  3. 前記強化学習エージェント(120)は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
  4. 前記強化学習エージェント(120)は、シミュレーション上の不確実性と動く物体400を考慮するためのLSTM(Long Short Term Memory)レイヤを備えたことを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
  5. 前記強化学習エージェント(120)は、最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
  6. a)強化学習エージェント(120)が、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジン(110)に要請して収集する段階
    b)強化学習エージェント(120)が、前記収集された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行って複数のロボット(200、200a、200b)の動きが最適化するようにアクションを決定する段階
    c)前記レンダリングエンジン(110)が決定されたアクションを出力すると、前記レンダリングエンジン(110)と分離した制御エンジン(130)が前記アクションに基づいて前記複数のロボット(200、200a、200b)が動くように制御する段階と、
    d)前記レンダリングエンジン(110)が前記複数のロボット(200、200a、200b)の経路情報を受信し、動きによる経路に基づいてシミュレーションを行う段階
    を含み、
    前記b)段階は、前記複数のロボット(200、200a、200b)の現在状態と選択可能な物体400の情報によって、前記複数のロボット(200、200a、200b)のうちの特定ロボットに任意の物体を把持するかを割り振るアクションを決定し、
    前記c)段階は、前記制御エンジン(130)が実際環境で前記複数のロボット(200、200a、200b)及びあらかじめ保存されたシミュレータプログラム上で前記複数のロボット(200、200a、200b)が動くように制御し、それに対応する動き経路を抽出し、
    前記複数のロボット(200、200a、200b)の動きによる経路情報は、前記実際環境で前記複数のロボット(200、200a、200b)が動いた経路及びあらかじめ保存された前記シミュレータプログラム上で前記複数のロボット(200、200a、200b)が動いた経路のいずれか一つであり、
    前記レンダリングエンジン(110)は、前記レンダリングエンジン(110)と前記制御エンジン(130)とを連動可能とするロボット制御システムを含み、
    前記ロボット制御システムは、前記複数のロボット(200、200a、200b)の動作を前記実際環境または、前記シミュレータプログラム上で適用可能とする情報を前記制御エンジン(130)に送信する、
    ピックアンドプレイスシステムのための深層強化学習方法。
  7. 前記a)段階で収集される情報は、前記複数のロボット(200、200a、200b)のパーキング位置と配置位置間の経路を含む前記複数のロボット(200、200a、200b)の動き情報であることを特徴とする、請求項に記載のピックアンドプレイスシステムのための深層強化学習方法。
  8. 前記b)段階は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことを特徴とする、請求項に記載のピックアンドプレイスシステムのための深層強化学習方法。
  9. 前記b)段階は、強化学習エージェント(120)が最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することを特徴とする、請求項に記載のピックアンドプレイスシステムのための深層強化学習方法。
JP2022110447A 2021-08-05 2022-07-08 ピックアンドプレイスシステムのための深層強化学習装置及び方法 Active JP7398830B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210103263A KR102346900B1 (ko) 2021-08-05 2021-08-05 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법
KR10-2021-0103263 2021-08-05

Publications (2)

Publication Number Publication Date
JP2023024296A JP2023024296A (ja) 2023-02-16
JP7398830B2 true JP7398830B2 (ja) 2023-12-15

Family

ID=79342648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022110447A Active JP7398830B2 (ja) 2021-08-05 2022-07-08 ピックアンドプレイスシステムのための深層強化学習装置及び方法

Country Status (3)

Country Link
US (1) US20230040623A1 (ja)
JP (1) JP7398830B2 (ja)
KR (1) KR102346900B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102464963B1 (ko) * 2022-05-25 2022-11-10 주식회사 애자일소다 데이터 기반의 물체 위치 최적화를 위한 강화학습 장치
KR102458105B1 (ko) * 2022-06-21 2022-10-25 주식회사 애자일소다 다중 에이전트 기반의 경로 설정 강화학습 장치 및 방법

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157571A (ja) 2000-11-20 2002-05-31 Fujitsu Ltd 問題解決器、及び記憶媒体
JP2010207989A (ja) 2009-03-11 2010-09-24 Honda Motor Co Ltd 対象物の把持システム及び同システムにおける干渉検出方法
JP2012111029A (ja) 2010-11-19 2012-06-14 Fanuc Robotics America Corp 3次元ロボットワークセルデータの表示システム、表示方法及び表示装置
JP2013000860A (ja) 2011-06-20 2013-01-07 Yaskawa Electric Corp ピッキングシステム
JP2016516224A (ja) 2013-02-18 2016-06-02 クゥアルコム・インコーポレイテッドQualcomm Incorporated グラフィックス処理ユニットのためのハードウェアによるコンテンツ保護
JP2017030135A (ja) 2015-07-31 2017-02-09 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
US20180129974A1 (en) 2016-11-04 2018-05-10 United Technologies Corporation Control systems using deep reinforcement learning
WO2018110314A1 (ja) 2016-12-16 2018-06-21 ソニー株式会社 情報処理装置及び情報処理方法
JP2018126802A (ja) 2017-02-06 2018-08-16 ファナック株式会社 ワークの取り出し動作を改善するワーク取り出し装置およびワーク取り出し方法
JP2019219981A (ja) 2018-06-21 2019-12-26 株式会社日立製作所 施策探索装置、方法、およびプログラム
WO2020009139A1 (ja) 2018-07-04 2020-01-09 株式会社Preferred Networks 学習方法、学習装置、学習システム及びプログラム
JP2020044638A (ja) 2018-09-21 2020-03-26 トヨタ自動車株式会社 制御装置、その処理方法及びプログラム
JP2020110894A (ja) 2019-01-16 2020-07-27 株式会社エクサウィザーズ 学習済モデル生成装置、ロボット制御装置、及び、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3834088B2 (ja) * 1995-11-10 2006-10-18 ファナック株式会社 複数のロボットにトラッキング動作を行なわせるための視覚センサ・ロボットシステム
JP6721785B2 (ja) 2016-09-15 2020-07-15 グーグル エルエルシー ロボット操作のための深層強化学習
JP2020034994A (ja) * 2018-08-27 2020-03-05 株式会社デンソー 強化学習装置
JP6904327B2 (ja) * 2018-11-30 2021-07-14 オムロン株式会社 制御装置、制御方法、及び制御プログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157571A (ja) 2000-11-20 2002-05-31 Fujitsu Ltd 問題解決器、及び記憶媒体
JP2010207989A (ja) 2009-03-11 2010-09-24 Honda Motor Co Ltd 対象物の把持システム及び同システムにおける干渉検出方法
JP2012111029A (ja) 2010-11-19 2012-06-14 Fanuc Robotics America Corp 3次元ロボットワークセルデータの表示システム、表示方法及び表示装置
JP2013000860A (ja) 2011-06-20 2013-01-07 Yaskawa Electric Corp ピッキングシステム
JP2016516224A (ja) 2013-02-18 2016-06-02 クゥアルコム・インコーポレイテッドQualcomm Incorporated グラフィックス処理ユニットのためのハードウェアによるコンテンツ保護
JP2017030135A (ja) 2015-07-31 2017-02-09 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
US20180129974A1 (en) 2016-11-04 2018-05-10 United Technologies Corporation Control systems using deep reinforcement learning
WO2018110314A1 (ja) 2016-12-16 2018-06-21 ソニー株式会社 情報処理装置及び情報処理方法
JP2018126802A (ja) 2017-02-06 2018-08-16 ファナック株式会社 ワークの取り出し動作を改善するワーク取り出し装置およびワーク取り出し方法
JP2019219981A (ja) 2018-06-21 2019-12-26 株式会社日立製作所 施策探索装置、方法、およびプログラム
WO2020009139A1 (ja) 2018-07-04 2020-01-09 株式会社Preferred Networks 学習方法、学習装置、学習システム及びプログラム
JP2020044638A (ja) 2018-09-21 2020-03-26 トヨタ自動車株式会社 制御装置、その処理方法及びプログラム
JP2020110894A (ja) 2019-01-16 2020-07-27 株式会社エクサウィザーズ 学習済モデル生成装置、ロボット制御装置、及び、プログラム

Also Published As

Publication number Publication date
US20230040623A1 (en) 2023-02-09
JP2023024296A (ja) 2023-02-16
KR102346900B1 (ko) 2022-01-04

Similar Documents

Publication Publication Date Title
JP7398830B2 (ja) ピックアンドプレイスシステムのための深層強化学習装置及び方法
Billard et al. Learning from humans
Stulp et al. Hierarchical reinforcement learning with movement primitives
Chen et al. Deep reinforcement learning to acquire navigation skills for wheel-legged robots in complex environments
JP6671694B1 (ja) 機械学習装置、機械学習システム、データ処理システム及び機械学習方法
Franceschetti et al. Robotic arm control and task training through deep reinforcement learning
Murali et al. Deployment and evaluation of a flexible human–robot collaboration model based on AND/OR graphs in a manufacturing environment
Maldonado-Ramirez et al. A visual path-following learning approach for industrial robots using DRL
Dimeas et al. Towards progressive automation of repetitive tasks through physical human-robot interaction
Mayr et al. Skill-based multi-objective reinforcement learning of industrial robot tasks with planning and knowledge integration
JP2022061022A (ja) 力及びトルク誘導ロボット組立のための技術
CN114932555A (zh) 机械臂协同作业系统及机械臂控制方法
Arana-Arexolaleiba et al. Transferring human manipulation knowledge to industrial robots using reinforcement learning
Martins et al. rsoccer: A framework for studying reinforcement learning in small and very small size robot soccer
WO2022013933A1 (ja) 制御装置、制御方法及び記憶媒体
Khalifa et al. New model-based manipulation technique for reshaping deformable linear objects
Oguz et al. Hybrid human motion prediction for action selection within human-robot collaboration
Scheiderer et al. Effects of domain randomization on simulation-to-reality transfer of reinforcement learning policies for industrial robots
Beik Mohammadi et al. Mixed-reality deep reinforcement learning for a reach-to-grasp task
US20230311323A1 (en) Methods and systems for improving controlling of a robot
Lemos et al. Navigation robot training with Deep Q-Learning monitored by Digital Twin
Liu et al. An augmented reality-assisted interaction approach using deep reinforcement learning and cloud-edge orchestration for user-friendly robot teaching
Gomes et al. Deep Reinforcement learning applied to a robotic pick-and-place application
US11921492B2 (en) Transfer between tasks in different domains
Nambiar et al. Automation of unstructured production environment by applying reinforcement learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231128

R150 Certificate of patent or registration of utility model

Ref document number: 7398830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150