JP7301034B2 - 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 - Google Patents

準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 Download PDF

Info

Publication number
JP7301034B2
JP7301034B2 JP2020159841A JP2020159841A JP7301034B2 JP 7301034 B2 JP7301034 B2 JP 7301034B2 JP 2020159841 A JP2020159841 A JP 2020159841A JP 2020159841 A JP2020159841 A JP 2020159841A JP 7301034 B2 JP7301034 B2 JP 7301034B2
Authority
JP
Japan
Prior art keywords
policy
function
controller
state
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020159841A
Other languages
English (en)
Other versions
JP2021060988A (ja
JP2021060988A5 (ja
Inventor
ジャー・デベシュ
ラフナサン・アルビンド
ロメレス・ディエゴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2021060988A publication Critical patent/JP2021060988A/ja
Publication of JP2021060988A5 publication Critical patent/JP2021060988A5/ja
Application granted granted Critical
Publication of JP7301034B2 publication Critical patent/JP7301034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/047Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators the criterion being a time optimal performance criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Feedback Control In General (AREA)

Description

発明の分野
本発明は、概して、強化学習のためのポリシーを最適化するためのシステムおよび方法に関し、より具体的には、準ニュートン信頼領域法を用いるポリシー最適化のためのシステムおよび方法に関する。
発明の背景
強化学習(RL)は、逐次的な意思決定問題を扱う学習フレームワークであり、エージェントまたは意思決定部は、(未知の)環境と対話することによって、長期間の報酬を最適化するためのポリシーを学習する。各ステップにおいて、RLエージェントは、その行動の性能に関する評価的フィードバック(報酬またはコストと呼ばれる)を得て、それにより、後続の行動の性能を改善(最大化または最小化)することを可能にする。最近の研究により、これらのアルゴリズムの、コンピュータゲームのようなさまざまな領域における顕著な成功がもたらされた。
強化学習アルゴリズムは、2つのカテゴリ-モデルベースの方法およびモデルフリーの方法に大別することができる。モデルベースの強化学習(MBRL)技術は、一般に、システムのために、タスクに依存しない予測モデルを学習するので、データ効率的であると考えられている。次いで、学習されたモデルを用いて、システムのために、ポリシーを、確率的制御手法(End-to-End training of deep visuomotor policies by Levine et. al., The Journal of Machine Learning Research, vol-17, number-1, pages- 1334-1373, year-2016参照)を用いて合成する。しかしながら、これらの方法は一般にトレーニングが非常に困難であり、したがって低性能のポリシーをもたらす。モデルフリー技術は、以下の2つのグループ:ポリシーを学習しながら基底のマルコフ決定過程(MDP)に対する価値関数が合成される価値ベースの手法、および関数近似器を用いてシステムのための累積報酬を直接最大化するポリシー勾配アルゴリズムに分類される。
ポリシー勾配アルゴリズムは、累積報酬を直接最適化することができ、ニューラルネットワークを含む多くの異なる非線形関数近似器と共に用いることができる。このため、ポリシー勾配アルゴリズムは、多くの異なる用途にとって魅力があり、広く利用されている。しかしながら、ポリシーの性能の単調な改善、最適化中に正しい学習率(またはステップサイズ)を選択すること等を含む、いくつかの問題が依然として未解決のままである。アルゴリズムの、より良いサンプル効率のためには、ポリシーの単調な改善が重要である。これらのアルゴリズムの、より良いサンプル効率は、データ収集が高価であり得る物理システムおよび他の領域におけるRLのためのポリシー勾配アルゴリズムの使用を可能にするであろう。
ポリシー勾配のための最近の方法の大部分は、ポリシーを表すためにディープニューラルネットワーク(DNN)を関数近似器として用いている。トレーニングの目的は、対応するポリシーが最適な性能を達成するように、DNNのパラメータの最適なセットを見つけることである。性能は、あるポリシーを用いながらシステムによって蓄積される報酬によって測定される。これは、反復トレーニングプロセスを用いて達成され、現在のポリシーは、データを収集するためにエピソード様式のデータ上において実現され、その後、勾配降下法を用いてDNNに対するパラメータの新たなセットが計算される。勾配降下法を用いてポリシーの単調な改善を確実にすることは、非常に困難な問題である。いくつかの最近の方法は、反復トレーニングプロセスの間にDNNの新たなパラメータを計算するために信頼領域最適化定式を用いて、ポリシー勾配アルゴリズムの性能における単調な改善のための数学的定式化を提案してきた(Trust Region Policy Optimization by Schulman et. al., International Conference on Machine Learning, 2015, pages- 1889-1897参照)。しかしながら、提案される方法は、候補探索方向を決定するために、目的関数の線形モデルおよび制約の二次モデルに依存する。単純なラインサーチは、解への進展を確実にするステップサイズを得るために採用される。結果として、これは、スケーリングされた勾配降下アルゴリズムをもたらし、信頼領域アルゴリズムではない。より重要なことに、これらの方法は、信頼領域フレームワークによって提供される柔軟性および収束保証を継承しない。
従って、目的関数の曲率情報を組み込むことができる制約された最適化のための改善された信頼領域法を用いてポリシー勾配アルゴリズムのためのステップを見つけるための改善されたアルゴリズムが必要である。本開示は、ポリシーの性能における単調な改善のためにより良いポリシーを見つけることができる、ポリシー最適化中のステップを計算するための準ニュートン法を提示する。
発明の概要
本開示のいくつかの実施形態は、コンピュータで実現される学習方法が、システムを制御する制御ポリシーを最適化するために提供される、という認識に基づく。そのようなシステムのいくつかの例は、HVACシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどのような機械的システムを含むシステムであり得る。この場合、本方法は、タスク特化ポリシーによって動作中のシステムの状態を受信することと、制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化することと、現在の制御ポリシーを用いて、現在の状態、行動、および次の状態のタプルを含んでもよいデータを収集することと、現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定することと、BFGS法を用いて目的関数のヘッシアンを計算することと、二次モデルが元の最適化関数をどれだけ良好に近似することができるかに基づいて信頼領域半径が反復的に更新される準ニュートン信頼領域法(QNTPM)を用いて、現在のポリシーパラメータと更新されたポリシーパラメータとの間のKLダイバージェンスに関する制約を用いてステップを計算するためのDogleg法によって計算されたステップを用いて、現在の制御ポリシーを反復的態様で更新することと、現在の制御ポリシーの利点関数の値の収束基準に基づいて、システムを制御するために、最適な制御ポリシーを決定することとを含んでもよい。
また、本発明の別の実施形態は、制御ポリシーを最適化することによりシステムを制御するためのコントローラ(制御システム)を提供することができる。このシステムは、センサを介してシステムのタスクコマンドおよび状態を受信するように構成されたインターフェースと、初期化器、ポリシー収集器、推定器、エージェントおよびポリシー更新プログラム、Dogleg法、ならびに、目的のヘッシアンを推定するための準ニュートン近似プログラムを含むコンピュータ実行可能プログラムを記憶するメモリと、メモリと関連して、制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化し、現在の制御ポリシーを用いて、状態に関するデータを収集し、現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定し、BFGS法を用いて目的関数のヘッシアンを計算し、二次モデルが元の最適化関数をどれだけ良好に近似することができるかに基づいて信頼領域半径が反復的に更新される準ニュートン信頼領域法(QNTPM)を用いて、現在のポリシーパラメータと更新されたポリシーパラメータとの間のKLダイバージェンスに関する制約を用いてステップを計算するためのDogleg法によって計算されたステップを用いて、現在の制御ポリシーを反復的態様で更新し、現在の制御ポリシーの利点関数の値の収束基準に基づいて、システムを制御するために、最適な制御ポリシーを決定するように構成されるプロセッサとを含んでもよい。
本発明の別の実施形態では、準ニュートン近似プログラムは、制限付きメモリバージョンを用いて、目的のヘッシアンの推定値を記憶する。これは、制限付きメモリ準ニュートン近似と呼ばれる。制限付きメモリ準ニュートン近似は、数個のベクトルの外積の組の和を用いて目的関数のヘッシアンを推定し、それによってかなりのメモリを節約する。
図面を参照して、ここに開示される実施形態についてさらに説明する。示される図面は、必ずしも一定の縮尺ではなく、ここに開示される実施形態の原理を示すにあたり、概して強調されている。
本発明の実施形態による、準ニュートン信頼領域ポリシー最適化に基づいて機械システム(デバイス、例えばロボット)を制御するための制御システム(コントローラ)を示す図である。 本発明の実施形態に係るコントローラ(制御システム)を用いたデータ処理フローを示す図である。 本発明の実施形態による、提案された準ニュートン信頼領域最適化に基づくシステムの一例を示す図である。 本開示の実施形態による、強化学習の一般的な概念を示す図である。 本発明の実施形態による、エージェントが学習しようとしているポリシーの数学的表現を示す図である。 本開示の実施形態による、準ニュートン信頼領域ポリシー最適化の異なるステップを詳述するフローチャートを示す図である。 本開示の実施形態による、Dogleg法を用いて信頼領域ポリシー最適化問題のステップを計算するための準ニュートン信頼領域法の異なるステップを提供するフローチャートを示す図である。 本発明の幾つかの実施形態による、信頼領域最適化のExact and Dogleg近似を示す図である。 本発明の実施形態による、信頼領域最適化のためのExact and Dogleg近似を記述するアルゴリズムを示す図である。 本発明の実施形態による信頼領域最適化のためのQNTRMを記述するアルゴリズムを示す図である。 本発明の実施形態による信頼領域最適化のためのexact and QNPRTOを記述するアルゴリズムを示す図である。 本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。 本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。 本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。 本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。 最適化方法のサンプル効率を示すために本発明に示されるベンチマーク問題の次元またはサイズを示す図である。
上記で識別された図面は、ここに開示される実施形態を示しているが、議論で注記されるように、他の実施形態も企図される。本開示は、限定ではなく代表として例示的な実施形態を提示する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多数の他の修正および実施形態を考案することができる。
好ましい実施形態の詳細な記載
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を制限することを意図していない。むしろ、例示的な実施形態の以下の説明は、1つまたは複数の例示的な実施形態を実施するための可能な説明を当業者に与えるであろう。特許請求の範囲に記載するように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更が企図される。
具体的な詳細が、以下の記載において、実施形態の充分な理解のために与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても、実施形態を実践できることを理解することができる。例えば、開示される主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態で構成要素として示され得る。他の例では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造、および技術は、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明され得る。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。さらに、動作の順序は、配列が変更され得る。プロセスは、その動作が完了したときに終了され得るが、論じられていない、または図に含まれていない追加のステップを有する場合がある。さらに、特に説明されるプロセスにおけるすべての動作が、すべての実施形態において起こり得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはmain関数へのその関数の復帰に対応することができる。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現され得る。手動または自動実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて、実行され得るか、または少なくとも支援され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、機械可読媒体に記憶され得る。プロセッサは必要なタスクを実行し得る。
図1Aは、本発明のいくつかの実施形態による制御システム(コントローラ)100のブロック図を示す。システム100は、キーボード111およびポインティングデバイス/媒体112と接続可能な入力/出力(I/O)インターフェースを有するヒューマンマシンインターフェース(HMI)110と、3Dセンサ(図示せず)と、プロセッサ120と、メモリ140およびプロセッサ120で実行されるアルゴリズムを記憶する記憶装置130と、ローカルエリアネットワークおよびインターネットネットワーク(図示せず)を含むネットワーク190と接続可能なネットワークインターフェースコントローラ150(NIC)と、表示装置565に接続されるディスプレイインターフェース160と、撮像装置175と接続可能である撮像インターフェース170とを含むことができる。NICは、コマンドおよび状態測定データを受信するためにワイヤレス通信を実行するトランシーバ(図示せず)を含み得る。I/Oインターフェースを有するHMI110は、アナログ/デジタルおよびデジタル/アナログ変換器を含むことができる。I/Oインターフェース110を有するHMIは、ワイヤレスインターネット接続またはワイヤレスローカルエリアネットワークを介して他の3Dポイントクラウドディスプレイシステムまたは他のコンピュータと通信することができるワイヤレス通信インターフェースも含み得、複数の3Dポイントクラウドを構築することを可能にする。システム100は、電源(図示せず)を含むことができる。電源は、I/Oインターフェース110を介して外部電源(図示せず)から再充電可能なバッテリであってもよい。用途に応じて、電源はシステム100の外部に配置されてもよい。
システム100は、NIC150に接続されたネットワーク190を介して、音声データを含む電子テキスト/イメージング文書195を受信することができる。記憶装置130は、プログラムコードデータとして記憶装置130に記憶されるDogleg法、準ニュートン信頼領域法(QNTRM)、準ニュートン信頼領域ポリシー最適化(QNTRPO)を含むアルゴリズムモジュール131と、装置制御アルゴリズム132とを含む。モデル131のアルゴリズムは、コンピュータ可読記録媒体(図示せず)に記憶されてもよく、プロセッサ120は、媒体からアルゴリズムをロードすることによって、モデル131~132およびマルチモーダルエンコーダデコーダ200のアルゴリズムを実行することができる。さらに、ポインティングデバイス/媒体112は、コンピュータ可読記録媒体に格納されたプログラムを読み出して実行するモジュールを含んでいてもよい。
図1Bは、本発明の実施形態に係るコントローラ(制御システム)100を用いたデータ処理フローを示す図である。本開示のいくつかの実施形態は、機械103のコントローラ100が特定のコマンドまたはタスク101を達成するように設計され得るという認識に基づく。コントローラ100は、制御信号を実施する機械103に制御信号を送るコンピュータソフトウェアであり、機械の状態はオブザーバ164によって観察される。本開示のいくつかの実施形態は、強化学習アルゴリズム、またはより具体的にはポリシー勾配アルゴリズム105を用いて、機械から得られた動作データ104を用いてコントローラ100のために最適なポリシーを学習することができる、という認識に基づく。特定のタスクまたはコマンドの場合、コントローラは、機械の現在の状態に基づいて制御信号を決定する初期ポリシーで初期化される。機械の状態は、オブザーバによって観察することができる。次いで、この制御信号は機械上で実施され、機械の状態遷移が観察される。現在の状態、制御信号、および次の状態のこのタプルは、コマンドまたはタスクを実行するために新たなポリシーを計算するためにポリシー勾配アルゴリズムによって用いられるデータである。次いで、このプロセスは、ポリシーが安定したポリシー(すなわち、より多くのデータの収集で変わらないもの)に収束するまで繰り返される。
図2は、本発明の実施形態による、提案された準ニュートン信頼領域最適化に基づく制御システムの一例を示す図である。以下では、制御システムをロボットシステム200に適用した例を挙げて説明するが、本発明に係る制御システムおよびコンピュータにより実現される方法はロボットシステムに限定されない。本発明によるいくつかのシステムまたはコンピュータにより実現される方法は、HVACシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどのような機械的システムを含むシステムに導入され得る。
図2のロボットシステム200は、状態測定のためのセンサを具備したロボットマニピュレータと、データを記憶しマニピュレータアームを制御する、コンピュータにより実現されるシステムとを含み得る。マニピュレータアームは、いくつかの剛性リンク217、215、213およびジョイント218、216、214を含むことができる。マニピュレータアームは、外部からシステムに供給されるコマンドまたはタスクを受信するロボット制御システムを用いて制御される。コマンドまたはタスクの例は、マニピュレータを用いて物体212を把持すること、またはグリッパ212によって保持される物体211を用いて組立作業を実行することであり得る。ロボット制御システムは制御信号270をマニピュレータに送信する。制御信号270は、マニピュレータの関節218、216、214の各々に適用されるべきトルク、およびグリッパ212の開閉とすることができる。ロボットシステムの状態は、センサを用いて測定される。これらのセンサは、ロボットの関節218、216、214におけるエンコーダ、ロボットの環境を観察することができるカメラ210、およびグリッパ212の顎に取り付けられ得るいくつかの触覚センサ219を含み得る。センサからの状態測定値は、センサから受信されたデータを記憶するデータ入力/出力ユニット220に送信される。本開示のいくつかの実施形態は、所望のタスクに対する初期制御ポリシーでロボット制御システムを初期化する。制御ポリシーのいくつかのエピソードがロボットシステム上で実現され、センサからの状態測定データがデータ入力/出力システム220において収集される。次いで、このデータは、ロボットシステムの現在のポリシーを更新するためのコンピュータプログラム230を含むソフトウェアによって用いられる。ポリシーを更新するためのプログラムは、Dogleg法を用いてポリシーのパラメータのステップを計算するための準ニュートン信頼領域法(QNTRM)プログラム240であってもよい。次いで、QNTRMによって計算されたこのステップは、計算されたステップを用いてポリシーの更新を実行するプログラム250に渡される。コントローラ更新システム250は、次いで、更新されたポリシーをロボット制御システム260に送信する。このプロセスは、ロボットの制御のための最適なポリシーに達するまで繰り返される。
図3Aは、本開示の実施形態による、強化学習の一般的な概念を示す図である。強化学習(RL)は、シーケンシャルな意思決定問題を扱う学習フレームワークであり、「エージェント」330または意思決定部は、(未知の)環境310と対話することによって長期間の報酬を最適化するようポリシーを学習する。各ステップにおいて、RLエージェントは、環境の観察と共に、その行動340の性能に関する評価フィードバック(報酬またはコストと呼ばれる)350を得て、後続の行動の性能を改善(最大化または最小化)することを可能にする。
図3Bは、本開示の実施形態による、エージェント(図3Aに示す)が学習しようとしているポリシーの数学的表現を示す図である。強化学習のためのポリシー勾配アルゴリズムでは、エージェントのためのポリシーは、パラメータθのセットによってパラメータ化される。また、状態依存制御ポリシー370は、一般にπ_θと表される。パラメータθのセットは、例えば、ディープニューラルネットワークのニューロンの重みを表すことができる。制御ポリシーは、予想される割引報酬360を最大にすることによって見出される。ポリシーは、ポリシーを表す関数近似器のパラメータθの関数であるので、最適なポリシーは、システムに対する予想される割引報酬を最大化するパラメータθを推定することによって見出される。ポリシー勾配アルゴリズムの目的は、好適なアルゴリズムを用いて制御ポリシーπ_θのパラメータθを最適化することである。最適なパラメータθを見つけるために用いられるデファクトアルゴリズムは、収束の条件に達するまで、目的関数の勾配を用いて新たなパラメータのシーケンスを計算する勾配降下である。ポリシー勾配アルゴリズムの目的関数は、予想される割引報酬である。しかしながら、パラメータθを計算するために単純な勾配降下アルゴリズムを用いることは、予想される利得における高い分散、遅い学習など、いくつかの望ましくない結果をもたらす。本開示では、ポリシー更新のためのQNTRPOベースのステップ計算は、より速い学習速度およびより良好なサンプル効率を達成することを可能にする。
図4Aは、本開示の実施形態による、準ニュートン信頼領域ポリシー最適化の異なるステップを詳述するフローチャートを示す。本発明のいくつかの実施形態によれば、システムを制御する制御ポリシーを最適化するためのコンピュータで実現される学習方法は、特定のタスクまたはコマンドに対して動作中のシステムの状態を受信するステップを含むことができる。システムを制御するための初期ポリシーは、まず関数近似器(例えばニューラルネットワーク)で初期化される(410)。この説明の残りの部分では、関数近似器がニューラルネットワークであると仮定する。学習プロセスの目的は、ポリシーによって蓄積される予想される報酬が状態空間全体にわたって最大化されるようにニューラルネットワークのパラメータを最適化することである。システムの状態空間にわたる報酬を推定することは事実上困難であるかもしれないので、ほとんどのアルゴリズムは、現在のポリシーを用いてシステムのいくつかのエピソードにわたって平均報酬を計算することによって、それを近似する。したがって、本開示のいくつかの実施形態は、現在のポリシーを用いてデータを収集するステップ(420)からなる。
現在のポリシーを用いて収集されたデータは、ポリシーの利点関数および状態訪問頻度を推定するために用いられる(430)。本開示は、現在のポリシーと新たなポリシーとの間のKLダイバージェンスを用いて、反復学習プロセス中の変化量を制約する。したがって、本開示のいくつかの実施形態は、現在のポリシーパラメータと新たなポリシーパラメータとの間のKLダイバージェンスを計算するステップ440からなる。なお、ポリシーパラメータは、ポリシー最適化処理の決定変数である。ポリシー勾配アルゴリズムでは、目的関数の推定値は、データを収集し、予想される平均報酬を推定するために用いられるポリシーに応じて変化する。したがって、本開示のいくつかの実施形態は、利点関数、状態訪問頻度、および新たなポリシーを用いて代理報酬関数を推定するステップ450からなる。最適化のための決定変数は代理目的関数に現れる新たなポリシーパラメータであることに留意されたい。
ポリシーは、次のステップにおいて、QNTRMポリシー最適化ステップを用いてポリシーの新たなパラメータを推定することによって更新される(460)。学習の収束基準に達した場合(470)、学習プロセスは終了され、その場合、機械は、次いで、最適なポリシーを用いて最適に制御される(490)。収束基準は、概して、ポリシーの平均報酬の収束に基づく。ポリシー勾配アルゴリズムの平均報酬が定常状態に達すると、学習プロセスは終了される。学習が収束していなければ、更新されたポリシーをステップ480で記憶し、収束するまでプロセス全体を繰り返す。
図4Bは、準ニュートン信頼領域法(QNTRM)を用いてポリシーの新たなパラメータを推定するためのフローチャートを示す。ポリシーの更新に対応する新たなパラメータは、反復方式で計算される。したがって、本開示のいくつかの実施形態は、ステップ461において、反復カウンタ「k」を初期化してもよい。さらに、本開示のいくつかの実施形態は、ステップ462においてステップ計算を終了することができるかどうかをチェックする。本開示におけるポリシー最適化のための提案された方法は、目的関数の曲率情報を利用して、決定変数の新たなセット、すなわちポリシーパラメータを見つける。結果として、本開示のいくつかの実施形態は、ステップ463において、準ニュートン法およびKLダイバージェンス制約の二次近似を用いて目的関数の二次近似を推定する。提案される方法は、信頼領域最適化を実行するための制約として現在のポリシーと新たなポリシーとの間のKLダイバージェンスを用いることに留意されたい。目的関数および制約条件の二次近似は、Dogleg法を用いて信頼領域最適化のステップを計算するために用いられる。本開示のいくつかの実施形態は、ステップ464において、Dogleg法を用いて最適化のステップのサイズおよび方向を計算する。Dogleg法によって計算されたステップを受け入れるかまたは拒絶するかは、関数が、二次近似およびDogleg法によって計算された新たなステップを用いて、目的関数をどれくらい良好に近似するか、のチェックを行うことによる。これは、本開示のいくつかの実施形態のステップ465において実行される。Dogleg法によって計算されたステップが拒絶される場合、信頼領域半径は、関数が信頼領域半径において十分に近似され得ないので、減少させられる。ステップが受け入れられる場合には、信頼領域半径は、最適化のためにより大きなステップをとるように増大されることができる。したがって、本開示のいくつかの実施形態は、ステップ465において、Dogleg法によって計算されるステップを反復様式466で最適化する。この反復は、アルゴリズムの1つのエピソードにおいて収集されたデータを用いてポリシー勾配法の1つのステップを最適化することに留意されたい。
本開示の残りの部分では、ポリシー最適化のためのQNTRMを詳細に記載する。
注釈
Figure 0007301034000001
Figure 0007301034000002
Figure 0007301034000003
Figure 0007301034000004
Figure 0007301034000005
Figure 0007301034000006
図8は、本発明のいくつかの実施形態による、アルゴリズム3として示される準ニュートン信頼領域ポリシー最適化(QNTRPO)を実行するためのアルゴリズムを示す。QNTRPOは、我々がこの論文においてポリシー最適化のために提案する信頼領域アルゴリズムである。このアルゴリズムは、ポリシー反復のすべての反復において計算されるステップにおいてTRPOと異なる。この論文の完全性のため、これをアルゴリズム3として提示する。QNTRPOとTRPOとの間の唯一の相違は、信頼領域最適化問題が解決される方法であることに留意されたい(アルゴリズム3の線4参照)。元のTRPO定式化において、アルゴリズム3における線4は、前述のようなスケーリングされた勾配法を用いて実行されることに留意されたい。これは、提案されるアルゴリズムとTRPOにおいて提案されるアルゴリズムとの間の主な相違である。QNTRMは反復手順であり、アルゴリズム3の反復毎のステップは、QNTRMのK個のステップにわたって反復することによって計算されることに留意されたい(アルゴリズム2参照)。
本発明の別の実施形態では、行列Bkは、二乗行列をもたらすベクトルの外積の集合の和として表され得る。そのようなベクトルの数は、行列の次元よりもはるかに少なく、それによって、そのような表現を記憶するのに必要なメモリを低減する。この近似手法は、制限付きメモリ準ニュートン近似を用いて行うことができる。これは、準ニュートン近似の代わりに制限付きメモリ準ニュートン近似が用いられる(QNTRM)の別の実施形態につながる。さらに、制限付きメモリ準ニュートン近似は、アルゴリズム1のステップの計算において必要とされる線形系の反復解において用いられる行列ベクトル積に容易に役立つ。
実験結果
この節において、我々は、オープンAI Gymベンチマークからの連続制御のためにいくつかの異なる環境を用いたポリシー最適化についての実験結果を提示する。これらの実験では、以下の質問に解答することを試みる:
1.QNTRPOは、ある範囲のタスクにわたってTRPOよりも良好な学習率(サンプル効率)を一貫して達成できるか。
2.QNTRPOは、平均報酬に関して、ある範囲のタスクにわたってTRPOよりも良好な性能を達成することができるか。
以下において、本発明者らは、いくつかの連続制御タスクにおいて本発明者らのアルゴリズムを評価することによって、これらの2つの質問に解答することを試みる。
図9A、図9B、図9Cおよび図9Dは、本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーションの結果である。
特に、本発明者らは、Mujoco物理シミュレータにおける4つの異なる連続制御環境に関する結果を調査し、提示する。我々は、さまざまな動力学および難易度の4つの移動タスク、すなわち、ヒューマノイド、ハーフチーター、ウォーカー、ホッパーを実施した。これらのタスクのすべてに対する目標は、可能な限り迅速に前進することである。これらのタスクは、ロボットの高い自由度のため、学習が難しいことが証明されている。極小値で行き詰まることなく前方に移動することを学習するためには、大量の探索が必要である。初期学習段階の間、アルゴリズムは極小値で非常に容易に行き詰まり、なぜならば、制御はペナルティを科せられ、ロボットは倒れることを回避しなければならないからである。図10は、最適化方法のサンプル効率を示すために本発明において示されるベンチマーク問題の次元またはサイズを示す。これらのタスクの状態および行動次元の一覧を図10に示す。
さらに、本開示による実施形態は、マルチモーダル融合モデルを実行するための有効な方法を提供し、したがって、マルチモーダル融合モデルを用いる方法およびシステムの使用は、中央処理ユニット(CPU)の使用、電力消費、および/またはネットワーク帯域幅使用を低減することができる。
本開示の上記の実施形態は、多くの方法のいずれかで実現することができる。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実現され得る。ソフトウェアで実現する場合、ソフトウェアコードは、単一のコンピュータに提供されるか、または複数のコンピュータに分散されるかに関わらず、任意の好適なプロセッサまたはプロセッサの集合上で実行することができる。そのようなプロセッサは、1つまたは複数のプロセッサが集積回路構成要素にある集積回路として実現され得る。しかしながら、プロセッサは、任意の好適なフォーマットの回路を用いて実現されてもよい。
また、本明細書で概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか1つを用いる1つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。さらに、そのようなソフトウェアは、いくつかの好適なプログラミング言語および/またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークもしくは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、さまざまな実施形態において所望に応じて組み合わせるか、または分散させることができる。
さらに、本開示の実施形態は、一例が提供された方法として具現化され得る。本方法の一部として実行される動作は、任意の好適な態様で順序付けられてもよい。したがって、例示的な実施形態では順次動作として示されているが、いくつかの動作を同時に実行することを含み得る、示されたものとは異なる順序で動作が実行される実施形態が構築され得る。さらに、請求項において請求項の要素を修飾する第1、第2などの順序用語の使用は、それ自体が、1つのクレーム要素の別のクレーム要素に対する任意の優先度、先行度、または方法の行為が実行される時間的順序を指すわけではなく、単にラベルとして、ある名称を有する1つの請求項の要素を、同じ名称を有する別の要素から(ただし、順序用語の使用のために)区別し、請求項の要素を区別するために用いられる。
本開示は、いくつかの好ましい実施形態を参照して説明されてきたが、本開示の精神および範囲内で、さまざまな他の適応および修正を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内にあるそのようなすべての変形および修正を網羅することが、特許請求の範囲の局面である。

Claims (27)

  1. システムを制御する制御ポリシーを最適化するための、コンピュータで実現される学習方法であって、
    前記システムに設けられたセンサに接続された入出力インターフェースを介して、ポリシー最適化方法を用いて特定のタスクが学習されるよう動作中のシステムの状態を受信することを備え、
    前記システムの状態は、前記センサによって測定され、
    前記方法は、
    前記制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化することと、
    現在の制御ポリシーを用いて、状態、行動、および次の状態のタプルのデータを収集することと、
    前記現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定することと、
    Kullback-Leiblerダイバージェンス制約(KLダイバージェンス制約)および代理目的関数をポリシーパラメータの関数として推定することと、
    準ニュートン信頼領域ポリシー最適化(QNTPRO)を用いて、前記推定された制約および前記代理目的関数に基づいて、前記現在の制御ポリシーを更新することと、
    前記システムを制御するために、前記更新された現在の制御ポリシーを用いて蓄積された予想される平均報酬に基づいて、最適な制御ポリシーを決定することと、
    前記最適な制御ポリシーに基づいて制御コマンドを生成することと、
    前記制御コマンドの制御信号を前記システムへ送信することによって、前記最適な制御ポリシーに従って前記システムを動作させることとをさらに備える、方法。
  2. 前記収集すること、前記推定すること、および前記更新することは、前記ポリシーの異なるエピソードからの前記平均報酬の値が定常状態に達し、未知の値に収束するまで、反復的に実行される、請求項1に記載の方法。
  3. 利点関数Aπは、状態-行動価値関数Qπおよび状態価値関数Vπによって表される、請求項1に記載の方法。
  4. 前記利点関数は、
    Figure 0007301034000007

    によって表され、式中、sは前記システムの状態であり、aは行動である、請求項3に記載の方法。
  5. 目的関数のヘッシアンを推定するためにBFGS準ニュートン法が用いられる、請求項1に記載の方法。
  6. 大規模問題に対して目的関数のヘッシアンの推定値を近似的に保つためにL-BFGS準ニュートン法が用いられる、請求項1に記載の方法。
  7. QNTPROは、エピソードのための目的関数を最大化するよう、ポリシーパラメータθiを取得する、請求項1に記載の方法。
  8. QNTPROは、最適なステップ方向およびサイズを計算するためにDogleg法を用いる、請求項1に記載の方法。
  9. QNTRPOは、信頼領域法を用いて、前記目的関数の二次近似を用いて反復態様で前記Dogleg法により計算されたステップを受け入れるかまたは拒否する、請求項に記載の方法。
  10. 制御ポリシーを最適化することによってシステムを制御するためのコントローラであって、
    前記システムの設けられたセンサを介して前記システムの行動および状態を受信するように構成されたインターフェースと、
    ポリシー初期化器、ポリシー収集器または記憶部、推定器、エージェントおよびポリシー更新プログラム、目的関数のヘッシアンのための準ニュートン近似プログラム、最適化ステップを計算するためのDogleg法、ならびに前記目的関数のヘッシアン近似を用いてポリシーパラメータの次の推定を見つけるための信頼領域法を含むコンピュータ実行可能プログラムを記憶するメモリと、
    プロセッサとを備え、前記プロセッサは、前記メモリに関連して、
    前記制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化し、
    現在の制御ポリシーを用いて、前記状態に関してデータを収集し、
    前記現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定し、
    準ニュートン信頼領域ポリシー最適化(QNTPRO)を用いて、前記収集されたデータに基づいて、前記現在の制御ポリシーを更新し、
    前記システムを制御するために、最適な制御ポリシーを、前記更新された現在の制御ポリシーを用いて蓄積された平均報酬の値に基づいて決定し、
    前記最適な制御ポリシーに基づいて制御コマンドを生成し、
    前記制御コマンドの制御信号を前記システムへ送信することによって、前記最適な制御ポリシーに従って前記システムを動作させるよう構成される、コントローラ。
  11. 前記データ収集、前記推定、および前記更新は、前記ポリシーのエピソードについての前記平均報酬の値が未知の値において定常状態に達するまで反復的に実行される、請求項10に記載のコントローラ。
  12. 利点関数Aπは、状態-行動価値関数Qπおよび状態価値関数Vπによって表される、請求項10に記載のコントローラ。
  13. 前記利点関数は、
    Figure 0007301034000008

    によって表され、式中、sは前記システムの状態であり、aは行動(または制御信号)である、請求項10に記載のコントローラ。
  14. ポリシー勾配最適化の目的関数のヘッシアンを推定するために、BFGS準ニュートン法を用いる、請求項10に記載のコントローラ。
  15. 大規模問題に対して目的関数のヘッシアンの推定値を近似的に保つためにL-BFGS準ニュートン法が用いられる、請求項10に記載のコントローラ。
  16. QNTPROは、エピソードのための目的関数を最大化するよう、ポリシーパラメータθiを取得する、請求項10に記載のコントローラ。
  17. QNTPROは、最適なステップ方向およびサイズを計算するためにDogleg法を用いる、請求項10に記載のコントローラ。
  18. QNTPROは、信頼領域法を用いて、前記目的関数の二次近似を用いて反復態様で前記Dogleg法により計算されたステップを受け入れるかまたは拒否する、請求項10に記載のコントローラ。
  19. 制御ポリシーを最適化することによってシステムを制御するためのコントローラであって、
    前記システムに設けられたセンサを介して前記システムの行動および状態を受信するように構成されたインターフェースと、
    ポリシー初期化器、ポリシー収集器または記憶部、推定器、エージェントおよびポリシー更新プログラム、目的関数のヘッシアンのための制限付きメモリ準ニュートン近似プログラム、最適化ステップを計算するためのDogleg法、ならびに前記目的関数のヘッシアン近似を用いてポリシーパラメータの次の推定を見つけるための信頼領域法を含むコンピュータ実行可能プログラムを記憶するメモリと、
    プロセッサとを備え、前記プロセッサは、前記メモリに関連して、
    前記制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化し、
    現在の制御ポリシーを用いて、前記状態に関してデータを収集し、
    前記現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定し、
    準ニュートン信頼領域ポリシー最適化(QNTPRO)を用いて、前記収集されたデータに基づいて、前記現在の制御ポリシーを更新し、
    前記システムを制御するために、最適な制御ポリシーを、前記更新された現在の制御ポリシーを用いて蓄積された平均報酬の値に基づいて決定し、
    前記最適な制御ポリシーに基づいて制御コマンドを生成し、
    前記制御コマンドの制御信号を前記システムへ送信することによって、前記最適な制御ポリシーに従って前記システムを動作させるよう構成される、コントローラ。
  20. 前記データ収集、前記推定、および前記更新は、前記ポリシーのエピソードについての前記平均報酬の値が未知の値において定常状態に達するまで反復的に実行される、請求項19に記載のコントローラ。
  21. 利点関数Aπは、状態-行動価値関数Qπおよび状態価値関数Vπによって表される、請求項19に記載のコントローラ。
  22. 前記利点関数は、
    Figure 0007301034000009

    によって表され、式中、s前記システムの状態であり、aは行動(または制御信号)である、請求項19に記載のコントローラ。
  23. ポリシー勾配最適化の目的関数のヘッシアンを推定するために、BFGS準ニュートン法を用いる、請求項19に記載のコントローラ。
  24. 大規模問題に対して目的関数のヘッシアンの推定値を近似的に保つためにL-BFGS準ニュートン法が用いられる、請求項19に記載のコントローラ。
  25. QNTPROは、エピソードのために目的関数を最大化するよう、ポリシーパラメータθiを取得する、請求項19に記載のコントローラ。
  26. QNTPROは、最適なステップ方向およびサイズを計算するためにDogleg法を用いる、請求項25に記載のコントローラ。
  27. QNTPROは、信頼領域法を用いて、前記目的関数の二次近似を用いて反復態様で前記Dogleg法により計算されたステップを受け入れるかまたは拒否する、請求項19に記載のコントローラ。
JP2020159841A 2019-10-04 2020-09-24 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 Active JP7301034B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/592,977 2019-10-04
US16/592,977 US11650551B2 (en) 2019-10-04 2019-10-04 System and method for policy optimization using quasi-Newton trust region method

Publications (3)

Publication Number Publication Date
JP2021060988A JP2021060988A (ja) 2021-04-15
JP2021060988A5 JP2021060988A5 (ja) 2023-04-06
JP7301034B2 true JP7301034B2 (ja) 2023-06-30

Family

ID=75275122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020159841A Active JP7301034B2 (ja) 2019-10-04 2020-09-24 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法

Country Status (2)

Country Link
US (1) US11650551B2 (ja)
JP (1) JP7301034B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
US11841689B2 (en) * 2018-12-27 2023-12-12 Nec Corporation Policy creation apparatus, control apparatus, policy creation method, and non-transitory computer readable medium storing policy creation program
US11992945B2 (en) * 2020-11-10 2024-05-28 Google Llc System and methods for training robot policies in the real world
US20220414531A1 (en) * 2021-06-25 2022-12-29 International Business Machines Corporation Mitigating adversarial attacks for simultaneous prediction and optimization of models
CN117674595B (zh) * 2024-01-31 2024-06-18 电子科技大学(深圳)高等研究院 基于人工智能的直流-直流转换器自适应控制方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289199A (ja) 2008-05-30 2009-12-10 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
US20170286840A1 (en) 2016-04-04 2017-10-05 Financialsharp, Inc. System and method for performance evaluation of probability forecast

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9434389B2 (en) * 2013-11-18 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Actions prediction for hypothetical driving conditions
WO2019012437A1 (en) 2017-07-13 2019-01-17 Anand Deshpande SOUND DEVICE BASED ON MONITORING OF MACHINE USES AND METHOD OF OPERATING SAME

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009289199A (ja) 2008-05-30 2009-12-10 Okinawa Institute Of Science & Technology 制御器、制御方法および制御プログラム
US20170286840A1 (en) 2016-04-04 2017-10-05 Financialsharp, Inc. System and method for performance evaluation of probability forecast

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金森 敬文,機械学習のための連続最適化,株式会社講談社 鈴木 哲,2016年,107-142頁

Also Published As

Publication number Publication date
JP2021060988A (ja) 2021-04-15
US11650551B2 (en) 2023-05-16
US20210103255A1 (en) 2021-04-08

Similar Documents

Publication Publication Date Title
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
Vecerik et al. Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards
Chen et al. Approximating explicit model predictive control using constrained neural networks
EP3924884B1 (en) System and method for robust optimization for trajectory-centric model-based reinforcement learning
Bhardwaj et al. Differentiable gaussian process motion planning
Levine et al. Guided policy search
Breyer et al. Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning
Zhu et al. Fast model identification via physics engines for data-efficient policy search
Balakrishna et al. On-policy robot imitation learning from a converging supervisor
CN111830822A (zh) 配置与环境交互的系统
Zhao et al. Model accelerated reinforcement learning for high precision robotic assembly
Sacks et al. Learning sampling distributions for model predictive control
Xu et al. Stochastic variance reduction for policy gradient estimation
Polydoros et al. A reservoir computing approach for learning forward dynamics of industrial manipulators
Zhou et al. Multi-objective-optimization-based control parameters auto-tuning for aerial manipulators
Parag et al. Value learning from trajectory optimization and Sobolev descent: A step toward reinforcement learning with superlinear convergence properties
Surovik et al. Learning an expert skill-space for replanning dynamic quadruped locomotion over obstacles
Ramirez et al. Reinforcement learning from expert demonstrations with application to redundant robot control
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Zimmer et al. Neural fitted actor-critic
CN115421387B (zh) 一种基于逆强化学习的可变阻抗控制系统及控制方法
Li et al. Bellman gradient iteration for inverse reinforcement learning
Afzali et al. A Modified Convergence DDPG Algorithm for Robotic Manipulation
Hong et al. Dynamics-aware metric embedding: Metric learning in a latent space for visual planning
Nobre et al. Reinforcement learning for assisted visual-inertial robotic calibration

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230329

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230620

R150 Certificate of patent or registration of utility model

Ref document number: 7301034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150