JP7301034B2

JP7301034B2 - 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法

Info

Publication number: JP7301034B2
Application number: JP2020159841A
Authority: JP
Inventors: ジャー・デベシュ; ラフナサン・アルビンド; ロメレス・ディエゴ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-10-04
Filing date: 2020-09-24
Publication date: 2023-06-30
Anticipated expiration: 2040-09-24
Also published as: JP2021060988A; US11650551B2; US20210103255A1

Description

発明の分野
本発明は、概して、強化学習のためのポリシーを最適化するためのシステムおよび方法に関し、より具体的には、準ニュートン信頼領域法を用いるポリシー最適化のためのシステムおよび方法に関する。

発明の背景
強化学習（ＲＬ）は、逐次的な意思決定問題を扱う学習フレームワークであり、エージェントまたは意思決定部は、（未知の）環境と対話することによって、長期間の報酬を最適化するためのポリシーを学習する。各ステップにおいて、ＲＬエージェントは、その行動の性能に関する評価的フィードバック（報酬またはコストと呼ばれる）を得て、それにより、後続の行動の性能を改善（最大化または最小化）することを可能にする。最近の研究により、これらのアルゴリズムの、コンピュータゲームのようなさまざまな領域における顕著な成功がもたらされた。

強化学習アルゴリズムは、２つのカテゴリ－モデルベースの方法およびモデルフリーの方法に大別することができる。モデルベースの強化学習（ＭＢＲＬ）技術は、一般に、システムのために、タスクに依存しない予測モデルを学習するので、データ効率的であると考えられている。次いで、学習されたモデルを用いて、システムのために、ポリシーを、確率的制御手法(End-to-End training of deep visuomotor policies by Levine et. al., The Journal of Machine Learning Research, vol-17, number-1, pages- 1334-1373, year-2016参照)を用いて合成する。しかしながら、これらの方法は一般にトレーニングが非常に困難であり、したがって低性能のポリシーをもたらす。モデルフリー技術は、以下の２つのグループ：ポリシーを学習しながら基底のマルコフ決定過程（ＭＤＰ）に対する価値関数が合成される価値ベースの手法、および関数近似器を用いてシステムのための累積報酬を直接最大化するポリシー勾配アルゴリズムに分類される。

ポリシー勾配アルゴリズムは、累積報酬を直接最適化することができ、ニューラルネットワークを含む多くの異なる非線形関数近似器と共に用いることができる。このため、ポリシー勾配アルゴリズムは、多くの異なる用途にとって魅力があり、広く利用されている。しかしながら、ポリシーの性能の単調な改善、最適化中に正しい学習率（またはステップサイズ）を選択すること等を含む、いくつかの問題が依然として未解決のままである。アルゴリズムの、より良いサンプル効率のためには、ポリシーの単調な改善が重要である。これらのアルゴリズムの、より良いサンプル効率は、データ収集が高価であり得る物理システムおよび他の領域におけるＲＬのためのポリシー勾配アルゴリズムの使用を可能にするであろう。

ポリシー勾配のための最近の方法の大部分は、ポリシーを表すためにディープニューラルネットワーク（ＤＮＮ）を関数近似器として用いている。トレーニングの目的は、対応するポリシーが最適な性能を達成するように、ＤＮＮのパラメータの最適なセットを見つけることである。性能は、あるポリシーを用いながらシステムによって蓄積される報酬によって測定される。これは、反復トレーニングプロセスを用いて達成され、現在のポリシーは、データを収集するためにエピソード様式のデータ上において実現され、その後、勾配降下法を用いてＤＮＮに対するパラメータの新たなセットが計算される。勾配降下法を用いてポリシーの単調な改善を確実にすることは、非常に困難な問題である。いくつかの最近の方法は、反復トレーニングプロセスの間にＤＮＮの新たなパラメータを計算するために信頼領域最適化定式を用いて、ポリシー勾配アルゴリズムの性能における単調な改善のための数学的定式化を提案してきた(Trust Region Policy Optimization by Schulman et. al., International Conference on Machine Learning, 2015, pages- 1889-1897参照)。しかしながら、提案される方法は、候補探索方向を決定するために、目的関数の線形モデルおよび制約の二次モデルに依存する。単純なラインサーチは、解への進展を確実にするステップサイズを得るために採用される。結果として、これは、スケーリングされた勾配降下アルゴリズムをもたらし、信頼領域アルゴリズムではない。より重要なことに、これらの方法は、信頼領域フレームワークによって提供される柔軟性および収束保証を継承しない。

従って、目的関数の曲率情報を組み込むことができる制約された最適化のための改善された信頼領域法を用いてポリシー勾配アルゴリズムのためのステップを見つけるための改善されたアルゴリズムが必要である。本開示は、ポリシーの性能における単調な改善のためにより良いポリシーを見つけることができる、ポリシー最適化中のステップを計算するための準ニュートン法を提示する。

発明の概要
本開示のいくつかの実施形態は、コンピュータで実現される学習方法が、システムを制御する制御ポリシーを最適化するために提供される、という認識に基づく。そのようなシステムのいくつかの例は、ＨＶＡＣシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどのような機械的システムを含むシステムであり得る。この場合、本方法は、タスク特化ポリシーによって動作中のシステムの状態を受信することと、制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化することと、現在の制御ポリシーを用いて、現在の状態、行動、および次の状態のタプルを含んでもよいデータを収集することと、現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定することと、ＢＦＧＳ法を用いて目的関数のヘッシアンを計算することと、二次モデルが元の最適化関数をどれだけ良好に近似することができるかに基づいて信頼領域半径が反復的に更新される準ニュートン信頼領域法（ＱＮＴＰＭ）を用いて、現在のポリシーパラメータと更新されたポリシーパラメータとの間のＫＬダイバージェンスに関する制約を用いてステップを計算するためのDogleg法によって計算されたステップを用いて、現在の制御ポリシーを反復的態様で更新することと、現在の制御ポリシーの利点関数の値の収束基準に基づいて、システムを制御するために、最適な制御ポリシーを決定することとを含んでもよい。

また、本発明の別の実施形態は、制御ポリシーを最適化することによりシステムを制御するためのコントローラ（制御システム）を提供することができる。このシステムは、センサを介してシステムのタスクコマンドおよび状態を受信するように構成されたインターフェースと、初期化器、ポリシー収集器、推定器、エージェントおよびポリシー更新プログラム、Dogleg法、ならびに、目的のヘッシアンを推定するための準ニュートン近似プログラムを含むコンピュータ実行可能プログラムを記憶するメモリと、メモリと関連して、制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化し、現在の制御ポリシーを用いて、状態に関するデータを収集し、現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定し、ＢＦＧＳ法を用いて目的関数のヘッシアンを計算し、二次モデルが元の最適化関数をどれだけ良好に近似することができるかに基づいて信頼領域半径が反復的に更新される準ニュートン信頼領域法（ＱＮＴＰＭ）を用いて、現在のポリシーパラメータと更新されたポリシーパラメータとの間のＫＬダイバージェンスに関する制約を用いてステップを計算するためのDogleg法によって計算されたステップを用いて、現在の制御ポリシーを反復的態様で更新し、現在の制御ポリシーの利点関数の値の収束基準に基づいて、システムを制御するために、最適な制御ポリシーを決定するように構成されるプロセッサとを含んでもよい。

本発明の別の実施形態では、準ニュートン近似プログラムは、制限付きメモリバージョンを用いて、目的のヘッシアンの推定値を記憶する。これは、制限付きメモリ準ニュートン近似と呼ばれる。制限付きメモリ準ニュートン近似は、数個のベクトルの外積の組の和を用いて目的関数のヘッシアンを推定し、それによってかなりのメモリを節約する。

図面を参照して、ここに開示される実施形態についてさらに説明する。示される図面は、必ずしも一定の縮尺ではなく、ここに開示される実施形態の原理を示すにあたり、概して強調されている。

本発明の実施形態による、準ニュートン信頼領域ポリシー最適化に基づいて機械システム（デバイス、例えばロボット）を制御するための制御システム（コントローラ）を示す図である。本発明の実施形態に係るコントローラ（制御システム）を用いたデータ処理フローを示す図である。本発明の実施形態による、提案された準ニュートン信頼領域最適化に基づくシステムの一例を示す図である。本開示の実施形態による、強化学習の一般的な概念を示す図である。本発明の実施形態による、エージェントが学習しようとしているポリシーの数学的表現を示す図である。本開示の実施形態による、準ニュートン信頼領域ポリシー最適化の異なるステップを詳述するフローチャートを示す図である。本開示の実施形態による、Dogleg法を用いて信頼領域ポリシー最適化問題のステップを計算するための準ニュートン信頼領域法の異なるステップを提供するフローチャートを示す図である。本発明の幾つかの実施形態による、信頼領域最適化のExact and Dogleg近似を示す図である。本発明の実施形態による、信頼領域最適化のためのExact and Dogleg近似を記述するアルゴリズムを示す図である。本発明の実施形態による信頼領域最適化のためのＱＮＴＲＭを記述するアルゴリズムを示す図である。本発明の実施形態による信頼領域最適化のためのexact and QNPRTOを記述するアルゴリズムを示す図である。本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーション結果の図である。最適化方法のサンプル効率を示すために本発明に示されるベンチマーク問題の次元またはサイズを示す図である。

上記で識別された図面は、ここに開示される実施形態を示しているが、議論で注記されるように、他の実施形態も企図される。本開示は、限定ではなく代表として例示的な実施形態を提示する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多数の他の修正および実施形態を考案することができる。

好ましい実施形態の詳細な記載
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を制限することを意図していない。むしろ、例示的な実施形態の以下の説明は、１つまたは複数の例示的な実施形態を実施するための可能な説明を当業者に与えるであろう。特許請求の範囲に記載するように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更が企図される。

具体的な詳細が、以下の記載において、実施形態の充分な理解のために与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても、実施形態を実践できることを理解することができる。例えば、開示される主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態で構成要素として示され得る。他の例では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造、および技術は、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明され得る。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。さらに、動作の順序は、配列が変更され得る。プロセスは、その動作が完了したときに終了され得るが、論じられていない、または図に含まれていない追加のステップを有する場合がある。さらに、特に説明されるプロセスにおけるすべての動作が、すべての実施形態において起こり得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはｍａｉｎ関数へのその関数の復帰に対応することができる。

さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現され得る。手動または自動実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて、実行され得るか、または少なくとも支援され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、機械可読媒体に記憶され得る。プロセッサは必要なタスクを実行し得る。

図１Ａは、本発明のいくつかの実施形態による制御システム（コントローラ）１００のブロック図を示す。システム１００は、キーボード１１１およびポインティングデバイス／媒体１１２と接続可能な入力／出力（Ｉ／Ｏ）インターフェースを有するヒューマンマシンインターフェース（ＨＭＩ）１１０と、３Ｄセンサ（図示せず）と、プロセッサ１２０と、メモリ１４０およびプロセッサ１２０で実行されるアルゴリズムを記憶する記憶装置１３０と、ローカルエリアネットワークおよびインターネットネットワーク（図示せず）を含むネットワーク１９０と接続可能なネットワークインターフェースコントローラ１５０（ＮＩＣ）と、表示装置５６５に接続されるディスプレイインターフェース１６０と、撮像装置１７５と接続可能である撮像インターフェース１７０とを含むことができる。ＮＩＣは、コマンドおよび状態測定データを受信するためにワイヤレス通信を実行するトランシーバ（図示せず）を含み得る。Ｉ／Ｏインターフェースを有するＨＭＩ１１０は、アナログ／デジタルおよびデジタル／アナログ変換器を含むことができる。Ｉ／Ｏインターフェース１１０を有するＨＭＩは、ワイヤレスインターネット接続またはワイヤレスローカルエリアネットワークを介して他の３Ｄポイントクラウドディスプレイシステムまたは他のコンピュータと通信することができるワイヤレス通信インターフェースも含み得、複数の３Ｄポイントクラウドを構築することを可能にする。システム１００は、電源（図示せず）を含むことができる。電源は、Ｉ／Ｏインターフェース１１０を介して外部電源（図示せず）から再充電可能なバッテリであってもよい。用途に応じて、電源はシステム１００の外部に配置されてもよい。

システム１００は、ＮＩＣ１５０に接続されたネットワーク１９０を介して、音声データを含む電子テキスト／イメージング文書１９５を受信することができる。記憶装置１３０は、プログラムコードデータとして記憶装置１３０に記憶されるDogleg法、準ニュートン信頼領域法（ＱＮＴＲＭ）、準ニュートン信頼領域ポリシー最適化（ＱＮＴＲＰＯ）を含むアルゴリズムモジュール１３１と、装置制御アルゴリズム１３２とを含む。モデル１３１のアルゴリズムは、コンピュータ可読記録媒体（図示せず）に記憶されてもよく、プロセッサ１２０は、媒体からアルゴリズムをロードすることによって、モデル１３１～１３２およびマルチモーダルエンコーダデコーダ２００のアルゴリズムを実行することができる。さらに、ポインティングデバイス／媒体１１２は、コンピュータ可読記録媒体に格納されたプログラムを読み出して実行するモジュールを含んでいてもよい。

図１Ｂは、本発明の実施形態に係るコントローラ（制御システム）１００を用いたデータ処理フローを示す図である。本開示のいくつかの実施形態は、機械１０３のコントローラ１００が特定のコマンドまたはタスク１０１を達成するように設計され得るという認識に基づく。コントローラ１００は、制御信号を実施する機械１０３に制御信号を送るコンピュータソフトウェアであり、機械の状態はオブザーバ１６４によって観察される。本開示のいくつかの実施形態は、強化学習アルゴリズム、またはより具体的にはポリシー勾配アルゴリズム１０５を用いて、機械から得られた動作データ１０４を用いてコントローラ１００のために最適なポリシーを学習することができる、という認識に基づく。特定のタスクまたはコマンドの場合、コントローラは、機械の現在の状態に基づいて制御信号を決定する初期ポリシーで初期化される。機械の状態は、オブザーバによって観察することができる。次いで、この制御信号は機械上で実施され、機械の状態遷移が観察される。現在の状態、制御信号、および次の状態のこのタプルは、コマンドまたはタスクを実行するために新たなポリシーを計算するためにポリシー勾配アルゴリズムによって用いられるデータである。次いで、このプロセスは、ポリシーが安定したポリシー（すなわち、より多くのデータの収集で変わらないもの）に収束するまで繰り返される。

図２は、本発明の実施形態による、提案された準ニュートン信頼領域最適化に基づく制御システムの一例を示す図である。以下では、制御システムをロボットシステム２００に適用した例を挙げて説明するが、本発明に係る制御システムおよびコンピュータにより実現される方法はロボットシステムに限定されない。本発明によるいくつかのシステムまたはコンピュータにより実現される方法は、ＨＶＡＣシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどのような機械的システムを含むシステムに導入され得る。

図２のロボットシステム２００は、状態測定のためのセンサを具備したロボットマニピュレータと、データを記憶しマニピュレータアームを制御する、コンピュータにより実現されるシステムとを含み得る。マニピュレータアームは、いくつかの剛性リンク２１７、２１５、２１３およびジョイント２１８、２１６、２１４を含むことができる。マニピュレータアームは、外部からシステムに供給されるコマンドまたはタスクを受信するロボット制御システムを用いて制御される。コマンドまたはタスクの例は、マニピュレータを用いて物体２１２を把持すること、またはグリッパ２１２によって保持される物体２１１を用いて組立作業を実行することであり得る。ロボット制御システムは制御信号２７０をマニピュレータに送信する。制御信号２７０は、マニピュレータの関節２１８、２１６、２１４の各々に適用されるべきトルク、およびグリッパ２１２の開閉とすることができる。ロボットシステムの状態は、センサを用いて測定される。これらのセンサは、ロボットの関節２１８、２１６、２１４におけるエンコーダ、ロボットの環境を観察することができるカメラ２１０、およびグリッパ２１２の顎に取り付けられ得るいくつかの触覚センサ２１９を含み得る。センサからの状態測定値は、センサから受信されたデータを記憶するデータ入力／出力ユニット２２０に送信される。本開示のいくつかの実施形態は、所望のタスクに対する初期制御ポリシーでロボット制御システムを初期化する。制御ポリシーのいくつかのエピソードがロボットシステム上で実現され、センサからの状態測定データがデータ入力／出力システム２２０において収集される。次いで、このデータは、ロボットシステムの現在のポリシーを更新するためのコンピュータプログラム２３０を含むソフトウェアによって用いられる。ポリシーを更新するためのプログラムは、Dogleg法を用いてポリシーのパラメータのステップを計算するための準ニュートン信頼領域法（ＱＮＴＲＭ）プログラム２４０であってもよい。次いで、ＱＮＴＲＭによって計算されたこのステップは、計算されたステップを用いてポリシーの更新を実行するプログラム２５０に渡される。コントローラ更新システム２５０は、次いで、更新されたポリシーをロボット制御システム２６０に送信する。このプロセスは、ロボットの制御のための最適なポリシーに達するまで繰り返される。

図３Ａは、本開示の実施形態による、強化学習の一般的な概念を示す図である。強化学習（ＲＬ）は、シーケンシャルな意思決定問題を扱う学習フレームワークであり、「エージェント」３３０または意思決定部は、（未知の）環境３１０と対話することによって長期間の報酬を最適化するようポリシーを学習する。各ステップにおいて、ＲＬエージェントは、環境の観察と共に、その行動３４０の性能に関する評価フィードバック（報酬またはコストと呼ばれる）３５０を得て、後続の行動の性能を改善（最大化または最小化）することを可能にする。

図３Ｂは、本開示の実施形態による、エージェント（図３Ａに示す）が学習しようとしているポリシーの数学的表現を示す図である。強化学習のためのポリシー勾配アルゴリズムでは、エージェントのためのポリシーは、パラメータθのセットによってパラメータ化される。また、状態依存制御ポリシー３７０は、一般にπ＿θと表される。パラメータθのセットは、例えば、ディープニューラルネットワークのニューロンの重みを表すことができる。制御ポリシーは、予想される割引報酬３６０を最大にすることによって見出される。ポリシーは、ポリシーを表す関数近似器のパラメータθの関数であるので、最適なポリシーは、システムに対する予想される割引報酬を最大化するパラメータθを推定することによって見出される。ポリシー勾配アルゴリズムの目的は、好適なアルゴリズムを用いて制御ポリシーπ＿θのパラメータθを最適化することである。最適なパラメータθを見つけるために用いられるデファクトアルゴリズムは、収束の条件に達するまで、目的関数の勾配を用いて新たなパラメータのシーケンスを計算する勾配降下である。ポリシー勾配アルゴリズムの目的関数は、予想される割引報酬である。しかしながら、パラメータθを計算するために単純な勾配降下アルゴリズムを用いることは、予想される利得における高い分散、遅い学習など、いくつかの望ましくない結果をもたらす。本開示では、ポリシー更新のためのＱＮＴＲＰＯベースのステップ計算は、より速い学習速度およびより良好なサンプル効率を達成することを可能にする。

図４Ａは、本開示の実施形態による、準ニュートン信頼領域ポリシー最適化の異なるステップを詳述するフローチャートを示す。本発明のいくつかの実施形態によれば、システムを制御する制御ポリシーを最適化するためのコンピュータで実現される学習方法は、特定のタスクまたはコマンドに対して動作中のシステムの状態を受信するステップを含むことができる。システムを制御するための初期ポリシーは、まず関数近似器（例えばニューラルネットワーク）で初期化される（４１０）。この説明の残りの部分では、関数近似器がニューラルネットワークであると仮定する。学習プロセスの目的は、ポリシーによって蓄積される予想される報酬が状態空間全体にわたって最大化されるようにニューラルネットワークのパラメータを最適化することである。システムの状態空間にわたる報酬を推定することは事実上困難であるかもしれないので、ほとんどのアルゴリズムは、現在のポリシーを用いてシステムのいくつかのエピソードにわたって平均報酬を計算することによって、それを近似する。したがって、本開示のいくつかの実施形態は、現在のポリシーを用いてデータを収集するステップ（４２０）からなる。

現在のポリシーを用いて収集されたデータは、ポリシーの利点関数および状態訪問頻度を推定するために用いられる（４３０）。本開示は、現在のポリシーと新たなポリシーとの間のＫＬダイバージェンスを用いて、反復学習プロセス中の変化量を制約する。したがって、本開示のいくつかの実施形態は、現在のポリシーパラメータと新たなポリシーパラメータとの間のＫＬダイバージェンスを計算するステップ４４０からなる。なお、ポリシーパラメータは、ポリシー最適化処理の決定変数である。ポリシー勾配アルゴリズムでは、目的関数の推定値は、データを収集し、予想される平均報酬を推定するために用いられるポリシーに応じて変化する。したがって、本開示のいくつかの実施形態は、利点関数、状態訪問頻度、および新たなポリシーを用いて代理報酬関数を推定するステップ４５０からなる。最適化のための決定変数は代理目的関数に現れる新たなポリシーパラメータであることに留意されたい。

ポリシーは、次のステップにおいて、ＱＮＴＲＭポリシー最適化ステップを用いてポリシーの新たなパラメータを推定することによって更新される（４６０）。学習の収束基準に達した場合（４７０）、学習プロセスは終了され、その場合、機械は、次いで、最適なポリシーを用いて最適に制御される（４９０）。収束基準は、概して、ポリシーの平均報酬の収束に基づく。ポリシー勾配アルゴリズムの平均報酬が定常状態に達すると、学習プロセスは終了される。学習が収束していなければ、更新されたポリシーをステップ４８０で記憶し、収束するまでプロセス全体を繰り返す。

図４Ｂは、準ニュートン信頼領域法（ＱＮＴＲＭ）を用いてポリシーの新たなパラメータを推定するためのフローチャートを示す。ポリシーの更新に対応する新たなパラメータは、反復方式で計算される。したがって、本開示のいくつかの実施形態は、ステップ４６１において、反復カウンタ「ｋ」を初期化してもよい。さらに、本開示のいくつかの実施形態は、ステップ４６２においてステップ計算を終了することができるかどうかをチェックする。本開示におけるポリシー最適化のための提案された方法は、目的関数の曲率情報を利用して、決定変数の新たなセット、すなわちポリシーパラメータを見つける。結果として、本開示のいくつかの実施形態は、ステップ４６３において、準ニュートン法およびＫＬダイバージェンス制約の二次近似を用いて目的関数の二次近似を推定する。提案される方法は、信頼領域最適化を実行するための制約として現在のポリシーと新たなポリシーとの間のＫＬダイバージェンスを用いることに留意されたい。目的関数および制約条件の二次近似は、Dogleg法を用いて信頼領域最適化のステップを計算するために用いられる。本開示のいくつかの実施形態は、ステップ４６４において、Dogleg法を用いて最適化のステップのサイズおよび方向を計算する。Dogleg法によって計算されたステップを受け入れるかまたは拒絶するかは、関数が、二次近似およびDogleg法によって計算された新たなステップを用いて、目的関数をどれくらい良好に近似するか、のチェックを行うことによる。これは、本開示のいくつかの実施形態のステップ４６５において実行される。Dogleg法によって計算されたステップが拒絶される場合、信頼領域半径は、関数が信頼領域半径において十分に近似され得ないので、減少させられる。ステップが受け入れられる場合には、信頼領域半径は、最適化のためにより大きなステップをとるように増大されることができる。したがって、本開示のいくつかの実施形態は、ステップ４６５において、Dogleg法によって計算されるステップを反復様式４６６で最適化する。この反復は、アルゴリズムの１つのエピソードにおいて収集されたデータを用いてポリシー勾配法の１つのステップを最適化することに留意されたい。

本開示の残りの部分では、ポリシー最適化のためのＱＮＴＲＭを詳細に記載する。
注釈

図８は、本発明のいくつかの実施形態による、アルゴリズム３として示される準ニュートン信頼領域ポリシー最適化（ＱＮＴＲＰＯ）を実行するためのアルゴリズムを示す。ＱＮＴＲＰＯは、我々がこの論文においてポリシー最適化のために提案する信頼領域アルゴリズムである。このアルゴリズムは、ポリシー反復のすべての反復において計算されるステップにおいてＴＲＰＯと異なる。この論文の完全性のため、これをアルゴリズム３として提示する。ＱＮＴＲＰＯとＴＲＰＯとの間の唯一の相違は、信頼領域最適化問題が解決される方法であることに留意されたい（アルゴリズム３の線４参照）。元のＴＲＰＯ定式化において、アルゴリズム３における線４は、前述のようなスケーリングされた勾配法を用いて実行されることに留意されたい。これは、提案されるアルゴリズムとＴＲＰＯにおいて提案されるアルゴリズムとの間の主な相違である。ＱＮＴＲＭは反復手順であり、アルゴリズム３の反復毎のステップは、ＱＮＴＲＭのＫ個のステップにわたって反復することによって計算されることに留意されたい（アルゴリズム２参照）。

本発明の別の実施形態では、行列B_kは、二乗行列をもたらすベクトルの外積の集合の和として表され得る。そのようなベクトルの数は、行列の次元よりもはるかに少なく、それによって、そのような表現を記憶するのに必要なメモリを低減する。この近似手法は、制限付きメモリ準ニュートン近似を用いて行うことができる。これは、準ニュートン近似の代わりに制限付きメモリ準ニュートン近似が用いられる（ＱＮＴＲＭ）の別の実施形態につながる。さらに、制限付きメモリ準ニュートン近似は、アルゴリズム１のステップの計算において必要とされる線形系の反復解において用いられる行列ベクトル積に容易に役立つ。

実験結果
この節において、我々は、オープンＡＩＧｙｍベンチマークからの連続制御のためにいくつかの異なる環境を用いたポリシー最適化についての実験結果を提示する。これらの実験では、以下の質問に解答することを試みる：
１．ＱＮＴＲＰＯは、ある範囲のタスクにわたってＴＲＰＯよりも良好な学習率（サンプル効率）を一貫して達成できるか。
２．ＱＮＴＲＰＯは、平均報酬に関して、ある範囲のタスクにわたってＴＲＰＯよりも良好な性能を達成することができるか。

以下において、本発明者らは、いくつかの連続制御タスクにおいて本発明者らのアルゴリズムを評価することによって、これらの２つの質問に解答することを試みる。

図９Ａ、図９Ｂ、図９Ｃおよび図９Ｄは、本発明の実施形態による、信頼領域最適化のための例示的ベンチマークのシミュレーションの結果である。

特に、本発明者らは、Ｍｕｊｏｃｏ物理シミュレータにおける４つの異なる連続制御環境に関する結果を調査し、提示する。我々は、さまざまな動力学および難易度の４つの移動タスク、すなわち、ヒューマノイド、ハーフチーター、ウォーカー、ホッパーを実施した。これらのタスクのすべてに対する目標は、可能な限り迅速に前進することである。これらのタスクは、ロボットの高い自由度のため、学習が難しいことが証明されている。極小値で行き詰まることなく前方に移動することを学習するためには、大量の探索が必要である。初期学習段階の間、アルゴリズムは極小値で非常に容易に行き詰まり、なぜならば、制御はペナルティを科せられ、ロボットは倒れることを回避しなければならないからである。図１０は、最適化方法のサンプル効率を示すために本発明において示されるベンチマーク問題の次元またはサイズを示す。これらのタスクの状態および行動次元の一覧を図１０に示す。

さらに、本開示による実施形態は、マルチモーダル融合モデルを実行するための有効な方法を提供し、したがって、マルチモーダル融合モデルを用いる方法およびシステムの使用は、中央処理ユニット（ＣＰＵ）の使用、電力消費、および／またはネットワーク帯域幅使用を低減することができる。

本開示の上記の実施形態は、多くの方法のいずれかで実現することができる。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実現され得る。ソフトウェアで実現する場合、ソフトウェアコードは、単一のコンピュータに提供されるか、または複数のコンピュータに分散されるかに関わらず、任意の好適なプロセッサまたはプロセッサの集合上で実行することができる。そのようなプロセッサは、１つまたは複数のプロセッサが集積回路構成要素にある集積回路として実現され得る。しかしながら、プロセッサは、任意の好適なフォーマットの回路を用いて実現されてもよい。

また、本明細書で概説されるさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのいずれか１つを用いる１つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。さらに、そのようなソフトウェアは、いくつかの好適なプログラミング言語および／またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークもしくは仮想マシン上で実行される実行可能な機械語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、さまざまな実施形態において所望に応じて組み合わせるか、または分散させることができる。

さらに、本開示の実施形態は、一例が提供された方法として具現化され得る。本方法の一部として実行される動作は、任意の好適な態様で順序付けられてもよい。したがって、例示的な実施形態では順次動作として示されているが、いくつかの動作を同時に実行することを含み得る、示されたものとは異なる順序で動作が実行される実施形態が構築され得る。さらに、請求項において請求項の要素を修飾する第１、第２などの順序用語の使用は、それ自体が、１つのクレーム要素の別のクレーム要素に対する任意の優先度、先行度、または方法の行為が実行される時間的順序を指すわけではなく、単にラベルとして、ある名称を有する１つの請求項の要素を、同じ名称を有する別の要素から（ただし、順序用語の使用のために）区別し、請求項の要素を区別するために用いられる。

本開示は、いくつかの好ましい実施形態を参照して説明されてきたが、本開示の精神および範囲内で、さまざまな他の適応および修正を行うことができることを理解されたい。したがって、本開示の真の精神および範囲内にあるそのようなすべての変形および修正を網羅することが、特許請求の範囲の局面である。

Claims

システムを制御する制御ポリシーを最適化するための、コンピュータで実現される学習方法であって、
前記システムに設けられたセンサに接続された入出力インターフェースを介して、ポリシー最適化方法を用いて特定のタスクが学習されるよう動作中のシステムの状態を受信することを備え、
前記システムの状態は、前記センサによって測定され、
前記方法は、
前記制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化することと、
現在の制御ポリシーを用いて、状態、行動、および次の状態のタプルのデータを収集することと、
前記現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定することと、
Kullback-Leiblerダイバージェンス制約（ＫＬダイバージェンス制約）および代理目的関数をポリシーパラメータの関数として推定することと、
準ニュートン信頼領域ポリシー最適化（ＱＮＴＰＲＯ）を用いて、前記推定された制約および前記代理目的関数に基づいて、前記現在の制御ポリシーを更新することと、
前記システムを制御するために、前記更新された現在の制御ポリシーを用いて蓄積された予想される平均報酬に基づいて、最適な制御ポリシーを決定することと、
前記最適な制御ポリシーに基づいて制御コマンドを生成することと、
前記制御コマンドの制御信号を前記システムへ送信することによって、前記最適な制御ポリシーに従って前記システムを動作させることとをさらに備える、方法。
前記収集すること、前記推定すること、および前記更新することは、前記ポリシーの異なるエピソードからの前記平均報酬の値が定常状態に達し、未知の値に収束するまで、反復的に実行される、請求項１に記載の方法。
利点関数Ａπは、状態－行動価値関数Ｑπおよび状態価値関数Ｖπによって表される、請求項１に記載の方法。
前記利点関数は、

によって表され、式中、ｓは前記システムの状態であり、ａは行動である、請求項３に記載の方法。
目的関数のヘッシアンを推定するためにＢＦＧＳ準ニュートン法が用いられる、請求項１に記載の方法。
大規模問題に対して目的関数のヘッシアンの推定値を近似的に保つためにＬ－ＢＦＧＳ準ニュートン法が用いられる、請求項１に記載の方法。
ＱＮＴＰＲＯは、エピソードのための目的関数を最大化するよう、ポリシーパラメータθｉを取得する、請求項１に記載の方法。
ＱＮＴＰＲＯは、最適なステップ方向およびサイズを計算するためにDogleg法を用いる、請求項１に記載の方法。
ＱＮＴＲＰＯは、信頼領域法を用いて、前記目的関数の二次近似を用いて反復態様で前記Dogleg法により計算されたステップを受け入れるかまたは拒否する、請求項８に記載の方法。
制御ポリシーを最適化することによってシステムを制御するためのコントローラであって、
前記システムの設けられたセンサを介して前記システムの行動および状態を受信するように構成されたインターフェースと、
ポリシー初期化器、ポリシー収集器または記憶部、推定器、エージェントおよびポリシー更新プログラム、目的関数のヘッシアンのための準ニュートン近似プログラム、最適化ステップを計算するためのDogleg法、ならびに前記目的関数のヘッシアン近似を用いてポリシーパラメータの次の推定を見つけるための信頼領域法を含むコンピュータ実行可能プログラムを記憶するメモリと、
プロセッサとを備え、前記プロセッサは、前記メモリに関連して、
前記制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化し、
現在の制御ポリシーを用いて、前記状態に関してデータを収集し、
前記現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定し、
準ニュートン信頼領域ポリシー最適化（ＱＮＴＰＲＯ）を用いて、前記収集されたデータに基づいて、前記現在の制御ポリシーを更新し、
前記システムを制御するために、最適な制御ポリシーを、前記更新された現在の制御ポリシーを用いて蓄積された平均報酬の値に基づいて決定し、
前記最適な制御ポリシーに基づいて制御コマンドを生成し、
前記制御コマンドの制御信号を前記システムへ送信することによって、前記最適な制御ポリシーに従って前記システムを動作させるよう構成される、コントローラ。
前記データ収集、前記推定、および前記更新は、前記ポリシーのエピソードについての前記平均報酬の値が未知の値において定常状態に達するまで反復的に実行される、請求項１０に記載のコントローラ。
利点関数Ａπは、状態－行動価値関数Ｑπおよび状態価値関数Ｖπによって表される、請求項１０に記載のコントローラ。
前記利点関数は、

によって表され、式中、ｓは前記システムの状態であり、ａは行動（または制御信号）である、請求項１０に記載のコントローラ。
ポリシー勾配最適化の目的関数のヘッシアンを推定するために、ＢＦＧＳ準ニュートン法を用いる、請求項１０に記載のコントローラ。
大規模問題に対して目的関数のヘッシアンの推定値を近似的に保つためにＬ－ＢＦＧＳ準ニュートン法が用いられる、請求項１０に記載のコントローラ。
ＱＮＴＰＲＯは、エピソードのための目的関数を最大化するよう、ポリシーパラメータθｉを取得する、請求項１０に記載のコントローラ。
ＱＮＴＰＲＯは、最適なステップ方向およびサイズを計算するためにDogleg法を用いる、請求項１０に記載のコントローラ。
ＱＮＴＰＲＯは、信頼領域法を用いて、前記目的関数の二次近似を用いて反復態様で前記Dogleg法により計算されたステップを受け入れるかまたは拒否する、請求項１０に記載のコントローラ。
制御ポリシーを最適化することによってシステムを制御するためのコントローラであって、
前記システムに設けられたセンサを介して前記システムの行動および状態を受信するように構成されたインターフェースと、
ポリシー初期化器、ポリシー収集器または記憶部、推定器、エージェントおよびポリシー更新プログラム、目的関数のヘッシアンのための制限付きメモリ準ニュートン近似プログラム、最適化ステップを計算するためのDogleg法、ならびに前記目的関数のヘッシアン近似を用いてポリシーパラメータの次の推定を見つけるための信頼領域法を含むコンピュータ実行可能プログラムを記憶するメモリと、
プロセッサとを備え、前記プロセッサは、前記メモリに関連して、
前記制御ポリシーを、ニューラルネットワークを含む関数近似器として初期化し、
現在の制御ポリシーを用いて、前記状態に関してデータを収集し、
前記現在の制御ポリシーに基づいて、利点関数および状態訪問頻度を推定し、
準ニュートン信頼領域ポリシー最適化（ＱＮＴＰＲＯ）を用いて、前記収集されたデータに基づいて、前記現在の制御ポリシーを更新し、
前記システムを制御するために、最適な制御ポリシーを、前記更新された現在の制御ポリシーを用いて蓄積された平均報酬の値に基づいて決定し、
前記最適な制御ポリシーに基づいて制御コマンドを生成し、
前記制御コマンドの制御信号を前記システムへ送信することによって、前記最適な制御ポリシーに従って前記システムを動作させるよう構成される、コントローラ。
前記データ収集、前記推定、および前記更新は、前記ポリシーのエピソードについての前記平均報酬の値が未知の値において定常状態に達するまで反復的に実行される、請求項１９に記載のコントローラ。
利点関数Ａπは、状態－行動価値関数Ｑπおよび状態価値関数Ｖπによって表される、請求項１９に記載のコントローラ。
前記利点関数は、

によって表され、式中、ｓ前記システムの状態であり、ａは行動(または制御信号)である、請求項１９に記載のコントローラ。
ポリシー勾配最適化の目的関数のヘッシアンを推定するために、ＢＦＧＳ準ニュートン法を用いる、請求項１９に記載のコントローラ。
大規模問題に対して目的関数のヘッシアンの推定値を近似的に保つためにＬ－ＢＦＧＳ準ニュートン法が用いられる、請求項１９に記載のコントローラ。
ＱＮＴＰＲＯは、エピソードのために目的関数を最大化するよう、ポリシーパラメータθｉを取得する、請求項１９に記載のコントローラ。
ＱＮＴＰＲＯは、最適なステップ方向およびサイズを計算するためにDogleg法を用いる、請求項２５に記載のコントローラ。
ＱＮＴＰＲＯは、信頼領域法を用いて、前記目的関数の二次近似を用いて反復態様で前記Dogleg法により計算されたステップを受け入れるかまたは拒否する、請求項１９に記載のコントローラ。