JP7459238B2

JP7459238B2 - ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム

Info

Publication number: JP7459238B2
Application number: JP2022519438A
Authority: JP
Inventors: ジンヨンチェー; ジョンウンキム; キョンシクパク; ジェフンハン; ジュンホソ; ミンスキム; クリストファーダンス
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-10-24
Filing date: 2020-08-25
Publication date: 2024-04-01
Anticipated expiration: 2040-08-25
Also published as: WO2021080151A1; EP4019202A4; EP4019202A1; US20220229435A1; JP2022550122A

Description

以下の説明は、ロボットの自律走行技術に関する。

自律走行ロボットは、産業分野で広く使用されるロボットを応用した技術であって、一例として、オドメータ（Ｏｄｏｍｅｔｒｙ）方式によって速度情報や方位角情報などを取得した後、以前の位置から次の位置までの移動距離と方向に関する情報を演算することで自身の位置と方向を認識することができる。

例えば、韓国登録特許第１０－１７７１６４３号公報（登録日２０１７年８月２１日）には、絶対座標を認識して目的地まで自動で移動することができる自律走行ロボットおよびこのナビゲーション方法が開示されている。

韓国登録特許第１０－１７７１６４３号公報

ユーザ選好度による強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）基盤の自律走行最適化のための技術を提供する。

再訓練過程の必要なく、多様なパラメータに適応させて報酬に反映させることのできる、新たな深層強化学習基盤の自律走行技術を提供する。

少数の選好データの利用でも、ユースケース（ｕｓｅ－ｃａｓｅ）に適合する自律走行パラメータを探索することができる技術を提供する。

コンピュータシステムが実行する自律走行学習方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記自律走行学習方法は、前記少なくとも１つのプロセッサにより、シミュレーション上の複数のロボットエージェントにシステムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータを付与して、ロボット自律走行を学習する段階を含む、自律走行学習方法を提供する。

一側面によると、前記学習する段階は、前記複数のロボットエージェントを対象に、ランダムサンプリングされた自律走行パラメータを入力とする強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を同時に実行してよい。

他の側面によると、前記学習する段階は、全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）とＧＲＵ（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔｓ）で構成されたニューラルネットワークを利用して、前記複数のロボットエージェントの自律走行を同時に学習してよい。

また他の側面によると、前記学習する段階は、前記ロボット自律走行の学習のためのニューラルネットワークの入力によってロボットからリアルタイムで取得するセンサ値と、自律走行ポリシー（policy：方策）と関連してランダムに付与される自律走行パラメータを使用する段階を含んでよい。

また他の側面によると、前記自律走行学習方法は、前記少なくとも１つのプロセッサにより、前記自律走行パラメータに対する選好データ（ｐｒｅｆｅｒｅｎｃｅｄａｔａ）を利用して、前記自律走行パラメータを最適化する段階をさらに含んでよい。

また他の側面によると、前記最適化する段階は、前記自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対するフィードバックを反映して、前記自律走行パラメータを最適化してよい。

また他の側面によると、前記最適化する段階は、前記自律走行パラメータの一対比較（ｐａｉｒｗｉｓｅｃｏｍｐａｒｉｓｏｎｓ）により、前記自律走行パラメータに対する選好度を評価する段階を含んでよい。

また他の側面によると、前記最適化する段階は、ベイジアンニューラルネットワーク（Ｂａｙｅｓｉａｎｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを使用して、前記自律走行パラメータに対する選好度をモデリングする段階を含んでよい。

さらに他の側面によると、前記最適化する段階は、選好度モデルの不確実性（ｕｎｃｅｒｔａｉｎｔｙ）に基づいて、前記自律走行パラメータの一対比較のためのクエリ（ｑｕｅｒｙ）を生成する段階を含んでよい。

前記自律走行学習方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

前記自律走行学習方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体を提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、シミュレーション上の複数のロボットエージェントにシステムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータを付与して、ロボット自律走行を学習する学習部、および前記自律走行パラメータに対する選好データを利用して、前記自律走行パラメータを最適化する最適化部を含むコンピュータシステムを提供する。

本発明の実施形態によると、多様な環境における強化学習を同時に進行することによって多様かつ予測不可能な実世界（ｒｅａｌ－ｗｏｒｌｄ）における学習効果を達成することができ、データの増加なく適応型自律走行アルゴリズムを実現することができる。

本発明の実施形態によると、ロボットの走行映像に対するユースケースとして適切であるかを示す選好度をモデリングした後、モデルの不確実性に基づくことで、少数の選好データの利用でも自律走行パラメータを最適化することができる。

本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータシステムが実行することのできる自律走行学習方法の例を示したフローチャートである。本発明の一実施形態における、適応型自律走行ポリシー学習アルゴリズムの例を示した図である。本発明の一実施形態における、適応型自律走行ポリシー学習のためのニューラルネットワークの例を示した図である。本発明の一実施形態における、ユーティリティ関数学習のためのニューラルネットワークの例を示した図である。本発明の一実施形態における、選好データを利用した自律走行パラメータ最適化アルゴリズムの例を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、ロボットの自律走行技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、再訓練過程が必要なく、多様なパラメータに適応させて報酬に反映させることのできる、新たな深層強化学習基盤の自律走行技術を提供することができ、少数の選好データの利用でもユースケースに適した自律走行パラメータを探索することができる。

図１は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。例えば、本発明の実施形態に係る自律走行学習システムは、図１に示したコンピュータシステム１００によって実現されてよい。

図１に示すように、コンピュータシステム１００は、本発明の実施形態に係る自律走行学習方法を実行するための構成要素として、メモリ１１０、プロセッサ１２０、通信インタフェース１３０、および入力／出力インタフェース１４０を含んでよい。

メモリ１１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ１１０とは区分される別の永続的記録装置としてコンピュータシステム１００に含まれてもよい。また、メモリ１１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ１１０とは別のコンピュータ読み取り可能な記録媒体からメモリ１１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース１３０を通じてメモリ１１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム１００のメモリ１１０にロードされてよい。

プロセッサ１２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ１１０または通信インタフェース１３０によって、プロセッサ１２０に提供されてよい。例えば、プロセッサ１２０は、メモリ１１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース１３０は、ネットワーク１６０を介してコンピュータシステム１００と互いに通信するための機能を提供してよい。一例として、コンピュータシステム１００のプロセッサ１２０がメモリ１１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース１３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータシステム１００の通信インタフェース１３０を通じてコンピュータシステム１００に受信されてよい。通信インタフェース１３０を通じて受信された信号や命令、データなどはプロセッサ１２０やメモリ１１０に伝達されてよく、ファイルなどはコンピュータシステム１００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器同士の間の近距離有線／無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

入力／出力インタフェース１４０は、入力／出力装置１５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を含んでもよく、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース１４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置１５０は、コンピュータシステム１００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力装置１５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

近年は自律走行に対する深層強化学習方式の研究が活発に進められており、強化学習を利用したロボットの自律走行技術は、経路計画（ｐａｔｈｐｌａｎｎｉｎｇ）基盤の自律走行よりも高い性能を発揮している。

しかし、従来の強化学習方法は、ロボットの最大速力と報酬構成要素の間のトレードオフ（ｔｒａｄｅ－ｏｆｆ）を示す加重値のようなパラメータに対して、固定値を使用して学習が行われていた（例えば、目標に対して短い経路を採択することと高い安全距離を維持すること）。

好ましいロボット動作はユースケースごとに異なるため、実際のシナリオにおいて問題となることがある。例えば、病院内の各病棟に配置されたロボットは、精巧な装備との衝突を回避しつつ患者に脅威を与えないように注意しなければならないが、倉庫ロボットが最優先とする課題は、できるだけ迅速に目標に到達することにある。固定パラメータによって訓練されたロボットは、多様な要件を満たすことができず、各シナリオに適するように微調整するための再訓練が必要となる。さらに、人間と相互作用するロボットの好ましい行動は人間の選好度によって異なるが、このような選好データを収集するためには多くの手間と費用が伴う。

したがって、多様なパラメータに適応することが可能なエージェントだけでなく、少数の人間選好データから最適に近いパラメータを迅速かつ正確に予測することができる方法が求められている。

図２は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図であり、図３は、本発明の一実施形態における、コンピュータシステムが実行することのできる自律走行学習方法の例を示したフローチャートである。

図２に示すように、プロセッサ１２０は、学習部２０１および最適化部２０２を含んでよい。このようなプロセッサ１２０の構成要素は、少なくとも１つのプログラムコードによって提供される制御命令にしたがってプロセッサ１２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、プロセッサ１２０が深層強化学習に基づいてロボットの自律走行を学習するようにコンピュータシステム１００を制御するために動作する機能的表現として、学習部２０１が使用されてよい。

プロセッサ１２０およびプロセッサ１２０の構成要素は、図３の自律走行学習方法に含まれる段階３１０～３２０を実行してよい。例えば、プロセッサ１２０およびプロセッサ１２０の構成要素は、メモリ１１０が含むオペレーティングシステムのコードと、上述した少なくとも１つのプログラムコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、少なくとも１つのプログラムコードは、自律走行学習方法を処理するために実現されたプログラムのコードに対応してよい。

自律走行学習方法は、図に示した順に発生しなくてもよく、段階のうちの一部が省略されたり追加の過程がさらに含まれたりしてもよい。

プロセッサ１２０は、自律走行学習方法のためのプログラムファイルに記録されたプログラムコードをメモリ１１０にロードしてよい。例えば、自律走行学習方法のためのプログラムファイルは、メモリ１１０とは区分される永続的記録装置に記録されていてよく、プロセッサ１２０は、バスを介して永続的記録装置に記録されたプログラムファイルからプログラムコードがメモリ１１０にロードされるようにコンピュータシステム１００を制御してよい。このとき、プロセッサ１２０およびプロセッサ１２０が含む学習部２０１および最適化部２０２それぞれは、メモリ１１０にロードされたプログラムコードのうちの対応する部分の命令を実行して段階３１０～３２０を実行するためのプロセッサ１２０の互いに異なる機能的表現であってよい。段階３１０～３２０を実行するために、プロセッサ１２０およびプロセッサ１２０の構成要素は、制御命令による演算を直接処理してもよいし、コンピュータシステム１００を制御してもよい。

先ず、強化学習基盤の自律走行問題を公式化すると次のとおりとなる。

本実施形態は、経路追跡（ｐａｔｈ－ｆｏｌｌｏｗｉｎｇ）自律走行タスクを考慮したものであって、エージェント（すなわち、ロボット）は目的地までの経路を移動する。このとき、経路は、一連の経由地として表現されてよい。エージェントが最後の経由地（目的地）に到達すれば新たな目標と経由地が与えられ、タスクをマルコフ決定過程（Ｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ）（Ｓ、Ａ、Ω、ｒ、ｐ_{ｔｒａｎｓ}、ｐ_ｏｂｓ）によってモデリングする。Ｓは状態（ｓｔａｔｅｓ）、Ａはアクション（ａｃｔｉｏｎｓ）、Ωは観測（ｏｂｓｅｒｖａｔｉｏｎｓ）、ｒは報酬関数（ｒｅｗａｒｄｆｕｎｃｔｉｏｎ）、ｐ_{ｔｒａｎｓ}は条件付き状態遷移（ｃｏｎｄｉｔｉｏｎａｌｓｔａｔｅ－ｔｒａｎｓｉｔｉｏｎ）、ｐ_ｏｂｓは観測確率（ｏｂｓｅｒｖａｔｉｏｎｐｒｏｂａｂｉｌｉｔｉｅｓ）を意味する。

自律走行ロボットとして差等二輪モバイルプラットフォームモデルを使用し、割引係数がγ＝０．９９である汎用設定を適用する。

（１）自律走行パラメータ（ｎａｖｉｇａｔｉｏｎｐａｒａｍｅｔｅｒｓ）
多くのパラメータが、強化学習基盤の自律走行エージェントの動作に影響を与える。例えば、７つのパラメータで構成された自律走行パラメータ

を考慮してみる。

ここで、ｗ_stopは衝突または非常停止時の報酬、ｗ_{ｓｏｃｉａｌＬｉｍ}は他のエージェントと衝突し得る最小予想時間、ｗ_{ｓｏｃｉａｌ}はｗ_{ｓｏｃｉａｌＬｉｍ}を違反したことに対する報酬、ｗ_ｍａｘＶは最大線形速度（ｍａｘｉｍｕｍｌｉｎｅａｒｓｐｅｅｄ）、ｗ_ａｃｃＶは線形加速度（ｌｉｎｅａｒａｃｃｅｌｅｒａｔｉｏｎ）、ｗ_ｍａｘＶは各速度（ａｎｇｕｌａｒｓｐｅｅｄ）、ｗ_ａｃｃＷは各加速度（ａｎｇｕｌａｒａｃｃｅｌｅｒａｔｉｏｎ）を意味する。

本発明の目標は、多様なパラメータｗに適応することができ、与えられたユースケースに適したパラメータｗ
を効率的に探索するエージェントを訓練させることにある。

（２）観測（ｏｂｓｅｒｖａｔｉｏｎｓ）
エージェントの観測形式は、数式（２）のとおりとなる。

ここで、

は、ライダー（ｌｉｄａｒ）のような距離センサのスキャンデータで構成される。－１８０゜～１８０゜までのデータを２０゜間隔で一時的に記録し、各ｂｉｎから最小値を採択する。エージェントが知覚することのできる最大距離は３ｍである。

は、現在の線形および各速度で構成され、前段階で位置と関連するロボット位置の変化は、数式（３）のとおりとなる。

このとき、Δｘ，Δｙ，Δθは、ロボットのｘ、ｙ位置変化量と方向（ｈｅａｄｉｎｇ）変化量を意味し、Δｔは、一段階（ｔｉｍｅｓｔｅｐ）の持続時間を意味する。

最後に、Ｏ_ｐａｔｈは（ｃｏｓ（φ），ｓｉｎ（φ））となり、φはロボットの座標系において次の経由地に対する相対的角度を意味する。

（３）アクション（ａｃｔｉｏｎｓ）
エージェントのアクションは、［－１，１］^２におけるベクトルとして間隔［－０．２ｍ／ｓ，ｗ_ｍａｘＶ］に正規化されたロボットの所望する線形速力を示し、角速度は、［－ｗ_ｍａｘＷ，ｗ_ｍａｘＷ］に正規化される。ロボットがアクションを実行すれば±ｗ_ａｃｃＷの各加速度が適用され、速度を増加させるときは線形加速度がｗ_ａｃｃＶであり、減少させるときは－０．２ｍ／ｓである。

（４）報酬関数（ｒｅｗａｒｄｆｕｎｃｔｉｏｎ）
報酬関数ｒ：Ｓ×Ａ×Ｗ→Ｒは、数式（４）のように、５つの構成要素の和を意味する。

報酬ｒ_ｂａｓｅ＝－０．０１は、エージェントが最小時間内に経由地に到達するように勧めるために、すべての段階で与えられる。

のように設定されるが、このときΔｄ＝ｄ_ｔ－ｄ_ｔ－１であり、ｄ_ｔは段階ｔから経由地までのユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）、Δｔは段階の持続時間である。衝突回避に必要な最短経路で小さな偏差に対するペナルティを減らすために平方根が使用される。エージェントと現在の経由地との間の距離が１ｍ未満の場合はｒ_{ｗａｙｐｏｉｎｔ}＝１の報酬があり、経由地がアップデートされる。

ロボットがシミュレーションと実際の環境で最小安全距離を維持するようにするために障害物や他の物体と衝突すると推定される時間が１秒未満の場合、または衝突が発生した場合にｒ_ｓｔｏｐ＝ｗ_ｓｔｏｐの報酬が与えられる場合、線形速度を０ｍ／ｓに設定してロボットを停止させる。予想衝突時間は現在の動作で与えられた目標速度によって計算され、Ｏ_ｓｃａｎで代表される障害地点を活用して０．５ｍ辺の正方形でロボットをモデリングする。

他のエージェントに対する予想衝突時間がｗ_{ｓｏｃｉａｌＬｉｍ}秒よりも短いときに報酬ｒ_{ｓｏｃｉａｌ}＝ｗ_{ｓｏｃｉａｌ}が与えられる。予想衝突時間は、スキャンデータの代わりに３ｍ範囲内の他のエージェントの位置を使用することを除いてｒ_ｓｔｏｐに対して計算される。観測に他のエージェントの位置を含ませないため、ロボットはスキャンデータの順序を活用して他のエージェントの静的障害物を区別する。

図３を参照すると、本発明に係る自律走行学習方法の一例は、次の２つの段階を含む。

段階３１０で、学習部２０１は、広範囲な自律走行パラメータに適応することが可能な自律走行ポリシーを再訓練なく学習するために、シミュレーション環境において数台のロボットにランダムに自律走行パラメータを付与して学習を同時に進行する。

学習部２０１は、自律走行学習のためのニューラルネットワークの入力としてセンサデータと自律走行パラメータを使用してよい。センサデータは、ロボットからリアルタイムで取得するセンサ値であって、例えば、ＴｏＦ（ｔｉｍｅｏｆｆｌｉｇｈｔ）センサ値、現在の速度、オドメータ、走行方向、障害物の位置などを含んでよい。自律走行パラメータは、ランダムに付与される設定値であって、システムによって自動設定されてもよいし管理者によって直接設定されてもよい。例えば、自律走行パラメータは、衝突時の報酬、衝突回避に必要な安全距離と安全距離における報酬、最大速度（直線速度、回転速度）、最大加速度（直線加速度、回転加速度）などを含んでよい。パラメータ範囲が１～１０であると仮定するとき、パラメータ値が１であるロボットからパラメータ値が１０であるロボットまで計１０台のロボットを利用してシミュレーションを実行してよい。このとき、自律走行パラメータは、以下で説明する選好度に基づいて指定されてよい。

学習部２０１は、シミュレーション上において、ランダムサンプリングされたパラメータをロボットそれぞれに付与する方式で数台のロボットを同時に学習させることにより、再学習なく、多様なパラメータに合わせて自律走行が可能であり、従来には学習に使用されていなかった新たなパラメータまで一般化（ｇｅｎｅｒａｌｉｚａｔｉｏｎ）が可能となる。

一例として、図４のアルゴリズムに要約したように、分散マルチエージェント訓練（ｄｅｃｅｎｔｒａｌｉｚｅｄｍｕｌｔｉ－ａｇｅｎｔｔｒａｉｎｉｎｇ）方式を適用してよい。エピソードごとに複数のエージェントを共有環境に配置する。ポリシーを多様な自律走行パラメータに適するように調整するために、各エピソードが始まるときの分布から各エージェントの自律走行パラメータをランダムにサンプリングする。強化学習アルゴリズムの場合、パラメータサンプリングが効率的かつ安定的であり、より優れた成果のポリシーを生産する。

図５および図６は、本発明の一実施形態における、自律走行学習のためのニューラルネットワーク構造の一例を示した図である。

本発明に係る自律走行学習のためのニューラルネットワークアキテクチャは、適応型ポリシー学習構造（図５）と、ユーティリティ関数（ｕｔｉｌｉｔｙｆｕｎｃｔｉｏｎ）学習（図６）構造を使用する。ＦＣは全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）を示し、ＢａｙｅｓｉａｎＦＣはベイジアン全結合層（Ｂａｙｅｓｉａｎｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）を示し、併合された分岐は連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）を示す。ユーティリティ関数ｆ（ｗ_１）とｆ（ｗ_２）は、共有加重値を利用して計算される。

図５に示すように、ネットワークに対する追加入力としてエージェントの自律走行パラメータを提供する。エージェントとエージェント環境の時間易学をモデリングするために、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙｍｏｄｅｌｓ）に比べて少ない演算を要求すると同時に、競争的性能を提供するＧＲＵ（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔｓ）を使用する。

本実施形態は、シミュレーション内で多様な設定のロボットを同時に学習させることにより、複数の入力による強化学習を同時に進行することができ、多様かつ予測不可能な実世界における学習効果を得ることができる。自律走行学習のための設定によって複数のランダムサンプリングされたパラメータを利用したとしても、学習に必要となるすべてのデータ量は１つの固定パラメータを利用する場合と同一あるいは類似の水準となるため、少ないデータによって適応型アルゴリズムを生成することができる。

再び図３において、段階３２０で、最適化部２０２は、シミュレーションロボットの走行映像に対する選好データを利用して、自律走行パラメータを最適化してよい。最適化部２０２は、人間がロボットの走行映像を見てフィードバックを与えると、フィードバック値を反映して人間の選好する方式で自律走行パラメータを学習することにより、ユーザ選好に対する自律走行パラメータを最適化することができる。

最適化部２０２は、自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対して、人間からフィードバックを受けて反映するニューラルネットワークを活用してよい。図６を参照すると、ニューラルネットワークの入力は自律走行パラメータｗとなり、出力はソフトマックス（ｓｏｆｔｍａｘ）計算によるスコアとしてユーティリティ関数ｆ（ｗ）となる。すなわち、ユーザフィードバックによってソフトマックスを１または０で学習しながら、スコアが最も高く出るパラメータを探索するのである。

広範囲な自律走行パラメータに適応することが可能なエージェントがあったとしても、与えられたユースケースに対して最適な自律走行パラメータを探索する問題は依然として残っている。したがって、選好データを使用して自律走行パラメータを最適化するという新たなベイジアン接近法を提案する。本実施形態では、容易に導き出すことが可能な一対比較（ｐａｉｒｗｉｓｅｃｏｍｐａｒｉｓｏｎｓ）によって選好度を評価してよい。

一例として、Ｂｒａｄｌｅｙ－Ｔｅｒｒｙモデルをモデル選好度に使用してよい。自律走行パラメータ

が

よりも選好される確率は、数式（５）のとおりとなる。

ここで、ｔ_１とｔ_２はｗ_１とｗ_２を使用して収集したロボット軌跡であって、ｗ_１＞ｗ_２はｗ_１がｗ_２よりも選好されることを示しており、ｆ：Ｗ→Ｒはユーティリティ関数である。正確な選好度評価のためには、同一の環境および経由地を利用して軌跡ｔ_１とｔ_２を収集する。選好データにユーティリティ関数ｆ（ｗ）を合わせ、これを使用することによって新たな自律走行パラメータに対する環境設定を予測する。

選好度モデルの能動的学習のために、パラメータθ_ＢＮがあるベイジアンニューラルネットワークでユーティリティ関数ｆ（ｗ｜θ_ＢＮ）を学習する。特に、能動的にクエリを生成するために予測不確実性に対する推定値を使用することにより、クエリの数を最小化してよい。

図７のアルゴリズムに示すように、選好度モデルのＮｌｌ（ｎｅｇａｔｉｖｅｌｏｇ－ｌｉｋｅｌｉｈｏｏｄ）（数式（６））を最小化する方向でニューラルネットワーク（図６）を訓練させる。

各繰り返しにおいて、前段階でパラメータθ_ＢＮを始めとしてＮ_{ｕｐｄａｔａ}段階ずつネットワークを訓練させる。一例として、数式（７）のように設定することにより、新たなクエリを積極的にサンプリングするために変更されたＵＣＢ（ｕｐｐｅｒ－ｃｏｎｆｉｄｅｎｃｅｂｏｕｎｄｓ）を使用してよい。

ここで、μ（ｆ（ｗ｜θ_ＢＮ））とσ（ｆ（ｗ｜θ_ＢＮ））は、ネットワークのＮ_{ｆｏｒｗａｒｄ}フォワードパス（ｆｏｒｗａｒｄｐａｓｓ）で計算されたｆ（ｗ｜θ_ＢＮ）の平均と標準偏差を意味する。シミュレーション環境で一般的にσ（ｆ（ｗ｜θ_ＢＮ））の前に示される

係数は省略する。

Ｎ_{ｓａｍｐｌｅ}均一にサンプリングされた自律走行パラメータのうち、ＵＣＢ（ｗ｜θ_ＢＮ）が最も高いＮ_{ｑｕｅｒｙ}自律走行パラメータを使用してロボットの軌跡を生成する。この後、Ｎ_{ｑｕｅｒｙ}の新たな選好度クエリを能動的に生成する。このために、すべての自律走行パラメータの集合であるすべての

に対してμ（ｆ（ｗ｜θ_ＢＮ））とＵＣＢ（ｗ｜θ_ＢＮ）を計算する。Ｗ_ｍｅａｎをＤ_{ｐａｒａｍｓ}で最も高いＮ_ｔｏｐのμ（ｆ（ｗ｜θ_ＢＮ））とし、Ｗ_ＵＣＢをＤ_{ｐａｒａｍｓ}で最も高いＮ_ｔｏｐのＵＣＢ（ｆ（ｗ｜θ_ＢＮ））とすることでサンプル集合とするとしよう。それぞれの選好度クエリは、Ｗ_ｍｅａｎとＷ_ＵＣＢでｗ_１とｗ_２が均一にサンプリングされる自律走行パラメータの対（ｗ_１，ｗ_２）で構成される。

言い換えれば、最適化部２０２は、それぞれ異なるパラメータで走行したロボットの２つの映像クリップをユーザに見せ、どちらの映像がユースケースにより適するかに対する選好度を調査した後に選好度をモデリングし、モデルの不確実性に基づいて新たなクリップを生成することにより、少数の選好データでも満足度の高いパラメータを探索することができる。ニューラルネットワークの連結強度を計算するたびに一定の分布でサンプリングし、特に、ベイジアンニューラルネットワークを活用して能動的にクエリを生成する過程において、予測結果の不確実性が高い入力に学習を誘導し、全体学習に必要となるクエリの数を効果的に減らすことができる。

このように、本発明の実施形態によると、多様な環境における強化学習を同時に進行することによって多様で予測不可能な実世界における学習効果を達成することができ、データの増加なく、適応型自律走行アルゴリズムを実現することができる。さらに、本発明の実施形態によると、ロボットの走行映像に対してユースケースに適するかどうかを示す選好度をモデリングした後、モデルの不確実性に基づくことで、少数の選好データでも自律走行パラメータを最適化することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims

コンピュータシステムが実行する自律走行学習方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記自律走行学習方法は、
前記少なくとも１つのプロセッサが、システムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータをシミュレーション上の複数のロボットエージェントに付与して、ロボット自律走行を学習する段階
を含み、
前記学習する段階は、
前記ロボット自律走行の学習のためのニューラルネットワークの入力として、ロボットからリアルタイムで取得するセンサ値と、自律走行ポリシーと関連してランダムに付与される自律走行パラメータとを使用して、モデルのＮｌｌ（ｎｅｇａｔｉｖｅｌｏｇ－ｌｉｋｅｌｉｈｏｏｄ）を最小化する段階を含む、
自律走行学習方法。
前記学習する段階は、
前記複数のロボットエージェントを対象に、ランダムにサンプリングされた自律走行パラメータを入力とする強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を同時に実行すること
を特徴とする、請求項１に記載の自律走行学習方法。
前記学習する段階は、
全結合層（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）とＧＲＵ（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔｓ）で構成されたニューラルネットワークを利用して、前記複数のロボットエージェントの自律走行を同時に学習することを特徴とする、請求項１又は２に記載の自律走行学習方法。
前記自律走行学習方法は、
前記少なくとも１つのプロセッサが、前記自律走行パラメータに対する人間の選好データ（ｐｒｅｆｅｒｅｎｃｅｄａｔａ）を利用して、選好度モデルに近接させるように前記自律走行パラメータを最適化する段階
をさらに含む、請求項１乃至３のいずれか一項に記載の自律走行学習方法。
前記最適化する段階は、
前記自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対するフィードバックを反映して、前記自律走行パラメータを最適化すること
を特徴とする、請求項４に記載の自律走行学習方法。
前記最適化する段階は、
前記自律走行パラメータの一対比較（ｐａｉｒｗｉｓｅｃｏｍｐａｒｉｓｏｎｓ）によって、前記自律走行パラメータに対する選好度を評価する段階
を含む、請求項４に記載の自律走行学習方法。
コンピュータシステムが実行する自律走行学習方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記自律走行学習方法は、
前記少なくとも１つのプロセッサが、システムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータをシミュレーション上の複数のロボットエージェントに付与して、ロボット自律走行を学習する段階
を含み、
前記自律走行学習方法は、
前記少なくとも１つのプロセッサが、前記自律走行パラメータに対する人間の選好データ（ｐｒｅｆｅｒｅｎｃｅｄａｔａ）を利用して、選好度モデルに近接させるように前記自律走行パラメータを最適化する段階
をさらに含み、
前記最適化する段階は、
ベイジアンニューラルネットワーク（Ｂａｙｅｓｉａｎｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルを使用して、前記自律走行パラメータに対する選好度をモデリングする段階
を含む、自律走行学習方法。
請求項１～７のうちのいずれか一項に記載の自律走行学習方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラム。
請求項１～７のうちのいずれか一項に記載の自律走行学習方法をコンピュータに実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
シミュレーション上の複数のロボットエージェントにシステムによる自動設定または管理者による直接設定によって互いに異なる自律走行パラメータを付与して、ロボット自律走行を学習する学習部
を含み、
前記学習部は、
前記ロボット自律走行の学習のためのニューラルネットワークの入力として、ロボットからリアルタイムで取得するセンサ値と、自律走行ポリシーと関連してランダムに付与される自律走行パラメータとを使用して、モデルのＮｌｌ（ｎｅｇａｔｉｖｅｌｏｇ－ｌｉｋｅｌｉｈｏｏｄ）を最小化すること、を特徴とする、
コンピュータシステム。
前記学習部は、
前記複数のロボットエージェントを対象に、ランダムにサンプリングされた自律走行パラメータを入力とする強化学習を同時に実行すること
を特徴とする、請求項１０に記載のコンピュータシステム。
前記学習部は、
全結合層とＧＲＵで構成されたニューラルネットワークを利用して、前記複数のロボットエージェントの自律走行を同時に学習すること
を特徴とする、請求項１０又は１１に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記自律走行パラメータに対する人間の選好データを利用して、選好度モデルに近接させるように前記自律走行パラメータを最適化する最適化部
をさらに含む、請求項１０乃至１２のいずれか一項に記載のコンピュータシステム。
前記最適化部は、
前記自律走行パラメータが互いに異なるように設定されたロボットの走行映像に対するフィードバックを反映して、前記自律走行パラメータを最適化すること
を特徴とする、請求項１３に記載のコンピュータシステム。
前記最適化部は、
前記自律走行パラメータの一対比較によって、前記自律走行パラメータに対する選好度を評価すること
を特徴とする、請求項１３に記載のコンピュータシステム。
前記最適化部は、
ベイジアンニューラルネットワークモデルを使用して、前記自律走行パラメータに対する選好度をモデリングすること
を特徴とする、請求項１３に記載のコンピュータシステム。