JP7297842B2

JP7297842B2 - リスク尺度を示すパラメータに基づいて訓練されたモデルを使用して、与えられた状況に対するデバイスの行動を決定する方法およびシステム

Info

Publication number: JP7297842B2
Application number: JP2021171002A
Authority: JP
Inventors: ジンヨンチェ; ダンスクリストファー; ジョンウンキム; スルビンファン; ギョンシクパク
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-12-23
Filing date: 2021-10-19
Publication date: 2023-06-26
Anticipated expiration: 2041-10-19
Also published as: KR20220090732A; KR20240008386A; JP2022100227A; KR102622243B1; US20220198225A1

Description

以下の説明は、状況によるデバイスの行動を決定する方法に関し、より詳細には、デバイスの制御と関連するリスク尺度（ｒｉｓｋｍｅａｓｕｒｅ）を示すパラメータを使用してデバイスの行動による報酬の分布を学習したモデルを利用して状況によるデバイスの行動を決定する方法と、該当のモデルを学習させる方法に関する。

強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）は、機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）の一種であって、与えられた状況（または、状態）（ｓｔａｔｅ）に対して最適の行動（ａｃｔｉｏｎ）を選択できるようにする学習方法である。強化学習の対象となるコンピュータプログラムは、エージェント（ａｇｅｎｔ）と呼ばれる。エージェントは、与えられた状況に対して自身が取る行動を示すポリシー（政策）（ｐｏｌｉｃｙ）を樹立するが、最大の報酬を得ることのできるポリシーを樹立するためにモデルを学習させる。このような強化学習は、自律走行車や自律走行ロボットを制御するためのアルゴリズムを実現するために使用される。

例えば、特許文献１（登録日２０１７年８月２１日）には、絶対座標を認識して目的地まで自動で移動することができる自律走行ロボットおよびこのナビゲーション方法について開示している。

上述した情報は、本発明の理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともある。

韓国登録特許第１０－１７７１６４３号公報

デバイスの制御と関連するリスク尺度を示すパラメータを使用して、状況に対するデバイスの行動による報酬の分布を学習させるモデル学習方法を提供する。

リスク尺度を示すパラメータを使用して状況に対するデバイスの行動による報酬の分布を学習した学習モデルに対して環境の特性を考慮したリスク尺度を示すパラメータを設定し、該当の環境でデバイスを制御するときに、与えられた状況によるデバイスの行動を決定する方法を提供する。

一側面によると、コンピュータシステムが実行する、状況によるデバイスの行動を決定する方法であって、前記デバイスの制御と関連するリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定する段階、前記設定されたパラメータに基づいて、前記環境で前記デバイスを制御するときに、与えられた状況による前記デバイスの行動を決定する段階を含み、前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができる、状況によるデバイスの行動を決定する方法を提供する。

前記デバイスの行動を決定する段階は、前記設定されたリスク尺度を示すパラメータの値または前記パラメータの値が示す範囲により、前記与えられた状況に対してリスクをさらに回避したりリスクをさらに追及したりするように前記デバイスの行動を決定してよい。

前記デバイスは自律走行するロボットであり、前記デバイスの行動を決定する段階は、前記設定されたリスク尺度を示すパラメータの値が所定の値以上であるか前記パラメータの値が所定の範囲以上を示す場合、リスクをさらに追求するようにする前記ロボットの行動として、前記ロボットの直進または前記ロボットの加速を決定してよい。

前記学習モデルは、分位点回帰分析（ｑｕａｎｔｉｌｅｒｅｇｒｅｓｓｉｏｎ）方法を使用して、状況に対する前記デバイスの行動によって得られる報酬の分布を学習したものであってよい。

前記学習モデルは、所定の第１範囲に属する第１パラメータ値に対応する前記報酬の値を学習するが、前記第１範囲に対応する第２範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習し、前記第１パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第１パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応してよい。

前記第１範囲は０～１であり、前記第２範囲は０～１であり、前記学習モデルを学習するときに、前記第２範囲に属する前記リスク尺度を示すパラメータは、ランダムにサンプリングされてよい。

前記第１パラメータ値のそれぞれは百分率位置を示し、前記第１パラメータ値のそれぞれは、該当する百分率位置の前記報酬の値に対応してよい。

前記学習モデルは、状況に対する前記デバイスの行動を予測するための第１モデルおよび前記予測された行動による報酬を予測するための第２モデルを含み、前記第１モデルおよび前記第２モデルそれぞれは、前記リスク尺度を示すパラメータを使用して学習されたものであり、前記第１モデルは、前記第２モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習されてよい。

前記デバイスは自律走行するロボットであり、前記第１モデルおよび前記第２モデルは、前記ロボットの周囲の障害物の位置、前記ロボットが移動する経路、および前記ロボットの速度に基づいて、前記デバイスの行動および前記報酬をそれぞれ予測してよい。

前記学習モデルは、状況に対する前記デバイスの行動による報酬の推定を繰り返すことによって前記報酬の分布を学習し、各繰り返しは、前記デバイスの出発地から目的地への移動を示す各エピソードに対する学習および前記学習モデルのアップデートを含み、前記各エピソードが始まるときに前記リスク尺度を示すパラメータがサンプリングされ、サンプリングされた前記リスク尺度を示すパラメータは、前記各エピソードが終了するときまで固定されてよい。

前記学習モデルのアップデートは、バッファに記録されたサンプリングされた前記リスク尺度を示すパラメータを使用して実行されるか、前記リスク尺度を示すパラメータをリサンプリングし、リサンプリングされた前記リスク尺度を示すパラメータを使用して実行されてよい。

前記リスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータは、ＣＶａＲ（ＣｏｎｄｉｔｉｏｎａｌＶａｌｕｅ－ａｔ－Ｒｉｓｋ）リスク尺度を示すパラメータとして０超過１以下（または、０以上１以下）の範囲の数であるか、べき乗則（ｐｏｗｅｒ－ｌａｗ）リスク尺度として０未満（または、０以下）の範囲の数であってよい。

前記デバイスは自律走行するロボットであり、前記リスク尺度を示すパラメータを設定する段階は、前記環境で前記ロボットが自律走行する間に、利用者から要請された値に基づいて、前記学習モデルに前記リスク尺度を示すパラメータを設定してよい。

他の一側面において、コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、前記デバイスの制御と関連するリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定し、前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定し、前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができる、コンピュータシステムが提供される。

また他の一側面において、コンピュータシステムが実行する、状況によるデバイスの行動を決定するために使用されるモデルを学習させる方法であって、前記モデルに、前記デバイスの制御と関連するリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習させる段階を含み、学習された前記モデルに対しては、環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、学習された前記モデルに前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータが設定されることにより、前記モデルを利用することで、前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動が決定される、モデルを学習させる方法。

前記学習させる段階は、前記モデルに、分位点回帰分析（ｑｕａｎｔｉｌｅｒｅｇｒｅｓｓｉｏｎ）方法を使用して、状況に対する前記デバイスの行動によって得られる報酬の分布を学習させてよい。

前記学習させる段階は、前記モデルに、所定の第１範囲に属する第１パラメータ値に対応する前記報酬の値を学習させるが、前記第１範囲に対応する第２範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習させ、前記第１パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第１パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応してよい。

前記モデルは、状況に対する前記デバイスの行動を予測するための第１モデルおよび前記予測された行動による報酬を予測するための第２モデルを含み、前記第１モデルおよび前記第２モデルそれぞれは、前記リスク尺度を示すパラメータを使用して学習されたものであり、前記学習させる段階は、前記第１モデルを、前記第２モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習させてよい。

品物を把持したり自律走行したりするロボットのようなデバイスの状況による行動を決定するときに、該当のデバイスの制御と関連するリスク尺度を示すパラメータを使用してデバイスの行動による報酬の分布を学習したモデルを使用することができる。

モデルを再学習させる必要なく、多様なリスク尺度を示すパラメータをモデルに設定することができる。

モデルに、環境の特性が考慮されたリスク尺度を示すパラメータが設定され、このようなパラメータが設定されたモデルを使用することにより、与えられた環境の特性によるリスクを回避あるいは追求しながらデバイスを制御することができる。

一実施形態における、状況によるデバイスの行動を決定する方法を実行するコンピュータシステムを示した図である。一実施形態における、コンピュータシステムのプロセッサを示した図である。一実施形態における、状況によるデバイスの行動を決定する方法を示したフローチャートである。一例における、学習モデルによって学習されたデバイスの行動による報酬の分布を示した図である。一例における、設定されたリスク尺度を示すパラメータにしたがって環境内で制御されるロボットを示した図である。一例における、状況によるデバイスの行動を決定するモデルのアーキテクチャを示した図である。一例における、学習モデルを訓練させるためのシミュレーションの環境を示した図である。一例における、学習モデルを訓練させるためのシミュレーションにおけるロボットのセンサ設定を示した図である。一例における、学習モデルを訓練させるためのシミュレーションにおけるロボットのセンサ設定を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

図１は一実施形態における、状況によるデバイスの行動を決定する方法を実行するコンピュータシステムを示した図である。

以下で説明する実施形態における、状況によるデバイスの行動を決定する方法を実行するコンピュータシステムは、図１に示したコンピュータシステム１００によって実現されてよい。

コンピュータシステム１００は、以下で説明する、状況によるデバイスの行動を決定するためのモデルを構築するためのシステムであってよい。構築されたモデルが搭載されるコンピュータシステム１００に搭載されてよい。コンピュータシステム１００によって構築されたモデルは、デバイスの制御のためのプログラムであるエージェント（ａｇｅｎｔ）に搭載されてよい。または、コンピュータシステム１００は、デバイスに含まれてもよい。言い換えれば、コンピュータシステム１００は、デバイスの制御システムを構成してよい。

デバイスは、与えられた状況（状態）によって特定の行動（すなわち、制御動作）を実行する装置であってよい。デバイスは、例えば、自律走行ロボットであってよい。または、デバイスは、サービスを提供するサービスロボットであってよい。サービスロボットが提供するサービスは、飲食物、商品、または宅配を空間内で配達する配達サービス、または利用者を空間内の特定の位置に案内する道案内サービスを含んでよい。または、デバイスは、品物を把持したり持ち上げたりするなどの動作を実行するロボットであってよい。その他にも、与えられた状況（状態）によって特定の制御動作を実行することが可能な装置であれば、実施形態のモデルを使用して行動が決定されるデバイスとなってよい。制御動作は、強化学習に基づくアルゴリズムによって制御が可能なデバイスのいずれかの動作であってよい。

「状況（状態）」とは、環境内で制御されるデバイスが直面する状況を意味してよい。例えば、デバイスが自律走行ロボットである場合、「状況（状態）」は、自律走行ロボットが出発地から目的地に移動することによって直面するいずれかの状況（例えば、障害物が前方または周囲に位置する状況など）を示してよい。

図１に示すように、コンピュータシステム１００は、構成要素として、メモリ１１０、プロセッサ１２０、通信インタフェース１３０、および入力／出力インタフェース１４０を含んでよい。

メモリ１１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ１１０とは区分される別の永続的記録装置としてコンピュータシステム１００に含まれてもよい。また、メモリ１１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ１１０とは別のコンピュータ読み取り可能な記録媒体からメモリ１１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース１３０を通じてメモリ１１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されたファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム１００のメモリ１１０にロードされてよい。

プロセッサ１２０は、基本的な算術、ロジック、および入力／出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ１１０または通信インタフェース１３０によって、プロセッサ１２０に提供されてよい。例えば、プロセッサ１２０は、メモリ１１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース１３０による通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

入力／出力インタフェース１４０は、入力／出力装置１５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース１４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置１５０は、コンピュータシステム１００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力装置１５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

以下では、実施形態の状況によるデバイスの行動を決定する方法を実行し、状況によるデバイスの行動を決定するために学習されたモデルを構築する、コンピュータシステムのプロセッサ１２０についてさらに詳しく説明する。

これに関し、図２は、一実施形態における、コンピュータシステムのプロセッサを示した図である。

図に示すように、プロセッサ１２０は、学習部２０１および決定部２０２を含んでよい。このようなプロセッサ１２０の構成要素は、少なくとも１つのプログラムコードによって提供される制御命令にしたがってプロセッサ１２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。

例えば、実施形態の状況によるデバイスの行動を決定するために使用されるモデルを学習（または、訓練）させるためのプロセッサ１２０の動作の機能的な表現として学習部２０１が使用されてよく、学習されたモデルを使用して与えられた状況によるデバイスの行動を決定するためのプロセッサ１２０の動作の機能的な表現として決定部２０２が使用されてよい。

プロセッサ１２０およびプロセッサ１２０の構成要素は、図３に示した段階３１０～３３０を実行してよい。例えば、プロセッサ１２０およびプロセッサ１２０の構成要素は、メモリ１１０が含むオペレーティングシステムのコードと、上述した少なくとも１つのプログラムコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、少なくとも１つのプログラムコードは、自律走行学習方法を処理するために実現されたプログラムのコードに対応してよい。

プロセッサ１２０は、実施形態の方法を実行するためのプログラムファイルに記録されたプログラムコードをメモリ１１０にロードしてよい。このようなプログラムファイルは、メモリ１１０とは区分される永続的記録装置に記録されていてよく、プロセッサ１２０は、バスを介して永続的記録装置に記録されたプログラムファイルからプログラムコードがメモリ１１０にロードされるようにコンピュータシステム１００を制御してよい。このとき、プロセッサ１２０の構成要素は、メモリ１１０にロードされたプログラムコードのうちの対応する部分の命令を実行しながら、段階３１０～３３０に対応する動作を実行してよい。以下で説明する段階３１０～３３０をはじめとする動作を実行するために、プロセッサ１２０の構成要素は、制御命令による演算を直接処理してもよいし、コンピュータシステム１００を制御してもよい。

以下の詳細な説明では、コンピュータシステム１００、プロセッサ１２０、またはプロセッサ１２０の構成要素が実行する動作は、説明の便宜上、コンピュータシステム１００が実行する動作として説明する。

図３は、一実施形態における、状況によるデバイスの行動を決定する方法を示したフローチャートである。

図３を参照しながら、状況によるデバイスの行動を決定するために使用される（学習）モデルを学習させ、学習されたモデルを使用して状況によるデバイスの行動を決定する方法についてさらに詳しく説明する。

段階３１０で、コンピュータシステム１００は、状況によるデバイスの行動を決定するために使用されるモデルを学習させてよい。前記モデルは、深層強化学習に基づいたアルゴリズムによって学習されたモデルであってよい。コンピュータシステム１００は、（デバイスの行動を決定するための）モデルに対し、デバイスの制御と関連するリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータを使用することで、状況に対する前記デバイスの行動による報酬の分布を学習させてよい。

段階３２０で、コンピュータシステム１００は、このようなデバイスの制御と関連するリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータを使用して状況に対するデバイスの行動による報酬の分布を学習した（学習）モデルに、デバイスが制御される環境に対するリスク尺度を示すパラメータを設定してよい。実施形態では、学習モデルに対しては、デバイスが制御される環境の特性によってリスク尺度を示すパラメータが相異するように設定されてよい。構築された学習モデルに対する、リスク尺度を示すパラメータの設定は、該当の学習モデルが適用されるデバイスを運用する利用者によってなされてよい。例えば、利用者は、自身が使用するユーザ端末やデバイスのユーザインタフェースを利用して、デバイスが環境内で制御されるときに考慮されるリスク尺度を示すパラメータを設定してよい。デバイスが自律走行するロボットである場合、環境でロボットが自律走行する間（または、自律走行の前後）に、利用者から要請された値に基づいて、学習モデルにリスク尺度を示すパラメータを設定してよい。設定されるパラメータは、デバイスが制御される環境の特性を考慮したものであってよい。

一例として、自律走行ロボットであるデバイスが制御される環境が、障害物や歩行者の出没率が高い場所である場合、利用者は、学習モデルに対し、リスクをより回避するようにする値に該当するパラメータを設定してよい。または、自律走行ロボットであるデバイスが制御される環境が、障害物や歩行者の出没率が低く、ロボットが走行する通路が広い場合、利用者は、学習モデルに対し、リスクをより追求するようにする値に該当するパラメータを設定してよい。

段階３３０で、コンピュータシステム１００は、設定されたパラメータに基づいて（すなわち、設定されたパラメータに基づいた、上述した学習モデルによる結果値に基づいて）、環境でデバイスが制御されるときに、状況によるデバイスの行動を決定してよい。言い換えれば、コンピュータシステム１００は、設定されたリスク尺度を示すパラメータによるリスク尺度を考慮した上でデバイスを制御してよい。これにより、デバイスは、直面した状況に対してリスクを回避するように制御されるようになり（例えば、通路で障害物に直面した場合に、障害物のない他の通路を走行したり、極度に速度を落として慎重に障害物を回避したりするなど）、直面した状況に対してリスクをより追求するように制御されるようになる（例えば、通路で障害物に直面した場合に、障害物のある通路をそのまま通過したり、狭い通路を通過するときに速度を落とさずに通過したりするなど）。

コンピュータシステム１００は、設定されたリスク尺度を示すパラメータの値または該当のパラメータの値が示す範囲（例えば、該当のパラメータ値以下／未満）により、与えられた状況に対してリスクをさらに回避するかあるいはリスクをさらに追求するようにデバイスの行動を決定してよい。言い換えれば、設定されたリスク尺度を示すパラメータの値またはその範囲は、デバイスの制御においてデバイスが考慮するリスク尺度に対応してよい。

例えば、デバイスが自律走行するロボットである場合、コンピュータシステム１００は、（学習モデルに対して）設定されたリスク尺度を示すパラメータの値が所定の値以上であるかパラメータの値が所定の範囲以上を示す場合、リスクをさらに追求するようにするロボットの行動として、ロボットの直進またはロボットの加速を決定してよい。これとは反対に、リスクを追求しない（すなわち、回避する）ロボットの行動は、他の通路への迂回またはロボットの減速であってよい。

これに関し、図５は、一例における、設定されたリスク尺度を示すパラメータによって環境内で制御されるロボットを示した図である。図に示したロボット５００は、自律走行ロボットであって、上述したデバイスに対応してよい。図に示すように、ロボット５００は、障害物５１０と直面する状況において障害物を回避して移動してよい。ロボット５００の制御のために使用される学習モデルに対して設定されたパラメータが示すリスク尺度により、ロボット５００のこのような障害物５１０回避の動作は、上述したように異なってよい。

一方、デバイスが品物を把持する（または、拾う）ロボットである場合、リスクをさらに追求するようにするロボットの行動は、より果敢に（例えば、より高速度および／または強い力で）品物を把持することであってよく、これとは反対に、リスクを追求しないロボットの行動は、より慎重に（例えば、より低速度および／または弱い力で）品物を把持することであってよい。

または、デバイスが足を備えたロボットの場合、リスクをさらに追求するようにするロボットの行動は、より果敢な動作（例えば、より歩幅が広い動作および／または高速度）であってよく、これとは反対に、リスクを追求しないロボットの行動は、より慎重な動作（例えば、より歩幅が狭い動作および／または低速度）であってよい。

このように、実施形態では、学習モデルに対し、デバイスが制御される環境の特性が考慮されたリスク尺度を示すパラメータを多様に（すなわち、多様に相異した値を）設定することができ、環境に適合する程度のリスク尺度を考慮した上でデバイスを制御することができる。

実施形態の学習モデルは、最初の学習のときにリスク尺度を示すパラメータを使用してデバイスの行動による報酬の分布を学習したものであるが、このようなリスク尺度を示すパラメータを学習モデルに設定するにあたり、パラメータを再設定するたびに学習モデルを再学習（訓練）させる必要がない。

以下では、学習モデルがリスク尺度を示すパラメータを使用してデバイスの行動による報酬の分布を学習する方法についてより詳しく説明する。

実施形態の学習モデルは、状況（状態）に対してデバイスが行動を実行する場合、これによって得られる報酬を学習する。このような報酬は、行動の実行によって得られる累積報酬であってよい。累積報酬は、一例として、デバイスが出発地から目的地まで移動する自律走行ロボットである場合、ロボットが目的地まで到達するまでの行動によって得られる累積報酬であってよい。学習モデルは、複数回（例えば、百万回）繰り返された、状況に対するデバイスの行動によって得られる報酬を学習してよい。このとき、学習モデルは、状況に対するデバイスの行動によって得られる報酬の分布を学習してよい。このような報酬の分布は、確率分布を示してよい。

例えば、実施形態の学習モデルは、分位点回帰分析（ｑｕａｎｔｉｌｅｒｅｇｒｅｓｓｉｏｎ）方法を使用して、状況に対するデバイスの行動によって得られる（累積）報酬の分布を学習してよい。

これに関し、図４は、一例における、学習モデルによって学習されたデバイスの行動による報酬の分布を示した図である。図４は、分位点回帰分析（ｑｕａｎｔｉｌｅｒｅｇｒｅｓｓｉｏｎ）方法によって学習モデルが学習した報酬の分布を示している。

状況（ｓ）に対して行動（ａ）が実行される場合に報酬（Ｑ）が与えられてよい。このとき、行動が適切であるほど報酬は高くなってよい。実施形態の学習モデルは、このような報酬に対する分布を学習してよい。

状況に対してデバイスが行動をしたときに得られる報酬には、最大値と最小値が存在してよい。最大値は、限りのない繰り返し（例えば、１００万回）のうちでデバイスの行動が最も肯定的であった場合の累積報酬であってよく、最小値は、限りのない繰り返しのうちでデバイスの行動が最も否定的であった場合の累積報酬であってよい。このような最小値から最大値までの報酬をそれぞれ分位点（ｑｕａｎｔｉｌｅ）に対応させて並べてよい。例えば、０～１の分位点に対し、０には最小値（１００万位）に該当する報酬の値を対応させ、１には最大値（１位）に該当する報酬の値を対応させ、０．５には中間（５０万位）に該当する報酬の値を対応させてよい。学習モデルは、このような報酬の分布を学習してよい。したがって、分位点（τ）に対応する報酬の値Ｑが学習されるようになる。

すなわち、学習モデルは、所定の第１範囲に属する第１パラメータ値（分位点として、図４のτに対応）に（例えば、１対１で）対応する報酬の値（図４のＱに対応）を学習してよい。このとき、第１パラメータの値のうちの最小値（図４では０）は報酬の値のうちの最小値に対応し、第１パラメータの値のうちの最大値（図４では１）は報酬の値のうちの最大値に対応してよい。また、学習モデルは、このような報酬の分布を学習するにあたり、リスク尺度を示すパラメータも学習してよい。例えば、学習モデルは、第１範囲に対応する第２範囲に属するリスク尺度を示すパラメータ（図４のβに対応）をサンプリングし、報酬の分布内で、サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習してよい。言い換えれば、学習モデルは、図４の分布を学習するにあたり、サンプリングされたリスク尺度を示すパラメータ（例えば、β＝０．５）をさらに考慮してよく、これに対応する報酬の値を学習してよい。

リスク尺度を示すパラメータ（例えば、β＝０．５）に対応する報酬の値は、該当のパラメータと同じ第１パラメータ（例えば、τ＝０．５）に該当する報酬の値であってよい。または、リスク尺度を示すパラメータ（例えば、β＝０．５）に対応する報酬の値は、該当のパラメータと同じ第１パラメータ（例えば、τ＝０．５）以下に該当する報酬の値の平均であってよい。

図に示すように、一例として、τに対応する第１パラメータの第１範囲は０～１であってよく、リスク尺度を示すパラメータ第２範囲は０～１であってよい。第１パラメータ値のそれぞれは百分率位置を示してよく、このような第１パラメータ値のそれぞれは、該当する百分率位置の報酬の値に対応してよい。言い換えれば、学習モデルは、状況と、これに対する行動、上位％値を入力することによって得られる報酬を予測するように学習されてよい。

第２範囲は、第１範囲と同じものとして例示されているが、相異してもよい。例えば、第２範囲は、０未満であってもよい。学習モデルを学習するときに、第２範囲に属するリスク尺度を示すパラメータは、ランダムにサンプリングされてよい。

一方、図４において、Ｑは、０～１の値に正規化されたものであってよい。

すなわち、実施形態では、図４に示すような報酬の分布を学習するにあたり、サンプリングされたβを固定して学習してよく、したがって、学習されたモデルに対しては、（環境に適合する程度のリスク尺度が考慮されたデバイスの制御のために）デバイスが制御される環境の特性が考慮されたリスク尺度を示すパラメータ（β）が多様に再設定されることが可能となる。単に行動によって得られる報酬の平均を学習したり、リスク尺度を示すパラメータ（β）を考慮せずに報酬の分布だけを学習したりする場合に比べ、実施形態では、パラメータ（β）を再設定するときに学習モデルを再学習（訓練）させる作業の必要がなくなる。

図４に示すように、βが大きいほど（すなわち、１に近いほど）、デバイスはリスクをさらに追求するように制御されてよく、βが小さいほど（すなわち、０に近いほど）、デバイスはリスクを回避するように制御されてよい。構築された学習モデルに対し、デバイスを運用する利用者が適切なβを設定することにより、デバイスはリスクをさらに回避するか回避しないように制御されてよい。デバイスが自律走行ロボットである場合、利用者は、デバイスを制御するための学習モデルに対してβ値をロボットの走行の前または後に適用してよく、ロボットが走行している途中にも、ロボットが考慮するリスク尺度を変更するためにβ値を変更設定してもよい。

一例として、学習モデルにβが０．９で設定されれば、制御されるデバイスは常に上位１０％の報酬を得るものと予測して行動するようになるため、リスクをより追求する方向に制御されてよい。これとは反対に、学習モデルにβが０．１で設定されれば、制御されるデバイスは常に下位１０％の報酬を得るものと予測して行動するようになるため、リスクをより回避する方向に制御されてよい。

したがって、実施形態では、デバイスの行動を決定するにあたり、リスクに対する予測をどのくらい肯定的または否定的にするのかに対するパラメータを追加で（リアルタイムで）設定することができ、したがって、リスクに対してさらに敏感に反応するデバイスを実現することができる。これは、デバイスが含むセンサの視野角などの限界によって一部の環境だけしか観察することのできない状況で、デバイスのより安全な走行を保障することができる。

実施形態において、リスク尺度を示すパラメータ（β）は、確率分布（すなわち、報酬分布）を歪曲（ｄｉｓｔｏｒｔｉｏｎ）させるパラメータであってよい。
βは、その値によって、リスクをより追求するように、あるいはリスクをより回避するように確率分布（すなわち、デバイスの行動によって得られる報酬の（確率）分布）を歪曲させるためのパラメータとして定義されてよい。言い換えれば、βは、第１パラメータ（τ）に対応して学習された報酬の確率分布を歪曲させるためのパラメータであってよい。実施形態では、変更設定することが可能なβによってデバイスが得る報酬の分布が歪曲されてよく、デバイスは、βによってより悲観的な方向あるいは楽観的な方向に動作されてよい。

以上、図１および図２を参照しながら説明した技術的特徴は、図３～５に対してもそのまま適用可能であるため、重複する説明は省略する。

以下では、図５～８ｂを参照しながら、上述したコンピュータシステム１００によって構築される学習モデルについてさらに詳しく説明する。

図６は、一例における、状況によるデバイスの行動を決定するモデルのアーキテクチャを示した図である。

図７は、一例における、学習モデルを訓練させるためのシミュレーションの環境を示した図である。図８ａおよび図８ｂは、一例における、学習モデルを訓練させるためのシミュレーションにおけるロボットのセンサ設定を示した図である。

上述した学習モデルは、デバイスのリスク敏感ナビゲーションのためのモデルとして、リスク条件付き分布基盤のソフトアクタークリティック（Ｒｉｓｋ－ＣｏｎｄｉｔｉｏｎｅｄＤｉｓｔｒｉｂｕｔｉｏｎａｌＳｏｆｔＡｃｔｏｒ－Ｃｒｉｔｉｃ：ＲＣ－ＤＳＡＣ）アルゴリズムに基づいて構築されたモデルであってよい。

深層強化学習（ＲＬ）を基盤とした現代のナビゲーションアルゴリズムは、有望な効率性と堅固性を具備しているが、深層ＲＬアルゴリズムのほとんどはリスク中立的な方式によって作動することから、比較的少なくはあるが深刻な結果を招く行動により、利用者を特別に保護しようと（このような保護によって性能損失がほぼ発生しなくても）しない。また、このようなアルゴリズムは、通常はアルゴリズムを運用する環境に極めて高い複雑性があるにもかかわらず、訓練中に衝突費用および一部ドメインのランダム化を追加すること超え、これらが訓練されたモデルで、不正確な状況で安全を保障するためのいかなる措置も提供していない。

本開示では、不確実性認識（ｕｎｃｅｒｔａｉｎｔｙ－ａｗａｒｅ）ポリシー（ｐｏｌｉｃｙ）（政策）を学習することができる上に、高価な微細調整や再訓練がなくてもリスク尺度（ｒｉｓｋｍｅａｓｕｒｅ）の変更を可能にした新たな分布基盤のＲＬアルゴリズムとしてＲＣ－ＤＳＡＣアルゴリズムを提供する。実施形態のアルゴリズムによる方法は、部分的に観察されたナビゲーション作業において、比較対象であるベースラインに比べて優れた性能と安全性を提示した。また、実施形態の方法によって訓練されたエージェントは、ランタイム時に、広範囲なリスク尺度に対して適切なポリシー（すなわち、行動）を適用したことを提示した。

以下では、ＲＣ－ＤＳＡＣアルゴリズムに基づくモデルを構築するための概要について説明する。

深層強化学習（ＲＬ）は、従来の計画基盤のアルゴリズムに比べて優れた性能と堅固性を約束することができ、モバイルロボットナビゲーション分野において相当な関心を集めている。このような関心にもかかわらず、リスク回避（ｒｉｓｋ－ａｖｅｒｓｅ）ポリシーを設計するための深層ＲＬ基盤のナビゲーションに対する作業は、従来にはほとんど存在していない。しかし、これは、次のような理由によって必要であると言える。第一に、走行するロボットは、人間、他のロボット、自分自身、または周辺環境に対して迷惑なものとなり得るし、リスク回避ポリシーがリスク中立ポリシーよりも安全であるし、ワーストケース分析に基づく典型的なポリシーによって過剰保守的行動を避けることができる。第二に、正確なモデルの提供が非実用的な複雑な構造と力学が存在する環境において、特定のリスク尺度を最適化するポリシーは、実際にモデリングエラーに対する堅固性の保証を提供するための適切な選択となる。第三に、最終利用者、保険会社、およびナビゲーションエージェントの設計者は、リスク回避型人間であるため、リスク回避ポリシーは当然の選択となる。

ＲＬのリスク問題を解決するためには、分布基盤のＲＬの概念が導入されてよい。分布基盤のＲＬは、（単純に報酬の分布を平均（ｍｅａｎ）してこれを学習するのではなく）累積した報酬の分布を学習する。このような報酬の分布から実際の数字に簡単にマッピングされる適切なリスク尺度を適用することにより、分布基盤のＲＬアルゴリズムは、リスク回避またはリスク追求ポリシーを推論することができる。分布基盤のＲＬは、アーケードゲーム、シミュレーションされたロボットベンチマーク、実世界での把持作業（ｒｅａｌ－ｗｏｒｌｄｇｒａｓｐｉｎｇｔａｓｋ）において優れた効率性と性能を提示する。また、例えば、歩行者に脅威を与えることを避けるためにある環境ではリスク回避のポリシーを選好することがあるが、このようなポリシーは、狭い通路を通過するには極めてリスク回避的なポリシーとなる。したがって、各環境に適合する互いに異なるリスク尺度によってモデルを訓練させる必要があり、これは、計算的な側面では高費用となるし多くの時間を必要とする作業となる。

本開示では、複数のリスク尺度に適応可能なモデルを含むエージェントを効率的に訓練させるために、広範囲なリスク敏感ポリシーを同時に学習するリスク条件付き分布基盤のソフトアクタークリティック（Ｒｉｓｋ－ＣｏｎｄｉｔｉｏｎｅｄＤｉｓｔｒｉｂｕｔｉｏｎａｌＳｏｆｔＡｃｔｏｒ－Ｃｒｉｔｉｃ：ＲＣ－ＤＳＡＣ）アルゴリズムを提供する。

ＲＣ－ＤＳＡＣは、非分布基盤のベースラインとその他の分布基盤のベースラインに比べ、優れた性能と安全性を提示する。また、実施形態によっては、（パラメータを変更するだけで）再訓練をしなくても他のリスク尺度にポリシーを適用することができる。

実施形態によっては、ｉ）同時に多様なリスク敏感ポリシーを学習することができる、分布基盤のＲＬに基づく新たなナビゲーションアルゴリズムを提供することができ、ｉｉ）多数のシミュレーション環境のベースラインよりも改善された性能を提供することができ、ｉｉｉ）ランタイム時に、広範囲なリスク尺度に対する一般化を達成することができる。

以下では、ＲＣ－ＤＳＡＣアルゴリズムに基づくモデルを構築するための関連作業と関連技術について説明する。

Ａ．モバイルロボットナビゲーションにおけるリスク
実施形態では、安全性および低リスクナビゲーションのための深層ＲＬ接近法を採択する。リスクを考慮するためには、古典的なモデル予測制御（Ｍｏｄｅｌ－Ｐｒｅｄｉｃｔｉｖｅ－Ｃｏｎｔｒｏｌ；ＭＰＣ）およびグラフ検索接近法が既に存在している。実施形態では、これらも考慮しながら、単純なセンサノイズとオクルージョン（ｏｃｃｌｕｓｉｏｎ）から、ナビゲーショングラフのエッジ（例えば、ドア）の通過可能性（ｔｒａｖｅｒｓａｂｉｌｉｔｙ）に対する不確実性および歩行者移動の予測不可能性に至るまで、多様なリスクを考慮する。

確率（ｃｈａｎｃｅ）制約条件として、衝突確率からエントロピーリスク（ｅｎｔｒｏｐｉｃｒｉｓｋ）に至るまでの多様なリスク尺度が探求されてよい。歩行者の動きを予測するためのディープラーニングと非線形ＭＰＣが結合されたハイブリッド接近法が採択される場合、このようなハイブリッド接近法は、ＲＬに依存する接近法とは異なり、ランタイム時にロボットのリスク指標（ｍｅｔｒｉｃ）パラメータが変更可能にすることができる。ただし、実施形態の結果と比べてみれば、このようなランタイムパラメータの調整（ｔｕｎｉｎｇ）は、深層ＲＬに対して簡単に行うことができる。

Ｂ．モバイル－ロボットナビゲーションのための深層ＲＬ
深層ＲＬは、多くのゲームおよびロボットとその他のドメインで成功的であったことから、モバイルロボットナビゲーション分野でも多くの注目を集めている。これは、ＭＰＣのような接近方式に比べてＲＬ方法は、多くの費用がかかる軌跡（ｔｒａｊｅｃｔｏｒｙ）予測をしなくても最適のアクション（行動）を推論することができ、費用や報酬が局所最適性（ｌｏｃａｌｏｐｔｉｍａ）をもつときにより強力に実行することができる。

環境に対する不確実性によって発生するリスクを明確に考慮する深層ＲＬ基盤の方法が提案されてもよい。個別的なディープネットワークは、ＭＣドロップアウトとブートストラップが適用されたファーフローム（ｆａｒ－ｆｒｏｍ）分布サンプルに対する過度な信頼予測を実行することによって衝突確率を予測する。

不確実性認識（ｕｎｃｅｒｔａｉｎｔｙ－ａｗａｒｅ）ＲＬ方法は、追加的な観察予測モデルを備え、ポリシーによって取られたアクションの分散を調整するために予測分散を使用する。一方、「リスク報酬」は、例えば、車線交差点で自律走行ポリシーの安全な行動を奨励するためのものとして設計されてよく、未来の歩行者移動に対して推定された不確実性に基づいて２つのＲＬ基盤の走行ポリシーが転換されてよい。このような方式は、不確実な環境において改善された性能および安全性を提示するが、追加的な予測モデル、細心の注意を払って形成された報酬機能、またはランタイム時に多くの費用がかかるモンテカルロサンプリングを必要とする。

このようなＲＬ基盤のナビゲーションに関する従来の作業とは異なり、実施形態では、追加的な予測モデルや具体的に調整された報酬機能を使用せず、分散基盤のＲＬを使用することによって計算的に効率的なリスク敏感ポリシーを学習することができる。

Ｃ．分布基盤のＲＬおよびリスク敏感ポリシー
分布基盤のＲＬは、単にその平均ではなく、累積報酬の分布をモデリングする。分布基盤のＲＬアルゴリズムは、次の再帰（ｒｅｃｕｒｓｉｏｎ）に依存してよい。

ここで、ランダムリターン（ｒｅｔｕｒｎ）

は、状態ｓから始まってポリシーπ下でアクションが取られたときにディスカウントされた（ｄｉｓｃｏｕｎｔｅｄ）報酬の合計が定義されてよく、

はランダム変数ＡおよびＢが同じ分布を有することを意味し、ｒ（ｓ、ａ）は与えられた状態アクションペアでランダム報酬を示し、

はディスカウントファクタであってよく、ランダム状態Ｓ’は（ｓ、ａ）で与えられた転移分布により、ランダムアクションＡ’は状態Ｓ’でポリシーπから導き出されてよい。

経験的に、分布基盤のＲＬアルゴリズムは、多くのゲームドメインで優れた性能とサンプル効率性を提示するが、これは、分位点（ｑｕａｎｔｉｌｅｓ）を予測することが表現学習を強化する補助作業として作用するためであると見ることができる。

分散基盤のＲＬは、リスク敏感ポリシーを容易に学習する。リスク敏感ポリシーを抽出するために、これは、ランダムリターン（累積報酬）の分布のランダム分位点を予測し、分位点をサンプリングすることによって多様な「歪曲（ｄｉｓｔｏｒｔｉｏｎ）リスク尺度」を推定してリスク敏感アクションを選択するように学習されてよい。ただし、このようなサンプリングは、各潜在的なアクションに対して実行されなければならないため、このような接近法は、連続的なアクション空間には適用できないこともある。

実施形態では、この代りに、ソフトアクタークリティック（ＳＡＣ）フレームワークを分配基盤のＲＬと結合させてリスク敏感制御の課題を達成するために使用されてよい。ロボット分野において、サンプル基盤の分配基盤ポリシー勾配（ｇｒａｄｉｅｎｔ）アルゴリズムが考慮されてよく、これは、一貫性のあるリスク尺度を使用するときにＯｐｅｎＡＩＧｙｍ上の作動（ａｃｔｕａｔｉｏｎ）ノイズに対して改善された堅固性を立証することができた。一方、把持（ｇｒａｓｐｉｎｇ）作業のためのリスク敏感ポリシーを学習するために提案された分配基盤のＲＬは、実世界の把持データに関する非分布基盤のベースラインに対して優れた性能を提示することができる。

従来の方法は、このような性能があるにもかかわらず、すべて一度に１つのリスク尺度に対するポリシーを学習することに制限される。これは、所望するリスク尺度が環境と状況によって異なる場合において問題となる。したがって、後述する実施形態では、多様なリスク尺度に適応可能な、単一的なポリシーを訓練させる方法について説明する。以下では、実施形態の接近法についてより詳しく説明する。

実施形態の接近法と関連し、以下では、問題構成（ｐｒｏｂｌｅｍｆｏｒｍｕｌａｔｉｏｎ）および具体的な実現についてより詳しく説明する。

Ａ．問題構成
２次元で走行する車輪ロボット（例えば、自律走行ロボット）を考慮しながら説明する。ロボットの形状は、図７および図８に示すように八角形であってよく、ロボットの目的（ｏｂｊｅｃｔｉｖｅ）は、障害物と衝突せずに一連のウェイポイントを通過することであってよい。図７の環境には障害物も含まれている。

このような問題は、部分的に、部分観測マルコフ決定過程（Ｐａｒｔｉａｌｌｙ－ＯｂｓｅｒｖｅｄＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ：ＰＯＭＤＰ）で構成されてよく、状態のセットＳ^ＰＯとして、観察Ω、アクション

報酬関数

初期状態、与えられた状態アクション

における状態

および与えられた（ｓ_ｔ、ａ_ｔ）における観察

に対する分布を含んで構成されてよい。

ＲＬを適用するときに、このようなＰＯＭＤＰを、ＰＯＭＤＰのエピソード履歴によって与えられた状態のセットＳをもつ次のマルコフ決定過程（ＭＤＰ）で取り扱ってよい。

ＭＤＰは、ＰＯＭＤＰのようなアクション

空間を有してよく、その報酬、初期状態、転移分布は、ＰＯＭＤＰによって暗示的に（ｉｍｐｌｉｃｉｔｌｙ）定義されてよい。報酬はＰＯＭＤＰに対する関数として定義されているが、ＭＤＰに対するランダム変数であってもよい。

１）状態および観察：セットＳ^ＰＯのメンバーである完全な（ｆｕｌｌ）状態は、すべての障害物の位置、速度、および加速度とカップルされた（ｃｏｕｐｌｅｄ）すべてのウェイポイントの位置に該当してよく、実世界エージェント（例えば、ロボット）は、単にこのような状態のフラクション（ｆｒａｃｔｉｏｎ）だけを感知する。例えば、観察は、次のように表現されてよい。

このような観察は、周囲の障害物の位置を説明する範囲センサ測定、次の２つのウェイポイントと関連するロボットの位置、およびロボットの速度に関する情報によって構成されてよい。

特に、下記のように定義されてよい。

はインジケータ関数であり、ｄ_ｉは、ロボットの座標フレームのｘ軸に対して、角度範囲（２ｉ－２、２ｉ）度から最も近い障害物までのメートル距離であり、与えられた方向に障害物がなければｏ_{ｒｎｇ、ｉ}＝０として設定されてよい。ウェイポイント観察は、次のように定義されてよい。

は、［０．０１、１００］ｍでクリッピングされた、次のウェイポイントとその次のウェイポイントまでの距離を示してよく、θ₁、θ₂は、ロボットのｘ軸に対するこのようなウェイポイントの角度を示してよい。最後に、速度観察

は、現在の線形速度および角速度

とエージェントの以前のアクションから計算された所定の線形速度および角速度

で構成されてよい。

２）アクション：正規化された２次元のベクトル

がアクションとして使用されてよい。これは、次に定義されるロボットの前記所定の線形速度および角速度に関するものであってよい。

例えば、

であってよい。

このような所定の速度は、ロボットのモータコントローラに送信され、最大加速度

および

に対して範囲

および

でクリッピングされてよい。ここで、

は、モータコントローラの制御周期であってよい。エージェントの制御周期は

よりも大きくてよく、これは、シミュレーションではエピソードが始まるときに｛０．１２、０．１４、０．１６｝秒で均一にサンプリングされてよく、実世界の実験では０．１５秒となってよい。

３）報酬：報酬関数は、エージェントが衝突を避けながら効率的にウェイポイントに沿って動くようにするものであってよい。完結性のために状態およびアクションに対する依存性を省略すれば、報酬は次のように表現されてよい。

目的地（ｇｏａｌ）（最後のウェイポイント）に到達するまでにかかった時間に対し、エージェントをペナライズ（pｅｎａｌｉｚｅ）するために、ベース報酬ｒ_ｂａｓｅ＝－０．０２がすべての段階で与えられてよく、ｒ_ｇｏａｌ＝１０がエージェントと目的地との間の距離が０．１５ｍ未満であるときに与えられてよい。ウェイポイント報酬は、次のように表現されてよい。

θ₁は、ロボットのｘ軸に対する次のウェイポイントの角度であってよく、ｖ_ｃは現在の線形速度であってよい。エージェントが障害物と接触した場合、ｒ_{ｗａｙｐｏｉｎｔ}は０となってよい。

報酬ｒ_{ａｎｇｕｌａｒ}は、直線によるエージェント（ロボット）の走行を奨励（ｅｎｃｏｕｒａｇｅ）してよく、次のように表現されてよい。

エージェントが障害物と衝突すれば、ｒ_ｃｏｌｌ＝－１０が与えられてよい。

４）リスク敏感目的：数式（１）のように、

は、

によって与えられるランダムリターンであってよい。

ここで、

は、ＭＤＰの転移分布とポリシーπによって与えられたランダム状態アクションシーケンスであってよい。

は、ディスカウントファクタであってよい。

リスク敏感決定を定義するためには２つの主要な接近法が存在する。そのうちの１つは、ユーティリティ関数

を定義し、状態ｓで

を最大化するアクションａを選択するものであってよい。残りの１つは、分位点フラクション

に対する

によって定義されるＺ^πの分位点関数を考慮するものであってよい。その次に、分位点フラクションから分位点フラクションへのマッピング

に該当する歪曲関数を定義し、状態ｓで歪曲リスク尺度

を最大化するアクションａを選択してよい。

このような作業において、リスク尺度パラメータに該当するスカラーパラメータβをそれぞれ有する２つの歪曲リスク尺度が考慮されてよい。そのうちの１つは、広く使用されている条件付きＶａＲ（ＣｏｎｄｉｔｉｏｎａｌＶａｌｕｅ－ａｔ－Ｒｉｓｋ（ＣＶａＲ）（条件付きリスク価値））であってよく、これは、最小有望（ｌｅａｓｔ－ｆａｖｏｕｒａｂｌｅ）ランダムリターンのフラクションβの期待値となり、ランダム関数は次に対応してよい。

より低いβはより高いリスク回避ポリシーを結果として生むことができ、β＝１はリスク中立ポリシーを示してよい。

２つ目は、べき乗則（ｐｏｗｅｒ－ｌａｗ）リスク尺度として、次のように歪曲関数が与えられてよい。

前記歪曲関数は、把持試験で優れた性能を提示する。与えられたパラメータ範囲において、２つのリスク尺度には一貫性がある（ｃｏｈｅｒｅｎｔ）。

言い換えれば、上述したリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータ（β）は、ＣＶａＲ（ＣｏｎｄｉｔｉｏｎａｌＶａｌｕｅ－ａｔ－Ｒｉｓｋ）リスク尺度を示すパラメータとして０超過１以下の範囲の数であるか、べき乗則（ｐｏｗｅｒ－ｌａｗ）リスク尺度として０未満の範囲の数であってよい。モデルの学習において、前記範囲からのβがサンプリングされて使用されてよい。

上述した数式（１０）および数式（１１）は、βによって確率分布（報酬分布）を歪曲させるための数式であってよい。

Ｂ．リスク条件付き分布基盤のソフトアクタークリティック
広範囲なリスク敏感ポリシーを効率的に学習するために、リスク条件付き分布基盤のソフトアクタークリティック（ＲＣ－ＤＳＡＣ）アルゴリズムが提案されてよい。

１）ソフトアクタークリティックアルゴリズム：実施形態のアルゴリズムは、ソフトアクタークリティック（ＳＡＣ）アルゴリズムを基盤するものであり、「ソフト」は、エントロピー正規化されたもの（ｅｎｔｒｏｐｙ－ｒｅｇｕｌａｒｉｚｅｄ）を示してよい。ＳＡＣは、次のような累積報酬とポリシーのエントロピーをともに最大化してよい。

期待値は、ポリシーπおよび転移分布によって与えられた状態アクションシーケンスに対するものであり、

は、報酬およびエントロピーの最適化をトレードオフ（ｔｒａｄｅｓ－ｏｆｆ）する温度パラメータであってよく、

は、確率密度を有すると仮定されるアクションに対するエントロピーの分布（ｅｎｔｒｏｐｙｏｆａｄｉｓｔｒｉｂｕｔｉｏｎ）を示してよい。

ＳＡＣは、ソフト状態アクション値関数

を学習するクリティックネットワークを有してよい。クリティックネットワークは、以下の数式（１３）のソフトベルマン（ｓｏｆｔＢｅｌｌｍａｎ）オペレータを使用してよい。

数式（１４）のソフト値関数の指数によって与えられる分布とポリシーとの間のクールバックライブラリ発散を最小化するアクターネットワークが使用されてよい。

Πは、アクターネットワークによって表現されるポリシーのセットであってよく、

は、ポリシーπおよび転移分布によって誘導される状態に対する分布であってよい。これは、経験再生（ｅｘｐｅｒｉｅｎｃｅｒｅｐｌａｙ）によって実際に近似されてよく、

は、分布を正規化する分配関数（ｐａｒｔｉｔｉｏｎｆｕｎｃｔｉｏｎ）であってよい。

実際には、再パラメータ化（ｒｅｐａｒａｍｅｔｅｒｉｚａｔｉｏｎ）トリックがたびたび使用されてよい。このような場合、ＳＡＣは、アクションを

としてサンプリングしてよく、

はアクターネットワークによって実現されたマッピングであり、

は球面ガウス関数（ｓｐｈｅｒｉｃａｌＧａｕｓｓｉａｎ）Ｎと類似する固定された分布からのサンプルであってよい。ポリシー目的（ｐｏｌｉｃｙｏｂｊｅｃｔｉｖｅ）は、以下の数式（１５）の形態を有してよい。

２）分布基盤のＳＡＣおよびリスク敏感ポリシー：単にその平均ではなくて累積報酬の完全な分布を得るために、提案された分布基盤のＳＡＣ（ＤＳＡＣ）が使用されてよい。ＤＳＡＣは、このような分布を学習するために分位点回帰分析（ｑｕａｎｔｉｌｅｒｅｇｒｅｓｓｉｏｎ）を使用してよい。

ＤＳＡＣは、上述した数式（１）のランダムリターンＺ^πを利用するよりは、数式（１２）のソフトランダムリターンを使用してよく、これは

として与えられ、数式（１）に示すように

であってよい。ＳＡＣと同じように、ＤＳＡＣアルゴリズムは、アクターとクリティックを有してよい。

クリティックを訓練させるためにいくつかの分位点フラクション

および

が独立的にサンプリングされてよく、クリティックは、次のような損失を最小化してよい。

ここで、

に対して、分位点回帰損失は次のように表現されてよい。

時間差は次のように表現されてよい。

ここで、

は再生バッファからの転移（ｔｒａｎｓｉｔｉｏｎ）であってよく、

はクリティックの出力であってよく、これは

のτ－分位点の推定値であってよく、

はターゲットクリティックとして、周知のクリティックの遅延されたバージョンの出力であってよい。

リスク敏感アクターネットワークを訓練させるために、ＤＳＡＣは、歪曲関数ψを使用してよい。対応する歪曲リスク尺度を直ぐに最大化するよりは、ＤＳＡＣは、数式（１５）で

を代替してよい。

はサンプルの平均を示してよい。

３）リスク条件付きＤＳＡＣ：ＤＳＡＣによって学習されたリスク敏感ポリシーは、多くのシミュレーション環境で優れた結果を提示したが、２）で説明したＤＳＡＣは、一度に１つのリスク敏感ポリシー類型だけを学習する。これは、適切なリスク尺度パラメータは環境によって異なるし、利用者がランタイム時にパラメータを調整しようとする場合のモバイルロボットの走行において問題となることがある。

このような問題を処理するために、実施形態では、リスク条件付き分布基盤のＳＡＣ（ＲＣ－ＤＳＡＣ）アルゴリズムを使用してよい。これは、ＤＳＡＣを同時に広範囲なリスク敏感ポリシーを学習するように確張したものであり、再訓練の過程がなくてもリスク尺度パラメータの変更が可能となるようにしたものである。

ＲＣ－ＤＳＡＣは、パラメータβを有する歪曲関数

に対し、ポリシー

クリティック

およびターゲットクリティック

への入力としてβを提供することにより、リスク適応可能なポリシーを学習する。より具体的に、数式（１６）のクリティックの目的は、次のように表現されてよい。

ここで、

は、数式（１７）に示すように、時間差は次のように表現されてよい。

数式（１５）のアクターの目的は、次のように表現されてよい。

ここで、

であり、βはサンプリングに対する分布であってよい。

訓練の間、リスク尺度パラメータβは、

に対して

から、および

に対してＵ（［－２、０］）から均一にサンプリングされてよい。

他のＲＬアルゴリズムと同じように、各繰り返しは、データ収集段階とモデルアップデート段階を含んでよい。データ収集段階において、各エピソードが始まるときにβをサンプリングし、エピソードが終了するまでこれを固定してよい。モデルアップデート段階に対しては、次の２つの代案が適用されてよい。「格納（ｓｔｏｒｅｄ）」と呼ばれるその１つ目として、データ収集において使用されたβを経験再生バッファに格納し、このような格納されたβだけをアップデートに使用する。次に、「リサンプリング」と呼ばれる２つ目として、それぞれの経験に対して新たなβを繰り返しごとにミニバッチにサンプリングする（ｒｅｓａｍｐｌｉｎｇ）。

言い換えれば、図１～５を参照しながら説明した学習モデルは、状況に対するデバイス（ロボット）の行動による報酬の推定を繰り返すことによって報酬の分布を学習するようになる。このとき、各繰り返しは、デバイス（ロボット）の出発地から目的地への移動を示す各エピソードに対する学習および学習モデルのアップデートを含んでよい。エピソードは、初期状態（出発地）から最終状態（目的地）に至るまでエージェントが経た状態、行動、報酬のシーケンスを意味してよい。各エピソードが始まるときにリスク尺度を示すパラメータ（β）が（例えば、ランダムに）サンプリングされてよく、サンプリングされたリスク尺度を示すパラメータ（β）は、各エピソードが終了するまで固定されてよい。

学習モデルのアップデートは、コンピュータシステム１００のバッファ（経験再生バッファ）に記録されたサンプリングされたリスク尺度を示すパラメータを使用して実行されてよい。例えば、以前にサンプリングされたリスク尺度を示すパラメータを使用して学習モデルのアップデート段階が実行されてよい（ｓｔｏｒｅｄ）。言い換えれば、データ収集段階で使用されたβが学習モデルのアップデート段階で再使用されてよい。

または、コンピュータシステム１００は、アップデート段階を実行するときにリスク尺度を示すパラメータをリサンプリングし、リサンプリングされたリスク尺度を示すパラメータを使用して学習モデルのアップデート段階を実行してよい（ｒｅｓａｍｐｌｉｎｇ）。言い換えれば、データ収集段階で使用されたβは、学習モデルのアップデート段階では再使用されず、学習モデルのアップデート段階でβが再びサンプリングされてよい。

４）ネットワークアーキテクチャ：τおよびβは、コサイン埋め込み（Ｅｍｂｅｄｄｉｎｇ）を使用して表現されてよく、図６に示すように、観察および分位点フラクションに関する情報をこれらと融合させるために、要素ごとの積（ｅｌｅｍｅｎｔ－ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）が使用されてよい。

図６は、図１～５を参照しながら説明した学習モデルのアーキテクチャを示した図である。図に示したモデルアーキテクチャは、ＲＣ－ＤＳＡＣで使用されるネットワークのアーキテクチャであってよい。モデル６００は、上述した学習モデルを構成するモデルであってよい。モデル６００に含まれるＦＣは、全結合層を示してよい。Ｃｏｎｖ１Ｄは、与えられた数のチャンネル／カーネル＿サイズ／ストライドを有する１次元の畳み込み層を示してよい。ＧＲＵは、ゲート循環ユニット（ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ）を示してよい。１つのブロックを示す複数の矢印は連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）を示してよく、

は要素ごとの積を示してよい。

ＤＳＡＣのように、実施形態のＲＣ－ＤＳＡＣのクリティックネットワーク（すなわち、クリティックモデル）はτに依存する。しかし、実施形態のＲＣ－ＤＳＡＣのアクターネットワーク（すなわち、アクターモデル）およびクリティックネットワークは、両者ともにβに依存する。したがって、要素

および

として埋め込み（Ｅｍｂｅｄｄｉｎｇ）

が計算されてよい。

この次に、要素ごとの積

をアクターネットワークに適用し、

をクリティックネットワークに適用する。

は、ゲート循環モジュール（ＧＲＵ）を使用して計算された観察履歴（および、クリティックに対する現在のアクション）の埋め込み（Ｅｍｂｅｄｄｉｎｇ）であってよく、全結合層、

および

は全結合層であってよく、

はベクトル

および

の連結を示してよい。

言い換えれば、図１～５を参照しながら説明した学習モデルは、状況に対するデバイス（ロボット）の行動を予測するための第１モデル（上述したアクターモデルに対応）および予測された行動による報酬を予測するための第２モデル（上述したクリティックモデルに対応）を含んでよい。図６で説明したモデル６００は、第１モデルおよび第２モデルのうちのいずれか１つを示したものであってよい。第１モデルおよび第２モデルは、出力端を示すブロックが異なるように構成されてよい。

図６に示すように、第２モデル（クリティックモデル）には、状況に対して実行すると予測された行動（ｕ）（例えば、第１モデル（アクターモデル）によって予測された行動）が入力されてよく、第２モデルは、該当の行動（ｕ）による報酬（例えば、上述したＱに対応可能）を推定してよい。すなわち、図に示したモデル６００において、ｕ（ｆｏｒｃｒｉｔｉｃ）のブロックは、第２モデルだけに適用されるものであってよい。

第１モデルは、第２モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習されてよい。すなわち、第１モデルは、状況に対する行動のうちで報酬が最大となる行動を状況に対する行動（次の行動）として予測するように学習されてよい。このとき、第２モデルは、決定された後に行動による報酬（報酬分布）を学習してよく、これは、第１モデルにおける行動の決定のために再び使用されてよい。

第１モデルおよび第２モデルそれぞれは、リスク尺度を示すパラメータ（β）を使用して学習されてよい（図に示した

（ｆｏｒａｃｔｏｒ）および

（ｆｏｒｃｒｉｔｉｃ）ブロック参照）。

すなわち、第１モデルおよび第２モデルは、両者ともに、リスク尺度を示すパラメータ（β）を使用して学習されるため、実現された学習モデルは、多様なリスク尺度を示すパラメータが設定されたとしても、（再びモデルを訓練させる作業の必要なく）該当のリスク尺度に適応可能なデバイスの行動を決定（推定）することができる。

デバイスが自律走行するロボットである場合、上述した第１モデルおよび第２モデルは、ロボットの周囲の障害物の位置（ｏ_ｒｎｇ）、ロボットが移動する経路（ｏ_{ｗａｙｐｏｉｎｔｓ}）、およびロボットの速度（ｏ_{ｖｅｌｏｃｉｔｙ}）に基づいて、デバイスの行動および報酬をそれぞれ予測してよい。ロボットが移動する経路（ｏ_{ｗａｙｐｏｉｎｔｓ}）は、ロボットが移動する次のウェイポイント（該当のウェイポイントの位置など）を示してよい。ｏ_ｒｎｇ、ｏ_{ｗａｙｐｏｉｎｔｓ}、およびｏ_{ｖｅｌｏｃｉｔｙ}は、エンコードされたデータとして第１／第２モデルに入力されてよい。ｏ_ｒｎｇ、ｏ_{ｗａｙｐｏｉｎｔｓ}、およびｏ_{ｖｅｌｏｃｉｔｙ}に対しては、Ａ．問題構成での説明が適用されてよい。

実施形態において、第１モデル（アクターモデル（アクターネットワーク））は、（例えば、ランダムにサンプリングされた）βを受けて行動（ｐｏｌｉｃｙ）に対する報酬分布を歪曲させ、歪曲された報酬分布で報酬が最大になるようにする行動（ｐｏｌｉｃｙ）（例えば、危険回避または危険追求のための行動）を決定するように学習されてよい。

第２モデル（クリティックモデル（クリティックネットワーク））は、第１モデルによって決定された行動（ｐｏｌｉｃｙ）どおりにデバイスが行動する場合の累積報酬分布を、τを使用して学習してよい。または、ここで、第１モデルは、（例えば、ランダムにサンプリングされた）βをさらに考慮し、累積報酬分布を使用して学習してよい。

第１モデルと第２モデルが同時に学習されてよく、したがって、第１モデルに次第に報酬を最大化するように学習がなされれば、（報酬分布がアップデートされることにより）第２モデルも次第にアップデートされるようになる。

実施形態によって構築された（すなわち、前記第１モデルおよび第２モデルを含んで構築された）学習モデルは、利用者の設定によって学習モデルに入力されるβが変更されたとしても、再学習の過程を必要とせず、直ぐに入力されたβに対応して歪曲された報酬分布による行動（ｐｏｌｉｃｙ）を決定することができる。

以下では、訓練のために使用されたシミュレーション環境についての説明と、実施形態の方法をベースラインと比べ、実世界のロボットに対して訓練されたポリシーを適用したものについて説明する。

図７は、一例における、学習モデルを訓練させるためのシミュレーションの環境を示した図であり、図８ａおよび図８ｂは、使用されたデバイス（ロボット）７００のセンサ設定を示した図である。図８ａでは、ロボット７００のセンサの視野が狭く（ｎａｒｒｏｗ）設定されており（８１０）、図８ｂでは、ロボット７００のセンサの視野がスパース（ｓｐａｒｓｅ）に設定されている（８２０）。すなわち、ロボット７００は、３６０度全面の視野をカバーすることができず、制限された視野をもつ。

Ａ．訓練環境
図７に示すように、ロボット７００の力学がシミュレーションされてよい。データ収集のスループットを高めるために、１０回のシミュレーションが並列で実行されてよい。具体的に、生成された各環境に対し、１０個のエピソードを並列で実行する。ここで、エピソードは、明確な出発地と目的地の位置を有するエージェントと関連してよく、明確なリスク指標パラメータβと関連してよい。それぞれのエピソードは１０００段階後に終了し、エージェントが目標に到達すれば新たな目標がサンプリングされてよい。

実施形態の方法の部分的な観察の影響を詳察するために、図８ａおよび図８ｂに示したような、２つの異なるセンサ構成を使用してよい。

Ｂ．訓練エージェント
実施形態のＲＣ－ＤＳＡＣ、ＳＡＣ、およびＤＳＡＣの性能比較を実行する。また、実施形態の報酬関数に適用される報酬コンポーネント加重値ランダム化（Ｒｅｗａｒｄ－Ｃｏｍｐｏｎｅｎｔ－ＷｅｉｇｈｔＲａｎｄｏｍｉｚａｔｉｏｎ：ＲＣＷＲ）方法に対する比較も実行された。

２つのＲＣ－ＤＳＡＣが訓練され、

および

の歪曲関数のそれぞれがいずれか１つに対応してよい。

を有するＲＣ－ＤＳＡＣは

に対して評価されてよく、

を有するＲＣ－ＤＳＡＣは

に対して評価されてよい。

ＤＳＡＣに対して

を有する

と

を有する

が使用されてよく、それぞれのＤＳＡＣエージェントは、１つのβに対して訓練および評価されてよい。ＲＣＷＲに対して１つのナビゲーションパラメータ

が使用されてよい。

報酬ｒを計算するときに、報酬ｒ_ｃｏｌｌはｗ_ｃｏｌｌｒ_ｃｏｌｌに代替されてよく、ｗ_ｃｏｌｌがより高い値を有するものは、リスク中立を依然として維持しながらエージェントがより多くの衝突回避をするようにしてよい。評価のために

が使用されてよい。

すべてのベースラインは、以下の例外を除いては、ＲＣ－ＤＳＡＣと同じアーキテクチャを使用してよい。ＤＳＡＣは

を使用しなくてよく、

は

だけに依存してよい。ＲＣＷＲは、エキストラ３２－次元の全結合層をｗ_ｃｏｌｌに対するその観察エンコーダ内に有してよい。最後に、ＲＣＷＲおよびＳＡＣは、

および

を使用しなくてよい。

すべてのアルゴリズムに対するハイパーパラメータは、以下の表１のように示した。

１０００００回の加重値アップデート（５００件の環境で５０００個のエピソード）のために各アルゴリズムを訓練させてよい。その次の訓練のときには見られなかった５０件の環境でアルゴリズムを評価してよい。各環境あたりの１０個のエピソードに対して評価が実行されてよく、エージェントは明確な出発地および目的地を有するが、βまたはｗ_ｃｏｌｌに対して共通の値を有してよい。

公正性と再現性を確保するために、訓練と評価に対して固定されたランダムシードが使用されてよく、したがって、互いに異なるアルゴリズムが正確に同じ環境、および出発地／目的地の位置に対して訓練されて評価されるようになる。

Ｃ．性能比較
表２は、５０件の評価環境に対する５００回のエピソードの平均として、衝突数の平均と標準偏差と各方法の報酬を示している。

表２から確認されるように、

を有するＲＣ－ＤＳＡＣとβ＝－１が、視野が狭い設定において最も高い報酬を示したし、

を有するＲＣ－ＤＳＡＣとβ＝－１．５が、２つの設定の両方において最も少ない衝突を示した。

ＳＡＣに比べ、リスク敏感アルゴリズム（ＤＳＡＣ、ＲＣ－ＤＳＡＣ）は、両方ともより少ない衝突を提示したし、その一部はより高い報酬を得ながらもこれを達成した。また、ＲＣＷＲに対する比較の結果は、分布基盤のリスク認識接近法が衝突に対するペナルティーを単に増加させることに比べてより効果的であるという点を暗示している。

２つのリスク尺度を平均化してＤＳＡＣとＲＣ－ＤＳＡＣの２つの代案的な実現を比較したが、ＤＳＡＣが評価された２つのβ値だけを比較した。狭い設定において、ＲＣ－ＤＳＡＣ（格納（Ｓｔｏｒｅｄ））は、類似する衝突回数（０．９５対０．９１）を有したが、ＤＳＡＣよりも高い報酬（４４９．９対４２５．０）を有したし、スパース設定（ｓｐａｒｓｅｓｅｔｔｉｎｇ）では、ＲＣ－ＤＳＡＣ（格納）は、より少ない衝突回数（０．４４対０．６８）ではあったが、類似の報酬（４９８．１対４９２．９）であった。全体的に、ＲＣ－ＤＳＡＣ（リサンプリング（ｒｅｓａｍｐｌｉｎｇ））は、衝突が最も少なく（狭い設定で０．６４、スパース設定で０．２６）、狭い設定で最も高い報酬（４７０．０）が得られた。これは、ＤＳＡＣが必要とする再訓練がなくても広範囲なリスク尺度パラメータに適応することができる、実施形態のアルゴリズムの能力を示す結果となった。

また、ＲＣ－ＤＳＡＣによる衝突回数は、ＣＶａＲリスク尺度に対し、βとの明確な量の相関関係を示した。低いβはリスク回避に対応するため、これは十分に予想することができる。

Ｄ．実世界での実験
実施形態の方法を実世界で実現するために、図５に示すようなモバイルロボットプラットフォームが実現されてよい。ロボット５００は、例えば、４つのデプスカメラを前方に備えてよく、このようなセンサからのポイントクラウドデータは、狭い（ｎａｒｒｏｗ）設定に対応する観察ｏ_ｒｎｇにマッピングされてよい。ＲＣ－ＤＳＡＣ（リサンプリング）およびベースラインエージェントがロボット５００に対して展開されてよい。

各エージェントに対し、長さ５３．８ｍのコースを２回走行（往復）するテストを行った結果、下記の表３のような結果が得られた。

表３は、各エージェントに対する衝突数、および目的地までの到着にかかる時間を示している。図に示すように、ＳＡＣは、分布基盤のリスク回避エージェントに比べて多くの衝突が発生した。

ＤＳＡＣは、実験では衝突が発生しなかったが、過剰保守的な行動を示したため、目的地に到達するまで最も多くの時間がかかった（

およびβ＝０．２５）。ＲＣ－ＤＳＡＣは、リスクを回避しないモードにおける軽微な衝突を除いてはＤＳＡＣと競争的に実行され、βによってその行動が適応された。したがって、実施形態のＲＣ－ＤＳＡＣアルゴリズムでは、優れた性能とβの変更によるリスク尺度の変更に対する適応性が達成されたことを確認することができる。

すなわち、実施形態のＲＣ－ＤＳＡＣアルゴリズムを適用したモデルは、比較対象であるベースラインよりも優れた性能を発揮したし、調節可能なリスク敏感性を有することを確認することができる。実施形態のＲＣ－ＤＳＡＣアルゴリズムを適用したモデルは、ロボットをはじめとしたデバイスに適用することによって活用性を極大化することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

１２０：プロセッサ
２０１：学習部
２０２：決定部

Claims

コンピュータシステムが実行する、状況によるデバイスの行動を決定する方法であって、
前記デバイスの制御と関連するリスク尺度を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定する段階、および
前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定する段階
を含み、
前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
前記学習モデルは、分位点回帰分析方法を使用して、状況に対する前記デバイスの行動によって得られる報酬の分布を学習したものであり、
前記学習モデルは、所定の第１範囲に属する第１パラメータの値に対応する前記報酬の値を学習するが、前記第１範囲に対応する第２範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習し、
前記第１パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第１パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応する、
状況によるデバイスの行動を決定する方法。
前記デバイスの行動を決定する段階は、
前記設定されたリスク尺度を示すパラメータの値または前記パラメータの値が示す範囲により、前記与えられた状況に対してリスクをさらに回避するかリスクをさらに追求するように前記デバイスの行動を決定する、
請求項１に記載の状況によるデバイスの行動を決定する方法。
前記デバイスは、自律走行するロボットであり、
前記デバイスの行動を決定する段階は、
前記設定されたリスク尺度を示すパラメータの値が所定の値以上であるか前記パラメータの値が所定の範囲以上を示す場合、リスクをさらに追求するようにする前記ロボットの行動として、前記ロボットの直進または前記ロボットの加速を決定する、
請求項２に記載の状況によるデバイスの行動を決定する方法。
前記第１範囲は０～１であり、前記第２範囲は０～１であり、
前記学習モデルが学習されるときに、前記第２範囲に属する前記リスク尺度を示すパラメータは、ランダムにサンプリングされる、
請求項１に記載の状況によるデバイスの行動を決定する方法。
前記第１パラメータの値のそれぞれは百分率位置を示し、
前記第１パラメータの値のそれぞれは、該当する百分率位置の前記報酬の値に対応する、
請求項１に記載の状況によるデバイスの行動を決定する方法。
前記学習モデルは、
状況に対する前記デバイスの行動を予測するための第１モデル、および
前記予測された行動による報酬を予測するための第２モデル
を含み、
前記第１モデルおよび前記第２モデルそれぞれは、前記リスク尺度を示すパラメータを使用して学習されたものであり、
前記第１モデルは、前記第２モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習される、
請求項１に記載の状況によるデバイスの行動を決定する方法。
前記デバイスは、自律走行するロボットであり、
前記第１モデルおよび前記第２モデルは、前記ロボットの周囲の障害物の位置、前記ロボットが移動する経路、および前記ロボットの速度に基づいて、前記デバイスの行動および前記報酬をそれぞれ予測する、
請求項６に記載の状況によるデバイスの行動を決定する方法。
コンピュータシステムが実行する、状況によるデバイスの行動を決定する方法であって、
前記デバイスの制御と関連するリスク尺度を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定する段階、および
前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定する段階
を含み、
前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
前記学習モデルは、状況に対する前記デバイスの行動による報酬の推定を繰り返すことによって前記報酬の分布を学習し、
各繰り返しは、前記デバイスの出発地から目的地への移動を示す各エピソードに対する学習および前記学習モデルのアップデートを含み、
前記各エピソードが始まるときに前記リスク尺度を示すパラメータがサンプリングされ、サンプリングされた前記リスク尺度を示すパラメータは、前記各エピソードが終了するまで固定される、
状況によるデバイスの行動を決定する方法。
前記学習モデルのアップデートは、バッファに格納されたサンプリングされた前記リスク尺度を示すパラメータを使用して実行されるか、
前記リスク尺度を示すパラメータをリサンプリングし、リサンプリングされた前記リスク尺度を示すパラメータを使用して実行される、
請求項８に記載の状況によるデバイスの行動を決定する方法。
前記リスク尺度を示すパラメータは、
ＣＶａＲ（ＣｏｎｄｉｔｉｏｎａｌＶａｌｕｅ－ａｔ－Ｒｉｓｋ）リスク尺度を示すパラメータとして０超過１以下の範囲の数であるか、
べき乗則リスク尺度として０未満の範囲の数である、
請求項１に記載の状況によるデバイスの行動を決定する方法。
前記デバイスは、自律走行するロボットであり、
前記リスク尺度を示すパラメータを設定する段階は、
前記環境で前記ロボットが自律走行する間に、利用者によって要請された値に基づいて、前記学習モデルに前記リスク尺度を示すパラメータを設定する、
請求項１に記載の状況によるデバイスの行動を決定する方法。
請求項１～１１のうちのいずれか一項に記載の方法を前記コンピュータシステムで実行させる、コンピュータプログラム。
請求項１～１１のうちのいずれか一項に記載の方法を前記コンピュータシステムで実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
デバイスの制御と関連するリスク尺度を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習した学習モデルに対し、前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータを設定し、前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動を決定し、
前記学習モデルに対しては、前記環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
前記学習モデルは、分位点回帰分析方法を使用して、状況に対する前記デバイスの行動によって得られる報酬の分布を学習したものであり、
前記学習モデルは、所定の第１範囲に属する第１パラメータの値に対応する前記報酬の値を学習するが、前記第１範囲に対応する第２範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習し、
前記第１パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第１パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応する、
コンピュータシステム。
コンピュータシステムが実行する、状況によるデバイスの行動を決定するために使用されるモデルを学習させる方法であって、
前記モデルに、前記デバイスの制御と関連するリスク尺度（ｒｉｓｋ－ｍｅａｓｕｒｅ）を示すパラメータを使用して状況に対する前記デバイスの行動による報酬の分布を学習させる段階
を含み、
学習された前記モデルに対しては、環境の特性によって前記リスク尺度を示すパラメータが相異するように設定することができ、
学習された前記モデルに前記デバイスが制御される環境に対する前記リスク尺度を示すパラメータが設定されることにより、前記モデルにより、前記設定されたパラメータに基づいて、前記環境で前記デバイスが制御されるときに、与えられた状況による前記デバイスの行動が決定され、
前記学習させる段階は、
前記モデルに、分位点回帰分析方法を使用しながら、状況に対する前記デバイスの行動によって得られる報酬の分布を学習させ、
前記学習させる段階は、
前記モデルに、所定の第１範囲に属する第１パラメータの値に対応する前記報酬の値を学習させるが、前記第１範囲に対応する第２範囲に属する前記リスク尺度を示すパラメータをサンプリングし、前記報酬の分布内で、前記サンプリングされたリスク尺度を示すパラメータに対応する報酬の値も学習させ、
前記第１パラメータの値のうちの最小値は前記報酬の値のうちの最小値に対応し、前記第１パラメータの値のうちの最大値は前記報酬の値のうちの最大値に対応する、
モデルを学習させる方法。
前記モデルは、
状況に対する前記デバイスの行動を予測するための第１モデル、および
前記予測された行動による報酬を予測するための第２モデル
を含み、
前記第１モデルおよび前記第２モデルそれぞれは、前記リスク尺度を示すパラメータを使用して学習されたものであり、
前記学習させる段階は、
前記第１モデルを、前記第２モデルから予測された報酬が最大となる行動を前記デバイスの次の行動として予測するように学習させる、
請求項１５に記載のモデルを学習させる方法。