JP2023062688A

JP2023062688A - エージェントの制御方法

Info

Publication number: JP2023062688A
Application number: JP2022168137A
Authority: JP
Inventors: シュミットフェリックス; Felix Dr Schmitt
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-10-21
Filing date: 2022-10-20
Publication date: 2023-05-08
Also published as: US20230128941A1; DE102021211909A1; CN116011523A

Abstract

【課題】エージェントの周囲において検出された物体の効率的な予測を含むエージェントのための制御方法を提供する。【解決手段】方法は、多数のエージェントの挙動に関するトレーニングデータを用いて、ニューラルネットワークをトレーニングし、挙動に対する予測をする。この出力は、共通にトレーニングされるパラメータと、多数のエージェント各々について個別にトレーニングされるパラメータに依存する。トレーニングの結果として生じたエージェントに対するパラメータの値に、確率分布をフィットさせ、エージェントの周囲におけるエージェントに対する確率分布から値をサンプリングし、サンプリングされた値に対してニューラルネットワークが出力するエージェントの挙動予測を考慮して、当該エージェントを制御する。【選択図】なし

Description

本開示は、エージェントの制御方法に関する。

自律システムの分野においては、エージェントを確実に制御し、例えば、衝突を回避する目的で、（例えば、ロボットのような）被制御エージェントの周囲で移動している物体（例えば、人）の挙動を予測することが、重要なタスクである。

特に、１乃至１０秒というすぐ先の人間の挙動を予想することは、基本的なタスクである。病院用ロボットは、例えば、看護スタッフ、医師及び患者のために通路上に適時にスペースを確保する目的で、それらの人々の挙動を予測しなければならない。自律走行の場合、車両は、他の道路利用者が車線に割り込むことを先読みしなければならない。現在のところ、最も正確な予測法は、ほぼ例外なく機械学習のカテゴリーに属するものである。

このタスクにおける難問のうちの１つは、人間の挙動が個々の願望、好み及び意図に左右され、従って、非常に多様なものになる可能性があるということである。ある運転者は、例えば、自分よりも遅い前方車両を追い越さず、その代わりに速度を合わせるほうを好むのに対し、他の運転者は、時間を無駄にしたくなく、むしろ追い越したい。そこで、正確な予測のためには、挙動のこうした変動幅を担保し、機械学習のアプローチの場合には、それをデータから学習しなければならない。

この目的において、機械学習の現在の主導的な方法によれば、変分オートエンコーダ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏ－Ｅｎｃｏｄｅｒ，ＶＡＥ）アプローチのバリエーションが用いられる。この場合に前提とすることは、予測すべき変数ｙ～ｐ（．｜ｘ，ｚ）は、入力データｘだけでなく、事前分布ｐ（ｚ）に従う潜在変数ｚにも依存する、ということである。この変数は、トレーニングデータにそのまま存在しているのではなく、これを推定しなければならない。この目的で、事後分布ｐ（ｚ｜ｘ，ｙ）が考慮される。このトレーニングのために、ｐ（ｙ｜ｘ，ｚ）が、デコーダネットワークｇ_θ（ｙ，ｘ，ｚ）によって、ｐ（ｚ｜ｘ，ｙ）が認識ネットワークｈ_Ψ（ｚ，ｘ，ｙ）によってモデリングされ、さらにＥｖｉｄｅｎｃｅＬｏｗｅｒＢｏｕｎｄ（ＥＬＢＯ）の最小化ＥＬＢＯ（ｘ，ｙ，θ，Ψ）＝－ＫＬ（ｈ_Ψ（ｚ，ｘ，ｙ）｜｜ｐ（ｚ））＋Ｅ_{ｚ～ｈΨ（．，ｘ，ｙ）}［ｌｏｇ（ｇ_θ（ｙ，ｘ，ｚ））］によってトレーニングされる。ここで、ＫＬは、分布間のカルバック・ライブラー・ダイバージェンスを表し、潜在変数又はそれらの分布を正則化するために取り出される。ＥＬＢＯの第２の部分は、再構築損失（英語ではｒｅｃｏｎｓｔｒｕｃｔｉｏｎｌｏｓｓ）と称され、可能な限り良好な予測となるようデコーダをトレーニングするために用いられる。

このようなアプローチによって、いくつかの複雑な確率分布を極めて良好にモデリングすることができる。しかしながら、この方法論を首尾よく適用することは非常に困難である。例えば、ＶＡＥにおける過剰正則化の問題が発生し、このためには、アルゴリズムのハイパーパラメータの正確な調整が、特にカルバック・ライブラー項の重み付けが、ＥＬＢＯにおいて必要とされる。しかも、再構築損失を計算するためにトレーニングにおいて付加的な確率変数を取り出す必要があることから、ＶＡＥをトレーニングすることは、従来のニューラルネットワークよりも困難である。

よって、（エージェントの周囲において検出された）物体の効率的な予測を含む、エージェントのための制御方法が望まれている。

発明の開示
種々の実施形態に応じたエージェントの制御方法が提供され、この方法は、多数のエージェントについてこのエージェントの挙動に関するサンプルを含むトレーニングデータを用いて、ニューラルネットワークをトレーニングするステップであって、ニューラルネットワークの出力は、挙動に対する予測を有し、この出力は、すべてのトレーニングデータについて共通にトレーニングされるネットワークパラメータに依存し、かつ、多数のエージェントのエージェント各々について個別にトレーニングされるさらなるパラメータに依存する、ステップと、トレーニングの結果として生じたエージェントに対するさらなるパラメータの値に、確率分布をフィットさせるステップと、当該エージェントの周囲におけるさらなるエージェントに対する確率分布から値をサンプリングするステップと、さらなるエージェントのサンプリングされた値に対してニューラルネットワークが出力する、さらなるエージェントの挙動予測を考慮して、当該エージェントを制御するステップと、を含む。

上述の方法によって、自律システムの制御という状況において、他のエージェント（特に人間のエージェント）の起こり得る様々な挙動様式を生成することができる。このようにして、自律システムを制御する際に、他のエージェントとの衝突又は他のエージェントのその他の妨害を回避する軌跡又は自身の挙動様式を決定することができる。他方、自律システムの開発フェーズ中に人間のエージェントの様々な挙動を生成することができ、このようにして、シミュレーションに基づく評価（即ち、シミュレートされた制御）において、自律システムが適正に機能していることを検査することができる。

上述の方法によって、効果的にトレーニング可能な挙動予測を使用することによって、エージェントを制御する際に物体の挙動を考慮することができる。この方法を、確立された構成要素（ニューラルネットワーク、確率モデル）を用いて実装することができ、その際、ハイパーパラメータの調整は、例えばＶＡＥアプローチの場合よりも、著しく簡単であり、かつ、トレーニングは、全体としてよりロバストである。これにより、例えば、新たな適用事例のために、例えば他の国において運転者の挙動を予測するために、エキスパートの知識がなくても、モデルを迅速かつ簡単に、トレーニングし直すことができ、即ち、ある１つのエージェントを変更された条件に迅速に適合させることができ、このことによって、例えば、自律走行のための用途において安全性が高められる。

以下においては、種々の実施例を挙げておく。

実施例１は、上述のようにロボットを制御する方法である。

実施例２は、実施例１に記載の方法であって、この場合、ニューラルネットワークは、ある１つのエージェントの挙動予測にニューラルネットワークの入力をマッピングするようにトレーニングされ、ニューラルネットワークの入力は、ニューラルネットワークが挙動を予測すべきエージェントの状態情報と、さらなるパラメータとを含む。

即ち、ニューラルネットワークの出力とさらなるパラメータとの依存関係を、ニューラルネットワークの入力にさらなるパラメータを（入力のトレーニング可能な部分として）追加することによって、簡単に達成することができる。かくして、実装のために特別なネットワークアーキテクチャは必要とされず、対応する入力次元を有する既存のネットワークアーキテクチャを使用することができる。

実施例３は、実施例２に記載の方法であって、この場合、ニューラルネットワークの入力は、エージェントの挙動を予測すべき制御状況に関する状態情報を含む。

従って、ニューラルネットワークは、制御状況の状態をその予測に共に取り込むことができる。ニューラルネットワークの入力を、例えば、付加的なパラメータによって拡張された、ポジション及び速度を有する車両のリストの形態の交通状況の情報とすることができる。

実施例４は、実施例１から３までのいずれか１つに記載の方法であって、この場合、確率分布はガウス混合モデルである。

複雑な分布をモデリングする目的で、ガウス混合モデルを効率的にトレーニングすることができ、そこから効率的にサンプリングすることができる。

実施例５は、実施例１から４までのいずれか１つに記載の方法であって、この方法は、エージェントの挙動のサンプルと、それぞれニューラルネットワークによって予測された挙動との間の損失を最小化するために、ネットワークパラメータとさらなるパラメータとを適合させることによって、ネットワークパラメータ及びさらなるパラメータをトレーニングするステップを含む。

換言すれば、さらなるパラメータが、ニューラルネットワークのトレーニングに共に取り込まれる。ただし、この場合、さらなるパラメータは、それぞれ異なるエージェントのトレーニングサンプルに対し、それぞれ異なる（トレーニング可能な）値を有しており、その理由は、このパラメータは、挙動に関するサンプルがトレーニングデータに含まれるエージェントごとに個別にトレーニングされるからである。

実施例６は、実施例１から５までのいずれか１つに記載の方法を実施するように構成されている制御装置である。

実施例７は、プロセッサによって実行されるときに、このプロセッサが実施例１から５までのいずれか１つに記載の方法を実施するように、このプロセッサを動作させるための命令を含む、コンピュータプログラムである。

実施例８は、プロセッサによって実行されるときに、このプロセッサが実施例１から５までのいずれか１つに記載の方法を実施するように、このプロセッサを動作させるための命令を格納しているコンピュータ可読媒体である。

図面において、類似の参照符号は、一般に、様々なすべての視点において同様の部分に関係するものである。図面は、必ずしも縮尺どおりではなく、その代わりに一般に本発明の原理を描くことに重点が置かれている。以下の説明においては、種々の態様について以下の図面を参照しながら説明する。

車両を示す図である。ニューラルネットワークを用いた予測に関する１つの実施例を示す図である。１つの実施形態による、物体を取り上げて検査するロボットの制御方法を表すフローチャートを示す図である。

以下の詳細な説明は、本発明を実施可能な本開示の特別な詳細及び態様を説明するために示す添付の図面に関するものである。他の態様を使用することができ、本発明の保護範囲から逸脱することなく、構造的、論理的及び電気的な変更を実施することができる。新たな態様を形成する目的で、本開示のいくつかの態様を、本開示の１つ又は複数の他の態様と組み合わせることができることから、本開示の種々の態様は必ずしも互いに排他的なものではない。

以下においては、種々の実施例についてより詳細に説明する。

図１には、車両１００が示されている。

図１の実施例の場合、車両１００、例えば、乗用車又はトラックに車両制御装置１０２が設けられている。

車両制御装置１０２は、データ処理構成要素、例えばプロセッサ（例えば、ＣＰＵ（中央ユニット））１０３と、車両制御装置１０２を動作させる制御ソフトウェア及びプロセッサ１０３により処理されるデータを記憶する記憶装置１０４と、を備える。

例えば、記憶されている制御ソフトウェア（コンピュータプログラム）は、プロセッサがそれを実行するときに、当該プロセッサ１０３が１つ又は複数のニューラルネットワーク１０７を実施するように、当該プロセッサ１０３を動作させるための命令を含む。

記憶装置１０４内に記憶されたデータは、例えば、１つ又は複数のカメラ１０５によってキャプチャされる画像データを含み得る。１つ又は複数のカメラ１０５は、例えば、車両１００の周囲の１つ又は複数のグレースケール写真又はカラー写真を撮影することができる。

車両制御装置１０２は、画像データ（又は、同様に他の情報源からのデータ、例えば他の種類のセンサ、又は、同様に車両対車両通信）を使用して、車両１００の周囲における物体１０８、特に、他の車両、歩行者即ち人、又は、動物を検出することができる。

車両制御装置１０２は、センサデータを検査し、その結果に従って車両１００を制御することができ、即ち、車両に対する制御アクションを求め、車両の個々のアクチュエータにシグナリングすることができる。従って、車両制御装置１０２は、例えば、車両の速度を制御する目的で、例えば車両を制動する目的で、アクチュエータ１０６（例えば、ブレーキ）を制御することができる。

周囲に可動の物体１０８、即ち、自ら動く物体があるケースにおいて効果的な制御のために必要とされることは、その物体１０８がどのように動くのかを車両制御装置１０２が予測することである。例えば、車両制御装置１０２は、人が道路に足を踏み入れるのかを、又は、他の車両が曲がって来るのかを予測することができることが望ましい。

この目的において、車両制御装置１０２は、運転者又は歩行者といった人間の挙動予測を実施し、ただし、同様に、例えば動物、又は、場合によっては、同様に、他の自律装置の挙動予測も実施する。これらの可動物体は、以下においては、被制御エージェントのほか被制御エージェントの周囲に存在している（他の又はさらなる）エージェントであるともみなされる。挙動予測モデルのトレーニングのために、トレーニングデータセットが使用され、このトレーニングデータセットは、他のエージェントに関して、それらのエージェントの挙動を表すデータ（即ち、トレーニングサンプル）を含み、このデータは、例えば、様々な交通状況についてエージェントがそれらの交通状況において移動した際の軌跡を含む。

種々の実施形態によれば、挙動のばらつきは、特に人間のエージェントのそれぞれ異なる好みによって規定されている、という前提に基づくアプローチが、挙動予測のために使用される。これらの好みは、例えば、１乃至１０秒の期間にわたって一定であるとすることができる。従って、種々の実施形態によれば、ＶＡＥに基づくアプローチにおいてデコーダによって実現されるような予測モデルが、好みのベクトルｚだけ拡張される。ただし、この場合、ＶＡＥアプローチにおいてトレーニングのために必要とされる複雑なアーキテクチャは回避される。これに対し、ベクトルｚは、トレーニングデータセットにデータが含まれる他のエージェントａごとに固有のトレーニング可能な、モデルのパラメータｚ_ａとして扱われる。エージェントごとにトレーニングデータ内に複数のトレーニングサンプルが存在しており、（例えば、ＶＡＥにおいては一般的であるように）ｚの次元が十分に小さく、かつ、例えば荷重減衰のような正則化技術が用いられる限り、これらのｚ_ａを学習することができる。

新たなエージェントについても、即ち、トレーニングデータセットにデータが含まれていないエージェントについても、挙動を予測できるようにするために、ｚ_ａの学習された値がトレーニング後に収集され、付加的な第２のステップにおいて、ｚ_ａのデータセットについて分布モデルが推定される。このために、例えばガウス混合モデルなど、確率変数を効率的に取り出すことができる確率モデルをデータにフィットさせるために確立された様々な方法を使用することができる。このようにする場合には、かかる確率分布からの取り出しによって、新たなエージェントについて考えられる好みを特定することができ、予測モデルを用いて、可能性のある挙動を生成することができる。

即ち、ＶＡＥに基づく予測アプローチの場合のように複雑なトレーニング手順の代わりに、２つのステップにおいて、それぞれ確立された安定したルーチンによるそれぞれ比較的簡単なトレーニング方法が用いられる。

従って、種々の実施形態によれば、エージェントの制御装置によって、例えば車両１００の場合には、車両制御装置１０２によって、他のエージェントに対する挙動予測が実施される。即ち、このことは、制御装置が（被制御エージェントとは異なる）エージェントａについてその挙動ｙを入力データｘに基づき予測する、ということを意味する。この場合、変数ｘを、具体的な用途に応じて、入力データのベクトル、入力データの時系列を含む行列、又は、マルチチャネル画像とすることができる。同様のことは、出力ｙについても当てはまる。

この目的において、種々の実施形態によれば、以下のような予測モデルが用いられる。即ち、この予測モデルの（例えば、ポジションなどを表す）入力データｘが要素ｚ_ａだけ拡張され、この要素の値が、トレーニングデータにトレーニングサンプルが含まれるエージェントごとに個別に学習される。入力データのベクトル又は時系列の場合には、ｚ_ａの値（場合によっては値のベクトル）を簡単にｘに付加することができる。入力データが画像の場合には、ｚ_ａの値に応じて一定の値を有する付加的なチャネルを与えることができる。

このようにして拡張された予測モデルの入力データは、

によって表される。変数ｙを予測するための予測モデルは、種々の実施形態によれば、ニューラルネットワーク

によって実現され、ここで、

は、トレーニング可能なパラメータを表す。ニューラルネットワークは、ｙの分布を特定することができ、又は、ｙの値をそのまま特定することができる。ただし、例えば、ＶＡＥに基づくアプローチのようなアプローチとは異なり、変数ｚ_ａは、トレーニング可能なパラメータ

の一部分である。このことは、既存のネットワークアーキテクチャｆ_θ（ｘ）を入力データ

に合わせて拡張し、

とすることによって、実現することができる。

図２には、ニューラルネットワーク２０１を用いた予測に関する１つの実施例が示されている。

入力データは、軌跡を予測すべきエージェントの状態を表す状態ベクトル２０２である。状態ベクトル各々は、ｚ_ａの値２０３だけ拡張されている。結果として生じる拡張された状態ベクトル２０４が、ニューラルネットワーク２０１の入力を成しており、その際にニューラルネットワーク２０１は、この実施例においては、拡張されたかかる状態ベクトル２０４のセット（即ち、時系列２０７）を受け取り、そこから軌跡２０５を予測する。即ち、この場合には、ニューラルネットワークの出力は軌跡２０５の情報である。ｚ_ａの値２０３は、現在の予測のために（又はエージェントのためにも）確率分布からサンプリングされ、この場合には、この値は、現在の予測に使用されるすべての状態ベクトル２０４に対し一定である。これを同一のエージェントに関連するすべての予測について、一定に維持することもできるし、又は、（それが同一のエージェントに関連するとしても）予測ごとに新たにサンプリングすることもできる。

（確率分布２０６と共にニューラルネットワーク２０１を）トレーニングするために、最初に、トレーニングデータにトレーニングサンプルが存在しているエージェントごとに、ｚ_ａの（初期）値がランダムにサンプリングされ、このｚ_ａが（エージェントごとに個別に）、ニューラルネットワーク２０１の本来のパラメータ（即ち、ネットワークパラメータ、典型的には重み）と共にトレーニングされる。その際に用途に応じて、交差エントロピー損失など様々な損失関数を使用することができる。このトレーニングの後では、トレーニングデータにトレーニングサンプルが存在しているエージェントごとに、ｚ_ａの値によってエージェントの個々の挙動が符号化されている。ここで、新たなエージェントについても、即ち、トレーニングデータにトレーニングサンプルが存在しないエージェントについても、挙動を予測できるようにする目的で、ｇ（ｚ_ａ）によって表される変数ｚ_ａの確率分布２０６がモデリングされる。

このために、確率分布を供給するデータに対し、確率分布をフィットさせる任意の方法を用いることができ、これによって、例えばガウス混合モデルのように、ｚ_ａの値を効率的にサンプリングすることができる。その後、新たなエージェントについてｚ_ａの値をサンプリングし、

を用いてそれらの挙動を予測する目的で、結果として得られたモデルｇ（ｚ_ａ）を取り出すことができる。

従って、種々の実施形態によれば、トレーニング及び予測の実行のために以下のことが実施される。

トレーニング
１．ニューラルネットワーク

の初期化。
２．トレーニングデータセットにおけるすべてのエージェントａに対して、初期変数ｚ_ａが与えられる。
３．ネットワーク及び変数ｚ_ａのトレーニング。
３．１．エポック数にわたって又は中断判定基準が満たされるまでトレーニング。
３．１．１．トレーニングデータから最小バッチ｛（ｘ，ｙ）｝を取り出す。
３．１．２．拡張された最小バッチ

を生成するために、対応するエージェント

について変数ｚ_ａの値だけデータポイントｘを拡張する。
３．１．３．損失

に基づきθ及び｛ｚ_ａ｝に関して最適化するステップ。
４．変数｛ｚ_ａ｝のトレーニングされた値を収集する。
５．収集されたデータ｛ｚ_ａ｝に基づき確率分布モデルｇ（ｚ_ａ）をトレーニングする。

予測の実施
１．さらなるエージェントについて、トレーニングされた確率分布モデルｇ（ｚ_ａ）からｚ_ａの値を取り出す。
２．拡張された入力

に基づき本来の予測モデルｆ_θを評価することによって、予測ｙが得られる。

以上を要約すると、種々の実施形態によれば、図３に示されているような方法が提供される。

図３には、１つの実施形態による、物体を取り上げて検査するロボットの制御方法を表すフローチャート３００が示されている。

３０１において、多数のエージェントについてそれらのエージェントの挙動に関するサンプルを含むトレーニングデータを用いて、ニューラルネットワークがトレーニングされ、この場合、ニューラルネットワークの出力は、挙動に対する予測を有し、この出力は、すべてのトレーニングデータについて共通にトレーニングされるネットワークパラメータに依存し、かつ、多数のエージェントのエージェント各々について個別に（即ち、固有に）トレーニングされるさらなるパラメータに依存する。

３０２において、トレーニングの結果として生じた、エージェントに対するさらなるパラメータの値に、確率分布がフィットさせられる。

３０３において、当該エージェントの周囲におけるさらなるエージェントに対する確率分布から、値がサンプリングされる（即ち、取り出される）。

３０４において、さらなるエージェントのサンプリングされた値に対してニューラルネットワークが出力する、さらなるエージェントの挙動予測を考慮して、当該エージェントが制御される。

図３の方法を、１つ又は複数のデータ処理ユニットを備えた１つ又は複数のコンピュータによって実施することができる。「データ処理ユニット」という用語は、データ又は信号の処理を可能にする任意の種類のエンティティのことであると解することができる。データ又は信号を、例えば、データ処理ユニットが実施する少なくとも１つの（即ち、１つ又は１つより多くの）特別な機能に従って処理することができる。データ処理ユニットは、アナログ回路、ディジタル回路、ロジック回路、マイクロプロセッサ、マイクロコントローラ、中央ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、ディジタル信号プロセッサ（ＤＳＰ）、プログラマブルゲートアレイ（ＦＰＧＡ）集積回路、又は、これらの何らかの組合せを含み得るものであり、又は、これらから成るものとすることができる。本明細書においてより詳細に説明される個々の機能を実装するための他の何らかの手法を、データ処理ユニット又はロジック回路装置として解することもできる。本明細書において詳細に説明される方法ステップのうちの１つ又は複数を、データ処理ユニットによって、このデータ処理ユニットが実施する１つ又は複数の特別な機能を介して、実行する（例えば、実装する）ことができる。

様々な実施形態は、ビデオ、レーダ、ＬｉＤＡＲ、超音波、運動、加速度、サーモグラフィなどのような様々なセンサから、センサ信号を受信することができ、例えば、物体（即ち、他のエージェント）を検出するためのセンサデータを、挙動を予測するニューラルネットワークに対する入力として取得する目的で、使用することができる。

ニューラルネットワークは出力として、１つの連続する値範囲に属する値を、又は、１つの連続する値範囲に属する複数の値を、供給することができる。例えば、挙動をその出力において１つ又は複数のポジション、軌跡、占有状態などによって表現する人間のエージェントの今後の挙動に関して、回帰を実施することができる。

機械学習システムをトレーニングするために、また、エージェント、例えば、ロボット又は車両といった物理的システムを制御するために、実施形態を使用することができる。特に実施形態を、例えば、組み立てラインにおいて、操作タスクの実行の制御及び監視に適用することができる。

被制御エージェントをロボット装置とすることができ、即ち、ロボット装置用の制御信号を形成することができる。「ロボット装置」という用語を、（運動が制御される機械部分を備えた）何らかの物理的システム自体に関連するものとして解することができ、例えば、コンピュータ制御機械、車両、家庭用機器、電動工具、製造機械、パーソナルアシスタント、又は、アクセス制御システムなどである。物理システムに対する制御規則が学習され、それに応じて物理システムが制御される。

自律車両又は移動型ロボットの場合においては、ロボット装置は、（例えば、ＬｉＤＡＲセンサを用いて）歩行者を検出し、それらのポジション及び速度を計算する。個々の制御装置（例えば、車両制御装置１０２）は、歩行者各々について考えられる好みをサンプリングし、歩行者の現在のポジションからその歩行者の今後の軌跡を予測する目的で、トレーニングされた予測モデル（即ち、トレーニングされたニューラルネットワーク）を使用する。

ただし、既述のアプローチをあらゆる種類のエージェントに（例えば、単にシミュレートされるだけで物理的には存在していないエージェントにも）、適用することができる。

本明細書においては、個別的な実施形態について図示し説明したが、当業者には自明のとおり、図示され説明されている個別的な実施形態を、本発明の保護範囲から逸脱することなく、代替的な及び／又は等価の多様な実装形態に置き換えることができる。本願は、本明細書において論じられている個別的な実施形態のいかなる適合又は変形も包含するものである。よって、本発明は、特許請求の範囲及びその等価物によってのみ限定されるということが意図されている。

Claims

エージェントの制御方法であって、
複数のエージェントについて当該エージェントの挙動に関するサンプルを含むトレーニングデータを用いて、ニューラルネットワークをトレーニングするステップであって、前記ニューラルネットワークの出力は、挙動に対する予測を有し、前記出力は、すべてのトレーニングデータについて共通にトレーニングされるネットワークパラメータに依存し、かつ、前記複数のエージェントのエージェント各々について個別にトレーニングされるさらなるパラメータに依存する、ステップと、
前記トレーニングの結果として生じた前記エージェントに対する前記さらなるパラメータの値に、確率分布をフィットさせるステップと、
前記エージェントの周囲におけるさらなるエージェントに対する前記確率分布から値をサンプリングするステップと、
前記さらなるエージェントのサンプリングされた前記値に対して前記ニューラルネットワークが出力する、前記さらなるエージェントの挙動予測を考慮して、前記エージェントを制御するステップと、
を含む、エージェントの制御方法。
前記ニューラルネットワークは、ある１つのエージェントの挙動予測に前記ニューラルネットワークの入力をマッピングするようにトレーニングされ、前記ニューラルネットワークの入力は、前記ニューラルネットワークが挙動を予測すべき前記エージェントの状態情報と、前記さらなるパラメータとを含む、請求項１に記載の方法。
前記ニューラルネットワークの入力は、前記エージェントの挙動を予測すべき制御状況に関する状態情報を含む、請求項２に記載の方法。
前記確率分布は、ガウス混合モデルである、請求項１乃至３のいずれか一項に記載の方法。
前記エージェントの挙動のサンプルと、それぞれ前記ニューラルネットワークによって予測された挙動との間の損失を最小化するために、前記ネットワークパラメータと前記さらなるパラメータとを適合させることによって、前記ネットワークパラメータ及び前記さらなるパラメータをトレーニングするステップを含む、請求項１乃至４のいずれか一項に記載の方法。
請求項１乃至５のいずれか一項に記載の方法を実施するように構成されている制御装置。
プロセッサによって実行されるときに、当該プロセッサが請求項１乃至５のいずれか一項に記載の方法を実施するように、当該プロセッサを動作させるための命令を含むコンピュータプログラム。
プロセッサによって実行されるときに、当該プロセッサが請求項１乃至５のいずれか一項に記載の方法を実施するように、当該プロセッサを動作させるための命令を格納しているコンピュータ可読媒体。