JP2023062688A - エージェントの制御方法 - Google Patents

エージェントの制御方法 Download PDF

Info

Publication number
JP2023062688A
JP2023062688A JP2022168137A JP2022168137A JP2023062688A JP 2023062688 A JP2023062688 A JP 2023062688A JP 2022168137 A JP2022168137 A JP 2022168137A JP 2022168137 A JP2022168137 A JP 2022168137A JP 2023062688 A JP2023062688 A JP 2023062688A
Authority
JP
Japan
Prior art keywords
agent
behavior
neural network
agents
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022168137A
Other languages
English (en)
Inventor
シュミット フェリックス
Felix Dr Schmitt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2023062688A publication Critical patent/JP2023062688A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】エージェントの周囲において検出された物体の効率的な予測を含むエージェントのための制御方法を提供する。【解決手段】方法は、多数のエージェントの挙動に関するトレーニングデータを用いて、ニューラルネットワークをトレーニングし、挙動に対する予測をする。この出力は、共通にトレーニングされるパラメータと、多数のエージェント各々について個別にトレーニングされるパラメータに依存する。トレーニングの結果として生じたエージェントに対するパラメータの値に、確率分布をフィットさせ、エージェントの周囲におけるエージェントに対する確率分布から値をサンプリングし、サンプリングされた値に対してニューラルネットワークが出力するエージェントの挙動予測を考慮して、当該エージェントを制御する。【選択図】なし

Description

本開示は、エージェントの制御方法に関する。
自律システムの分野においては、エージェントを確実に制御し、例えば、衝突を回避する目的で、(例えば、ロボットのような)被制御エージェントの周囲で移動している物体(例えば、人)の挙動を予測することが、重要なタスクである。
特に、1乃至10秒というすぐ先の人間の挙動を予想することは、基本的なタスクである。病院用ロボットは、例えば、看護スタッフ、医師及び患者のために通路上に適時にスペースを確保する目的で、それらの人々の挙動を予測しなければならない。自律走行の場合、車両は、他の道路利用者が車線に割り込むことを先読みしなければならない。現在のところ、最も正確な予測法は、ほぼ例外なく機械学習のカテゴリーに属するものである。
このタスクにおける難問のうちの1つは、人間の挙動が個々の願望、好み及び意図に左右され、従って、非常に多様なものになる可能性があるということである。ある運転者は、例えば、自分よりも遅い前方車両を追い越さず、その代わりに速度を合わせるほうを好むのに対し、他の運転者は、時間を無駄にしたくなく、むしろ追い越したい。そこで、正確な予測のためには、挙動のこうした変動幅を担保し、機械学習のアプローチの場合には、それをデータから学習しなければならない。
この目的において、機械学習の現在の主導的な方法によれば、変分オートエンコーダ(Variational Auto-Encoder,VAE)アプローチのバリエーションが用いられる。この場合に前提とすることは、予測すべき変数y~p(.|x,z)は、入力データxだけでなく、事前分布p(z)に従う潜在変数zにも依存する、ということである。この変数は、トレーニングデータにそのまま存在しているのではなく、これを推定しなければならない。この目的で、事後分布p(z|x,y)が考慮される。このトレーニングのために、p(y|x,z)が、デコーダネットワークgθ(y,x,z)によって、p(z|x,y)が認識ネットワークhΨ(z,x,y)によってモデリングされ、さらにEvidence Lower Bound(ELBO)の最小化ELBO(x,y,θ,Ψ)=-KL(hΨ(z,x,y)||p(z))+Ez~hΨ(.,x,y)[log(gθ(y,x,z))]によってトレーニングされる。ここで、KLは、分布間のカルバック・ライブラー・ダイバージェンスを表し、潜在変数又はそれらの分布を正則化するために取り出される。ELBOの第2の部分は、再構築損失(英語ではreconstruction loss)と称され、可能な限り良好な予測となるようデコーダをトレーニングするために用いられる。
このようなアプローチによって、いくつかの複雑な確率分布を極めて良好にモデリングすることができる。しかしながら、この方法論を首尾よく適用することは非常に困難である。例えば、VAEにおける過剰正則化の問題が発生し、このためには、アルゴリズムのハイパーパラメータの正確な調整が、特にカルバック・ライブラー項の重み付けが、ELBOにおいて必要とされる。しかも、再構築損失を計算するためにトレーニングにおいて付加的な確率変数を取り出す必要があることから、VAEをトレーニングすることは、従来のニューラルネットワークよりも困難である。
よって、(エージェントの周囲において検出された)物体の効率的な予測を含む、エージェントのための制御方法が望まれている。
発明の開示
種々の実施形態に応じたエージェントの制御方法が提供され、この方法は、多数のエージェントについてこのエージェントの挙動に関するサンプルを含むトレーニングデータを用いて、ニューラルネットワークをトレーニングするステップであって、ニューラルネットワークの出力は、挙動に対する予測を有し、この出力は、すべてのトレーニングデータについて共通にトレーニングされるネットワークパラメータに依存し、かつ、多数のエージェントのエージェント各々について個別にトレーニングされるさらなるパラメータに依存する、ステップと、トレーニングの結果として生じたエージェントに対するさらなるパラメータの値に、確率分布をフィットさせるステップと、当該エージェントの周囲におけるさらなるエージェントに対する確率分布から値をサンプリングするステップと、さらなるエージェントのサンプリングされた値に対してニューラルネットワークが出力する、さらなるエージェントの挙動予測を考慮して、当該エージェントを制御するステップと、を含む。
上述の方法によって、自律システムの制御という状況において、他のエージェント(特に人間のエージェント)の起こり得る様々な挙動様式を生成することができる。このようにして、自律システムを制御する際に、他のエージェントとの衝突又は他のエージェントのその他の妨害を回避する軌跡又は自身の挙動様式を決定することができる。他方、自律システムの開発フェーズ中に人間のエージェントの様々な挙動を生成することができ、このようにして、シミュレーションに基づく評価(即ち、シミュレートされた制御)において、自律システムが適正に機能していることを検査することができる。
上述の方法によって、効果的にトレーニング可能な挙動予測を使用することによって、エージェントを制御する際に物体の挙動を考慮することができる。この方法を、確立された構成要素(ニューラルネットワーク、確率モデル)を用いて実装することができ、その際、ハイパーパラメータの調整は、例えばVAEアプローチの場合よりも、著しく簡単であり、かつ、トレーニングは、全体としてよりロバストである。これにより、例えば、新たな適用事例のために、例えば他の国において運転者の挙動を予測するために、エキスパートの知識がなくても、モデルを迅速かつ簡単に、トレーニングし直すことができ、即ち、ある1つのエージェントを変更された条件に迅速に適合させることができ、このことによって、例えば、自律走行のための用途において安全性が高められる。
以下においては、種々の実施例を挙げておく。
実施例1は、上述のようにロボットを制御する方法である。
実施例2は、実施例1に記載の方法であって、この場合、ニューラルネットワークは、ある1つのエージェントの挙動予測にニューラルネットワークの入力をマッピングするようにトレーニングされ、ニューラルネットワークの入力は、ニューラルネットワークが挙動を予測すべきエージェントの状態情報と、さらなるパラメータとを含む。
即ち、ニューラルネットワークの出力とさらなるパラメータとの依存関係を、ニューラルネットワークの入力にさらなるパラメータを(入力のトレーニング可能な部分として)追加することによって、簡単に達成することができる。かくして、実装のために特別なネットワークアーキテクチャは必要とされず、対応する入力次元を有する既存のネットワークアーキテクチャを使用することができる。
実施例3は、実施例2に記載の方法であって、この場合、ニューラルネットワークの入力は、エージェントの挙動を予測すべき制御状況に関する状態情報を含む。
従って、ニューラルネットワークは、制御状況の状態をその予測に共に取り込むことができる。ニューラルネットワークの入力を、例えば、付加的なパラメータによって拡張された、ポジション及び速度を有する車両のリストの形態の交通状況の情報とすることができる。
実施例4は、実施例1から3までのいずれか1つに記載の方法であって、この場合、確率分布はガウス混合モデルである。
複雑な分布をモデリングする目的で、ガウス混合モデルを効率的にトレーニングすることができ、そこから効率的にサンプリングすることができる。
実施例5は、実施例1から4までのいずれか1つに記載の方法であって、この方法は、エージェントの挙動のサンプルと、それぞれニューラルネットワークによって予測された挙動との間の損失を最小化するために、ネットワークパラメータとさらなるパラメータとを適合させることによって、ネットワークパラメータ及びさらなるパラメータをトレーニングするステップを含む。
換言すれば、さらなるパラメータが、ニューラルネットワークのトレーニングに共に取り込まれる。ただし、この場合、さらなるパラメータは、それぞれ異なるエージェントのトレーニングサンプルに対し、それぞれ異なる(トレーニング可能な)値を有しており、その理由は、このパラメータは、挙動に関するサンプルがトレーニングデータに含まれるエージェントごとに個別にトレーニングされるからである。
実施例6は、実施例1から5までのいずれか1つに記載の方法を実施するように構成されている制御装置である。
実施例7は、プロセッサによって実行されるときに、このプロセッサが実施例1から5までのいずれか1つに記載の方法を実施するように、このプロセッサを動作させるための命令を含む、コンピュータプログラムである。
実施例8は、プロセッサによって実行されるときに、このプロセッサが実施例1から5までのいずれか1つに記載の方法を実施するように、このプロセッサを動作させるための命令を格納しているコンピュータ可読媒体である。
図面において、類似の参照符号は、一般に、様々なすべての視点において同様の部分に関係するものである。図面は、必ずしも縮尺どおりではなく、その代わりに一般に本発明の原理を描くことに重点が置かれている。以下の説明においては、種々の態様について以下の図面を参照しながら説明する。
車両を示す図である。 ニューラルネットワークを用いた予測に関する1つの実施例を示す図である。 1つの実施形態による、物体を取り上げて検査するロボットの制御方法を表すフローチャートを示す図である。
以下の詳細な説明は、本発明を実施可能な本開示の特別な詳細及び態様を説明するために示す添付の図面に関するものである。他の態様を使用することができ、本発明の保護範囲から逸脱することなく、構造的、論理的及び電気的な変更を実施することができる。新たな態様を形成する目的で、本開示のいくつかの態様を、本開示の1つ又は複数の他の態様と組み合わせることができることから、本開示の種々の態様は必ずしも互いに排他的なものではない。
以下においては、種々の実施例についてより詳細に説明する。
図1には、車両100が示されている。
図1の実施例の場合、車両100、例えば、乗用車又はトラックに車両制御装置102が設けられている。
車両制御装置102は、データ処理構成要素、例えばプロセッサ(例えば、CPU(中央ユニット))103と、車両制御装置102を動作させる制御ソフトウェア及びプロセッサ103により処理されるデータを記憶する記憶装置104と、を備える。
例えば、記憶されている制御ソフトウェア(コンピュータプログラム)は、プロセッサがそれを実行するときに、当該プロセッサ103が1つ又は複数のニューラルネットワーク107を実施するように、当該プロセッサ103を動作させるための命令を含む。
記憶装置104内に記憶されたデータは、例えば、1つ又は複数のカメラ105によってキャプチャされる画像データを含み得る。1つ又は複数のカメラ105は、例えば、車両100の周囲の1つ又は複数のグレースケール写真又はカラー写真を撮影することができる。
車両制御装置102は、画像データ(又は、同様に他の情報源からのデータ、例えば他の種類のセンサ、又は、同様に車両対車両通信)を使用して、車両100の周囲における物体108、特に、他の車両、歩行者即ち人、又は、動物を検出することができる。
車両制御装置102は、センサデータを検査し、その結果に従って車両100を制御することができ、即ち、車両に対する制御アクションを求め、車両の個々のアクチュエータにシグナリングすることができる。従って、車両制御装置102は、例えば、車両の速度を制御する目的で、例えば車両を制動する目的で、アクチュエータ106(例えば、ブレーキ)を制御することができる。
周囲に可動の物体108、即ち、自ら動く物体があるケースにおいて効果的な制御のために必要とされることは、その物体108がどのように動くのかを車両制御装置102が予測することである。例えば、車両制御装置102は、人が道路に足を踏み入れるのかを、又は、他の車両が曲がって来るのかを予測することができることが望ましい。
この目的において、車両制御装置102は、運転者又は歩行者といった人間の挙動予測を実施し、ただし、同様に、例えば動物、又は、場合によっては、同様に、他の自律装置の挙動予測も実施する。これらの可動物体は、以下においては、被制御エージェントのほか被制御エージェントの周囲に存在している(他の又はさらなる)エージェントであるともみなされる。挙動予測モデルのトレーニングのために、トレーニングデータセットが使用され、このトレーニングデータセットは、他のエージェントに関して、それらのエージェントの挙動を表すデータ(即ち、トレーニングサンプル)を含み、このデータは、例えば、様々な交通状況についてエージェントがそれらの交通状況において移動した際の軌跡を含む。
種々の実施形態によれば、挙動のばらつきは、特に人間のエージェントのそれぞれ異なる好みによって規定されている、という前提に基づくアプローチが、挙動予測のために使用される。これらの好みは、例えば、1乃至10秒の期間にわたって一定であるとすることができる。従って、種々の実施形態によれば、VAEに基づくアプローチにおいてデコーダによって実現されるような予測モデルが、好みのベクトルzだけ拡張される。ただし、この場合、VAEアプローチにおいてトレーニングのために必要とされる複雑なアーキテクチャは回避される。これに対し、ベクトルzは、トレーニングデータセットにデータが含まれる他のエージェントaごとに固有のトレーニング可能な、モデルのパラメータzとして扱われる。エージェントごとにトレーニングデータ内に複数のトレーニングサンプルが存在しており、(例えば、VAEにおいては一般的であるように)zの次元が十分に小さく、かつ、例えば荷重減衰のような正則化技術が用いられる限り、これらのzを学習することができる。
新たなエージェントについても、即ち、トレーニングデータセットにデータが含まれていないエージェントについても、挙動を予測できるようにするために、zの学習された値がトレーニング後に収集され、付加的な第2のステップにおいて、zのデータセットについて分布モデルが推定される。このために、例えばガウス混合モデルなど、確率変数を効率的に取り出すことができる確率モデルをデータにフィットさせるために確立された様々な方法を使用することができる。このようにする場合には、かかる確率分布からの取り出しによって、新たなエージェントについて考えられる好みを特定することができ、予測モデルを用いて、可能性のある挙動を生成することができる。
即ち、VAEに基づく予測アプローチの場合のように複雑なトレーニング手順の代わりに、2つのステップにおいて、それぞれ確立された安定したルーチンによるそれぞれ比較的簡単なトレーニング方法が用いられる。
従って、種々の実施形態によれば、エージェントの制御装置によって、例えば車両100の場合には、車両制御装置102によって、他のエージェントに対する挙動予測が実施される。即ち、このことは、制御装置が(被制御エージェントとは異なる)エージェントaについてその挙動yを入力データxに基づき予測する、ということを意味する。この場合、変数xを、具体的な用途に応じて、入力データのベクトル、入力データの時系列を含む行列、又は、マルチチャネル画像とすることができる。同様のことは、出力yについても当てはまる。
この目的において、種々の実施形態によれば、以下のような予測モデルが用いられる。即ち、この予測モデルの(例えば、ポジションなどを表す)入力データxが要素zだけ拡張され、この要素の値が、トレーニングデータにトレーニングサンプルが含まれるエージェントごとに個別に学習される。入力データのベクトル又は時系列の場合には、zの値(場合によっては値のベクトル)を簡単にxに付加することができる。入力データが画像の場合には、zの値に応じて一定の値を有する付加的なチャネルを与えることができる。
このようにして拡張された予測モデルの入力データは、
Figure 2023062688000001
によって表される。変数yを予測するための予測モデルは、種々の実施形態によれば、ニューラルネットワーク
Figure 2023062688000002
によって実現され、ここで、
Figure 2023062688000003
は、トレーニング可能なパラメータを表す。ニューラルネットワークは、yの分布を特定することができ、又は、yの値をそのまま特定することができる。ただし、例えば、VAEに基づくアプローチのようなアプローチとは異なり、変数zは、トレーニング可能なパラメータ
Figure 2023062688000004
の一部分である。このことは、既存のネットワークアーキテクチャfθ(x)を入力データ
Figure 2023062688000005
に合わせて拡張し、
Figure 2023062688000006
とすることによって、実現することができる。
図2には、ニューラルネットワーク201を用いた予測に関する1つの実施例が示されている。
入力データは、軌跡を予測すべきエージェントの状態を表す状態ベクトル202である。状態ベクトル各々は、zの値203だけ拡張されている。結果として生じる拡張された状態ベクトル204が、ニューラルネットワーク201の入力を成しており、その際にニューラルネットワーク201は、この実施例においては、拡張されたかかる状態ベクトル204のセット(即ち、時系列207)を受け取り、そこから軌跡205を予測する。即ち、この場合には、ニューラルネットワークの出力は軌跡205の情報である。zの値203は、現在の予測のために(又はエージェントのためにも)確率分布からサンプリングされ、この場合には、この値は、現在の予測に使用されるすべての状態ベクトル204に対し一定である。これを同一のエージェントに関連するすべての予測について、一定に維持することもできるし、又は、(それが同一のエージェントに関連するとしても)予測ごとに新たにサンプリングすることもできる。
(確率分布206と共にニューラルネットワーク201を)トレーニングするために、最初に、トレーニングデータにトレーニングサンプルが存在しているエージェントごとに、zの(初期)値がランダムにサンプリングされ、このzが(エージェントごとに個別に)、ニューラルネットワーク201の本来のパラメータ(即ち、ネットワークパラメータ、典型的には重み)と共にトレーニングされる。その際に用途に応じて、交差エントロピー損失など様々な損失関数を使用することができる。このトレーニングの後では、トレーニングデータにトレーニングサンプルが存在しているエージェントごとに、zの値によってエージェントの個々の挙動が符号化されている。ここで、新たなエージェントについても、即ち、トレーニングデータにトレーニングサンプルが存在しないエージェントについても、挙動を予測できるようにする目的で、g(z)によって表される変数zの確率分布206がモデリングされる。
このために、確率分布を供給するデータに対し、確率分布をフィットさせる任意の方法を用いることができ、これによって、例えばガウス混合モデルのように、zの値を効率的にサンプリングすることができる。その後、新たなエージェントについてzの値をサンプリングし、
Figure 2023062688000007
を用いてそれらの挙動を予測する目的で、結果として得られたモデルg(z)を取り出すことができる。
従って、種々の実施形態によれば、トレーニング及び予測の実行のために以下のことが実施される。
トレーニング
1.ニューラルネットワーク
Figure 2023062688000008
の初期化。
2.トレーニングデータセットにおけるすべてのエージェントaに対して、初期変数zが与えられる。
3.ネットワーク及び変数zのトレーニング。
3.1.エポック数にわたって又は中断判定基準が満たされるまでトレーニング。
3.1.1.トレーニングデータから最小バッチ{(x,y)}を取り出す。
3.1.2.拡張された最小バッチ
Figure 2023062688000009
を生成するために、対応するエージェント
Figure 2023062688000010
について変数zの値だけデータポイントxを拡張する。
3.1.3.損失
Figure 2023062688000011
に基づきθ及び{z}に関して最適化するステップ。
4.変数{z}のトレーニングされた値を収集する。
5.収集されたデータ{z}に基づき確率分布モデルg(z)をトレーニングする。
予測の実施
1.さらなるエージェントについて、トレーニングされた確率分布モデルg(z)からzの値を取り出す。
2.拡張された入力
Figure 2023062688000012
に基づき本来の予測モデルfθを評価することによって、予測yが得られる。
以上を要約すると、種々の実施形態によれば、図3に示されているような方法が提供される。
図3には、1つの実施形態による、物体を取り上げて検査するロボットの制御方法を表すフローチャート300が示されている。
301において、多数のエージェントについてそれらのエージェントの挙動に関するサンプルを含むトレーニングデータを用いて、ニューラルネットワークがトレーニングされ、この場合、ニューラルネットワークの出力は、挙動に対する予測を有し、この出力は、すべてのトレーニングデータについて共通にトレーニングされるネットワークパラメータに依存し、かつ、多数のエージェントのエージェント各々について個別に(即ち、固有に)トレーニングされるさらなるパラメータに依存する。
302において、トレーニングの結果として生じた、エージェントに対するさらなるパラメータの値に、確率分布がフィットさせられる。
303において、当該エージェントの周囲におけるさらなるエージェントに対する確率分布から、値がサンプリングされる(即ち、取り出される)。
304において、さらなるエージェントのサンプリングされた値に対してニューラルネットワークが出力する、さらなるエージェントの挙動予測を考慮して、当該エージェントが制御される。
図3の方法を、1つ又は複数のデータ処理ユニットを備えた1つ又は複数のコンピュータによって実施することができる。「データ処理ユニット」という用語は、データ又は信号の処理を可能にする任意の種類のエンティティのことであると解することができる。データ又は信号を、例えば、データ処理ユニットが実施する少なくとも1つの(即ち、1つ又は1つより多くの)特別な機能に従って処理することができる。データ処理ユニットは、アナログ回路、ディジタル回路、ロジック回路、マイクロプロセッサ、マイクロコントローラ、中央ユニット(CPU)、グラフィック処理ユニット(GPU)、ディジタル信号プロセッサ(DSP)、プログラマブルゲートアレイ(FPGA)集積回路、又は、これらの何らかの組合せを含み得るものであり、又は、これらから成るものとすることができる。本明細書においてより詳細に説明される個々の機能を実装するための他の何らかの手法を、データ処理ユニット又はロジック回路装置として解することもできる。本明細書において詳細に説明される方法ステップのうちの1つ又は複数を、データ処理ユニットによって、このデータ処理ユニットが実施する1つ又は複数の特別な機能を介して、実行する(例えば、実装する)ことができる。
様々な実施形態は、ビデオ、レーダ、LiDAR、超音波、運動、加速度、サーモグラフィなどのような様々なセンサから、センサ信号を受信することができ、例えば、物体(即ち、他のエージェント)を検出するためのセンサデータを、挙動を予測するニューラルネットワークに対する入力として取得する目的で、使用することができる。
ニューラルネットワークは出力として、1つの連続する値範囲に属する値を、又は、1つの連続する値範囲に属する複数の値を、供給することができる。例えば、挙動をその出力において1つ又は複数のポジション、軌跡、占有状態などによって表現する人間のエージェントの今後の挙動に関して、回帰を実施することができる。
機械学習システムをトレーニングするために、また、エージェント、例えば、ロボット又は車両といった物理的システムを制御するために、実施形態を使用することができる。特に実施形態を、例えば、組み立てラインにおいて、操作タスクの実行の制御及び監視に適用することができる。
被制御エージェントをロボット装置とすることができ、即ち、ロボット装置用の制御信号を形成することができる。「ロボット装置」という用語を、(運動が制御される機械部分を備えた)何らかの物理的システム自体に関連するものとして解することができ、例えば、コンピュータ制御機械、車両、家庭用機器、電動工具、製造機械、パーソナルアシスタント、又は、アクセス制御システムなどである。物理システムに対する制御規則が学習され、それに応じて物理システムが制御される。
自律車両又は移動型ロボットの場合においては、ロボット装置は、(例えば、LiDARセンサを用いて)歩行者を検出し、それらのポジション及び速度を計算する。個々の制御装置(例えば、車両制御装置102)は、歩行者各々について考えられる好みをサンプリングし、歩行者の現在のポジションからその歩行者の今後の軌跡を予測する目的で、トレーニングされた予測モデル(即ち、トレーニングされたニューラルネットワーク)を使用する。
ただし、既述のアプローチをあらゆる種類のエージェントに(例えば、単にシミュレートされるだけで物理的には存在していないエージェントにも)、適用することができる。
本明細書においては、個別的な実施形態について図示し説明したが、当業者には自明のとおり、図示され説明されている個別的な実施形態を、本発明の保護範囲から逸脱することなく、代替的な及び/又は等価の多様な実装形態に置き換えることができる。本願は、本明細書において論じられている個別的な実施形態のいかなる適合又は変形も包含するものである。よって、本発明は、特許請求の範囲及びその等価物によってのみ限定されるということが意図されている。

Claims (8)

  1. エージェントの制御方法であって、
    複数のエージェントについて当該エージェントの挙動に関するサンプルを含むトレーニングデータを用いて、ニューラルネットワークをトレーニングするステップであって、前記ニューラルネットワークの出力は、挙動に対する予測を有し、前記出力は、すべてのトレーニングデータについて共通にトレーニングされるネットワークパラメータに依存し、かつ、前記複数のエージェントのエージェント各々について個別にトレーニングされるさらなるパラメータに依存する、ステップと、
    前記トレーニングの結果として生じた前記エージェントに対する前記さらなるパラメータの値に、確率分布をフィットさせるステップと、
    前記エージェントの周囲におけるさらなるエージェントに対する前記確率分布から値をサンプリングするステップと、
    前記さらなるエージェントのサンプリングされた前記値に対して前記ニューラルネットワークが出力する、前記さらなるエージェントの挙動予測を考慮して、前記エージェントを制御するステップと、
    を含む、エージェントの制御方法。
  2. 前記ニューラルネットワークは、ある1つのエージェントの挙動予測に前記ニューラルネットワークの入力をマッピングするようにトレーニングされ、前記ニューラルネットワークの入力は、前記ニューラルネットワークが挙動を予測すべき前記エージェントの状態情報と、前記さらなるパラメータとを含む、請求項1に記載の方法。
  3. 前記ニューラルネットワークの入力は、前記エージェントの挙動を予測すべき制御状況に関する状態情報を含む、請求項2に記載の方法。
  4. 前記確率分布は、ガウス混合モデルである、請求項1乃至3のいずれか一項に記載の方法。
  5. 前記エージェントの挙動のサンプルと、それぞれ前記ニューラルネットワークによって予測された挙動との間の損失を最小化するために、前記ネットワークパラメータと前記さらなるパラメータとを適合させることによって、前記ネットワークパラメータ及び前記さらなるパラメータをトレーニングするステップを含む、請求項1乃至4のいずれか一項に記載の方法。
  6. 請求項1乃至5のいずれか一項に記載の方法を実施するように構成されている制御装置。
  7. プロセッサによって実行されるときに、当該プロセッサが請求項1乃至5のいずれか一項に記載の方法を実施するように、当該プロセッサを動作させるための命令を含むコンピュータプログラム。
  8. プロセッサによって実行されるときに、当該プロセッサが請求項1乃至5のいずれか一項に記載の方法を実施するように、当該プロセッサを動作させるための命令を格納しているコンピュータ可読媒体。
JP2022168137A 2021-10-21 2022-10-20 エージェントの制御方法 Pending JP2023062688A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021211909.3 2021-10-21
DE102021211909.3A DE102021211909A1 (de) 2021-10-21 2021-10-21 Verfahren zum Steuern eines Agenten

Publications (1)

Publication Number Publication Date
JP2023062688A true JP2023062688A (ja) 2023-05-08

Family

ID=85795863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022168137A Pending JP2023062688A (ja) 2021-10-21 2022-10-20 エージェントの制御方法

Country Status (4)

Country Link
US (1) US20230128941A1 (ja)
JP (1) JP2023062688A (ja)
CN (1) CN116011523A (ja)
DE (1) DE102021211909A1 (ja)

Also Published As

Publication number Publication date
US20230128941A1 (en) 2023-04-27
DE102021211909A1 (de) 2023-04-27
CN116011523A (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
JP7393512B2 (ja) ニューラルネットワークの分散学習および重み分配のためのシステム、および方法
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
Jesus et al. Deep deterministic policy gradient for navigation of mobile robots in simulated environments
JP2022516383A (ja) 自律型車両の計画
US20220171907A1 (en) Creation of digital twin of the interaction among parts of the physical system
US11992944B2 (en) Data-efficient hierarchical reinforcement learning
CN109109863B (zh) 智能设备及其控制方法、装置
US20150005937A1 (en) Action selection apparatus and methods
CN112135717B (zh) 基于像素的模型预测控制的系统和方法
US20150148953A1 (en) Discrepancy detection apparatus and methods for machine learning
JP2009176283A (ja) 物体特性のロバストな推定を用いる適応型運転者支援システム
US11378962B2 (en) System and method for effecting a safety stop release in an autonomous vehicle
CN113519018A (zh) 移动体控制装置和移动体控制方法
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
Fu et al. When do drivers concentrate? Attention-based driver behavior modeling with deep reinforcement learning
Anderson et al. Off the beaten sidewalk: Pedestrian prediction in shared spaces for autonomous vehicles
Matsubara et al. Sequential intention estimation of a mobility aid user for intelligent navigational assistance
EP3783538A1 (en) Analysing interactions between multiple physical objects
KR20210064070A (ko) 센서 데이터 프로세싱 방법 및 디바이스
JP2023062688A (ja) エージェントの制御方法
US11804034B2 (en) Training a function to respond predictably to differences
Brosowsky et al. Joint vehicle trajectory and cut-in prediction on highways using output constrained neural networks
US20220048527A1 (en) Device and method for controlling a hardware agent in a control situation having a plurality of hardware agents
JP2024521717A (ja) コンピュータ制御されるシステムの安全な制御/監視
EP3866074A1 (en) Method and device for controlling a robot