JP2023501039A

JP2023501039A - ソーシャルグラフネットワークを用いた確率的軌道予測

Info

Publication number: JP2023501039A
Application number: JP2022508777A
Authority: JP
Inventors: ジャン，リダン; シェ，チィ; グオ，ピン
Original assignee: インテルコーポレイション
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2023-01-18
Also published as: EP4031991A4; CN114222986A; EP4031991A1; WO2021051224A1; US20220292867A1

Abstract

ソーシャルグラフネットワークを用いて確率的軌道予測を提供するシステム、方法、装置、及びコンピュータプログラム製品である。動作は、画像内に示される第１の人の行先特徴を記述する第１の特徴ベクトルを決定することと、画像内に示される全ての人に基づいて画像の有向グラフを生成することと、第１の人について、有向グラフ及び行先特徴に基づいて第２の特徴ベクトルを決定することと、学習された事前分布から潜在変数の値をサンプリングすることであり、潜在変数は第１の時間間隔に対応することと、サンプリングされた値及び特徴ベクトルに基づいて、プロセッサ上で実行される階層的長短期記憶（ＬＳＴＭ）により、第１の時間間隔の後の第２の時間間隔における第１の人の動きの方向と該動きの方向の速度とを含む出力ベクトルを生成することを含むことができる。

Description

人、車両、又は他の対象の将来の位置をプログラム的に予測することは、将来の動きの不確実性及び／又はあいまいさのため、困難である。例えば、交差点に近づいたり建物を出たりする歩行者は、いつでも、いくつもの異なる方向に移動する可能性がある。さらに、種々の外部要因が、歩行者によりとられる経路に影響を与える可能性がある。したがって、自律車両、ロボット、ドローン等などの異なる適用における動きを正確に予測することは困難である。様々なコンピュータビジョンアルゴリズム（例えば、オブジェクト検出、オブジェクト追跡など）に必要とされる時間と計算リソースの量を考慮すると、より少ないリソースを使用して将来の位置をより正確に予測する能力は、衝突防止において有意な改善を提供し得る。

システムの一実施形態を示す。ソーシャルグラフネットワークを用いた確率的軌道予測の一例を示す。ソーシャルグラフネットワークを用いた確率的軌道予測の例を示す。ソーシャルグラフネットワークを用いた確率的軌道予測の例を示す。ソーシャルグラフネットワークを用いた確率的軌道予測の例を示す。一例示的な画像を示す。第１の論理フローの一実施形態を示す。第２の論理フローの一実施形態を示す。第３の論理フローの一実施形態を示す。記憶媒体の一実施形態を示す。システムの一実施形態を示す

本明細書に開示される実施形態は、ソーシャルグラフ（social graphs）と、社会的相互作用（social interaction）パターンの不確実性をモデル化する時間的確率的方法を用いて、１つ以上の画像に示される人の有りうる将来の動きを正確に予測する技術を提供する。一般に、ソーシャルグラフは、非対称的なペアごとの関係をモデル化することができ、ソーシャルグラフネットワークは、画像及び／又はソーシャルグラフから２つのタイプの特徴を抽出することができる。２つのタイプの特徴には、個々の行先指向の（destination-oriented）特徴（例えば、人の行先に関連する特徴）及び／又は社会的認識の特徴（例えば、人間の相互作用を記述する特徴）が含まれ得る。ソーシャルグラフは、画像内に示される人々の位置と、この人々の移動の速度を所与として、複数の時間間隔の各々で更新される有向グラフを含むことができる。同様に、画像に示される２人以上の人の間の社会的相互作用における不確実性をモデル化する時間的確率的方法は、各時間間隔において更新され得る。一般に、各時間間隔において、時間的確率的方法は、学習された事前確率（prior）（時間にわたって変化し得る）から潜在変数をサンプリングし、サンプリングされた潜在変数を使用して多様な予測を生成することができる。全ての行先指向の、及び／又は社会的にもっともらしいパスを生成するために、時間的確率的方法は、階層的長短期記憶（long short-term memory、ＬＳＴＭ）を利用して、人が次にどこに移動し得るかを漸進的に予測することができる。

有利には、本明細書に開示される実施形態は、画像に示される人の動きをより正確に予測する技術を提供する。そうすることで、人がどこに移動しているかを予測する異なるコンピューティングシステムの安全性と信頼性を改善し得る。例えば、本開示の技術を用いて、コンピューティングシステムは、画像内に示される１以上の歩行者の将来の位置をより正確に決定することができる。自律車両は、位置データを使用して、自律車両と歩行者の１以上との間で将来の衝突が発生する可能性があると決定することができる。次いで、自律車両は、例えば、歩行者に出力される警報を生成すること（例えば、自律車両のホーンを鳴らすこと）及び／又は自律車両の動きを変更すること（例えば、減速すること、方向を変更すること、及び／又は停止すること）により、歩行者との衝突を回避する動作を実行することができる。実施形態は、この文脈に限定されない。

本明細書で使用される表記法及び命名法を一般的に参照すると、以下の詳細な説明の１つ以上の部分は、コンピュータ又はコンピュータのネットワーク上で実行されるプログラム手順の観点から提示され得る。これらの手順的な説明及び表現は、当業者により、その作業の実体を他の当業者に最も効果的に伝達するために使用されている。手順はここで、及び一般的に、望ましい結果を導く自己矛盾のない動作シーケンスであると考えられる。これらの動作は、物理的数量の物理的操作を必要とするものである。必ずではないが、通常、これらの数量は、記憶、転送、結合、比較、及びその他の方法で操作することができる電気的、磁気的、又は光学的信号の形態をとる。主として一般的な使用の理由で、これらの信号をビット、値、要素、シンボル、文字、用語、数字などと呼ぶことは時に便利であるとわかっている。しかしながら、これら及び類似の用語は、適切な物理的数量に関連づけられるべきであり、これらの数量に適用される簡便なラベルに過ぎないことに留意されたい。

さらに、これらの操作は、しばしば、人間のオペレータにより実行される精神的操作に通常関連づけられる、追加又は比較などの用語で参照される。しかしながら、人間のオペレータのこのような能力は、１つ以上の実施形態の一部を形成する本明細書に記載される動作のいずれにおいても必要でなく、ほとんどの場合、望まれるものでもない。むしろ、これらの操作は機械的な動作である。様々な実施形態の動作を実行する有用なマシンには、本明細書の教示に従って書かれた、内部に記憶されたコンピュータプログラムにより選択的に活性化又は構成される汎用デジタルコンピュータが含まれ、かつ／あるいは必要な目的のために特別に構築された装置が含まれる。また、様々な実施形態は、これらの動作を実行する装置又はシステムに関する。これらの装置は、必要な目的のために特別に構築されてもよく、あるいは汎用コンピュータを含んでもよい。様々なこれらのマシンの必要な構造は、与えられる説明から明らかであろう。

次に、図面が参照され、同様の参照番号は、全体を通して同様の要素を参照するために使用される。以下の記載では、説明の目的で、その十分な理解を提供するために多くの特定の詳細が記載されている。しかしながら、新規の実施形態は、これらの特定の詳細なく実施できることが明らかであろう。他の例では、周知の構造及び装置は、その説明を容易にするためにブロック図形式で示されている。この意図は、特許請求の範囲内の全ての修正、同等物、及び代替をカバーすることである。

図１は、ソーシャルグラフネットワークを使用して確率的軌道予測を提供するコンピューティングシステム１００の一実施形態を示す。コンピューティングシステム１００は、サーバ、ワークステーション、ラップトップ、モバイルデバイス、又は仮想化コンピューティングシステムなどの任意のタイプのコンピューティングシステムであってよい。例えば、システム１００は、ディープラーニングアクセラレータカード、ディープラーニングアクセラレーションを有するプロセッサ、ニューラルコンピュートスティック（neural compute stick）等などの組み込みシステムでもよい。いくつかの例において、システム１００は、システムオンチップ（ＳｏＣ）を含み、他の実施形態において、システム１００は、２つ以上のディスクリートコンポーネントを有するプリント回路板又はチップパッケージを含む。システム１００は、少なくともプロセッサ１０１、メモリ１０２、及び１つ以上の画像捕捉デバイス１０３を含む。図１に示されるコンピューティングシステム１００の構成は、本開示が他の構成に適用可能であるため、本開示を限定するものとみなされるべきではない。プロセッサ１０１は、中央処理装置、グラフィックス処理ユニット、又はその他の任意の処理ユニットなどの、任意のタイプのコンピュータプロセッサ回路を表す。さらに、プロセッサの１つ以上は、複数のプロセッサ、マルチスレッドプロセッサ、マルチコアプロセッサ（複数のコアが同じダイ上に共存するか別個のダイ上に共存するかを問わない）、及び／又は複数の物理的に別個のプロセッサが何らかの方法でリンクされる何らかの他の種類のマルチプロセッサアーキテクチャを含んでもよい。１つのコンピューティングシステム１００が示されているが、複数のコンピューティングシステム１００が通信ネットワークを介して通信上結合されてもよい。

メモリ１０２は、任意のタイプの情報記憶技術を表し、これには、電力の不断の供給を必要とする揮発性技術が含まれ、取り外し可能でもそうでなくてもよいマシン読取可能記憶媒体の使用を必要とする技術が含まれる。したがって、メモリ１０２は、広範なタイプの記憶デバイスのいずれか（又は、タイプの組み合わせ）を含むことができ、これには、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックラム（ＤＲＡＭ）、ダブルデータレートＤＲＡＭ（ＤＤＲ－ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、スタティックＲＡＭ（ＳＲＡＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、ポリマーメモリ（例えば、強誘電体ポリマーメモリ）、オボニックメモリ、相変化又は強誘電体メモリ、ＳＯＮＯＳ（silicon-oxide-nitride-oxide-silicon）メモリ、磁気又は光学カード、１つ以上の個々の強磁性ディスクドライブ、又は１つ以上のアレイに編成された複数の記憶デバイス（例えば、独立ディスクの冗長アレイ（Redundant Array of Independent Disks）のアレイ又はＲＡＩＤアレイに編成された複数の強磁性ディスクドライブ）が限定なく含まれる。メモリ１０２は、単一のブロックとして示されているが、メモリ１０２は、異なる記憶技術に基づき得る複数の記憶デバイスを含んでもよいことに留意されたい。したがって、例えば、メモリ１０２は、プログラム及び／又はデータが何らかの形態のマシン読取可能記憶媒体上で記憶及び伝達され得るための光学ドライブ又はフラッシュメモリカードリーダと、比較的長い期間の間プログラム及び／又はデータをローカルに記憶する強磁性ディスクドライブと、プログラム及び／又はデータへの比較的迅速なアクセスを可能にする１つ以上の揮発性ソリッドステートメモリデバイス（例えば、ＳＲＡＭ又はＤＲＡＭ）との組み合わせを表すことができる。また、メモリ１０２は、同一の記憶技術に基づいて複数の記憶コンポーネントから構成されてもよいが、使用法の特化の結果として別個に維持されてもよいことに留意されたい（例えば、いくつかのＤＲＡＭデバイスは主記憶装置として利用されるが、他のＤＲＡＭデバイスはグラフィックスコントローラの区別可能なフレームバッファとして利用される）。

画像捕捉デバイス１０３は、環境を示す画像データを捕捉する任意のタイプのデバイスを表す。画像捕捉デバイス１０３の一例には、環境を示すデジタル画像（例えば、カラー画像、白黒画像、グレイスケール画像、Ｘ線画像、赤外画像など）を捕捉するように構成された画像センサを有するカメラが含まれる。環境は、交差点、街路、歩道、水路、空域、部屋、廊下、建物の床などの、任意の現実世界の環境及び／又はその一部であってよい。しばしば、環境は混雑しており、多くの人々が所定の画像内に示される可能性がある。コンピューティングシステム１００のコンポーネントとして示されているが、画像捕捉デバイス１０３は、コンピューティングシステム１００の外部にあってもよい。このような例において、画像捕捉デバイス１０３は、環境の画像を捕捉し、以下により詳細に説明される処理のために画像をコンピューティングシステム１００に（例えば、通信ネットワークを介して）提供するように構成された、１つ以上のカメラ（例えば、監視カメラ）を表すことができる。しかしながら、別の例として、監視カメラが、システム１００のコンポーネントを含んでもよく、このコンポーネントが、捕捉された画像を、以下により詳細に説明されるように処理してもよい。

少なくとも１つの実施形態において、コンピューティングシステム１００は、部分的及び／又は完全に自律的な移動が可能な自律車両、ドローン、ロボット、又は他のデバイス（集合的に、本明細書において自律車両（autonomous vehicles）と呼ばれる）のコンポーネントである（かつ／あるいは、それらに通信上結合される）。このような例において、ナビゲーションロジック１１２は、自律車両の動きの少なくとも一部をプログラム的に制御することができる。さらに、ナビゲーションロジック１１２は、画像捕捉デバイス１０３により捕捉された画像の処理に基づく、軌道モジュール１０４からの信号を受け取ることができる。例えば、軌道モジュール１０４は、画像に示される歩行者との間で衝突が発生する可能性がある（例えば、可能性（likelihood）の閾値レベルを超えている）と決定することができる。このような例において、ナビゲーションロジック１１２は、自律車両の動きを修正することができる（例えば、移動方向を変更する、移動スピードを変更する、移動を停止する等）。同様に、軌道モジュール１０４及び／又はナビゲーションロジック１１２は、警告信号を出力することができる（例えば、自律車両のホーンを鳴らす、自律車両から光信号を発する等）。より一般的には、実装にかかわらず、軌道モジュール１０４は、オーディオ信号、視覚信号、及び／又はデータ信号を含む警告信号を出力することができる。例えば、監視カメラに統合されると、軌道モジュール１０４は、スピーカを介してオーディオ信号を発し、ビーコンを介して光信号を発し、かつ／あるいは無線ネットワークを介してデータ信号を近くの自律車両の軌道モジュール１０４及び／又はナビゲーションロジック１１２に送信することができる。

図示のように、メモリ１０２は、軌道モジュール１０４、訓練データ１０５、１つ以上のコンピュータビジョン（ＣＶ）アルゴリズム１０６、及びナビゲーションロジック１１２を含む。メモリ１０２に存在するものとして示されているが、軌道モジュール１０４、訓練データ１０５、ＣＶアルゴリズム１０６、及びナビゲーションロジック１１２は、ハードウェア、ソフトウェア、及び／又はハードウェアとソフトウェアの組み合わせとして実装されてもよい。例えば、プロセッサ１０１は、軌道モジュール１０４の命令１１４を実行して、本明細書に記載される軌道モジュール１０４の機能性を実行することができる。同様に、プロセッサ１０１は、ＣＶアルゴリズム１０６及び／又はナビゲーションロジック１０２の命令（図示せず）を実行してもよい。いくつかの実施形態において、軌道モジュール１０４は、ＣＶアルゴリズム１０６及び／又はナビゲーションロジック１１２のコンポーネントでもよい。

軌道モジュール１０４は、一般に、１つ以上の画像、例えば、画像捕捉デバイス１０３により捕捉された画像、及び／又は別のソースから受信した画像に示される対象（objects）の、予測された動きを反映する出力を生成するように構成される。本明細書では、対象の参照例として人が用いられるが、本開示は、自律車両、ロボット、動物等などの他のタイプの対象の動きを予測することに適用可能である。一般に、人間の移動を予測することは、ＣＶアルゴリズム１０６（又は、他のコンピューティングシステム）にとって困難なタスクであり、なぜならば、人間の移動は、複雑な人間の社会的相互作用行動、及び／又は人間の移動のランダムな性質により影響され得るためである。例えば、道路を歩いている人は、自分の前を歩いている別の人を追い越すために、左に動き、かつ／あるいは右に動く可能性がある。有利には、本明細書に開示される実施形態は、画像に示される人間の相互作用を捕捉するために１つ以上のソーシャルグラフ１０７を、画像及び／又はソーシャルグラフ１０７から特徴を抽出するためにソーシャルネットワーク１１３を、個々の情報及び相互作用情報の双方をエンコードする現在の状態を条件とした潜在変数を生成及びサンプリングするために１つ以上の確率モデル１０８を、画像に示される人の動きを予測するために１つ以上のデコーダモデル１０９を利用することにより、これらの問題に対処する。人間の（又は、社会的な）相互作用のタイプには、これらに限られないが、画像に示される２人以上の人の間の距離、及び／又は、ある人が画像内の別の人を考慮して（in view of）いるかどうか（例えば、２人の人に関連づけられたベクトルが交わるかどうかに基づく）を含むことができる。確率モデル１０８、デコーダモデル１０９、及び／又はソーシャルネットワーク１１３は、ニューラルネットワークなどの任意のタイプの計算モデルでもよい。本明細書における確率モデル１０８、デコーダモデル１０９、及び／又はソーシャルネットワーク１１３の参照例としてのニューラルネットワークの使用は、本開示が本明細書に記載される動作を実行するように訓練できる全てのタイプの計算モデルに適用可能であるため、本開示を限定するものではない。

所与の画像（例えば、画像捕捉デバイス１０３により捕捉された画像、及び／又は訓練データ１０５内の画像）について、Ｎ人の人が画像内に示され得、Ｎは正の整数である。時間間隔ｔにおいて画像内に示される第ｊの人の空間的位置は、p_(j,t)=(x_(j,t),y_(j,t))として表すことができ、ここで、ｘ及びｙは、２次元世界空間の(x,y)座標であり、0≦j≦Nである。２次元世界空間における座標は、メートル、センチメートル、インチ、フィートなどの任意の距離尺度に基づくことができる。そうすることにより、軌道モジュール１０４は、絶対的な動きに基づいて訓練及び／又はテストすることができ、一方、画像のピクセル空間における動きは、画像捕捉デバイス１０３のパラメータ（例えば、焦点距離など）に基づいて変化してもよい。したがって、軌道モジュール１０４（又は、その任意のコンポーネント）は、画像捕捉デバイス１０３の既知のパラメータを所与として、画像座標を対応する現実世界の座標（例えば、メートル、センチメートル）に変換することができる。したがって、T_obsとして表される、前に観測された画像（例えば、Ｎ人の人のうちの１以上を示す、前の時間間隔に捕捉された画像）と、{p_(j,t), j=1,...N; t=1,...,T_obs}により示される軌道履歴を所与として、全てのＮ人の軌道を予測することができ、例えば、{p_(j,t), j=1,...N; t=T_obs+1,....T}である。軌道履歴は、各時間間隔において軌道モジュール１０４により記憶装置に記憶することができる。

ソーシャルグラフ１０７は、対応する時間間隔において画像捕捉デバイス１０３により捕捉された画像内に示される人々の現在の位置及び速度に基づいて、異なる時間間隔（例えば、１秒間隔、２秒間隔など）で生成される有向グラフである。一般に、画像捕捉デバイス１０３は、周期的な時間間隔で画像を捕捉することができ、ソーシャルグラフ１０７は、対応する時間間隔において画像内に示される人々の間のペアごとの（pairwise）社会的関係を反映するように生成することができる。捕捉された画像の分析に基づいて、軌道モジュール１０４は、画像内の人を識別し、人の現在位置を決定し、各識別された人の軌道履歴を（例えば、画像のメタデータとして、及び／又は別個のデータストア内で）更新することができる。軌道履歴は、各時間間隔における各人の実際の動きを反映することができ、各時間間隔における動きの方向及び／又は速度を反映するベクトルを含むことができる。各時間間隔における各人の移動は、その人を示す、画像捕捉デバイス１０３により捕捉されたそれぞれの画像に基づいてもよい。

１つ以上の実施形態において、ソーシャルグラフ１０７は、有向グラフG=(N;E;A)でもよく、ここで、Ｎは、複数のグラフノードであり、Ｅは、２つのノードを接続する１つ以上のグラフエッジであり、Ａは、非対称隣接行列である。所与の画像（これは、人を識別し、動きを決定し、ある人が別の人を考慮していると決定し、相互作用、相互作用のタイプ等を識別するために、ＣＶアルゴリズム１０６により分析され得る）に基づいて、各歩行者は、ソーシャルグラフ１０７内のノード（n_j∈N）に割り当てられ、隣接行列エントリa_ij=1のとき、第ｉの人から第ｊの人へリンクするエッジe_ij=(n_i,n_j)∈Eが存在する。一般に、各時間間隔において、対応する画像に示される各人の現在の位置及びスピード方向は、別の人がその人を考慮しているかどうかを決定し、対応する時間間隔のソーシャルグラフ１０７を生成するために使用される。例えば、ＣＶアルゴリズム１０６及び／又は軌道モジュール１０４は、第１の人から放射された１つ以上の線（ray）が画像内の第２の人と交差するかどうかを決定して、第２の人が所与の時間間隔において第１の人を考慮しているかどうかを決定することができる。軌道モジュール１０４が、人が視界内に（in view）いると決定した場合、軌道モジュール１０４は、この時間間隔のためのソーシャルグラフ１０７内に、対応するノードを接続するエッジを追加することができる。しかしながら、後の時間間隔において、第１の人と第２の人がもはや互いを考慮していない場合、後の時間間隔のためのソーシャルグラフ１０７は、第１の人と第２の人とを接続するエッジを含まない。したがって、ソーシャルグラフ１０７は、人々の相対的位置が複数の画像にわたって変化するとき、動的に変更される。

次に、軌道モジュール１０４は、ソーシャルグラフ１０７及び／又は画像に基づいてソーシャルグラフネットワーク１１３を使用して、画像及び／又は画像に示されるＮ人の人を記述する２つのタイプの特徴を決定する（又は、抽出する）ことができる。例えば、プロセッサ１０１は、軌道モジュール１０４の命令１１４を実行して、ソーシャルグラフネットワーク１１３及びソーシャルグラフ１０７に基づいて画像から特徴を抽出することができる。第１のタイプの特徴は、f^(D)で示され得る個々の行先特徴でもよい。個々の行先特徴は、所与の人の行先、例えば、その人の行先の役割を果たす画像内のターゲット領域、及び／又はその任意の属性を一般的に記述することができる。より一般的には、個々の特徴は、(x,y)座標における各人の現在位置、(x,y)座標における各時間間隔での人の軌道履歴などをさらに含むことができる。さらに、行先指向の特徴及び社会的特徴をエンコードする第２のタイプの特徴が決定され得る。第２のタイプの特徴は、f^(S)として表すことができ、人の現在位置、人の軌道履歴、人が別の人とやりとりしているかどうか、人が別の人と歩いているかどうかなどを反映することができる。一実施形態において、特徴ベクトルf^(D)、f^(S)は、３２次元（例えば、３２個の異なる特徴に対する値）を有するベクトルでもよい。

個々の特徴f^(D)について、ソーシャルグラフネットワーク１１３は、入力としての人の(x,y)座標p_j,tと人の速度v_j,t=p_j,t-p_j,t-1とを連結する（concatenate）ために、正規化線形ユニット（rectified linear unit、ＲｅＬＵ）を有する１層の多層パーセプトロン（multi-layer perceptron、ＭＬＰ）（例えば、ニューラルネットワーク）を含むことができる。言い換えると、時間間隔ｔにおける人ｊの個々の特徴f^(D)は、以下の式１に従って決定され得る。

式１において、(W^d,b^d)は、それぞれ、ソーシャルグラフネットワーク１１３の重み及びバイアスパラメータであり、v_j,tは、上述のように、人の速度（少なくとも２つの時間間隔にわたって決定される）に対応する。したがって、式１は、各人の現在位置、各人の少なくとも１つの事前位置、及び各人の速度に基づいて特徴を抽出する。本明細書における全ての残りの式において、時間間隔のための添字ｔは、明りょうさのために省略される。

上述のように、ソーシャルグラフネットワーク１１３は、個々の行先特徴（例えば、f^(D)）と、画像内に示される２人以上の人の間の社会的相互作用の双方を捕捉する特徴f^(S)を決定することができる。一実施形態において、ソーシャルグラフネットワーク１１３は、ソーシャルグラフ１０７から自己ループを除去することにより残りの分岐におけるペアごとの社会的相互作用を徐々に学習するＲｅｓＮｅｔ様の構造を提供する。形式的には、第ｊの歩行者についての特徴をエンコードするためのソーシャルグラフネットワーク１１３の第Ｌの層の出力は、式２により示され得る。

式２では、初期化においてf_j ⁽⁰⁾=f_j ^(D)であり、M_ijは、ソーシャルグラフ１０７内で人ｉから人ｊに渡されるメッセージに対応し、(Wⁱ,bⁱ)は、入力のＲｅＬＵ付きＭＬＰのための重み及びバイアスパラメータを示し、(W^g,b^g)は、グローバルのＲｅＬＵ付きＭＬＰのための重み及びバイアスパラメータを示す。メッセージは、例えば、人ｉが何らかの方法で人ｊと相互作用した（及び／又は、人ｊを考慮している）という、第１のエッジを一般に表すことができる。ベクトルf^(S)を計算するためのソーシャルグラフネットワーク１１３への入力x_ij ^Lは、式３により示され得る。

式３において、Polar_pj(p_i)は、p_jの原点を有するローカル極座標に対応する。極座標は、２人の人の間の距離及び／又は２人の人の間の線の角度を一般に表すことができる。メッセージM_ijは、以下の式４に基づいて決定されてもよい。

式４において、α_ij ^Lは、ソーシャルグラフ１０７のエッジe_ijに適用されるスカラーアテンション値（attention value）であり、ｇは、ソーシャルゲートであり、

は、要素ごとの乗算演算子（element-wise multiplication operator）である。スカラーアテンション値α_ij ^Lは、相互作用の度合い、例えば、２人の人が互いに対してどれほど近いか、ある人が別の人を考慮している度合いなどを表すことができる。一般に、式４は、式３から各時間間隔で関連する特徴を抽出するためのフィルタの役割を果たす。有利には、アテンション値α_ij ^Lは各エッジの相対的な重要度を測定し、一方、ソーシャルゲートは要素ごとの特徴選択器として作用する。

式５は、各時間間隔におけるスカラーアテンション値α_ij ^lを決定するために、ソーシャルグラフネットワーク１１３により使用され得る。

一般に、アテンション値α_ij ^lは、ソーシャルグラフ１０７及び各人の位置に適用される重みに基づいて抽出された特徴により反映される、人ｉが人ｊに与えているアテンションの度合いを反映する。言い換えると、アテンション値α_ij ^lは、２人の人の間の距離及び／又は各人の動きの方向に基づくことができる。したがって、例えば、式５は、２人の人が互いに遠く離れているとき計算されるアテンション値α_ij ^lと比べて、２人の人が互いに近いときにより大きいアテンション値α_ij ^lを計算し得る。

ソーシャルグラフネットワーク１１３は、次の式６に従ってソーシャルゲートｇを計算することができる。

式６において、(W^s,b^s)は、それぞれ、ソーシャルゲートの重みパラメータとバイアスパラメータに対応する。図に示すように、ソーシャルゲートは、要素ごとのアテンション値を生成するためにシグモイド関数を使用してもよい。一般に、特徴ベクトルは、複数の次元（例えば、複数の特徴のうちの各特徴についての次元）を有することができる。しかしながら、特徴ベクトルのどの次元又は要素が重要であるか（又は、関連するか）を決定することは困難であり得る。したがって、ソーシャルグラフネットワーク１１３は、特徴ベクトルにフィルタ（例えば、ソーシャルゲートの要素ごとの乗算演算）を適用し、ベクトルf^(S)を生成することができる。少なくとも１つの実施形態において、特徴ベクトルf^(S)は、ソーシャルグラフネットワーク１１３の最後の層の出力である。

確率モデル１０８は、各人についてのベクトルf^(D)、f^(S)をエンコードするため、及び、各時間間隔で加算される、f^(S)を条件とした変数z_tの値として使用される潜在変数φをサンプリングするために、１つ以上のＬＳＴＭ１１０を含む。ＬＳＴＭは、セル、入力ゲート、出力ゲート、及び忘却ゲートを含む人工リカレントニューラルネットワーク（recurrent neural network、ＲＮＮ）アーキテクチャでもよい。セルは、ある時間間隔にわたって値を記憶することができ、一方、ゲートは、セルに出入りする情報の流れを調節する。確率モデル１０８は、以下の式７～式８に従って潜在変数をサンプリングすることができる。

したがって、示された例では、確率モデル１０８は、２つのＬＳＴＭ１１０、すなわち、式７における事前（prior）LSTM_Ψ(f_t-1 ^S)と、式８における事後（posterior）LSTM_φ(f_t ^S)を含むことができる。しかしながら、確率モデル１０８は、任意の数のＬＳＴＭＳ１１０を含んでもよく、２つのＬＳＴＭの使用は、本開示を限定するものとみなされるべきではない。式７の事前LSTM_Ψ(f_t-1 ^S)は、ガウス平均及び分散に対応することができ、式８の事後LSTM_φ(f_t ^S)は、ガウス平均及び分散に対応することができる。一般に、訓練の間、事前LSTM_Ψ(f_t-1 ^S)のガウス分布（例えば、平均及び分散）は、事後LSTM_φ(f_t ^S)のガウス分布に近づくように精緻化される。ひとたび分布が閾値の類似度合いに達すると、事前LSTM_Ψ(f_t-1 ^S)の事前分布は、事後LSTM_φ(f_t ^S)の事後分布に取って代わることができる。したがって、確率モデル１０８は、訓練の間、事後LSTM_φ(f_t ^S)のガウス分布に基づいて潜在変数をサンプリングすることができ、テスト（又はランタイム、又は推論）動作の間、事前LSTM_Ψ(f_t-1 ^S)のガウス分布をサンプリングすることができる。事前LSTM_Ψ(f_t-1 ^S)は、一般に、再帰的隠れ状態を有する人の過去の軌道データに基づいて学習され得る。過去の軌道データは、各時間間隔における人の動きの方向及びスピードを記述するベクトルを含むことができる。事後LSTM_φ(f_t ^S)は、現在の時間間隔のシーンをエンコードする。上述のように、事前LSTM_Ψ(f_t-1 ^S)は、不確実な社会的相互作用を捕捉するために、事後LSTM_φ(f_t ^S)に近づくように訓練される。

デコーダモデル１０９は、一般に、時間間隔ｔにおける画像に示される所与の人の動きを予測するための出力を生成するように構成される。一実施形態において、デコーダモデル１０９は、階層的ＬＳＴＭ１１１を利用して、漸進的に特徴ベクトルをデコードし、各人の位置のオフセット（例えば、出力ベクトル）を予測する。デコーダモデル１０９により生成される出力は、動きの方向及び／又はスピードを伝達するのに適した任意の形式をとることができる。例えば、一実施形態において、予測された動きは、動きの速度及び方向（例えば、メートル毎秒の速度での(x,y)方向の移動）を示すベクトルを含んでもよい。しかしながら、訓練の間、デコーダモデル１０９への入力は、前の画像のグラウンドトゥルースデータ（例えば、人の実際の動き）を含んでもよい。階層的ＬＳＴＭ１１１は、異なる入力を有する２つのＬＳＴＭをスタックした、LSTM_θにより表される生成ＬＳＴＭでもよい。第１のＬＳＴＭ１１１－１は、社会的反応を予測するために社会的入力（例えば、特徴ベクトルf^(S)）を受け取ることができ、第２のＬＳＴＭ（例えば、個々の行先特徴ベクトルf^(D)のためのＬＳＴＭ１１１－２）と組み合わせて、社会的に受け入れ可能及び行先指向の軌道を生成する。以下の式９は、デコーダモデル１０９により実行される動作を記述することができる。

式９において、y_tは、デコーダモデル１０９の出力、例えば、サンプリングされた潜在変数ｚと各人についての特徴ベクトルf^(D)、f^(S)とに基づく、ある時間間隔における所与の人の動きの予測されたスピード及び方向を指定するベクトルに対応する。上述のように、出力ベクトルy_tは、任意の現実世界の測定単位であってよい。いくつかの実施形態において、デコーダモデル１０９は、画像内に示される各人のために、各人についての複数の異なる推定ベクトルを計算してもよい。そのような一実施形態において、デコーダモデル１０９のLSTM_θは、平均及び分散を有するガウス分布に対応することができる。デコーダモデル１０９は、このガウス分布から各人のスピード及び／又は方向をサンプリングすることができる。

軌道モジュール１０４（確率モデル１０８、デコーダモデル１０９、ソーシャルグラフネットワーク１１３、及び／又はＬＳＴＭ１１０～１１１の任意のパラメータを含む）は、変分下限（variational lower bound）「ＥＬＢＯ」を最大化することにより訓練され得る。一実施形態において、軌道モジュール１０４の訓練は、以下の式１０に基づくことができる。

一般に、訓練は、逆伝搬動作の間に確率的勾配降下を用いて式１０を最適化するために、再パラメータ化トリック（reparameterization trick）を使用する。訓練は、各示された人の軌道データと、各示された人が次にどこに移動したかを示すグラウンドトゥルースの将来の位置とに関連づけられた、訓練データ１０５内の複数の画像に基づくことができる。一実施形態において、軌道モジュール１０４は、各人の軌道座標を世界座標に変換し、変換された座標を補間して、周期的な間隔（例えば、０．５秒、１秒など）で座標をサンプリングする。したがって、各訓練画像について、軌道モジュール１０４は、各画像を分析し、ソーシャルグラフ１０７を生成する。次いで、ソーシャルネットワーク１１３は、特徴ベクトルf^(D)、f^(S)を抽出することができ、確率モデル１０８は、潜在変数をサンプリングすることができ、デコーダモデル１０９は、画像に示される各人の次の位置を予測することができる。次いで、重み、バイアス、活性化、及び任意の他の学習可能なパラメータ（例えば、モデル１０８～１０９、ＬＳＴＭ１１０～１１１、ソーシャルグラフネットワーク１１３等の）は、各人の予測された位置が各人のグラウンドトゥルース位置にどれほど近いか（例えば、デコーダモデル１０９により生成された予測位置の精度で）に基づいて、訓練の間に精緻化され得る。

精度は、平均変位誤差（average displacement error、ＡＤＥ）及び／又は最終変位誤差（final displacement error、ＦＤＥ）などの任意の実現可能なメトリックに基づくことができる。ＡＤＥは、全ての時間間隔にわたるグラウンドトゥルース座標と予測位置座標との間の平均化されたユークリッド距離に対応することができる。ＦＤＥは、シーンの最終画像内のグラウンドトゥルース座標と予測座標との間のユークリッド距離に対応することができる（例えば、人が５つの画像に示されている場合、予測位置は５つ目の画像に基づいて生成される）。式１０のハイパーパラメータβの値は、再構成誤差とサンプル多様性のバランスに基づいてもよい。式１０の左側は、予測結果とグラウンドトゥルースの間のl₂の再構成損失（例えば、訓練データ１０５のグラウンドトゥルースにより反映される実際の位置に対する、デコーダモデル１０９の予測位置出力）に低減され得る。

ひとたび訓練されると、軌道モジュール１０４は、画像捕捉デバイス１０３により捕捉された画像に示される人々の将来の動きをより正確に予測することができる。例えば、画像がシーン内の１０人の人を示す場合、軌道モジュール１０４は各人の動きを予測することができる。しかしながら、軌道モジュール１０４が、１人以上の人の予測された位置が安全でない状況をもたらす可能性がある（例えば、軌道モジュール１０４により生成された１つ以上のベクトルが自律車両の軌道に対応するベクトルと交差することに基づいて、自律車両、ロボット等との衝突をもたらす可能性がある）と決定した場合、軌道モジュール１０４は、任意の数の動作を実行することができる。例えば、軌道モジュール１０４は、１人以上の人の予測された位置をナビゲーションロジック１１２に提供することができ、ナビゲーションロジック１１２は、衝突を回避するために関連する自律車両の動きを修正することができる。別の例として、オーディオの及び／又は視覚的警報が軌道モジュール１０４により出力されて、起こり得る危険を人に警告してもよい。別の例として、予測された位置が衝突をもたらし得るかどうかを決定するために、軌道モジュール１０４は、衝突の可能性が衝突閾値を超えているかどうかを決定してもよい。衝突の可能性は、人及び／又は車両の予測された動きに基づくことができる。例えば、１人以上の人のためのベクトルが、車両のためのベクトルと交差すると決定された場合、軌道モジュール１０４は、衝突の可能性が衝突閾値を超えていると決定してもよい。いくつかの実施形態において、軌道モジュール１０４は、衝突の可能性を反映するスコアを計算してもよい。

図２は、一実施形態による、確率的軌道予測の一例を示す概略図２００である。図示のように、概略図２００は、１つ以上の画像に示される人２０４～２０６についての例示的な軌道履歴２０１～２０３を示す。図２の左側では、軌道履歴２０１～２０３は、例示的な時間間隔ｔ－１における各人２０４～２０６の位置を含むことができる。一般に、軌道モジュール１０４は、次いで、時間間隔ｔにおける各人２０４～２０６の位置を予測することができ、時間間隔ｔは時間間隔ｔ－１より後の時間である。

図示のように、特徴ベクトルf_1,t-1 ^(D)、f_2,t-1 ^(D)、f_3,t-1 ^(D)が、例えば上記の式１に基づいて、各人２０４～２０６についてそれぞれ計算され得る。上述のように、これらの特徴ベクトルは、各人２０４～２０６がどこに向かって移動しているか、移動の速度、動きの事前履歴などの、行先ベースの特徴に対応することができる。抽出された特徴f_1,t-1 ^(D)、f_2,t-1 ^(D)、f_3,t-1 ^(D)、及び／又は各画像の分析に基づいて、ソーシャルグラフ１０７が生成され得る。上述のように、ソーシャルグラフ１０７は、画像内で識別された各人をノードとして表す。２人の人が、何らかの方法で相互作用すると決定された場合、エッジが、ソーシャルグラフ１０７におけるこの２人を表すノードを接続することができる。

図２にさらに示されるように、特徴ベクトルf_1,t-1 ^(S)、f_2,t-1 ^(S)、f_3,t-1 ^(S)が、画像、特徴ベクトルf_1,t-1 ^(D)、f_2,t-1 ^(D)、f_3,t-1 ^(D)、及び／又はソーシャルグラフ１０７に基づいてソーシャルグラフネットワーク１１３により、各人２０４～２０６についてそれぞれ計算され得る。一般に、特徴ベクトルf_1,t-1 ^(S)、f_2,t-1 ^(S)、f_3,t-1 ^(S)は、上記の式２～式６に従って計算されてもよく、行先指向の特徴及び社会的特徴（例えば、各人が１人以上の他の人と相互作用しているかどうか）を反映する。

各人２０４～２０６について、確率モデル１０８は、ＬＳＴＭ１１０－１を含み、対応する特徴ベクトルf^(S)を入力として受け取り、上記の式７～式８に基づいて潜在変数ｚをサンプリングする。次いで、デコーダモデル１０９のＬＳＴＭ１１１－１は、特徴ベクトルf^(S)及びサンプリングされた潜在変数ｚを入力として受け取ることができる。次いで、ＬＳＴＭ１１１－１の出力は、特徴ベクトルf^(D)と共に、デコーダモデル１０９のＬＳＴＭ１１１－２への入力として提供され得る。次いで、デコーダモデル１０９は、各人の予測された動き（例えば、(x,y)座標の方向における移動のスピード）を反映するベクトル

を計算することができる。一実施形態において、ベクトルは、上記の式９に従って計算される。一般に、ベクトルは、各人の移動の方向（例えば、ｘ方向及びｙ方向それぞれにおいて(2,5)単位）と方向移動の速度（例えば、ｎ単位毎秒であり、ｎは任意の数値である）とを示す(x,y)座標を含むことができる。これらの演算は、将来の時間間隔（例えば、t+1、t+2、．．．、t+n）での動きを予測するために任意の回数繰り返されてもよい。

図３Ａは、ソーシャルグラフ１０７の一例示的な表現を示す概略図３００である。図示のように、図３Ａは、４人の例示的な人３０１～３０４を示す。各人３０１～３０４は、ソーシャルグラフ１０７においてノードとして表され得る。エッジ３０６～３１４は、人３０１～３０４のうちの１人（例えば、人３０４）が人３０１～３０４のうちの異なる１人（例えば、人３０３）を考慮していることを反映しており、人３０４の将来のパスは、人３０３により影響される可能性がある。より一般的には、グラフ１０７におけるエッジの存在は、ペアごとの位置により決定される。したがって、人物Ａが人物Ｂの前に（又は、人物Ｂを考慮して）いる場合、グラフ１０７における、人物Ａから人物Ｂへのエッジが生成され得る。

例えば、エッジ３０６は、人３０２が人３０１を考慮していることを反映し、エッジ３０７は、人３０１が人３０２を考慮していることを反映している。相互作用が一方向であるとき、ソーシャルグラフ１０７内に単一のエッジのみが生成される。例えば、エッジ３１１は、人３０３が人３０１に注意を払っていることを反映し、人３０１から人３０３へのエッジがないことは、人３０１が人３０３と相互作用していないことを示している。

図３Ｂは、一例示的なソーシャルグラフネットワーク１１３を示す概略図３２０である。図３Ｂにおける人３２１～３２４は、図３Ａに示される人３０１～３０４に対応し得る。図示のように、ソーシャルグラフネットワーク１１３は、２つのスタックされた層３２７、３２８を含み、層３２８の出力は、層３２７の出力に基づいて条件付けられる。例えば、層３２７は、前の時間間隔t=0に対応することができ、層３２８は、現在の時間間隔t=1に対応することができる。図示のように、層３２７への入力には、各人３２１～３２４についての特徴ベクトルf_j ⁽⁰⁾（例えば、時間間隔t=0におけるf_j ^(S)）が含まれる。層３２７、３２８は、自己ループ（例えば、同じ人の間のループ）を除去することにより、ＲｅＬＵの残りの分岐における人３２１～３２４の間のペアごとの相互作用を学習する。一般に、層３２７、３２８の出力は、上記の式２に基づいて（式３～式６に従って実行されるさらなる演算を用いて）計算され得る。

図３Ｂに示す実施形態において、ソーシャルグラフネットワーク１１３の層３２７は、層３２７のソーシャルグラフ１０７－１を利用して、各人についてのさらなる特徴を抽出することができ、これは、加算演算子３２５を使用して入力特徴ベクトルf_j ⁽⁰⁾に加算され、出力を生成することができる。加算演算子３２５の出力は、特徴ベクトルf_j ⁽¹⁾でもよく、これは、層３２８への入力として提供され得る。次いで、ソーシャルグラフ１０７－２から抽出された特徴は、加算演算子３２６を使用して特徴ベクトルf_j ⁽¹⁾に加算され、出力特徴ベクトルf_j ⁽²⁾を生成することができる。

図３Ｃは、一実施形態による、軌道モジュール１０４により実行される例示的な動作を示す概略図３３０である。事前確率（Prior）フェーズ３３１は、式７を使用する条件付き事前確率z_t３４８の計算を反映し、ここで、事前確率は、再帰的隠れ状態を有する各人の事前軌道に基づいて学習される。図３Ｃにおいて、ＬＳＴＭ３５０～３５５の「ｈ」は、ＬＳＴＭ１１０～１１１のうちの１つ以上の隠れ状態を反映する。図示のように、条件付き事前確率は、ＬＳＴＭグループ３５６（ＬＳＴＭ３５０～３５２を含む）により、時間間隔ｔ－１における人の極座標３３６に基づいて計算される。ＬＳＴＭ３５０は、式７を適用して、条件付き事前確率z_t３４８を学習することができる。

生成（generation）フェーズ３３２は、式９と時間ｔ－１における位置３３６とに基づいて時間間隔ｔで画像に示される人の位置３３７を予測するためにデコーダモデル１０９により使用される生成機能を反映している。図示のように、人の事前位置３３６と、事前確率３４８からのサンプリングされた潜在変数z_tは、ＬＳＴＭ３５１へ入力として提供され得、ＬＳＴＭ３５１は、人の予測位置３３７を出力する。上述のように、予測された位置３３７は、移動のスピード及び方向を示すベクトルでもよい。

リカレンスフェーズ３３３は、ＬＳＴＭグループ３４７のＬＳＴＭ３５３～３５５のリカレント隠れ状態ｈを更新する。一般に、図示のように、ＬＳＴＭ３５３～３５５の隠れ状態ｈは、ＬＳＴＭ３５０～３５２の事前状態ｈ、時間ｔ－１についての位置座標３３６、条件付き事前確率３４８からのサンプリング値、及び時間ｔについての位置座標３３７に基づいて更新される。

推論フェーズ３３４は、上記の式８に基づく潜在変数の推論を反映する。図示のように、潜在変数は、時間ｔについての位置データ３３７に基づいて推論される。全体フェーズ３３５は、フェーズ３３１～３３４の組み合わせであり、軌道モジュール１０４（及び／又は、そのコンポーネント）により実行される動作を反映することができる。

図４は、一例示的な画像４００を示す。画像４００は、画像捕捉デバイス１０３により捕捉されてもよく、かつ／あるいは別のソースから軌道モジュール１０４により受信されてもよい。ＣＶアルゴリズム１０６は、画像４００を分析して、その中の人４０１、４０２を識別することができる。上述のように、各人４０１、４０２について行先特徴ベクトルf_j ^(D)が計算され得る。同様に、画像４００に対してソーシャルグラフ１０７が生成され得る。ソーシャルグラフ１０７は、人４０１、４０２をそれぞれのノードに割り当てることができ、エッジは、人４０１、４０２を表すノードを接続することができる。例えば、エッジは、人４０１、４０２が並んで歩いていること、人４０１、４０２が互いを考慮していること、人４０１、４０２が手をつないでいること、及び／又は人４０１、４０２のグラウンドトゥルース軌道４０５、４０６のうちの１つ以上に基づいて、人４０１、４０２を関連づけることができる。グラウンドトゥルース軌道４０５、４０６は、前の時間間隔における人４０１、４０２の実際のパスに対応することができる。次いで、ソーシャルネットワーク１１３は、各人４０１、４０２について特徴ベクトルf_j ^(S)を抽出することができ、確率モデル１０８は、学習された事前確率から潜在変数z_tの値をサンプリングすることができる。

次いで、デコーダモデル１０９は、各人４０１、４０２について１つ以上の予測される軌道を計算することができる。図示のように、デコーダモデル１０９は、人４０１、４０２それぞれについて複数の軌道４０７、４０８を決定することができる。一般に、軌道４０７、４０８は、各人４０１、４０２についての推定された将来の移動を反映する。しかしながら、最も可能性の高い軌道４０３、４０４が、例えば、上記の式９を使用して計算されたガウス分布をサンプリングすることにより、最も起こりそうな軌道として返され得る。図示のように、人４０１、４０２の間の相互作用のため、デコーダモデル１０９は、この人々が一緒に移動し続ける可能性があることを反映して、関連する軌道４０３、４０４を計算する。

図５は、論理フロー５００の一実施形態を示す。論理フロー５００は、本明細書に記載される１つ以上の実施形態により実行される動作の一部又は全部を表すことができる。例えば、論理フロー５００は、ソーシャルグラフネットワークを使用して確率的軌道予測を提供する動作の一部又は全部を表すことができる。実施形態は、この文脈において限定されない。

図示のように、ブロック５１０において、軌道モジュール１０４及び／又はそのコンポーネントの訓練が、訓練データ１０５に基づいて実行される。上述のように、訓練データ１０５は、環境内で動く人々を示す画像を含む。訓練データ１０５の各画像は、画像内の各人について、捕捉された画像の後の、人の実際の動きを反映するグラウンドトゥルースデータ（例えば、方向及びスピードを含むベクトル）を示すラベル（又は、他のタイプのメタデータ）を含んでもよい（例えば、人が、時間ｔ＝０でのこの人を示す画像の後、時間ｔ＝１で実際に動いた場合）。ブロック５２０において、訓練された軌道モジュール１０４は、画像捕捉デバイス１０３により捕捉された第１の画像を受け取ることができる。例えば、固定監視カメラが、周期的な時間間隔で環境の画像を捕捉してもよく、ブロック５２０で受け取った第１の画像は、環境の捕捉された画像の１つに対応することができる。

ブロック５３０において、軌道モジュール１０４及び／又はＣＶアルゴリズム１０６は、第１の画像に示される１人以上の人を識別することができる。例えば、人は、人間検出、追跡、識別アルゴリズムなどを用いて検出することができる。より一般的には、所与の画像内の人を識別するために、任意の実現可能な技術を使用してよい。ブロック５４０において、デコーダモデル１０９は、各人について複数のベクトルを計算することができ、各ベクトルは、各人の動きの予測されたスピード及び方向に対応する。少なくとも１つの実施形態において、デコーダモデル１０９は、人がとることになる動きの最も可能性のある進路として、複数のベクトルのうちの第１のベクトルを返すことができる。一実施形態において、第１のベクトルは、式９に基づいて生成される学習された事前分布をサンプリングすることにより返される。

ブロック５５０において、軌道モジュール１０４は、ブロック５４０で計算された出力ベクトルのうちの１つ以上が自律車両の動きを反映する軌道ベクトルと交差すると決定することができる。ベクトルが環境内の１つ以上の点で交差する場合、軌道モジュール１０４は、出力ベクトルに関連づけられた人と自律車両との間で衝突が発生し得ると決定することができる。いくつかの実施形態において、軌道モジュール１０４は、例えば、衝突の可能性を反映するスコアを計算することにより、衝突の可能性が衝突閾値を超えていると決定することができ、スコアは、ベクトルが交差するかどうかに基づく。一実施形態において、自律車両は、第１の画像内に示され得る。このような例において、軌道モジュール１０４は、自律車両を示す事前画像、自律車両の移動の方向等に基づいて、自律車両の予測される動きを決定することができる。他の実施形態において、コンピューティングシステム１００は、自律車両のコンポーネントでもよい。そのような実施形態において、ナビゲーションロジック１１２は、自律車両の予測された動きを提供することができる。次いで、軌道モジュール１０４及び／又はナビゲーションロジック１１２は、ブロック５４０で計算されたベクトルを自律車両の予想された動きと比較して、ベクトルが交差し得るかどうかを決定することができる。

ブロック５６０において、第１の画像に示される自律車両と１人以上の人との間で衝突が発生し得るという決定に基づいて、予め定義された動作が実行され得る。例えば、第１の人の最も可能性のある動きを反映する第１の人のための第１のベクトルが、第１の自律車両との間で衝突が発生し得ることを示す場合、第１の自律車両について第１の人及び／又はナビゲーションロジック１１２に警告するための警報が生成されてもよい。言い換えると、予め定義された動作は、衝突の可能性が衝突閾値を超えているという決定に基づいて実行され得る。そうすることにより、ナビゲーションロジック１１２は、衝突を回避するために自律車両の動きを変える（例えば、減速する、停止する、曲がる等）ことができる。

図６は、論理フロー６００の一実施形態を示す。論理フロー６００は、本明細書に記載される１つ以上の実施形態により実行される動作の一部又は全部を表すことができる。例えば、論理フロー６００は、軌道モジュール１０４を訓練する動作の一部又は全部を表すことができる。実施形態は、この文脈において限定されない。

図示のように、ブロック６１０において、訓練データ１０５が、軌道モジュール１０４により受け取られ得る。訓練データ１０５は、異なる時間間隔において捕捉された、環境の複数の画像を含んでもよい。画像は、１人以上の人を示し得る。訓練データ１０５は、示された人の実際の動きを反映するグラウンドトゥルースデータ（例えば、動きの方向及びスピードを示すベクトル）をさらに含んでもよい。ブロック６２０において、第１の画像に示される各人について、特徴ベクトルf^(D)、f^(S)が初期化され得る。ブロック６３０において、特徴ベクトルf^(D)、f^(S)とソーシャルグラフ１０７が、上記の式１～式６に従って計算される。特徴ベクトルは、訓練データ１０５からの第１の画像に示される各人についてのものでもよい。特徴ベクトルは、各人の行先、所与の人をいずれの他の人が考慮しているか、及び／又は２人の人の間の距離を反映することができる。ソーシャルグラフ１０７は、第１の画像に対して生成される。さらに、訓練の間、上記の式７～式８を適用して、事後事前分布に基づいて条件付き事前分布を学習し、確率モデル１０８がそこから値をサンプリングすることを可能にしてもよい。上述のように、訓練の間、事後分布から値をサンプリングして、事前分布を学習する。

ブロック６５０において、デコーダモデル１０９は、式９を適用して、画像に示される各人について複数のベクトルを計算する。各ベクトルは、一般に、人の動きの予測された方向及びスピードを記述することができる。ベクトルは、方向を(x,y)座標で、動きのスピードを任意の単位及び／又はフォーマット（例えば、メートル毎秒、フィート毎秒など）で記述してもよい。ブロック６６０において、ブロック６５０で計算されたベクトルの精度が、例えば、ブロック６５０で計算されたベクトルと各人のグラウンドトゥルースの動きとの比較に基づいて決定される。上述のように、精度は、平均変位誤差及び／又は最終変位誤差に基づいてもよい。一般に、例えば、ブロック６５０で計算された第１のベクトルが、人が左に動くことを示すが、グラウンドトゥルースデータが、人が実際には右に動いたことを示す場合、ブロック６５０で計算された予測は、低い精度を有し得る。したがって、ブロック６６０において、逆伝搬動作が実行されて、軌道モジュール１０４のパラメータ（例えば、ソーシャルグラフネットワーク１１３、確率モデル１０８、デコーダモデル１０９、及び／又はＬＳＴＭ１１０、１１１）を更新する。一般に、上記の式１０を使用して、確率的勾配降下を用いて式１０の変分下限を最大化することができる。ブロック６１０～６６０は、単一の画像、及び／又は各画像内に示される単一の人を参照して論じられ得るが、ブロック６１０～６６０は、訓練データ１０５内の任意の数の画像上で任意の回数繰り返されてもよい。そうすることにより、軌道モジュール１０４は、時間と共により正確な予測を生成することができる。

図７は、論理フロー７００の一実施形態を示す。論理フロー７００は、本明細書に記載される１つ以上の実施形態により実行される動作の一部又は全部を表すことができる。例えば、論理フロー７００は、ソーシャルグラフネットワークを使用して確率的軌道予測を提供する動作の一部又は全部を表すことができる。実施形態は、この文脈において限定されない。

図示のように、ブロック７１０において、画像は、画像に示される１人以上の人、及び／又は画像に示される少なくとも２人の人の間の相互作用を識別するために、１つ以上のＣＶアルゴリズム１０６により分析され得る。画像は、画像捕捉デバイス１０３により捕捉されてもよく、かつ／あるいは別のソースから受信されてもよい。相互作用には、ある人が別の人を考慮しているかどうか、２人の人の間の距離、やりとり、物理的接触、ある人が別の人を避けることなどを含むことができる。ブロック７２０において、第１の特徴ベクトル、すなわち、１つ以上の行先ベースの特徴を含む行先特徴ベクトルf^(D)が、ニューラルネットワーク（例えば、軌道モジュール１０４のソーシャルネットワーク１１３）により画像内で識別された各人について、式１に従って生成される。上述のように、ニューラルネットワークは、ＲｅＬＵを有する１層のＭＬＰを含み、入力としての人の(x,y)座標と人の速度とを連結することができる。速度は、現在の時間間隔における人の座標と、前の時間間隔（例えば、すぐ前の時間間隔）における人の座標との差に基づいてもよい。ブロック７３０において、画像に対してソーシャルグラフ１０７が生成される。ソーシャルグラフ１０７は、画像内の各人をノードとして表す有向グラフである。ブロック７１０における画像の分析に基づいて、２人以上の人が社会的相互作用に関与していると決定された場合、エッジが、上述のように、社会的相互作用に関与するこの２人の人を接続することができる。例えば、２人の人の間の距離が閾値を下回る場合、社会的相互作用が決定されてもよい（そして、距離に基づいてアテンション値が決定されてもよい）。同様に、ある人が別の人を考慮している場合、エッジは、ソーシャルグラフ１０７内のこの２人に人を表すノードを接続してもよく、アテンション値は、ある人が別の人を考慮している度合いを反映してもよい。

ブロック７４０において、第２の特徴ベクトル、すなわち、ベクトルf^(S)が、画像に示される各人について、式２～式６に従って計算される。ソーシャルグラフネットワーク１１３は、第１の特徴ベクトルf^(D)及び／又はソーシャルグラフ１０７に基づいて、第２の特徴ベクトルf^(S)を計算することができる。ソーシャルグラフネットワーク１１３の最終層の出力は、ベクトルf^(S)を含むことができる。ブロック７５０において、潜在変数ｚの値が、学習された事前分布からサンプリングされる。ブロック７６０において、デコーダモデル１０９は、画像に示される各人の動きの予測された方向と動きの方向の予測されたスピードとを反映する１つ以上の出力ベクトルを計算することができる。次いで、デコーダモデル１０９は、生成されたベクトルを後の使用のために記憶することができる。

図８は、記憶媒体８００の一実施形態を示す。記憶媒体８００は、光学、磁気、又は半導体記憶媒体などの、任意の非一時的コンピュータ読取可能記憶媒体又はマシン読取可能記憶媒体を含むことができる。様々な実施形態において、記憶媒体８００は、製造品を含んでもよい。いくつかの実施形態において、記憶媒体８００は、本明細書に記載される論理フロー又は動作の１つ以上を実施するコンピュータ実行可能命令、例えば、図５～図７の論理フロー５００、６００、７００それぞれについての命令８０１、８０２、８０３などの、コンピュータ実行可能命令を記憶することができる。記憶媒体８００は、上述の式１～式９のためのコンピュータ実行可能命令８０４と、軌道モジュール１０４及びそのコンポーネント（例えば、ソーシャルグラフネットワーク１１３、ソーシャルグラフ１０７、確率モデル１０８、デコーダモデル１０９、命令１１４、及び／又はＬＳＴＭ１１０、１１１）のためのコンピュータ実行可能命令８０５をさらに記憶することができる。記憶媒体８００は、ナビゲーションロジック１１２のためのコンピュータ実行可能命令８０６をさらに記憶することができる。プロセッサ１０１は、命令８０１～８０６のうち任意のものを実行することができる。コンピュータ読取可能記憶媒体又はマシン読取可能記憶媒体の例には、揮発性又は不揮発性メモリ、リムーバブル又は非リムーバブルメモリ、消去可能又は消去不可メモリ、書込可能又は再書込可能メモリ等を含む、電子データを記憶できる任意の有形媒体を含むことができる。コンピュータ実行可能命令の例には、ソースコード、コンパイルされたコード、解釈されたコード、実行可能コード、静的コード、動的コード、オブジェクト指向コード、ビジュアルコード等などの任意の適切なタイプのコードを含むことができる。実施形態は、この文脈において限定されない。

図９は、上述の様々な実施形態を実施するのに適切であり得る例示的なコンピューティングアーキテクチャ９００の一実施形態を示す。様々な実施形態において、コンピューティングアーキテクチャ９００は、電子デバイスを含んでもよく、あるいは電子デバイスの一部として実装されてもよい。いくつかの実施形態において、コンピューティングアーキテクチャ９００は、例えば、システム１００の１つ以上のコンポーネントを実装するコンピュータシステムを表すことができる。本実施形態は、この文脈において限定されない。より一般的には、コンピューティングアーキテクチャ９００は、本明細書において図１～図８を参照して説明された全ての論理、システム、論理フロー、方法、装置、及び機能性を実施するように構成される。

本出願で使用されるとき、用語「システム」及び「コンポーネント」及び「モジュール」は、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアのいずれかであるコンピュータ関連エンティティを指すことを意図しており、その例が、例示的なコンピューティングアーキテクチャ９００により提供される。例えば、コンポーネントは、これらに限られないが、プロセッサ上で実行されるプロセス、プロセッサ、ハードディスクドライブ、複数の記憶ドライブ（光学及び／又は磁気記憶媒体の）、オブジェクト、実行可能ファイル、実行スレッド、プログラム、及び／又はコンピュータとすることができる。例として、サーバ上で実行されているアプリケーションとサーバとの双方が、コンポーネントであり得る。１つ以上のコンポーネントは、プロセス及び／又は実行スレッド内に存在することができ、コンポーネントは、１つのコンピュータ上に局所化することができ、かつ／あるいは２つ以上のコンピュータ間で分散することができる。さらに、コンポーネントは、動作を協調するために、様々なタイプの通信媒体により互いに通信上結合されてもよい。協調には、一方向又は双方向の情報交換を含むことができる。例えば、コンポーネントは、通信媒体を介して通信される信号の形式で情報を通信してもよい。この情報は、様々な信号線に割り振られた信号として実現することができる。このような割り振りにおいて、各メッセージは信号である。しかしながら、さらなる実施形態が、代替的にデータメッセージを利用してもよい。そのようなデータメッセージは、様々な接続を介して送られ得る。例示的な接続には、パラレルインターフェース、シリアルインターフェース、及びバスインターフェースが含まれる。

コンピューティングアーキテクチャ９００は、１つ以上のプロセッサ、マルチコアプロセッサ、コプロセッサ、メモリユニット、チップセット、コントローラ、周辺装置、インターフェース、発振器、タイミングデバイス、ビデオカード、オーディオカード、マルチメディア入力／出力（Ｉ／Ｏ）コンポーネント、電源などの、様々な一般的な計算要素を含む。しかしながら、実施形態は、コンピューティングアーキテクチャ９００による実装に限定されない。

図９に示すように、コンピューティングアーキテクチャ９００は、処理ユニット９０４、システムメモリ９０６、及びシステムバス９０８を含む。処理ユニット９０４（プロセッサ回路とも呼ばれる）は、ＡＭＤ（登録商標）Ａｔｈｌｏｎ（登録商標）、Ｄｕｒｏｎ（登録商標）及びＯｐｔｅｒｏｎ（登録商標）プロセッサ；ＡＲＭ（登録商標）アプリケーション、組み込み及びセキュアプロセッサ；ＩＢＭ（登録商標）及びＭｏｔｏｒｏｌａ（登録商標）ＤｒａｇｏｎＢａｌｌ（登録商標）及びＰｏｗｅｒＰＣ（登録商標）プロセッサ；ＩＢＭ及びＳｏｎｙ（登録商標）Ｃｅｌｌプロセッサ；Ｉｎｔｅｌ（登録商標）Ｃｅｌｅｒｏｎ（登録商標）、Ｃｏｒｅ（２）Ｄｕｏ（登録商標）、Ｉｔａｎｉｕｍ（登録商標）、Ｐｅｎｔｉｕｍ（登録商標）、Ｘｅｏｎ（登録商標）及びＸＳｃａｌｅ（登録商標）プロセッサ；並びに類似のプロセッサを限定なく含む、様々な市販のプロセッサのうち任意のものでもよい。デュアルマイクロプロセッサ、マルチコアプロセッサ、及び他のマルチプロセッサアーキテクチャもまた、処理ユニット９０４として利用されてもよい。

システムバス９０８は、これらに限られないがシステムメモリ９０６から処理ユニット９０４へを含む、システムコンポーネントのためのインターフェースを提供する。システムバス９０８は、いくつかのタイプのバス構造のうち任意のものとすることができ、これは、様々な市販のバスアーキテクチャのうち任意のものを使用してメモリバス（メモリコントローラの有無を問わない）、ペリフェラルバス、及びローカルバスにさらに相互接続してもよい。インターフェースアダプタは、スロットアーキテクチャを介してシステムバス９０８に接続することができる。例示的なスロットアーキテクチャには、限定なく、アクセラレーテッドグラフィックスポート（ＡＧＰ）、カードバス、（拡張）インダストリスタンダードアーキテクチャ（（Ｅ）ＩＳＡ）、マイクロチャネルアーキテクチャ（ＭＣＡ）、ニューバス（NuBus）、ペリフェラルコンポーネントインターコネクト（拡張）（ＰＣＩ（Ｘ））、ＰＣＩＥｘｐｒｅｓｓ、パーソナルコンピュータメモリカードインターナショナルアソシエーション（ＰＣＭＣＩＡ）などを含むことができる。

システムメモリ９０６には、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、ダブルデータレートＤＲＡＭ（ＤＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、バルクバイトアドレス指定可能（bulk byte-addressable）永続メモリ（persistent memory、ＰＭＥＭ）、スタティックＲＡＭ（ＳＲＡＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ（例えば、１つ以上のフラッシュアレイ）、強誘電体ポリマーメモリなどのポリマーメモリ、オボニックメモリ、相変化又は強誘電体メモリ、ＳＯＮＯＳ（silicon-oxide-nitride-oxide-silicon）メモリ、磁気又は光学カード、独立ディスクの冗長アレイ（ＲＡＩＤ）ドライブなどのデバイスのアレイ、ソリッドステートメモリデバイス（例えば、ＵＳＢメモリ、ソリッドステートドライブ（ＳＳＤ））、及び情報を記憶するのに適した任意の他のタイプの記憶媒体などの、１つ以上のより高速メモリユニットの形態の様々なタイプのコンピュータ読取可能記憶媒体を含むことができる。図９に示される例示の実施形態において、システムメモリ９０６は、不揮発性メモリ９１０及び／又は揮発性メモリ９１２を含むことができる。基本入力／出力システム（ＢＩＯＳ）は、不揮発性メモリ９１０に記憶することができる。

コンピュータ９０２は、内部（又は、外部）ハードディスクドライブ（ＨＤＤ）９１４、リムーバブル磁気ディスク９１８との間で読み出し又は書き込みを行う磁気フロッピーディスクドライブ（ＦＤＤ）９１６、及びリムーバブル光ディスク９２２（例えば、コンパクトディスク読取専用メモリ（ＣＤ－ＲＯＭ）又はデジタル多用途ディスク（ＤＶＤ））との間で読み出し又は書き込みを行う光ディスクドライブ９２０を含む、１つ以上のより低速なメモリユニットの形態の様々なタイプのコンピュータ読取可能記憶媒体を含むことができる。ＨＤＤ９１４、ＦＤＤ９１６、及び光ディスクドライブ９２０は、それぞれ、ＨＤＤインターフェース９２４、ＦＤＤインターフェース９２６、及び光学ドライブインターフェース９２８により、システムバス９０８に接続することができる。外部ドライブ実装のためのＨＤＤインターフェース９２４は、ユニバーサルシリアルバス（ＵＳＢ）及びＩＥＥＥ１３９４インターフェース技術のうち少なくとも一方又は双方を含むことができる。

ドライブ及び関連するコンピュータ読取可能媒体は、データ、データ構造、コンピュータ実行可能命令などの揮発性及び／又は不揮発性の記憶を提供する。例えば、オペレーティングシステム９３０、１つ以上のアプリケーションプログラム９３２、他のプログラムモジュール９３４、及びプログラムデータ９３６を含む複数のプログラムモジュールを、ドライブ及びメモリユニット９１０、９１２に記憶することができる。一実施形態において、１つ以上のアプリケーションプログラム９３２、他のプログラムモジュール９３４、及びプログラムデータ９３６は、例えば、軌道モジュール１０４、ＣＶアルゴリズム１０６、ソーシャルグラフ１０７、確率モデル１０８、デコーダモデル１０９、ＬＳＴＭ１１０、１１１、ナビゲーションロジック１１２、ソーシャルグラフネットワーク１１３、及び／又は本明細書に記載される他の論理を含む、システム１００の様々なアプリケーション及び／又はコンポーネントを含むことができる。

ユーザは、１つ以上の有線／無線の入力装置、例えば、キーボード９３８、及びマウス９４０などのポインティングデバイスを介して、コンピュータ９０２にコマンド及び情報を入力することができる。他の入力装置には、マイクロフォン、赤外線（ＩＲ）リモコン、無線周波数（ＲＦ）リモコン、ゲームパッド、スタイラスペン、カードリーダ、ドングル、指紋リーダ、グローブ、グラフィックスタブレット、ジョイスティック、キーボード、網膜リーダ、タッチスクリーン（例えば、容量性、抵抗性など）、トラックボール、トラックパッド、センサ、スタイラスなどを含むことができる。これら及び他の入力装置は、しばしば、システムバス９０８に結合された入力装置インターフェース９４２を介して処理ユニット９０４に接続されるが、パラレルポート、ＩＥＥＥ１３９４シリアルポート、ゲームポート、ＵＳＢポート、ＩＲインターフェース等の他のインターフェースにより接続することができる。

モニタ９４４又は他のタイプの表示装置も、ビデオアダプタ９４６などのインターフェースを介してシステムバス９０８に接続される。モニタ９４４は、コンピュータ９０２の内部又は外部であってよい。モニタ９４４に加えて、コンピュータは、通常、スピーカ、プリンタ等などの他の周辺出力装置を含む。

コンピュータ９０２は、リモートコンピュータ９４８などの１つ以上の遠隔コンピュータへの有線及び／又は無線通信を介する論理接続を使用して、ネットワーク化された環境で動作することができる。様々な実施形態において、１つ以上のマイグレーションが、ネットワーク化環境を介して発生してもよい。リモートコンピュータ９４８は、ワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースのエンタテインメント機器、ピアデバイス、又は他の一般的なネットワークノードとすることができ、典型的には、コンピュータ９０２に関して説明される要素の多く又は全てを含むが、簡潔さの目的で、メモリ／記憶装置９５０のみが示されている。図示された論理接続には、ローカルエリアネットワーク（ＬＡＮ）９５２、及び／又はより大きいネットワーク、例えば、ワイドエリアネットワーク（ＷＡＮ）９５４への有線／無線接続が含まれる。このようなＬＡＮ及びＷＡＮネットワーキング環境は、オフィス及び会社では一般的であり、イントラネットなどの企業全体のコンピュータネットワークを容易にし、これらの全てが、グローバル通信ネットワーク、例えばインターネットに接続することができる。

ＬＡＮネットワーキング環境で使用されるとき、コンピュータ９０２は、有線及び／又は無線通信ネットワークインターフェース又はアダプタ９５６を介してＬＡＮ９５２に接続される。アダプタ９５６は、ＬＡＮ９５２への有線及び／又は無線通信を容易にすることができ、ＬＡＮ９５２は、アダプタ９５６の無線機能と通信するためにその上に配置された無線アクセスポイントを含んでもよい。

ＷＡＮネットワーキング環境で使用されるとき、コンピュータ９０２は、モデム９５８を含むことができ、あるいはＷＡＮ９５４上の通信サーバに接続され、あるいはインターネット経由などＷＡＮ９５４を通じて通信を確立する他の手段を有する。モデム９５８は、内部又は外部とすることができ、有線及び／又は無線装置とすることができ、入力装置インターフェース９４２を介してシステムバス９０８に接続する。ネットワーク化環境において、コンピュータ９０２に関して示されたプログラムモジュール又はその一部は、リモートのメモリ／記憶装置９５０に記憶することができる。図示のネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段を使用できることが理解されよう。

コンピュータ９０２は、無線通信（例えば、ＩＥＥＥ９０２．１６オーバー・ジ・エア変調技術）において動作上配置された無線デバイスなどの、標準のＩＥＥＥ９０２ファミリを使用する有線及び無線のデバイス又はエンティティと通信するように動作可能である。これには、とりわけ、Ｗｉ－Ｆｉ（又は、ワイヤレスフィデリティ）、ＷｉＭａｘ、及びＢｌｕｅｔｏｏｔｈ（登録商標）^TM無線技術が少なくとも含まれる。したがって、通信は、従来のネットワークのように予め定義された構造でもよく、あるいは単に少なくとも２つのデバイス間のアドホック通信でもよい。Ｗｉ－Ｆｉネットワークは、ＩＥＥＥ９０２．１１ｘ（ａ、ｂ、ｇ、ｎ、ａｃ、ａｙなど）と呼ばれる無線技術を使用して、安全な、信頼できる、高速の無線接続を提供する。Ｗｉ－Ｆｉネットワークは、コンピュータを互いに、インターネットに、及び有線ネットワーク（ＩＥＥＥ９０２．３関連の媒体及び機能を利用する）に接続するために使用することができる。

少なくとも１つの例の１つ以上の態様は、プロセッサ内の様々な論理を表す、少なくとも１つのマシン読取可能媒体に記憶された表現的な命令により実施することができ、上記命令は、マシン、コンピューティングデバイス、又はシステムにより読まれると、マシン、コンピューティングデバイス、又はシステムに、本明細書に記載の技術を実行するための論理を作らせる。「ＩＰコア」として知られるこのような表現は、有形のマシン読取可能媒体に記憶され、論理又はプロセッサを製造する製作マシンにロードするために様々な顧客又は製造施設に供給されてもよい。

様々な例は、ハードウェア要素、ソフトウェア要素、又は双方の組み合わせを使用して実施され得る。いくつかの例において、ハードウェア要素には、デバイス、コンポーネント、プロセッサ、マイクロプロセッサ、回路、回路素子（例えば、トランジスタ、抵抗、キャパシタ、インダクタなど）、集積回路、特定用途向け集積回路（ＡＳＩＣ）、プログラマブル論理デバイス（ＰＬＤ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、メモリユニット、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセットなどを含んでもよい。いくつかの例において、ソフトウェア要素には、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、ファンクション、メソッド、プロシージャ、ソフトウェアインターフェース、アプリケーションプログラムインターフェース（ＡＰＩ）、命令セット、計算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、又はこれらの任意の組み合わせを含んでもよい。例がハードウェア要素を用いて実施されるか及び／又はソフトウェア要素を用いて実施されるかの決定は、所与の実装に対する所望に応じて、所望の計算レート、電力レベル、熱耐性、処理サイクルバジェット、入力データレート、出力データレート、メモリリソース、データバススピード、及び他の設計又は性能制約などの任意の数のファクタに従って変化してよい。

いくつかの例には、製造品又は少なくとも１つのコンピュータ読取可能媒体を含むことができる。コンピュータ読取可能媒体には、論理を記憶するための非一時的記憶媒体を含んでもよい。いくつかの例において、非一時的記憶媒体には、揮発性メモリ又は不揮発性メモリ、リムーバブル又は非リムーバブルメモリ、消去可能又は消去不可メモリ、書き込み可能又は再書き込み可能メモリなどを含む、電子データを記憶できる１つ以上のタイプのコンピュータ読取可能記憶媒体を含んでもよい。いくつかの例において、論理は、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、ファンクション、メソッド、プロシージャ、ソフトウェアインターフェース、ＡＰＩ、命令セット、計算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、又はこれらの任意の組み合わせなどの様々なソフトウェア要素を含んでもよい。

いくつかの例によれば、コンピュータ読取可能媒体は、命令を記憶又は維持する非一時的記憶媒体を含んでもよく、上記命令は、マシン、コンピューティングデバイス、又はシステムにより実行されると、マシン、コンピューティングデバイス、又はシステムに、記載された例に従う方法及び／又は動作を実行させる。命令は、ソースコード、コンパイル型コード、解釈型コード、実行可能コード、静的コード、動的コード等などの任意の適切なタイプのコードを含むことができる。命令は、マシン、コンピューティングデバイス、又はシステムに特定の機能を実行するように指示する、予め定義されたコンピュータ言語、方式、又は構文に従って実装されてよい。命令は、任意の適切な高水準、低水準、オブジェクト指向、ビジュアル、コンパイル型、及び／又は解釈型プログラミング言語を使用して実施されてよい。

いくつかの例は、表現「一例において」又は「一例」及びそれらの派生を用いて説明され得る。これらの用語は、例に関連して説明された特定の特徴、構造、又は特性が少なくとも１つの例に含まれることを意味する。明細書中の様々な箇所におけるフレーズ「一例において」の出現は、必ずしも全て同じ例を参照しているわけではない。

いくつかの例は、表現「結合された」及び「接続された」並びにそれらの派生を用いて説明され得る。これらの用語は、必ずしも互いに同義語として意図されているわけではない。例えば、用語「接続された」及び／又は「結合された」を使用する説明は、２つ以上の要素が互いに直接的に物理的又は電気的に接触していることを示し得る。しかしながら、用語「結合された」は、２つ以上の要素が互いに直接接触してはいないが依然として互いに協働又は相互作用することも意味し得る。

以下の例はさらなる実施形態に関し、これらから多数の組み合わせ及び構成が明らかである。

例１は、命令を記憶する非一時的コンピュータ読取可能記憶媒体であり、前記命令は、プロセッサ回路により実行されると前記プロセッサ回路に：画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定し；前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成し；前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定し；学習された事前分布から潜在変数の値をサンプリングし、前記潜在変数は第１の時間間隔に対応し；前記サンプリングされた値及び前記特徴ベクトルに基づいて、少なくとも２つのＬＳＴＭを含む階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する；ことをさせる。

例２は、例１の主題事項を含み、前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前であり、前記第１のニューラルネットワークは、以下の式：

に少なくとも部分的に基づいて前記第１の特徴ベクトルを計算する。

例３は、例２の主題事項を含み、前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つであり、前記出力ベクトルは、以下の式：

に少なくとも部分的に基づいて計算される。

例４は、例２の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する。

例５は、例４の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、当該コンピュータ読取可能記憶媒体は、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記画像を分析して、前記第１の人が前記複数の人のうちの第２の人を考慮していると決定し；前記グラフ内に前記第１のエッジを生成し、前記第１のエッジは、前記第２のノードから前記第１のノードに向けられ；前記第１のエッジのアテンション値を決定し；前記アテンション値を前記第１のエッジに割り当てる；ことをさせる命令を記憶する。

例６は、例５の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定し、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第１のニューラルネットワークは、以下の式：

のうちの１つ以上に少なくとも部分的に基づいて前記第２の特徴ベクトルを計算する；ことをさせる命令を記憶する。

例７は、例１の主題事項を含み、当該コンピュータ読取可能記憶媒体は、前記プロセッサ回路により実行されると前記プロセッサ回路に：事後ＬＳＴＭの複数の再帰的隠れ状態と第３の時間間隔における前記第１の人の事前ベクトルとに基づいて前記事前分布を学習し、前記第３の時間間隔は、第１の時間間隔の前であり、前記事前ベクトルは、前記第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式：

に少なくとも部分的に基づいて学習され、前記潜在変数の値は、以下の式：

に少なくとも部分的に基づいてサンプリングされる；ことをさせる命令を記憶する。

例８は、例１の主題事項を含み、前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する。

例９は、例１の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記画像に示される各人について、前記第２の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成する；ことをさせる命令を記憶する。

例１０は、例１の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記第１及び前記第２の時間間隔の後の第３の時間間隔に対応する第２の画像を受け取り；前記第２の画像に示される前記第１の人の行先特徴を記述する第３の特徴ベクトルを決定し；前記画像に示される複数の人に基づいて前記第２の画像の第２の指向グラフを生成し；前記第１の人について、前記第２の指向グラフ及び前記第３の特徴ベクトルに基づいて第４の特徴ベクトルを決定し；前記学習された事前分布から前記潜在変数の第２の値をサンプリングし、前記潜在変数の前記第２の値は、前記第３の時間間隔に対応し；前記サンプリングされた第２の値並びに前記第３及び第４の特徴ベクトルに基づいて、前記階層的ＬＳＴＭにより、前記第３の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む第２の出力ベクトルを生成する；ことをさせる命令を記憶する。

例１１は、例１の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定し；前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定し；前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力し、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する；ことをさせる命令を記憶する。

例１２は、装置を含み、当該装置は、プロセッサ回路と、命令を記憶するメモリと、を含み、前記命令は、前記プロセッサ回路により実行されると前記プロセッサ回路に：画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定し；前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成し；前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定し；学習された事前分布から潜在変数の値をサンプリングし、前記潜在変数は第１の時間間隔に対応し；前記サンプリングされた値及び前記特徴ベクトルに基づいて、少なくとも２つのＬＳＴＭを含む階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する；ことをさせる。

例１３は、例１２の主題事項を含み、前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前であり、前記第１のニューラルネットワークは、以下の式：

例１４は、例１３の主題事項を含み、前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つであり、前記出力ベクトルは、以下の式：

に少なくとも部分的に基づいて計算される。

例１５は、例１３の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する。

例１６は、例１５の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記画像を分析して、前記第１の人が前記複数の人のうちの第２の人を考慮していると決定し；前記グラフ内に前記第１のエッジを生成し、前記第１のエッジは、前記第２のノードから前記第１のノードに向けられ；前記第１のエッジのアテンション値を決定し；前記アテンション値を前記第１のエッジに割り当てる；ことをさせる命令を記憶する。

例１７は、例１６の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定し、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第１のニューラルネットワークは、以下の式：

例１８は、例１２の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に：事後ＬＳＴＭの複数の再帰的隠れ状態と第３の時間間隔における前記第１の人の事前ベクトルとに基づいて前記事前分布を学習し、前記第３の時間間隔は、第１の時間間隔の前であり、前記事前ベクトルは、前記第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式：

例１９は、例１２の主題事項を含み、前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する。

例２０は、例１２の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記画像に示される各人について、前記第２の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成する；ことをさせる命令を記憶する。

例２１は、例１２の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記第１及び前記第２の時間間隔の後の第３の時間間隔に対応する第２の画像を受け取り；前記第２の画像に示される前記第１の人の行先特徴を記述する第３の特徴ベクトルを決定し；前記画像に示される複数の人に基づいて前記第２の画像の第２の指向グラフを生成し；前記第１の人について、前記第２の指向グラフ及び前記第３の特徴ベクトルに基づいて第４の特徴ベクトルを決定し；前記学習された事前分布から前記潜在変数の第２の値をサンプリングし、前記潜在変数の前記第２の値は、前記第３の時間間隔に対応し；前記サンプリングされた第２の値並びに前記第３及び第４の特徴ベクトルに基づいて、前記階層的ＬＳＴＭにより、前記第３の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む第２の出力ベクトルを生成する；ことをさせる命令を記憶する。

例２２は、例１２の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に：前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定し；前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定し；前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力し、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する；ことをさせる命令を記憶する。

例２３は、方法を含み、当該方法は、画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定するステップと、前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成するステップと、前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定するステップと、学習された事前分布から潜在変数の値をサンプリングするステップであり、前記潜在変数は第１の時間間隔に対応する、ステップと、前記サンプリングされた値及び前記特徴ベクトルに基づいて、プロセッサ上で実行される階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成するステップと、を含む。

例２４は、例２３の主題事項を含み、前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前であり、前記第１のニューラルネットワークは、以下の式：

例２５は、例２４の主題事項を含み、前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つであり、前記出力ベクトルは、以下の式：

に少なくとも部分的に基づいて計算される。

例２６は、例２４の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する。

例２７は、例２６の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、当該方法は、前記画像を分析して、前記第１の人が前記複数の人のうちの第２の人を考慮していると決定するステップと、前記グラフ内に前記第１のエッジを生成するステップであり、前記第１のエッジは、前記第２のノードから前記第１のノードに向けられる、ステップと、前記第１のエッジのアテンション値を決定するステップと、前記アテンション値を前記第１のエッジに割り当てるステップと、をさらに含む。

例２８は、例２７の主題事項を含み、前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定するステップであり、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第１のニューラルネットワークは、以下の式：

のうちの１つ以上に少なくとも部分的に基づいて前記第２の特徴ベクトルを計算する、ステップをさらに含む。

例２９は、例２３の主題事項を含み、事後ＬＳＴＭの複数の再帰的隠れ状態と第３の時間間隔における前記第１の人の事前ベクトルとに基づいて前記事前分布を学習するステップであり、前記第３の時間間隔は、第１の時間間隔の前であり、前記事前ベクトルは、前記第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式：

に少なくとも部分的に基づいてサンプリングされる、ステップをさらに含む。

例３０は、例２３の主題事項を含み、前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する。

例３１は、例２３の主題事項を含み、前記画像に示される各人について、前記第２の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成するステップ、をさらに含む。

例３２は、例２３の主題事項を含み、前記第１及び前記第２の時間間隔の後の第３の時間間隔に対応する第２の画像を受け取るステップと、前記第２の画像に示される前記第１の人の行先特徴を記述する第３の特徴ベクトルを決定するステップと、前記画像に示される複数の人に基づいて前記第２の画像の第２の指向グラフを生成するステップと、前記第１の人について、前記第２の指向グラフ及び前記第３の特徴ベクトルに基づいて第４の特徴ベクトルを決定するステップと、前記学習された事前分布から前記潜在変数の第２の値をサンプリングするステップであり、前記潜在変数の前記第２の値は、前記第３の時間間隔に対応する、ステップと、前記サンプリングされた第２の値並びに前記第３及び第４の特徴ベクトルに基づいて、前記階層的ＬＳＴＭにより、前記第３の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む第２の出力ベクトルを生成するステップと、をさらに含む。

例３３は、例２３の主題事項を含み、前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定するステップと、前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定するステップと、前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力するステップと、前記自律車両のナビゲーションロジックにより、前記衝突の指標を受信するステップと、前記ナビゲーションロジックにより、前記衝突を回避するために前記自律車両の動きを修正するステップと、をさらに含む。

例３４は、装置であり、当該装置は、画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定する手段と、前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成する手段と、前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定する手段と、学習された事前分布から潜在変数の値をサンプリングする手段であり、前記潜在変数は第１の時間間隔に対応する、手段と、前記サンプリングされた値及び前記特徴ベクトルに基づいて、少なくとも２つのＬＳＴＭを含む階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する手段と、を含む。

例３５は、例３４の主題事項を含み、前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前であり、前記第１のニューラルネットワークは、以下の式：

例３６は、例３５の主題事項を含み、前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つであり、前記出力ベクトルは、以下の式：

に少なくとも部分的に基づいて計算される。

例３７は、例３５の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する。

例３８は、例３７の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、当該装置は、前記画像を分析して、前記第１の人が前記複数の人のうちの第２の人を考慮していると決定する手段と、前記グラフ内に前記第１のエッジを生成する手段であり、前記第１のエッジは、前記第２のノードから前記第１のノードに向けられる、手段と、前記第１のエッジのアテンション値を決定する手段と、前記アテンション値を前記第１のエッジに割り当てる手段と、をさらに含む。

例３９は、例３８の主題事項を含み、前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定する手段であり、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第１のニューラルネットワークは、以下の式：

のうちの１つ以上に少なくとも部分的に基づいて前記第２の特徴ベクトルを計算する、手段をさらに含む。

例４０は、例３４の主題事項を含み、事後ＬＳＴＭの複数の再帰的隠れ状態と第３の時間間隔における前記第１の人の事前ベクトルとに基づいて前記事前分布を学習する手段であり、前記第３の時間間隔は、第１の時間間隔の前であり、前記事前ベクトルは、前記第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式：

に少なくとも部分的に基づいてサンプリングされる、手段をさらに含む。

例４１は、例３４の主題事項を含み、前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する。

例４２は、例３４の主題事項を含み、前記画像に示される各人について、前記第２の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成する手段、をさらに含む。

例４３は、例３４の主題事項を含み、前記第１及び前記第２の時間間隔の後の第３の時間間隔に対応する第２の画像を受け取る手段と、前記第２の画像に示される前記第１の人の行先特徴を記述する第３の特徴ベクトルを決定する手段と、前記画像に示される複数の人に基づいて前記第２の画像の第２の指向グラフを生成する手段と、前記第１の人について、前記第２の指向グラフ及び前記第３の特徴ベクトルに基づいて第４の特徴ベクトルを決定する手段と、前記学習された事前分布から前記潜在変数の第２の値をサンプリングする手段であり、前記潜在変数の前記第２の値は、前記第３の時間間隔に対応する、手段と、前記サンプリングされた第２の値並びに前記第３及び第４の特徴ベクトルに基づいて、前記階層的ＬＳＴＭにより、前記第３の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む第２の出力ベクトルを生成する手段と、をさらに含む。

例４４は、例３４の主題事項を含み、前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定する手段と、前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定する手段と、前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力する手段と、前記自律車両のナビゲーションロジックにより、前記衝突の指標を受信する手段と、前記ナビゲーションロジックにより、前記衝突を回避するために前記自律車両の動きを修正する手段と、をさらに含む。

さらに、前述において、様々な特徴は、開示を合理化するために単一の例に一緒にまとめられている。この開示方法は、請求される例が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明主題事項は、単一の開示された例の全ての特徴よりも少ない特徴にある。したがって、以下の特許請求の範囲は、各請求項が別個の例として自立した状態で、本詳細な説明にここで組み込まれる。添付の特許請求の範囲において、用語「including」及び「in which」は、それぞれ、それぞれの用語「comprising」及び「wherein」の平易な英語の同等物として用いられる。さらに、用語「第１」、「第２」、「第３」などは、ラベルとして使用されるに過ぎず、それらの対象物に数値的要件を課すことを意図したものではない。

主題事項は、構造的特徴及び／又は方法論的動作に特有の言語で記載されているが、添付の特許請求の範囲に定義される主題事項は、必ずしも上述の特定の特徴又は動作に限定されるものではないことが理解されるべきである。むしろ、上述の特定の特徴及び動作は、請求項を実施する例示的な形態として開示されている。

プログラムコードを記憶及び／又は実行するのに適したデータ処理システムには、システムバスを介してメモリ要素に直接又は間接的に結合された少なくとも１つのプロセッサが含まれる。メモリ要素には、プログラムコードの実際の実行中に利用されるローカルメモリ、バルクストレージ、及びキャッシュメモリを含むことができ、キャッシュメモリは、少なくとも一部のプログラムコードの一時的な記憶を提供して、実行中にバルクストレージからコードを取り出さなければならない回数を減らす。用語「コード」は、アプリケーション、ドライバ、プロセス、ルーチン、メソッド、モジュール、ファームウェア、マイクロコード、及びサブプログラムを含む、広範囲のソフトウェアコンポーネント及び構成をカバーする。したがって、用語「コード」は、処理システムにより実行されると所望の１つ又は複数の動作を実行する命令の任意の集合を指すために使用され得る。

本明細書に記載される論理回路、デバイス、及びインターフェースは、ハードウェアで実装され、１つ以上のプロセッサ上で実行されるコードで実装される機能を実行することができる。論理回路は、１つ以上の論理機能を実施するハードウェア又はハードウェア及びコードを指す。回路は、ハードウェアであり、１つ以上の回路を指し得る。各回路は、特定の機能を実行することができる。回路網の回路は、１つ以上のコンダクタ、集積回路、チップパッケージ、チップセット、メモリなどと相互接続された個別の電気コンポーネントを含むことができる。集積回路には、シリコンウェハなどの基板上に作成された回路が含まれ、コンポーネントを含んでもよい。また、集積回路、プロセッサパッケージ、チップパッケージ、及びチップセットは、１つ以上のプロセッサを含んでもよい。

プロセッサは、入力において命令及び／又はデータなどの信号を受け取り、信号を処理して、少なくとも１つの出力を生成することができる。コードを実行する間、コードは、プロセッサパイプラインを構成するトランジスタの物理的状態及び特性を変化させる。トランジスタの物理的状態は、プロセッサ内のレジスタに格納された１及び０の論理ビットに変換される。プロセッサは、トランジスタの物理的状態をレジスタに転送し、トランジスタの物理的状態を別の記憶媒体に転送することができる。

プロセッサは、プロセッサの全体的な機能を実行するために実装された１つ以上のサブ機能を実行する回路を含んでもよい。プロセッサの一例は、少なくとも１つの入力と少なくとも１つの出力とを含む状態マシン又は特定用途向け集積回路（ＡＳＩＣ）である。状態マシンは、少なくとも１つの入力に対して所定の一連のシリアル及び／又はパラレルの操作又は変換を実行することにより、少なくとも１つの入力を操作して少なくとも１つの出力を生成することができる。

上述の論理は、集積回路チップのための設計の一部でもよい。チップ設計は、グラフィカルコンピュータプログラミング言語で作成され、コンピュータ記憶媒体又はデータ記憶媒体（例えば、ディスク、テープ、物理的ハードドライブ、又は、ストレージアクセスネットワークなどの仮想ハードドライブ）に記憶される。設計者が、チップ、又はチップを製作するために使用されるフォトリソグラフィマスクを製作しない場合、設計者は、結果として生じた設計を物理的手段により（例えば、設計を記憶する記憶媒体のコピーを提供することにより）又は電子的に（例えば、インターネットを通じて）、そのようなエンティティに直接的又は間接的に送信する。次いで、記憶された設計は、製作のための適切なフォーマット（例えば、ＧＤＳＩＩ）に変換される。

結果として生じた集積回路チップは、未加工ウェハ形態で（すなわち、複数のパッケージ化されていないチップを有する単一のウェハとして）、裸のダイとして、又はパッケージ化された形態で、製作者により配布することができる。後者の場合、チップは、単一のチップパッケージ（マザーボード又は他のより高いレベルのキャリアに固定されるリードを有する、プラスチックキャリアなど）で、又はマルチチップパッケージ（表面相互接続又は埋め込み相互接続のいずれか又は双方を有するセラミックキャリアなどの）でマウントされる。いずれの場合も、チップは、次いで、（ａ）プロセッサボード、サーバプラットフォーム、又はマザーボードなどの中間製品、又は（ｂ）最終製品のいずれかの一部として、他のチップ、個別回路素子、及び／又は他の信号処理デバイスと一体化される。

前述の例示的な実施形態の説明は、例示及び説明の目的で提示されている。網羅的であること、又は本開示を開示された正確な形態に限定することは意図していない。本開示に照らして、多くの修正及びバリエーションが可能である。本開示の範囲は、本詳細な説明によってではなく、むしろ本明細書に添付された特許請求の範囲により限定されることが意図される。この出願に対して優先権を主張する将来の出願は、開示された主題事項を異なる方法で請求する可能性があり、一般に、本明細書において様々に開示され又はその他の方法で説明された１つ以上の限定の任意のセットを含む可能性がある。

Claims

プロセッサ回路に、
画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定することと、
前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成することと、
前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定することと、
学習された事前分布から潜在変数の値をサンプリングすることであり、前記潜在変数は第１の時間間隔に対応する、ことと、
前記サンプリングされた値及び前記特徴ベクトルに基づいて、階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成することと、
を含む動作を実行させるコンピュータプログラム。
前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前である、請求項１に記載のコンピュータプログラム。
前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つである、請求項２に記載のコンピュータプログラム。
前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する、請求項２に記載のコンピュータプログラム。
前記複数のエッジのうちの第１のエッジは、前記複数のノードのうちの第１のノードと第２のノードとを接続し、前記動作は、
前記画像を分析して、前記複数の人のうちの第２の人に向けられた前記第１の人からの相互作用を識別することと、
前記識別された相互作用に基づいて前記グラフにおける前記第１のエッジを生成することであり、前記第１の人は前記第１のノードに関連づけられ、前記第２の人は前記第２のノードに関連づけられる、ことと、
前記第１のエッジのアテンション値を決定することであり、前記アテンション値は前記相互作用の度合いを反映する、ことと、
前記アテンション値を前記第１のエッジに割り当てることと、
をさらに含む、請求項４に記載のコンピュータプログラム。
前記動作は、
前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定することであり、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含む、ことをさらに含む、請求項５に記載のコンピュータプログラム。
前記動作は、
第３のＬＳＴＭの複数の再帰的隠れ状態と第３の時間間隔における前記第１の人の事前ベクトルとに基づいて前記事前分布を学習することであり、前記第３の時間間隔は、第１の時間間隔の前であり、前記事前ベクトルは、前記第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む、ことをさらに含む、請求項１に記載のコンピュータプログラム。
前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する、請求項１に記載のコンピュータプログラム。
前記動作は、
前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定することと、
前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定することと、
前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力することであり、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する、ことと、
をさらに含む、請求項１に記載のコンピュータプログラム。
装置であって、
プロセッサ回路と
命令を記憶するメモリと、を含み、前記命令は、前記プロセッサ回路により実行されると前記プロセッサ回路に、
画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定し、
前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成し、
前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定し、
学習された事前分布から潜在変数の値をサンプリングし、前記潜在変数は第１の時間間隔に対応し、
前記サンプリングされた値及び前記特徴ベクトルに基づいて、階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する
ことをさせる、装置。
前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前である、請求項１０に記載の装置。
前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つである、請求項１１に記載の装置。
前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する、請求項１１に記載の装置。
前記複数のエッジのうちの第１のエッジは、前記複数のノードのうちの第１のノードと第２のノードとを接続し、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に、
前記画像を分析して、前記複数の人のうちの第２の人に向けられた前記第１の人からの相互作用を識別し、
前記識別された相互作用に基づいて前記グラフにおける前記第１のエッジを生成し、前記第１の人は前記第１のノードに関連づけられ、前記第２の人は前記第２のノードに関連づけられ、
前記第１のエッジのアテンション値を決定し、前記アテンション値は前記相互作用の度合いを反映し、
前記アテンション値を前記第１のエッジに割り当てる
ことをさせる命令を記憶する、請求項１３に記載の装置。
前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に、
前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定し、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含む、ことをさせる命令を記憶する、請求項１４に記載の装置。
前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する、請求項１０に記載の装置。
前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に、
前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定し、
前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定し、
前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力し、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する
ことをさせる命令を記憶する、請求項１０に記載の装置。
画像に示される複数の人のうちの第１の人の行先特徴を記述する第１の特徴ベクトルを決定する手段と、
前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成する手段と、
前記第１の人について、前記有向グラフ及び前記行先特徴に基づいて第２の特徴ベクトルを決定する手段と、
学習された事前分布から潜在変数の値をサンプリングする手段であり、前記潜在変数は第１の時間間隔に対応する、手段と、
前記サンプリングされた値及び前記特徴ベクトルに基づいて、階層的長短期記憶（ＬＳＴＭ）により、前記第１の時間間隔の後の第２の時間間隔における前記第１の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する手段と、
を含む装置。
前記第１の特徴ベクトルは、前記第１の時間間隔における前記人の位置と前記第１の時間間隔における前記人の速度とを含む入力に基づいて第１のニューラルネットワークにより決定され、前記第１の時間間隔における前記人の速度は、前記第１の時間間隔における前記人の位置と第３の時間間隔における前記第１の人の位置とに基づき、前記第３の時間間隔は、前記第１の時間間隔より前である、請求項１８に記載の装置。
前記第１及び第３の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第１の人について生成された複数の出力ベクトルのうちの１つである、請求項１９に記載の装置。
前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの２つを接続し、前記隣接行列は、エッジが前記ノードのうちの２つを接続しているかどうかを反映する、請求項１９に記載の装置。
前記複数のエッジのうちの第１のエッジは、前記複数のノードのうちの第１のノードと第２のノードとを接続し、当該装置は、
前記画像を分析して、前記複数の人のうちの第２の人に向けられた前記第１の人からの相互作用を識別する手段と、
前記識別された相互作用に基づいて前記グラフにおける前記第１のエッジを生成する手段であり、前記第１の人は前記第１のノードに関連づけられ、前記第２の人は前記第２のノードに関連づけられる、手段と、
前記第１のエッジのアテンション値を決定する手段であり、前記アテンション値は前記相互作用の度合いを反映する、手段と、
前記アテンション値を前記第１のエッジに割り当てる手段と、
をさらに含む、請求項２１に記載の装置。
前記第１のエッジを表すメッセージに基づいて前記第１のニューラルネットワークにより前記第２の特徴ベクトルを決定する手段であり、前記メッセージは、要素ごとの乗算演算子が前記第１のニューラルネットワークにより前記第１のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含む、手段、をさらに含む請求項２２に記載の装置。
前記階層的ＬＳＴＭは、第１のＬＳＴＭと第２のＬＳＴＭとを含む少なくとも２つのＬＳＴＭを含み、前記第１のＬＳＴＭは、前記潜在変数の値と前記第２の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記第１のＬＳＴＭの出力と前記第１の特徴ベクトルとを入力として受け取り、前記第２のＬＳＴＭは、前記出力ベクトルを生成する、請求項１８に記載の装置。
前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定する手段と、
前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第１の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定する手段と、
前記第１の人又は前記自律車両の少なくとも１つに前記衝突の指標を出力する手段と、
前記自律車両のナビゲーションロジックにより、前記衝突の指標を受信する手段と、
前記ナビゲーションロジックにより、前記衝突を回避するために前記自律車両の動きを修正する手段と、
をさらに含む請求項１８に記載の装置。
請求項１乃至９のうちいずれか１項に記載のコンピュータプログラムを記憶したコンピュータ読取可能記憶媒体。