JP2023501039A - ソーシャルグラフネットワークを用いた確率的軌道予測 - Google Patents
ソーシャルグラフネットワークを用いた確率的軌道予測 Download PDFInfo
- Publication number
- JP2023501039A JP2023501039A JP2022508777A JP2022508777A JP2023501039A JP 2023501039 A JP2023501039 A JP 2023501039A JP 2022508777 A JP2022508777 A JP 2022508777A JP 2022508777 A JP2022508777 A JP 2022508777A JP 2023501039 A JP2023501039 A JP 2023501039A
- Authority
- JP
- Japan
- Prior art keywords
- person
- time interval
- image
- lstm
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 219
- 230000033001 locomotion Effects 0.000 claims abstract description 100
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 75
- 238000003860 storage Methods 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 230000003993 interaction Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 abstract description 26
- 230000006403 short-term memory Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 25
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000003997 social interaction Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000001994 activation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000005294 ferromagnetic effect Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 235000012431 wafers Nutrition 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- FMFKNGWZEQOWNK-UHFFFAOYSA-N 1-butoxypropan-2-yl 2-(2,4,5-trichlorophenoxy)propanoate Chemical compound CCCCOCC(C)OC(=O)C(C)OC1=CC(Cl)=C(Cl)C=C1Cl FMFKNGWZEQOWNK-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000026058 directional locomotion Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 230000008566 social perception Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
ソーシャルグラフネットワークを用いて確率的軌道予測を提供するシステム、方法、装置、及びコンピュータプログラム製品である。動作は、画像内に示される第1の人の行先特徴を記述する第1の特徴ベクトルを決定することと、画像内に示される全ての人に基づいて画像の有向グラフを生成することと、第1の人について、有向グラフ及び行先特徴に基づいて第2の特徴ベクトルを決定することと、学習された事前分布から潜在変数の値をサンプリングすることであり、潜在変数は第1の時間間隔に対応することと、サンプリングされた値及び特徴ベクトルに基づいて、プロセッサ上で実行される階層的長短期記憶(LSTM)により、第1の時間間隔の後の第2の時間間隔における第1の人の動きの方向と該動きの方向の速度とを含む出力ベクトルを生成することを含むことができる。
Description
人、車両、又は他の対象の将来の位置をプログラム的に予測することは、将来の動きの不確実性及び/又はあいまいさのため、困難である。例えば、交差点に近づいたり建物を出たりする歩行者は、いつでも、いくつもの異なる方向に移動する可能性がある。さらに、種々の外部要因が、歩行者によりとられる経路に影響を与える可能性がある。したがって、自律車両、ロボット、ドローン等などの異なる適用における動きを正確に予測することは困難である。様々なコンピュータビジョンアルゴリズム(例えば、オブジェクト検出、オブジェクト追跡など)に必要とされる時間と計算リソースの量を考慮すると、より少ないリソースを使用して将来の位置をより正確に予測する能力は、衝突防止において有意な改善を提供し得る。
本明細書に開示される実施形態は、ソーシャルグラフ(social graphs)と、社会的相互作用(social interaction)パターンの不確実性をモデル化する時間的確率的方法を用いて、1つ以上の画像に示される人の有りうる将来の動きを正確に予測する技術を提供する。一般に、ソーシャルグラフは、非対称的なペアごとの関係をモデル化することができ、ソーシャルグラフネットワークは、画像及び/又はソーシャルグラフから2つのタイプの特徴を抽出することができる。2つのタイプの特徴には、個々の行先指向の(destination-oriented)特徴(例えば、人の行先に関連する特徴)及び/又は社会的認識の特徴(例えば、人間の相互作用を記述する特徴)が含まれ得る。ソーシャルグラフは、画像内に示される人々の位置と、この人々の移動の速度を所与として、複数の時間間隔の各々で更新される有向グラフを含むことができる。同様に、画像に示される2人以上の人の間の社会的相互作用における不確実性をモデル化する時間的確率的方法は、各時間間隔において更新され得る。一般に、各時間間隔において、時間的確率的方法は、学習された事前確率(prior)(時間にわたって変化し得る)から潜在変数をサンプリングし、サンプリングされた潜在変数を使用して多様な予測を生成することができる。全ての行先指向の、及び/又は社会的にもっともらしいパスを生成するために、時間的確率的方法は、階層的長短期記憶(long short-term memory、LSTM)を利用して、人が次にどこに移動し得るかを漸進的に予測することができる。
有利には、本明細書に開示される実施形態は、画像に示される人の動きをより正確に予測する技術を提供する。そうすることで、人がどこに移動しているかを予測する異なるコンピューティングシステムの安全性と信頼性を改善し得る。例えば、本開示の技術を用いて、コンピューティングシステムは、画像内に示される1以上の歩行者の将来の位置をより正確に決定することができる。自律車両は、位置データを使用して、自律車両と歩行者の1以上との間で将来の衝突が発生する可能性があると決定することができる。次いで、自律車両は、例えば、歩行者に出力される警報を生成すること(例えば、自律車両のホーンを鳴らすこと)及び/又は自律車両の動きを変更すること(例えば、減速すること、方向を変更すること、及び/又は停止すること)により、歩行者との衝突を回避する動作を実行することができる。実施形態は、この文脈に限定されない。
本明細書で使用される表記法及び命名法を一般的に参照すると、以下の詳細な説明の1つ以上の部分は、コンピュータ又はコンピュータのネットワーク上で実行されるプログラム手順の観点から提示され得る。これらの手順的な説明及び表現は、当業者により、その作業の実体を他の当業者に最も効果的に伝達するために使用されている。手順はここで、及び一般的に、望ましい結果を導く自己矛盾のない動作シーケンスであると考えられる。これらの動作は、物理的数量の物理的操作を必要とするものである。必ずではないが、通常、これらの数量は、記憶、転送、結合、比較、及びその他の方法で操作することができる電気的、磁気的、又は光学的信号の形態をとる。主として一般的な使用の理由で、これらの信号をビット、値、要素、シンボル、文字、用語、数字などと呼ぶことは時に便利であるとわかっている。しかしながら、これら及び類似の用語は、適切な物理的数量に関連づけられるべきであり、これらの数量に適用される簡便なラベルに過ぎないことに留意されたい。
さらに、これらの操作は、しばしば、人間のオペレータにより実行される精神的操作に通常関連づけられる、追加又は比較などの用語で参照される。しかしながら、人間のオペレータのこのような能力は、1つ以上の実施形態の一部を形成する本明細書に記載される動作のいずれにおいても必要でなく、ほとんどの場合、望まれるものでもない。むしろ、これらの操作は機械的な動作である。様々な実施形態の動作を実行する有用なマシンには、本明細書の教示に従って書かれた、内部に記憶されたコンピュータプログラムにより選択的に活性化又は構成される汎用デジタルコンピュータが含まれ、かつ/あるいは必要な目的のために特別に構築された装置が含まれる。また、様々な実施形態は、これらの動作を実行する装置又はシステムに関する。これらの装置は、必要な目的のために特別に構築されてもよく、あるいは汎用コンピュータを含んでもよい。様々なこれらのマシンの必要な構造は、与えられる説明から明らかであろう。
次に、図面が参照され、同様の参照番号は、全体を通して同様の要素を参照するために使用される。以下の記載では、説明の目的で、その十分な理解を提供するために多くの特定の詳細が記載されている。しかしながら、新規の実施形態は、これらの特定の詳細なく実施できることが明らかであろう。他の例では、周知の構造及び装置は、その説明を容易にするためにブロック図形式で示されている。この意図は、特許請求の範囲内の全ての修正、同等物、及び代替をカバーすることである。
図1は、ソーシャルグラフネットワークを使用して確率的軌道予測を提供するコンピューティングシステム100の一実施形態を示す。コンピューティングシステム100は、サーバ、ワークステーション、ラップトップ、モバイルデバイス、又は仮想化コンピューティングシステムなどの任意のタイプのコンピューティングシステムであってよい。例えば、システム100は、ディープラーニングアクセラレータカード、ディープラーニングアクセラレーションを有するプロセッサ、ニューラルコンピュートスティック(neural compute stick)等などの組み込みシステムでもよい。いくつかの例において、システム100は、システムオンチップ(SoC)を含み、他の実施形態において、システム100は、2つ以上のディスクリートコンポーネントを有するプリント回路板又はチップパッケージを含む。システム100は、少なくともプロセッサ101、メモリ102、及び1つ以上の画像捕捉デバイス103を含む。図1に示されるコンピューティングシステム100の構成は、本開示が他の構成に適用可能であるため、本開示を限定するものとみなされるべきではない。プロセッサ101は、中央処理装置、グラフィックス処理ユニット、又はその他の任意の処理ユニットなどの、任意のタイプのコンピュータプロセッサ回路を表す。さらに、プロセッサの1つ以上は、複数のプロセッサ、マルチスレッドプロセッサ、マルチコアプロセッサ(複数のコアが同じダイ上に共存するか別個のダイ上に共存するかを問わない)、及び/又は複数の物理的に別個のプロセッサが何らかの方法でリンクされる何らかの他の種類のマルチプロセッサアーキテクチャを含んでもよい。1つのコンピューティングシステム100が示されているが、複数のコンピューティングシステム100が通信ネットワークを介して通信上結合されてもよい。
メモリ102は、任意のタイプの情報記憶技術を表し、これには、電力の不断の供給を必要とする揮発性技術が含まれ、取り外し可能でもそうでなくてもよいマシン読取可能記憶媒体の使用を必要とする技術が含まれる。したがって、メモリ102は、広範なタイプの記憶デバイスのいずれか(又は、タイプの組み合わせ)を含むことができ、これには、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、ダイナミックラム(DRAM)、ダブルデータレートDRAM(DDR-DRAM)、同期DRAM(SDRAM)、スタティックRAM(SRAM)、プログラマブルROM(PROM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリ、ポリマーメモリ(例えば、強誘電体ポリマーメモリ)、オボニックメモリ、相変化又は強誘電体メモリ、SONOS(silicon-oxide-nitride-oxide-silicon)メモリ、磁気又は光学カード、1つ以上の個々の強磁性ディスクドライブ、又は1つ以上のアレイに編成された複数の記憶デバイス(例えば、独立ディスクの冗長アレイ(Redundant Array of Independent Disks)のアレイ又はRAIDアレイに編成された複数の強磁性ディスクドライブ)が限定なく含まれる。メモリ102は、単一のブロックとして示されているが、メモリ102は、異なる記憶技術に基づき得る複数の記憶デバイスを含んでもよいことに留意されたい。したがって、例えば、メモリ102は、プログラム及び/又はデータが何らかの形態のマシン読取可能記憶媒体上で記憶及び伝達され得るための光学ドライブ又はフラッシュメモリカードリーダと、比較的長い期間の間プログラム及び/又はデータをローカルに記憶する強磁性ディスクドライブと、プログラム及び/又はデータへの比較的迅速なアクセスを可能にする1つ以上の揮発性ソリッドステートメモリデバイス(例えば、SRAM又はDRAM)との組み合わせを表すことができる。また、メモリ102は、同一の記憶技術に基づいて複数の記憶コンポーネントから構成されてもよいが、使用法の特化の結果として別個に維持されてもよいことに留意されたい(例えば、いくつかのDRAMデバイスは主記憶装置として利用されるが、他のDRAMデバイスはグラフィックスコントローラの区別可能なフレームバッファとして利用される)。
画像捕捉デバイス103は、環境を示す画像データを捕捉する任意のタイプのデバイスを表す。画像捕捉デバイス103の一例には、環境を示すデジタル画像(例えば、カラー画像、白黒画像、グレイスケール画像、X線画像、赤外画像など)を捕捉するように構成された画像センサを有するカメラが含まれる。環境は、交差点、街路、歩道、水路、空域、部屋、廊下、建物の床などの、任意の現実世界の環境及び/又はその一部であってよい。しばしば、環境は混雑しており、多くの人々が所定の画像内に示される可能性がある。コンピューティングシステム100のコンポーネントとして示されているが、画像捕捉デバイス103は、コンピューティングシステム100の外部にあってもよい。このような例において、画像捕捉デバイス103は、環境の画像を捕捉し、以下により詳細に説明される処理のために画像をコンピューティングシステム100に(例えば、通信ネットワークを介して)提供するように構成された、1つ以上のカメラ(例えば、監視カメラ)を表すことができる。しかしながら、別の例として、監視カメラが、システム100のコンポーネントを含んでもよく、このコンポーネントが、捕捉された画像を、以下により詳細に説明されるように処理してもよい。
少なくとも1つの実施形態において、コンピューティングシステム100は、部分的及び/又は完全に自律的な移動が可能な自律車両、ドローン、ロボット、又は他のデバイス(集合的に、本明細書において自律車両(autonomous vehicles)と呼ばれる)のコンポーネントである(かつ/あるいは、それらに通信上結合される)。このような例において、ナビゲーションロジック112は、自律車両の動きの少なくとも一部をプログラム的に制御することができる。さらに、ナビゲーションロジック112は、画像捕捉デバイス103により捕捉された画像の処理に基づく、軌道モジュール104からの信号を受け取ることができる。例えば、軌道モジュール104は、画像に示される歩行者との間で衝突が発生する可能性がある(例えば、可能性(likelihood)の閾値レベルを超えている)と決定することができる。このような例において、ナビゲーションロジック112は、自律車両の動きを修正することができる(例えば、移動方向を変更する、移動スピードを変更する、移動を停止する等)。同様に、軌道モジュール104及び/又はナビゲーションロジック112は、警告信号を出力することができる(例えば、自律車両のホーンを鳴らす、自律車両から光信号を発する等)。より一般的には、実装にかかわらず、軌道モジュール104は、オーディオ信号、視覚信号、及び/又はデータ信号を含む警告信号を出力することができる。例えば、監視カメラに統合されると、軌道モジュール104は、スピーカを介してオーディオ信号を発し、ビーコンを介して光信号を発し、かつ/あるいは無線ネットワークを介してデータ信号を近くの自律車両の軌道モジュール104及び/又はナビゲーションロジック112に送信することができる。
図示のように、メモリ102は、軌道モジュール104、訓練データ105、1つ以上のコンピュータビジョン(CV)アルゴリズム106、及びナビゲーションロジック112を含む。メモリ102に存在するものとして示されているが、軌道モジュール104、訓練データ105、CVアルゴリズム106、及びナビゲーションロジック112は、ハードウェア、ソフトウェア、及び/又はハードウェアとソフトウェアの組み合わせとして実装されてもよい。例えば、プロセッサ101は、軌道モジュール104の命令114を実行して、本明細書に記載される軌道モジュール104の機能性を実行することができる。同様に、プロセッサ101は、CVアルゴリズム106及び/又はナビゲーションロジック102の命令(図示せず)を実行してもよい。いくつかの実施形態において、軌道モジュール104は、CVアルゴリズム106及び/又はナビゲーションロジック112のコンポーネントでもよい。
軌道モジュール104は、一般に、1つ以上の画像、例えば、画像捕捉デバイス103により捕捉された画像、及び/又は別のソースから受信した画像に示される対象(objects)の、予測された動きを反映する出力を生成するように構成される。本明細書では、対象の参照例として人が用いられるが、本開示は、自律車両、ロボット、動物等などの他のタイプの対象の動きを予測することに適用可能である。一般に、人間の移動を予測することは、CVアルゴリズム106(又は、他のコンピューティングシステム)にとって困難なタスクであり、なぜならば、人間の移動は、複雑な人間の社会的相互作用行動、及び/又は人間の移動のランダムな性質により影響され得るためである。例えば、道路を歩いている人は、自分の前を歩いている別の人を追い越すために、左に動き、かつ/あるいは右に動く可能性がある。有利には、本明細書に開示される実施形態は、画像に示される人間の相互作用を捕捉するために1つ以上のソーシャルグラフ107を、画像及び/又はソーシャルグラフ107から特徴を抽出するためにソーシャルネットワーク113を、個々の情報及び相互作用情報の双方をエンコードする現在の状態を条件とした潜在変数を生成及びサンプリングするために1つ以上の確率モデル108を、画像に示される人の動きを予測するために1つ以上のデコーダモデル109を利用することにより、これらの問題に対処する。人間の(又は、社会的な)相互作用のタイプには、これらに限られないが、画像に示される2人以上の人の間の距離、及び/又は、ある人が画像内の別の人を考慮して(in view of)いるかどうか(例えば、2人の人に関連づけられたベクトルが交わるかどうかに基づく)を含むことができる。確率モデル108、デコーダモデル109、及び/又はソーシャルネットワーク113は、ニューラルネットワークなどの任意のタイプの計算モデルでもよい。本明細書における確率モデル108、デコーダモデル109、及び/又はソーシャルネットワーク113の参照例としてのニューラルネットワークの使用は、本開示が本明細書に記載される動作を実行するように訓練できる全てのタイプの計算モデルに適用可能であるため、本開示を限定するものではない。
所与の画像(例えば、画像捕捉デバイス103により捕捉された画像、及び/又は訓練データ105内の画像)について、N人の人が画像内に示され得、Nは正の整数である。時間間隔tにおいて画像内に示される第jの人の空間的位置は、p(j,t)=(x(j,t),y(j,t))として表すことができ、ここで、x及びyは、2次元世界空間の(x,y)座標であり、0≦j≦Nである。2次元世界空間における座標は、メートル、センチメートル、インチ、フィートなどの任意の距離尺度に基づくことができる。そうすることにより、軌道モジュール104は、絶対的な動きに基づいて訓練及び/又はテストすることができ、一方、画像のピクセル空間における動きは、画像捕捉デバイス103のパラメータ(例えば、焦点距離など)に基づいて変化してもよい。したがって、軌道モジュール104(又は、その任意のコンポーネント)は、画像捕捉デバイス103の既知のパラメータを所与として、画像座標を対応する現実世界の座標(例えば、メートル、センチメートル)に変換することができる。したがって、Tobsとして表される、前に観測された画像(例えば、N人の人のうちの1以上を示す、前の時間間隔に捕捉された画像)と、{p(j,t), j=1,...N; t=1,...,Tobs}により示される軌道履歴を所与として、全てのN人の軌道を予測することができ、例えば、{p(j,t), j=1,...N; t=Tobs+1,....T}である。軌道履歴は、各時間間隔において軌道モジュール104により記憶装置に記憶することができる。
ソーシャルグラフ107は、対応する時間間隔において画像捕捉デバイス103により捕捉された画像内に示される人々の現在の位置及び速度に基づいて、異なる時間間隔(例えば、1秒間隔、2秒間隔など)で生成される有向グラフである。一般に、画像捕捉デバイス103は、周期的な時間間隔で画像を捕捉することができ、ソーシャルグラフ107は、対応する時間間隔において画像内に示される人々の間のペアごとの(pairwise)社会的関係を反映するように生成することができる。捕捉された画像の分析に基づいて、軌道モジュール104は、画像内の人を識別し、人の現在位置を決定し、各識別された人の軌道履歴を(例えば、画像のメタデータとして、及び/又は別個のデータストア内で)更新することができる。軌道履歴は、各時間間隔における各人の実際の動きを反映することができ、各時間間隔における動きの方向及び/又は速度を反映するベクトルを含むことができる。各時間間隔における各人の移動は、その人を示す、画像捕捉デバイス103により捕捉されたそれぞれの画像に基づいてもよい。
1つ以上の実施形態において、ソーシャルグラフ107は、有向グラフG=(N;E;A)でもよく、ここで、Nは、複数のグラフノードであり、Eは、2つのノードを接続する1つ以上のグラフエッジであり、Aは、非対称隣接行列である。所与の画像(これは、人を識別し、動きを決定し、ある人が別の人を考慮していると決定し、相互作用、相互作用のタイプ等を識別するために、CVアルゴリズム106により分析され得る)に基づいて、各歩行者は、ソーシャルグラフ107内のノード(nj∈N)に割り当てられ、隣接行列エントリaij=1のとき、第iの人から第jの人へリンクするエッジeij=(ni,nj)∈Eが存在する。一般に、各時間間隔において、対応する画像に示される各人の現在の位置及びスピード方向は、別の人がその人を考慮しているかどうかを決定し、対応する時間間隔のソーシャルグラフ107を生成するために使用される。例えば、CVアルゴリズム106及び/又は軌道モジュール104は、第1の人から放射された1つ以上の線(ray)が画像内の第2の人と交差するかどうかを決定して、第2の人が所与の時間間隔において第1の人を考慮しているかどうかを決定することができる。軌道モジュール104が、人が視界内に(in view)いると決定した場合、軌道モジュール104は、この時間間隔のためのソーシャルグラフ107内に、対応するノードを接続するエッジを追加することができる。しかしながら、後の時間間隔において、第1の人と第2の人がもはや互いを考慮していない場合、後の時間間隔のためのソーシャルグラフ107は、第1の人と第2の人とを接続するエッジを含まない。したがって、ソーシャルグラフ107は、人々の相対的位置が複数の画像にわたって変化するとき、動的に変更される。
次に、軌道モジュール104は、ソーシャルグラフ107及び/又は画像に基づいてソーシャルグラフネットワーク113を使用して、画像及び/又は画像に示されるN人の人を記述する2つのタイプの特徴を決定する(又は、抽出する)ことができる。例えば、プロセッサ101は、軌道モジュール104の命令114を実行して、ソーシャルグラフネットワーク113及びソーシャルグラフ107に基づいて画像から特徴を抽出することができる。第1のタイプの特徴は、f(D)で示され得る個々の行先特徴でもよい。個々の行先特徴は、所与の人の行先、例えば、その人の行先の役割を果たす画像内のターゲット領域、及び/又はその任意の属性を一般的に記述することができる。より一般的には、個々の特徴は、(x,y)座標における各人の現在位置、(x,y)座標における各時間間隔での人の軌道履歴などをさらに含むことができる。さらに、行先指向の特徴及び社会的特徴をエンコードする第2のタイプの特徴が決定され得る。第2のタイプの特徴は、f(S)として表すことができ、人の現在位置、人の軌道履歴、人が別の人とやりとりしているかどうか、人が別の人と歩いているかどうかなどを反映することができる。一実施形態において、特徴ベクトルf(D)、f(S)は、32次元(例えば、32個の異なる特徴に対する値)を有するベクトルでもよい。
個々の特徴f(D)について、ソーシャルグラフネットワーク113は、入力としての人の(x,y)座標pj,tと人の速度vj,t=pj,t-pj,t-1とを連結する(concatenate)ために、正規化線形ユニット(rectified linear unit、ReLU)を有する1層の多層パーセプトロン(multi-layer perceptron、MLP)(例えば、ニューラルネットワーク)を含むことができる。言い換えると、時間間隔tにおける人jの個々の特徴f(D)は、以下の式1に従って決定され得る。
式1において、(Wd,bd)は、それぞれ、ソーシャルグラフネットワーク113の重み及びバイアスパラメータであり、vj,tは、上述のように、人の速度(少なくとも2つの時間間隔にわたって決定される)に対応する。したがって、式1は、各人の現在位置、各人の少なくとも1つの事前位置、及び各人の速度に基づいて特徴を抽出する。本明細書における全ての残りの式において、時間間隔のための添字tは、明りょうさのために省略される。
上述のように、ソーシャルグラフネットワーク113は、個々の行先特徴(例えば、f(D))と、画像内に示される2人以上の人の間の社会的相互作用の双方を捕捉する特徴f(S)を決定することができる。一実施形態において、ソーシャルグラフネットワーク113は、ソーシャルグラフ107から自己ループを除去することにより残りの分岐におけるペアごとの社会的相互作用を徐々に学習するResNet様の構造を提供する。形式的には、第jの歩行者についての特徴をエンコードするためのソーシャルグラフネットワーク113の第Lの層の出力は、式2により示され得る。
式2では、初期化においてfj
(0)=fj
(D)であり、Mijは、ソーシャルグラフ107内で人iから人jに渡されるメッセージに対応し、(Wi,bi)は、入力のReLU付きMLPのための重み及びバイアスパラメータを示し、(Wg,bg)は、グローバルのReLU付きMLPのための重み及びバイアスパラメータを示す。メッセージは、例えば、人iが何らかの方法で人jと相互作用した(及び/又は、人jを考慮している)という、第1のエッジを一般に表すことができる。ベクトルf(S)を計算するためのソーシャルグラフネットワーク113への入力xij
Lは、式3により示され得る。
式3において、Polarpj(pi)は、pjの原点を有するローカル極座標に対応する。極座標は、2人の人の間の距離及び/又は2人の人の間の線の角度を一般に表すことができる。メッセージMijは、以下の式4に基づいて決定されてもよい。
式4において、αij
Lは、ソーシャルグラフ107のエッジeijに適用されるスカラーアテンション値(attention value)であり、gは、ソーシャルゲートであり、
は、要素ごとの乗算演算子(element-wise multiplication operator)である。スカラーアテンション値αij
Lは、相互作用の度合い、例えば、2人の人が互いに対してどれほど近いか、ある人が別の人を考慮している度合いなどを表すことができる。一般に、式4は、式3から各時間間隔で関連する特徴を抽出するためのフィルタの役割を果たす。有利には、アテンション値αij
Lは各エッジの相対的な重要度を測定し、一方、ソーシャルゲートは要素ごとの特徴選択器として作用する。
一般に、アテンション値αij
lは、ソーシャルグラフ107及び各人の位置に適用される重みに基づいて抽出された特徴により反映される、人iが人jに与えているアテンションの度合いを反映する。言い換えると、アテンション値αij
lは、2人の人の間の距離及び/又は各人の動きの方向に基づくことができる。したがって、例えば、式5は、2人の人が互いに遠く離れているとき計算されるアテンション値αij
lと比べて、2人の人が互いに近いときにより大きいアテンション値αij
lを計算し得る。
式6において、(Ws,bs)は、それぞれ、ソーシャルゲートの重みパラメータとバイアスパラメータに対応する。図に示すように、ソーシャルゲートは、要素ごとのアテンション値を生成するためにシグモイド関数を使用してもよい。一般に、特徴ベクトルは、複数の次元(例えば、複数の特徴のうちの各特徴についての次元)を有することができる。しかしながら、特徴ベクトルのどの次元又は要素が重要であるか(又は、関連するか)を決定することは困難であり得る。したがって、ソーシャルグラフネットワーク113は、特徴ベクトルにフィルタ(例えば、ソーシャルゲートの要素ごとの乗算演算)を適用し、ベクトルf(S)を生成することができる。少なくとも1つの実施形態において、特徴ベクトルf(S)は、ソーシャルグラフネットワーク113の最後の層の出力である。
確率モデル108は、各人についてのベクトルf(D)、f(S)をエンコードするため、及び、各時間間隔で加算される、f(S)を条件とした変数ztの値として使用される潜在変数φをサンプリングするために、1つ以上のLSTM110を含む。LSTMは、セル、入力ゲート、出力ゲート、及び忘却ゲートを含む人工リカレントニューラルネットワーク(recurrent neural network、RNN)アーキテクチャでもよい。セルは、ある時間間隔にわたって値を記憶することができ、一方、ゲートは、セルに出入りする情報の流れを調節する。確率モデル108は、以下の式7~式8に従って潜在変数をサンプリングすることができる。
したがって、示された例では、確率モデル108は、2つのLSTM110、すなわち、式7における事前(prior)LSTMΨ(ft-1
S)と、式8における事後(posterior)LSTMφ(ft
S)を含むことができる。しかしながら、確率モデル108は、任意の数のLSTMS110を含んでもよく、2つのLSTMの使用は、本開示を限定するものとみなされるべきではない。式7の事前LSTMΨ(ft-1
S)は、ガウス平均及び分散に対応することができ、式8の事後LSTMφ(ft
S)は、ガウス平均及び分散に対応することができる。一般に、訓練の間、事前LSTMΨ(ft-1
S)のガウス分布(例えば、平均及び分散)は、事後LSTMφ(ft
S)のガウス分布に近づくように精緻化される。ひとたび分布が閾値の類似度合いに達すると、事前LSTMΨ(ft-1
S)の事前分布は、事後LSTMφ(ft
S)の事後分布に取って代わることができる。したがって、確率モデル108は、訓練の間、事後LSTMφ(ft
S)のガウス分布に基づいて潜在変数をサンプリングすることができ、テスト(又はランタイム、又は推論)動作の間、事前LSTMΨ(ft-1
S)のガウス分布をサンプリングすることができる。事前LSTMΨ(ft-1
S)は、一般に、再帰的隠れ状態を有する人の過去の軌道データに基づいて学習され得る。過去の軌道データは、各時間間隔における人の動きの方向及びスピードを記述するベクトルを含むことができる。事後LSTMφ(ft
S)は、現在の時間間隔のシーンをエンコードする。上述のように、事前LSTMΨ(ft-1
S)は、不確実な社会的相互作用を捕捉するために、事後LSTMφ(ft
S)に近づくように訓練される。
デコーダモデル109は、一般に、時間間隔tにおける画像に示される所与の人の動きを予測するための出力を生成するように構成される。一実施形態において、デコーダモデル109は、階層的LSTM111を利用して、漸進的に特徴ベクトルをデコードし、各人の位置のオフセット(例えば、出力ベクトル)を予測する。デコーダモデル109により生成される出力は、動きの方向及び/又はスピードを伝達するのに適した任意の形式をとることができる。例えば、一実施形態において、予測された動きは、動きの速度及び方向(例えば、メートル毎秒の速度での(x,y)方向の移動)を示すベクトルを含んでもよい。しかしながら、訓練の間、デコーダモデル109への入力は、前の画像のグラウンドトゥルースデータ(例えば、人の実際の動き)を含んでもよい。階層的LSTM111は、異なる入力を有する2つのLSTMをスタックした、LSTMθにより表される生成LSTMでもよい。第1のLSTM111-1は、社会的反応を予測するために社会的入力(例えば、特徴ベクトルf(S))を受け取ることができ、第2のLSTM(例えば、個々の行先特徴ベクトルf(D)のためのLSTM111-2)と組み合わせて、社会的に受け入れ可能及び行先指向の軌道を生成する。以下の式9は、デコーダモデル109により実行される動作を記述することができる。
式9において、ytは、デコーダモデル109の出力、例えば、サンプリングされた潜在変数zと各人についての特徴ベクトルf(D)、f(S)とに基づく、ある時間間隔における所与の人の動きの予測されたスピード及び方向を指定するベクトルに対応する。上述のように、出力ベクトルytは、任意の現実世界の測定単位であってよい。いくつかの実施形態において、デコーダモデル109は、画像内に示される各人のために、各人についての複数の異なる推定ベクトルを計算してもよい。そのような一実施形態において、デコーダモデル109のLSTMθは、平均及び分散を有するガウス分布に対応することができる。デコーダモデル109は、このガウス分布から各人のスピード及び/又は方向をサンプリングすることができる。
軌道モジュール104(確率モデル108、デコーダモデル109、ソーシャルグラフネットワーク113、及び/又はLSTM110~111の任意のパラメータを含む)は、変分下限(variational lower bound)「ELBO」を最大化することにより訓練され得る。一実施形態において、軌道モジュール104の訓練は、以下の式10に基づくことができる。
一般に、訓練は、逆伝搬動作の間に確率的勾配降下を用いて式10を最適化するために、再パラメータ化トリック(reparameterization trick)を使用する。訓練は、各示された人の軌道データと、各示された人が次にどこに移動したかを示すグラウンドトゥルースの将来の位置とに関連づけられた、訓練データ105内の複数の画像に基づくことができる。一実施形態において、軌道モジュール104は、各人の軌道座標を世界座標に変換し、変換された座標を補間して、周期的な間隔(例えば、0.5秒、1秒など)で座標をサンプリングする。したがって、各訓練画像について、軌道モジュール104は、各画像を分析し、ソーシャルグラフ107を生成する。次いで、ソーシャルネットワーク113は、特徴ベクトルf(D)、f(S)を抽出することができ、確率モデル108は、潜在変数をサンプリングすることができ、デコーダモデル109は、画像に示される各人の次の位置を予測することができる。次いで、重み、バイアス、活性化、及び任意の他の学習可能なパラメータ(例えば、モデル108~109、LSTM110~111、ソーシャルグラフネットワーク113等の)は、各人の予測された位置が各人のグラウンドトゥルース位置にどれほど近いか(例えば、デコーダモデル109により生成された予測位置の精度で)に基づいて、訓練の間に精緻化され得る。
精度は、平均変位誤差(average displacement error、ADE)及び/又は最終変位誤差(final displacement error、FDE)などの任意の実現可能なメトリックに基づくことができる。ADEは、全ての時間間隔にわたるグラウンドトゥルース座標と予測位置座標との間の平均化されたユークリッド距離に対応することができる。FDEは、シーンの最終画像内のグラウンドトゥルース座標と予測座標との間のユークリッド距離に対応することができる(例えば、人が5つの画像に示されている場合、予測位置は5つ目の画像に基づいて生成される)。式10のハイパーパラメータβの値は、再構成誤差とサンプル多様性のバランスに基づいてもよい。式10の左側は、予測結果とグラウンドトゥルースの間のl2の再構成損失(例えば、訓練データ105のグラウンドトゥルースにより反映される実際の位置に対する、デコーダモデル109の予測位置出力)に低減され得る。
ひとたび訓練されると、軌道モジュール104は、画像捕捉デバイス103により捕捉された画像に示される人々の将来の動きをより正確に予測することができる。例えば、画像がシーン内の10人の人を示す場合、軌道モジュール104は各人の動きを予測することができる。しかしながら、軌道モジュール104が、1人以上の人の予測された位置が安全でない状況をもたらす可能性がある(例えば、軌道モジュール104により生成された1つ以上のベクトルが自律車両の軌道に対応するベクトルと交差することに基づいて、自律車両、ロボット等との衝突をもたらす可能性がある)と決定した場合、軌道モジュール104は、任意の数の動作を実行することができる。例えば、軌道モジュール104は、1人以上の人の予測された位置をナビゲーションロジック112に提供することができ、ナビゲーションロジック112は、衝突を回避するために関連する自律車両の動きを修正することができる。別の例として、オーディオの及び/又は視覚的警報が軌道モジュール104により出力されて、起こり得る危険を人に警告してもよい。別の例として、予測された位置が衝突をもたらし得るかどうかを決定するために、軌道モジュール104は、衝突の可能性が衝突閾値を超えているかどうかを決定してもよい。衝突の可能性は、人及び/又は車両の予測された動きに基づくことができる。例えば、1人以上の人のためのベクトルが、車両のためのベクトルと交差すると決定された場合、軌道モジュール104は、衝突の可能性が衝突閾値を超えていると決定してもよい。いくつかの実施形態において、軌道モジュール104は、衝突の可能性を反映するスコアを計算してもよい。
図2は、一実施形態による、確率的軌道予測の一例を示す概略図200である。図示のように、概略図200は、1つ以上の画像に示される人204~206についての例示的な軌道履歴201~203を示す。図2の左側では、軌道履歴201~203は、例示的な時間間隔t-1における各人204~206の位置を含むことができる。一般に、軌道モジュール104は、次いで、時間間隔tにおける各人204~206の位置を予測することができ、時間間隔tは時間間隔t-1より後の時間である。
図示のように、特徴ベクトルf1,t-1
(D)、f2,t-1
(D)、f3,t-1
(D)が、例えば上記の式1に基づいて、各人204~206についてそれぞれ計算され得る。上述のように、これらの特徴ベクトルは、各人204~206がどこに向かって移動しているか、移動の速度、動きの事前履歴などの、行先ベースの特徴に対応することができる。抽出された特徴f1,t-1
(D)、f2,t-1
(D)、f3,t-1
(D)、及び/又は各画像の分析に基づいて、ソーシャルグラフ107が生成され得る。上述のように、ソーシャルグラフ107は、画像内で識別された各人をノードとして表す。2人の人が、何らかの方法で相互作用すると決定された場合、エッジが、ソーシャルグラフ107におけるこの2人を表すノードを接続することができる。
図2にさらに示されるように、特徴ベクトルf1,t-1
(S)、f2,t-1
(S)、f3,t-1
(S)が、画像、特徴ベクトルf1,t-1
(D)、f2,t-1
(D)、f3,t-1
(D)、及び/又はソーシャルグラフ107に基づいてソーシャルグラフネットワーク113により、各人204~206についてそれぞれ計算され得る。一般に、特徴ベクトルf1,t-1
(S)、f2,t-1
(S)、f3,t-1
(S)は、上記の式2~式6に従って計算されてもよく、行先指向の特徴及び社会的特徴(例えば、各人が1人以上の他の人と相互作用しているかどうか)を反映する。
各人204~206について、確率モデル108は、LSTM110-1を含み、対応する特徴ベクトルf(S)を入力として受け取り、上記の式7~式8に基づいて潜在変数zをサンプリングする。次いで、デコーダモデル109のLSTM111-1は、特徴ベクトルf(S)及びサンプリングされた潜在変数zを入力として受け取ることができる。次いで、LSTM111-1の出力は、特徴ベクトルf(D)と共に、デコーダモデル109のLSTM111-2への入力として提供され得る。次いで、デコーダモデル109は、各人の予測された動き(例えば、(x,y)座標の方向における移動のスピード)を反映するベクトル
を計算することができる。一実施形態において、ベクトルは、上記の式9に従って計算される。一般に、ベクトルは、各人の移動の方向(例えば、x方向及びy方向それぞれにおいて(2,5)単位)と方向移動の速度(例えば、n単位毎秒であり、nは任意の数値である)とを示す(x,y)座標を含むことができる。これらの演算は、将来の時間間隔(例えば、t+1、t+2、...、t+n)での動きを予測するために任意の回数繰り返されてもよい。
図3Aは、ソーシャルグラフ107の一例示的な表現を示す概略図300である。図示のように、図3Aは、4人の例示的な人301~304を示す。各人301~304は、ソーシャルグラフ107においてノードとして表され得る。エッジ306~314は、人301~304のうちの1人(例えば、人304)が人301~304のうちの異なる1人(例えば、人303)を考慮していることを反映しており、人304の将来のパスは、人303により影響される可能性がある。より一般的には、グラフ107におけるエッジの存在は、ペアごとの位置により決定される。したがって、人物Aが人物Bの前に(又は、人物Bを考慮して)いる場合、グラフ107における、人物Aから人物Bへのエッジが生成され得る。
例えば、エッジ306は、人302が人301を考慮していることを反映し、エッジ307は、人301が人302を考慮していることを反映している。相互作用が一方向であるとき、ソーシャルグラフ107内に単一のエッジのみが生成される。例えば、エッジ311は、人303が人301に注意を払っていることを反映し、人301から人303へのエッジがないことは、人301が人303と相互作用していないことを示している。
図3Bは、一例示的なソーシャルグラフネットワーク113を示す概略図320である。図3Bにおける人321~324は、図3Aに示される人301~304に対応し得る。図示のように、ソーシャルグラフネットワーク113は、2つのスタックされた層327、328を含み、層328の出力は、層327の出力に基づいて条件付けられる。例えば、層327は、前の時間間隔t=0に対応することができ、層328は、現在の時間間隔t=1に対応することができる。図示のように、層327への入力には、各人321~324についての特徴ベクトルfj
(0)(例えば、時間間隔t=0におけるfj
(S))が含まれる。層327、328は、自己ループ(例えば、同じ人の間のループ)を除去することにより、ReLUの残りの分岐における人321~324の間のペアごとの相互作用を学習する。一般に、層327、328の出力は、上記の式2に基づいて(式3~式6に従って実行されるさらなる演算を用いて)計算され得る。
図3Bに示す実施形態において、ソーシャルグラフネットワーク113の層327は、層327のソーシャルグラフ107-1を利用して、各人についてのさらなる特徴を抽出することができ、これは、加算演算子325を使用して入力特徴ベクトルfj
(0)に加算され、出力を生成することができる。加算演算子325の出力は、特徴ベクトルfj
(1)でもよく、これは、層328への入力として提供され得る。次いで、ソーシャルグラフ107-2から抽出された特徴は、加算演算子326を使用して特徴ベクトルfj
(1)に加算され、出力特徴ベクトルfj
(2)を生成することができる。
図3Cは、一実施形態による、軌道モジュール104により実行される例示的な動作を示す概略図330である。事前確率(Prior)フェーズ331は、式7を使用する条件付き事前確率zt348の計算を反映し、ここで、事前確率は、再帰的隠れ状態を有する各人の事前軌道に基づいて学習される。図3Cにおいて、LSTM350~355の「h」は、LSTM110~111のうちの1つ以上の隠れ状態を反映する。図示のように、条件付き事前確率は、LSTMグループ356(LSTM350~352を含む)により、時間間隔t-1における人の極座標336に基づいて計算される。LSTM350は、式7を適用して、条件付き事前確率zt348を学習することができる。
生成(generation)フェーズ332は、式9と時間t-1における位置336とに基づいて時間間隔tで画像に示される人の位置337を予測するためにデコーダモデル109により使用される生成機能を反映している。図示のように、人の事前位置336と、事前確率348からのサンプリングされた潜在変数ztは、LSTM351へ入力として提供され得、LSTM351は、人の予測位置337を出力する。上述のように、予測された位置337は、移動のスピード及び方向を示すベクトルでもよい。
リカレンスフェーズ333は、LSTMグループ347のLSTM353~355のリカレント隠れ状態hを更新する。一般に、図示のように、LSTM353~355の隠れ状態hは、LSTM350~352の事前状態h、時間t-1についての位置座標336、条件付き事前確率348からのサンプリング値、及び時間tについての位置座標337に基づいて更新される。
推論フェーズ334は、上記の式8に基づく潜在変数の推論を反映する。図示のように、潜在変数は、時間tについての位置データ337に基づいて推論される。全体フェーズ335は、フェーズ331~334の組み合わせであり、軌道モジュール104(及び/又は、そのコンポーネント)により実行される動作を反映することができる。
図4は、一例示的な画像400を示す。画像400は、画像捕捉デバイス103により捕捉されてもよく、かつ/あるいは別のソースから軌道モジュール104により受信されてもよい。CVアルゴリズム106は、画像400を分析して、その中の人401、402を識別することができる。上述のように、各人401、402について行先特徴ベクトルfj
(D)が計算され得る。同様に、画像400に対してソーシャルグラフ107が生成され得る。ソーシャルグラフ107は、人401、402をそれぞれのノードに割り当てることができ、エッジは、人401、402を表すノードを接続することができる。例えば、エッジは、人401、402が並んで歩いていること、人401、402が互いを考慮していること、人401、402が手をつないでいること、及び/又は人401、402のグラウンドトゥルース軌道405、406のうちの1つ以上に基づいて、人401、402を関連づけることができる。グラウンドトゥルース軌道405、406は、前の時間間隔における人401、402の実際のパスに対応することができる。次いで、ソーシャルネットワーク113は、各人401、402について特徴ベクトルfj
(S)を抽出することができ、確率モデル108は、学習された事前確率から潜在変数ztの値をサンプリングすることができる。
次いで、デコーダモデル109は、各人401、402について1つ以上の予測される軌道を計算することができる。図示のように、デコーダモデル109は、人401、402それぞれについて複数の軌道407、408を決定することができる。一般に、軌道407、408は、各人401、402についての推定された将来の移動を反映する。しかしながら、最も可能性の高い軌道403、404が、例えば、上記の式9を使用して計算されたガウス分布をサンプリングすることにより、最も起こりそうな軌道として返され得る。図示のように、人401、402の間の相互作用のため、デコーダモデル109は、この人々が一緒に移動し続ける可能性があることを反映して、関連する軌道403、404を計算する。
図5は、論理フロー500の一実施形態を示す。論理フロー500は、本明細書に記載される1つ以上の実施形態により実行される動作の一部又は全部を表すことができる。例えば、論理フロー500は、ソーシャルグラフネットワークを使用して確率的軌道予測を提供する動作の一部又は全部を表すことができる。実施形態は、この文脈において限定されない。
図示のように、ブロック510において、軌道モジュール104及び/又はそのコンポーネントの訓練が、訓練データ105に基づいて実行される。上述のように、訓練データ105は、環境内で動く人々を示す画像を含む。訓練データ105の各画像は、画像内の各人について、捕捉された画像の後の、人の実際の動きを反映するグラウンドトゥルースデータ(例えば、方向及びスピードを含むベクトル)を示すラベル(又は、他のタイプのメタデータ)を含んでもよい(例えば、人が、時間t=0でのこの人を示す画像の後、時間t=1で実際に動いた場合)。ブロック520において、訓練された軌道モジュール104は、画像捕捉デバイス103により捕捉された第1の画像を受け取ることができる。例えば、固定監視カメラが、周期的な時間間隔で環境の画像を捕捉してもよく、ブロック520で受け取った第1の画像は、環境の捕捉された画像の1つに対応することができる。
ブロック530において、軌道モジュール104及び/又はCVアルゴリズム106は、第1の画像に示される1人以上の人を識別することができる。例えば、人は、人間検出、追跡、識別アルゴリズムなどを用いて検出することができる。より一般的には、所与の画像内の人を識別するために、任意の実現可能な技術を使用してよい。ブロック540において、デコーダモデル109は、各人について複数のベクトルを計算することができ、各ベクトルは、各人の動きの予測されたスピード及び方向に対応する。少なくとも1つの実施形態において、デコーダモデル109は、人がとることになる動きの最も可能性のある進路として、複数のベクトルのうちの第1のベクトルを返すことができる。一実施形態において、第1のベクトルは、式9に基づいて生成される学習された事前分布をサンプリングすることにより返される。
ブロック550において、軌道モジュール104は、ブロック540で計算された出力ベクトルのうちの1つ以上が自律車両の動きを反映する軌道ベクトルと交差すると決定することができる。ベクトルが環境内の1つ以上の点で交差する場合、軌道モジュール104は、出力ベクトルに関連づけられた人と自律車両との間で衝突が発生し得ると決定することができる。いくつかの実施形態において、軌道モジュール104は、例えば、衝突の可能性を反映するスコアを計算することにより、衝突の可能性が衝突閾値を超えていると決定することができ、スコアは、ベクトルが交差するかどうかに基づく。一実施形態において、自律車両は、第1の画像内に示され得る。このような例において、軌道モジュール104は、自律車両を示す事前画像、自律車両の移動の方向等に基づいて、自律車両の予測される動きを決定することができる。他の実施形態において、コンピューティングシステム100は、自律車両のコンポーネントでもよい。そのような実施形態において、ナビゲーションロジック112は、自律車両の予測された動きを提供することができる。次いで、軌道モジュール104及び/又はナビゲーションロジック112は、ブロック540で計算されたベクトルを自律車両の予想された動きと比較して、ベクトルが交差し得るかどうかを決定することができる。
ブロック560において、第1の画像に示される自律車両と1人以上の人との間で衝突が発生し得るという決定に基づいて、予め定義された動作が実行され得る。例えば、第1の人の最も可能性のある動きを反映する第1の人のための第1のベクトルが、第1の自律車両との間で衝突が発生し得ることを示す場合、第1の自律車両について第1の人及び/又はナビゲーションロジック112に警告するための警報が生成されてもよい。言い換えると、予め定義された動作は、衝突の可能性が衝突閾値を超えているという決定に基づいて実行され得る。そうすることにより、ナビゲーションロジック112は、衝突を回避するために自律車両の動きを変える(例えば、減速する、停止する、曲がる等)ことができる。
図6は、論理フロー600の一実施形態を示す。論理フロー600は、本明細書に記載される1つ以上の実施形態により実行される動作の一部又は全部を表すことができる。例えば、論理フロー600は、軌道モジュール104を訓練する動作の一部又は全部を表すことができる。実施形態は、この文脈において限定されない。
図示のように、ブロック610において、訓練データ105が、軌道モジュール104により受け取られ得る。訓練データ105は、異なる時間間隔において捕捉された、環境の複数の画像を含んでもよい。画像は、1人以上の人を示し得る。訓練データ105は、示された人の実際の動きを反映するグラウンドトゥルースデータ(例えば、動きの方向及びスピードを示すベクトル)をさらに含んでもよい。ブロック620において、第1の画像に示される各人について、特徴ベクトルf(D)、f(S)が初期化され得る。ブロック630において、特徴ベクトルf(D)、f(S)とソーシャルグラフ107が、上記の式1~式6に従って計算される。特徴ベクトルは、訓練データ105からの第1の画像に示される各人についてのものでもよい。特徴ベクトルは、各人の行先、所与の人をいずれの他の人が考慮しているか、及び/又は2人の人の間の距離を反映することができる。ソーシャルグラフ107は、第1の画像に対して生成される。さらに、訓練の間、上記の式7~式8を適用して、事後事前分布に基づいて条件付き事前分布を学習し、確率モデル108がそこから値をサンプリングすることを可能にしてもよい。上述のように、訓練の間、事後分布から値をサンプリングして、事前分布を学習する。
ブロック650において、デコーダモデル109は、式9を適用して、画像に示される各人について複数のベクトルを計算する。各ベクトルは、一般に、人の動きの予測された方向及びスピードを記述することができる。ベクトルは、方向を(x,y)座標で、動きのスピードを任意の単位及び/又はフォーマット(例えば、メートル毎秒、フィート毎秒など)で記述してもよい。ブロック660において、ブロック650で計算されたベクトルの精度が、例えば、ブロック650で計算されたベクトルと各人のグラウンドトゥルースの動きとの比較に基づいて決定される。上述のように、精度は、平均変位誤差及び/又は最終変位誤差に基づいてもよい。一般に、例えば、ブロック650で計算された第1のベクトルが、人が左に動くことを示すが、グラウンドトゥルースデータが、人が実際には右に動いたことを示す場合、ブロック650で計算された予測は、低い精度を有し得る。したがって、ブロック660において、逆伝搬動作が実行されて、軌道モジュール104のパラメータ(例えば、ソーシャルグラフネットワーク113、確率モデル108、デコーダモデル109、及び/又はLSTM110、111)を更新する。一般に、上記の式10を使用して、確率的勾配降下を用いて式10の変分下限を最大化することができる。ブロック610~660は、単一の画像、及び/又は各画像内に示される単一の人を参照して論じられ得るが、ブロック610~660は、訓練データ105内の任意の数の画像上で任意の回数繰り返されてもよい。そうすることにより、軌道モジュール104は、時間と共により正確な予測を生成することができる。
図7は、論理フロー700の一実施形態を示す。論理フロー700は、本明細書に記載される1つ以上の実施形態により実行される動作の一部又は全部を表すことができる。例えば、論理フロー700は、ソーシャルグラフネットワークを使用して確率的軌道予測を提供する動作の一部又は全部を表すことができる。実施形態は、この文脈において限定されない。
図示のように、ブロック710において、画像は、画像に示される1人以上の人、及び/又は画像に示される少なくとも2人の人の間の相互作用を識別するために、1つ以上のCVアルゴリズム106により分析され得る。画像は、画像捕捉デバイス103により捕捉されてもよく、かつ/あるいは別のソースから受信されてもよい。相互作用には、ある人が別の人を考慮しているかどうか、2人の人の間の距離、やりとり、物理的接触、ある人が別の人を避けることなどを含むことができる。ブロック720において、第1の特徴ベクトル、すなわち、1つ以上の行先ベースの特徴を含む行先特徴ベクトルf(D)が、ニューラルネットワーク(例えば、軌道モジュール104のソーシャルネットワーク113)により画像内で識別された各人について、式1に従って生成される。上述のように、ニューラルネットワークは、ReLUを有する1層のMLPを含み、入力としての人の(x,y)座標と人の速度とを連結することができる。速度は、現在の時間間隔における人の座標と、前の時間間隔(例えば、すぐ前の時間間隔)における人の座標との差に基づいてもよい。ブロック730において、画像に対してソーシャルグラフ107が生成される。ソーシャルグラフ107は、画像内の各人をノードとして表す有向グラフである。ブロック710における画像の分析に基づいて、2人以上の人が社会的相互作用に関与していると決定された場合、エッジが、上述のように、社会的相互作用に関与するこの2人の人を接続することができる。例えば、2人の人の間の距離が閾値を下回る場合、社会的相互作用が決定されてもよい(そして、距離に基づいてアテンション値が決定されてもよい)。同様に、ある人が別の人を考慮している場合、エッジは、ソーシャルグラフ107内のこの2人に人を表すノードを接続してもよく、アテンション値は、ある人が別の人を考慮している度合いを反映してもよい。
ブロック740において、第2の特徴ベクトル、すなわち、ベクトルf(S)が、画像に示される各人について、式2~式6に従って計算される。ソーシャルグラフネットワーク113は、第1の特徴ベクトルf(D)及び/又はソーシャルグラフ107に基づいて、第2の特徴ベクトルf(S)を計算することができる。ソーシャルグラフネットワーク113の最終層の出力は、ベクトルf(S)を含むことができる。ブロック750において、潜在変数zの値が、学習された事前分布からサンプリングされる。ブロック760において、デコーダモデル109は、画像に示される各人の動きの予測された方向と動きの方向の予測されたスピードとを反映する1つ以上の出力ベクトルを計算することができる。次いで、デコーダモデル109は、生成されたベクトルを後の使用のために記憶することができる。
図8は、記憶媒体800の一実施形態を示す。記憶媒体800は、光学、磁気、又は半導体記憶媒体などの、任意の非一時的コンピュータ読取可能記憶媒体又はマシン読取可能記憶媒体を含むことができる。様々な実施形態において、記憶媒体800は、製造品を含んでもよい。いくつかの実施形態において、記憶媒体800は、本明細書に記載される論理フロー又は動作の1つ以上を実施するコンピュータ実行可能命令、例えば、図5~図7の論理フロー500、600、700それぞれについての命令801、802、803などの、コンピュータ実行可能命令を記憶することができる。記憶媒体800は、上述の式1~式9のためのコンピュータ実行可能命令804と、軌道モジュール104及びそのコンポーネント(例えば、ソーシャルグラフネットワーク113、ソーシャルグラフ107、確率モデル108、デコーダモデル109、命令114、及び/又はLSTM110、111)のためのコンピュータ実行可能命令805をさらに記憶することができる。記憶媒体800は、ナビゲーションロジック112のためのコンピュータ実行可能命令806をさらに記憶することができる。プロセッサ101は、命令801~806のうち任意のものを実行することができる。コンピュータ読取可能記憶媒体又はマシン読取可能記憶媒体の例には、揮発性又は不揮発性メモリ、リムーバブル又は非リムーバブルメモリ、消去可能又は消去不可メモリ、書込可能又は再書込可能メモリ等を含む、電子データを記憶できる任意の有形媒体を含むことができる。コンピュータ実行可能命令の例には、ソースコード、コンパイルされたコード、解釈されたコード、実行可能コード、静的コード、動的コード、オブジェクト指向コード、ビジュアルコード等などの任意の適切なタイプのコードを含むことができる。実施形態は、この文脈において限定されない。
図9は、上述の様々な実施形態を実施するのに適切であり得る例示的なコンピューティングアーキテクチャ900の一実施形態を示す。様々な実施形態において、コンピューティングアーキテクチャ900は、電子デバイスを含んでもよく、あるいは電子デバイスの一部として実装されてもよい。いくつかの実施形態において、コンピューティングアーキテクチャ900は、例えば、システム100の1つ以上のコンポーネントを実装するコンピュータシステムを表すことができる。本実施形態は、この文脈において限定されない。より一般的には、コンピューティングアーキテクチャ900は、本明細書において図1~図8を参照して説明された全ての論理、システム、論理フロー、方法、装置、及び機能性を実施するように構成される。
本出願で使用されるとき、用語「システム」及び「コンポーネント」及び「モジュール」は、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアのいずれかであるコンピュータ関連エンティティを指すことを意図しており、その例が、例示的なコンピューティングアーキテクチャ900により提供される。例えば、コンポーネントは、これらに限られないが、プロセッサ上で実行されるプロセス、プロセッサ、ハードディスクドライブ、複数の記憶ドライブ(光学及び/又は磁気記憶媒体の)、オブジェクト、実行可能ファイル、実行スレッド、プログラム、及び/又はコンピュータとすることができる。例として、サーバ上で実行されているアプリケーションとサーバとの双方が、コンポーネントであり得る。1つ以上のコンポーネントは、プロセス及び/又は実行スレッド内に存在することができ、コンポーネントは、1つのコンピュータ上に局所化することができ、かつ/あるいは2つ以上のコンピュータ間で分散することができる。さらに、コンポーネントは、動作を協調するために、様々なタイプの通信媒体により互いに通信上結合されてもよい。協調には、一方向又は双方向の情報交換を含むことができる。例えば、コンポーネントは、通信媒体を介して通信される信号の形式で情報を通信してもよい。この情報は、様々な信号線に割り振られた信号として実現することができる。このような割り振りにおいて、各メッセージは信号である。しかしながら、さらなる実施形態が、代替的にデータメッセージを利用してもよい。そのようなデータメッセージは、様々な接続を介して送られ得る。例示的な接続には、パラレルインターフェース、シリアルインターフェース、及びバスインターフェースが含まれる。
コンピューティングアーキテクチャ900は、1つ以上のプロセッサ、マルチコアプロセッサ、コプロセッサ、メモリユニット、チップセット、コントローラ、周辺装置、インターフェース、発振器、タイミングデバイス、ビデオカード、オーディオカード、マルチメディア入力/出力(I/O)コンポーネント、電源などの、様々な一般的な計算要素を含む。しかしながら、実施形態は、コンピューティングアーキテクチャ900による実装に限定されない。
図9に示すように、コンピューティングアーキテクチャ900は、処理ユニット904、システムメモリ906、及びシステムバス908を含む。処理ユニット904(プロセッサ回路とも呼ばれる)は、AMD(登録商標) Athlon(登録商標)、Duron(登録商標)及びOpteron(登録商標)プロセッサ;ARM(登録商標)アプリケーション、組み込み及びセキュアプロセッサ;IBM(登録商標)及びMotorola(登録商標) DragonBall(登録商標)及びPowerPC(登録商標)プロセッサ;IBM及びSony(登録商標) Cellプロセッサ;Intel(登録商標) Celeron(登録商標)、Core(2) Duo(登録商標)、Itanium(登録商標)、Pentium(登録商標)、Xeon(登録商標)及びXScale(登録商標)プロセッサ;並びに類似のプロセッサを限定なく含む、様々な市販のプロセッサのうち任意のものでもよい。デュアルマイクロプロセッサ、マルチコアプロセッサ、及び他のマルチプロセッサアーキテクチャもまた、処理ユニット904として利用されてもよい。
システムバス908は、これらに限られないがシステムメモリ906から処理ユニット904へを含む、システムコンポーネントのためのインターフェースを提供する。システムバス908は、いくつかのタイプのバス構造のうち任意のものとすることができ、これは、様々な市販のバスアーキテクチャのうち任意のものを使用してメモリバス(メモリコントローラの有無を問わない)、ペリフェラルバス、及びローカルバスにさらに相互接続してもよい。インターフェースアダプタは、スロットアーキテクチャを介してシステムバス908に接続することができる。例示的なスロットアーキテクチャには、限定なく、アクセラレーテッドグラフィックスポート(AGP)、カードバス、(拡張)インダストリスタンダードアーキテクチャ((E)ISA)、マイクロチャネルアーキテクチャ(MCA)、ニューバス(NuBus)、ペリフェラルコンポーネントインターコネクト(拡張)(PCI(X))、PCI Express、パーソナルコンピュータメモリカードインターナショナルアソシエーション(PCMCIA)などを含むことができる。
システムメモリ906には、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、ダイナミックRAM(DRAM)、ダブルデータレートDRAM(DDRAM)、同期DRAM(SDRAM)、バルクバイトアドレス指定可能(bulk byte-addressable)永続メモリ(persistent memory、PMEM)、スタティックRAM(SRAM)、プログラマブルROM(PROM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリ(例えば、1つ以上のフラッシュアレイ)、強誘電体ポリマーメモリなどのポリマーメモリ、オボニックメモリ、相変化又は強誘電体メモリ、SONOS(silicon-oxide-nitride-oxide-silicon)メモリ、磁気又は光学カード、独立ディスクの冗長アレイ(RAID)ドライブなどのデバイスのアレイ、ソリッドステートメモリデバイス(例えば、USBメモリ、ソリッドステートドライブ(SSD))、及び情報を記憶するのに適した任意の他のタイプの記憶媒体などの、1つ以上のより高速メモリユニットの形態の様々なタイプのコンピュータ読取可能記憶媒体を含むことができる。図9に示される例示の実施形態において、システムメモリ906は、不揮発性メモリ910及び/又は揮発性メモリ912を含むことができる。基本入力/出力システム(BIOS)は、不揮発性メモリ910に記憶することができる。
コンピュータ902は、内部(又は、外部)ハードディスクドライブ(HDD)914、リムーバブル磁気ディスク918との間で読み出し又は書き込みを行う磁気フロッピーディスクドライブ(FDD)916、及びリムーバブル光ディスク922(例えば、コンパクトディスク読取専用メモリ(CD-ROM)又はデジタル多用途ディスク(DVD))との間で読み出し又は書き込みを行う光ディスクドライブ920を含む、1つ以上のより低速なメモリユニットの形態の様々なタイプのコンピュータ読取可能記憶媒体を含むことができる。HDD914、FDD916、及び光ディスクドライブ920は、それぞれ、HDDインターフェース924、FDDインターフェース926、及び光学ドライブインターフェース928により、システムバス908に接続することができる。外部ドライブ実装のためのHDDインターフェース924は、ユニバーサルシリアルバス(USB)及びIEEE1394インターフェース技術のうち少なくとも一方又は双方を含むことができる。
ドライブ及び関連するコンピュータ読取可能媒体は、データ、データ構造、コンピュータ実行可能命令などの揮発性及び/又は不揮発性の記憶を提供する。例えば、オペレーティングシステム930、1つ以上のアプリケーションプログラム932、他のプログラムモジュール934、及びプログラムデータ936を含む複数のプログラムモジュールを、ドライブ及びメモリユニット910、912に記憶することができる。一実施形態において、1つ以上のアプリケーションプログラム932、他のプログラムモジュール934、及びプログラムデータ936は、例えば、軌道モジュール104、CVアルゴリズム106、ソーシャルグラフ107、確率モデル108、デコーダモデル109、LSTM110、111、ナビゲーションロジック112、ソーシャルグラフネットワーク113、及び/又は本明細書に記載される他の論理を含む、システム100の様々なアプリケーション及び/又はコンポーネントを含むことができる。
ユーザは、1つ以上の有線/無線の入力装置、例えば、キーボード938、及びマウス940などのポインティングデバイスを介して、コンピュータ902にコマンド及び情報を入力することができる。他の入力装置には、マイクロフォン、赤外線(IR)リモコン、無線周波数(RF)リモコン、ゲームパッド、スタイラスペン、カードリーダ、ドングル、指紋リーダ、グローブ、グラフィックスタブレット、ジョイスティック、キーボード、網膜リーダ、タッチスクリーン(例えば、容量性、抵抗性など)、トラックボール、トラックパッド、センサ、スタイラスなどを含むことができる。これら及び他の入力装置は、しばしば、システムバス908に結合された入力装置インターフェース942を介して処理ユニット904に接続されるが、パラレルポート、IEEE1394シリアルポート、ゲームポート、USBポート、IRインターフェース等の他のインターフェースにより接続することができる。
モニタ944又は他のタイプの表示装置も、ビデオアダプタ946などのインターフェースを介してシステムバス908に接続される。モニタ944は、コンピュータ902の内部又は外部であってよい。モニタ944に加えて、コンピュータは、通常、スピーカ、プリンタ等などの他の周辺出力装置を含む。
コンピュータ902は、リモートコンピュータ948などの1つ以上の遠隔コンピュータへの有線及び/又は無線通信を介する論理接続を使用して、ネットワーク化された環境で動作することができる。様々な実施形態において、1つ以上のマイグレーションが、ネットワーク化環境を介して発生してもよい。リモートコンピュータ948は、ワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースのエンタテインメント機器、ピアデバイス、又は他の一般的なネットワークノードとすることができ、典型的には、コンピュータ902に関して説明される要素の多く又は全てを含むが、簡潔さの目的で、メモリ/記憶装置950のみが示されている。図示された論理接続には、ローカルエリアネットワーク(LAN)952、及び/又はより大きいネットワーク、例えば、ワイドエリアネットワーク(WAN)954への有線/無線接続が含まれる。このようなLAN及びWANネットワーキング環境は、オフィス及び会社では一般的であり、イントラネットなどの企業全体のコンピュータネットワークを容易にし、これらの全てが、グローバル通信ネットワーク、例えばインターネットに接続することができる。
LANネットワーキング環境で使用されるとき、コンピュータ902は、有線及び/又は無線通信ネットワークインターフェース又はアダプタ956を介してLAN952に接続される。アダプタ956は、LAN952への有線及び/又は無線通信を容易にすることができ、LAN952は、アダプタ956の無線機能と通信するためにその上に配置された無線アクセスポイントを含んでもよい。
WANネットワーキング環境で使用されるとき、コンピュータ902は、モデム958を含むことができ、あるいはWAN954上の通信サーバに接続され、あるいはインターネット経由などWAN954を通じて通信を確立する他の手段を有する。モデム958は、内部又は外部とすることができ、有線及び/又は無線装置とすることができ、入力装置インターフェース942を介してシステムバス908に接続する。ネットワーク化環境において、コンピュータ902に関して示されたプログラムモジュール又はその一部は、リモートのメモリ/記憶装置950に記憶することができる。図示のネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段を使用できることが理解されよう。
コンピュータ902は、無線通信(例えば、IEEE902.16オーバー・ジ・エア変調技術)において動作上配置された無線デバイスなどの、標準のIEEE902ファミリを使用する有線及び無線のデバイス又はエンティティと通信するように動作可能である。これには、とりわけ、Wi-Fi(又は、ワイヤレスフィデリティ)、WiMax、及びBluetooth(登録商標)TM無線技術が少なくとも含まれる。したがって、通信は、従来のネットワークのように予め定義された構造でもよく、あるいは単に少なくとも2つのデバイス間のアドホック通信でもよい。Wi-Fiネットワークは、IEEE902.11x(a、b、g、n、ac、ayなど)と呼ばれる無線技術を使用して、安全な、信頼できる、高速の無線接続を提供する。Wi-Fiネットワークは、コンピュータを互いに、インターネットに、及び有線ネットワーク(IEEE902.3関連の媒体及び機能を利用する)に接続するために使用することができる。
少なくとも1つの例の1つ以上の態様は、プロセッサ内の様々な論理を表す、少なくとも1つのマシン読取可能媒体に記憶された表現的な命令により実施することができ、上記命令は、マシン、コンピューティングデバイス、又はシステムにより読まれると、マシン、コンピューティングデバイス、又はシステムに、本明細書に記載の技術を実行するための論理を作らせる。「IPコア」として知られるこのような表現は、有形のマシン読取可能媒体に記憶され、論理又はプロセッサを製造する製作マシンにロードするために様々な顧客又は製造施設に供給されてもよい。
様々な例は、ハードウェア要素、ソフトウェア要素、又は双方の組み合わせを使用して実施され得る。いくつかの例において、ハードウェア要素には、デバイス、コンポーネント、プロセッサ、マイクロプロセッサ、回路、回路素子(例えば、トランジスタ、抵抗、キャパシタ、インダクタなど)、集積回路、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、メモリユニット、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセットなどを含んでもよい。いくつかの例において、ソフトウェア要素には、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、ファンクション、メソッド、プロシージャ、ソフトウェアインターフェース、アプリケーションプログラムインターフェース(API)、命令セット、計算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、又はこれらの任意の組み合わせを含んでもよい。例がハードウェア要素を用いて実施されるか及び/又はソフトウェア要素を用いて実施されるかの決定は、所与の実装に対する所望に応じて、所望の計算レート、電力レベル、熱耐性、処理サイクルバジェット、入力データレート、出力データレート、メモリリソース、データバススピード、及び他の設計又は性能制約などの任意の数のファクタに従って変化してよい。
いくつかの例には、製造品又は少なくとも1つのコンピュータ読取可能媒体を含むことができる。コンピュータ読取可能媒体には、論理を記憶するための非一時的記憶媒体を含んでもよい。いくつかの例において、非一時的記憶媒体には、揮発性メモリ又は不揮発性メモリ、リムーバブル又は非リムーバブルメモリ、消去可能又は消去不可メモリ、書き込み可能又は再書き込み可能メモリなどを含む、電子データを記憶できる1つ以上のタイプのコンピュータ読取可能記憶媒体を含んでもよい。いくつかの例において、論理は、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、ファンクション、メソッド、プロシージャ、ソフトウェアインターフェース、API、命令セット、計算コード、コンピュータコード、コードセグメント、コンピュータコードセグメント、ワード、値、シンボル、又はこれらの任意の組み合わせなどの様々なソフトウェア要素を含んでもよい。
いくつかの例によれば、コンピュータ読取可能媒体は、命令を記憶又は維持する非一時的記憶媒体を含んでもよく、上記命令は、マシン、コンピューティングデバイス、又はシステムにより実行されると、マシン、コンピューティングデバイス、又はシステムに、記載された例に従う方法及び/又は動作を実行させる。命令は、ソースコード、コンパイル型コード、解釈型コード、実行可能コード、静的コード、動的コード等などの任意の適切なタイプのコードを含むことができる。命令は、マシン、コンピューティングデバイス、又はシステムに特定の機能を実行するように指示する、予め定義されたコンピュータ言語、方式、又は構文に従って実装されてよい。命令は、任意の適切な高水準、低水準、オブジェクト指向、ビジュアル、コンパイル型、及び/又は解釈型プログラミング言語を使用して実施されてよい。
いくつかの例は、表現「一例において」又は「一例」及びそれらの派生を用いて説明され得る。これらの用語は、例に関連して説明された特定の特徴、構造、又は特性が少なくとも1つの例に含まれることを意味する。明細書中の様々な箇所におけるフレーズ「一例において」の出現は、必ずしも全て同じ例を参照しているわけではない。
いくつかの例は、表現「結合された」及び「接続された」並びにそれらの派生を用いて説明され得る。これらの用語は、必ずしも互いに同義語として意図されているわけではない。例えば、用語「接続された」及び/又は「結合された」を使用する説明は、2つ以上の要素が互いに直接的に物理的又は電気的に接触していることを示し得る。しかしながら、用語「結合された」は、2つ以上の要素が互いに直接接触してはいないが依然として互いに協働又は相互作用することも意味し得る。
以下の例はさらなる実施形態に関し、これらから多数の組み合わせ及び構成が明らかである。
例1は、命令を記憶する非一時的コンピュータ読取可能記憶媒体であり、前記命令は、プロセッサ回路により実行されると前記プロセッサ回路に:画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定し;前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成し;前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定し;学習された事前分布から潜在変数の値をサンプリングし、前記潜在変数は第1の時間間隔に対応し;前記サンプリングされた値及び前記特徴ベクトルに基づいて、少なくとも2つのLSTMを含む階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する;ことをさせる。
例2は、例1の主題事項を含み、前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前であり、前記第1のニューラルネットワークは、以下の式:
に少なくとも部分的に基づいて前記第1の特徴ベクトルを計算する。
例3は、例2の主題事項を含み、前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つであり、前記出力ベクトルは、以下の式:
に少なくとも部分的に基づいて計算される。
例4は、例2の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する。
例5は、例4の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、当該コンピュータ読取可能記憶媒体は、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記画像を分析して、前記第1の人が前記複数の人のうちの第2の人を考慮していると決定し;前記グラフ内に前記第1のエッジを生成し、前記第1のエッジは、前記第2のノードから前記第1のノードに向けられ;前記第1のエッジのアテンション値を決定し;前記アテンション値を前記第1のエッジに割り当てる;ことをさせる命令を記憶する。
例6は、例5の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定し、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第1のニューラルネットワークは、以下の式:
のうちの1つ以上に少なくとも部分的に基づいて前記第2の特徴ベクトルを計算する;ことをさせる命令を記憶する。
例7は、例1の主題事項を含み、当該コンピュータ読取可能記憶媒体は、前記プロセッサ回路により実行されると前記プロセッサ回路に:事後LSTMの複数の再帰的隠れ状態と第3の時間間隔における前記第1の人の事前ベクトルとに基づいて前記事前分布を学習し、前記第3の時間間隔は、第1の時間間隔の前であり、前記事前ベクトルは、前記第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式:
に少なくとも部分的に基づいて学習され、前記潜在変数の値は、以下の式:
に少なくとも部分的に基づいてサンプリングされる;ことをさせる命令を記憶する。
例8は、例1の主題事項を含み、前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する。
例9は、例1の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記画像に示される各人について、前記第2の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成する;ことをさせる命令を記憶する。
例10は、例1の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記第1及び前記第2の時間間隔の後の第3の時間間隔に対応する第2の画像を受け取り;前記第2の画像に示される前記第1の人の行先特徴を記述する第3の特徴ベクトルを決定し;前記画像に示される複数の人に基づいて前記第2の画像の第2の指向グラフを生成し;前記第1の人について、前記第2の指向グラフ及び前記第3の特徴ベクトルに基づいて第4の特徴ベクトルを決定し;前記学習された事前分布から前記潜在変数の第2の値をサンプリングし、前記潜在変数の前記第2の値は、前記第3の時間間隔に対応し;前記サンプリングされた第2の値並びに前記第3及び第4の特徴ベクトルに基づいて、前記階層的LSTMにより、前記第3の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む第2の出力ベクトルを生成する;ことをさせる命令を記憶する。
例11は、例1の主題事項を含み、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定し;前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定し;前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力し、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する;ことをさせる命令を記憶する。
例12は、装置を含み、当該装置は、プロセッサ回路と、命令を記憶するメモリと、を含み、前記命令は、前記プロセッサ回路により実行されると前記プロセッサ回路に:画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定し;前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成し;前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定し;学習された事前分布から潜在変数の値をサンプリングし、前記潜在変数は第1の時間間隔に対応し;前記サンプリングされた値及び前記特徴ベクトルに基づいて、少なくとも2つのLSTMを含む階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する;ことをさせる。
例13は、例12の主題事項を含み、前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前であり、前記第1のニューラルネットワークは、以下の式:
に少なくとも部分的に基づいて前記第1の特徴ベクトルを計算する。
例14は、例13の主題事項を含み、前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つであり、前記出力ベクトルは、以下の式:
に少なくとも部分的に基づいて計算される。
例15は、例13の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する。
例16は、例15の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記画像を分析して、前記第1の人が前記複数の人のうちの第2の人を考慮していると決定し;前記グラフ内に前記第1のエッジを生成し、前記第1のエッジは、前記第2のノードから前記第1のノードに向けられ;前記第1のエッジのアテンション値を決定し;前記アテンション値を前記第1のエッジに割り当てる;ことをさせる命令を記憶する。
例17は、例16の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定し、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第1のニューラルネットワークは、以下の式:
のうちの1つ以上に少なくとも部分的に基づいて前記第2の特徴ベクトルを計算する;ことをさせる命令を記憶する。
例18は、例12の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に:事後LSTMの複数の再帰的隠れ状態と第3の時間間隔における前記第1の人の事前ベクトルとに基づいて前記事前分布を学習し、前記第3の時間間隔は、第1の時間間隔の前であり、前記事前ベクトルは、前記第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式:
に少なくとも部分的に基づいて学習され、前記潜在変数の値は、以下の式:
に少なくとも部分的に基づいてサンプリングされる;ことをさせる命令を記憶する。
例19は、例12の主題事項を含み、前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する。
例20は、例12の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記画像に示される各人について、前記第2の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成する;ことをさせる命令を記憶する。
例21は、例12の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記第1及び前記第2の時間間隔の後の第3の時間間隔に対応する第2の画像を受け取り;前記第2の画像に示される前記第1の人の行先特徴を記述する第3の特徴ベクトルを決定し;前記画像に示される複数の人に基づいて前記第2の画像の第2の指向グラフを生成し;前記第1の人について、前記第2の指向グラフ及び前記第3の特徴ベクトルに基づいて第4の特徴ベクトルを決定し;前記学習された事前分布から前記潜在変数の第2の値をサンプリングし、前記潜在変数の前記第2の値は、前記第3の時間間隔に対応し;前記サンプリングされた第2の値並びに前記第3及び第4の特徴ベクトルに基づいて、前記階層的LSTMにより、前記第3の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む第2の出力ベクトルを生成する;ことをさせる命令を記憶する。
例22は、例12の主題事項を含み、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に:前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定し;前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定し;前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力し、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する;ことをさせる命令を記憶する。
例23は、方法を含み、当該方法は、画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定するステップと、前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成するステップと、前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定するステップと、学習された事前分布から潜在変数の値をサンプリングするステップであり、前記潜在変数は第1の時間間隔に対応する、ステップと、前記サンプリングされた値及び前記特徴ベクトルに基づいて、プロセッサ上で実行される階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成するステップと、を含む。
例24は、例23の主題事項を含み、前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前であり、前記第1のニューラルネットワークは、以下の式:
に少なくとも部分的に基づいて前記第1の特徴ベクトルを計算する。
例25は、例24の主題事項を含み、前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つであり、前記出力ベクトルは、以下の式:
に少なくとも部分的に基づいて計算される。
例26は、例24の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する。
例27は、例26の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、当該方法は、前記画像を分析して、前記第1の人が前記複数の人のうちの第2の人を考慮していると決定するステップと、前記グラフ内に前記第1のエッジを生成するステップであり、前記第1のエッジは、前記第2のノードから前記第1のノードに向けられる、ステップと、前記第1のエッジのアテンション値を決定するステップと、前記アテンション値を前記第1のエッジに割り当てるステップと、をさらに含む。
例28は、例27の主題事項を含み、前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定するステップであり、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第1のニューラルネットワークは、以下の式:
のうちの1つ以上に少なくとも部分的に基づいて前記第2の特徴ベクトルを計算する、ステップをさらに含む。
例29は、例23の主題事項を含み、事後LSTMの複数の再帰的隠れ状態と第3の時間間隔における前記第1の人の事前ベクトルとに基づいて前記事前分布を学習するステップであり、前記第3の時間間隔は、第1の時間間隔の前であり、前記事前ベクトルは、前記第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式:
に少なくとも部分的に基づいて学習され、前記潜在変数の値は、以下の式:
に少なくとも部分的に基づいてサンプリングされる、ステップをさらに含む。
例30は、例23の主題事項を含み、前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する。
例31は、例23の主題事項を含み、前記画像に示される各人について、前記第2の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成するステップ、をさらに含む。
例32は、例23の主題事項を含み、前記第1及び前記第2の時間間隔の後の第3の時間間隔に対応する第2の画像を受け取るステップと、前記第2の画像に示される前記第1の人の行先特徴を記述する第3の特徴ベクトルを決定するステップと、前記画像に示される複数の人に基づいて前記第2の画像の第2の指向グラフを生成するステップと、前記第1の人について、前記第2の指向グラフ及び前記第3の特徴ベクトルに基づいて第4の特徴ベクトルを決定するステップと、前記学習された事前分布から前記潜在変数の第2の値をサンプリングするステップであり、前記潜在変数の前記第2の値は、前記第3の時間間隔に対応する、ステップと、前記サンプリングされた第2の値並びに前記第3及び第4の特徴ベクトルに基づいて、前記階層的LSTMにより、前記第3の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む第2の出力ベクトルを生成するステップと、をさらに含む。
例33は、例23の主題事項を含み、前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定するステップと、前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定するステップと、前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力するステップと、前記自律車両のナビゲーションロジックにより、前記衝突の指標を受信するステップと、前記ナビゲーションロジックにより、前記衝突を回避するために前記自律車両の動きを修正するステップと、をさらに含む。
例34は、装置であり、当該装置は、画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定する手段と、前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成する手段と、前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定する手段と、学習された事前分布から潜在変数の値をサンプリングする手段であり、前記潜在変数は第1の時間間隔に対応する、手段と、前記サンプリングされた値及び前記特徴ベクトルに基づいて、少なくとも2つのLSTMを含む階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する手段と、を含む。
例35は、例34の主題事項を含み、前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前であり、前記第1のニューラルネットワークは、以下の式:
に少なくとも部分的に基づいて前記第1の特徴ベクトルを計算する。
例36は、例35の主題事項を含み、前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つであり、前記出力ベクトルは、以下の式:
に少なくとも部分的に基づいて計算される。
例37は、例35の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する。
例38は、例37の主題事項を含み、前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、当該装置は、前記画像を分析して、前記第1の人が前記複数の人のうちの第2の人を考慮していると決定する手段と、前記グラフ内に前記第1のエッジを生成する手段であり、前記第1のエッジは、前記第2のノードから前記第1のノードに向けられる、手段と、前記第1のエッジのアテンション値を決定する手段と、前記アテンション値を前記第1のエッジに割り当てる手段と、をさらに含む。
例39は、例38の主題事項を含み、前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定する手段であり、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含み、前記第1のニューラルネットワークは、以下の式:
のうちの1つ以上に少なくとも部分的に基づいて前記第2の特徴ベクトルを計算する、手段をさらに含む。
例40は、例34の主題事項を含み、事後LSTMの複数の再帰的隠れ状態と第3の時間間隔における前記第1の人の事前ベクトルとに基づいて前記事前分布を学習する手段であり、前記第3の時間間隔は、第1の時間間隔の前であり、前記事前ベクトルは、前記第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含み、前記事前分布は、以下の式:
に少なくとも部分的に基づいて学習され、前記潜在変数の値は、以下の式:
に少なくとも部分的に基づいてサンプリングされる、手段をさらに含む。
例41は、例34の主題事項を含み、前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する。
例42は、例34の主題事項を含み、前記画像に示される各人について、前記第2の時間間隔におけるそれぞれの人の動きの方向と前記動きの方向のスピードとを含むそれぞれの出力ベクトルを生成する手段、をさらに含む。
例43は、例34の主題事項を含み、前記第1及び前記第2の時間間隔の後の第3の時間間隔に対応する第2の画像を受け取る手段と、前記第2の画像に示される前記第1の人の行先特徴を記述する第3の特徴ベクトルを決定する手段と、前記画像に示される複数の人に基づいて前記第2の画像の第2の指向グラフを生成する手段と、前記第1の人について、前記第2の指向グラフ及び前記第3の特徴ベクトルに基づいて第4の特徴ベクトルを決定する手段と、前記学習された事前分布から前記潜在変数の第2の値をサンプリングする手段であり、前記潜在変数の前記第2の値は、前記第3の時間間隔に対応する、手段と、前記サンプリングされた第2の値並びに前記第3及び第4の特徴ベクトルに基づいて、前記階層的LSTMにより、前記第3の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む第2の出力ベクトルを生成する手段と、をさらに含む。
例44は、例34の主題事項を含み、前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定する手段と、前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定する手段と、前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力する手段と、前記自律車両のナビゲーションロジックにより、前記衝突の指標を受信する手段と、前記ナビゲーションロジックにより、前記衝突を回避するために前記自律車両の動きを修正する手段と、をさらに含む。
さらに、前述において、様々な特徴は、開示を合理化するために単一の例に一緒にまとめられている。この開示方法は、請求される例が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明主題事項は、単一の開示された例の全ての特徴よりも少ない特徴にある。したがって、以下の特許請求の範囲は、各請求項が別個の例として自立した状態で、本詳細な説明にここで組み込まれる。添付の特許請求の範囲において、用語「including」及び「in which」は、それぞれ、それぞれの用語「comprising」及び「wherein」の平易な英語の同等物として用いられる。さらに、用語「第1」、「第2」、「第3」などは、ラベルとして使用されるに過ぎず、それらの対象物に数値的要件を課すことを意図したものではない。
主題事項は、構造的特徴及び/又は方法論的動作に特有の言語で記載されているが、添付の特許請求の範囲に定義される主題事項は、必ずしも上述の特定の特徴又は動作に限定されるものではないことが理解されるべきである。むしろ、上述の特定の特徴及び動作は、請求項を実施する例示的な形態として開示されている。
プログラムコードを記憶及び/又は実行するのに適したデータ処理システムには、システムバスを介してメモリ要素に直接又は間接的に結合された少なくとも1つのプロセッサが含まれる。メモリ要素には、プログラムコードの実際の実行中に利用されるローカルメモリ、バルクストレージ、及びキャッシュメモリを含むことができ、キャッシュメモリは、少なくとも一部のプログラムコードの一時的な記憶を提供して、実行中にバルクストレージからコードを取り出さなければならない回数を減らす。用語「コード」は、アプリケーション、ドライバ、プロセス、ルーチン、メソッド、モジュール、ファームウェア、マイクロコード、及びサブプログラムを含む、広範囲のソフトウェアコンポーネント及び構成をカバーする。したがって、用語「コード」は、処理システムにより実行されると所望の1つ又は複数の動作を実行する命令の任意の集合を指すために使用され得る。
本明細書に記載される論理回路、デバイス、及びインターフェースは、ハードウェアで実装され、1つ以上のプロセッサ上で実行されるコードで実装される機能を実行することができる。論理回路は、1つ以上の論理機能を実施するハードウェア又はハードウェア及びコードを指す。回路は、ハードウェアであり、1つ以上の回路を指し得る。各回路は、特定の機能を実行することができる。回路網の回路は、1つ以上のコンダクタ、集積回路、チップパッケージ、チップセット、メモリなどと相互接続された個別の電気コンポーネントを含むことができる。集積回路には、シリコンウェハなどの基板上に作成された回路が含まれ、コンポーネントを含んでもよい。また、集積回路、プロセッサパッケージ、チップパッケージ、及びチップセットは、1つ以上のプロセッサを含んでもよい。
プロセッサは、入力において命令及び/又はデータなどの信号を受け取り、信号を処理して、少なくとも1つの出力を生成することができる。コードを実行する間、コードは、プロセッサパイプラインを構成するトランジスタの物理的状態及び特性を変化させる。トランジスタの物理的状態は、プロセッサ内のレジスタに格納された1及び0の論理ビットに変換される。プロセッサは、トランジスタの物理的状態をレジスタに転送し、トランジスタの物理的状態を別の記憶媒体に転送することができる。
プロセッサは、プロセッサの全体的な機能を実行するために実装された1つ以上のサブ機能を実行する回路を含んでもよい。プロセッサの一例は、少なくとも1つの入力と少なくとも1つの出力とを含む状態マシン又は特定用途向け集積回路(ASIC)である。状態マシンは、少なくとも1つの入力に対して所定の一連のシリアル及び/又はパラレルの操作又は変換を実行することにより、少なくとも1つの入力を操作して少なくとも1つの出力を生成することができる。
上述の論理は、集積回路チップのための設計の一部でもよい。チップ設計は、グラフィカルコンピュータプログラミング言語で作成され、コンピュータ記憶媒体又はデータ記憶媒体(例えば、ディスク、テープ、物理的ハードドライブ、又は、ストレージアクセスネットワークなどの仮想ハードドライブ)に記憶される。設計者が、チップ、又はチップを製作するために使用されるフォトリソグラフィマスクを製作しない場合、設計者は、結果として生じた設計を物理的手段により(例えば、設計を記憶する記憶媒体のコピーを提供することにより)又は電子的に(例えば、インターネットを通じて)、そのようなエンティティに直接的又は間接的に送信する。次いで、記憶された設計は、製作のための適切なフォーマット(例えば、GDSII)に変換される。
結果として生じた集積回路チップは、未加工ウェハ形態で(すなわち、複数のパッケージ化されていないチップを有する単一のウェハとして)、裸のダイとして、又はパッケージ化された形態で、製作者により配布することができる。後者の場合、チップは、単一のチップパッケージ(マザーボード又は他のより高いレベルのキャリアに固定されるリードを有する、プラスチックキャリアなど)で、又はマルチチップパッケージ(表面相互接続又は埋め込み相互接続のいずれか又は双方を有するセラミックキャリアなどの)でマウントされる。いずれの場合も、チップは、次いで、(a)プロセッサボード、サーバプラットフォーム、又はマザーボードなどの中間製品、又は(b)最終製品のいずれかの一部として、他のチップ、個別回路素子、及び/又は他の信号処理デバイスと一体化される。
前述の例示的な実施形態の説明は、例示及び説明の目的で提示されている。網羅的であること、又は本開示を開示された正確な形態に限定することは意図していない。本開示に照らして、多くの修正及びバリエーションが可能である。本開示の範囲は、本詳細な説明によってではなく、むしろ本明細書に添付された特許請求の範囲により限定されることが意図される。この出願に対して優先権を主張する将来の出願は、開示された主題事項を異なる方法で請求する可能性があり、一般に、本明細書において様々に開示され又はその他の方法で説明された1つ以上の限定の任意のセットを含む可能性がある。
Claims (26)
- プロセッサ回路に、
画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定することと、
前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成することと、
前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定することと、
学習された事前分布から潜在変数の値をサンプリングすることであり、前記潜在変数は第1の時間間隔に対応する、ことと、
前記サンプリングされた値及び前記特徴ベクトルに基づいて、階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成することと、
を含む動作を実行させるコンピュータプログラム。 - 前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前である、請求項1に記載のコンピュータプログラム。
- 前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つである、請求項2に記載のコンピュータプログラム。
- 前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する、請求項2に記載のコンピュータプログラム。
- 前記複数のエッジのうちの第1のエッジは、前記複数のノードのうちの第1のノードと第2のノードとを接続し、前記動作は、
前記画像を分析して、前記複数の人のうちの第2の人に向けられた前記第1の人からの相互作用を識別することと、
前記識別された相互作用に基づいて前記グラフにおける前記第1のエッジを生成することであり、前記第1の人は前記第1のノードに関連づけられ、前記第2の人は前記第2のノードに関連づけられる、ことと、
前記第1のエッジのアテンション値を決定することであり、前記アテンション値は前記相互作用の度合いを反映する、ことと、
前記アテンション値を前記第1のエッジに割り当てることと、
をさらに含む、請求項4に記載のコンピュータプログラム。 - 前記動作は、
前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定することであり、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含む、ことをさらに含む、請求項5に記載のコンピュータプログラム。 - 前記動作は、
第3のLSTMの複数の再帰的隠れ状態と第3の時間間隔における前記第1の人の事前ベクトルとに基づいて前記事前分布を学習することであり、前記第3の時間間隔は、第1の時間間隔の前であり、前記事前ベクトルは、前記第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む、ことをさらに含む、請求項1に記載のコンピュータプログラム。 - 前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する、請求項1に記載のコンピュータプログラム。
- 前記動作は、
前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定することと、
前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定することと、
前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力することであり、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する、ことと、
をさらに含む、請求項1に記載のコンピュータプログラム。 - 装置であって、
プロセッサ回路と
命令を記憶するメモリと、を含み、前記命令は、前記プロセッサ回路により実行されると前記プロセッサ回路に、
画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定し、
前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成し、
前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定し、
学習された事前分布から潜在変数の値をサンプリングし、前記潜在変数は第1の時間間隔に対応し、
前記サンプリングされた値及び前記特徴ベクトルに基づいて、階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する
ことをさせる、装置。 - 前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前である、請求項10に記載の装置。
- 前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つである、請求項11に記載の装置。
- 前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する、請求項11に記載の装置。
- 前記複数のエッジのうちの第1のエッジは、前記複数のノードのうちの第1のノードと第2のノードとを接続し、前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に、
前記画像を分析して、前記複数の人のうちの第2の人に向けられた前記第1の人からの相互作用を識別し、
前記識別された相互作用に基づいて前記グラフにおける前記第1のエッジを生成し、前記第1の人は前記第1のノードに関連づけられ、前記第2の人は前記第2のノードに関連づけられ、
前記第1のエッジのアテンション値を決定し、前記アテンション値は前記相互作用の度合いを反映し、
前記アテンション値を前記第1のエッジに割り当てる
ことをさせる命令を記憶する、請求項13に記載の装置。 - 前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に、
前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定し、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含む、ことをさせる命令を記憶する、請求項14に記載の装置。 - 前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する、請求項10に記載の装置。
- 前記メモリは、前記プロセッサ回路により実行されると前記プロセッサ回路に、
前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定し、
前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定し、
前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力し、前記自律車両のナビゲーションロジックは、前記指標の受信に応答して前記衝突を回避するために前記自律車両の動きを修正する
ことをさせる命令を記憶する、請求項10に記載の装置。 - 画像に示される複数の人のうちの第1の人の行先特徴を記述する第1の特徴ベクトルを決定する手段と、
前記画像に示される前記複数の人に基づいて前記画像の有向グラフを生成する手段と、
前記第1の人について、前記有向グラフ及び前記行先特徴に基づいて第2の特徴ベクトルを決定する手段と、
学習された事前分布から潜在変数の値をサンプリングする手段であり、前記潜在変数は第1の時間間隔に対応する、手段と、
前記サンプリングされた値及び前記特徴ベクトルに基づいて、階層的長短期記憶(LSTM)により、前記第1の時間間隔の後の第2の時間間隔における前記第1の人の動きの方向と前記動きの方向のスピードとを含む出力ベクトルを生成する手段と、
を含む装置。 - 前記第1の特徴ベクトルは、前記第1の時間間隔における前記人の位置と前記第1の時間間隔における前記人の速度とを含む入力に基づいて第1のニューラルネットワークにより決定され、前記第1の時間間隔における前記人の速度は、前記第1の時間間隔における前記人の位置と第3の時間間隔における前記第1の人の位置とに基づき、前記第3の時間間隔は、前記第1の時間間隔より前である、請求項18に記載の装置。
- 前記第1及び第3の時間間隔における前記人の位置は、それぞれの極座標セットを含み、前記出力ベクトルは、前記第1の人について生成された複数の出力ベクトルのうちの1つである、請求項19に記載の装置。
- 前記有向グラフは、隣接行列、複数のノード、及び複数のエッジを含み、各ノードは、前記画像に示される前記複数の人のうちのそれぞれの人に対応し、各エッジは、前記画像に示される前記複数の人のうちの人が前記画像に示される前記複数の人のうちの別の人を考慮していることに基づいて、前記ノードのうちの2つを接続し、前記隣接行列は、エッジが前記ノードのうちの2つを接続しているかどうかを反映する、請求項19に記載の装置。
- 前記複数のエッジのうちの第1のエッジは、前記複数のノードのうちの第1のノードと第2のノードとを接続し、当該装置は、
前記画像を分析して、前記複数の人のうちの第2の人に向けられた前記第1の人からの相互作用を識別する手段と、
前記識別された相互作用に基づいて前記グラフにおける前記第1のエッジを生成する手段であり、前記第1の人は前記第1のノードに関連づけられ、前記第2の人は前記第2のノードに関連づけられる、手段と、
前記第1のエッジのアテンション値を決定する手段であり、前記アテンション値は前記相互作用の度合いを反映する、手段と、
前記アテンション値を前記第1のエッジに割り当てる手段と、
をさらに含む、請求項21に記載の装置。 - 前記第1のエッジを表すメッセージに基づいて前記第1のニューラルネットワークにより前記第2の特徴ベクトルを決定する手段であり、前記メッセージは、要素ごとの乗算演算子が前記第1のニューラルネットワークにより前記第1のニューラルネットワークへの前記入力に適用されることに基づいて決定され、前記要素ごとの演算子はシグモイド活性化関数を含む、手段、をさらに含む請求項22に記載の装置。
- 前記階層的LSTMは、第1のLSTMと第2のLSTMとを含む少なくとも2つのLSTMを含み、前記第1のLSTMは、前記潜在変数の値と前記第2の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記第1のLSTMの出力と前記第1の特徴ベクトルとを入力として受け取り、前記第2のLSTMは、前記出力ベクトルを生成する、請求項18に記載の装置。
- 前記出力ベクトルが自律車両の軌道ベクトルと交差すると決定する手段と、
前記出力ベクトルと前記軌道ベクトルとの前記決定された交差に基づいて、後の時間における前記第1の人と自律車両との間の衝突の可能性が衝突閾値を超えていると決定する手段と、
前記第1の人又は前記自律車両の少なくとも1つに前記衝突の指標を出力する手段と、
前記自律車両のナビゲーションロジックにより、前記衝突の指標を受信する手段と、
前記ナビゲーションロジックにより、前記衝突を回避するために前記自律車両の動きを修正する手段と、
をさらに含む請求項18に記載の装置。 - 請求項1乃至9のうちいずれか1項に記載のコンピュータプログラムを記憶したコンピュータ読取可能記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/105898 WO2021051224A1 (en) | 2019-09-16 | 2019-09-16 | Stochastic trajectory prediction using social graph networks |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023501039A true JP2023501039A (ja) | 2023-01-18 |
Family
ID=74882915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022508777A Pending JP2023501039A (ja) | 2019-09-16 | 2019-09-16 | ソーシャルグラフネットワークを用いた確率的軌道予測 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220292867A1 (ja) |
EP (1) | EP4031991A4 (ja) |
JP (1) | JP2023501039A (ja) |
CN (1) | CN114222986A (ja) |
WO (1) | WO2021051224A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055874B2 (en) * | 2018-10-30 | 2021-07-06 | Ncr Corporation | Image processing for tracking actions of individuals |
EP3706034A1 (en) * | 2019-03-06 | 2020-09-09 | Robert Bosch GmbH | Movement prediction of pedestrians useful for autonomous driving |
US11878684B2 (en) * | 2020-03-18 | 2024-01-23 | Toyota Research Institute, Inc. | System and method for trajectory prediction using a predicted endpoint conditioned network |
US11699239B2 (en) * | 2020-04-21 | 2023-07-11 | The Board of Trustees of the University of Illinois (Urbana, IL) | Image processing method and apparatus |
JP2022136757A (ja) * | 2021-03-08 | 2022-09-21 | 本田技研工業株式会社 | 自律走行体 |
CN113903173B (zh) * | 2021-10-18 | 2022-06-03 | 苏州工业园区测绘地理信息有限公司 | 一种基于有向图结构和lstm的车辆轨迹特征提取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9654792B2 (en) * | 2009-07-03 | 2017-05-16 | Intel Corporation | Methods and systems for motion vector derivation at a video decoder |
CN110612537A (zh) * | 2017-05-02 | 2019-12-24 | 柯达阿拉里斯股份有限公司 | 用于批归一化的循环高速路网络的系统和方法 |
US10268191B1 (en) * | 2017-07-07 | 2019-04-23 | Zoox, Inc. | Predictive teleoperator situational awareness |
CN110147892B (zh) * | 2019-02-20 | 2021-05-25 | 电子科技大学 | 基于变分轨迹上下文感知的人类移动模式推测模型、训练方法及推测方法 |
CN110059144B (zh) * | 2019-04-03 | 2021-12-10 | 电子科技大学 | 一种基于卷积神经网络的轨迹属主预测方法 |
-
2019
- 2019-09-16 US US17/635,792 patent/US20220292867A1/en active Pending
- 2019-09-16 CN CN201980099325.0A patent/CN114222986A/zh active Pending
- 2019-09-16 EP EP19945995.9A patent/EP4031991A4/en active Pending
- 2019-09-16 WO PCT/CN2019/105898 patent/WO2021051224A1/en unknown
- 2019-09-16 JP JP2022508777A patent/JP2023501039A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4031991A4 (en) | 2023-06-07 |
CN114222986A (zh) | 2022-03-22 |
EP4031991A1 (en) | 2022-07-27 |
WO2021051224A1 (en) | 2021-03-25 |
US20220292867A1 (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023501039A (ja) | ソーシャルグラフネットワークを用いた確率的軌道予測 | |
Ngiam et al. | Scene transformer: A unified architecture for predicting multiple agent trajectories | |
US11455807B2 (en) | Training neural networks for vehicle re-identification | |
US10451712B1 (en) | Radar data collection and labeling for machine learning | |
Kosaraju et al. | Social-bigat: Multimodal trajectory forecasting using bicycle-gan and graph attention networks | |
Vasquez et al. | Incremental learning of statistical motion patterns with growing hidden markov models | |
Mahajan et al. | Automatic robot Manoeuvres detection using computer vision and deep learning techniques: a perspective of internet of robotics things (IoRT) | |
US11036975B2 (en) | Human pose estimation | |
EP3938806A1 (en) | Radar data collection and labeling for machine-learning | |
CN116597336A (zh) | 视频处理方法、电子设备、存储介质及计算机程序产品 | |
Alcantarilla et al. | Visibility learning in large-scale urban environment | |
US11727686B2 (en) | Framework for few-shot temporal action localization | |
Taylor et al. | Regroup: A robot-centric group detection and tracking system | |
Ponnaganti et al. | Deep learning for lidar-based autonomous vehicles in smart cities | |
Pellegrini et al. | Predicting pedestrian trajectories | |
Elassal et al. | Unsupervised crowd counting | |
US11640701B2 (en) | People detection and tracking with multiple features augmented with orientation and size based classifiers | |
Katyal et al. | Prediction-based uncertainty estimation for adaptive crowd navigation | |
Hudnell et al. | Robust aleatoric modeling for future vehicle localization | |
Yu et al. | ECCNet: Efficient chained centre network for real‐time multi‐category vehicle tracking and vehicle speed estimation | |
Zernetsch et al. | Cyclist intention detection: A probabilistic approach | |
Amara et al. | Deeptracknet: camera based end to end deep learning framework for real time detection, localization and tracking for autonomous vehicles | |
Dey et al. | Machine learning based perception architecture design for semi-autonomous vehicles | |
Weber et al. | Improved ro-slam using activity classification for automated v2x infrastructure mapping | |
Augustauskas et al. | Aggregation of pixel-wise U-Net deep neural networks for road pavement defects detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230912 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240416 |