JP2023508986A

JP2023508986A - 交通弱者の意図を予測する方法および装置

Info

Publication number: JP2023508986A
Application number: JP2022539182A
Authority: JP
Inventors: アディティヤ、ランガ; ジャグディーシュ、バヌシャリ
Original assignee: ヴァレオ・シャルター・ウント・ゼンゾーレン・ゲーエムベーハー
Priority date: 2019-12-27
Filing date: 2020-12-21
Publication date: 2023-03-06
Anticipated expiration: 2040-12-21
Also published as: KR20220119720A; WO2021133706A9; EP4081931A1; JP7480302B2; US11587329B2; US20210201052A1; WO2021133706A1; CN115039142A

Abstract

車両の近くの歩行者および他の道路利用者の意図を推定する手法が記載される。特定の実施形態では、この手法は、１つまたは複数のセンサを備える車両のコンピュータシステムにより、車両の外のシーンに対応する連続するビデオフレームを取得することと、連続するビデオフレーム内で１人または複数人交通弱者（ＶＲＵ）を検出することを含み、検出には検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定することを含む。この手法は、ビデオフレームの１つまたは複数を用いてシーンのセグメンテーションマップを生成することと、１人または複数人のＶＲＵの推定される姿勢およびセグメンテーションマップを用いて、１つまたは複数の意図の確率を推定することであって、意図の確率はそれぞれ検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転動作を調整することと、をさらに含む。

Description

本開示の態様は自動運転に関し、より詳細には、道路を車両と共有するユーザの意図を予測することに関する。

自動車は、運転者が様々な状況で彼らの車両を手動で操縦するのを支援するよう設計されているセンサ技術をますます多く備えている。これらのセンサにより、駐車支援、車線逸脱警告、死角検出などの様々な機能が可能となり、それら機能のすべては、現在では標準車両構成への拡張機能として利用可能である。また、これらのセンサの一部は自動運転および自律運転に関連して使用される。自律運転技術は近年急速に発展したが、いまだにすべての状況で人による制御無しに操作可能となるには不充分である。

車両の自動制御システムに困難な課題をもたらす、一つの通常遭遇する状況は、歩行者および他の道路利用者の行動を理解することである。歩行者は、特定の目的地および目標を念頭に市街地の道路を移動している。道路を進んでいる間、歩行者は他の道路利用者と直接相互作用し、状況に応じて決定を下す。自動運転または自律運転の車両は、道路を安全に進むために、すべての他の車両、歩行者、自転車に乗っている人、スクーター、およびほかのデバイスを識別して、それらの軌道を推定する必要がある。

車道上または車道の周辺の交通弱者（ＶＲＵ）の意図を推定するための方法、装置、およびコンピュータ可読媒体が開示される。一実施形態では、方法は、１つまたは複数のセンサを含む車両のコンピュータシステムにより、車両の外のシーンに対応する連続するビデオフレームを取得することを含む。コンピュータシステムは、連続するビデオフレーム内で１人または複数人のＶＲＵを検出する。検出することには、検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定することが含まれうる。コンピュータシステムはさらに、ビデオフレームの１つまたは複数を用いてシーンのセグメンテーションマップを生成し、１人または複数人のＶＲＵの推定される姿勢およびセグメンテーションマップを用いて１つまたは複数の意図の確率を推定する。それぞれの意図の確率は、検出された１人または複数人のＶＲＵのうちの１人に対応しうる。コンピュータシステムはさらに、推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転動作を調整する。

一実施形態では、コンピュータシステムは、少なくともＶＲＵの推定される姿勢に基づいて１つまたは複数の行動状態を推定し、推定される１つまたは複数の行動状態を用いて１人または複数人のＶＲＵの将来の軌道を推定する。加えて、コンピュータシステムは、ＶＲＵの過去の状態、検出された姿勢、および境界ボックスを用いて、将来の軌道を推定することができる。各行動状態は、検出されたＶＲＵのうちの１人に対応しうる。

一実施形態では、検出するステップ、生成するステップ、および推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、１人または複数人のＶＲＵの推定される姿勢および当該１人または複数人のＶＲＵの対応する行動状態を、前記１人または複数人のＶＲＵのそれぞれの近くの分割されたシーンと順次関連付けることで行うことができる。

一実施形態では、コンピュータシステムはさらに、少なくとも１人または複数人のＶＲＵの推定される姿勢に基づいて１つまたは複数の行動状態をマルチタスクモデルを用いて推定し、推定される１つまたは複数の行動状態に基づいて１つまたは複数の意図の確率を推定することで、１つまたは複数の意図の確率を推定する。

一実施形態では、コンピュータシステムは、ニューラルネットワークアーキテクチャを１人または複数人のＶＲＵのそれぞれの連続した一連の姿勢に適用することで１つまたは複数の行動状態を推定して、複数のあらかじめ定義された行動状態の中からＶＲＵのための行動状態を選択する。

一実施形態では、コンピュータシステムは、ニューラルネットワークアーキテクチャをビデオフレームの１つまたは複数に適用することでセグメンテーションマップを生成して、ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類する。それぞれのクラスは、セグメンテーションマップ内のあるセグメントに対応しうる。

一実施形態では、コンピュータシステムは、予測される行動状態および各ＶＲＵの車両への近さに基づいて、１人または複数人のＶＲＵの中から少なくとも１人の危険性の高いＶＲＵを選択する。その結果、コンピュータシステムは、車両の運転者に危険な行動を通知する、あるいは自律走行車の軌道を変更して、危険性の高いＶＲＵを巻き込んだ将来の事故を回避することができる。

一実施形態では、コンピュータシステムは、１人または複数人のＶＲＵとセグメンテーションマップ内の物体に対応する１つまたは複数のクラスとの間の社会的相互作用を分析することで、１人または複数人のＶＲＵの意図の確率を推定する。

一実施形態では、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと結合された記憶装置とを含むコンピュータシステムが説明される。少なくとも１つのプロセッサは、１つまたは複数のセンサによりキャプチャされる車両の外のシーンに対応する連続するビデオフレームを取得するよう構成される。少なくとも１つのプロセッサはさらに、連続するビデオフレーム内で１人または複数人のＶＲＵを検出し、検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定し、ビデオフレームの１つまたは複数を用いてシーンのセグメンテーションマップを生成し、１人または複数人のＶＲＵの推定される姿勢およびセグメンテーションマップを用いて１つまたは複数の意図の確率を推定して、推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転操作を調整するよう構成される。それぞれの意図の確率は、検出された１人または複数人のＶＲＵのうちの１人に対応しうる。

一実施形態では、コンピュータ可読記憶媒体が説明される。コンピュータ可読記憶媒体は、車両のコンピュータシステムの１つまたは複数のプロセッサにより実行された場合に、この１つまたは複数のプロセッサに車両の外のシーンに対応する連続するビデオフレームを取得させる命令を記憶する。連続するビデオフレームは、１つまたは複数のセンサを用いてキャプチャされる。この命令はさらに、１つまたは複数のプロセッサに、連続するビデオフレーム内で１人または複数人のＶＲＵを検出することであって、検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定することを含む、検出することと、ビデオフレームの１つまたは複数を用いてシーンのセグメンテーションマップを生成することと、１人または複数人のＶＲＵの推定される姿勢およびセグメンテーションマップを用いて、１つまたは複数の意図であってそれぞれが検出された１人または複数人のＶＲＵのうちの１人に対応する１つまたは複数の意図の確率を推定することと、推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転操作を調整することと、を行わせる。

本開示の特定の実施形態に係る、開示される意図予測システムを利用しうる車両システムの簡易ブロック図である。本開示の特定の実施形態に係るＶＲＵ意図予測システムのハイレベルブロック図の例を示す。本開示の特定の実施形態に係る知覚モジュールの例を示す。本開示の特定の実施形態に係る行動予測モジュールの例を示す。本開示の特定の実施形態に係る意図予測モジュールのブロック図の例を示す。本開示の特定の実施形態に係る、提案されている方法のフローチャートの例を示す。本開示の特定の実施形態に係る、例示の画像に対する意図叙述の結果の例を示す。本開示の特定の実施形態に係る、例示の画像に対する軌道推定の結果の例を示す。

これより、本明細書の一部を成す添付の図面に関するいくつかの例示の実施形態を説明する。本開示の１つまたは複数の態様が実現されうる特定の実施形態が以下で説明されるが、他の実施形態を使用することが可能であり、本開示の範囲または添付の請求の範囲の趣旨を逸脱することなく様々な変更を行うことができる。

「交通弱者」（ＶＲＵ）という用語は、本明細書では、歩行者、自転車乗り、オートバイに乗っている人間、スクーターに乗っている人間、および同種のもののクラスを指すのに使用される。一般的に、ＶＲＵは、道路上の車両と直接相互作用する、車道上または車道の周囲の任意の人間を指す。一般的に、ＶＲＵは、車両内に座っている人よりも事故の危険性が潜在的に高くなりうる。

本開示は、交通弱者を検出して識別する手法に関する。本明細書に記載される実施形態は、部分的な運転者支援から運転作業のすべての側面の完全自動化におよぶ、様々な程度の自動運転能力を提供する車両において使用されうる。米国運輸省道路交通安全局（ＴｈｅＮａｔｉｏｎａｌＨｉｇｈｗａｙＴｒａｆｆｉｃＳａｆｅｔｙＡｄｍｉｎｉｓｔｒａｔｉｏｎ、ＮＨＴＳＡ）、およびソサエティオブオートモーティブエンジニアズインターナショナル（ＳｏｃｉｅｔｙｏｆＡｕｔｏｍｏｔｉｖｅＥｎｇｉｎｅｅｒｓ（ＳＡＥ）Ｉｎｔｅｒｎａｔｉｏｎａｌ）は、以下のように車両自律性のレベルを定義している：レベル０において、運転者が車両を完全に制御する、レベル１において、運転支援システムが操舵または加速／減速を制御する、レベル２において、運転支援システムが操舵および加速／減速を制御し、運転者が運転作業の他のすべての側面を行う、レベル３において、運転のすべての側面は運転支援システムにより行われるが、自動車両が安全に対処できない特別な状況が発生した場合は運転者が介入しなければならないことがある、レベル４において、運転のすべての側面は、運転者が介入を要請された場合に適切に対応しない状況でも運転支援システムにより行われる、レベル５において、乗員がいるかどうかに関わらず、車両がすべての運転状況において完全に自律的に運転する。

本明細書では、「自動運転」という用語は、自動運転システムにより行われる任意の運転動作を指すのに使用される。例えば、「車線維持アシスタント」が作動されている場合、車線維持アシスタント（例えば自動運転システム）により行われる動作は「自動運転動作」と呼ばれる。対照的に、人間の運転者により行われる任意の運転動作は手動運転動作と考えられる。自動化のレベル１～レベル３では、運転支援システムが少なくとも運転の何らかの側面を制御する場合に何らかの形の自動運転動作が行われることがある。しかし、レベル１～レベル３では、人間の運転者からの何らかの入力がそれでも想定されうる。本明細書では、「自律走行車」という用語は、自動化のレベル４およびレベル５を使用する車両を指すのに使用され、システムがほとんどの時間、または常に自動運転動作を行い、人間の運転者による介入はほとんどない、またはまったくない。

先進認知システムおよび経路計画システムは、どのような自律走行車でも根底にある。自律走行車は、安全な移動計画のために自身の周囲および他の道路利用者の意図を理解する必要がある。都市部のユースケースでは、歩行者および他のＶＲＵの意図に気づくこと、および予測することが非常に重要である。特定の実施形態では、車両の周囲にいる１人または複数人のＶＲＵの意図を推定および予測するシステムが開示されている。ＶＲＵの意図は、ＶＲＵの現在の活動、そのＶＲＵの他の車両および他のＶＲＵとの相互作用、およびＶＲＵの将来の操作を規定する長期にわたる軌道の組み合わせを用いて推定される。意図予測システムは、ＶＲＵの活動を分類する、エンドツーエンドの訓練済みディープニューラルネットワークモデルを利用し、連続するビデオフレームを入力として用いて、それらのＶＲＵの将来の軌道を予測する。

自動走行車、自律走行車、またはロボットは、車両またはロボットのごく近くにいる人間の状態、行動パターン、および全体的な意図を理解することが非常に重要である。当技術分野の従来の方法は、シーン内のすべての当事者を空間内の点として扱い、行動予測モジュールは高水準の情報のみを使用する、モデルベースのシステムもしくはルールベースのシステム、または確率的なシステムである。しかし、これらの従来の方法は、シーン内の物体の他のクラス（例えば、車両、トラック、および同種のもの）と比べてＶＲＵの行動を正確に理解して予測することができない。

人工知能（ＡＩ）および深層学習を利用して、特定の実施形態では特に自律運転およびロボット工学の分野の課題のいくつかに取り組んでいる。市街地の道路上での配送ロボットや自動運転車でのそのような課題の一つは、常に歩行者や自転車乗りと関わり合いながら経路を計画することである。道路上の歩行者は、特定の規則を順守し、シーン内の他の当事者と相互作用しつつ、特定の目標を持って動き回る。一般的に、人間の運転者は、運転中に歩行者に道を譲る必要があるかどうかを決定しながら、歩行者の状態を理解して歩行者の意図を予測するのが非常に優れている。

特定の実施形態は、道路上の人間達の歩き方、速度、頭部および身体の姿勢、動作（物体を運んでいる、カートを押している、子供を抱いている、など）、および意識／注意散漫（電話で話している、ヘッドセットを装着している、など）レベルを検出／推定するＶＲＵ意図予測システムを提示し、これらの行動パターンを利用して道路内または道路の周囲の人間の将来の軌道を予測する。ＶＲＵ意図予測システムは人工知能を使用し、市街地の道路上のＶＲＵの活動を認識してそれらの軌道を予測するようにビデオシーケンスで訓練される。短期間の個別の活動の認識と将来の連続する軌道の予測の組み合わせによってＶＲＵの意図が要約され、自律走行車内の経路計画モジュールに正確な入力が与えられる。

特定の実施形態は、シーン内の各ＶＲＵに対する低水準の特徴を活用し、データ駆動型の深層学習手法を用いて、ＶＲＵの状態と、ＶＲＵの全体的なシーンとの行動上の関わりを学習する。本明細書で開示される方法は人間の行動を認識して理解し、状態の過去の履歴および空間的な入力から連続する軌道の重み付けを時間的に予測する。

図１は、特定の実施形態に係る、開示される意図予測システムを利用しうる車両システム１００の簡易ブロック図である。車両システム１００は、自動走行車または自律走行車とすることができる。車両システム１００は、車両制御サブシステム１１０、１つまたは複数のＩ／Ｏデバイス（入力／出力デバイス）１２０、１つまたは複数のセンサ１３０、および１つまたは複数の通信インタフェース１４０を含む。

車両制御サブシステム１１０は、１つまたは複数の車両制御装置１１２（例えば電子制御装置、すなわちＥＣＵ）を含むコンピュータシステムを含む。車両制御装置１１２は、それぞれが車両の１つもしくは複数のセンサ、電気システム、または他のサブシステムを制御する、任意の数の組み込み型システムを含みうる。車両制御装置１１２の例として、限定しないが、エンジン制御装置、パワーステアリング制御装置、駆動系制御モジュール、速度制御装置、テレマティクス制御装置、変速装置制御装置、ブレーキ制御モジュール、カメラ制御モジュール、ＬＩＤＡＲ制御モジュール、または任意の他の種類の制御モジュールが挙げられる。

一部の実施形態では、車両制御装置１１２は、１つまたは複数のプロセッサと、プロセッサ実行可能命令を記憶する１つまたは複数の非一時的コンピュータ可読媒体を含みうる。例えば、車両制御装置１１２は、センサ情報を処理するソフトウェアアプリケーションを実行して自動運転操作（例えば、車両の周囲のＶＲＵの軌道を判定してそれらのＶＲＵの軌道が車両の経路を横切る場合は措置を講じる）を決定する、あるいは車両の乗員または運転者に対してＩ／Ｏデバイス１２０を介して出力を生成するよう構成されているプロセッサを含みうる。

センサ１３０は、車両システム１００が配備されている車両、および／または車両の外の環境についての情報を提供する任意の数のデバイスを含みうる。センサ１３０の例として、限定しないが、カメラ、マイク、レーダーセンサ、超音波センサ、ＬＩＤＡＲセンサ、全地球測位システム（ＧＰＳ）センサ、操舵角センサ、および／またはモーションセンサ（例えば、加速度計および／またはジャイロスコープ）が挙げられる。特に、車両システム１００は、車両の近くのＶＲＵを検出して位置を特定するのに使用できる１つまたは複数のカメラを備えることができる。

一部の実施形態では、車両制御サブシステム１１０は先進運転支援システム（ＡＤＡＳ）１１４を含む。ＡＤＡＳシステム１１４は、自動クルーズコントロールシステム、死角検出システム、駐車支援システム、緊急ブレーキシステム、または任意の他の種類の自動システムを含みうる。加えて、ＡＤＡＳシステムは、本明細書に記載される、ＶＲＵ意図予測モジュール１１６および経路計画モジュール１１８を含みうる。

一部の実施形態では、ＡＤＡＳシステム１１４は、先進運転支援システムの自律的動作を可能とする、ハードウェア（例えばアクチュエータ）および／またはソフトウェアを含みうる。一部の実施形態では、ＡＤＡＳシステム１１４は、１つまたは複数の車両制御装置１１２（例えば、パワーステアリング制御装置、および／または駆動系制御モジュール）と１つまたは複数のセンサ１３０（例えば、カメラ、レーダーセンサ、超音波センサ、および／またはＬＩＤＡＲセンサ）との間を調整し、ＶＲＵおよびその軌道を識別して迫りくる衝突を検出し、自動緊急ブレーキを作動させる命令一式を含みうる。

Ｉ／Ｏデバイス１２０は、車両の乗員に対して手動操作または自動操作に関連する出力を生成するよう操作することができる、音声出力デバイス、触覚出力デバイス、表示装置、および／または他のデバイスを含むことができる。

通信インタフェース１４０は、他の車両および他のデバイスへメッセージを送信し、他の車両および他のデバイスからメッセージを受信するよう構成される無線通信インタフェースを含む。車両メッセージはＶ２ＸまたはＤＳＲＣとして伝送することができる、あるいは、任意の他の無線通信プロトコルに準拠することができる。通信インタフェース１４０は、全地球測位システムの１つまたは複数の構成要素（例えば、衛星や局地的支援サーバ）と通信を行うよう構成されている送受信機をさらに含みうる。

図２は、本開示の特定の実施形態に係るＶＲＵ意図予測システム２００のハイレベルブロック図の例を示す。ＶＲＵ意図予測システム２００は、図１のＶＲＵ意図予測モジュール１１６を実装することができて、知覚モジュール２１０と、行動予測モジュール２２０と、意図予測モジュール２３０と、を含む。

知覚モジュール２１０は、シーン内のＶＲＵを検出、識別して、位置を特定する。さらに、知覚モジュールは、シーン内で検出されたＶＲＵそれぞれに対して２次元（２Ｄ）の姿勢および３Ｄ境界ボックスを推定する。さらに、知覚モジュール２１０は、３Ｄのシーン内で検出されたＶＲＵを追跡する。加えて、知覚モジュールは、物体のいくつかの既知のクラスのうちの一つに属するように入力画像の各画素を分類する、セグメンテーションディープニューラルネットワークを利用する。一例では、画素の分類は、セマンティックシーンセグメンテーション手法を用いて、入力画像をエンコーダデコーダアーキテクチャに通してシーン記述を生成することで行うことができる。知覚モジュールの出力には、２Ｄ境界ボックス、重要な点、シーンセグメンテーションマスク、および同種のものが含まれうる。加えて、知覚モジュール２１０は、画像フレームまたはビデオフレームを入力として用いて、シーン内の物体を検出する。

行動予測モジュール２２０は知覚モジュールからシーン記述および推定姿勢を受信し、シーン内の各ＶＲＵの活動および状態を検出する。加えて、行動予測モジュール２２０は１人または複数人のＶＲＵの過去の位置の履歴を受信して、シーン内のすべてのＶＲＵの将来取り得る画素の位置を出力する。

意図予測モジュール２３０はＶＲＵの推定される軌道およびそれらのＶＲＵの活動状態を入力として受信し、ＶＲＵの意図する経路が車両の経路を横切る確率を出力する。

図３は、本開示の特定の実施形態に係る知覚モジュール３００の例を示す。知覚モジュール３００は、図２の知覚モジュール２１０を実装することができる。知覚モジュール３００は、セマンティックセグメンテーションモジュール３１０と、物体検出および人間姿勢推定モジュール３２０と、を含みうる。セマンティックセグメンテーションモジュール３１０は、物体検出モジュール３２０と並列して動作して、シーンの理解を生成する。セマンティックセグメンテーションモジュール３１０は、シーンのすべての画素をそれらの画素のそれぞれのクラスと関連付けて、シーン内の人の２Ｄの空間的位置と関連付けることができる完全なシーン記述を出力する。一実施形態では、セマンティックセグメンテーションモジュール３１０は、エンコーダデコーダアーキテクチャを利用する。一例として、セマンティックセグメンテーションモジュール３１０は、ＶＧＧまたはＲｅｓＮｅｔディープニューラルネットワークモデルを、Ｕｎｅｔや完全畳み込みネットワーク（ＦＣＮ）デコーダニューラルネットワークと共に、ＩｍａｇｅＮｅｔなどの既知のデータセットで訓練済みエンコーダとして使用することができる。一例では、モデルが入力として画像を撮影し、いくつかのプーリング層を有する２ＤのＣＮＮ層とバッチ正規化を用いて、シーンを符号化する。さらに、モデルは、デコーダを用いて最大解像度のセグメンテーションマスクを再構成する。モデルは、注釈付けされたセマンティックセグメンテーションデータで訓練されて、各画素を適切なクラスと照合する。シーンセグメンテーションの場合、出力には、人、ランドマーク、車、道路、縁石、交通標識などのあらかじめ定義されたクラスのセットへの各画素の分類が含まれる。

物体検出モジュール３２０は訓練済みの物体検出ネットワークと、シーン内の各個人に対する視覚的な手掛かり（特徴）のすべてを符号化するのに使用される２Ｄ人間姿勢推定ネットワークと、を含む。シーン内の各歩行者の２次元の空間的位置、２Ｄの重要な点、および姿勢は、低水準の特徴と、各画像での歩行者の身体および頭の向き、および連続する画像における相対的な手足の動きに関する記述と、を提供する。これは、物体の画素上での２Ｄ位置、または世界座標系での３Ｄ位置だけを用いるのと比べて、非常に豊富な情報である。

図４は、本開示の一態様に係る行動予測モジュール４００の例を示す。行動予測モジュール４００は、図２の行動予測モジュール２２０を実装することができて、活動／状態予測モジュール４１０と、軌道予測モジュール４２０と、を含む。活動予測モジュール４１０は、知覚モジュール３００から検出されたＶＲＵのそれぞれのシーン記述と推定姿勢を受信する。活動予測モジュール４１０は、ＶＲＵの２Ｄ姿勢の一連の過去の履歴と、過去Ｎフレームでの各ＶＲＵの境界ボックスと、を用いて、以下のクラスまたは状態を認識する：
・運動状態（歩き方）：歩いている／立ち止まっている／座っている
・意識状態：注視している／注視していない
・注意散漫状態：デバイスでおしゃべりしている／他の人と話している
・向き：左／右／後方／前方

活動予測モジュール４１０は、逐次入力される、２Ｄ境界ボックス、２Ｄ姿勢、および連続するビデオフレーム内での相対的な姿勢を変換して、物体レベル特徴表現を得る。一例では、活動予測モジュール４１０は、線形埋め込み層および再帰型ニューラルネットワーク（ＲＮＮ）層にその入力値を通して、空間的変換および時間的変換を行う。融合されたシーンおよび物体符号化が最後の全結合層に通されて、活動のクラスの出力が生成される。このようにして、最後のＮフレームについての情報が入力としてＬＳＴＭユニットへ与えられて、モデルはシーン内のすべての歩行者の活動／状態を認識できるようになる。開示されるシステムは、最後のＶＲＵの意図と共に活動および軌道の多数のクラスを学習する、それゆえ、このシステムはマルチタスク学習モデルである。

軌道予測モジュール４２０は、シーン内で検出されたＶＲＵの軌道を推定する。ネットワークは、所与の長さの連続する入力データに対し、畳み込みニューラルネットワークの符号化層を用いて、知覚モジュールからの２Ｄ姿勢および２Ｄ／３Ｄ境界ボックスを符号化する。連続的な物体符号化およびシーン符号化が融合されて、再帰型ユニット（例えばＬＳＴＭ）を有するデコーダへ渡されて、シーン内の個々のＶＲＵそれぞれの将来の２Ｄ画素位置が出力される。

出力されるｘｙ画素位置は、二乗Ｌ２損失を用いてグラウンドトゥルース軌道値で訓練される。推測を行っている間において、軌道予測モジュールは、過去ＮフレームでのＶＲＵ位置の入力履歴を用いて、次のｔ＋ｎフレームでのシーン内のすべてのＶＲＵの取り得る将来の画素位置を予測する。一例では、軌道予測モジュール４２０は、軌道を推定するための別々の分岐を有する活動予測モデルとして、同一のニューラルネットワークモデルを利用する。一実施形態では、軌道予測モジュール４２０は、物体検出モジュールからの出力で訓練される再帰型エンコーダデコーダモデルを使用する。

社会的相互作用の学習
シーン内のＶＲＵは、他の物体（他のＶＲＵ、車両など）と相互作用を行い、特定の定義済みの目標を念頭に移動している。シーン内のＶＲＵと複数の歩行者との間、および／またはシーン内のＶＲＵと他のＶＲＵとの間に、モデルが道路上の各人に対して理解して正確に予測する必要がある社会的相互作用要素が存在する。ＶＲＵの意図を予測し、ＶＲＵの社会的相互作用を識別することで、ＶＲＵの将来の軌道および車両の経路を横切るＶＲＵの意図を予測する際のシステムの精度が向上する。

学術研究に由来する敵対的生成ネットワークを用いた社会的に許容される軌道（ソーシャルＧＡＮ）／ソーシャルＬＳＴＭなどの当技術分野での現在の方法は、歩行者に対する特徴のプーリングを用いて社会的学習という概念を提示する。しかし、こうしたモデルは複数の歩行者だけの間の相互作用のみをモデル化することに極めて限定されている。特定の実施形態は、１人または複数人の歩行者の間の社会的相互作用、歩行者と他の物体の間の相互作用、およびシーンをモデル化する方法を提示する。特定の実施形態は、符号化されたシーンの豊富な意味を軌道予測モジュールへ入力される特徴として含めることで、歩行者と他の物体の間のシーン内の相互作用を予測して、歩行者がシーンと行いうる相互作用を識別および検出する。

加重学習
特定の実施形態は、集団で歩いている歩行者、何かを運んでいる歩行者、他のユーザまたは物体を物理的に抱えている歩行者、および同種のものを含む運動状態を独自の方法で限定してモデル化する。行動の意図は、上記の場合のそれぞれに対して非常に異なっていることに留意されたい。一実施形態では、注釈付けされたラベルを、各ＶＲＵがグループに属しているか、または個人であるかを識別するモデルに加えることができる。モデル内にこの教師あり学習の能力を含めることで、歩行者／ＶＲＵが異なる集団運動状態を持つ場合にシステムが異なる反応をすることができる。符号化層の社会的プーリングが歩行者間の相互作用を学習するのに使用される。

図５は、本開示の特定の実施形態に係る意図確率予測モジュール５００の例を示す。一実施形態では、軌道予測および活動予測がＤＮＮモデルの最後の全結合層に入力されて、各ＶＲＵに対する最終的な意図が、確率と共に推定／予測される。特定の実施形態は、行動モジュールに対して個別のクラスのラベルのそれぞれを訓練するための重み付けされた交差エントロピー損失を使用し、別々のリッジ回帰損失関数が軌道モデルを訓練するのに使用される。示されるように、意図確率予測モジュールは、ＶＲＵ活動状態（例えば、歩き方、注意、向かい合っている、横切っている、など）およびＶＲＵの軌道を入力として受信する。意図確率予測モジュールは、ＶＲＵのそれぞれの意図の確率を推定する。例として、意図確率予測モジュールは、ＶＲＵが車両の将来の軌道を横切る確率を推定する。例えば、第１歩行者が横断歩道の手前で立ち止まっていて、赤信号／青信号に能動的に注意を払っている場合、この第１歩行者が車道を横切る意図の確率は高くなるであろう。別の例では、第２歩行者が交差点で立ち止まっていて、車道よりも建物の側面の近くで自分の電話で話している場合、第２歩行者が横切るという意図の確率は第１歩行者よりも低い（たぶん、第２歩行者は交差点で友人と会うために待っている）。

ＶＲＵ意図予測システムは、ＡＤＡＳ／自動運転（ＡＤ）能力を持つ車両の、計画モジュールまたは警告システムへの入力として、現在の状態および将来の予測を提供する。ＶＲＵ意図予測システムは、ＡＤＡＳアプリケーションでは警告システムとして機能して、３６０のシーン内の歩行者から異常または危険な意図が検出された場合に、運転席にいる運転者に制御させる、あるいは警告することができる。同様に、自律走行車は、その軌道を計画するために道路利用者（例えば、ＶＲＵや車）の意図を正確に推定する必要があり、それに応じて移動する。任意の配送ロボット（食料、雑貨、ラストマイルなど）において、ロボットは、常に縁石にいる歩行者および自転車乗りと関わり合いながら進む必要がある。

図６は、本開示の特定の実施形態に係る、提案されている方法のフローチャートの例を示す。６１０において、１つまたは複数のセンサを含む車両のコンピュータシステムは、車両の外のシーンに対応する連続するビデオフレームを取得する。連続するビデオフレームは、１つまたは複数のセンサの少なくとも１つを用いてキャプチャすることができる。例として、連続するビデオフレームは、１つまたは複数の魚眼カメラを用いてキャプチャすることができる。

６２０において、コンピュータシステムは、連続するビデオフレーム内で１人または複数人のＶＲＵを検出する。一例では、コンピュータシステムはシーン内で１人または複数人のＶＲＵを識別し、シーン内のＶＲＵのそれぞれに対して境界ボックスを生成して、検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定する。

６３０において、コンピュータシステムは、ビデオフレームの１つまたは複数を用いてシーンのセグメンテーションマップを生成する。一例では、コンピュータシステムは、シーンの各セグメントをシーン内の物体の多数のクラスのうちの一つに分類する。一例では、コンピュータシステムは、ニューラルネットワークアーキテクチャを連続するビデオフレームに適用することによってセグメンテーションマップを生成して、連続するビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類する。それぞれのクラスは、セグメンテーションマップ内のあるセグメントに対応する。一実施形態では、セグメンテーションマップはビデオまたは画像の各フレームに対して行われる。

６４０において、コンピュータシステムは、１人または複数人のＶＲＵの推定される姿勢およびセグメンテーションマップを用いて、１人または複数人のＶＲＵの１つまたは複数の意図の確率を推定する。それぞれの意図の確率は、検出された１人または複数人のＶＲＵのうちの１人に対応しうる。

一例では、コンピュータシステムは、１人または複数人のＶＲＵとセグメンテーションマップ内の物体に対応する１つまたは複数のクラスの間の社会的相互作用を分析することで、１つまたは複数の意図の確率を推定する。

一例では、コンピュータシステムは、まず、マルチタスクモデルを用いて、少なくとも１人または複数人のＶＲＵの推定される姿勢に基づいて１つまたは複数の行動状態を推定し、推定される行動状態を利用して１つまたは複数の意図の確率を推定することで、１つまたは複数の意図の確率を推定する。

一例では、コンピュータシステムは、少なくともＶＲＵの推定される姿勢に基づいて１つまたは複数の行動状態を推定することができる。各行動状態は、検出されたＶＲＵのうちの１人に対応しうる。コンピュータシステムは、ニューラルネットワークアーキテクチャを１人または複数人のＶＲＵのそれぞれの連続した一連の姿勢に適用することで１つまたは複数の行動状態を推定して、複数のあらかじめ定義された行動状態の中からＶＲＵに対してある行動状態を選択することができる。前述したように、あらかじめ定義された行動状態は、歩き方、注意、向かい合っている、横切っている、および同種のものとすることができる。そして、コンピュータシステムは、推定される１つまたは複数の行動状態を用いて１人または複数人のＶＲＵの将来の軌道を推定することができる。

一例では、上述した、検出するステップ、生成するステップ、および推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、１人または複数人のＶＲＵの推定される姿勢および１人または複数人のＶＲＵの対応する行動状態を、１人または複数人ＶＲＵのそれぞれの近くの分割されたシーンと順次関連付けることで行われる。

６５０において、コンピュータシステムは、推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転動作を調整する。例として、自動運転動作は、車両の運転者に対して、車道に入ってこの車両に出くわそうとしているＶＲＵとの迫りくる衝突についての警告を生成することである可能性がある。別の例では、自動運転動作は、車道に入ろうとしている歩行者に衝突するのを回避するために自動走行車または自律走行車の軌道を変更することである可能性がある。別の例では、動作は、自動緊急ブレーキシステムを作動させて歩行者に衝突するのを回避することである可能性がある。任意の他の自動運転動作が本開示の範囲内に含まれうることに留意されたい。一実施形態では、コンピュータシステムは、予測される行動状態および各ＶＲＵの車両への近さに基づいて、１人または複数人のＶＲＵの中から少なくとも１人の危険性の高いＶＲＵを選択することができる。そして、コンピュータシステムは、運転者または自動運転システムに危険性の高いＶＲＵ（例えば、道路へ飛び出して車両の軌道を横切ろうとしている子供など）の存在について通知することができる。

図７Ａおよび図７Ｂは、本開示の特定の実施形態に係る、２つの例示の画像に対する意図叙述システムの出力の例を示す

図７Ａは、活動予測モジュールの出力が付されている例示の画像を示す。図７Ａに示されるように、２人の歩行者が車道上、または車道へ向かって歩いている。第１歩行者７１０は左を向いており、注意散漫な状態で歩いている。この歩行者が車道を通過して車両と出会う確率は０．９７である。他の歩行者７２０はまだ歩道上におり、デバイスを持って左を向いて歩いており、周囲を意識している。この歩行者が次の数個のタイムスタンプ内に道路を横切ることを意図する確率は０．８２である。

図７Ｂは、車両の近くを歩いている別の複数の歩行者の例を示す。この画像では、４人の歩行者が歩く軌道が示されている。そして、これらの軌道は、意図確率推定システムがこれらの歩行者（例えばＶＲＵ）のそれぞれが車道を横切る確率を推定するのに使用される。そして、自動システムは、その経路計画システムにおいてこの推定される確率を用いて、事故を防ぐために自身の軌道を推定することができる。

ＶＲＵ意図検出システムの利点
本明細書で提示されるＶＲＵ意図予測システムは、歩行者および他の道路利用者の将来の経路を推定する精度を向上させる。各ＶＲＵについての低水準の情報を利用することで、意図予測システムは、ＶＲＵのそれぞれが近い将来に車道を横切る、または歩道に留まる意図を予測することができる。自動走行車または自律走行車は、ＶＲＵ意図予測システムを利用して、市街地の道路を運転している間のその操作の総合的な安全性を向上させることができる。その結果、意図予測システムは、道路を車両と共有するＶＲＵの安全性を向上させる。例として、ＶＲＵが道路を横切ろうとしていることを自動走行車または自律走行車が検出した場合、（例えば、ＶＲＵが優先権を持っている場合に）ＶＲＵに譲るために、自動走行車または自律走行車は、その速度を落とす、および／または停止することができる。ＶＲＵが優先権を持っていない（例えば、歩行者の信号が赤である）場合、自動走行車または自律走行車は、（例えば、そのＶＲＵが車道へ足を踏み入れると決めた場合に）将来の事故を防ぐため、シーン内の危険性が高いＶＲＵであると印が付けられたＶＲＵに特別な注意を払いながら、その経路を維持しうる。

本明細書で開示されるＶＲＵ意図予測システムは、いくつかの利点を有する。まず、歩行者およびＶＲＵの他のクラスの意図を理解することで、市街地の道路上のどのような自律走行車またはロボットも、人が運転を行ってシーン内のＶＲＵと相互作用する方法に似た、自然主義的な運転行動を実現することができる。加えて、シーン内のＶＲＵの姿勢および３Ｄ位置についての低水準の情報を用いて、連続するフレーム内の変化を時間的に関連付けることで、ＶＲＵ意図予測モデルは、歩き方、意識、注意散漫などの活動の認識において約９８パーセントの精度を達成する（注釈付けされたデータで訓練されて評価された場合）。

さらに、マルチタスク学習方法、または教師あり訓練データを用いて訓練することができるディープニューラルネットワークを用いることで、特定の実施形態は、行動、将来の軌道、および意図を予測する作業をずっと少ない（例えば３０～４０パーセントの）演算・記憶装置要件で達成する。これは、ネットワークが、重み共有と、低水準の特徴、行動、および予測される軌道の相互関連付けと、を活用するからである。これにより、活動の認識、軌道の予測、および意図の予測の質と精度において、著しい改善がもたらされる。

特定の実施形態は、開示されるＶＲＵ意図予測方法を魚眼カメラおよび／または３６０度の視界のコクーンカメラ（ｃｏｃｏｏｎｃａｍｅｒａ）（例えば、車両の前部に１つのカメラ、車両の後部に１つのカメラ、車両の側面に２つのカメラ）からの画像に対して使用して、車両の周囲のＶＲＵに対する３６０度の検出・予測能力を実現する。開示されるシステムは、前方衝突警告および移動計画に役立つだけでなく、後方運転モード（例えば、駐車場から車を出している間、または後方ＡＥＢ（自動緊急ブレーキ）の予測範囲を改善するため）にも役立つ。これにより、制御システムは、ＶＲＵの将来の状態を予測することで、ずっと早くに制動工程を開始することができる。

さらに、シーンのセグメンテーションマスクを入力として用いて、システムは、物理的な相互作用、及び、ＶＲＵの現在の行動とシーンの異なる要素との間の因果関係を考慮することで、ＶＲＵの軌道および活動を学習して予測する。例として、提案されているシステムは、シーン内で歩行者または自転車乗りが車や建物を通り抜けることができないことを理解および予測して、そのような要素の周囲の軌道を正確に予測する。加えて、複数の個人またはＶＲＵの集団、及び複数のＶＲＵと、他の物体と、の間のシーン内における社会的な行動の理解が改善される。

本明細書で論じられる方法、システム、およびデバイスは例である。様々な実施形態では様々な手順や構成要素を必要に応じて省略、置換、または追加してもよい。例えば、特定の実施形態に関して記載された特徴を、様々な他の実施形態において組み合わせてもよい。同様に、異なる態様と複数の実施形態の要素を組み合わせてもよい。本明細書で提供される図の様々な構成要素は、ハードウェアおよび／またはソフトウェアで具現化することができる。また、技術は進化するので、要素の多くは、本開示の範囲をそれらの特定の例に制限することのない例である。

いくつかの実施形態を記載したが、様々な変更、代替の構造、および均等物を、本開示の趣旨を逸脱することなく使用することができる。例えば、上記の要素は大型のシステムの構成要素に過ぎないことがあり、他の規則が実施形態の適用より優先されることがある、あるいはそうでなければ、他の規則が実施形態の適用を変更することがある。また、多数のステップが、上記の要素が考慮される前、考慮されている間、または考慮された後に行われることがある。その結果、上記の記述は、本開示の範囲を記載された実施形態そのものに制限しない。

Claims

１つまたは複数のセンサを含む車両のコンピュータシステムにより、前記車両の外のシーンに対応する連続するビデオフレームを取得することであって、前記連続するビデオフレームは前記１つまたは複数のセンサの少なくとも１つを用いてキャプチャされる、取得することと、
前記コンピュータシステムにより、前記連続するビデオフレーム内で１人または複数人の交通弱者（ＶＲＵ）を検出することであって、前記検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定することを含む、検出することと、
前記コンピュータシステムにより、前記ビデオフレームの１つまたは複数を用いて前記シーンのセグメンテーションマップを生成することと、
前記コンピュータシステムにより、前記１人または複数人のＶＲＵの推定される姿勢および前記セグメンテーションマップを用いて１つまたは複数の意図の確率を推定することであって、前記意図の確率はそれぞれ前記検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、
前記コンピュータシステムにより、前記推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転動作を調整することと、
を含む、方法。
前記コンピュータシステムにより、少なくとも前記１人または複数人のＶＲＵの前記推定される姿勢に基づいて１つまたは複数の行動状態を推定することであって、各行動状態は、前記検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、
前記コンピュータシステムにより、前記推定される１つまたは複数の行動状態を用いて、前記１人または複数人のＶＲＵの将来の軌道を推定することと、
をさらに含む、請求項１に記載の方法。
前記検出するステップ、前記生成するステップ、および前記推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、前記１人または複数人のＶＲＵの前記推定される姿勢および前記１人または複数人のＶＲＵの対応する行動状態を、前記１人または複数人のＶＲＵのそれぞれの近くの分割されたシーンと順次関連付けることで行われる、請求項１に記載の方法。
前記１つまたは複数の意図の確率を推定することは、
マルチタスクモデルを用いて、少なくとも前記１人または複数人のＶＲＵの前記推定される姿勢に基づいて前記１つまたは複数の行動状態を推定することと、
前記推定される１つまたは複数の行動状態に基づいて前記１つまたは複数の意図の確率を推定することと、
を含む、請求項１に記載の方法。
前記１つまたは複数の行動状態を推定することは、
ニューラルネットワークアーキテクチャを前記１人または複数人のＶＲＵのそれぞれの連続した一連の姿勢に適用して、複数のあらかじめ定義された行動状態の中から前記ＶＲＵのための行動状態を選択すること、
を含む、請求項４に記載の方法。
前記セグメンテーションマップを生成することは、
ニューラルネットワークアーキテクチャを前記ビデオフレームの１つまたは複数に適用して、前記ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類することを含み、それぞれのクラスは、前記セグメンテーションマップ内のあるセグメントに対応する、請求項１に記載の方法。
前記コンピュータシステムにより、前記予測される行動状態および前記ＶＲＵのそれぞれの前記車両への近さに基づいて、前記１人または複数人のＶＲＵの中から少なくとも１人の危険性の高いＶＲＵを選択すること、をさらに含む、請求項１に記載の方法。
前記コンピュータシステムにより、前記１人または複数人のＶＲＵと前記セグメンテーションマップ内の物体に対応する１つまたは複数のクラスとの間の社会的相互作用を分析することで、前記１つまたは複数の意図の確率を推定すること、をさらに含む、請求項１に記載の方法。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと結合された記憶装置であって、前記少なくとも１つのプロセッサは、
１つまたは複数のセンサによりキャプチャされる車両の外のシーンに対応する連続するビデオフレームを取得することと、
前記連続するビデオフレーム内で１人または複数人の交通弱者（ＶＲＵ）を検出することであって、前記検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定することを含む、検出することと、
前記ビデオフレームの１つまたは複数を用いて前記シーンのセグメンテーションマップを生成することと、
前記１人または複数人のＶＲＵの推定される姿勢および前記セグメンテーションマップを用いて１つまたは複数の意図の確率を推定することであって、前記意図の確率はそれぞれ前記検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、
前記推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転動作を調整することと、
を行うよう構成されている、記憶装置と、
を含むコンピュータシステム。
前記少なくとも１つのプロセッサはさらに、
少なくとも前記１人または複数人のＶＲＵの前記推定される姿勢に基づいて１つまたは複数の行動状態を推定することであって、前記行動状態はそれぞれ前記検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、
前記推定される１つまたは複数の行動状態を用いて、前記１人または複数人のＶＲＵの将来の軌道を推定することと、
を行うよう構成される、請求項９に記載のコンピュータシステム。
前記検出するステップ、前記生成するステップ、および前記推定するステップは、ホリスティックな深層学習ニューラルネットワークモデルを用いて、前記１人または複数人のＶＲＵの前記推定される姿勢および前記ＶＲＵの対応する行動状態を前記１人または複数人のＶＲＵのそれぞれの近くの分割されたシーンと順次関連付けることで行われる、請求項９に記載のコンピュータシステム。
前記少なくとも１つのプロセッサはさらに、
前記１つまたは複数の意図の確率を、
マルチタスクモデルを用いて、少なくとも前記１人または複数人のＶＲＵの前記推定される姿勢に基づいて前記１つまたは複数の行動状態を推定し、
前記推定される１つまたは複数の行動状態に基づいて前記１つまたは複数の意図の確率を推定する、
ことにより推定するよう構成される、請求項９に記載のコンピュータシステム。
前記少なくとも１つのプロセッサはさらに、
ニューラルネットワークアーキテクチャを前記１人または複数人のＶＲＵのそれぞれの連続した一連の姿勢に適用することで前記１つまたは複数の行動状態を推定して、複数のあらかじめ定義された行動状態の中から前記ＶＲＵに対してある行動状態を選択する、
よう構成される、請求項１２に記載のコンピュータシステム。
前記少なくとも１つのプロセッサはさらに、
ニューラルネットワークアーキテクチャを前記ビデオフレームの１つまたは複数に適用することによって前記セグメンテーションマップを生成して、前記ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類し、それぞれのクラスが前記セグメンテーションマップ内のあるセグメントに対応する、
よう構成される、請求項９に記載のコンピュータシステム。
前記少なくとも１つのプロセッサはさらに、
前記予測される行動状態および前記ＶＲＵのそれぞれの前記車両への近さに基づいて、前記１人または複数人のＶＲＵの中から少なくとも１人の危険性の高いＶＲＵを選択する、
よう構成される、請求項９に記載のコンピュータシステム。
前記少なくとも１つのプロセッサはさらに、
前記１人または複数人のＶＲＵと前記セグメンテーションマップ内の物体に対応する１つまたは複数のクラスとの間の社会的相互作用を分析することで、前記１つまたは複数の意図の確率を推定する、
よう構成される、請求項９に記載のコンピュータシステム。
車両のコンピュータシステムの１つまたは複数のプロセッサにより実行された場合に前記１つまたは複数のプロセッサに、
１つまたは複数のセンサを用いてキャプチャされる前記車両の外のシーンに対応する連続するビデオフレームを取得することと、
前記連続するビデオフレーム内で１人または複数人の交通弱者（ＶＲＵ）を検出することであって、前記検出された１人または複数人のＶＲＵのそれぞれの姿勢を推定することを含む、検出することと、
前記ビデオフレームの１つまたは複数を用いて前記シーンのセグメンテーションマップを生成することと、
前記１人または複数人のＶＲＵの推定される姿勢および前記セグメンテーションマップを用いて１つまたは複数の意図の確率を推定することであって、前記意図の確率はそれぞれ前記検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、
前記推定される１つまたは複数の意図の確率に基づいて１つまたは複数の自動運転動作を調整することと、
を行わせる命令を記憶する、コンピュータ可読記憶媒体。
前記命令はさらに、前記１つまたは複数のプロセッサに、
少なくとも前記１人または複数人のＶＲＵの前記推定される姿勢に基づいて１つまたは複数の行動状態を推定することであって、前記行動状態はそれぞれ前記検出された１人または複数人のＶＲＵのうちの１人に対応する、推定することと、
前記推定される１つまたは複数の行動状態を用いて、前記１人または複数人のＶＲＵの将来の軌道を推定することと、
を行わせる、請求項１７に記載のコンピュータ可読記憶媒体。
前記命令はさらに、前記１つまたは複数のプロセッサに、
マルチタスクモデルを用いて、少なくとも前記１人または複数人のＶＲＵの前記推定される姿勢に基づいて前記１つまたは複数の行動状態を推定することと、
前記推定される１つまたは複数の行動状態に基づいて前記１つまたは複数の意図の確率を推定することと、
を行わせる、請求項１７に記載のコンピュータ可読記憶媒体。
前記命令はさらに、前記１つまたは複数のプロセッサに、
ニューラルネットワークアーキテクチャを前記ビデオフレームの１つまたは複数に適用して、前記ビデオフレーム内の各画素を複数のあらかじめ定義されたクラスのうちの一つとして分類し、それぞれのクラスが前記セグメンテーションマップ内のあるセグメントに対応すること、
を行わせる、請求項１７に記載のコンピュータ可読記憶媒体。