JP7450754B2 - 画像解析から得られたフィンガープリントを用いた、画像フレーム全体に亘る脆弱な道路利用者の追跡 - Google Patents

画像解析から得られたフィンガープリントを用いた、画像フレーム全体に亘る脆弱な道路利用者の追跡 Download PDF

Info

Publication number
JP7450754B2
JP7450754B2 JP2022564115A JP2022564115A JP7450754B2 JP 7450754 B2 JP7450754 B2 JP 7450754B2 JP 2022564115 A JP2022564115 A JP 2022564115A JP 2022564115 A JP2022564115 A JP 2022564115A JP 7450754 B2 JP7450754 B2 JP 7450754B2
Authority
JP
Japan
Prior art keywords
vru
images
embeddings
embedding
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022564115A
Other languages
English (en)
Other versions
JP2023522390A (ja
Inventor
チトラ プラディープ ヤジニ
エル ユーソフィ ワシム
ノイ ドミニク
オーヴァー イブラード ジェームズ
ボーズ ラウナック
ララ オードリー ピンデウス マヤ
セース ノーテボーム レスリー
Original Assignee
ヒューマニシング オートノミー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヒューマニシング オートノミー リミテッド filed Critical ヒューマニシング オートノミー リミテッド
Publication of JP2023522390A publication Critical patent/JP2023522390A/ja
Application granted granted Critical
Publication of JP7450754B2 publication Critical patent/JP7450754B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本開示は、概して、インテリジェントな道路車両アプリケーションに関するものであり、より具体的には、フレームからフレームへの脆弱な道路使用者の追跡に関するものである。
自律車両は、時間の経過とともに歩行者を追跡しようとする。しかしながら、歩行者がビデオの中間フレームのセットでオクルージョンとなるとき(例えば、ユーザがオブジェクトの後ろを歩く、または車が歩行者を追い越す、または別の歩行者がユーザを追い越すため)、フレームに亘って歩行者を追跡することは困難または不可能である。追跡が失敗すると、既存のシステムは、歩行者がオクルージョンに続いてフレームに再び入るとき、歩行者が以前のフレームで観察されなかった新しい人物であると仮定し得る。このような場合、以前に観察された情報及び歩行者のために行われた予測は失われる。この結果、歩行者がどのように行動するかの予測が最適でなく、自律走行車の行動が不正確、非効率、または安全でない結果になり得る。
オクルージョンの前後に脆弱な道路使用者を追跡するためのフィンガープリントツールを含む車両の一実施形態を示す図である。 フィンガープリントツールによって使用される前に前処理され得る画像の一実施形態を示す図である。 フィンガープリントツールによって実行される例示的なモジュールの一実施形態と、その中を通るデータフローを示す図である。 画像からフィンガープリントを抽出するためのニューラルネットワークモデルの一実施形態を示す図である。 フィンガープリントツールを使用するための処理の例示的なフローチャートを示す図である。
図面は、例示の目的のみのため、本発明の様々な実施形態を示している。当業者は、本明細書に例示された構造及び方法の代替的実施形態が、本明細書に記載の本発明の原理から逸脱することなく利用することができることを以下の説明から容易に認識する。
(a)概要
オクルージョンとなるかどうかにかかわらず、脆弱な道路使用者(VRU)を経時的に追跡するためのシステム及び方法が本明細書に開示される。オクルージョン問題を克服するために、マルチタスク機械学習モデルは、複数のエンコーダを組み合わせるように訓練され、そのそれぞれは、VRUの活動を予測するように訓練される。取得された境界ボックス画像は、機械学習モデルに入力され、追加情報と共に、任意選択でVRUのフィンガープリントが出力される。複数のエンコーダを機械学習モデルに組み合わせることによって、部分的または完全なオクルージョンとなった場合でも、同じ個人が追跡されるフレーム全体に亘って高い信頼度が達成される。
(b)VRUのキャプチャ画像
図1は、オクルージョンの前後に脆弱な道路使用者を追跡するためのフィンガープリントツールを含む車両の一実施形態を示す。環境100は、車両120の一部として描写されるフィンガープリントツール110を含む。車両120は、自律車両、半自律車両、または非自律車両であってもよい。VRU130は、環境100全体にわたって示される。本明細書で使用されるVRUという用語は、歩行者だけでなく、自転車またはスクーターまたは車椅子(及び同様のもの)などのマイクロモビリティビークル上の人間、ならびにイヌ及び他のペットなどの人間の仲間を指す。車両120は、本明細書で使用されるように、経時的に画像をキャプチャする1つ以上のカメラセンサ、カメラセンサを備える。画像は、画像であってもよく、深度及び/または熱情報などの他の感覚入力を示す画像を含んでもよく、または別個に生成してもよい。画像は、一定の時間の経過に基づき、定期的に撮影されてもよいし、車両120が前回の画像撮影時から一定の距離を走行した等の何らかの他の事象に基づいて撮影されてもよい。一緒に撮影された画像は、ビデオ(例えば、高解像度のビデオ)を形成し得て、この文脈において、画像は、本明細書で「フレーム」と呼ばれることがある。同時に撮影された複数のカメラセンサからの画像は、(例えば、パノラマ画像または360度画像を形成するために)一緒に繋ぎ合わされてもよく、または単独の画像として使用されてもよい。車両120は、また、カメラセンサ(複数可)からの画像に関連する補助情報を提供する他のセンサを備えてもよい。例示的なセンサは、グローバルポジショニングシステム(GPS)センサ、及び慣性測定ユニット(IMU)センサを含むが、任意のタイプの情報を測定するための任意のセンサを含んでもよい。
フィンガープリントツール110は、画像を受信し、各VRU130のフィンガープリントを生成し、経時的にVRU130を追跡する。本明細書で使用されるフィンガープリントという用語は、VRUが車両120のカメラセンサの周辺を離れる時間まで、VRUの動作を追跡するために使用されるVRUの匿名表現を指す。フィンガープリントが含むものの構造の詳細は、図3、4を参照してさらに詳細に議論される。フィンガープリントツール110は、VRUが、他のオブジェクト、または他のVRUにより、部分的に、または全体的にオクルージョンとなっているか否かに関わらず、各VRU130を追跡する。以下、フィンガープリントツール110がどのように機能するかの詳細は、図3を参照してさらに詳細に説明される。フィンガープリントツール110は、修正された自律運転行動、車両120の運転者へのアラート、車載カメラによって処理されたデータのような、特定の機能性をもたらし得る車両120の他のツールに出力を与えてもよい。フィンガープリントツール110は、車両120内に設置されているように表現されているが、全体または部分をリモートサーバに設置してもよく、車両120は画像に沿って通過するためにリモートサーバと通信し、フィンガープリントツールの出力を受信してもよい。一実施形態において、フィンガープリントツール110は、VRUの挙動及び事故検出の事後評価(例えば、保険または全車両管理の目的のために)を実行するために、クラウドコンテキストに完全に組み込まれてもよい。そのような実施形態では、センサデータは、本明細書に記載されるものと同様の方法で処理するためにクラウドコンテキストに送信される。
(c)画像の例示的な前処理
図2は、フィンガープリントツールによって使用される前に前処理され得る画像の一実施形態を示す。画像200は、車両120の撮像素子によって取り込まれたビデオのフルフレーム等のフレームを表す。一実施形態では、画像200は、処理のためにフィンガープリントツール110への入力としてその全体が送られる。一実施形態では、フィンガープリントツール110は、画像200内の1つ以上のVRU230を検出する検出モデルを実行することによって画像200を前処理し、境界枠に応答性を適用する。画像200を前処理するため、フィンガープリントツール110は、1つまたはそれ以上のVRU230を切取部分250にし、1つ以上の切取部分(複数可)250を、図3を参照して以下で説明するフィンガープリント抽出モジュールの1つ以上の共有層等のエンコーダへの入力として使用する。さらに、フィンガープリントツール110は、追跡モジュールに入力するための各境界ボックスの座標を決定してもよい。一実施形態では、以下で図3に関して説明するように、追跡モジュールへの入力として、画像200及び切取部分250の両方を使用してもよい。エンコーダへの入力として切出部分250を使用することは、フル画像の非切り出し部分にはVRUの活動に関する情を提供しないノイズが含まれる可能性があるため、フル画像の使用に対して有利である。さらに、プロセッサ集約型であるエンコーダは関連する境界枠データ上でフル画像を除外するように動作すると、精度が向上し、レイテンシ及び一般処理ユニット(GPU)のフットプリントが低減される。エンコーダ及び追跡モジュールによる処理、ならびに追跡モデルの出力は、図3から図4を参照して以下でさらに詳細に説明される。
(d)フィンガープリントツールの機能
図3は、一実施形態の例示的なモジュールをフィンガープリントツール及び、それを通るデータフローチャートによって示す。センサモジュール305は、GPS及びIMUデータ等の画像及び補助データ等の車両120によって撮像されたセンサデータを受信する。センサモジュール305は、画像をVRU検出機械学習モデル310に渡し、補助データ(例えば、GPS及びIMUデータ、深度データ、熱データ等)を追跡モジュール330に渡す。図2を参照して論じられたように、VRU検出機械学習モデル310は、画像を前処理し、トリミングされた境界枠画像315及び/または境界枠座標320を出力する。この目的を達成するために、VRU検出機械学習モデル310は、画像内の1つ以上のVRUを検出し、画像内で検出された各VRUの切出された境界枠及び/または境界枠が画像のコンテキスト内で適用される座標を出力するように訓練される。ライブビデオが受信されると、画像はリアルタイムまたは略リアルタイムで前処理され得て、フレームはそこから取得される。クラウドプラットフォーム上の後処理などのイベントが発生した後にビデオが処理される実施形態では、画像は、リアルタイムよりも速く前処理され得る(例えば、ビデオは、ビデオ自体の長さよりも短い時間で分析され得る)。
フィンガープリント抽出モジュール325は、画像の各境界枠に示される各VRUのフィンガープリントを生成する。これを行うために、フィンガープリント抽出モジュール325は、マルチタスクモデルへの入力として、VRU検出機械学習モデル310から出力として受信される各切り取られた境界ボックス315を供給する。マルチタスクモデルは、VRUに関する異なるパラメータを決定するためにそれぞれ学習されるブランチを有するマルチタスクニューラルネットワークであり、特に、図4を参照してさらに詳しく説明する。マルチタスクモデルは、画像の各境界枠にフィンガープリントを出力する。一実施形態において、各フィンガープリントは、埋め込み(すなわち、境界枠の特徴であるデータを含む潜在空間内のベクトル)を含み、エンコーダとして機能するマルチタスクニューラルネットワークの中間層から出力、または取得される。この埋め込みのさらなる詳細は、図4に関して以下に説明される。フィンガープリント抽出モジュール325は、フィンガープリントの各々をメモリに記憶してもよい。
追跡モデル330は、メモリからフィンガープリント抽出モジュール325によって生成されたフィンガープリントを取得し(またはフィンガープリント抽出モジュール325の出力として直接受信する)、そこからどのフィンガープリントが同じ実体を表すか(つまり、どの境界枠が画像の異なるものに渡って同じ人物を含むか)を決定する。追跡モジュール330もまた、GPSデータ、IMUデータ、画像深度データ及び/または熱データ(または各境界枠についての深度/熱データを示す部分的な画像深度データ及び/または熱データ)等の補助データ、ならびに任意の他の補助データをセンサモジュール305から受信してもよい。一実施形態において、追跡モジュール330は、クラスタリングアルゴリズム等の教師なし学習モデルを使用することによって、この決定を実行する。例示的なクラスタリングアルゴリズムは、データのセット上の最も近い隣接クラスタリングアルゴリズム、ならびに重心、密度、及び階層的アルゴリズムを含む。ソフトクラスタリングも同様に、例えば、期待値最大化アルゴリズムを使用して最尤推定値または最大事後推定値を計算し、モデル(例えば、ガウス混合モジュール)のパラメータを取得することに使用され得る。ベイズ推論は、不確実性値(以下でさらに説明する)として出力を受信するために、ソフトクラスタリングを実行するために使用され得る。期待最大化アルゴリズムはまた、あるいは、ベイズ推論を使用して、最大尤度(MLE)及び最大事後推定値(MAP)を取得してもよい。完全なベイズ推論を使用して、モデルの適合性及び不確実性のより良い理解を得るために、ガウス混合モジュールのパラメータ及び潜在的な変数にわたる分布を取得し得る。データのセットは、所定のセッションにおいて、画像の各々にわたるフィンガープリントの各々、及びそこから取得された境界枠の各々を含んでもよく、セッションは、動作時間の量である(例えば、車両がオンになってから、所定のVRUが検出されてからの最後の10分、最後の10秒等)。他の実施形態において、データのセットは、セッションにわたって得られたフィンガープリントを含み、それらのセッションは、同じ車両120から、又は異なる車両120から得られた画像からであってよい。どちらの場合においても、データセットは補助データをも含んでもよい。フィンガープリント抽出モジュール302がフィンガープリントを記憶するメモリは、セッションの終了時にパージされてもよく、または任意の所定の時間維持されてもよく、及び、必要に応じて、GPSデータ等の補助データと共に保存されてもよい(これにより、セッションに亘る追跡が改善される)。
追跡モジュール330は、クラスタリングアルゴリズムの結果として、埋め込みのクラスタを特定し、各クラスタは、フレームを通じて特定の人物の境界枠に対応する埋め込みを有する。したがって、追跡モジュール330は、所定のクラスタ内に埋め込みを有するフィンガープリントに基づいて、オクルージョンにもかかわらず、様々なフレームにわたってユーザが同じユーザであるかどうかを判定する。追跡モジュール330は、一連の論理的なルールをクラスタリングに適用してもよい。例えば、追跡モジュール330は、同じ人物が単一のフレーム内に2回存在することはできないため、同じフレーム内に現れる境界枠に対応する2つのベクトルのクラスタリングを防止し得る。
追跡モジュール330は、境界枠がフレームにわたって同じ人物を含むという判定に加えて、その判定に関連付けられた確実性スコアを出力してもよい。すなわち、これがフレームに亘って同一人物であるとの判断が真である確率である。確実性スコアを判定するために、追跡モジュール330は、確率的クラスタリングアルゴリズム(例えば、ソフトクラスタリング)を各クラスタに適用して、人物が所定のクラスタに属する確率を判定してもよい。例えば、ガウス混合モデル(GMM)はソフトクラスタリングアルゴリズムとして用いられてもよく、潜伏変数が各データポイントに割り当てられる。各潜在変数は、所定の観測されたデータポイントが所定のクラスタコンポーネント(すなわち、GMMの特定のコンポーネント)に属する確率を表す。GMMを埋め込みに適合させることにより、追跡モジュール330は、新しい観測ごとに、同じ埋め込みに属する確率を取得してもよい。追跡モジュール330は、確率を使用して確実性スコアを割り当てる、または抽出してもよい。
(e)フィンガープリントツールのための例示的なマルチタスクモデル
図4は、画像からフィンガープリントを抽出するニューラルネットワークの一実施形態を示す。マルチタスクモデル400は、マルチタスクモデル312の例示的な表現である。マルチタスクモデル400は、トリガに基づいて初期化されてもよい。例示的なトリガとしては、車両120の点火、VRUが最後に検出されてから閾値時間が経過した後の画像においてVRUが検出されること等がある。初期化の後、モデル入力410は、モデル400によって受信される。マルチタスクモデルの構造は、共有層420のセット及び複数の分岐タスク固有の層430を有し、分岐タスク固有の層430の各分岐は、タスク450に対応する。タスク450は、ドメイン内で関連しており、タスク450の各々が、高度に重なり合う情報空間に基づいて予測可能であるアクティビティを予測することを意味する。例えば、自動運転システムによる使用のための歩行者の属性の予測において、異なるタスク450は、歩行者が車両を認識しているかどうか、歩行者が電話を見ているかどうか、歩行者が成人であるかどうか等の活動を予測してもよい。したがって、訓練されたとき、共有層420は、タスク450のそれぞれを実行し、これらの予測のそれぞれを出力するのに有用な情報を生成する。
マルチタスクモデル400を訓練するため、訓練例はタスク450に関連付けられたラベルを含む。各訓練例は、分岐タスクのためのラベルを含む。ニューラルネットワークのコンテキストでは、訓練中に、訓練例がサンプリングされ、各サンプルについて、バックプロパゲーションアルゴリズムが実行されて、サンプリングされた例及び共有層420に対応するタスク固有の層430を更新することができるが440、非ニューラルネットワークの実装では、バックプロパゲーションを使用する必要はない。バックプロパゲーションが使用される場合、共有層は、タスク450のそれぞれについてのラベルを有するサンプルによるバックプロパゲーションによって更新されてもよい。しかしながら、フィンガープリント抽出モジュール302による使用では、モデル400は、実行するように訓練されたタスクを実行するために使用されない(すなわち、それが予測するように訓練されたものを予測する)。むしろ、共有層420は、入力(すなわち、境界ボックスからの画素情報)をタスク固有の層430がタスク固有の予測を行うのに有用な情報のセットに変換することに好適である。したがって、共有層420の最後の層420(または後の層の1つ)は、特定の境界枠が入力されるとき、タスクのセットのドメインにおいて非常に関連性の高い情報を含む、その層のニューロンにおいて情報のセットを生成する。これは、分岐またはエンコーダ(すなわち、共有層)がそうするように訓練されたときに予測を実行することを妨げるものではない(例えば、エンコーダ/共有層自体が、人が車両を見ているかどうかを検出するために使用されてもよく、アクティビティを実行するVRUの意図は、そのアクティビティに対応する訓練された分岐によって決定されてもよい)。
最後の層420の関連性を考慮すると、マルチタスクモデル400に予測させるように訓練するのではなく、フィンガープリント抽出モジュール302は、境界枠から画素データをモデル400に供給し、次いで、最後の層420(または後の層の1つ)の値を取り、それを境界ボックスの埋め込みとして格納する。この埋め込みはフィンガープリントであり、モデルがトレーニングされたタスクのコンテキストに関連する境界枠の特性に関する情報を含む。各埋め込みの次元には意味はなく、潜伏空間への埋め込みの一般的な方向には意味がある。したがって、図3を参照して説明したように、埋め込みは、マルチタスクモデル400が実行するために訓練されたタスクのセットのコンテキスト内でどれだけ類似しているかを見るために、クラスタリングアルゴリズムで比較される。
(f)フィンガープリントツールの使用の例示的な処理
図5は、フィンガープリントツールを使用するための処理の例示的なフローチャートを示す。処理500は、フィンガープリントツール(例えばフィンガープリントツール110)のVRU(例えば、VRU130)を含む画像の撮像502と共に開始する。画像は、ビデオのフレームであってもよい。撮像は、フィンガープリントツール110のカメラによって行われてもよく、または車両120に設置されたカメラセンサから画像を受信することによって行われてもよい(例えば、フィンガープリントツール110がカメラセンサから切り離されている場合、またはフィンガープリントツール110がクラウド環境で部分的にまたは全体的に動作している場合)、または両方の組み合わせによって行われてもよい。センサモジュール305は、補助データと共に画像を撮像してもよい。
フィンガープリントツール110は、画像の各々を検出モデル(例えば、VRU検出機械学習モデル310)に入力する504。フィンガープリントツール110は、検出モジュールから出力されるVRUの一連の画像のそれぞれについての境界枠を受信する506。画像に複数のVRUが存在する場合、その画像に対して複数の境界枠を受信してもよい。検出モジュールはまた、境界枠座標(例えば、追跡モジュール330によって使用される境界ボックス座標320)を出力してもよい。フィンガープリントツール100は、各境界枠をマルチタスクモデル(例えばマルチタスクモデル330)に入力し508、各境界枠の埋め込みをマルチタスクモデルの出力として受け取る510。
フィンガープリントツール110は、一連の画像にわたる各境界枠の埋め込みを使用して、埋め込みのうちのいずれがVRUに対応するかの示唆を判定する512。例えば、クラスタリングアルゴリズムは、上述のように、各所定の埋め込みがどのクラスタに対応するかを判定するために使用されてもよく、各クラスタは、異なるVRUを表す。したがって、フィンガープリントツール110は、オクルージョンとなっても、検出されたVRUが、以前のフレーム内で撮像されたものと同じVRUであるか、または異なるVRUであるかを解決し得る。有利なことに、埋め込みが経時的に追跡されるシナリオでは、車両120が遭遇するVRUが、以前に遭遇したのと同じVRUであるかを、そのVRUの匿名性を維持しながら知ることが可能になる。これは、報告システムまたはアラートシステム、自律車両駆動機構などの他のシステムにフィードバックされてもよく、その特定のVRUの予測は、その個人の過去の行動によって影響される。他のデータは、フレームに対応する受信された補助データ等、フィンガープリントツール110によるVRUの識別に役割を果たす。所定の埋め込みがその指示されたクラスタに対応するという信頼度スコアは、クラスタリングアルゴリズムによっても出力され得て、境界枠内で検出されたVRUが所定の既知のVRUであることがどれだけ信頼できるフィンガープリントツール110であるかを示す。
(g)要約
モデル400は、自律走行車の知覚スタックに使用される一般処理ユニット(GPU)、またはADASシステムのGPUに位置していてもよく、車両に統合されているか、または改造ソリューションとして追加されていてもよい。モデル400は、携帯電話や専用の車載カメラ等のテレマティクス及び車隊管理ソリューションに統合されてもよい。あるいは、モデル400は、リアルタイムではなく、モデル400が事後データを分析するクラウドベースのサーバ上で動作してもよい。
有利なことに、VRUは、追跡されたVRUに同一性を割り当てることなく、本明細書で論じられる技術を使用して追跡される。したがって、自動車、ロボット工学、インフラストラクチャ、物流、セキュリティ、小売業等は、モデル400とインターフェースし、そのフィンガープリントに基づいて人々との個々の相互作用を可能にすることができる。また、モデル400は、VRUの挙動の経時的な変化をより信頼性を持って観察することができるため、モデル400は、挙動のより正確な高レベルの理解を可能にし得る。したがって、予測モデルの分かり易い説明と信頼性が達成され、車両のより安全で効率的な運転と操作がもたらされる。
さらに、モデルからの信頼レベルの出力は、知覚の不確実性の理解を許容する。実際には、これにより、車両の知覚スタックは、入力される情報を信頼できるかどうかを理解することができる。これは、多くのオクルージョンの存在により、車両120のカメラへの信頼性が非常に低い場合(例えば、列車が多くのVRUを不明瞭にするように通り過ぎている)、深度センサデータのみに依存することを決定する等、決定の理解の透明性とフェールセーフ処理の作成の両方を支援する。
開示されたシステム及び方法が組み込まれ得る追加のアプリケーションは、インフラストラクチャーベースの分析アプリケーション(例えば、道路または列車プラットフォーム内)、人の車内移動(例えば、人がバスまたは列車内での移動に基づいて危険にさらされる場合)、及びこれらの状況及び類似の状況で捕捉されたデータのクラウドベース分析を含む。インテリジェント道路車両は、本明細書で使用される場合、ロボティクス及び配送ロボットもまた、それらのロボットが道路上に特に存在しない場合(例えば、包装倉庫内のロボットが脆弱な人々の近くで動作している場合)であっても、それらを指す。
開示された実施形態は、潜在的な空間にVRU(すなわち、フィンガープリント)に関する有意義な情報を記憶するために、マルチタスクモデル(例えば、マルチヘッドエンコーダ)の1つまたは複数のサブ層を使用する。しかしながら、代替の実施態様もまた、本開示の範囲内である。例えば、バリエーションのあるオートエンコーダ等のオートエンコーダは、VRUのフィンガープリントを記憶するために使用されてもよい。変動型オートエンコーダは、異なるタスクヘッドを有する異なる分岐を有する本明細書に記載のマルチタスクモデルのバックボーンとして機能し得る。一実施形態において、オートエンコーダは、圧縮されたデータが持つオリジナルよりも潜在空間上における少ない広がりでそれを表現することによってデータを圧縮する。自動エンコーダの学習された潜在的変数は、フィンガープリントとして使用され得る。変動型オートエンコーダが使用される場合、潜在変数は、特定のパラメータを有する確率分布として表され得る。追跡モジュール330は、異なる画像を比較して、それらの潜在的な確率分布を比較し、それらの分布がどの程度良好に一致するかに基づいて同じVRUを識別することによって、同じVRUがそれらの中にあるかどうかを識別してもよい。
本発明の実施形態の前述の説明は、例示の目的で提示されており、網羅的であること、または開示された正確な形態に限定することは、意図されていない。関連技術分野における当業者は、上記の開示を考慮すると、多くの修正例および変形例が可能となることを理解することができる。
この説明のある部分は、情報に対するオペレーションのアルゴリズムおよび記号表現の観点から見ると本発明の実施形態を説明している。これらのアルゴリズムの説明および表現は、データ処理技術の当業者が、その作業の内容を他の当業者に効果的に伝えるために一般的に使用されている。これらの演算は、機能的、計算的、または論理的に説明されている一方で、コンピュータプログラム、または等価電気回路、マイクロコード等によって実装されると理解される。さらに、また、普遍性を失うことなく、ときにはこれらの演算の配列をモジュールと称すると便利であることが分かる。説明される演算及びそれらに関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化され得る。
本明細書で説明されるいずれかのステップ、演算、または処理は、単独または他のデバイスと組み合わせることで、1つもしくはそれ以上のハードウェアまたはソフトウェアモジュールを用いて実行または実装され得る。一実施形態において、ソフトウェアモジュールは、コンピュータプログラムコードを含むコンピュータ可読媒体を含むコンピュータプログラム製品を用いて実装され、これは、説明されるステップ、動作、または処理のいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行されることが可能である。
本発明の実施形態はまた、本明細書における動作を実行するための装置に関連し得る。本装置は、要求される目的のために特別に構築されてよく、及び/または、コンピュータに格納されるコンピュータプログラムによって、選択的にアクティベートされるか、または再構成される汎用コンピューティングデバイスを備えてもよい。このようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的な有形のコンピュータ可読記憶媒体、または電子命令を格納することに適する任意のタイプの媒体に格納され得る。さらに、本明細書において参照される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、または計算能力を高めるための複数のプロセッサデザインを採用するアーキテクチャであってもよい。
また、本発明の実施形態は、本明細書で説明されるコンピューティング処理によって生成される製品に関連してもよい。このような製品は、コンピューティング処理から生じる情報から構成されてもよく、その情報は、非一時的な有形のコンピュータ可読記憶媒体に格納され、本明細書で説明されるコンピュータプログラム製品または他のデータとの組み合わせの任意の実施形態を含んでもよい。
最後に、明細書で用いられる文言は、主に読み易さおよび教育目的のために選択されており、発明の主題を描写または制限するために選択されていない場合がある。したがって、本発明の範囲は、この詳細な説明によってではなく、本明細書に基づいた出願で発行される任意の請求項によって制限されることが意図されている。故に、本発明の実施形態の開示は、例示することを意図しており、以下の請求項に記載される本発明の範囲を限定しない。

Claims (17)

  1. オクルージョンに関わらず脆弱な道路使用者(VRU)を追跡するための方法であって、
    複数の人間のVRUを含む前記VRUを含む一連の画像を撮像することであって、前記VRUは前記一連の画像の少なくとも一部において少なくとも部分的にオクルージョンされていることと、
    前記画像の各々を検出モデルに入力することと、
    前記検出モデルの出力として、前記一連の前記VRUの画像の各々の境界枠を受信することと、
    境界枠の各々をマルチタスクモデルに入力することと、
    前記マルチタスクモデルからの出力として、各境界枠の埋め込みを受信することであって、前記埋め込みは、前記マルチタスクモデルの共有層から生成され、前記マルチタスクモデルは、前記共有層と、各々が異なるアクティビティを予測するように訓練された複数のブランチとを含み、前記共有層は、前記複数のブランチからのバックプロパゲーションを使用して訓練される、ことと、
    前記一連の画像に亘る境界枠の各々の前記埋め込みを使って、前記VRUの前記部分的なオクルージョンにもかかわらず、前記複数の人間のVRUのうちの異なるVRUに対し、どの前記埋め込みが前記VRUに対応するかの指示を判定することと、を含み、どの前記埋め込みが前記VRUに対応するかの指示を判定することは、
    各埋め込みを教師なし学習モデルに入力することと、
    前記教師なし学習モデルから、各埋め込みが対応する埋め込みクラスタの指示を出力として受信することであって、各クラスタは、前記複数の人間のVRUのうちの異なるVRUに対応することと、を含む、方法。
  2. 前記一連の画像を撮像することは、車両に配置されたカメラによって撮影された画像を受信することであって、車両に配置されたセンサによって捕捉された補助データが前記画像と共に受信される、ことを含む、請求項1に記載の方法。
  3. 各境界枠の前記一連の画像の各々のコンテキストにおける座標を受信することをさらに含み、どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記埋め込みに加えて前記座標を使用することを含む、請求項2に記載の方法。
  4. どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記補助データを使用することをさらに含む、請求項3に記載の方法。
  5. 各埋め込みは、前記VRUを追跡し、前記VRU識別を割り当てることなくフィンガープリントとして機能する、請求項1に記載の方法。
  6. どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記出力の一部として、所定の埋め込みの各々が、その指示されたクラスタに対応する信頼度に対応する信頼度スコアを受信することをさらに含む、請求項に記載の方法。
  7. オクルージョンに関わらず脆弱な道路使用者(VRU)を追跡するために、メモリ上に符号化された命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、1つ以上のプロセッサに、実行時に動作を実行させ、前記命令は、
    複数の人間のVRUを含む前記VRUを含む一連の画像を撮像させ、前記VRUは前記一連の画像の少なくとも一部において少なくとも部分的にオクルージョンされており、
    前記画像の各々を検出モデルに入力させ、
    前記検出モデルの出力として、前記一連の前記VRUの画像の各々の境界枠を受信させ、
    境界枠の各々をマルチタスクモデルに入力させ、
    前記マルチタスクモデルからの出力として、各境界枠の埋め込みを受信させ、前記埋め込みは、前記マルチタスクモデルの共有層から生成され、前記マルチタスクモデルは、前記共有層と、各々が異なるアクティビティを予測するように訓練された複数のブランチとを含み、前記共有層は、前記複数のブランチからのバックプロパゲーションを使用して訓練され、
    前記一連の画像に亘る前記境界枠の各々の埋め込みを使って、前記VRUの前記部分的なオクルージョンにもかかわらず、前記複数の人間のVRUのうちの異なるVRUに対し、どの前記埋め込みが前記VRUに対応するかの指示を判定させる命令を含み、どの前記埋め込みが前記VRUに対応するかの指示を判定することは、
    各埋め込みを教師なし学習モデルに入力することと、
    前記教師なし学習モデルから、各埋め込みが対応する埋め込みクラスタの指示を出力として受信することであって、各クラスタは、前記複数の人間のVRUのうちの異なるVRUに対応することを含む、非一時的なコンピュータ可読媒体。
  8. 前記一連の画像を撮像する前記命令は、車両に配置されたカメラによって撮影された画像を受信させる命令であって、車両に配置されたセンサによって捕捉された補助データが前記画像と共に受信される、命令を含む請求項に記載の非一時的なコンピュータ可読媒体。
  9. 前記命令は、各境界枠の前記一連の画像の各々のコンテキストにおける座標を受信させる命令をさらに含み、どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記埋め込みに加えて前記座標を使用することを含む、請求項に記載の非一時的なコンピュータ可読媒体。
  10. どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記補助データを使用することをさらに含む、請求項に記載の非一時的なコンピュータ可読媒体。
  11. 各埋め込みは、前記VRUを追跡し、前記VRU識別を割り当てることなくフィンガープリントとして機能する、請求項に記載の非一時的なコンピュータ可読媒体。
  12. どの前記埋め込みが前記VRUに対応するかの前記指示を判定させる前記命令は、前記出力の一部として、所定の埋め込みの各々が、その指示されたクラスタに対応する信頼度に対応する信頼度スコアを受信させる命令をさらに含む、請求項に記載の非一時的なコンピュータ可読媒体。
  13. オクルージョンに関わらず脆弱な道路使用者(VRU)を追跡するためのシステムであって、
    符号化された命令を持つメモリを含む非一時的なコンピュータ可読媒体と、
    一つまたは複数のプロセッサであり、前記命令を実行するとき、
    複数の人間のVRUを含む前記VRUを含む一連の画像を撮像することであって、前記VRUは前記一連の画像の少なくとも一部において少なくとも部分的にオクルージョンされていることと、
    前記画像の各々を検出モデルに入力することと、
    前記検出モデルの出力として、前記一連の前記VRUの画像の各々の境界枠を受信することと、
    境界枠の各々をマルチタスクモデルに入力することと、
    前記マルチタスクモデルからの出力として、各境界枠の埋め込みを受信することであって、前記埋め込みは、前記マルチタスクモデルの共有層から生成され、前記マルチタスクモデルは、前記共有層と、各々が異なるアクティビティを予測するように訓練された複数のブランチとを含み、前記共有層は、前記複数のブランチからのバックプロパゲーションを使用して訓練される、ことと、
    前記一連の画像に亘る境界枠の各々の前記埋め込みを使って、前記VRUの前記部分的なオクルージョンにもかかわらず、前記複数の人間のVRUのうちの異なるVRUに対し、どの前記埋め込みが前記VRUに対応するかの指示を判定することと、を含み、どの前記埋め込みが前記VRUに対応するかの指示を判定することは、
    各埋め込みを教師なし学習モデルに入力することと、
    前記教師なし学習モデルから、各埋め込みが対応する埋め込みクラスタの指示を出力として受信することであって、各クラスタは、前記複数の人間のVRUのうちの異なるVRUに対応することを含む、操作を実行させられる1つまたは複数のプロセッサと、を備えたシステム。
  14. 前記一連の画像を撮像することは、車両に配置されたカメラによって撮影された画像を受信することであって、車両に配置されたセンサによって捕捉された補助データが前記画像と共に受信される、ことを含む、請求項13に記載のシステム。
  15. 各境界枠の前記一連の画像の各々のコンテキストにおける座標を受信することをさらに含み、どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記埋め込みに加えて前記座標を使用することを含む、請求項14に記載のシステム。
  16. どの前記埋め込みが前記VRUに対応するかの前記指示を判定することは、前記補助データを使用することをさらに含む、請求項15に記載のシステム。
  17. 埋め込みは、前記VRUを追跡し、前記VRU識別を割り当てることなくフィンガープリントとして機能する、請求項13に記載のシステム。
JP2022564115A 2020-04-24 2021-03-12 画像解析から得られたフィンガープリントを用いた、画像フレーム全体に亘る脆弱な道路利用者の追跡 Active JP7450754B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/857,645 US11734907B2 (en) 2020-04-24 2020-04-24 Tracking vulnerable road users across image frames using fingerprints obtained from image analysis
US16/857,645 2020-04-24
PCT/IB2021/000139 WO2021214542A1 (en) 2020-04-24 2021-03-12 Tracking vulnerable road users across image frames using fingerprints obtained from image analysis

Publications (2)

Publication Number Publication Date
JP2023522390A JP2023522390A (ja) 2023-05-30
JP7450754B2 true JP7450754B2 (ja) 2024-03-15

Family

ID=75497968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022564115A Active JP7450754B2 (ja) 2020-04-24 2021-03-12 画像解析から得られたフィンガープリントを用いた、画像フレーム全体に亘る脆弱な道路利用者の追跡

Country Status (4)

Country Link
US (2) US11734907B2 (ja)
EP (1) EP4139832A1 (ja)
JP (1) JP7450754B2 (ja)
WO (1) WO2021214542A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3706034A1 (en) * 2019-03-06 2020-09-09 Robert Bosch GmbH Movement prediction of pedestrians useful for autonomous driving

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071902A (ja) 2012-09-28 2014-04-21 Boeing Co フィンガープリントを使用してビデオ内で移動オブジェクトを追跡するため方法及びシステム
JP2018201161A (ja) 2017-05-29 2018-12-20 株式会社東芝 移動体追跡装置、移動体追跡方法およびプログラム
US20190258878A1 (en) 2018-02-18 2019-08-22 Nvidia Corporation Object detection and detection confidence suitable for autonomous driving

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315965B2 (en) * 2008-04-22 2012-11-20 Siemens Corporation Method for object detection
US11132512B2 (en) * 2019-11-08 2021-09-28 International Business Machines Corporation Multi-perspective, multi-task neural network model for matching text to program code
US11531088B2 (en) * 2019-11-21 2022-12-20 Nvidia Corporation Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications
US11587329B2 (en) * 2019-12-27 2023-02-21 Valeo Schalter Und Sensoren Gmbh Method and apparatus for predicting intent of vulnerable road users
US20210286989A1 (en) * 2020-03-11 2021-09-16 International Business Machines Corporation Multi-model, multi-task trained neural network for analyzing unstructured and semi-structured electronic documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071902A (ja) 2012-09-28 2014-04-21 Boeing Co フィンガープリントを使用してビデオ内で移動オブジェクトを追跡するため方法及びシステム
JP2018201161A (ja) 2017-05-29 2018-12-20 株式会社東芝 移動体追跡装置、移動体追跡方法およびプログラム
US20190258878A1 (en) 2018-02-18 2019-08-22 Nvidia Corporation Object detection and detection confidence suitable for autonomous driving

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Khaled Saleh,Early Intent Prediction of Vulnerable Road Users from Visual Attributes using Multi-Task Learning Network,2017 IEEE International Conference on Systems, Man, and Cybernetics (SMC),カナダ,IEEE,2017年10月05日,P.3367-3372,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8123150
加藤 直樹,追跡軌跡の再同定を用いたオンライン複数物体追跡,画像電子学会誌 ,日本,一般社団法人画像電子学会,2018年,Vol.47 No.4 (2018),P.391-400
瀬尾 俊貴,FlowNetCを導入したD&Tによる物体検出の高精度化,第25回 画像センシングシンポジウム ,日本,画像センシング技術研究会,2019年,IS3-13 SO3-13,全5頁

Also Published As

Publication number Publication date
US20210334982A1 (en) 2021-10-28
US11734907B2 (en) 2023-08-22
US20230343062A1 (en) 2023-10-26
EP4139832A1 (en) 2023-03-01
JP2023522390A (ja) 2023-05-30
WO2021214542A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
JP7052663B2 (ja) 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
CN110998594B (zh) 检测动作的方法和系统
Yang et al. Crossing or not? Context-based recognition of pedestrian crossing intention in the urban environment
US10311704B1 (en) Passenger-related item loss mitigation
Geiger et al. 3d traffic scene understanding from movable platforms
US20180012082A1 (en) System and method for image analysis
Zeeshan Zia et al. Explicit occlusion modeling for 3d object class representations
Pool et al. Context-based cyclist path prediction using recurrent neural networks
US11074438B2 (en) Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
JP7078021B2 (ja) 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム
US20230005169A1 (en) Lidar point selection using image segmentation
US20230025238A1 (en) Anomalous region detection with local neural transformations
US20230024101A1 (en) Contrastive predictive coding for anomaly detection and segmentation
KR20220076398A (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
US20230343062A1 (en) Tracking users across image frames using fingerprints obtained from image analysis
EP4348579A1 (en) Occlusion-aware multi-object tracking
CN111327888B (zh) 摄像头控制方法、装置、计算机设备和存储介质
Getahun et al. A deep learning approach for lane detection
Liu et al. Visual object tracking with partition loss schemes
JP7233572B2 (ja) エクスプレイナブルセルフフォーカスされたアテンションを利用して行動予測を遂行する方法及び装置
Lange et al. Lopr: Latent occupancy prediction using generative models
CN113095351A (zh) 借助于初始标记的改善生成经标记的数据的方法
Wachs et al. Human posture recognition for intelligent vehicles
Shirpour et al. Driver's Eye Fixation Prediction by Deep Neural Network.
Cimarelli et al. A case study on the impact of masking moving objects on the camera pose regression with CNNs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240305

R150 Certificate of patent or registration of utility model

Ref document number: 7450754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150