JP7450754B2

JP7450754B2 - 画像解析から得られたフィンガープリントを用いた、画像フレーム全体に亘る脆弱な道路利用者の追跡

Info

Publication number: JP7450754B2
Application number: JP2022564115A
Authority: JP
Inventors: チトラプラディープヤジニ; エルユーソフィワシム; ノイドミニク; オーヴァーイブラードジェームズ; ボーズラウナック; ララオードリーピンデウスマヤ; セースノーテボームレスリー
Original assignee: ヒューマニシングオートノミーリミテッド
Priority date: 2020-04-24
Filing date: 2021-03-12
Publication date: 2024-03-15
Anticipated expiration: 2041-03-12
Also published as: US20210334982A1; US11734907B2; US20230343062A1; EP4139832A1; JP2023522390A; WO2021214542A1

Description

本開示は、概して、インテリジェントな道路車両アプリケーションに関するものであり、より具体的には、フレームからフレームへの脆弱な道路使用者の追跡に関するものである。

自律車両は、時間の経過とともに歩行者を追跡しようとする。しかしながら、歩行者がビデオの中間フレームのセットでオクルージョンとなるとき（例えば、ユーザがオブジェクトの後ろを歩く、または車が歩行者を追い越す、または別の歩行者がユーザを追い越すため）、フレームに亘って歩行者を追跡することは困難または不可能である。追跡が失敗すると、既存のシステムは、歩行者がオクルージョンに続いてフレームに再び入るとき、歩行者が以前のフレームで観察されなかった新しい人物であると仮定し得る。このような場合、以前に観察された情報及び歩行者のために行われた予測は失われる。この結果、歩行者がどのように行動するかの予測が最適でなく、自律走行車の行動が不正確、非効率、または安全でない結果になり得る。

オクルージョンの前後に脆弱な道路使用者を追跡するためのフィンガープリントツールを含む車両の一実施形態を示す図である。フィンガープリントツールによって使用される前に前処理され得る画像の一実施形態を示す図である。フィンガープリントツールによって実行される例示的なモジュールの一実施形態と、その中を通るデータフローを示す図である。画像からフィンガープリントを抽出するためのニューラルネットワークモデルの一実施形態を示す図である。フィンガープリントツールを使用するための処理の例示的なフローチャートを示す図である。

図面は、例示の目的のみのため、本発明の様々な実施形態を示している。当業者は、本明細書に例示された構造及び方法の代替的実施形態が、本明細書に記載の本発明の原理から逸脱することなく利用することができることを以下の説明から容易に認識する。

（ａ）概要
オクルージョンとなるかどうかにかかわらず、脆弱な道路使用者（ＶＲＵ）を経時的に追跡するためのシステム及び方法が本明細書に開示される。オクルージョン問題を克服するために、マルチタスク機械学習モデルは、複数のエンコーダを組み合わせるように訓練され、そのそれぞれは、ＶＲＵの活動を予測するように訓練される。取得された境界ボックス画像は、機械学習モデルに入力され、追加情報と共に、任意選択でＶＲＵのフィンガープリントが出力される。複数のエンコーダを機械学習モデルに組み合わせることによって、部分的または完全なオクルージョンとなった場合でも、同じ個人が追跡されるフレーム全体に亘って高い信頼度が達成される。

（ｂ）ＶＲＵのキャプチャ画像
図１は、オクルージョンの前後に脆弱な道路使用者を追跡するためのフィンガープリントツールを含む車両の一実施形態を示す。環境１００は、車両１２０の一部として描写されるフィンガープリントツール１１０を含む。車両１２０は、自律車両、半自律車両、または非自律車両であってもよい。ＶＲＵ１３０は、環境１００全体にわたって示される。本明細書で使用されるＶＲＵという用語は、歩行者だけでなく、自転車またはスクーターまたは車椅子（及び同様のもの）などのマイクロモビリティビークル上の人間、ならびにイヌ及び他のペットなどの人間の仲間を指す。車両１２０は、本明細書で使用されるように、経時的に画像をキャプチャする１つ以上のカメラセンサ、カメラセンサを備える。画像は、画像であってもよく、深度及び／または熱情報などの他の感覚入力を示す画像を含んでもよく、または別個に生成してもよい。画像は、一定の時間の経過に基づき、定期的に撮影されてもよいし、車両１２０が前回の画像撮影時から一定の距離を走行した等の何らかの他の事象に基づいて撮影されてもよい。一緒に撮影された画像は、ビデオ（例えば、高解像度のビデオ）を形成し得て、この文脈において、画像は、本明細書で「フレーム」と呼ばれることがある。同時に撮影された複数のカメラセンサからの画像は、（例えば、パノラマ画像または３６０度画像を形成するために）一緒に繋ぎ合わされてもよく、または単独の画像として使用されてもよい。車両１２０は、また、カメラセンサ（複数可）からの画像に関連する補助情報を提供する他のセンサを備えてもよい。例示的なセンサは、グローバルポジショニングシステム（ＧＰＳ）センサ、及び慣性測定ユニット（ＩＭＵ）センサを含むが、任意のタイプの情報を測定するための任意のセンサを含んでもよい。

フィンガープリントツール１１０は、画像を受信し、各ＶＲＵ１３０のフィンガープリントを生成し、経時的にＶＲＵ１３０を追跡する。本明細書で使用されるフィンガープリントという用語は、ＶＲＵが車両１２０のカメラセンサの周辺を離れる時間まで、ＶＲＵの動作を追跡するために使用されるＶＲＵの匿名表現を指す。フィンガープリントが含むものの構造の詳細は、図３、４を参照してさらに詳細に議論される。フィンガープリントツール１１０は、ＶＲＵが、他のオブジェクト、または他のＶＲＵにより、部分的に、または全体的にオクルージョンとなっているか否かに関わらず、各ＶＲＵ１３０を追跡する。以下、フィンガープリントツール１１０がどのように機能するかの詳細は、図３を参照してさらに詳細に説明される。フィンガープリントツール１１０は、修正された自律運転行動、車両１２０の運転者へのアラート、車載カメラによって処理されたデータのような、特定の機能性をもたらし得る車両１２０の他のツールに出力を与えてもよい。フィンガープリントツール１１０は、車両１２０内に設置されているように表現されているが、全体または部分をリモートサーバに設置してもよく、車両１２０は画像に沿って通過するためにリモートサーバと通信し、フィンガープリントツールの出力を受信してもよい。一実施形態において、フィンガープリントツール１１０は、ＶＲＵの挙動及び事故検出の事後評価（例えば、保険または全車両管理の目的のために）を実行するために、クラウドコンテキストに完全に組み込まれてもよい。そのような実施形態では、センサデータは、本明細書に記載されるものと同様の方法で処理するためにクラウドコンテキストに送信される。

（ｃ）画像の例示的な前処理
図２は、フィンガープリントツールによって使用される前に前処理され得る画像の一実施形態を示す。画像２００は、車両１２０の撮像素子によって取り込まれたビデオのフルフレーム等のフレームを表す。一実施形態では、画像２００は、処理のためにフィンガープリントツール１１０への入力としてその全体が送られる。一実施形態では、フィンガープリントツール１１０は、画像２００内の１つ以上のＶＲＵ２３０を検出する検出モデルを実行することによって画像２００を前処理し、境界枠に応答性を適用する。画像２００を前処理するため、フィンガープリントツール１１０は、１つまたはそれ以上のＶＲＵ２３０を切取部分２５０にし、１つ以上の切取部分（複数可）２５０を、図３を参照して以下で説明するフィンガープリント抽出モジュールの１つ以上の共有層等のエンコーダへの入力として使用する。さらに、フィンガープリントツール１１０は、追跡モジュールに入力するための各境界ボックスの座標を決定してもよい。一実施形態では、以下で図３に関して説明するように、追跡モジュールへの入力として、画像２００及び切取部分２５０の両方を使用してもよい。エンコーダへの入力として切出部分２５０を使用することは、フル画像の非切り出し部分にはＶＲＵの活動に関する情を提供しないノイズが含まれる可能性があるため、フル画像の使用に対して有利である。さらに、プロセッサ集約型であるエンコーダは関連する境界枠データ上でフル画像を除外するように動作すると、精度が向上し、レイテンシ及び一般処理ユニット（ＧＰＵ）のフットプリントが低減される。エンコーダ及び追跡モジュールによる処理、ならびに追跡モデルの出力は、図３から図４を参照して以下でさらに詳細に説明される。

（ｄ）フィンガープリントツールの機能
図３は、一実施形態の例示的なモジュールをフィンガープリントツール及び、それを通るデータフローチャートによって示す。センサモジュール３０５は、ＧＰＳ及びＩＭＵデータ等の画像及び補助データ等の車両１２０によって撮像されたセンサデータを受信する。センサモジュール３０５は、画像をＶＲＵ検出機械学習モデル３１０に渡し、補助データ（例えば、ＧＰＳ及びＩＭＵデータ、深度データ、熱データ等）を追跡モジュール３３０に渡す。図２を参照して論じられたように、ＶＲＵ検出機械学習モデル３１０は、画像を前処理し、トリミングされた境界枠画像３１５及び／または境界枠座標３２０を出力する。この目的を達成するために、ＶＲＵ検出機械学習モデル３１０は、画像内の１つ以上のＶＲＵを検出し、画像内で検出された各ＶＲＵの切出された境界枠及び／または境界枠が画像のコンテキスト内で適用される座標を出力するように訓練される。ライブビデオが受信されると、画像はリアルタイムまたは略リアルタイムで前処理され得て、フレームはそこから取得される。クラウドプラットフォーム上の後処理などのイベントが発生した後にビデオが処理される実施形態では、画像は、リアルタイムよりも速く前処理され得る（例えば、ビデオは、ビデオ自体の長さよりも短い時間で分析され得る）。

フィンガープリント抽出モジュール３２５は、画像の各境界枠に示される各ＶＲＵのフィンガープリントを生成する。これを行うために、フィンガープリント抽出モジュール３２５は、マルチタスクモデルへの入力として、ＶＲＵ検出機械学習モデル３１０から出力として受信される各切り取られた境界ボックス３１５を供給する。マルチタスクモデルは、ＶＲＵに関する異なるパラメータを決定するためにそれぞれ学習されるブランチを有するマルチタスクニューラルネットワークであり、特に、図４を参照してさらに詳しく説明する。マルチタスクモデルは、画像の各境界枠にフィンガープリントを出力する。一実施形態において、各フィンガープリントは、埋め込み（すなわち、境界枠の特徴であるデータを含む潜在空間内のベクトル）を含み、エンコーダとして機能するマルチタスクニューラルネットワークの中間層から出力、または取得される。この埋め込みのさらなる詳細は、図４に関して以下に説明される。フィンガープリント抽出モジュール３２５は、フィンガープリントの各々をメモリに記憶してもよい。

追跡モデル３３０は、メモリからフィンガープリント抽出モジュール３２５によって生成されたフィンガープリントを取得し（またはフィンガープリント抽出モジュール３２５の出力として直接受信する）、そこからどのフィンガープリントが同じ実体を表すか（つまり、どの境界枠が画像の異なるものに渡って同じ人物を含むか）を決定する。追跡モジュール３３０もまた、ＧＰＳデータ、ＩＭＵデータ、画像深度データ及び／または熱データ（または各境界枠についての深度／熱データを示す部分的な画像深度データ及び／または熱データ）等の補助データ、ならびに任意の他の補助データをセンサモジュール３０５から受信してもよい。一実施形態において、追跡モジュール３３０は、クラスタリングアルゴリズム等の教師なし学習モデルを使用することによって、この決定を実行する。例示的なクラスタリングアルゴリズムは、データのセット上の最も近い隣接クラスタリングアルゴリズム、ならびに重心、密度、及び階層的アルゴリズムを含む。ソフトクラスタリングも同様に、例えば、期待値最大化アルゴリズムを使用して最尤推定値または最大事後推定値を計算し、モデル（例えば、ガウス混合モジュール）のパラメータを取得することに使用され得る。ベイズ推論は、不確実性値（以下でさらに説明する）として出力を受信するために、ソフトクラスタリングを実行するために使用され得る。期待最大化アルゴリズムはまた、あるいは、ベイズ推論を使用して、最大尤度（ＭＬＥ）及び最大事後推定値（ＭＡＰ）を取得してもよい。完全なベイズ推論を使用して、モデルの適合性及び不確実性のより良い理解を得るために、ガウス混合モジュールのパラメータ及び潜在的な変数にわたる分布を取得し得る。データのセットは、所定のセッションにおいて、画像の各々にわたるフィンガープリントの各々、及びそこから取得された境界枠の各々を含んでもよく、セッションは、動作時間の量である（例えば、車両がオンになってから、所定のＶＲＵが検出されてからの最後の１０分、最後の１０秒等）。他の実施形態において、データのセットは、セッションにわたって得られたフィンガープリントを含み、それらのセッションは、同じ車両１２０から、又は異なる車両１２０から得られた画像からであってよい。どちらの場合においても、データセットは補助データをも含んでもよい。フィンガープリント抽出モジュール３０２がフィンガープリントを記憶するメモリは、セッションの終了時にパージされてもよく、または任意の所定の時間維持されてもよく、及び、必要に応じて、ＧＰＳデータ等の補助データと共に保存されてもよい（これにより、セッションに亘る追跡が改善される）。

追跡モジュール３３０は、クラスタリングアルゴリズムの結果として、埋め込みのクラスタを特定し、各クラスタは、フレームを通じて特定の人物の境界枠に対応する埋め込みを有する。したがって、追跡モジュール３３０は、所定のクラスタ内に埋め込みを有するフィンガープリントに基づいて、オクルージョンにもかかわらず、様々なフレームにわたってユーザが同じユーザであるかどうかを判定する。追跡モジュール３３０は、一連の論理的なルールをクラスタリングに適用してもよい。例えば、追跡モジュール３３０は、同じ人物が単一のフレーム内に２回存在することはできないため、同じフレーム内に現れる境界枠に対応する２つのベクトルのクラスタリングを防止し得る。

追跡モジュール３３０は、境界枠がフレームにわたって同じ人物を含むという判定に加えて、その判定に関連付けられた確実性スコアを出力してもよい。すなわち、これがフレームに亘って同一人物であるとの判断が真である確率である。確実性スコアを判定するために、追跡モジュール３３０は、確率的クラスタリングアルゴリズム（例えば、ソフトクラスタリング）を各クラスタに適用して、人物が所定のクラスタに属する確率を判定してもよい。例えば、ガウス混合モデル（ＧＭＭ）はソフトクラスタリングアルゴリズムとして用いられてもよく、潜伏変数が各データポイントに割り当てられる。各潜在変数は、所定の観測されたデータポイントが所定のクラスタコンポーネント（すなわち、ＧＭＭの特定のコンポーネント）に属する確率を表す。ＧＭＭを埋め込みに適合させることにより、追跡モジュール３３０は、新しい観測ごとに、同じ埋め込みに属する確率を取得してもよい。追跡モジュール３３０は、確率を使用して確実性スコアを割り当てる、または抽出してもよい。

（ｅ）フィンガープリントツールのための例示的なマルチタスクモデル
図４は、画像からフィンガープリントを抽出するニューラルネットワークの一実施形態を示す。マルチタスクモデル４００は、マルチタスクモデル３１２の例示的な表現である。マルチタスクモデル４００は、トリガに基づいて初期化されてもよい。例示的なトリガとしては、車両１２０の点火、ＶＲＵが最後に検出されてから閾値時間が経過した後の画像においてＶＲＵが検出されること等がある。初期化の後、モデル入力４１０は、モデル４００によって受信される。マルチタスクモデルの構造は、共有層４２０のセット及び複数の分岐タスク固有の層４３０を有し、分岐タスク固有の層４３０の各分岐は、タスク４５０に対応する。タスク４５０は、ドメイン内で関連しており、タスク４５０の各々が、高度に重なり合う情報空間に基づいて予測可能であるアクティビティを予測することを意味する。例えば、自動運転システムによる使用のための歩行者の属性の予測において、異なるタスク４５０は、歩行者が車両を認識しているかどうか、歩行者が電話を見ているかどうか、歩行者が成人であるかどうか等の活動を予測してもよい。したがって、訓練されたとき、共有層４２０は、タスク４５０のそれぞれを実行し、これらの予測のそれぞれを出力するのに有用な情報を生成する。

マルチタスクモデル４００を訓練するため、訓練例はタスク４５０に関連付けられたラベルを含む。各訓練例は、分岐タスクのためのラベルを含む。ニューラルネットワークのコンテキストでは、訓練中に、訓練例がサンプリングされ、各サンプルについて、バックプロパゲーションアルゴリズムが実行されて、サンプリングされた例及び共有層４２０に対応するタスク固有の層４３０を更新することができるが４４０、非ニューラルネットワークの実装では、バックプロパゲーションを使用する必要はない。バックプロパゲーションが使用される場合、共有層は、タスク４５０のそれぞれについてのラベルを有するサンプルによるバックプロパゲーションによって更新されてもよい。しかしながら、フィンガープリント抽出モジュール３０２による使用では、モデル４００は、実行するように訓練されたタスクを実行するために使用されない（すなわち、それが予測するように訓練されたものを予測する）。むしろ、共有層４２０は、入力（すなわち、境界ボックスからの画素情報）をタスク固有の層４３０がタスク固有の予測を行うのに有用な情報のセットに変換することに好適である。したがって、共有層４２０の最後の層４２０（または後の層の１つ）は、特定の境界枠が入力されるとき、タスクのセットのドメインにおいて非常に関連性の高い情報を含む、その層のニューロンにおいて情報のセットを生成する。これは、分岐またはエンコーダ（すなわち、共有層）がそうするように訓練されたときに予測を実行することを妨げるものではない（例えば、エンコーダ／共有層自体が、人が車両を見ているかどうかを検出するために使用されてもよく、アクティビティを実行するＶＲＵの意図は、そのアクティビティに対応する訓練された分岐によって決定されてもよい）。

最後の層４２０の関連性を考慮すると、マルチタスクモデル４００に予測させるように訓練するのではなく、フィンガープリント抽出モジュール３０２は、境界枠から画素データをモデル４００に供給し、次いで、最後の層４２０（または後の層の１つ）の値を取り、それを境界ボックスの埋め込みとして格納する。この埋め込みはフィンガープリントであり、モデルがトレーニングされたタスクのコンテキストに関連する境界枠の特性に関する情報を含む。各埋め込みの次元には意味はなく、潜伏空間への埋め込みの一般的な方向には意味がある。したがって、図３を参照して説明したように、埋め込みは、マルチタスクモデル４００が実行するために訓練されたタスクのセットのコンテキスト内でどれだけ類似しているかを見るために、クラスタリングアルゴリズムで比較される。

（ｆ）フィンガープリントツールの使用の例示的な処理
図５は、フィンガープリントツールを使用するための処理の例示的なフローチャートを示す。処理５００は、フィンガープリントツール（例えばフィンガープリントツール１１０）のＶＲＵ（例えば、ＶＲＵ１３０）を含む画像の撮像５０２と共に開始する。画像は、ビデオのフレームであってもよい。撮像は、フィンガープリントツール１１０のカメラによって行われてもよく、または車両１２０に設置されたカメラセンサから画像を受信することによって行われてもよい（例えば、フィンガープリントツール１１０がカメラセンサから切り離されている場合、またはフィンガープリントツール１１０がクラウド環境で部分的にまたは全体的に動作している場合）、または両方の組み合わせによって行われてもよい。センサモジュール３０５は、補助データと共に画像を撮像してもよい。

フィンガープリントツール１１０は、画像の各々を検出モデル（例えば、ＶＲＵ検出機械学習モデル３１０）に入力する５０４。フィンガープリントツール１１０は、検出モジュールから出力されるＶＲＵの一連の画像のそれぞれについての境界枠を受信する５０６。画像に複数のＶＲＵが存在する場合、その画像に対して複数の境界枠を受信してもよい。検出モジュールはまた、境界枠座標（例えば、追跡モジュール３３０によって使用される境界ボックス座標３２０）を出力してもよい。フィンガープリントツール１００は、各境界枠をマルチタスクモデル（例えばマルチタスクモデル３３０）に入力し５０８、各境界枠の埋め込みをマルチタスクモデルの出力として受け取る５１０。

フィンガープリントツール１１０は、一連の画像にわたる各境界枠の埋め込みを使用して、埋め込みのうちのいずれがＶＲＵに対応するかの示唆を判定する５１２。例えば、クラスタリングアルゴリズムは、上述のように、各所定の埋め込みがどのクラスタに対応するかを判定するために使用されてもよく、各クラスタは、異なるＶＲＵを表す。したがって、フィンガープリントツール１１０は、オクルージョンとなっても、検出されたＶＲＵが、以前のフレーム内で撮像されたものと同じＶＲＵであるか、または異なるＶＲＵであるかを解決し得る。有利なことに、埋め込みが経時的に追跡されるシナリオでは、車両１２０が遭遇するＶＲＵが、以前に遭遇したのと同じＶＲＵであるかを、そのＶＲＵの匿名性を維持しながら知ることが可能になる。これは、報告システムまたはアラートシステム、自律車両駆動機構などの他のシステムにフィードバックされてもよく、その特定のＶＲＵの予測は、その個人の過去の行動によって影響される。他のデータは、フレームに対応する受信された補助データ等、フィンガープリントツール１１０によるＶＲＵの識別に役割を果たす。所定の埋め込みがその指示されたクラスタに対応するという信頼度スコアは、クラスタリングアルゴリズムによっても出力され得て、境界枠内で検出されたＶＲＵが所定の既知のＶＲＵであることがどれだけ信頼できるフィンガープリントツール１１０であるかを示す。

（ｇ）要約
モデル４００は、自律走行車の知覚スタックに使用される一般処理ユニット（ＧＰＵ）、またはＡＤＡＳシステムのＧＰＵに位置していてもよく、車両に統合されているか、または改造ソリューションとして追加されていてもよい。モデル４００は、携帯電話や専用の車載カメラ等のテレマティクス及び車隊管理ソリューションに統合されてもよい。あるいは、モデル４００は、リアルタイムではなく、モデル４００が事後データを分析するクラウドベースのサーバ上で動作してもよい。

有利なことに、ＶＲＵは、追跡されたＶＲＵに同一性を割り当てることなく、本明細書で論じられる技術を使用して追跡される。したがって、自動車、ロボット工学、インフラストラクチャ、物流、セキュリティ、小売業等は、モデル４００とインターフェースし、そのフィンガープリントに基づいて人々との個々の相互作用を可能にすることができる。また、モデル４００は、ＶＲＵの挙動の経時的な変化をより信頼性を持って観察することができるため、モデル４００は、挙動のより正確な高レベルの理解を可能にし得る。したがって、予測モデルの分かり易い説明と信頼性が達成され、車両のより安全で効率的な運転と操作がもたらされる。

さらに、モデルからの信頼レベルの出力は、知覚の不確実性の理解を許容する。実際には、これにより、車両の知覚スタックは、入力される情報を信頼できるかどうかを理解することができる。これは、多くのオクルージョンの存在により、車両１２０のカメラへの信頼性が非常に低い場合（例えば、列車が多くのＶＲＵを不明瞭にするように通り過ぎている）、深度センサデータのみに依存することを決定する等、決定の理解の透明性とフェールセーフ処理の作成の両方を支援する。

開示されたシステム及び方法が組み込まれ得る追加のアプリケーションは、インフラストラクチャーベースの分析アプリケーション（例えば、道路または列車プラットフォーム内）、人の車内移動（例えば、人がバスまたは列車内での移動に基づいて危険にさらされる場合）、及びこれらの状況及び類似の状況で捕捉されたデータのクラウドベース分析を含む。インテリジェント道路車両は、本明細書で使用される場合、ロボティクス及び配送ロボットもまた、それらのロボットが道路上に特に存在しない場合（例えば、包装倉庫内のロボットが脆弱な人々の近くで動作している場合）であっても、それらを指す。

開示された実施形態は、潜在的な空間にＶＲＵ（すなわち、フィンガープリント）に関する有意義な情報を記憶するために、マルチタスクモデル（例えば、マルチヘッドエンコーダ）の１つまたは複数のサブ層を使用する。しかしながら、代替の実施態様もまた、本開示の範囲内である。例えば、バリエーションのあるオートエンコーダ等のオートエンコーダは、ＶＲＵのフィンガープリントを記憶するために使用されてもよい。変動型オートエンコーダは、異なるタスクヘッドを有する異なる分岐を有する本明細書に記載のマルチタスクモデルのバックボーンとして機能し得る。一実施形態において、オートエンコーダは、圧縮されたデータが持つオリジナルよりも潜在空間上における少ない広がりでそれを表現することによってデータを圧縮する。自動エンコーダの学習された潜在的変数は、フィンガープリントとして使用され得る。変動型オートエンコーダが使用される場合、潜在変数は、特定のパラメータを有する確率分布として表され得る。追跡モジュール３３０は、異なる画像を比較して、それらの潜在的な確率分布を比較し、それらの分布がどの程度良好に一致するかに基づいて同じＶＲＵを識別することによって、同じＶＲＵがそれらの中にあるかどうかを識別してもよい。

本発明の実施形態の前述の説明は、例示の目的で提示されており、網羅的であること、または開示された正確な形態に限定することは、意図されていない。関連技術分野における当業者は、上記の開示を考慮すると、多くの修正例および変形例が可能となることを理解することができる。

この説明のある部分は、情報に対するオペレーションのアルゴリズムおよび記号表現の観点から見ると本発明の実施形態を説明している。これらのアルゴリズムの説明および表現は、データ処理技術の当業者が、その作業の内容を他の当業者に効果的に伝えるために一般的に使用されている。これらの演算は、機能的、計算的、または論理的に説明されている一方で、コンピュータプログラム、または等価電気回路、マイクロコード等によって実装されると理解される。さらに、また、普遍性を失うことなく、ときにはこれらの演算の配列をモジュールと称すると便利であることが分かる。説明される演算及びそれらに関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで具現化され得る。

本明細書で説明されるいずれかのステップ、演算、または処理は、単独または他のデバイスと組み合わせることで、１つもしくはそれ以上のハードウェアまたはソフトウェアモジュールを用いて実行または実装され得る。一実施形態において、ソフトウェアモジュールは、コンピュータプログラムコードを含むコンピュータ可読媒体を含むコンピュータプログラム製品を用いて実装され、これは、説明されるステップ、動作、または処理のいずれかまたはすべてを実行するためにコンピュータプロセッサによって実行されることが可能である。

本発明の実施形態はまた、本明細書における動作を実行するための装置に関連し得る。本装置は、要求される目的のために特別に構築されてよく、及び／または、コンピュータに格納されるコンピュータプログラムによって、選択的にアクティベートされるか、または再構成される汎用コンピューティングデバイスを備えてもよい。このようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的な有形のコンピュータ可読記憶媒体、または電子命令を格納することに適する任意のタイプの媒体に格納され得る。さらに、本明細書において参照される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、または計算能力を高めるための複数のプロセッサデザインを採用するアーキテクチャであってもよい。

また、本発明の実施形態は、本明細書で説明されるコンピューティング処理によって生成される製品に関連してもよい。このような製品は、コンピューティング処理から生じる情報から構成されてもよく、その情報は、非一時的な有形のコンピュータ可読記憶媒体に格納され、本明細書で説明されるコンピュータプログラム製品または他のデータとの組み合わせの任意の実施形態を含んでもよい。

最後に、明細書で用いられる文言は、主に読み易さおよび教育目的のために選択されており、発明の主題を描写または制限するために選択されていない場合がある。したがって、本発明の範囲は、この詳細な説明によってではなく、本明細書に基づいた出願で発行される任意の請求項によって制限されることが意図されている。故に、本発明の実施形態の開示は、例示することを意図しており、以下の請求項に記載される本発明の範囲を限定しない。

Claims

オクルージョンに関わらず脆弱な道路使用者（ＶＲＵ）を追跡するための方法であって、
複数の人間のＶＲＵを含む前記ＶＲＵを含む一連の画像を撮像することであって、前記ＶＲＵは前記一連の画像の少なくとも一部において少なくとも部分的にオクルージョンされていることと、
前記画像の各々を検出モデルに入力することと、
前記検出モデルの出力として、前記一連の前記ＶＲＵの画像の各々の境界枠を受信することと、
境界枠の各々をマルチタスクモデルに入力することと、
前記マルチタスクモデルからの出力として、各境界枠の埋め込みを受信することであって、前記埋め込みは、前記マルチタスクモデルの共有層から生成され、前記マルチタスクモデルは、前記共有層と、各々が異なるアクティビティを予測するように訓練された複数のブランチとを含み、前記共有層は、前記複数のブランチからのバックプロパゲーションを使用して訓練される、ことと、
前記一連の画像に亘る境界枠の各々の前記埋め込みを使って、前記ＶＲＵの前記部分的なオクルージョンにもかかわらず、前記複数の人間のＶＲＵのうちの異なるＶＲＵに対し、どの前記埋め込みが前記ＶＲＵに対応するかの指示を判定することと、を含み、どの前記埋め込みが前記ＶＲＵに対応するかの指示を判定することは、
各埋め込みを教師なし学習モデルに入力することと、
前記教師なし学習モデルから、各埋め込みが対応する埋め込みクラスタの指示を出力として受信することであって、各クラスタは、前記複数の人間のＶＲＵのうちの異なるＶＲＵに対応することと、を含む、方法。
前記一連の画像を撮像することは、車両に配置されたカメラによって撮影された画像を受信することであって、車両に配置されたセンサによって捕捉された補助データが前記画像と共に受信される、ことを含む、請求項１に記載の方法。
各境界枠の前記一連の画像の各々のコンテキストにおける座標を受信することをさらに含み、どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記埋め込みに加えて前記座標を使用することを含む、請求項２に記載の方法。
どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記補助データを使用することをさらに含む、請求項３に記載の方法。
各埋め込みは、前記ＶＲＵを追跡し、前記ＶＲＵに識別を割り当てることなくフィンガープリントとして機能する、請求項１に記載の方法。
どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記出力の一部として、所定の埋め込みの各々が、その指示されたクラスタに対応する信頼度に対応する信頼度スコアを受信することをさらに含む、請求項１に記載の方法。
オクルージョンに関わらず脆弱な道路使用者（ＶＲＵ）を追跡するために、メモリ上に符号化された命令を備える非一時的なコンピュータ可読媒体であって、前記命令は、１つ以上のプロセッサに、実行時に動作を実行させ、前記命令は、
複数の人間のＶＲＵを含む前記ＶＲＵを含む一連の画像を撮像させ、前記ＶＲＵは前記一連の画像の少なくとも一部において少なくとも部分的にオクルージョンされており、
前記画像の各々を検出モデルに入力させ、
前記検出モデルの出力として、前記一連の前記ＶＲＵの画像の各々の境界枠を受信させ、
境界枠の各々をマルチタスクモデルに入力させ、
前記マルチタスクモデルからの出力として、各境界枠の埋め込みを受信させ、前記埋め込みは、前記マルチタスクモデルの共有層から生成され、前記マルチタスクモデルは、前記共有層と、各々が異なるアクティビティを予測するように訓練された複数のブランチとを含み、前記共有層は、前記複数のブランチからのバックプロパゲーションを使用して訓練され、
前記一連の画像に亘る前記境界枠の各々の埋め込みを使って、前記ＶＲＵの前記部分的なオクルージョンにもかかわらず、前記複数の人間のＶＲＵのうちの異なるＶＲＵに対し、どの前記埋め込みが前記ＶＲＵに対応するかの指示を判定させる命令を含み、どの前記埋め込みが前記ＶＲＵに対応するかの指示を判定することは、
各埋め込みを教師なし学習モデルに入力することと、
前記教師なし学習モデルから、各埋め込みが対応する埋め込みクラスタの指示を出力として受信することであって、各クラスタは、前記複数の人間のＶＲＵのうちの異なるＶＲＵに対応することを含む、非一時的なコンピュータ可読媒体。
前記一連の画像を撮像する前記命令は、車両に配置されたカメラによって撮影された画像を受信させる命令であって、車両に配置されたセンサによって捕捉された補助データが前記画像と共に受信される、命令を含む請求項７に記載の非一時的なコンピュータ可読媒体。
前記命令は、各境界枠の前記一連の画像の各々のコンテキストにおける座標を受信させる命令をさらに含み、どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記埋め込みに加えて前記座標を使用することを含む、請求項８に記載の非一時的なコンピュータ可読媒体。
どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記補助データを使用することをさらに含む、請求項９に記載の非一時的なコンピュータ可読媒体。
各埋め込みは、前記ＶＲＵを追跡し、前記ＶＲＵに識別を割り当てることなくフィンガープリントとして機能する、請求項７に記載の非一時的なコンピュータ可読媒体。
どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定させる前記命令は、前記出力の一部として、所定の埋め込みの各々が、その指示されたクラスタに対応する信頼度に対応する信頼度スコアを受信させる命令をさらに含む、請求項７に記載の非一時的なコンピュータ可読媒体。
オクルージョンに関わらず脆弱な道路使用者（ＶＲＵ）を追跡するためのシステムであって、
符号化された命令を持つメモリを含む非一時的なコンピュータ可読媒体と、
一つまたは複数のプロセッサであり、前記命令を実行するとき、
複数の人間のＶＲＵを含む前記ＶＲＵを含む一連の画像を撮像することであって、前記ＶＲＵは前記一連の画像の少なくとも一部において少なくとも部分的にオクルージョンされていることと、
前記画像の各々を検出モデルに入力することと、
前記検出モデルの出力として、前記一連の前記ＶＲＵの画像の各々の境界枠を受信することと、
境界枠の各々をマルチタスクモデルに入力することと、
前記マルチタスクモデルからの出力として、各境界枠の埋め込みを受信することであって、前記埋め込みは、前記マルチタスクモデルの共有層から生成され、前記マルチタスクモデルは、前記共有層と、各々が異なるアクティビティを予測するように訓練された複数のブランチとを含み、前記共有層は、前記複数のブランチからのバックプロパゲーションを使用して訓練される、ことと、
前記一連の画像に亘る境界枠の各々の前記埋め込みを使って、前記ＶＲＵの前記部分的なオクルージョンにもかかわらず、前記複数の人間のＶＲＵのうちの異なるＶＲＵに対し、どの前記埋め込みが前記ＶＲＵに対応するかの指示を判定することと、を含み、どの前記埋め込みが前記ＶＲＵに対応するかの指示を判定することは、
各埋め込みを教師なし学習モデルに入力することと、
前記教師なし学習モデルから、各埋め込みが対応する埋め込みクラスタの指示を出力として受信することであって、各クラスタは、前記複数の人間のＶＲＵのうちの異なるＶＲＵに対応することを含む、操作を実行させられる１つまたは複数のプロセッサと、を備えたシステム。
前記一連の画像を撮像することは、車両に配置されたカメラによって撮影された画像を受信することであって、車両に配置されたセンサによって捕捉された補助データが前記画像と共に受信される、ことを含む、請求項１３に記載のシステム。
各境界枠の前記一連の画像の各々のコンテキストにおける座標を受信することをさらに含み、どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記埋め込みに加えて前記座標を使用することを含む、請求項１４に記載のシステム。
どの前記埋め込みが前記ＶＲＵに対応するかの前記指示を判定することは、前記補助データを使用することをさらに含む、請求項１５に記載のシステム。
各埋め込みは、前記ＶＲＵを追跡し、前記ＶＲＵに識別を割り当てることなくフィンガープリントとして機能する、請求項１３に記載のシステム。