JP2022142784A

JP2022142784A - 単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法

Info

Publication number: JP2022142784A
Application number: JP2022041668A
Authority: JP
Inventors: パークデニス; Park Dennis; エイ．アンブラスラレシュ; A Ambrus Rares; ギジリーニビトー; Guizilini Vitor; リジエ; Jie Li; デイビッドガイドンエイドリアン; David Gaidon Adrien
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-03-16
Filing date: 2022-03-16
Publication date: 2022-09-30
Also published as: JP2022142789A; US11798288B2; US20220301203A1; US20220300746A1; US20220301202A1; JP2022142790A; US20220300768A1; JP2022142787A

Abstract

【課題】より高品質な訓練セットを作成するための自己学習ラベル精密化のシステム及び方法を提供する。
【解決手段】訓練セットを作成する方法６００は、プロセッサに、モデルへの入力としての画像及び３Ｄ境界ボックスに基づいたグラウンドトゥルースとしての２Ｄ境界を用いてモデルを訓練させ６０４、モデルにより前もって出力された予測２Ｄ境界ボックスから第１のサブセットを選択させ６０６、入力としての画像及びグラウンドトゥルースとしての第１のサブセットを用いてモデルを再訓練させ６０８、モデルにより前もって出力された予測２Ｄ境界ボックスの第２のセットを選択させ６１０、第２のサブセットを形成する対応する２Ｄ境界ボックスを有する３Ｄ境界ボックスのマスターセットから３Ｄ境界ボックスを選択することにより、訓練セットを作成させる６１２。
【選択図】図１１

Description

本明細書に記載の主題は、一般に、単眼物体検出を向上するための自己学習ラベル精密化のシステム及び方法に関する。

与えられた背景技術の説明は、開示の文脈を一般的に提示することである。この背景技術の項で説明され得る限りにおける発明者の創作、及び出願時に先行技術としての資格がないかもしれない説明の態様は、本技術に対する先行技術として明示的にも黙示的にも認められない。

いくつかのニューラルネットワークモデルは、３次元（３Ｄ）単眼物体検出を行うことができる。さらに、これらのニューラルネットワークモデルは、入力として、カメラなどの撮像装置により取り込まれた画像を受信する。画像内に位置する物体を３Ｄ空間において識別し、これらの画像のまわりに適切な３Ｄ境界ボックスを作成するため、ニューラルネットワークモデルを訓練してきた。入力画像の本質が２次元（２Ｄ）であるため、これはとりわけ困難なことである。

これらのニューラルネットワークモデルは、様々な異なる方法で訓練されてもよい。注釈付けされグラウンドトゥルース(ground truth)として機能する訓練セットを必要とする監視訓練にとって、訓練セット内の注釈の精度は、訓練、ひいてはこれらのニューラルネットワークの性能に直接影響を与える。この問題を大きくしているのは、注釈は画像である２Ｄ平面上の物体の３Ｄ位置を識別しなければならないため、単眼３Ｄ物体検出を行うモデルを訓練するための訓練セットを作成するのに非常に高くつくことである。

物体の３Ｄ位置を作成するため、いくつかの注釈は、光による検知と測距（ＬＩＤＡＲ）センサから取り込まれた点群情報に基づいている。これらの訓練セットが注釈を作成するための有用なデータを提供し得る一方で、欠点を抱えている。例えば、点群情報を取り込むために用いるＬＩＤＡＲセンサ及び対応する画像を取り込むために利用するカメラが精密に配列していない結果、視差の問題をもたらす可能性がある。その上、点群がＬＩＤＡＲセンサにより作成された時とカメラが画像を取り込んだ時のタイミングが精密に同期していない結果、同期の問題をもたらす可能性がある。同期の問題における視差は、欠陥のある注釈の作成をもたらすかもしれない。モデルを訓練するために欠陥のある注釈を含む訓練セットを用いると、モデルの究極性能に影響を与えるかもしれない。

この項は、一般的に、開示を要約するものであり、その全範囲又はその特徴の全ての包括的な説明ではない。

一実施形態において、訓練セットのラベルをフィルタし精密化するシステムは、プロセッサと、プロセッサとつながったメモリと、を含む。メモリは訓練セット作成モジュールを含み、訓練セット作成モジュールは、マスターセットから３Ｄ境界ボックスをフィルタして除去することにより、プロセッサに、３Ｄ境界ボックスの訓練セットを作成させる命令を有する。これを達成するため、訓練セット作成モジュールは、画像内の物体の３Ｄ境界ボックスのマスターセットに基づき、プロセッサに、物体の２Ｄ境界ボックスを作成させ、プロセッサに、入力としての画像及びグラウンドトゥルースとしての２Ｄ境界ボックスを用いてモデルを訓練させる。訓練の間、モデルは予測２Ｄ境界ボックスの第１のセット及び予測２Ｄ境界ボックスの第１のセットに対する信頼スコアを出力する。

次に、訓練セット作成モジュールは、予測２Ｄ境界ボックスの第１のセットに対する信頼スコアに基づき、プロセッサに、予測２Ｄ境界ボックスの第１のセットから第１のサブセットを選択させ、プロセッサに、入力としての画像及びグラウンドトゥルースとしての第１のサブセットを用いてモデルを再訓練させる。再訓練の間、モデルは予測２Ｄ境界ボックスの第２のセット及び予測２Ｄ境界ボックスの第２のセットに対する信頼スコアを出力する。

訓練セット作成モジュールは、その後、予測２Ｄ境界ボックスの第２のセットに対する信頼スコアに基づき、プロセッサに、第２のセットから予測２Ｄ境界ボックスの第２のサブセットを選択させ、第２のサブセットを形成する対応する２Ｄ境界ボックスを有する３Ｄ境界ボックスのマスターセットから３Ｄ境界ボックスを選択することにより、プロセッサに、訓練セットを作成させる。

他の実施形態において、訓練セットのラベルをフィルタし精密化する方法は、画像内の物体の３Ｄ境界ボックスのマスターセットに基づき、物体の２Ｄ境界ボックスを作成するステップ、及び入力としての画像及びグラウンドトゥルースとしての２Ｄ境界ボックスを用いてモデルを訓練するステップ、を含む。モデルは予測２Ｄ境界ボックスの第１のセット及び予測２Ｄ境界ボックスの第１のセットに対する信頼スコアを出力する。

次に、該方法は、予測２Ｄ境界ボックスの第１のセットに対する信頼スコアに基づき、予測２Ｄ境界ボックスの第１のセットから第１のサブセットを選択するステップ、及び入力としての画像及びグラウンドトゥルースとしての第１のサブセットを用いてモデルを再訓練するステップ、を行う。再び、モデルは予測２Ｄ境界ボックスの第２のセット及び予測２Ｄ境界ボックスの第２のセットに対する信頼スコアを出力する。

該方法は、その後、予測２Ｄ境界ボックスの第２のセットに対する信頼スコアに基づき、予測２Ｄ境界ボックスの第２のセットから予測２Ｄ境界ボックスの第２のサブセットを選択するステップ、及び第２のサブセットを形成する対応する２Ｄ境界ボックスを有する３Ｄ境界ボックスのマスターセットから３Ｄ境界ボックスを選択することにより、訓練セットを作成するステップ、を行う。

さらに他の実施形態において、訓練セットのラベルをフィルタし精密化する方法は、入力としての画像及び３Ｄ境界ボックスのマスターセットに基づいたグラウンドトゥルースとしての２Ｄ境界ボックスを用いてモデルを訓練し、モデルは予測２Ｄ境界ボックスのセット及び予測２Ｄ境界ボックスのセットに対する信頼スコアを出力するステップを含んでもよい。次に、該方法は、その後、予測２Ｄ境界ボックスの第１のセットに対する信頼スコアに基づき、予測２Ｄ境界ボックスのセットからサブセットを選択するステップを行ってもよい。それから、該方法は、その後、サブセットを形成する対応する２Ｄ境界ボックスを有する３Ｄ境界ボックスのマスターセットから３Ｄ境界ボックスを選択することにより、訓練セットを作成するステップを行ってもよい。

適用可能なさらなる分野と開示された技術を高める様々な方法が、与えられた説明から明らかになるであろう。この発明の概要内の説明と具体的な例は説明のためのみを意図しており、本開示の範囲を限定することを意図していない。

明細書に組み込まれ、明細書の一部を構成する添付図面は、開示の様々なシステム、方法、及び他の実施形態を示す。図に示された要素境界（例えば、ボックス、ボックスのグループ、又は他の形状）は、境界の一実施形態を表していることを理解されたい。いくつかの実施形態において、１つの要素が複数の要素として設計されてもよく、あるいは、複数の要素が１つの要素として設計されてもよい。いくつかの実施形態において、他の要素の内部構成要素として示された要素が外部構成要素として実装されてもよく、逆もまた同様である。さらに、要素は、一定の縮尺で描かれていなくてもよい。

ＬＩＤＡＲセンサ及びカメラを用いてデータを収集し、３Ｄ単眼物体検出を行うモデルを訓練するための訓練データを作成する情景を示す図である。点群及び点群から作成された物体を識別する３Ｄ境界ボックスを示す図である。画像内に位置する物体を識別する図２Ａの３Ｄ境界ボックスを含む画像を示す図である。画像内に位置する物体とずれた配列をした、画像内の３Ｄ境界ボックスの一例を示す図である。画像内に位置する他の要素によってはっきり見えない物体を識別する、画像内の３Ｄ境界ボックスの他の例を示す図である。より高品質な訓練セットを作成するためマスター訓練セット内の３Ｄ境界ボックスをフィルタして除去するための訓練セット作成システムを示す図である。より高品質な訓練セットを作成するためマスターセット内の３Ｄ境界ボックスをフィルタして除去するのに用いられる、２Ｄ単眼物体検出モデルの最初の訓練を詳述するフローチャートを示す図である。３Ｄ境界ボックスに基づいた２Ｄ境界ボックスの投影の例を示す図である。より高品質な訓練セットを作成するためマスターセット内の３Ｄ境界ボックスをフィルタして除去するのに用いられる、２Ｄ単眼物体検出モデルの２番目の訓練を詳述するフローチャートを示す図である。より高品質な訓練セットを作成するためのマスターセット内の３Ｄ境界ボックスの一部の順位付け及び選択を詳述するフローチャートを示す図である。マスターセットから得られたより高品質な訓練セットを用いた３Ｄ物体検出モデルの訓練を詳述するフローチャートを示す図である。より高品質な訓練セットを作成するためマスター訓練セット内の３Ｄ境界ボックスをフィルタして除去する方法を示す図である。

訓練セットのラベルをフィルタし、及び／又は精密化することにより訓練セットを作成するシステム及び方法を説明する。次に、単眼３Ｄ物体検出モデルを訓練するため訓練セットを用いてもよい。さらに、一例において、単眼３Ｄ物体検出モデルは、画像センサにより取り込まれた画像内で、１又は複数の物体を３Ｄ空間において識別してもよい。これを達成するため、単眼３Ｄ物体検出モデルは、最初にグラウンドトゥルース３Ｄ境界ボックスを用いて訓練される必要があるかもしれない。しかしながら、背景技術の項で説明したように、グラウンドトゥルース３Ｄ境界ボックスは、ＬＩＤＡＲセンサから取り込まれた点群データに基づいている可能性があり、視差及び／又は同期の問題を抱えているかもしれない。

本明細書に記載のシステム及び方法は、２Ｄ物体検出モデルを利用し、視差及び／又は同期の問題によるエラーを有し得るマスターセットから３Ｄ境界ボックスをフィルタして除去する。システム及び方法は、まず、マスターセットからの３Ｄ境界ボックスを画像内の物体を識別する２Ｄ境界ボックスに変換する。２Ｄ境界ボックスを作成する際、単眼３Ｄ物体検出モデルを訓練するための適切な３Ｄ境界ボックスを選択するため、特定の２Ｄ境界ボックスとそれが基づいた３Ｄ境界ボックスとの間の関係に関する情報を取り込み、後で用いてもよい。

グラウンドトゥルースとしての２Ｄ境界ボックス及び入力としての関連した画像を用いて２Ｄ物体検出モデルを訓練した結果、２Ｄ物体検出モデルは、予測２Ｄ境界ボックスの第１のセット及び関連した信頼スコアを出力することになる。信頼スコアを用いてこの予測２Ｄ境界ボックスの第１のセットをフィルタし、サブセットを作る。その後、このサブセットを利用し、２Ｄ物体検出モデルを再訓練する。同様に、再訓練後、２Ｄ物体検出モデルは、予測２Ｄ境界ボックスの第２のセット及び関連した信頼スコアを出力する。第２のサブセットは、信頼スコアに基づき、予測２Ｄ境界ボックスの第２のセットから選択される。

そのため、第２のサブセットを形成する２Ｄ境界ボックスは、画像内の物体を２Ｄ空間において正しく識別する可能性がある。第２のサブセットからの２Ｄ境界ボックスを用いて、マスターセットからの対応する３Ｄ境界ボックスが識別及び選択され、訓練セットを形成する。そうすることによって、第２のサブセットからの対応する２Ｄ境界ボックスを有する３Ｄ境界ボックスは高品質であり、視差及び／又は同期の問題をそれほど抱えていないはずである。その後、単眼３Ｄ物体検出モデルを訓練するために、訓練セットを形成する３Ｄ境界ボックスを用いることができる。

どのようにシステム及び方法が作動するのかをよりよく理解するため、どのようにグラウンドトゥルース３Ｄ境界ボックスがまず作成されるのかを説明する。図１を参照すると、道路１１を含む情景１０が示される。ＬＩＤＡＲセンサ１４及びカメラセンサ１６を含む車両１２が道路１１上に位置する。物体をレーザで標的にし、反射光がＬＩＤＡＲセンサ１４の受信機に戻ってくる時間を測定することにより、ＬＩＤＡＲセンサ１４は距離を判定することができる。一例において、ＬＩＤＡＲセンサ１４は、物体までの距離を点群の形で出力してもよい。カメラセンサ１６は、任意の種類の画像センサであってもよく、情景１０の画像を取り込むことができる。

この例において、情景１０は、道路１１上に位置する車両２０及び２２を含む。ここで、ＬＩＤＡＲセンサ１４は、車両２０及び２２を表す点を含む点群を作成するのに用いられ得る情報を出力してもよい。同様に、カメラセンサ１６は、車両２０及び２２を含む画像を出力してもよい。この例において、ＬＩＤＡＲセンサ１４及びカメラセンサ１６に関する配列の問題があることに注意すべきである。さらに、ＬＩＤＡＲセンサ１４及びカメラセンサ１６は、わずかに異なる位置で車両１２に取り付けられている。そのため、この配列の違いにより視差の問題が生じ得る。視差の問題に加え、カメラセンサ１６及びＬＩＤＡＲセンサ１４はそれぞれ、わずかに異なる時間の瞬間で画像及び点群を取り込むため、同期の問題が生じ得ることに注意すべきである。

前述したように、単眼３Ｄ物体検出モデルは、カメラセンサなどの画像センサからの入力画像を受信し、画像内の物体を３Ｄ空間において識別する３Ｄ境界ボックスを出力することができる。３Ｄ物体検出モデルは、訓練を受ける必要があるかもしれない１又は複数のニューラルネットワークであってもよい。一例において、３Ｄ物体検出モデルは監視方式で訓練されてもよく、画像内の物体の予測３Ｄ境界ボックスを出力する３Ｄ物体検出モデルに画像が提供される。その後、予測３Ｄ境界ボックスをグラウンドトゥルース３Ｄ境界ボックスと比較し、損失を生じさせる。この損失に基づいて、３Ｄ物体検出モデルの１又は複数のモデル重量が調節される。訓練の過程で、３Ｄ物体検出モデルの性能は時間と共に向上するはずである。

３Ｄ物体検出モデルを訓練するためにグラウンドトゥルースとして用いられた３Ｄ境界ボックスは、一般的に、ＬＩＤＡＲセンサ１４などのＬＩＤＡＲセンサにより作成された点群情報に基づいている。さらに、図２Ａ及び図２Ｂを参照すると、訓練目的の、グラウンドトゥルース３Ｄ境界ボックスを作成するのに用いられる点群３０及び画像４０の一例が示される。ここで、点群３０の点は、点群３０内で物体を識別するために利用された。この例において、点群３０内の物体は、３Ｄ境界ボックス３２Ａ～３２Ｅ及び３４Ａ～３４Ｂにより識別された。３Ｄ境界ボックス３２Ａ～３２Ｅは車両として識別された一方で、３Ｄ境界ボックス３４Ａ～３４Ｂは歩行者として識別された。図２Ｂに最もよく示すように、点群３０の点から作成された３Ｄ境界ボックス３２Ａ～３２Ｅ及び３４Ａ～３４Ｂを画像４０に重ね合わせた。この例において、単眼３Ｄ物体検出器モデルをモデルへの入力としての画像４０を用いて訓練し、３Ｄ境界ボックス３２Ａ～３２Ｅ及び３４Ａ～３４Ｂはモデルを教師有り方式(supervised fashion)で訓練するためのグラウンドトゥルースとして機能するであろう。

しかしながら、前述したように、グラウンドトゥルースとして機能する３Ｄ境界ボックスはＬＩＤＡＲセンサにより作成された点群に基づいているため、視差及び／又は同期の問題が存在するかもしれない。例えば、図３は、車両５４を含む画像５０を示す。３Ｄ境界ボックス５２は、車両５４とずれた配列で示される。３Ｄ境界ボックス５２が車両５４と正しく配列していないため、モデルを訓練するための３Ｄ境界ボックス５２の使用は逆効果であるかもしれない。

図４は他の共通の問題を示す。ここで、画像６０は、それぞれ境界ボックス６６及び７２により識別された車両６４及び車両７０を含む。一般的に、車両６４は境界ボックス６６により正しく識別される。しかしながら、車両７０は群葉６８によってはっきり見えない。そのため、車両７０は画像６０内で容易に目に入らず、訓練の量にかかわらず単眼３Ｄ物体検出モデルにより識別できないであろう。そのため、モデルを訓練するための境界ボックス７２の使用は逆効果であるかもしれない。

図５は、図３及び図４に示されたような、３Ｄ境界ボックスをフィルタして除去し、より良い訓練セットを作ることができる訓練セット作成システム１００を示す。図のように、訓練セット作成システム１００は１又は複数のプロセッサ１１０を含む。よって、プロセッサ１１０は訓練セット作成システム１００の一部であってもよく、あるいは、訓練セット作成システム１００はデータバス又は他の通信路を通ってプロセッサ１１０にアクセスしてもよい。１又は複数の実施形態において、プロセッサ１１０は、訓練セット作成モジュール１２２と関連付けられた機能を実装するように構成された特定用途向け集積回路である。一般に、プロセッサ１１０は、本明細書に記載の様々な機能を行うことができるマイクロプロセッサなどの電子プロセッサである。一実施形態において、訓練セット作成システム１００は、訓練セット作成モジュール１２２を保存するメモリ１２０を含む。メモリ１２０は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスクドライブ、フラッシュメモリ、又は訓練セット作成モジュール１２２を保存するための他の適切なメモリである。訓練セット作成モジュール１２２は、例えば、プロセッサ１１０により実行されると、プロセッサ１１０に、本明細書に開示された様々な機能を行わせるコンピュータ可読の命令である。

さらに、一実施形態において、訓練セット作成システム１００は１又は複数のデータストア１３０を含む。一実施形態において、データストア１３０は、メモリ１２０又は他のメモリに保存され、保存データを分析する、保存データを提供する、保存データを整理する、保存データを作成する、などのためにプロセッサ１１０により実行され得るルーティンを持って構成された、データベースなどの電子データ構造である。よって、一実施形態において、データストア１３０は、様々な機能を実行する際に訓練セット作成モジュール１２２により用いられるデータを保存する。一実施形態において、データストア１３０は、単眼３Ｄ物体検出モデル１７０を訓練するための情報を含み得るマスター訓練データ１４０を保存する。さらに、マスター訓練データ１４０は画像１４２を含んでもよく、画像１４２は、画像１４２内の物体を識別するために注釈付けされたグラウンドトゥルース３Ｄ境界ボックス１４４Ａ～１４４Ｈのマスターセット１４４を有する。

単眼３Ｄ物体検出モデル１７０は、多数の異なる形態のいずれを取ってもよい。一例において、単眼３Ｄ物体検出モデル１７０は、画像を受信し、受信画像内の物体を３Ｄ空間において識別する３Ｄ境界ボックスを出力することができる１又は複数のニューラルネットワークであってもよい。単眼３Ｄ物体検出モデル１７０は、多数の異なる用途に利用してもよい。そのような用途の１つにおいて、単眼３Ｄ物体検出モデル１７０は、自律走行車用途に利用してもよい。

前述したように、マスターセット１４４の３Ｄ境界ボックス１４４Ａ～１４４Ｈのいくつかなどのグラウンドトゥルースとして機能するいくつかの３Ｄ境界ボックスは、視差、同期、及び他の問題などの問題を抱えている。本明細書で説明するように、訓練セット作成モジュール１２２は、プロセッサ１１０に、単眼２Ｄ物体検出モデル１６０を利用させ、マスターセット１４４の３Ｄ境界ボックス１４４Ａ～１４４Ｈをフィルタして除去し、訓練セット１４５を作成する。この例において、訓練セット作成システム１００はマスターセット１４４から３Ｄ境界ボックスのいくつかをフィルタして除去し、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈを有する訓練セット１４５を残している。３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈは、訓練セット作成システム１００により、視差及び／又は同期の問題、及び／又は他の問題をそれほど抱えていない点でより高品質であると見なされるであろう。そのため、訓練のためフィルタされた訓練データ１５０は、訓練セット１４５及び画像１４２を含むであろう。

マスター訓練データ１４０及びフィルタされた訓練データ１５０は単一画像を含み、単一画像は単一画像内の物体を識別する複数の３Ｄ境界ボックスを有するように示されることに注意すべきである。しかしながら、マスター訓練データ１４０及び／又はフィルタされた訓練データ１５０は複数の画像を含んでもよく、複数の画像のそれぞれが画像内の物体を識別するグラウンドトゥルースとして機能する境界ボックスをいくつ含んでもよいことを理解すべきである。

そのため、訓練セット１４５を形成する３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈは、単眼３Ｄ物体検出モデル１７０を訓練するために利用されるであろう。この例において、単眼３Ｄ物体検出モデル１７０の訓練を監視方式で行ってもよく、損失関数からの損失が計算され、その損失に基づいて、単眼３Ｄ物体検出モデル１７０の１又は複数のモデル重量１７２が調節されるであろう。マスターセット１４４をフィルタし訓練セット１４５を作成することにより、単眼３Ｄ物体検出モデル１７０は、単眼３Ｄ物体検出モデル１７０の性能に良い影響を及ぼし得る、より高品質な訓練セットを受信するであろう。

このプロセスをよりよく理解するため、プロセスフローを示す図６を参照する。ここで、訓練セット作成モジュール１２２は、マスターセット１４４の３Ｄ境界ボックス１４４Ａ～１４４Ｈに基づき、プロセッサ１１０に、画像１４２内の物体の２Ｄ境界ボックス２４４Ａ～２４４Ｈのセット２４４を作成させる。さらに、訓練セット作成モジュール１２２は、プロセッサ１１０に、２Ｄ境界ボックス２４４Ａ～２４４Ｈを対応する３Ｄ境界ボックス１４４Ａ～１４４Ｈと関連付けさせてもよい。この例において、２Ｄ境界ボックス２４４Ａは３Ｄ境界ボックス１４４Ａに関連し、２Ｄ境界ボックス２４４Ｂは３Ｄ境界ボックス１４４Ｂに関連している、などである。

２Ｄ境界ボックス２４４Ａ～２４４Ｈは、物体の３Ｄ境界ボックス１４４Ａ～１４４Ｈを画像１４２の画像平面に投影することにより作成され得る。この投影を用いて、訓練セット作成モジュール１２２は、プロセッサ１１０に、３Ｄ境界ボックス１４４Ａ～１４４Ｈの角を覆う軸整列境界ボックス(axis-aligned bounding boxes)を描かせ、２Ｄ境界ボックス２４４Ａ～２４４Ｈを作成する。例えば、図７を参照すると、３Ｄ空間において、８つの角１８０Ａ～１８０Ｈを用いて物体８０の輪郭を描く３Ｄ境界ボックス１４４Ａが示される。この例において、訓練セット作成モジュール１２２は、プロセッサ１１０に、３Ｄ境界ボックス１４４Ａの８つの角１８０Ａ～１８０Ｈを覆う４つの角１９０Ａ～１９０Ｄにより定義される２Ｄ境界ボックス２４４Ａを描かせる。

２Ｄ境界ボックス２４４Ａ～２４４Ｈが一旦作成されると、単眼２Ｄ物体検出モデル１６０は、入力としての画像１４２及びグラウンドトゥルースとしての２Ｄ境界ボックス２４４Ａ～２４４Ｈを用いて訓練する。さらに、単眼２Ｄ物体検出モデル１６０は、入力としての画像１４２を用いて予測２Ｄ境界ボックスのセット３４４及び予測２Ｄ境界ボックスのそれぞれに関連した信頼スコアを出力するであろう。この例において、単眼２Ｄ物体検出モデル１６０は、それぞれが信頼スコアを有する予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈを出力した。その上、訓練セット作成モジュール１２２は、プロセッサ１１０に、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈをマスターセット１４４からの対応する３Ｄ境界ボックス１４４Ａ～１４４Ｈと関連付けさせる。これは、２Ｄ境界ボックス２４４Ａ～２４４Ｈと対応する３Ｄ境界ボックス１４４Ａ～１４４Ｈとの間の関連に関して前もって判定された関連情報を利用することにより成し遂げられ得る。

特に、単眼２Ｄ物体検出モデル１６０は、画像１４２内の少なくとも１つの物体に対する境界ボックスを出力しなかった。場合によっては、これは、図４で記載されたものと同様に検出されなかった物体がはっきり見えないため、又は単眼２Ｄ物体検出モデル１６０によりその物体が検出されるのを妨げる他の問題を有するためであるかもしれない。

その上、単眼２Ｄ物体検出モデル１６０はまた、閾値２０２を受信してもよい。閾値２０２は、単眼２Ｄ物体検出モデル１６０が作り出すであろう２Ｄ境界ボックスの最小信頼スコアを示すパラメータ値を提供してもよい。閾値２０２が低いほど、単眼２Ｄ物体検出モデル１６０によってより多くの境界ボックスが戻るであろう。そのため、８つではなく７つの予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈのみが戻るように閾値２０２を設定してもよい。

セット３４４の予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈ及びグラウンドトゥルースとしての２Ｄ境界ボックス２４４Ａ～２４４Ｈを用いて、訓練セット作成モジュール１２２は、プロセッサに、損失を判定するための損失関数２０６を利用させてもよい。損失は、単眼２Ｄ物体検出モデル１６０の１又は複数のモデル重量１６２を調節するために利用され、単眼２Ｄ物体検出モデル１６０の性能を向上させるであろう。

単眼２Ｄ物体検出モデル１６０に関して手短に述べる。単眼２Ｄ物体検出モデル１６０は、入力として画像を受信し、画像内で物体を識別する１又は複数の２Ｄ境界ボックスを出力する、任意の種類の単眼２Ｄ物体検出モデルであってもよい。一例において、単眼２Ｄ物体検出モデル１６０は、完全畳み込み一段階物体検出器であってもよい。しかしながら、任意の種類の単眼２Ｄ物体検出モデルを利用してもよい。

予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈが一旦作成されたら、訓練セット作成モジュール１２２は、信頼スコアに基づき、プロセッサ１１０に、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈからサブセットを選択させてもよい。さらに、図８を参照すると、プロセッサ１１０は、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈを選択し、サブセット３４５を形成している。この例において、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈのそれぞれと関連付けられた信頼スコアは、物体が予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈ内に位置する高い可能性を示すものであってもよい。

サブセット３４５の選択は、信頼スコアに基づき、プロセッサ１１０に、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈのセット３４４を順位付けさせ、セット３４４からサブセット３４５を選択することにより起こり得る。サブセット３４５は、所定の閾値を満たす信頼スコアを有するセット３４４の予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈを含んでもよい。

サブセット３４５を用いて、訓練セット作成モジュール１２２は、プロセッサ１１０に、入力としての画像１４２及びグラウンドトゥルースとしての予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈを含むサブセット３４５を用いて単眼２Ｄ物体検出モデル１６０を再訓練させてもよい。「再訓練する」又は「再訓練」という用語はそれぞれ、「訓練する」又は「訓練」と同じように解釈することができることを理解すべきである。ここで、２Ｄ単眼２Ｄ物体検出モデル１６０は、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈのセット４４４及び関連した信頼スコアを出力する。訓練セット作成モジュール１２２は、プロセッサ１１０に、損失関数２０６を用いて損失を計算させてもよい。この損失に基づいて、プロセッサ１１０は、２Ｄ単眼２Ｄ物体検出モデル１６０の１又は複数のモデル重量１６２を調節してもよい。任意に、単眼２Ｄ物体検出モデル１６０は、前述した閾値２０２を受信してもよい。

再び、訓練セット作成モジュール１２２は、プロセッサ１１０に、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈをマスターセット１４４からの対応する３Ｄ境界ボックス１４４Ａ～１４４Ｈと関連付けさせる。そのため、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈが３Ｄ境界ボックス１４４Ａ、１４４Ｂ、１４４Ｄ、１４４Ｆ、及び１４４Ｈに対応するという情報がセーブされる。前と同様に、これは、前もって判定された関連情報を利用することにより成し遂げられ得る。

訓練セット作成モジュール１２２は、プロセッサ１１０に、図８に示す再訓練を何度でも好きなだけ行わせることができる。例えば、訓練セット作成モジュール１２２は、プロセッサ１１０に、セット４４４から他のサブセットを選択させ、単眼２Ｄ物体検出モデル１６０の追加の再訓練を反復方式で行わせることができる。この例において、一度の再訓練のみを示したが、図８に示す再訓練は何度でも起こってもよいことを理解すべきである。

図９を参照すると、訓練セット作成モジュール１２２は、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈに対する信頼スコアに基づき、プロセッサ１１０に、予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈの他のサブセット４４５を選択させてもよい。この例において、予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈのそれぞれと関連付けられた信頼スコアは、物体が予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈ内に位置するさらに高い可能性を示すものであってもよい。サブセット３４５の選択と同様に、サブセット４４５の選択は、信頼スコアに基づき、プロセッサ１１０に、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈのセット４４４を順位付けさせ、セット４４４からサブセット４４５を選択することにより起こり得る。

そのため、訓練セット作成モジュール１２２は、プロセッサ１１０に、画像１４２内の物体が２Ｄ境界ボックスのこのサブセット４４５内に位置する高い可能性を有するとして、予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈを識別させた。その後、３Ｄ境界ボックス１４４Ａ～１４４Ｈのどれが予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈと関連するかを探すことにより訓練セット１４５が作成される。ここで、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈが予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈに関連するため、訓練セット作成モジュール１２２は、プロセッサ１１０に、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈを選択させ、訓練セット１４５を形成してもよい。対応する３Ｄ境界ボックスのこの識別は、前述した関連情報を利用することにより起こってもよい。

その後、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈは、フィルタされた訓練データ１５０内に保存され、単眼３Ｄ物体検出モデル１７０を訓練するために利用されてもよい。３Ｄ境界ボックス１４４Ａ～１４４Ｈに基づいたグラウンドトゥルースを用いて画像１４２内の実際の物体の位置を正しく判定するため、単眼２Ｄ物体検出モデル１６０を利用し訓練することにより、訓練セット作成システム１００は、画像１４２内の物体と正しく配列していない、及び／又は図３及び図４に示され説明されたような同期エラーが生じやすい３Ｄ境界ボックスをフィルタして除去することができる。

図１０は、訓練セット１４５を用いた単眼３Ｄ物体検出モデル１７０の訓練を示す。単眼３Ｄ物体検出モデル１７０の訓練は訓練セット作成システム１００により行ってもよく、あるいは、単眼３Ｄ物体検出モデル１７０を訓練するためにフィルタされた訓練セット１４５を単純に利用する他のシステムにより行ってもよいことを理解すべきである。

ここで、単眼３Ｄ物体検出モデル１７０は、画像１４２を受信し、セット５４４を形成する予測３Ｄ境界ボックス５４４Ａ、５４４Ｆ、及び５４４Ｈを出力する。プロセッサ１１０は、損失関数２１２を用い、予測３Ｄ境界ボックス５４４Ａ、５４４Ｆ、及び５４４Ｈとグラウンドトゥルースとして機能する３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈとの間の損失を判定する。その後、プロセッサ１１０は、損失を用いて単眼３Ｄ物体検出モデルのモデル重量１７２を調節し、単眼３Ｄ物体検出モデル１７０の性能を向上してもよい。

そのため、訓練セット作成システム１００を用いてマスター訓練データ１４０からフィルタされた訓練データ１５０を用いて単眼３Ｄ物体検出モデル１７０を訓練することにより、訓練データ１５０には、我々の同期エラーにおける視差に関連した問題を軽減した、より高品質なグラウンドトゥルース３Ｄ境界ボックスが投入されるであろう。最終的に、単眼３Ｄ物体検出モデル１７０はより良い訓練データを用いて訓練されるであろうことから、単眼３Ｄ物体検出モデルは向上した性能を得るであろう。

図１１を参照すると、訓練セットを作成する方法６００が示される。図６、図８、及び図９に示されたプロセスフローを参照し、図５の訓練セット作成システム１００の観点から方法６００を説明する。しかしながら、これは、方法６００を実行するほんの一例であることを理解すべきである。方法６００を訓練セット作成システム１００と組み合わせて述べているが、方法６００は、訓練セット作成システム１００内で実行されることに限られず、代わりに、方法６００を実行できるシステムの一例であることを理解されたい。

ステップ６０２において、訓練セット作成モジュール１２２は、マスターセット１４４の３Ｄ境界ボックス１４４Ａ～１４４Ｈに基づき、プロセッサ１１０に、画像１４２内の物体の２Ｄ境界ボックス２４４Ａ～２４４Ｈのセット２４４を作成させる。前述したように、２Ｄ境界ボックス２４４Ａ～２４４Ｈは、物体の３Ｄ境界ボックス１４４Ａ～１４４Ｈを画像１４２の画像平面に投影することにより作成され得る。この投影を用いて、訓練セット作成モジュール１２２は、プロセッサ１１０に、３Ｄ境界ボックス１４４Ａ～１４４Ｈの角を覆う軸整列境界ボックスを描かせ、２Ｄ境界ボックス２４４Ａ～２４４Ｈを作成する。

ステップ６０４において、訓練セット作成モジュール１２２は、プロセッサ１１０に、入力としての画像１４２及びグラウンドトゥルースとしての２Ｄ境界ボックス２４４Ａ～２４４Ｈを用いて単眼２Ｄ物体検出モデル１６０を訓練させる。さらに、単眼２Ｄ物体検出モデル１６０は、入力としての画像１４２を用いて予測２Ｄ境界ボックスのセット３４４及び予測２Ｄ境界ボックスのそれぞれに関連した信頼スコアを出力するであろう。この例において、単眼２Ｄ物体検出モデル１６０は、それぞれが信頼スコアを有する予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈを出力した。

ステップ６０６において、訓練セット作成モジュール１２２は、信頼スコアに基づき、プロセッサ１１０に、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ及び３４４Ｆ～３４４Ｈからサブセットを選択させてもよい。さらに、図８を参照すると、プロセッサ１１０は、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈを選択し、サブセット３４５を形成している。この例において、予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈのそれぞれと関連付けられた信頼スコアは、物体が予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈ内に位置する高い可能性を示すものであってもよい。

ステップ６０８において、訓練セット作成モジュール１２２は、プロセッサ１１０に、入力としての画像１４２及びグラウンドトゥルースとしての予測２Ｄ境界ボックス３４４Ａ～３４４Ｄ、３４４Ｆ、及び３４４Ｈを含むサブセット３４５を用いて単眼２Ｄ物体検出モデル１６０を再訓練させてもよい。ここで、２Ｄ単眼２Ｄ物体検出モデル１６０は、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈのセット４４４及び関連した信頼スコアを出力する。訓練セット作成モジュール１２２は、プロセッサ１１０に、図８に示す再訓練を何度でも好きなだけ行わせることができる。

ステップ６１０において、訓練セット作成モジュール１２２は、予測２Ｄ境界ボックス４４４Ａ、４４４Ｂ、４４４Ｄ、４４４Ｆ、及び４４４Ｈに対する信頼スコアに基づき、プロセッサ１１０に、予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈの他のサブセット４４５を選択させてもよい。

ステップ６１２において、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈが予測２Ｄ境界ボックス４４４Ａ、４４４Ｄ、４４４Ｆ、及び４４４Ｈに関連するため、訓練セット作成モジュール１２２は、プロセッサ１１０に、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈを選択させ、訓練セット１４５を形成してもよい。対応する３Ｄ境界ボックスのこの識別は、前述した関連情報を利用することにより起こってもよい。その後、３Ｄ境界ボックス１４４Ａ、１４４Ｄ、１４４Ｆ、及び１４４Ｈは、フィルタされた訓練データ１５０内に保存され、単眼３Ｄ物体検出モデル１７０を訓練するために利用されてもよい。

そのため、方法６００を用いて、訓練データ１５０には、我々の同期エラーにおける視差に関連した問題を軽減した、より高品質なグラウンドトゥルース３Ｄ境界ボックスが投入され、単眼３Ｄ物体検出モデルの向上した訓練につながるであろう。

詳細な実施形態が本明細書に開示されている。しかしながら、開示された実施形態は、例としてのみ意図されたものであることを理解すべきである。したがって、本明細書に開示された特定の構造的及び機能的詳細は、限定的なものとして解釈されるべきではなく、特許請求の範囲のための基礎として、及び事実上あらゆる適切で詳細な構造において本明細書の態様を様々に採用するために当業者へ教示するための代表的な基礎としてのみ解釈されるべきである。さらに、本明細書で使用される用語及びフレーズは、限定を意図したものではなく、むしろ、可能な実装形態の理解可能な説明を提供することを意図したものである。様々な実施形態が図１～図１１に示されるが、実施形態は、示された構造又は用途に限定されるものではない。

様々な実施形態によると、図中のフローチャート及びブロック図は、システム、方法、及びコンピュータプログラムプロダクトの可能な実装形態のアーキテクチャ、機能、及び動作を示す。この点に関して、フローチャート又はブロック図内のそれぞれのブロックは、コードのモジュール、セグメント、又は部分を表していてもよく、これらは、特定の論理的機能を実装するための１又は複数の実行可能命令を含む。また、いくつかの代替の実装形態において、ブロック内に記された機能は、図に記されたものとは異なる順序で起こってもよいことにも注意すべきである。例えば、関与する機能に応じて、連続的に示された２つのブロックは、実質的に同時に実行されてもよく、あるいは、しばしば、逆の順序で実行されてもよい。

上述のシステム、コンポーネント、及び／又はプロセスは、ハードウェアにおいて、又はハードウェアとソフトウェアとの組み合わせにおいて実現可能であり、１つの処理システム内で中央集中化された方式、又は異なる要素がいくつかの相互接続した処理システムにまたがって分散された分散型の方式において実現可能である。本明細書に記載の方法を実行するために適合されたあらゆる種類の処理システム又は他の機器が適している。ハードウェアとソフトウェアとの典型的な組み合わせは、読み込まれ、実行された際に、本明細書に記載の方法を実行するように処理システムを制御するコンピュータ使用可能プログラムコードを有する処理システムであり得る。システム、コンポーネント、及び／又はプロセスはまた、本明細書に記載の方法及びプロセスを行うため、機械によって実行可能な命令のプログラムを有体に実施する、機械により可読なコンピュータプログラムプロダクト又は他のデータプログラム記憶装置などのコンピュータ可読ストレージに埋め込むことができる。これらの要素はまた、本明細書に記載の方法の実行を可能にする全ての特徴を含み、処理システムに読み込まれた際にこれらの方法を実行し得るアプリケーションプロダクトに埋め込むことができる。

さらに、本明細書に記載の構成は、その中で実施された、例えば、保存されたコンピュータ可読プログラムコードを有する１又は複数のコンピュータ可読媒体において実施されたコンピュータプログラムプロダクトの形態を有してもよい。１又は複数のコンピュータ可読媒体の任意の組み合わせを利用してもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体であってもよい。「コンピュータ可読記憶媒体」というフレーズは、非一時的な記録媒体を意味する。コンピュータ可読記憶媒体は、例えば、これらに限定されないが、電子、磁気、光学、電磁気、赤外線、若しくは半導体システム、機器、若しくは装置、又は上記の任意の適切な組み合わせであってもよい。コンピュータ可読記憶媒体のさらに具体的な例（完全に網羅されていないリスト）は、以下：携帯型コンピュータディスケット、ハードディスクドライブ（ＨＤＤ）、半導体ドライブ（ＳＳＤ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、光学記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせ、を含むことになろう。本明細書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、機器、又は装置によって、あるいは、これと関連して使用されるプログラムを含み得る、又は保存し得る、任意の有体の媒体であってもよい。

一般的に、本明細書で使用されるモジュールは、特定のタスクを行う、あるいは、特定のデータタイプを実行するルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。さらなる態様において、メモリは、一般的に、言及されたモジュールを保存する。モジュールと関連付けられたメモリは、プロセッサに埋め込まれたバッファ又はキャッシュ、ＲＡＭ、ＲＯＭ、フラッシュメモリ、又は他の適切な電子記憶媒体であってもよい。よりさらなる態様において、本開示により想定されるモジュールは、特定用途向け集積回路（ＡＳＩＣ）、システムオンチップ（ＳｏＣ）のハードウェアコンポーネント、プログラマブルロジックアレイ（ＰＬＡ）、又は開示された機能を行うための定義された設定セット（例えば、命令）が埋め込まれた他の適切なハードウェアコンポーネントとして実行される。

コンピュータ可読媒体で実施されたプログラムコードは、限定されるわけではないが、無線、有線、光ファイバー、ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含む、任意の適切な媒体を用いて送信されてもよい。本構成の態様に対し動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋、又は同種のものなどのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されてもよい。プログラムコードは、スタンドアロンソフトウェアパッケージとして、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、又は、部分的にユーザのコンピュータ上で、及び部分的に遠隔コンピュータ上で、又は、完全に遠隔コンピュータ上で、若しくは、サーバ上で実行されてもよい。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、あるいは、その接続は、外部コンピュータになされてもよい（例えば、インターネットサービスプロバイダを用いたインターネットを経由して）。

本明細書で使用される「１つの」という用語は、１つではなく、１つ以上として定義される。本明細書で使用される「複数の」という用語は、２つではなく、２つ以上として定義される。本明細書で使用される「他の」という用語は、少なくとも２番目又はそれ以上として定義される。本明細書で使用される「含む」及び／又は「有する」という用語は、包含する（すなわち、オープン言語）として定義される。本明細書で使用される「～及び～の少なくとも１つ」というフレーズは、関連する列挙されたアイテムの１又は複数の任意の及び全ての可能な組み合わせを意味し、包含する。例として、「Ａ、Ｂ、及びＣの少なくとも１つ」というフレーズは、Ａのみ、Ｂのみ、Ｃのみ、又はこれらの任意の組み合わせ（例えば、ＡＢ、ＡＣ、ＢＣ、又はＡＢＣ）を含む。

本明細書における態様は、その精神又は本質的な特質から逸脱することなく、他の形態で実施することができる。よって、本明細書の範囲を示すものとして、上記の明細書ではなく、以下の特許請求の範囲を参照すべきである。

Claims

プロセッサと、
前記プロセッサとつながったメモリと、を備えるシステムであって、
前記メモリは訓練セット作成モジュールを有し、前記訓練セット作成モジュールは、前記プロセッサにより実行されると、
画像内の物体の３Ｄ境界ボックスのマスターセットに基づき、前記プロセッサに、前記物体の２Ｄ境界ボックスを作成させ、
前記プロセッサに、入力としての前記画像及びグラウンドトゥルースとしての前記２Ｄ境界ボックスを用いてモデルを訓練させ、前記モデルは予測２Ｄ境界ボックスの第１のセット及び前記予測２Ｄ境界ボックスの第１のセットに対する信頼スコアを出力し、
前記予測２Ｄ境界ボックスの第１のセットに対する前記信頼スコアに基づき、前記プロセッサに、前記予測２Ｄ境界ボックスの第１のセットから第１のサブセットを選択させ、
前記プロセッサに、前記入力としての前記画像及びグラウンドトゥルースとしての前記第１のサブセットを用いて前記モデルを再訓練させ、前記モデルは予測２Ｄ境界ボックスの第２のセット及び前記予測２Ｄ境界ボックスの第２のセットに対する信頼スコアを出力し、
前記予測２Ｄ境界ボックスの第２のセットに対する前記信頼スコアに基づき、前記プロセッサに、前記第２のセットから予測２Ｄ境界ボックスの第２のサブセットを選択させ、
前記第２のサブセットを形成する対応する２Ｄ境界ボックスを有する前記３Ｄ境界ボックスのマスターセットから前記３Ｄ境界ボックスを選択することにより、前記プロセッサに、訓練セットを作成させる命令を有する、
システム。
前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記プロセッサに、前記物体の前記３Ｄ境界ボックスを前記画像の画像平面に投影させ、前記物体の前記２Ｄ境界ボックスを作成する命令をさらに含む、請求項１に記載のシステム。
前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記信頼スコアに基づき、前記プロセッサに、前記予測２Ｄ境界ボックスの第１のセットを順位付けさせ、前記プロセッサに、前記予測２Ｄ境界ボックスの第１のセットから前記第１のサブセットを選択させる命令をさらに含み、前記第１のサブセットが、所定の閾値を満たす信頼スコアを有する前記第１のセットの前記予測２Ｄ境界ボックスを含む、請求項１に記載のシステム。
前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記信頼スコアに基づき、前記プロセッサに、前記予測２Ｄ境界ボックスの第２のセットを順位付けさせ、前記プロセッサに、前記予測２Ｄ境界ボックスの第２のセットから前記第２のサブセットを選択させる命令をさらに含み、前記第２のサブセットが、所定の閾値を満たす信頼スコアを有する前記第２のセットの前記予測２Ｄ境界ボックスを含む、請求項１に記載のシステム。
前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記プロセッサに、前記モデルに閾値を提供させる命令をさらに含み、前記モデルが前記閾値を満たす予測２Ｄ境界ボックスを出力する、請求項１に記載のシステム。
前記物体を有する情景のＬＩＤＡＲセンサから取り込まれた情報に基づき、前記３Ｄ境界ボックスが作成された、請求項１に記載のシステム。
前記信頼スコアは、物体が前記予測２Ｄ境界ボックスにより定義される可能性を示す、請求項１に記載のシステム。
前記訓練セット作成モジュールは、前記プロセッサにより実行されると、前記プロセッサに、前記３Ｄ境界ボックスの角を覆う軸整列境界ボックスを描かせ、前記２Ｄ境界ボックスを作成する命令をさらに含む、請求項１に記載のシステム。
画像内の物体の３Ｄ境界ボックスのマスターセットに基づき、前記物体の２Ｄ境界ボックスを作成するステップ、
入力としての前記画像及びグラウンドトゥルースとしての前記２Ｄ境界ボックスを用いてモデルを訓練し、前記モデルは予測２Ｄ境界ボックスの第１のセット及び前記予測２Ｄ境界ボックスの第１のセットに対する信頼スコアを出力するステップ、
前記予測２Ｄ境界ボックスの第１のセットに対する前記信頼スコアに基づき、前記予測２Ｄ境界ボックスの第１のセットから第１のサブセットを選択するステップ、
前記入力としての前記画像及びグラウンドトゥルースとしての前記第１のサブセットを用いて前記モデルを再訓練し、前記モデルは予測２Ｄ境界ボックスの第２のセット及び前記予測２Ｄ境界ボックスの第２のセットに対する信頼スコアを出力するステップ、
前記予測２Ｄ境界ボックスの第２のセットに対する前記信頼スコアに基づき、前記予測２Ｄ境界ボックスの第２のセットから予測２Ｄ境界ボックスの第２のサブセットを選択するステップ、及び
前記第２のサブセットを形成する対応する２Ｄ境界ボックスを有する前記３Ｄ境界ボックスのマスターセットから前記３Ｄ境界ボックスを選択することにより、訓練セットを作成するステップ、
を含む、方法。
前記物体の前記３Ｄ境界ボックスを前記画像の画像平面に投影し、前記物体の前記２Ｄ境界ボックスを作成するステップをさらに含む、請求項９に記載の方法。
前記信頼スコアに基づき、前記予測２Ｄ境界ボックスの第１のセットを順位付けするステップ、及び前記予測２Ｄ境界ボックスの第１のセットから前記第１のサブセットを選択するステップをさらに含み、前記第１のサブセットが、所定の閾値を満たす信頼スコアを有する前記第１のセットの前記予測２Ｄ境界ボックスを含む、請求項９に記載の方法。
前記信頼スコアに基づき、前記予測２Ｄ境界ボックスの第２のセットを順位付けするステップ、及び前記予測２Ｄ境界ボックスの第２のセットから前記第２のサブセットを選択するステップをさらに含み、前記第２のサブセットが、所定の閾値を満たす信頼スコアを有する前記第２のセットの前記予測２Ｄ境界ボックスを含む、請求項９に記載の方法。
前記モデルに閾値を提供するステップをさらに含み、前記モデルが前記閾値を満たす予測２Ｄ境界ボックスを出力する、請求項９に記載の方法。
前記物体を有する情景のＬＩＤＡＲセンサから取り込まれた情報に基づき、前記３Ｄ境界ボックスが作成された、請求項９に記載の方法。
前記信頼スコアは、物体が前記予測２Ｄ境界ボックスにより定義される可能性を示す、請求項９に記載の方法。
前記３Ｄ境界ボックスの角を覆う軸整列境界ボックスを描き、前記２Ｄ境界ボックスを作成するステップをさらに含む、請求項９に記載の方法。
入力としての画像及び３Ｄ境界ボックスのマスターセットに基づいたグラウンドトゥルースとしての２Ｄ境界ボックスを用いてモデルを訓練し、前記モデルは予測２Ｄ境界ボックスのセット及び前記予測２Ｄ境界ボックスのセットに対する信頼スコアを出力するステップ、
前記予測２Ｄ境界ボックスのセットに対する前記信頼スコアに基づき、前記予測２Ｄ境界ボックスのセットからサブセットを選択するステップ、及び
前記サブセットを形成する対応する２Ｄ境界ボックスを有する前記３Ｄ境界ボックスのマスターセットから前記３Ｄ境界ボックスを選択することにより、訓練セットを作成するステップ、
を含む、方法。
前記モデルに閾値を提供するステップをさらに含み、前記モデルが前記閾値を満たす予測２Ｄ境界ボックスを出力する、請求項１７に記載の方法。
前記信頼スコアは、物体が前記予測２Ｄ境界ボックスにより定義される可能性を示す、請求項１７に記載の方法。
前記マスターセットの前記３Ｄ境界ボックスの角を覆う軸整列境界ボックスを描き、前記２Ｄ境界ボックスを作成するステップをさらに含む、請求項１７に記載の方法。