JP6898534B2

JP6898534B2 - 機械学習におけるデータ・ストレージを低減するためのシステムおよび方法

Info

Publication number: JP6898534B2
Application number: JP2020547341A
Authority: JP
Inventors: 充啓馬渕
Original assignee: トヨタリサーチインスティテュート，インコーポレイティド
Priority date: 2018-03-13
Filing date: 2019-02-14
Publication date: 2021-07-07
Anticipated expiration: 2039-02-14
Also published as: JP2021509993A; WO2019177738A1; CN111886609A; US10755112B2; CN111886609B; DE112019001310T5; DE112019001310B4; US20190289273A1

Description

本出願は２０１８年３月１３日に出願された米国特許出願第１５／９１９，３７６号の利益を主張し、その全内容は参照によりその全体が本明細書に組み込まれる。

本明細書は、一般に、機械学習に使用される訓練データに必要とされる格納領域の量を減らすことに関し、より具体的には、二次元画像が訓練データとして使用される３次元モデルから二次元画像を生成するためのシステムおよび方法に関する。

現在、計算デバイス、特に、自律および半自律走行車両のための機械学習に関連するものは、機械学習のための訓練データとして使用される３次元（３Ｄ）モデルを格納する。この種の訓練データは計算的に高価であり、大量の格納スペースを必要とする。このように、車載プロセッサが訓練データを有効に利用することは困難である。

一実施形態では、機械学習データのサイズを縮小する方法が提供される。この方法は、処理デバイスによって、３次元モデルを含むデータを受信することを含む。３次元モデル内のシーンは、処理デバイスによって分析され、関心オブジェクトおよび１つ以上の追加のオブジェクトを識別する。処理デバイスは、関心オブジェクトおよび１つ以上の追加オブジェクトを、複数の２次元画像としてキャプチャする。処理デバイスは、複数のトリミングされた２次元画像を取得するために、複数の２次元画像から１つ以上の追加オブジェクトを除去する。処理デバイスは、複数のトリミングされた２次元画像を格納する。

別の実施形態では、機械学習において訓練データを含むために使用されるデータ・ストレージの量を減少させるためのシステムが提供される。このシステムは処理デバイスと、一時的ではない、プロセッサが読み取り可能な格納媒体とを含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに３次元モデルのようなデータを受信させる１つ以上のプログラミング命令を、その上に含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、関心オブジェクトおよび１つ以上の追加の物を識別させるために３次元モデル内のシーンを分析させ、関心オブジェクトおよび１つ以上の追加の物を複数の２次元画像としてキャプチャさせ、複数のトリミングされた２次元画像を取得するように複数の２次元画像から１つ以上の追加の物を除去させ、複数のトリミングされた２次元画像を格納させる、１つ以上のプログラミング命令をその上にさらに含む。

さらに別の実施形態では、機械学習において訓練データを含むために使用されるデータ・ストレージの量を減少させるためのシステムが提供される。システムは、処理デバイスと、処理デバイスに通信可能に結合された画像キャプチャデバイスと、処理デバイスに通信可能に結合された外部デバイスと、非一時的なプロセッサ可読格納媒体とを含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、３次元モデルなどのデータを受信させ、関心オブジェクトおよび１つ以上の追加オブジェクトを識別させるために、３次元モデル内のシーンを分析させ、関心オブジェクトおよび１つ以上の追加オブジェクトを複数の２次元画像としてキャップチャさせる、１つ以上のプログラミング命令をその上に備える。さらに、非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、複数の２次元画像を外部デバイスに送信させ、複数の２次元画像がリアルな画像であることを示す信号を外部デバイスから受信させる、１つ以上のプログラミング命令をその上に含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、複数のトリミングされた２次元画像を取得し、複数のトリミングされた２次元画像を格納するために、複数の２次元画像から１つ以上の追加オブジェクトを除去させる、１つ以上のプログラミング命令をさらに含む。

本明細書で説明される実施形態によって提供されるこれらの特徴および追加の特徴は、図面と併せて、以下の詳細な説明を考慮して、より完全に理解される。

図面に記載された実施形態は、本質的に図示的かつ例示的なものであり、特許請求の範囲によって定義される主題を限定することを意図するものではない。例示的な、実施形態の以下の詳細な説明は、同様の構造が同様の参照番号で示されている以下の図面と併せて読むと理解することができる。
図１は、本明細書で示され、説明される１つ以上の実施形態による、３次元モデルから２次元画像を生成するシステムのためのコンポーネントを有する例示的なネットワークを概略的に示す。図２Ａは、本明細書で示され、説明される１つ以上の実施形態による、３次元モデルから２次元画像を生成する際に使用され得る車両コンピューティング・デバイスの例示的なハードウェア構成要素を概略的に示す。図２Ｂは、本明細書で示され、説明される１つ以上の実施形態による、例示的な論理構成要素を含む例示的なメモリ構成要素を概略的に示す。図２Ｃは、本明細書で示され、説明される１つ以上の実施形態による、例示的なデータ構成要素を含む例示的なデータ格納デバイスを概略的に示す。図３は、本明細書で示され、説明される１つ以上の実施形態による、３次元モデルから２次元画像を生成する例示的な方法の流れ図を示す。図４Ａは、本明細書で示され、説明される１つ以上の実施形態による、トリミングされた２次元画像の例示的な図を概略的に示す。図４Ｂは、本明細書で示され、説明される１つ以上の実施形態による、背景画像の例示的な図を概略的に示す。図４Ｃは、本明細書で示され、説明される１つ以上の実施形態による、トリミングされた２次元画像とマージされた気象属性の例示的な図を概略的に示す。図４Ｄは、本明細書で示され、説明される１つ以上の実施形態による、合成画像の例示的な図を概略的に示す。

一般に、図面を参照すると、本明細書に記載する実施形態は、３次元（３Ｄ）モデルを複数の二次元（２Ｄ）画像で置き換えることによって、機械学習のための訓練データに必要なデータ格納量および／または処理能力を減らすためのシステムおよび方法を指向している。３Ｄモデルは例えば、ＣＡＤ図面などの設計モデル、１つ以上のセンサによって収集された３Ｄデータ、および／または同様のものとすることができる。３Ｄモデルは、セマンティックセグメンテーション法によって解析される。特に、３Ｄモデル内の特定のシーンは、関心オブジェクトを識別するために分析されてもよく、また、１つ以上の追加オブジェクトを識別してもよい。関心オブジェクトの複数の２Ｄ画像および１つ以上の追加のオブジェクトが、様々な角度、ズームのレベル、および／または同様のものからキャプチャされる。複数の２Ｄ画像は関心オブジェクトのみが残り、１つ以上の追加オブジェクトが除去されるようにトリミングされる。

また、背景画像は、画像キャプチャデバイスによってキャプチャされる。したがって、背景画像は、車両などの関心オブジェクトを取り囲む背景のリアルタイムのライブ画像から得られる。画像キャプチャデバイスは、気象および環境情報に関連する画像をリアルタイムでキャプチャすることができる。背景画像には、他のオブジェクトや属性など、関心オブジェクトのオブジェクトを囲む背景からの情報が含まれる。背景画像は、カテゴリ化され、気象属性、照明属性、および／またはシェーディング属性などの選択された属性が、次に、複数のトリミングされた２Ｄ画像に追加される。複数のトリミングされた２Ｄ画像および選択された属性は、２Ｄ画像が機械学習のための訓練データとして使用され得るように合成され、注釈付けされる。その結果、２Ｄ画像は、訓練データとして３Ｄモデルを置き換え、訓練データを含むために使用されるデータ・ストレージの量を減少させる。さらに、本明細書で説明するシステムおよび方法は、例えば、車両ベースの計算デバイス内に配置されたプロセッサなど、比較的性能の低いプロセッサによって利用することができるデータを生成することができる。

次に、図面を参照すると、図１は、本明細書に示され説明される実施形態による機械学習のための訓練データとして使用される、３Ｄモデルからクロップされた２Ｄ画像を生成するためのシステムのためのコンポーネントを有する例示的ネットワーク１００を図示する。図１に示すように、コンピュータ・ネットワーク１０５は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、移動通信ネットワーク、公衆サービス電話網（ＰＳＴＮ）、パーソナルエリアネットワーク（ＰＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、バーチャルプライベートネットワーク（ＶＰＮ）、および／または、別のネットワークのようなワイドエリアネットワーク（ＷＡＮ）を含むことができる。コンピュータ・ネットワーク１０５は、一般に、計算デバイスおよび／またはそのコンポーネントなどの１つ以上のデバイスを電子的に接続するように構成することができる。例示的なデバイスには車両１１０、利用者・コンピューティング・デバイス１２０、およびサーバ・コンピューティング・デバイス１３０を含めることができるが、これらに限定されない。

車両１１０は、一般に、１つ以上のオンボード計算デバイス、特に、データを処理し、データを格納し、車両内または車両周辺の画像をキャプチャするためのハードウェアを含む計算デバイスを有する任意の車両であり得る。したがって、車両１１０および／またはその構成要素は、データを受信すること、画像キャプチャデバイス１１５で画像データ（例えば、２Ｄ画像）をキャプチャすること、キャプチャされた画像を処理すること、処理された画像を格納すること、および機械学習アルゴリズムのための処理された画像を提供することなど、本明細書でより詳細に説明されるように、１つ以上のコンピューティング機能を実行することができる。

利用者・コンピューティング・デバイス１２０は、一般に、利用者とコンピュータ・ネットワーク１０５に接続された他の成分との間のインタフェースとして使用することができる。したがって、利用者・コンピューティング・デバイス１２０は、本明細書でさらに詳細に説明するように、利用者から１つ以上の入力を受信したり、利用者に情報を提供したりするなど、１つ以上の利用者向け機能を実行するために使用することができる。したがって、ユーザ・コンピューティング・デバイス１２０は、本明細書でより詳細に説明するように、少なくとも表示デバイスおよび／または入力ハードウェアを含むことができる。サーバ計算デバイス１３０が、監視、更新、および／または修正を必要とする場合、ユーザ計算デバイス１２０は、所望の監視、更新、および／または修正を提供するように構成することができる。ユーザ計算デバイス１２０はまた、サーバ計算デバイス１３０上に格納されたデータのコーパスに追加データを入力するために使用することができる。例えば、ユーザ・コンピューティング・デバイス１２０は、３Ｄモデルから２Ｄ画像を生成することに関連するソフトウェアプログラムと同様に、２Ｄ画像および３Ｄモデルの閲覧、解釈、および／またはキャプチャに関連するソフトウェアプログラムなどを含むことができる。

サーバ・コンピューティング・デバイス１３０は１つ以上のソースからデータを受信し、データを生成し、データを格納し、インデックス・データを格納し、検索データを検索し、および／または、ユーザ・コンピューティング・デバイス１２０および／または車両１１０（またはその構成要素）にデータを提供することができる。いくつかの実施形態では、サーバ・コンピューティング・デバイス１３０は、本明細書でより詳細に説明するように、複数のキャップチャされた２Ｄ画像などの、車両１１０から受信されるデータを分析する目的で使用される１つ以上の機械学習アルゴリズムを使用することができる。さらに、サーバ・コンピューティング・デバイス１３０は、本明細書でより詳細に説明するように、１つ以上の意味セグメンテーション機能を実行するなど、データを生成するために使用することができる。車両搭載コンピューティングシステムは、車両搭載コンピューティングシステムが１つ以上の意味セグメンテーション機能を実行し、および／または、１つ以上の機械学習アルゴリズムを使用することができるように、サーバ・コンピューティング・デバイスと共に機能することができることを理解されたい。

ユーザ・コンピューティング・デバイス１２０は、パーソナル・コンピュータとして描かれ、サーバ・コンピューティング・デバイス１３０は、サーバとして描かれているが、これらの例に限定されるものではないことが理解されるべきである。いくつかの実施形態では、任意のタイプのコンピューティング・デバイス（例えば、計算デバイス、パーソナル・コンピュータ、サーバなど）が、これらの構成要素のいずれかのために使用され得る。さらに、これらの計算デバイスのそれぞれは、図１では単一のハードウェアとして示されているが、これも単なる一例に過ぎない。ユーザ計算デバイス１２０およびサーバ計算デバイス１３０の各々は、複数のコンピュータ、サーバ、データベース、コンポーネント、および／または同様のものを表すことができる。

図２Ａは、機械学習のためのデータ作成に使用することができる車両１１０の例示的なハードウェア構成要素を概略的に示す。図２Ａに示される構成要素は車両１１０に関して説明されるが、同様の構成要素が、本開示の技術的範囲から逸脱することなく、ユーザ・コンピューティング・デバイス１２０（図１）および／またはサーバ・コンピューティング・デバイス１３０（図１）にも使用され得ることを理解されたい。

車両１１０は、本明細書で示され、説明される実施形態による、ハードウェア、ソフトウェア、および／またはファームウェアとして具体化される、本明細書で説明される様々なプロセスを完了するための非一時的なコンピュータ可読媒体を有する車両コンポーネント２００を含むことができる。いくつかの実施形態では、車両コンポーネント２００が必要なハードウェア、ソフトウェア、および／またはファームウェアを有する汎用コンピュータとして構成されてもよいが、他の実施形態では、車両コンポーネント２００は、本明細書で説明される機能を実行するために特に設計された専用コンピュータとして構成されることができる。例えば、車両構成要素２００は、車両１１０を自律的にまたは半自律的に制御する目的で機械学習アルゴリズムを利用するように特に適合されたデバイスであってもよい。別の例では、車両構成要素２００は、車両の運転者および／または乗客を監視し、運転者および／または乗客の移動または動作を予測し、フィードバックを提供し、および／またはコマンドを実行する目的で、機械学習アルゴリズムを利用するように特に適合されたデバイスとすることができる。車両における機械学習の他の使用法を理解すべきである。車両コンポーネント２００が汎用コンピュータである実施形態では、本明細書で説明されるシステムおよび方法が、機械学習プロセスが、よりパワフルでないプロセッサ、より少ないリソースしか必要としないプロセッサ、および／またはより少ない時間で完了され得るように、３Ｄモデルを２Ｄ画像で置き換えることによって機能性を改善するための機構を提供する。

さらに図２Ａを参照すると、車両構成要素２００は一般に、車両搭載型計算システムであり得る。いくつかの実施形態では、車両構成要素２００は、複数の車両計算システムであり得る。

また、図２Ａに示すように、車両コンポーネント２００は、処理デバイス２０４、Ｉ／Ｏハードウェア２０８、ネットワークインタフェースハードウェア２１０、非一時的メモリ・コンポーネント２１２、システム・インタフェース２１４、データ格納デバイス２１６、および、画像キャプチャデバイス１１５を含むことができる。バスなどのローカルインタフェース２０２は、様々な構成要素を相互接続することができる。

コンピュータ処理ユニット（ＣＰＵ）などの処理デバイス２０４は、プログラムを実行するために計算および論理演算を実行する、車両構成要素２００の中央処理ユニットであり得る。処理デバイス２０４は、単独で、または他の構成要素と併せて、例示的な処理デバイス、計算デバイス、プロセッサ、またはそれらの組合せである。処理デバイス２０４は、（データ格納デバイス２１６および／またはメモリ・コンポーネント２１２などから）命令を受信し、実行するように構成された任意の処理コンポーネントを含むことができる。

メモリ・コンポーネント２１２は、揮発性および／または不揮発性のコンピュータ可読媒体として構成することができ、また、ランダム・アクセス・メモリ（ＳＲＡＭ、ＤＲＡＭ、および／または他のタイプのランダム・アクセス・メモリを含む）、読み取り専用メモリ（ＲＯＭ）、フラッシュ・メモリ、レジスタ、コンパクト・ディスク（ＣＤ）、デジタル汎用ディスク（ＤＶＤ）、および／または、他のタイプの格納コンポーネントを含むことができる。メモリ・コンポーネント２１２は、処理デバイス２０４によって実行されると、図３に関して本明細書で説明されるプロセスなどの様々なプロセスを処理デバイス２０４に完了させる、１つ以上のプログラミング命令をその上に含むことができる。さらに図２Ａを参照すると、メモリ・コンポーネント２１２に格納されたプログラム命令は、複数のソフトウェアロジック部として具現化されることができ、各ロジック部は図２Ｂに関して以下でより詳細に説明するように、１つ以上のタスクを完了するためのプログラム命令を提供する。

ネットワーク・インタフェース・ハードウェア２１０は、モデム、ＬＡＮポート、ワイヤレス・フィデリティ（Ｗｉ−Ｆｉ）カード、ＷｉＭａｘカード、移動通信ハードウェア、および／または他のネットワークおよび／またはデバイスと通信するための他のハードウェアなど、任意の有線またはワイヤレス・ネットワーキング・ハードウェアを含むことができる。例えば、ネットワーク・インタフェース・ハードウェア２１０は、車両１１０と、サーバ・コンピューティング・デバイス１３０を含む（ただし、これに限定されない）図１に示すネットワーク１００の他の構成要素との間の通信リンクを提供することができる。

さらに図２Ａを参照すると、一般に格納媒体であってもよいデータ格納デバイス２１６は、受信および／または生成されるデータを格納するための１つ以上のデータ・リポジトリを含むことができる。データ格納デバイス２１６は、ハードディスクドライブ（ＨＤＤ）、メモリ、リムーバブル格納デバイス等を含むが、これらに限定されない任意の物理格納媒体であり得る。データ格納デバイス２１６はローカルデバイスとして描かれているが、データ格納デバイス２１６は、例えば、サーバ・コンピューティング・デバイスなど（例えば、図１のサーバ・コンピューティング・デバイス１３０）の遠隔格納デバイスであり得ることを理解されたい。データ格納デバイス２１６内に含まれ得る例示的なデータは、図２Ｃに関して以下に説明される。いくつかの実施形態では、データ格納デバイス２１６内の利用可能な格納空間の量が、車両構成要素２００内のその位置のために制限され得ることを理解されたい。したがって、本明細書でより詳細に説明するように、そこに格納されるデータのサイズを最小限に抑える必要があり得る。

さらに図２Ａを参照すると、Ｉ／Ｏハードウェア２０８は、ローカルインタフェース２０２と車両１１０の１つまたは他の成分との間で情報を通信することができる。例えば、Ｉ／Ｏハードウェア２０８は、車両コンポーネント２００と、ナビゲーションシステム、メータユニット、携帯電話システム、インフォテインメントシステムなどの他のコンポーネントとの間のインタフェースとして機能することができる。いくつかの実施形態では、Ｉ／Ｏハードウェア２０８を利用して、１つ以上のコマンドを車両１１０の他の構成要素に送信することができる。

システム・インタフェース２１４は、一般に、車両コンポーネント２００に、例えば、図１に示すユーザ・コンピューティング・デバイス１２０および／またはサーバ・コンピューティング・デバイス１３０などの１つ以上の外部デバイスとインタフェースする能力を提供することができる。外部機器との通信は、各種通信ポート（図示せず）を使用して行われる場合がある。通信ネットワークには、例示的な通信ポートを取り付けることができる。

さらに図２Ａを参照すると、画像キャプチャデバイス１１５は、ローカルインタフェース２０２に通信可能に結合され、ローカルインタフェース２０２を介して処理デバイス２０４に結合され得る。画像キャプチャデバイス１１５は、画像を得るのに適した任意の画像化デバイス、センサ、または検出器であり得る。本明細書で使用される「画像」という用語はビデオ画像（すなわち、連続する画像の配列）、静止画像（ビデオ画像から分離された静止画像を含む）、および／または、画像データを指す。本開示の技術的範囲から逸脱することなく、任意の適切な市販の画像キャプチャデバイス１１５を使用することができる。いくつかの実施形態では、画像キャプチャデバイス１１５は、例えば、１つ以上のセンサのような、画像化のための追加の機能を提供する１つ以上の他の構成要素に結合されてもよい。

画像キャプチャデバイス１１５は、レンズ（図示せず）を含んでもよく、または、レンズに結合されてもよい。レンズは本開示によって制限されず、一般に、画像を適切に得ることができるように、画像キャプチャデバイス１１５に入る光の焦点を合わせるように構成される任意の光学コンポーネントであってもよい。いくつかの実施形態では、レンズが調節可能でない固定レンズであり得る。他の実施形態では、レンズが処理デバイス２０４によって手動または自動のいずれかで調整可能であり、オブジェクトをズームインし、オブジェクトをズームアウトし、および／または、画像キャプチャデバイス１１５に入る光の焦点を調整することができる。

図２Ｂを参照すると、いくつかの実施形態では、メモリ・コンポーネント２１２に含まれるプログラム命令は、複数のソフトウェアモジュールとして実施可能であり、ここで、各モジュールは１つ以上のタスクを完了するためのプログラミング命令を提供する。例えば、図２Ｂは、本明細書で示され、説明される１つ以上の実施形態による、例示的な論理構成要素を含むメモリ構成要素２１２を概略的に示す。図２Ｂに示すように、メモリ・コンポーネント２１２は、例えば、オペレーティングロジック２２０、作成ロジック２２２、シミュレーションロジック２２４、および／または最適化ロジック２２６（これらの各々は、一例として、コンピュータプログラム、ファームウェア、またはハードウェアとして具現化することができる）などの様々な処理ロジックを格納するように構成されてもよい。オペレーティングロジック２２０は、車両コンポーネント２００（図２Ａ）のコンポーネントを管理するためのオペレーティングシステムおよび／または他のソフトウェアを含むことができる。さらに、動作論理２２０はデータを送信し、および／またはデータを分析するための１つ以上のソフトウェアモジュールを含むことができる。

さらに図２Ｂを参照すると、１つ以上のソース（例えば、画像キャプチャデバイス１１５、図１に示すサーバ・コンピューティング・デバイス１３０など）からデータを収集し、および／またはデータを変換するための１つ以上のソフトウェアモジュールを含むことができる。本明細書でより詳細に説明するように、作成ロジック２２２は、さらに、作成ロジック２２２は、データが２Ｄ画像から抽出され得るように、または、２Ｄ画像または３Ｄモデル内のデータが分析され得るように、２Ｄ画像を作成および／または処理することができる。本明細書でより詳細に説明するように、シミュレーションロジック２２４は、ライブ背景画像に関する情報とマージされた２Ｄ画像などの、特定のデータが合成されるかどうかを判定するための１つ以上のソフトウェアモジュールを含むことができる。シミュレーションロジック２２４は、２Ｄ画像および３Ｄモデルが同じ領域にあるかどうか（例えば、それぞれの２Ｄ画像および／または３Ｄモデルが、解析のために意味的にセグメント化されているかどうか、リアルな画像であるかどうか、元のフォーマットであるかどうか、および／または同様のものであるかどうか）を判定することができる。シミュレーションロジック２２４は、複数の計算デバイス上に常駐することができる。一例として、本明細書に記載される機能性および／または構成要素のうちの１つ以上は、ユーザ・コンピューティング・デバイス１２０および／またはサーバ・コンピューティング・デバイス１３０によって提供され得る。それは、シミュレーションロジック２２４へのアクセスが提供され得るように、ネットワーク１００を介してメモリ構成要素２１２に結合され得る、例えば、処理デバイス２０４（図２Ａ）はシミュレーションロジック２２４にアクセスして、通信し、３Ｄモデルデータ取り出し、次いで、サーバ・コンピューティング・デバイス１３０などを使用して、３Ｄモデルデータを操作することができる。最適化ロジック２２６は、２Ｄおよび／または３Ｄのいずれかで位置を決定し、注釈を付けるための１つ以上のソフトウェアモジュールを含むことができ、本明細書でより詳細に説明するように、境界ボックス、ピクセルごとの注釈、配位ベースの注釈、および／または同様のものを使用して、物、ピクセル、および／または同様のものに注釈を付けることができる。

図２Ｃは、格納デバイス（例えば、データ格納デバイス２１６）内に含まれる様々なデータのブロック図を概略的に示す。図２Ｃに示すように、データ格納デバイス２１６は、例えば、ＣＡＤファイルまたは本明細書で説明するセマティックセグメンテーション方法を使用して処理されたデータなどの、複数の格納された３Ｄモデルデータ２２８を含むことができる。さらに、３Ｄモデルデータ２２８は車両設計データであってもよいし、背景のない特定のオブジェクトの単一の画像のみを有するエンジニアリングモデルであってもよいことを理解されたい。また、３Ｄモデルデータ２２８は自律走行車両センサ（図示せず）によって収集されるデータであってもよく、ここで、３Ｄモデルデータはオブジェクトの複数の画像および／またはオブジェクトのデータを含んでもよいことを理解されたい。３Ｄモデルデータ２２８は、例えば、サーバ・コンピューティング・デバイス１３０（図１）から受信されてもよく、または、例えば、自律車両センサ（図示せず）から受信されてもよい。複数の格納された３Ｄモデルデータ２２８は永続的に格納されなくてもよく、代わりに、データがそこから抽出され得るように一時的に格納されてもよいことを理解されたい。

データ格納デバイス２１６は、例えば、本明細書でより詳細に説明するように、３Ｄモデルから抽出され得る複数の２Ｄ画像データ２３０をさらに含むことができる。さらに、複数の２Ｄ画像データ２３０は、画像キャプチャデバイス１１５（図１）および／またはサーバ・コンピューティング・デバイス１３０（図１）から受信することができる。データ格納デバイス２１６はさらに、複数のキャプチャされた背景画像２３２、複数のキャプチャされた照明およびシェーディング属性２３４、および／または複数のキャプチャされた気象属性２３６を含む。複数のキャプチャされた背景画像２３２およびキャプチャされた属性２３４、２３６は、画像キャプチャデバイス（図２Ａ）および／または、サーバ・コンピューティング・デバイス１３０（図１）から受信することができる。複数のキャップチャされた背景画像２３２およびキャップチャされた属性２３４、２３６は、本明細書でより詳細に説明されるように、リアルタイムでキャップチャすることができる、または、作成することができる。いくつかの実施形態では、キャプチャされた背景画像２３２は、例えば、建物、道路、自転車、歩行者、関心オブジェクトの一部または全体などを含むことができる。実施形態では、複数のキャプチャされた照明および／またはシェーディング属性２３４が、晴れ、曇り、昼間、夜間等であるか否かを含むことができる。複数のキャプチャされた気象属性２３６は例えば、霧、雨、雪などを含むことができる。背景画像は、画像キャプチャデバイス１１５（図２Ａ）によってキャプチャされると、処理デバイス２０４（図２Ａ）および／またはメモリ・コンポーネント２１２（図２Ａ）によって処理される。

図２Ａ〜図２Ｃに示される構成要素は単に例示的なものであり、本開示の範囲を限定することを意図していないことを理解されたい。より具体的には、図２Ａ〜図２Ｃの構成要素が車両１１０の車両構成要素２００内に存在するものとして示されているが、これは非限定的な例である。いくつかの実施形態では、１つ以上の構成要素が車両構成要素２００および／または車両１１０の外部に存在することができる。同様に、本明細書で前述したように、図２Ａ〜図２Ｃは車両１１０の車両コンポーネント２００を対象としているが、ユーザ・コンピューティング・デバイス１２０およびサーバ・コンピューティング・デバイス１３０などの他のコンポーネントは、同様のハードウェア、ソフトウェア、および／またはファームウェアを含むことができる。

上述のように、図２Ａ〜図２Ｃに関して説明した様々な構成要素を使用して、１つ以上のプロセスを実行し、および／または、例えば、車両ベースのコンピューティング・デバイスなど、より少ないリソースしか必要としない、よりパワフルでないプロセッサおよび／またはプロセッサによって完了することができるデータを生成することができる。

次に、図３および図４Ａを参照して、機械学習訓練データのサイズを縮小する方法３００について説明する。ブロック３０２で、入力を受信することができる。入力は一般に、サーバ・コンピューティング・デバイス１３０（図１）からの３Ｄ・ＣＡＤファイルなどの３Ｄモデルを含むデータを含むことができる。入力は、システム・インタフェース２１４を介して受信され、ブロック３０４で、例えば意味的セグメンテーション方法を使用して、処理デバイス２０４（図２Ａ）によって分析される。意味セグメンテーションの使用は、処理デバイス２０４（図２Ａ）に、画像を意味的に意味のある部分に分割させ、各部分および／またはピクセルを、所定数のピクセルなどによって、またはオブジェクト識別および／またはラベリングによって、所定のクラスのうちの１つに分類させる。すなわち、セマンティックセグメンテーションでは、各画像、セグメント、および／またはピクセルはシーン内の各画素が識別され、理解され得るように、ラベル付けされ、および／または分類される。３Ｄモデルはブロック３０４におけるステップが省略され得るように、受信されたときに、既に意味的にセグメント化されたフォーマットであり得ることが理解されるべきである。さらに、３Ｄモデルは、車両１１０（図１）上の複数のセンサから受信した情報から生成されたモデル、例えば、自律または半自律車両センサであり得ることを理解されたい。

さらに図３および図４Ａを参照すると、３Ｄモデルのシーンは、関心オブジェクト４０４および１つ以上の追加のオブジェクトを識別するために、処理デバイス２０４によって分析される。３Ｄモデル内のシーンは、関心のある特定のオブジェクトを取り囲むいくつかのオブジェクトを組み込むことができ、または他のオブジェクトを含まないことができる。例えば、３Ｄモデル内のシーンは、車両設計データであり得る、または、１つ以上の追加のオブジェクトなしに、特定のオブジェクトの単一の画像のみを有するエンジニアリングモデルであり得る。別の例では、３Ｄモデル内のシーンがモデルは、自律車両センサなどから受信されたデータからサンプリングされるときに含まれるオブジェクトなど、１つ以上の追加オブジェクトを含むことができる。ブロック３０６において、関心オブジェクト４０４が３Ｄモデルからキャップチャされる。図４Ａに示す関心オブジェクト４０４は車両全体である。しかしながら、関心オブジェクトは、フード、車両の運転者、乗客等のような車両の一部であり得ることを理解されたい。上述のように、いくつかの３Ｄモデルでは、追加オブジェクトが関心オブジェクトを囲むことができることを理解されたい。例えば、自律画像化システムから生成された３Ｄモデルは、追加オブジェクトを含むことができる。例えば、自律画像・システムによってキャプチャされたストリート・シーンでは、道路、構造物、歩行者、別の車、自転車などの追加オブジェクトが存在することがあり得る。他の実施形態では、シーンは、限定はしないが、例えば、メータ、ステアリングホイール、シフトハンドル、ナビゲーションデバイスなどの追加オブジェクトが存在することができる車両内からのものであり得る。

ブロック３０８において、処理デバイス２０４（図２Ａ）は、図４Ａに最もよく見られるように、２Ｄ画像内の関心オブジェクト４０４を取り囲むことができる任意の追加のオブジェクトを除去し、関心オブジェクトの複数のトリミングされた２Ｄ画像４０２が得られるようにする。複数のトリミングされた２Ｄ画像４０２は、様々な角度、レベルのズーム、および／または同様のものからキャプチャされる。例えば、関心オブジェクト４０４がピクセルを混合したか、または、関心オブジェクトと追加の物が交差する場所が不明瞭である場合、処理デバイス２０４（図２Ａ）およびメモリ・コンポーネント２１２（図２Ａ）は、３Ｄモデルを回転させて、関心オブジェクト４０４の正確な形状を決定することができる。したがって、複数のトリミングされた２Ｄ画像４０２は、３Ｄモデルからの関心オブジェクト４０４の正確な形状および輪郭と一致する。

複数のトリミングされた２Ｄ画像４０２は、例えば、道路幅属性４１１（図４Ｂ）、道路角度属性４１３（図４Ｄ）、周囲の車両の角度（図示せず）などの様々な属性を使用することによってトリミングすることができる。これらの属性は、関心オブジェクトと３Ｄ表面との間の関係を確立するために、および／または、シーン属性とオブジェクト存在との間の関係を確立するために使用することができる。したがって、属性を使用して、追加オブジェクトから関心オブジェクトを識別し、関心オブジェクトをシーンからトリミングすることができるようにクラス内バリエーションを記述することができる。例えば、上述のストリート・シーンでは、シーン内の各オブジェクトに、オブジェクトが識別され得るような属性を割り当てることができる。この識別に基づいて、関心オブジェクト４０４は、関心オブジェクトのみが残り、１つ以上の追加オブジェクトが除去されるように、シーンからトリミングされてもよい。さらに、気象属性４１８（図４Ｄ）および照明および／またはシェーディング属性（図示せず）も、複数のトリミングされた２Ｄ画像４０２から除去される。

図４Ａを参照すると、複数の切り抜かれた２Ｄ画像４０２のうちの１つが示される。３Ｄモデル内の関心オブジェクト４０４は、追加の対象を含む。背景情報４０６、気象属性、および照明および／またはシェーディング属性などのこれらのオブジェクトは、関心オブジェクト４０４がトリミングされるときに除去される。その結果、関心オブジェクト４０４は、任意の背景情報４０６および／または属性から分離される。関心オブジェクト４０４は、２Ｄのリアルなコンピュータ生成画像として示されていることを理解されたい。また、画像は、ＧＡＮ（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ：敵対的生成ネットワーク）によって生成された高解像度画像であり得ることを理解されたい。

再び、図３および図４Ａを参照すると、ブロック３１０において、複数の切り抜かれた２Ｄ画像４０２がリアルな画像であるか否かについて判定を行うことができる。判定は、サーバ・コンピューティング・デバイス１３０などの外部デバイスによって行われてもよい。このように、複数の２次元画像は分析のために外部デバイスに送信してもよく、処理デバイス２０４は複数の２次元画像がリアルな画像であることを示す信号を外部デバイスから受信してもよい。しかしながら、この判定は、外部デバイスを使用せずに局所的に行うことができることを理解されたい。

リアルな画像は一般に、リアル世界のデータセットを有すると理解される。したがって、このフレームワークは、リアルのオブジェクトの３Ｄ表面測定データをリアルの画像のための構造化表現に迅速に変換することを可能にする。すなわち、実世界の画像には、環境、照明、表面材質、形状等に関する情報が多く埋め込まれている。一方、３Ｄモデルからの意味的にセグメント化された画像（コンピュータグラフィック画像）のような非リアルな画像は，一般に、テクスチャおよび影が豊富ではない。したがって、ブロック３１０で、画像がリアルな画像でないと判定された場合、ブロック３１２で、意味的にセグメント化された画像がリアルな画像に変換される。意味的にセグメント化された画像を複数のトリミングされた２Ｄ画像４０２に変換することは、当業者が理解するのであろう方法を使用することによることを理解されたい。例えば、元の画像は、ニューラルネットワークまたは深い学習を用いてリアルな画像に変換することができる。画像がリアルな画像に変換されると、複数の切り抜かれた２Ｄ画像４０２は、ブロック３１０において再び検証される。

ここで図３および図４Ｂを参照すると、いくつかの実施形態では、処理デバイス２０４は、ブロック３１４で、画像キャプチャデバイス１１５から背景画像４０８を受信することができる。背景画像４０８は、画像キャプチャデバイス１１５が関心オブジェクト４０４を取り囲む画像および情報である。背景画像４０８は図４Ｂに最もよく見られるように、複数の背景属性を含むことができる。非限定的な実施例では、複数の背景属性は、建物４１０、交通信号４１２、歩道４１４、交通信号ポール４１６、および／または、道路４２０などの構造を含むことができる。属性は、２Ｄ画像を構成する画素および／またはデータ点における１つの特定のタイプのデータとして定義され得る。したがって、一般に、各観測および／またはデータ点は、複数の属性が与えられた次元（属性の数、抽出された特徴）の表現を作成するような、多くの複数の属性を含むことができる。このように、モデルは、属性を探すために使用することができ、他の特徴は順に、以前よりも複雑なオブジェクトである新しい属性を生成することができる（属性から属性を抽出する）。属性の非限定的な例は、建物構造属性、道路幅属性、道路角度属性、歩行者および／または自転車角度属性、他の車両幅および／または方向属性、別の車両角度属性、照明および／またはシェーディング属性、気象属性などを含むことができる。関心オブジェクト４０４は背景画像４０８には存在しないので、上述のように、背景全体を属性について分析することができることを理解されたい。

背景画像４０８はまた、関心オブジェクト４０４または関心オブジェクトの一部を含むことができることを理解されたい。したがって、ピクセルマッチングのための当技術分野で知られている任意の種類のソフトウェアおよび／またはアルゴリズムを使用して、関心オブジェクト４０４を認識し、背景画像４０８から除外することができることを理解されたい。例えば、ピクセル単位マッチングを使用して、３Ｄモデルから関心オブジェクト４０４を決定し、関心オブジェクトを背景画像４０８から除去することができるように、背景画像４０８内の関心オブジェクトをマッチングすることができる。

再び、図３および図４Ｂを参照すると、ブロック３１６において、背景画像４０８を準備することができる。例えば、セマンティックセグメンテーション方法は、処理デバイス２０４（図２Ａ）および／またはサーバ計算デバイス１３０（図１）が背景オブジェクトおよび／または背景属性を解釈できるように、背景画像４０８上で使用することができる。いくつかの実施形態では、背景画像４０８が作製、キャップチャされなくてもよい。したがって、いくつかの実施形態では、背景画像４０８は、本明細書で説明するように、背景オブジェクトおよび／または背景属性を解釈できるように、リアルな２Ｄ画像に変換することができる。

図３および図４Ｂ〜図４Ｄを参照すると、ブロック３１８において、背景画像４０８は、背景の１つ以上の属性に基づいて処理デバイス２０４（図２Ａ）によって分類される。図４Ｂに示される属性は、建物４１０、交通信号４１２、歩道４１４、交通信号ポール４１６、および道路４２０を含む。図４Ｄにおける属性は、気象属性４１８、建物４１０、交通信号４１２、歩道４１４、交通信号ポール４１６、および道路４２０を含む。ブロック３２０で、１つ以上の属性のうちの選択された属性を、複数のトリミングされた２Ｄ画像４０２に追加することができる。選択された属性は、気象属性４１８（図４Ｄ）および照明および／またはシェーディング属性（図示せず）であり得る。これらの属性は、背景画像４０８に基づいて複数のトリミングされた２Ｄ画像４０２に追加される。つまり、ブロック３１６に分類されるように、気象属性４１８および照明および／またはシェーディング属性は、図４Ｃに最もよく見られるように、今度は、複数のクロップされた２Ｄ画像４０２に追加される。したがって、ブロック３１４において気象属性４１８が雨を含んでいた場合、ブロック３１６において属性はそのように分類された。次に、ブロック３１８で、適切な気象属性４１８が、複数のトリミングされた２Ｄ画像４０２に追加される。

複数のトリミングされた２Ｄ画像４０２は、背景がモデル背景を表すので、ブロック３０８において、背景が除去されていることを理解されたい。そのため、削除される属性はリアルタイム属性では場合がある。したがって、複数のトリミングされた２Ｄ画像４０２にリアルタイムデータを提供するために、ブロック３１４の背景画像４０８内のキャプチャされた属性は、図４Ｃに最もよく見られるように、複数のトリミングされた２Ｄ画像４０２に追加される。

図４Ｃを参照すると、複数の切り抜かれた２Ｄ画像４０２は、気象属性４１８が追加されて示される。複数のトリミングされた２Ｄ画像４０２は、関心オブジェクト４０４および気象属性４１８を含む。図示のように、現在の背景の気象属性４１８は雨である。しかし、本明細書で説明するように、画像キャプチャデバイス１１５（図２Ａ）によってキャプチャされた背景画像に基づいて、またはサーバ・コンピューティング・デバイス１３０（図１）によって生成された背景画像に基づいて、任意の気象属性を複数のトリミングされた２Ｄ画像４０２に組み込むことができることを理解されたい。

属性が動的であるか、または構造が知られていない場合であっても、機械学習アルゴリズムがデータを探索して構造または属性を見つけるように訓練されるように、属性が機械学習において使用されることも理解されるべきである。したがって、属性は、機械学習が属性を識別して、属性のデータから学習することができるように、複数のトリミングされた２Ｄ画像４０２に追加される。

図３および図４Ｄを参照すると、ブロック３２２において、背景画像４０８が合成される。すなわち、背景画像４０８の画素は、３Ｄモデルのレプリカが、リアルタイム背景情報と共に２次元で生成され得るように、複数の切り抜かれた２Ｄ画像４０２の画素と組み合わされる。しかしながら、背景画像４０８および複数のトリミングされた２Ｄ画像４０２は、２つの異なるドメインからのものであってもよいので、合成プロセス中に、ドメインは単一のドメインにマージされてもよい。すなわち、依然として意味的にセグメント化されているなどの複数のトリミングされた２Ｄ画像４０２および背景画像４０８は、リアルな画像に変換することができ、その結果、両方の画像はここで、共にマージされ、同じ領域内にある。意味的にセグメント化された画像をリアルな画像に変換すること、および／または、画像を合成することは、当業者が理解し、上述したような方法を使用することによることを理解されたい。

図４Ｄを参照すると、背景画像４０８および複数の切り抜かれた２Ｄ画像４０２の２Ｄ合成画像４２４へのマージャーが示されている。関心オブジェクト４０４は道路４２０上に配置され、背景は依然として同じ属性、建物４１０、交通信号４１２、交通信号ポール４１６、歩道４１４、および道路４２０を含む。さらに、今度は、気象属性４１８および照明／陰影属性（図示せず）が、このシーンのための完全な複数の２Ｄ画像を示す。

図３および図４Ｄに戻って参照すると、ブロック３２４において、合成画像４２４の正確な位置が注釈される。そのような注釈は、境界ボックス注釈４２２の使用、および／またはピクセルごとの注釈（図示せず）を含むことができる。境界ボックス注釈４２２は、一般に、画素が一緒にグループ化されるときに注釈付けされる画素の周りに描かれたボックスを指す。例えば、図４Ｄに示すように、境界ボックス注釈４２２は、車両の画素を囲むことができる。境界ボックス注釈４２２の、この使用は、オブジェクトのタイプ、オブジェクトのサイズ、および／または、同様のもののような情報を提供することができる。例えば、関心オブジェクト４０４を取り囲む境界ボックス注釈４２２内のピクセルのデータを使用して、車両の形状、車両のシェーディング、車両のサイズなどに基づいて、関心オブジェクトが車両であるかどうかを判定することができる。さらに、コンピュータプログラムおよびアルゴリズムは、境界ボックス注釈４２２内のデータを解釈して、車両のタイプ、車両のサイズ、シーン内の車両の位置、車両と他の境界ボックスとの関係などを決定することができる。他方、ピクセルごとの注釈（図示せず）は、シーンを理解するために、処理デバイス２０４（図２Ａ）がプログラムおよび／またはアルゴリズムを使用してピクセルシェーディングなどのデータを解釈することができるように、各画素に値を割り当てることができるように、シーン内の各画素をデータポイントとして使用する。

注釈は２Ｄ注釈（ｘ、ｙ）に限定されず、注釈および合成画像４２４が３Ｄ機械学習アルゴリズムと互換性があるように、３Ｄ注釈（ｘ、ｙ、ｚ）を使用してもよいことを理解されたい。注釈が完了した後、ブロック３２６において、合成画像４２４が格納される。

方法３００は、本明細書で説明するように、車両コンポーネント２００を、２Ｄ画像を生成するものとして説明するが、サーバ・コンピューティング・デバイス１３０はこれらの画像を生成することもできることを理解されたい。車両１１０は、背景画像４０８および他のデータが車両１１０によってサーバ・コンピューティング・デバイス１３０に送信されている間に、背景画像４０８をキャプチャすることができ、その結果、サーバ・コンピューティング・デバイス１３０は、方法３００を実行する。さらに、車両１１０は、背景画像を収集することができず、サーバ・コンピューティング・デバイス１３０は方法３００で説明したように、それ自体のまたは他の背景画像を使用して２Ｄ画像を生成することができる。

また、格納された画像は、３Ｄ・ＣＡＤ図面のような、より多くの格納空間およびより強力なプロセッサを使用することはるかに大きなファイルと同じリアルなデータおよび情報を機械学習アルゴリズムに提供するのに十分なデータセットを含むことを理解されたい。さらに、格納された２Ｄ画像の結果として、３Ｄ・ＣＡＤファイルを車両設計データ・ストレージから除去することができる。

他の実施形態では、画像データ収集が、車両の内側からであり得る。これらの実施形態では、人間の姿勢オブジェクト検出、および、ピクセルごとのセグメント化アルゴリズムを使用することができる。一実施形態では、ブロック３１４で背景画像を合成する代わりに、ドライバおよび／または乗客を合成することができる。したがって、人間モデルのポーズに注釈を付けることができる。さらに、上述のような他の実施形態では、車両の内部を合成することができる。例えば、車両のメータ、ナビゲーション、情報エンターテイメント・システム、変速装置、ステアリングホイール等を合成することができる。これは、車両内にあり、ドライバがどのように反応するか、ドライバが何をするか、ドライバがどのように移動するか、などのデバイスを認識する方法を提供することができる。したがって、車両の内部とのこれらの反応および相互作用が、自律車両、半自律車両、および／または無運転車両において模倣され得るように、運転者情報および反応に関するデータが収集され得る。

ここで、本明細書で説明される方法、システム、および車両構成要素は、機械学習において訓練データを含むために使用されるデータ・ストレージの量を減少させるように、および／または機械学習において使用される訓練データに必要な処理能力を減少させるように機能し得ることを理解されたい。この方法は、３Ｄモデル内のシーンを分析するために意味的セグメンテーションを使用することと、分析から関心オブジェクトを決定することと、関心オブジェクトを複数の２Ｄ画像にトリミングすることとを含む。複数の２Ｄ画像は、関心オブジェクトのみが残り、背景オブジェクトが除去されるようにトリミングされる。複数の２Ｄ画像は、また、道路幅、道路角度、周囲の車両の角度などの特定の属性に関してトリミングされる。また、画像キャプチャデバイスは、リアルタイムの背景画像をキャプチャする。背景画像を作成し、背景のオブジェクトを、関連属性を用いて分類した。特定の属性が複数の２Ｄ画像に追加され、他の属性が複数のトリミングされた２Ｄ画像と合成されて、リアルタイム背景を有するレプリカ２Ｄ画像が生成される。合成されると、新たに作成された画像に注釈を付けて格納することができる。その結果、複数の２Ｄ画像は、一緒になったとき、一般に３Ｄモデルよりも少ないデータ・ストレージしか必要としないが、依然として３Ｄモデルのすべての情報を含むので、データ・ストレージは最小限に抑えられる。

本明細書では特定の実施形態を図示し、説明してきたが、特許請求される主題の主旨および範囲から逸脱することなく、様々な他の変更および修正を行うことができることを理解されたい。さらに、特許請求される主題の様々な態様が本明細書で説明されてきたが、そのような態様は組み合わせて利用される必要はない。したがって、添付の特許請求の技術的範囲は、特許請求された主題事項の技術的範囲内にある全てのそのような変更および修正をカバーすることが意図されている。

Claims

車両格納デバイスに格納された機械学習データのサイズを縮小する方法であって、該方法は、３次元モデルを含むデータを、プロセッサによって受信するステップと、
関心オブジェクトおよび１つ以上の追加オブジェクトを識別するために、前記３次元モデル内のシーンを、前記プロセッサによって分析するステップと、
前記プロセッサによって、前記関心オブジェクトおよび前記１つ以上の追加オブジェクトを複数の２次元画像としてキャプチャするステップと、
前記プロセッサによって、複数のトリミングされた２次元画像を取得するために、前記複数の２次元画像から前記１つ以上の追加オブジェクトを除去するステップと、
前記プロセッサにより、前記複数のトリミングされた２次元画像を車両格納デバイスに格納するステップと、
前記プロセッサによって、画像センサから背景画像を受信するステップであって、該背景画像は、前記関心オブジェクトを囲む背景を含む、ステップと、
前記プロセッサによって、前記背景の１つ以上の属性に基づいて、前記背景画像を分類するステップと、
前記プロセッサによって、前記１つ以上の属性の選択された属性を、前記複数のトリミングされた２次元画像に追加するステップと、
前記プロセッサによって、前記複数のトリミングされた２次元画像および前記選択された属性から、１つ以上の合成画像を合成するステップと、
前記プロセッサによって、前記選択された属性の正確な位置を有する前記１つ以上の合成画像に注釈を付けるステップと、
を含む、方法。
前記注釈を付けるステップは、前記選択された属性の周りに境界ボックスを構築するステップを含む、請求項１に記載の方法。
前記注釈を付けるステップは、前記選択された属性のピクセル単位の注釈を使用するステップを含む、請求項１または２に記載の方法。
前記１つ以上の追加オブジェクトを除去するステップは、複数の背景属性から前記１つ以上の追加オブジェクトを選択するステップを含み、
前記注釈を付けるステップは、前記選択された属性のピクセル単位の注釈を使用するステップを含む、請求項１ないし３のいずれか１項に記載の方法。
前記複数の背景属性は、道路幅、道路角度、または、周囲の車両の角度から選択され、
前記１つ以上の属性の前記選択された属性は、気象属性、照明属性、および、シェーディング属性のうちの少なくとも１つである、
請求項４に記載の方法。
機械学習において訓練データを含むために使用される・データストレージの量を減少させるためのシステムであって、
該システムは、
プロセッサと、
複数の背景画像をキャプチャする、該プロセッサに通信可能に結合した画像センサと、
非一時的プロセッサ読み取り可能格納媒体と
を含み、
前記非一時的プロセッサ読み取り可能格納媒体は、実行されると、前記プロセッサに、３次元モデルを含むデータを、前記プロセッサによって受信させ、
関心オブジェクトおよび１つ以上の追加オブジェクトを識別するために、３次元モデル内のシーンを、前記プロセッサによって、分析させ、
前記プロセッサによって、前記関心オブジェクトおよび前記１つ以上の追加オブジェクトを複数の２次元画像としてキャプチャさせ、
前記プロセッサによって、複数のトリミングされた２次元画像を取得するために、前記複数の２次元画像から前記１つ以上の追加オブジェクトを除去するステップと、
前記プロセッサにより、車両格納デバイスに前記複数のトリミングされた２次元画像を格納させ、
前記プロセッサによって、前記画像センサから背景画像を受信させ、ここで、該背景画像は、前記関心オブジェクトを取り囲む背景を含み、
前記プロセッサによって、前記背景の１つ以上の属性に基づいて、前記背景画像を分類させ、
前記プロセッサによって、前記１つ以上の属性の選択された属性を、前記複数のトリミングされた２次元画像に追加させ、
前記プロセッサによって、前記複数のトリミングされた２次元画像および前記選択された属性から１つ以上の合成画像を合成させ、
前記プロセッサによって、前記選択された属性の正確な位置で前記１つ以上の合成画像に注釈付けを実行させる、
１つ以上のプログラミング命令を含む、システム。
前記プロセッサは、前記選択された属性の周りに境界ボックスを少なくとも構築することによって、前記１つ以上の合成画像に注釈を付けるようにされる、請求項６に記載のシステム。
前記プロセッサは、
前記選択された属性のピクセルごとの注釈を少なくとも使用することによって、前記１つ以上の合成画像に注釈を付けるようにされ、
複数の背景属性から前記追加オブジェクトを少なくとも選択することによって、前記１つ以上の追加オブジェクトを除去するようにされる、
請求項６または７に記載のシステム。
前記複数の背景属性は、道路幅、道路角度、および、周囲の車両の角度から選択される、請求項８に記載のシステム。
機械学習において訓練データを含むために使用されるデータストレージの量を減少させるためのシステムであって、
該システムは、
第１プロセッサと、
該第１プロセッサに通信可能に結合された画像センサと、
該第１プロセッサの外部にある第２プロセッサであって、該第１プロセッサに通信可能に結合された第２プロセッサと、
非一時的プロセッサ読み取り可能格納媒体と、
を含み、
前記非一時的プロセッサ読み取り可能格納媒体は、実行されると、前記第１プロセッサに、
３次元モデルを含むデータを受信させ、
関心オブジェクトおよび１つ以上の追加オブジェクトを識別するために、前記３次元モデル内のシーンを分析させ、
前記関心オブジェクトおよび前記１つ以上の追加オブジェクトを複数の２次元画像としてキャプチャさせ、
前記複数の２次元画像を前記第２プロセッサに送信させ、
前記複数の２次元画像がリアルな画像であることを示す信号を前記第２プロセッサから受信させ、
複数のトリミングされた２次元画像を取得するために、前記複数の２次元画像から前記１つ以上の追加オブジェクトを除去させ、
前記複数のトリミングされた２次元画像を車両格納デバイスに格納させ、
前記画像センサから背景画像を受信させ、ここで、前記背景画像は、前記関心オブジェクトを取り囲む背景を含むものであり、
前記背景の１つ以上の属性に基づいて前記背景画像を分類させ、
前記１つ以上の属性の選択された属性を、前記複数のトリミングされた２次元画像に追加させ、
前記複数のトリミングされた２次元画像および前記選択された属性から１つ以上の合成画像を合成させ、
前記選択された属性の正確な位置で前記１つ以上の合成画像に注釈を付けさせる、
１つ以上のプログラミング命令を含む、システム。