JP6898534B2 - 機械学習におけるデータ・ストレージを低減するためのシステムおよび方法 - Google Patents

機械学習におけるデータ・ストレージを低減するためのシステムおよび方法 Download PDF

Info

Publication number
JP6898534B2
JP6898534B2 JP2020547341A JP2020547341A JP6898534B2 JP 6898534 B2 JP6898534 B2 JP 6898534B2 JP 2020547341 A JP2020547341 A JP 2020547341A JP 2020547341 A JP2020547341 A JP 2020547341A JP 6898534 B2 JP6898534 B2 JP 6898534B2
Authority
JP
Japan
Prior art keywords
processor
images
attributes
background
cropped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2020547341A
Other languages
English (en)
Other versions
JP2021509993A (ja
Inventor
充啓 馬渕
充啓 馬渕
Original Assignee
トヨタ リサーチ インスティテュート,インコーポレイティド
トヨタ リサーチ インスティテュート,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トヨタ リサーチ インスティテュート,インコーポレイティド, トヨタ リサーチ インスティテュート,インコーポレイティド filed Critical トヨタ リサーチ インスティテュート,インコーポレイティド
Publication of JP2021509993A publication Critical patent/JP2021509993A/ja
Application granted granted Critical
Publication of JP6898534B2 publication Critical patent/JP6898534B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

本出願は2018年3月13日に出願された米国特許出願第15/919,376号の利益を主張し、その全内容は参照によりその全体が本明細書に組み込まれる。
本明細書は、一般に、機械学習に使用される訓練データに必要とされる格納領域の量を減らすことに関し、より具体的には、二次元画像が訓練データとして使用される3次元モデルから二次元画像を生成するためのシステムおよび方法に関する。
現在、計算デバイス、特に、自律および半自律走行車両のための機械学習に関連するものは、機械学習のための訓練データとして使用される3次元(3D)モデルを格納する。この種の訓練データは計算的に高価であり、大量の格納スペースを必要とする。このように、車載プロセッサが訓練データを有効に利用することは困難である。
一実施形態では、機械学習データのサイズを縮小する方法が提供される。この方法は、処理デバイスによって、3次元モデルを含むデータを受信することを含む。3次元モデル内のシーンは、処理デバイスによって分析され、関心オブジェクトおよび1つ以上の追加のオブジェクトを識別する。処理デバイスは、関心オブジェクトおよび1つ以上の追加オブジェクトを、複数の2次元画像としてキャプチャする。処理デバイスは、複数のトリミングされた2次元画像を取得するために、複数の2次元画像から1つ以上の追加オブジェクトを除去する。処理デバイスは、複数のトリミングされた2次元画像を格納する。
別の実施形態では、機械学習において訓練データを含むために使用されるデータ・ストレージの量を減少させるためのシステムが提供される。このシステムは処理デバイスと、一時的ではない、プロセッサが読み取り可能な格納媒体とを含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに3次元モデルのようなデータを受信させる1つ以上のプログラミング命令を、その上に含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、関心オブジェクトおよび1つ以上の追加の物を識別させるために3次元モデル内のシーンを分析させ、関心オブジェクトおよび1つ以上の追加の物を複数の2次元画像としてキャプチャさせ、複数のトリミングされた2次元画像を取得するように複数の2次元画像から1つ以上の追加の物を除去させ、複数のトリミングされた2次元画像を格納させる、1つ以上のプログラミング命令をその上にさらに含む。
さらに別の実施形態では、機械学習において訓練データを含むために使用されるデータ・ストレージの量を減少させるためのシステムが提供される。システムは、処理デバイスと、処理デバイスに通信可能に結合された画像キャプチャデバイスと、処理デバイスに通信可能に結合された外部デバイスと、非一時的なプロセッサ可読格納媒体とを含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、3次元モデルなどのデータを受信させ、関心オブジェクトおよび1つ以上の追加オブジェクトを識別させるために、3次元モデル内のシーンを分析させ、関心オブジェクトおよび1つ以上の追加オブジェクトを複数の2次元画像としてキャップチャさせる、1つ以上のプログラミング命令をその上に備える。さらに、非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、複数の2次元画像を外部デバイスに送信させ、複数の2次元画像がリアルな画像であることを示す信号を外部デバイスから受信させる、1つ以上のプログラミング命令をその上に含む。非一時的なプロセッサ可読格納媒体は、実行されると、処理デバイスに、複数のトリミングされた2次元画像を取得し、複数のトリミングされた2次元画像を格納するために、複数の2次元画像から1つ以上の追加オブジェクトを除去させる、1つ以上のプログラミング命令をさらに含む。
本明細書で説明される実施形態によって提供されるこれらの特徴および追加の特徴は、図面と併せて、以下の詳細な説明を考慮して、より完全に理解される。
図面に記載された実施形態は、本質的に図示的かつ例示的なものであり、特許請求の範囲によって定義される主題を限定することを意図するものではない。例示的な、実施形態の以下の詳細な説明は、同様の構造が同様の参照番号で示されている以下の図面と併せて読むと理解することができる。
図1は、本明細書で示され、説明される1つ以上の実施形態による、3次元モデルから2次元画像を生成するシステムのためのコンポーネントを有する例示的なネットワークを概略的に示す。 図2Aは、本明細書で示され、説明される1つ以上の実施形態による、3次元モデルから2次元画像を生成する際に使用され得る車両コンピューティング・デバイスの例示的なハードウェア構成要素を概略的に示す。 図2Bは、本明細書で示され、説明される1つ以上の実施形態による、例示的な論理構成要素を含む例示的なメモリ構成要素を概略的に示す。 図2Cは、本明細書で示され、説明される1つ以上の実施形態による、例示的なデータ構成要素を含む例示的なデータ格納デバイスを概略的に示す。 図3は、本明細書で示され、説明される1つ以上の実施形態による、3次元モデルから2次元画像を生成する例示的な方法の流れ図を示す。 図4Aは、本明細書で示され、説明される1つ以上の実施形態による、トリミングされた2次元画像の例示的な図を概略的に示す。 図4Bは、本明細書で示され、説明される1つ以上の実施形態による、背景画像の例示的な図を概略的に示す。 図4Cは、本明細書で示され、説明される1つ以上の実施形態による、トリミングされた2次元画像とマージされた気象属性の例示的な図を概略的に示す。 図4Dは、本明細書で示され、説明される1つ以上の実施形態による、合成画像の例示的な図を概略的に示す。
一般に、図面を参照すると、本明細書に記載する実施形態は、3次元(3D)モデルを複数の二次元(2D)画像で置き換えることによって、機械学習のための訓練データに必要なデータ格納量および/または処理能力を減らすためのシステムおよび方法を指向している。3Dモデルは例えば、CAD図面などの設計モデル、1つ以上のセンサによって収集された3Dデータ、および/または同様のものとすることができる。3Dモデルは、セマンティックセグメンテーション法によって解析される。特に、3Dモデル内の特定のシーンは、関心オブジェクトを識別するために分析されてもよく、また、1つ以上の追加オブジェクトを識別してもよい。関心オブジェクトの複数の2D画像および1つ以上の追加のオブジェクトが、様々な角度、ズームのレベル、および/または同様のものからキャプチャされる。複数の2D画像は関心オブジェクトのみが残り、1つ以上の追加オブジェクトが除去されるようにトリミングされる。
また、背景画像は、画像キャプチャデバイスによってキャプチャされる。したがって、背景画像は、車両などの関心オブジェクトを取り囲む背景のリアルタイムのライブ画像から得られる。画像キャプチャデバイスは、気象および環境情報に関連する画像をリアルタイムでキャプチャすることができる。背景画像には、他のオブジェクトや属性など、関心オブジェクトのオブジェクトを囲む背景からの情報が含まれる。背景画像は、カテゴリ化され、気象属性、照明属性、および/またはシェーディング属性などの選択された属性が、次に、複数のトリミングされた2D画像に追加される。複数のトリミングされた2D画像および選択された属性は、2D画像が機械学習のための訓練データとして使用され得るように合成され、注釈付けされる。その結果、2D画像は、訓練データとして3Dモデルを置き換え、訓練データを含むために使用されるデータ・ストレージの量を減少させる。さらに、本明細書で説明するシステムおよび方法は、例えば、車両ベースの計算デバイス内に配置されたプロセッサなど、比較的性能の低いプロセッサによって利用することができるデータを生成することができる。
次に、図面を参照すると、図1は、本明細書に示され説明される実施形態による機械学習のための訓練データとして使用される、3Dモデルからクロップされた2D画像を生成するためのシステムのためのコンポーネントを有する例示的ネットワーク100を図示する。図1に示すように、コンピュータ・ネットワーク105は、インターネット、ローカルエリアネットワーク(LAN)、移動通信ネットワーク、公衆サービス電話網(PSTN)、パーソナルエリアネットワーク(PAN)、メトロポリタンエリアネットワーク(MAN)、バーチャルプライベートネットワーク(VPN)、および/または、別のネットワークのようなワイドエリアネットワーク(WAN)を含むことができる。コンピュータ・ネットワーク105は、一般に、計算デバイスおよび/またはそのコンポーネントなどの1つ以上のデバイスを電子的に接続するように構成することができる。例示的なデバイスには車両110、利用者・コンピューティング・デバイス120、およびサーバ・コンピューティング・デバイス130を含めることができるが、これらに限定されない。
車両110は、一般に、1つ以上のオンボード計算デバイス、特に、データを処理し、データを格納し、車両内または車両周辺の画像をキャプチャするためのハードウェアを含む計算デバイスを有する任意の車両であり得る。したがって、車両110および/またはその構成要素は、データを受信すること、画像キャプチャデバイス115で画像データ(例えば、2D画像)をキャプチャすること、キャプチャされた画像を処理すること、処理された画像を格納すること、および機械学習アルゴリズムのための処理された画像を提供することなど、本明細書でより詳細に説明されるように、1つ以上のコンピューティング機能を実行することができる。
利用者・コンピューティング・デバイス120は、一般に、利用者とコンピュータ・ネットワーク105に接続された他の成分との間のインタフェースとして使用することができる。したがって、利用者・コンピューティング・デバイス120は、本明細書でさらに詳細に説明するように、利用者から1つ以上の入力を受信したり、利用者に情報を提供したりするなど、1つ以上の利用者向け機能を実行するために使用することができる。したがって、ユーザ・コンピューティング・デバイス120は、本明細書でより詳細に説明するように、少なくとも表示デバイスおよび/または入力ハードウェアを含むことができる。サーバ計算デバイス130が、監視、更新、および/または修正を必要とする場合、ユーザ計算デバイス120は、所望の監視、更新、および/または修正を提供するように構成することができる。ユーザ計算デバイス120はまた、サーバ計算デバイス130上に格納されたデータのコーパスに追加データを入力するために使用することができる。例えば、ユーザ・コンピューティング・デバイス120は、3Dモデルから2D画像を生成することに関連するソフトウェアプログラムと同様に、2D画像および3Dモデルの閲覧、解釈、および/またはキャプチャに関連するソフトウェアプログラムなどを含むことができる。
サーバ・コンピューティング・デバイス130は1つ以上のソースからデータを受信し、データを生成し、データを格納し、インデックス・データを格納し、検索データを検索し、および/または、ユーザ・コンピューティング・デバイス120および/または車両110(またはその構成要素)にデータを提供することができる。いくつかの実施形態では、サーバ・コンピューティング・デバイス130は、本明細書でより詳細に説明するように、複数のキャップチャされた2D画像などの、車両110から受信されるデータを分析する目的で使用される1つ以上の機械学習アルゴリズムを使用することができる。さらに、サーバ・コンピューティング・デバイス130は、本明細書でより詳細に説明するように、1つ以上の意味セグメンテーション機能を実行するなど、データを生成するために使用することができる。車両搭載コンピューティングシステムは、車両搭載コンピューティングシステムが1つ以上の意味セグメンテーション機能を実行し、および/または、1つ以上の機械学習アルゴリズムを使用することができるように、サーバ・コンピューティング・デバイスと共に機能することができることを理解されたい。
ユーザ・コンピューティング・デバイス120は、パーソナル・コンピュータとして描かれ、サーバ・コンピューティング・デバイス130は、サーバとして描かれているが、これらの例に限定されるものではないことが理解されるべきである。いくつかの実施形態では、任意のタイプのコンピューティング・デバイス(例えば、計算デバイス、パーソナル・コンピュータ、サーバなど)が、これらの構成要素のいずれかのために使用され得る。さらに、これらの計算デバイスのそれぞれは、図1では単一のハードウェアとして示されているが、これも単なる一例に過ぎない。ユーザ計算デバイス120およびサーバ計算デバイス130の各々は、複数のコンピュータ、サーバ、データベース、コンポーネント、および/または同様のものを表すことができる。
図2Aは、機械学習のためのデータ作成に使用することができる車両110の例示的なハードウェア構成要素を概略的に示す。図2Aに示される構成要素は車両110に関して説明されるが、同様の構成要素が、本開示の技術的範囲から逸脱することなく、ユーザ・コンピューティング・デバイス120(図1)および/またはサーバ・コンピューティング・デバイス130(図1)にも使用され得ることを理解されたい。
車両110は、本明細書で示され、説明される実施形態による、ハードウェア、ソフトウェア、および/またはファームウェアとして具体化される、本明細書で説明される様々なプロセスを完了するための非一時的なコンピュータ可読媒体を有する車両コンポーネント200を含むことができる。いくつかの実施形態では、車両コンポーネント200が必要なハードウェア、ソフトウェア、および/またはファームウェアを有する汎用コンピュータとして構成されてもよいが、他の実施形態では、車両コンポーネント200は、本明細書で説明される機能を実行するために特に設計された専用コンピュータとして構成されることができる。例えば、車両構成要素200は、車両110を自律的にまたは半自律的に制御する目的で機械学習アルゴリズムを利用するように特に適合されたデバイスであってもよい。別の例では、車両構成要素200は、車両の運転者および/または乗客を監視し、運転者および/または乗客の移動または動作を予測し、フィードバックを提供し、および/またはコマンドを実行する目的で、機械学習アルゴリズムを利用するように特に適合されたデバイスとすることができる。車両における機械学習の他の使用法を理解すべきである。車両コンポーネント200が汎用コンピュータである実施形態では、本明細書で説明されるシステムおよび方法が、機械学習プロセスが、よりパワフルでないプロセッサ、より少ないリソースしか必要としないプロセッサ、および/またはより少ない時間で完了され得るように、3Dモデルを2D画像で置き換えることによって機能性を改善するための機構を提供する。
さらに図2Aを参照すると、車両構成要素200は一般に、車両搭載型計算システムであり得る。いくつかの実施形態では、車両構成要素200は、複数の車両計算システムであり得る。
また、図2Aに示すように、車両コンポーネント200は、処理デバイス204、I/Oハードウェア208、ネットワークインタフェースハードウェア210、非一時的メモリ・コンポーネント212、システム・インタフェース214、データ格納デバイス216、および、画像キャプチャデバイス115を含むことができる。バスなどのローカルインタフェース202は、様々な構成要素を相互接続することができる。
コンピュータ処理ユニット(CPU)などの処理デバイス204は、プログラムを実行するために計算および論理演算を実行する、車両構成要素200の中央処理ユニットであり得る。処理デバイス204は、単独で、または他の構成要素と併せて、例示的な処理デバイス、計算デバイス、プロセッサ、またはそれらの組合せである。処理デバイス204は、(データ格納デバイス216および/またはメモリ・コンポーネント212などから)命令を受信し、実行するように構成された任意の処理コンポーネントを含むことができる。
メモリ・コンポーネント212は、揮発性および/または不揮発性のコンピュータ可読媒体として構成することができ、また、ランダム・アクセス・メモリ(SRAM、DRAM、および/または他のタイプのランダム・アクセス・メモリを含む)、読み取り専用メモリ(ROM)、フラッシュ・メモリ、レジスタ、コンパクト・ディスク(CD)、デジタル汎用ディスク(DVD)、および/または、他のタイプの格納コンポーネントを含むことができる。メモリ・コンポーネント212は、処理デバイス204によって実行されると、図3に関して本明細書で説明されるプロセスなどの様々なプロセスを処理デバイス204に完了させる、1つ以上のプログラミング命令をその上に含むことができる。さらに図2Aを参照すると、メモリ・コンポーネント212に格納されたプログラム命令は、複数のソフトウェアロジック部として具現化されることができ、各ロジック部は図2Bに関して以下でより詳細に説明するように、1つ以上のタスクを完了するためのプログラム命令を提供する。
ネットワーク・インタフェース・ハードウェア210は、モデム、LANポート、ワイヤレス・フィデリティ(Wi−Fi)カード、WiMaxカード、移動通信ハードウェア、および/または他のネットワークおよび/またはデバイスと通信するための他のハードウェアなど、任意の有線またはワイヤレス・ネットワーキング・ハードウェアを含むことができる。例えば、ネットワーク・インタフェース・ハードウェア210は、車両110と、サーバ・コンピューティング・デバイス130を含む(ただし、これに限定されない)図1に示すネットワーク100の他の構成要素との間の通信リンクを提供することができる。
さらに図2Aを参照すると、一般に格納媒体であってもよいデータ格納デバイス216は、受信および/または生成されるデータを格納するための1つ以上のデータ・リポジトリを含むことができる。データ格納デバイス216は、ハードディスクドライブ(HDD)、メモリ、リムーバブル格納デバイス等を含むが、これらに限定されない任意の物理格納媒体であり得る。データ格納デバイス216はローカルデバイスとして描かれているが、データ格納デバイス216は、例えば、サーバ・コンピューティング・デバイスなど(例えば、図1のサーバ・コンピューティング・デバイス130)の遠隔格納デバイスであり得ることを理解されたい。データ格納デバイス216内に含まれ得る例示的なデータは、図2Cに関して以下に説明される。いくつかの実施形態では、データ格納デバイス216内の利用可能な格納空間の量が、車両構成要素200内のその位置のために制限され得ることを理解されたい。したがって、本明細書でより詳細に説明するように、そこに格納されるデータのサイズを最小限に抑える必要があり得る。
さらに図2Aを参照すると、I/Oハードウェア208は、ローカルインタフェース202と車両110の1つまたは他の成分との間で情報を通信することができる。例えば、I/Oハードウェア208は、車両コンポーネント200と、ナビゲーションシステム、メータユニット、携帯電話システム、インフォテインメントシステムなどの他のコンポーネントとの間のインタフェースとして機能することができる。いくつかの実施形態では、I/Oハードウェア208を利用して、1つ以上のコマンドを車両110の他の構成要素に送信することができる。
システム・インタフェース214は、一般に、車両コンポーネント200に、例えば、図1に示すユーザ・コンピューティング・デバイス120および/またはサーバ・コンピューティング・デバイス130などの1つ以上の外部デバイスとインタフェースする能力を提供することができる。外部機器との通信は、各種通信ポート(図示せず)を使用して行われる場合がある。通信ネットワークには、例示的な通信ポートを取り付けることができる。
さらに図2Aを参照すると、画像キャプチャデバイス115は、ローカルインタフェース202に通信可能に結合され、ローカルインタフェース202を介して処理デバイス204に結合され得る。画像キャプチャデバイス115は、画像を得るのに適した任意の画像化デバイス、センサ、または検出器であり得る。本明細書で使用される「画像」という用語はビデオ画像(すなわち、連続する画像の配列)、静止画像(ビデオ画像から分離された静止画像を含む)、および/または、画像データを指す。本開示の技術的範囲から逸脱することなく、任意の適切な市販の画像キャプチャデバイス115を使用することができる。いくつかの実施形態では、画像キャプチャデバイス115は、例えば、1つ以上のセンサのような、画像化のための追加の機能を提供する1つ以上の他の構成要素に結合されてもよい。
画像キャプチャデバイス115は、レンズ(図示せず)を含んでもよく、または、レンズに結合されてもよい。レンズは本開示によって制限されず、一般に、画像を適切に得ることができるように、画像キャプチャデバイス115に入る光の焦点を合わせるように構成される任意の光学コンポーネントであってもよい。いくつかの実施形態では、レンズが調節可能でない固定レンズであり得る。他の実施形態では、レンズが処理デバイス204によって手動または自動のいずれかで調整可能であり、オブジェクトをズームインし、オブジェクトをズームアウトし、および/または、画像キャプチャデバイス115に入る光の焦点を調整することができる。
図2Bを参照すると、いくつかの実施形態では、メモリ・コンポーネント212に含まれるプログラム命令は、複数のソフトウェアモジュールとして実施可能であり、ここで、各モジュールは1つ以上のタスクを完了するためのプログラミング命令を提供する。例えば、図2Bは、本明細書で示され、説明される1つ以上の実施形態による、例示的な論理構成要素を含むメモリ構成要素212を概略的に示す。図2Bに示すように、メモリ・コンポーネント212は、例えば、オペレーティングロジック220、作成ロジック222、シミュレーションロジック224、および/または最適化ロジック226(これらの各々は、一例として、コンピュータプログラム、ファームウェア、またはハードウェアとして具現化することができる)などの様々な処理ロジックを格納するように構成されてもよい。オペレーティングロジック220は、車両コンポーネント200(図2A)のコンポーネントを管理するためのオペレーティングシステムおよび/または他のソフトウェアを含むことができる。さらに、動作論理220はデータを送信し、および/またはデータを分析するための1つ以上のソフトウェアモジュールを含むことができる。
さらに図2Bを参照すると、1つ以上のソース(例えば、画像キャプチャデバイス115、図1に示すサーバ・コンピューティング・デバイス130など)からデータを収集し、および/またはデータを変換するための1つ以上のソフトウェアモジュールを含むことができる。本明細書でより詳細に説明するように、作成ロジック222は、さらに、作成ロジック222は、データが2D画像から抽出され得るように、または、2D画像または3Dモデル内のデータが分析され得るように、2D画像を作成および/または処理することができる。本明細書でより詳細に説明するように、シミュレーションロジック224は、ライブ背景画像に関する情報とマージされた2D画像などの、特定のデータが合成されるかどうかを判定するための1つ以上のソフトウェアモジュールを含むことができる。シミュレーションロジック224は、2D画像および3Dモデルが同じ領域にあるかどうか(例えば、それぞれの2D画像および/または3Dモデルが、解析のために意味的にセグメント化されているかどうか、リアルな画像であるかどうか、元のフォーマットであるかどうか、および/または同様のものであるかどうか)を判定することができる。シミュレーションロジック224は、複数の計算デバイス上に常駐することができる。一例として、本明細書に記載される機能性および/または構成要素のうちの1つ以上は、ユーザ・コンピューティング・デバイス120および/またはサーバ・コンピューティング・デバイス130によって提供され得る。それは、シミュレーションロジック224へのアクセスが提供され得るように、ネットワーク100を介してメモリ構成要素212に結合され得る、例えば、処理デバイス204(図2A)はシミュレーションロジック224にアクセスして、通信し、3Dモデルデータ取り出し、次いで、サーバ・コンピューティング・デバイス130などを使用して、3Dモデルデータを操作することができる。最適化ロジック226は、2Dおよび/または3Dのいずれかで位置を決定し、注釈を付けるための1つ以上のソフトウェアモジュールを含むことができ、本明細書でより詳細に説明するように、境界ボックス、ピクセルごとの注釈、配位ベースの注釈、および/または同様のものを使用して、物、ピクセル、および/または同様のものに注釈を付けることができる。
図2Cは、格納デバイス(例えば、データ格納デバイス216)内に含まれる様々なデータのブロック図を概略的に示す。図2Cに示すように、データ格納デバイス216は、例えば、CADファイルまたは本明細書で説明するセマティックセグメンテーション方法を使用して処理されたデータなどの、複数の格納された3Dモデルデータ228を含むことができる。さらに、3Dモデルデータ228は車両設計データであってもよいし、背景のない特定のオブジェクトの単一の画像のみを有するエンジニアリングモデルであってもよいことを理解されたい。また、3Dモデルデータ228は自律走行車両センサ(図示せず)によって収集されるデータであってもよく、ここで、3Dモデルデータはオブジェクトの複数の画像および/またはオブジェクトのデータを含んでもよいことを理解されたい。3Dモデルデータ228は、例えば、サーバ・コンピューティング・デバイス130(図1)から受信されてもよく、または、例えば、自律車両センサ(図示せず)から受信されてもよい。複数の格納された3Dモデルデータ228は永続的に格納されなくてもよく、代わりに、データがそこから抽出され得るように一時的に格納されてもよいことを理解されたい。
データ格納デバイス216は、例えば、本明細書でより詳細に説明するように、3Dモデルから抽出され得る複数の2D画像データ230をさらに含むことができる。さらに、複数の2D画像データ230は、画像キャプチャデバイス115(図1)および/またはサーバ・コンピューティング・デバイス130(図1)から受信することができる。データ格納デバイス216はさらに、複数のキャプチャされた背景画像232、複数のキャプチャされた照明およびシェーディング属性234、および/または複数のキャプチャされた気象属性236を含む。複数のキャプチャされた背景画像232およびキャプチャされた属性234、236は、画像キャプチャデバイス(図2A)および/または、サーバ・コンピューティング・デバイス130(図1)から受信することができる。複数のキャップチャされた背景画像232およびキャップチャされた属性234、236は、本明細書でより詳細に説明されるように、リアルタイムでキャップチャすることができる、または、作成することができる。いくつかの実施形態では、キャプチャされた背景画像232は、例えば、建物、道路、自転車、歩行者、関心オブジェクトの一部または全体などを含むことができる。実施形態では、複数のキャプチャされた照明および/またはシェーディング属性234が、晴れ、曇り、昼間、夜間等であるか否かを含むことができる。複数のキャプチャされた気象属性236は例えば、霧、雨、雪などを含むことができる。背景画像は、画像キャプチャデバイス115(図2A)によってキャプチャされると、処理デバイス204(図2A)および/またはメモリ・コンポーネント212(図2A)によって処理される。
図2A〜図2Cに示される構成要素は単に例示的なものであり、本開示の範囲を限定することを意図していないことを理解されたい。より具体的には、図2A〜図2Cの構成要素が車両110の車両構成要素200内に存在するものとして示されているが、これは非限定的な例である。いくつかの実施形態では、1つ以上の構成要素が車両構成要素200および/または車両110の外部に存在することができる。同様に、本明細書で前述したように、図2A〜図2Cは車両110の車両コンポーネント200を対象としているが、ユーザ・コンピューティング・デバイス120およびサーバ・コンピューティング・デバイス130などの他のコンポーネントは、同様のハードウェア、ソフトウェア、および/またはファームウェアを含むことができる。
上述のように、図2A〜図2Cに関して説明した様々な構成要素を使用して、1つ以上のプロセスを実行し、および/または、例えば、車両ベースのコンピューティング・デバイスなど、より少ないリソースしか必要としない、よりパワフルでないプロセッサおよび/またはプロセッサによって完了することができるデータを生成することができる。
次に、図3および図4Aを参照して、機械学習訓練データのサイズを縮小する方法300について説明する。ブロック302で、入力を受信することができる。入力は一般に、サーバ・コンピューティング・デバイス130(図1)からの3D・CADファイルなどの3Dモデルを含むデータを含むことができる。入力は、システム・インタフェース214を介して受信され、ブロック304で、例えば意味的セグメンテーション方法を使用して、処理デバイス204(図2A)によって分析される。意味セグメンテーションの使用は、処理デバイス204(図2A)に、画像を意味的に意味のある部分に分割させ、各部分および/またはピクセルを、所定数のピクセルなどによって、またはオブジェクト識別および/またはラベリングによって、所定のクラスのうちの1つに分類させる。すなわち、セマンティックセグメンテーションでは、各画像、セグメント、および/またはピクセルはシーン内の各画素が識別され、理解され得るように、ラベル付けされ、および/または分類される。3Dモデルはブロック304におけるステップが省略され得るように、受信されたときに、既に意味的にセグメント化されたフォーマットであり得ることが理解されるべきである。さらに、3Dモデルは、車両110(図1)上の複数のセンサから受信した情報から生成されたモデル、例えば、自律または半自律車両センサであり得ることを理解されたい。
さらに図3および図4Aを参照すると、3Dモデルのシーンは、関心オブジェクト404および1つ以上の追加のオブジェクトを識別するために、処理デバイス204によって分析される。3Dモデル内のシーンは、関心のある特定のオブジェクトを取り囲むいくつかのオブジェクトを組み込むことができ、または他のオブジェクトを含まないことができる。例えば、3Dモデル内のシーンは、車両設計データであり得る、または、1つ以上の追加のオブジェクトなしに、特定のオブジェクトの単一の画像のみを有するエンジニアリングモデルであり得る。別の例では、3Dモデル内のシーンがモデルは、自律車両センサなどから受信されたデータからサンプリングされるときに含まれるオブジェクトなど、1つ以上の追加オブジェクトを含むことができる。ブロック306において、関心オブジェクト404が3Dモデルからキャップチャされる。図4Aに示す関心オブジェクト404は車両全体である。しかしながら、関心オブジェクトは、フード、車両の運転者、乗客等のような車両の一部であり得ることを理解されたい。上述のように、いくつかの3Dモデルでは、追加オブジェクトが関心オブジェクトを囲むことができることを理解されたい。例えば、自律画像化システムから生成された3Dモデルは、追加オブジェクトを含むことができる。例えば、自律画像・システムによってキャプチャされたストリート・シーンでは、道路、構造物、歩行者、別の車、自転車などの追加オブジェクトが存在することがあり得る。他の実施形態では、シーンは、限定はしないが、例えば、メータ、ステアリングホイール、シフトハンドル、ナビゲーションデバイスなどの追加オブジェクトが存在することができる車両内からのものであり得る。
ブロック308において、処理デバイス204(図2A)は、図4Aに最もよく見られるように、2D画像内の関心オブジェクト404を取り囲むことができる任意の追加のオブジェクトを除去し、関心オブジェクトの複数のトリミングされた2D画像402が得られるようにする。複数のトリミングされた2D画像402は、様々な角度、レベルのズーム、および/または同様のものからキャプチャされる。例えば、関心オブジェクト404がピクセルを混合したか、または、関心オブジェクトと追加の物が交差する場所が不明瞭である場合、処理デバイス204(図2A)およびメモリ・コンポーネント212(図2A)は、3Dモデルを回転させて、関心オブジェクト404の正確な形状を決定することができる。したがって、複数のトリミングされた2D画像402は、3Dモデルからの関心オブジェクト404の正確な形状および輪郭と一致する。
複数のトリミングされた2D画像402は、例えば、道路幅属性411(図4B)、道路角度属性413(図4D)、周囲の車両の角度(図示せず)などの様々な属性を使用することによってトリミングすることができる。これらの属性は、関心オブジェクトと3D表面との間の関係を確立するために、および/または、シーン属性とオブジェクト存在との間の関係を確立するために使用することができる。したがって、属性を使用して、追加オブジェクトから関心オブジェクトを識別し、関心オブジェクトをシーンからトリミングすることができるようにクラス内バリエーションを記述することができる。例えば、上述のストリート・シーンでは、シーン内の各オブジェクトに、オブジェクトが識別され得るような属性を割り当てることができる。この識別に基づいて、関心オブジェクト404は、関心オブジェクトのみが残り、1つ以上の追加オブジェクトが除去されるように、シーンからトリミングされてもよい。さらに、気象属性418(図4D)および照明および/またはシェーディング属性(図示せず)も、複数のトリミングされた2D画像402から除去される。
図4Aを参照すると、複数の切り抜かれた2D画像402のうちの1つが示される。3Dモデル内の関心オブジェクト404は、追加の対象を含む。背景情報406、気象属性、および照明および/またはシェーディング属性などのこれらのオブジェクトは、関心オブジェクト404がトリミングされるときに除去される。その結果、関心オブジェクト404は、任意の背景情報406および/または属性から分離される。関心オブジェクト404は、2Dのリアルなコンピュータ生成画像として示されていることを理解されたい。また、画像は、GAN(generative adversarial network:敵対的生成ネットワーク)によって生成された高解像度画像であり得ることを理解されたい。
再び、図3および図4Aを参照すると、ブロック310において、複数の切り抜かれた2D画像402がリアルな画像であるか否かについて判定を行うことができる。判定は、サーバ・コンピューティング・デバイス130などの外部デバイスによって行われてもよい。このように、複数の2次元画像は分析のために外部デバイスに送信してもよく、処理デバイス204は複数の2次元画像がリアルな画像であることを示す信号を外部デバイスから受信してもよい。しかしながら、この判定は、外部デバイスを使用せずに局所的に行うことができることを理解されたい。
リアルな画像は一般に、リアル世界のデータセットを有すると理解される。したがって、このフレームワークは、リアルのオブジェクトの3D表面測定データをリアルの画像のための構造化表現に迅速に変換することを可能にする。すなわち、実世界の画像には、環境、照明、表面材質、形状等に関する情報が多く埋め込まれている。一方、3Dモデルからの意味的にセグメント化された画像(コンピュータグラフィック画像)のような非リアルな画像は,一般に、テクスチャおよび影が豊富ではない。したがって、ブロック310で、画像がリアルな画像でないと判定された場合、ブロック312で、意味的にセグメント化された画像がリアルな画像に変換される。意味的にセグメント化された画像を複数のトリミングされた2D画像402に変換することは、当業者が理解するのであろう方法を使用することによることを理解されたい。例えば、元の画像は、ニューラルネットワークまたは深い学習を用いてリアルな画像に変換することができる。画像がリアルな画像に変換されると、複数の切り抜かれた2D画像402は、ブロック310において再び検証される。
ここで図3および図4Bを参照すると、いくつかの実施形態では、処理デバイス204は、ブロック314で、画像キャプチャデバイス115から背景画像408を受信することができる。背景画像408は、画像キャプチャデバイス115が関心オブジェクト404を取り囲む画像および情報である。背景画像408は図4Bに最もよく見られるように、複数の背景属性を含むことができる。非限定的な実施例では、複数の背景属性は、建物410、交通信号412、歩道414、交通信号ポール416、および/または、道路420などの構造を含むことができる。属性は、2D画像を構成する画素および/またはデータ点における1つの特定のタイプのデータとして定義され得る。したがって、一般に、各観測および/またはデータ点は、複数の属性が与えられた次元(属性の数、抽出された特徴)の表現を作成するような、多くの複数の属性を含むことができる。このように、モデルは、属性を探すために使用することができ、他の特徴は順に、以前よりも複雑なオブジェクトである新しい属性を生成することができる(属性から属性を抽出する)。属性の非限定的な例は、建物構造属性、道路幅属性、道路角度属性、歩行者および/または自転車角度属性、他の車両幅および/または方向属性、別の車両角度属性、照明および/またはシェーディング属性、気象属性などを含むことができる。関心オブジェクト404は背景画像408には存在しないので、上述のように、背景全体を属性について分析することができることを理解されたい。
背景画像408はまた、関心オブジェクト404または関心オブジェクトの一部を含むことができることを理解されたい。したがって、ピクセルマッチングのための当技術分野で知られている任意の種類のソフトウェアおよび/またはアルゴリズムを使用して、関心オブジェクト404を認識し、背景画像408から除外することができることを理解されたい。例えば、ピクセル単位マッチングを使用して、3Dモデルから関心オブジェクト404を決定し、関心オブジェクトを背景画像408から除去することができるように、背景画像408内の関心オブジェクトをマッチングすることができる。
再び、図3および図4Bを参照すると、ブロック316において、背景画像408を準備することができる。例えば、セマンティックセグメンテーション方法は、処理デバイス204(図2A)および/またはサーバ計算デバイス130(図1)が背景オブジェクトおよび/または背景属性を解釈できるように、背景画像408上で使用することができる。いくつかの実施形態では、背景画像408が作製、キャップチャされなくてもよい。したがって、いくつかの実施形態では、背景画像408は、本明細書で説明するように、背景オブジェクトおよび/または背景属性を解釈できるように、リアルな2D画像に変換することができる。
図3および図4B〜図4Dを参照すると、ブロック318において、背景画像408は、背景の1つ以上の属性に基づいて処理デバイス204(図2A)によって分類される。図4Bに示される属性は、建物410、交通信号412、歩道414、交通信号ポール416、および道路420を含む。図4Dにおける属性は、気象属性418、建物410、交通信号412、歩道414、交通信号ポール416、および道路420を含む。ブロック320で、1つ以上の属性のうちの選択された属性を、複数のトリミングされた2D画像402に追加することができる。選択された属性は、気象属性418(図4D)および照明および/またはシェーディング属性(図示せず)であり得る。これらの属性は、背景画像408に基づいて複数のトリミングされた2D画像402に追加される。つまり、ブロック316に分類されるように、気象属性418および照明および/またはシェーディング属性は、図4Cに最もよく見られるように、今度は、複数のクロップされた2D画像402に追加される。したがって、ブロック314において気象属性418が雨を含んでいた場合、ブロック316において属性はそのように分類された。次に、ブロック318で、適切な気象属性418が、複数のトリミングされた2D画像402に追加される。
複数のトリミングされた2D画像402は、背景がモデル背景を表すので、ブロック308において、背景が除去されていることを理解されたい。そのため、削除される属性はリアルタイム属性では場合がある。したがって、複数のトリミングされた2D画像402にリアルタイムデータを提供するために、ブロック314の背景画像408内のキャプチャされた属性は、図4Cに最もよく見られるように、複数のトリミングされた2D画像402に追加される。
図4Cを参照すると、複数の切り抜かれた2D画像402は、気象属性418が追加されて示される。複数のトリミングされた2D画像402は、関心オブジェクト404および気象属性418を含む。図示のように、現在の背景の気象属性418は雨である。しかし、本明細書で説明するように、画像キャプチャデバイス115(図2A)によってキャプチャされた背景画像に基づいて、またはサーバ・コンピューティング・デバイス130(図1)によって生成された背景画像に基づいて、任意の気象属性を複数のトリミングされた2D画像402に組み込むことができることを理解されたい。
属性が動的であるか、または構造が知られていない場合であっても、機械学習アルゴリズムがデータを探索して構造または属性を見つけるように訓練されるように、属性が機械学習において使用されることも理解されるべきである。したがって、属性は、機械学習が属性を識別して、属性のデータから学習することができるように、複数のトリミングされた2D画像402に追加される。
図3および図4Dを参照すると、ブロック322において、背景画像408が合成される。すなわち、背景画像408の画素は、3Dモデルのレプリカが、リアルタイム背景情報と共に2次元で生成され得るように、複数の切り抜かれた2D画像402の画素と組み合わされる。しかしながら、背景画像408および複数のトリミングされた2D画像402は、2つの異なるドメインからのものであってもよいので、合成プロセス中に、ドメインは単一のドメインにマージされてもよい。すなわち、依然として意味的にセグメント化されているなどの複数のトリミングされた2D画像402および背景画像408は、リアルな画像に変換することができ、その結果、両方の画像はここで、共にマージされ、同じ領域内にある。意味的にセグメント化された画像をリアルな画像に変換すること、および/または、画像を合成することは、当業者が理解し、上述したような方法を使用することによることを理解されたい。
図4Dを参照すると、背景画像408および複数の切り抜かれた2D画像402の2D合成画像424へのマージャーが示されている。関心オブジェクト404は道路420上に配置され、背景は依然として同じ属性、建物410、交通信号412、交通信号ポール416、歩道414、および道路420を含む。さらに、今度は、気象属性418および照明/陰影属性(図示せず)が、このシーンのための完全な複数の2D画像を示す。
図3および図4Dに戻って参照すると、ブロック324において、合成画像424の正確な位置が注釈される。そのような注釈は、境界ボックス注釈422の使用、および/またはピクセルごとの注釈(図示せず)を含むことができる。境界ボックス注釈422は、一般に、画素が一緒にグループ化されるときに注釈付けされる画素の周りに描かれたボックスを指す。例えば、図4Dに示すように、境界ボックス注釈422は、車両の画素を囲むことができる。境界ボックス注釈422の、この使用は、オブジェクトのタイプ、オブジェクトのサイズ、および/または、同様のもののような情報を提供することができる。例えば、関心オブジェクト404を取り囲む境界ボックス注釈422内のピクセルのデータを使用して、車両の形状、車両のシェーディング、車両のサイズなどに基づいて、関心オブジェクトが車両であるかどうかを判定することができる。さらに、コンピュータプログラムおよびアルゴリズムは、境界ボックス注釈422内のデータを解釈して、車両のタイプ、車両のサイズ、シーン内の車両の位置、車両と他の境界ボックスとの関係などを決定することができる。他方、ピクセルごとの注釈(図示せず)は、シーンを理解するために、処理デバイス204(図2A)がプログラムおよび/またはアルゴリズムを使用してピクセルシェーディングなどのデータを解釈することができるように、各画素に値を割り当てることができるように、シーン内の各画素をデータポイントとして使用する。
注釈は2D注釈(x、y)に限定されず、注釈および合成画像424が3D機械学習アルゴリズムと互換性があるように、3D注釈(x、y、z)を使用してもよいことを理解されたい。注釈が完了した後、ブロック326において、合成画像424が格納される。
方法300は、本明細書で説明するように、車両コンポーネント200を、2D画像を生成するものとして説明するが、サーバ・コンピューティング・デバイス130はこれらの画像を生成することもできることを理解されたい。車両110は、背景画像408および他のデータが車両110によってサーバ・コンピューティング・デバイス130に送信されている間に、背景画像408をキャプチャすることができ、その結果、サーバ・コンピューティング・デバイス130は、方法300を実行する。さらに、車両110は、背景画像を収集することができず、サーバ・コンピューティング・デバイス130は方法300で説明したように、それ自体のまたは他の背景画像を使用して2D画像を生成することができる。
また、格納された画像は、3D・CAD図面のような、より多くの格納空間およびより強力なプロセッサを使用することはるかに大きなファイルと同じリアルなデータおよび情報を機械学習アルゴリズムに提供するのに十分なデータセットを含むことを理解されたい。さらに、格納された2D画像の結果として、3D・CADファイルを車両設計データ・ストレージから除去することができる。
他の実施形態では、画像データ収集が、車両の内側からであり得る。これらの実施形態では、人間の姿勢オブジェクト検出、および、ピクセルごとのセグメント化アルゴリズムを使用することができる。一実施形態では、ブロック314で背景画像を合成する代わりに、ドライバおよび/または乗客を合成することができる。したがって、人間モデルのポーズに注釈を付けることができる。さらに、上述のような他の実施形態では、車両の内部を合成することができる。例えば、車両のメータ、ナビゲーション、情報エンターテイメント・システム、変速装置、ステアリングホイール等を合成することができる。これは、車両内にあり、ドライバがどのように反応するか、ドライバが何をするか、ドライバがどのように移動するか、などのデバイスを認識する方法を提供することができる。したがって、車両の内部とのこれらの反応および相互作用が、自律車両、半自律車両、および/または無運転車両において模倣され得るように、運転者情報および反応に関するデータが収集され得る。
ここで、本明細書で説明される方法、システム、および車両構成要素は、機械学習において訓練データを含むために使用されるデータ・ストレージの量を減少させるように、および/または機械学習において使用される訓練データに必要な処理能力を減少させるように機能し得ることを理解されたい。この方法は、3Dモデル内のシーンを分析するために意味的セグメンテーションを使用することと、分析から関心オブジェクトを決定することと、関心オブジェクトを複数の2D画像にトリミングすることとを含む。複数の2D画像は、関心オブジェクトのみが残り、背景オブジェクトが除去されるようにトリミングされる。複数の2D画像は、また、道路幅、道路角度、周囲の車両の角度などの特定の属性に関してトリミングされる。また、画像キャプチャデバイスは、リアルタイムの背景画像をキャプチャする。背景画像を作成し、背景のオブジェクトを、関連属性を用いて分類した。特定の属性が複数の2D画像に追加され、他の属性が複数のトリミングされた2D画像と合成されて、リアルタイム背景を有するレプリカ2D画像が生成される。合成されると、新たに作成された画像に注釈を付けて格納することができる。その結果、複数の2D画像は、一緒になったとき、一般に3Dモデルよりも少ないデータ・ストレージしか必要としないが、依然として3Dモデルのすべての情報を含むので、データ・ストレージは最小限に抑えられる。
本明細書では特定の実施形態を図示し、説明してきたが、特許請求される主題の主旨および範囲から逸脱することなく、様々な他の変更および修正を行うことができることを理解されたい。さらに、特許請求される主題の様々な態様が本明細書で説明されてきたが、そのような態様は組み合わせて利用される必要はない。したがって、添付の特許請求の技術的範囲は、特許請求された主題事項の技術的範囲内にある全てのそのような変更および修正をカバーすることが意図されている。

Claims (10)

  1. 車両格納デバイスに格納された機械学習データのサイズを縮小する方法であって、該方法は、3次元モデルを含むデータを、プロセッサによって受信するステップと、
    関心オブジェクトおよび1つ以上の追加オブジェクトを識別するために、前記3次元モデル内のシーンを、前記プロセッサによって分析するステップと、
    前記プロセッサによって、前記関心オブジェクトおよび前記1つ以上の追加オブジェクトを複数の2次元画像としてキャプチャするステップと、
    前記プロセッサによって、複数のトリミングされた2次元画像を取得するために、前記複数の2次元画像から前記1つ以上の追加オブジェクトを除去するステップと、
    前記プロセッサにより、前記複数のトリミングされた2次元画像を車両格納デバイスに格納するステップと、
    前記プロセッサによって、画像センサから背景画像を受信するステップであって、該背景画像は、前記関心オブジェクトを囲む背景を含む、ステップと、
    前記プロセッサによって、前記背景の1つ以上の属性に基づいて、前記背景画像を分類するステップと、
    前記プロセッサによって、前記1つ以上の属性の選択された属性を、前記複数のトリミングされた2次元画像に追加するステップと、
    前記プロセッサによって、前記複数のトリミングされた2次元画像および前記選択された属性から、1つ以上の合成画像を合成するステップと、
    前記プロセッサによって、前記選択された属性の正確な位置を有する前記1つ以上の合成画像に注釈を付けるステップと、
    を含む、方法。
  2. 前記注釈を付けるステップは、前記選択された属性の周りに境界ボックスを構築するステップを含む、請求項1に記載の方法。
  3. 前記注釈を付けるステップは、前記選択された属性のピクセル単位の注釈を使用するステップを含む、請求項1または2に記載の方法。
  4. 前記1つ以上の追加オブジェクトを除去するステップは、複数の背景属性から前記1つ以上の追加オブジェクトを選択するステップを含み、
    前記注釈を付けるステップは、前記選択された属性のピクセル単位の注釈を使用するステップを含む、請求項1ないし3のいずれか1項に記載の方法。
  5. 前記複数の背景属性は、道路幅、道路角度、または、周囲の車両の角度から選択され、
    前記1つ以上の属性の前記選択された属性は、気象属性、照明属性、および、シェーディング属性のうちの少なくとも1つである、
    請求項4に記載の方法。
  6. 機械学習において訓練データを含むために使用される・データストレージの量を減少させるためのシステムであって、
    該システムは、
    プロセッサと、
    複数の背景画像をキャプチャする、該プロセッサに通信可能に結合した画像センサと、
    非一時的プロセッサ読み取り可能格納媒体と
    を含み、
    前記非一時的プロセッサ読み取り可能格納媒体は、実行されると、前記プロセッサに、3次元モデルを含むデータを、前記プロセッサによって受信させ、
    関心オブジェクトおよび1つ以上の追加オブジェクトを識別するために、3次元モデル内のシーンを、前記プロセッサによって、分析させ、
    前記プロセッサによって、前記関心オブジェクトおよび前記1つ以上の追加オブジェクトを複数の2次元画像としてキャプチャさせ、
    前記プロセッサによって、複数のトリミングされた2次元画像を取得するために、前記複数の2次元画像から前記1つ以上の追加オブジェクトを除去するステップと、
    前記プロセッサにより、車両格納デバイスに前記複数のトリミングされた2次元画像を格納させ、
    前記プロセッサによって、前記画像センサから背景画像を受信させ、ここで、該背景画像は、前記関心オブジェクトを取り囲む背景を含み、
    前記プロセッサによって、前記背景の1つ以上の属性に基づいて、前記背景画像を分類させ、
    前記プロセッサによって、前記1つ以上の属性の選択された属性を、前記複数のトリミングされた2次元画像に追加させ、
    前記プロセッサによって、前記複数のトリミングされた2次元画像および前記選択された属性から1つ以上の合成画像を合成させ、
    前記プロセッサによって、前記選択された属性の正確な位置で前記1つ以上の合成画像に注釈付けを実行させる、
    1つ以上のプログラミング命令を含む、システム。
  7. 前記プロセッサは、前記選択された属性の周りに境界ボックスを少なくとも構築することによって、前記1つ以上の合成画像に注釈を付けるようにされる、請求項6に記載のシステム。
  8. 前記プロセッサは、
    前記選択された属性のピクセルごとの注釈を少なくとも使用することによって、前記1つ以上の合成画像に注釈を付けるようにされ、
    複数の背景属性から前記追加オブジェクトを少なくとも選択することによって、前記1つ以上の追加オブジェクトを除去するようにされる、
    請求項6または7に記載のシステム。
  9. 前記複数の背景属性は、道路幅、道路角度、および、周囲の車両の角度から選択される、請求項8に記載のシステム。
  10. 機械学習において訓練データを含むために使用されるデータストレージの量を減少させるためのシステムであって、
    該システムは、
    第1プロセッサと、
    該第1プロセッサに通信可能に結合された画像センサと、
    該第1プロセッサの外部にある第2プロセッサであって、該第1プロセッサに通信可能に結合された第2プロセッサと、
    非一時的プロセッサ読み取り可能格納媒体と、
    を含み、
    前記非一時的プロセッサ読み取り可能格納媒体は、実行されると、前記第1プロセッサに、
    3次元モデルを含むデータを受信させ、
    関心オブジェクトおよび1つ以上の追加オブジェクトを識別するために、前記3次元モデル内のシーンを分析させ、
    前記関心オブジェクトおよび前記1つ以上の追加オブジェクトを複数の2次元画像としてキャプチャさせ、
    前記複数の2次元画像を前記第2プロセッサに送信させ、
    前記複数の2次元画像がリアルな画像であることを示す信号を前記第2プロセッサから受信させ、
    複数のトリミングされた2次元画像を取得するために、前記複数の2次元画像から前記1つ以上の追加オブジェクトを除去させ、
    前記複数のトリミングされた2次元画像を車両格納デバイスに格納させ、
    前記画像センサから背景画像を受信させ、ここで、前記背景画像は、前記関心オブジェクトを取り囲む背景を含むものであり、
    前記背景の1つ以上の属性に基づいて前記背景画像を分類させ、
    前記1つ以上の属性の選択された属性を、前記複数のトリミングされた2次元画像に追加させ、
    前記複数のトリミングされた2次元画像および前記選択された属性から1つ以上の合成画像を合成させ、
    前記選択された属性の正確な位置で前記1つ以上の合成画像に注釈を付けさせる、
    1つ以上のプログラミング命令を含む、システム。
JP2020547341A 2018-03-13 2019-02-14 機械学習におけるデータ・ストレージを低減するためのシステムおよび方法 Expired - Fee Related JP6898534B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/919,376 2018-03-13
US15/919,376 US10755112B2 (en) 2018-03-13 2018-03-13 Systems and methods for reducing data storage in machine learning
PCT/US2019/017918 WO2019177738A1 (en) 2018-03-13 2019-02-14 Systems and methods for reducing data storage in machine learning

Publications (2)

Publication Number Publication Date
JP2021509993A JP2021509993A (ja) 2021-04-08
JP6898534B2 true JP6898534B2 (ja) 2021-07-07

Family

ID=67903635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547341A Expired - Fee Related JP6898534B2 (ja) 2018-03-13 2019-02-14 機械学習におけるデータ・ストレージを低減するためのシステムおよび方法

Country Status (5)

Country Link
US (1) US10755112B2 (ja)
JP (1) JP6898534B2 (ja)
CN (1) CN111886609B (ja)
DE (1) DE112019001310B4 (ja)
WO (1) WO2019177738A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US12307350B2 (en) 2018-01-04 2025-05-20 Tesla, Inc. Systems and methods for hardware-based pooling
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11301733B2 (en) * 2018-05-18 2022-04-12 Google Llc Learning data augmentation strategies for object detection
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
CA3115784A1 (en) 2018-10-11 2020-04-16 Matthew John COOPER Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US10957099B2 (en) * 2018-11-16 2021-03-23 Honda Motor Co., Ltd. System and method for display of visual representations of vehicle associated information based on three dimensional model
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
WO2020243333A1 (en) 2019-05-30 2020-12-03 The Research Foundation For The State University Of New York System, method, and computer-accessible medium for generating multi-class models from single-class datasets
US12125290B2 (en) * 2020-04-28 2024-10-22 Moj.Io, Inc. Vehicle system with a safety mechanism and method of operation thereof
CN112200227A (zh) * 2020-09-28 2021-01-08 深圳市华付信息技术有限公司 一种基于飞机3d模型的飞机检测方法
US11393184B2 (en) 2020-11-13 2022-07-19 Denso International America, Inc. Systems and methods for adaptive bounding box selection
CN113033426B (zh) * 2021-03-30 2024-03-01 北京车和家信息技术有限公司 动态对象标注方法、装置、设备和存储介质
US11922582B2 (en) * 2021-04-12 2024-03-05 Google Llc Location-specific three-dimensional models responsive to location-related queries
KR102343056B1 (ko) * 2021-07-08 2021-12-24 주식회사 인피닉 어노테이션을 위한 이미지의 데이터 로드를 감축시키는 방법
US12462575B2 (en) 2021-08-19 2025-11-04 Tesla, Inc. Vision-based machine learning model for autonomous driving with adjustable virtual camera
US12522243B2 (en) 2021-08-19 2026-01-13 Tesla, Inc. Vision-based system training with simulated content
CN113570626B (zh) * 2021-09-27 2022-01-07 腾讯科技(深圳)有限公司 图像裁剪方法、装置、计算机设备及存储介质
CN114266879A (zh) * 2021-12-24 2022-04-01 北京百度网讯科技有限公司 三维数据增强、模型训练检测方法、设备及自动驾驶车辆
KR102540629B1 (ko) * 2022-10-27 2023-06-13 주식회사 모빌테크 교통 시설물에 대한 학습 데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
JP7798135B2 (ja) * 2024-06-10 2026-01-14 日本電気株式会社 情報処理装置、表示システム、データ生成方法及びプログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072830A (ja) 2004-09-03 2006-03-16 Aisin Aw Co Ltd 運転支援システム及び運転支援モジュール
US7483939B2 (en) 2005-08-25 2009-01-27 General Electric Company Medical processing system allocating resources for processing 3D to form 2D image data based on report of monitor data
CN101657839B (zh) * 2007-03-23 2013-02-06 汤姆森许可贸易公司 用于对2d图像进行区域分类以进行2d至3d转换的系统和方法
JP5439890B2 (ja) 2009-03-25 2014-03-12 富士通株式会社 画像処理方法、画像処理装置及びプログラム
DE102010040803A1 (de) 2010-09-15 2012-03-15 Continental Teves Ag & Co. Ohg Visuelles Fahrerinformations- und Warnsystem für einen Fahrer eines Kraftfahrzeugs
CN102111636A (zh) 2011-03-01 2011-06-29 康佳集团股份有限公司 一种3d信号转换为2d信号的方法及系统
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
EP2608153A1 (en) 2011-12-21 2013-06-26 Harman Becker Automotive Systems GmbH Method and system for playing an augmented reality game in a motor vehicle
US9390110B2 (en) 2012-05-02 2016-07-12 Level Set Systems Inc. Method and apparatus for compressing three-dimensional point cloud data
KR101897773B1 (ko) 2012-05-14 2018-09-12 엘지전자 주식회사 입체영상에 대한 캡쳐 모드 선택이 가능한 입체영상 캡쳐 장치 및 방법
US20140063024A1 (en) 2012-12-19 2014-03-06 Iowa State University Research Foundation, Inc. Three-dimensional range data compression using computer graphics rendering pipeline
CN104463825B (zh) * 2013-09-16 2019-06-18 北京三星通信技术研究有限公司 用于在三维体积图像中检测对象的设备和方法
CN103942795B (zh) * 2014-04-22 2016-08-24 浙江大学 一种图像物体的结构化合成方法
CN104134234B (zh) * 2014-07-16 2017-07-25 中国科学技术大学 一种全自动的基于单幅图像的三维场景构建方法
CN104123749A (zh) * 2014-07-23 2014-10-29 邢小月 一种图像处理方法及系统
CN104182765B (zh) * 2014-08-21 2017-03-22 南京大学 一种互联网图像驱动的三维模型最优视图自动选择方法
CN105389471A (zh) 2015-11-19 2016-03-09 电子科技大学 一种机器学习训练集缩减方法
KR101964282B1 (ko) * 2015-12-22 2019-04-01 연세대학교 산학협력단 3d 모델을 활용한 2d 영상 학습 데이터 생성 시스템 및 그 생성방법
US10019652B2 (en) * 2016-02-23 2018-07-10 Xerox Corporation Generating a virtual world to assess real-world video analysis performance
US10663594B2 (en) 2016-03-14 2020-05-26 Imra Europe S.A.S. Processing method of a 3D point cloud
WO2017171005A1 (ja) * 2016-04-01 2017-10-05 株式会社wise 3dグラフィック生成、人工知能の検証・学習システム、プログラム及び方法
CN106709481A (zh) * 2017-03-03 2017-05-24 深圳市唯特视科技有限公司 一种基于二维‑三维语义数据集的室内场景理解方法
US10643368B2 (en) * 2017-06-27 2020-05-05 The Boeing Company Generative image synthesis for training deep learning machines
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
US10235601B1 (en) * 2017-09-07 2019-03-19 7D Labs, Inc. Method for image analysis
US10346721B2 (en) * 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
US10867214B2 (en) * 2018-02-14 2020-12-15 Nvidia Corporation Generation of synthetic images for training a neural network model

Also Published As

Publication number Publication date
JP2021509993A (ja) 2021-04-08
WO2019177738A1 (en) 2019-09-19
CN111886609A (zh) 2020-11-03
US10755112B2 (en) 2020-08-25
CN111886609B (zh) 2021-06-04
DE112019001310T5 (de) 2020-12-10
DE112019001310B4 (de) 2025-04-10
US20190289273A1 (en) 2019-09-19

Similar Documents

Publication Publication Date Title
JP6898534B2 (ja) 機械学習におけるデータ・ストレージを低減するためのシステムおよび方法
CN102708385B (zh) 用于视频监控场景的三维车型比对识别的方法和系统
US11610409B2 (en) Systems and methods for computer-based labeling of sensor data captured by a vehicle
CN116484971A (zh) 车辆的自动驾驶感知自学习方法、装置及电子设备
KR102200299B1 (ko) 3d-vr 멀티센서 시스템 기반의 도로 시설물 관리 솔루션을 구현하는 시스템 및 그 방법
WO2022206414A1 (zh) 三维目标检测方法及装置
CN114429528A (zh) 图像处理方法、装置、设备、计算机程序及存储介质
US11302065B2 (en) Systems and methods for filtering sensor data to remove data points associated with ephemeral objects
CN114419603A (zh) 一种自动驾驶车辆控制方法、系统和自动驾驶车辆
CN117372632B (zh) 二维图像的标注方法、装置、计算机设备及存储介质
CN117218621B (zh) 三维目标检测方法、电子设备及存储介质
CN117274526A (zh) 神经网络模型训练方法和生成图像的方法
CN119068080A (zh) 用于生成图像的方法、电子设备以及计算机程序产品
CN110377776B (zh) 生成点云数据的方法和装置
CN120032339B (zh) 基于bev与全稀疏架构的自动驾驶场景的目标检测方法
CN116433893A (zh) 基于任意方向旋转框的目标检测方法、系统、介质及设备
Kottler et al. A stratified pipeline for vehicle inpainting in orthophotos
CN120299054B (zh) 点云网络训练方法、点云数据处理方法及装置
EP4141789B1 (en) An automated imaging system for object footprint detection and a method thereof
KR102847416B1 (ko) 이미지 데이터 생성 모델 학습 방법 및 시스템
CN116242332B (zh) 一种高精度地图地面要素采集方法及装置
CN116682088B (zh) 一种基于对象成像方法的自动驾驶3d目标检测方法及装置
CN114495039B (zh) 对象识别方法、装置、电子设备及存储介质
CN114898276B (zh) 一种空中可见光旋翼单目标检测方法、装置、设备及介质
Jacobs Theme 1: Relating Appearance, Time, and Location

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200910

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200910

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200910

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210610

R150 Certificate of patent or registration of utility model

Ref document number: 6898534

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees