JP7203844B2 - トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法 - Google Patents

トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法 Download PDF

Info

Publication number
JP7203844B2
JP7203844B2 JP2020524660A JP2020524660A JP7203844B2 JP 7203844 B2 JP7203844 B2 JP 7203844B2 JP 2020524660 A JP2020524660 A JP 2020524660A JP 2020524660 A JP2020524660 A JP 2020524660A JP 7203844 B2 JP7203844 B2 JP 7203844B2
Authority
JP
Japan
Prior art keywords
object model
scene
semantic segmentation
segmentation map
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524660A
Other languages
English (en)
Other versions
JP2020526860A (ja
Inventor
王▲カイ▼
廉士国
王洛威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Robotics Co Ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Publication of JP2020526860A publication Critical patent/JP2020526860A/ja
Application granted granted Critical
Publication of JP7203844B2 publication Critical patent/JP7203844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Description

本願は画像処理の技術分野に関し、特にトレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法に関する。
マシンラーニング(特にディープラーニング)については、そのアルゴリズムの実行は大量のサンプルデータに基づく必要がある。サンプルデータの正確さと豊富さは、マシンラーニングにとって非常に重要である。
たとえば、ディープラーニングに基づく実際のシーンのセマンティックセグメンテーションには、トレーニングされたニューラルネットワークモデルがより良いセマンティックセグメンテーション結果を取得できるように、多数のトレーニングデータセットを用いてニューラルネットワークモデルをトレーニングする必要がある。
上記のトレーニングデータセットは、屋内外のシーンのピクチャと、正確なセマンティックセグメンテーションを行うことによって得られたピクチャと、を含む。ただし、モデルのトレーニング効果を確保するために、一方では、前記屋内外のシーンのピクチャには、できるだけ多くのシーン、及び異なる時間、照明、天気などの条件での各シーンのピクチャを含める必要がある。他方では、対応するセマンティックセグメンテーションマップは、オブジェクトクラスに従って正確にセグメント化する必要がある。
前記屋内外のシーンのピクチャに対応するセマンティックセグメンテーションマップを生成するには、まず、オブジェクトクラスに応じてシーンのピクチャにおけるオブジェクトを正確にセグメント化する必要がある。次に、ピクチャにおける各クラスのオブジェクトのエリアにタグを付けて、対応するセマンティックセグメンテーションマップを形成する。
先行技術を研究するプロセスでは、既存のトレーニングデータセットにおいて、シーンのピクチャの収集、及びセマンティックセグメンテーションマップのタグ付けは、通常、多くの時間と労力を必要とする完全手動の人工方式を採用し、また、特定の屋内外シーンに対して、収集できるシーンのピクチャが比較的に限られており、セマンティックセグメンテーションマップのセグメンテーション精度も確保にくいことを、出願人が見つけた。
本願の少なくとも1つの実施例は、従来技術において、完全手動の方式によるトレーニングデータセットの作成にかかる時間と労力が多く、サンプルデータが十分に豊富で正確ではないという問題を主に解決する。
上記の技術的問題を解決するために、本願の実施例の1つの技術的解決手段にて、トレーニングデータの生成方法が提供される。前記トレーニングデータの生成方法は、3次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定するステップと、前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するステップと、前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするステップと、レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するステップと、各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを1セットのトレーニングデータとして記憶するステップと、を含む。
上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、トレーニングデータの生成装置が提供される。前記トレーニングデータの生成装置は、3次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定する分類モジュールと、前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するシーングラフ生成モジュールと、前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするレンダリングモジュールと、レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するセマンティックセグメンテーションマップ生成モジュールと、各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを1セットのトレーニングデータとして記憶する記憶モジュールと、を含む。
上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、画像のセマンティックセグメンテーション方法が提供される。前記画像のセマンティックセグメンテーション方法は、上記のトレーニングデータの生成方法によって生成されるシーングラフ及び対応するセマンティックセグメンテーションマップをトレーニングデータとして使用する。
上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、電子機器が提供される。前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されるメモリと、を含む。ただし、前記メモリに前記少なくとも1つのプロセッサによって実行可能なコマンドプログラムが記憶されており、前記コマンドプログラムは、前記少なくとも1つのプロセッサに上記の方法を実行させるように、前記少なくとも1つのプロセッサによって実行される。
上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、コンピュータプログラム製品が提供される。前記コンピュータプログラム製品は、不揮発性コンピュータ可読記憶媒体及び前記不揮発性コンピュータ可読記憶媒体に埋め込まれるコンピュータプログラムコマンドを含み、前記コンピュータプログラムコマンドは、プロセッサに上記の方法を実行させるためのコマンドを含む。
本願の実施例にて提供されるトレーニングデータの生成方法及び生成装置は、3次元立体モデルのシーンに基づくトレーニングデータの作成が、3次元モデリングソフトウェアによって自動的に完成し、各パラメータを容易に調整することができる。そのため、使用要件を満たす、異なる時間を反映する大量のシーングラフ及びセマンティックセグメンテーションマップを急速に生成することができ、時間及び労力を大幅に節約する。また、3次元立体モデルを単位としてレンダリングすることで、セマンティックセグメンテーションマップのセグメンテーション精度が高くなる。
1つ又は複数の実施例は、それに対応する図面によって例示的に説明する。これらの例示的な説明は実施例を限定するものではない。図面中の同じ参照番号を有する要素は類似の要素として示されており、図面中の図は、特記しない限り、縮尺が限定されない。
本願の実施例にて提供される画像のセマンティックセグメンテーションの結果の概略図である。 本願の実施例にて提供されるトレーニングデータの生成方法のフローチャートである。 本願の実施例にて提供されるシーングラフの取得方法のフローチャートである。 本願の他の実施例にて提供されるセマンティックセグメンテーションマップの取得方法のフローチャートである。 本願の実施例にて提供されるトレーニングデータの生成方法をUnity3Dエンジンで実行する実行フローの概略図である。 本願の実施例にて提供されるレーニングデータ生成方法を3D Maxで実行する実行フローの概略図である。 本願の実施例にて提供されるレーニングデータ生成装置の機能ブロック図である。 本願の実施例にて提供されるシーングラフ生成モジュールの機能ブロック図である。 本願の実施例にて提供される電子機器の概略構成図である。
本願の目的、技術的解決手段及び利点をより分かりやすくするために、以下、図面及び実施例を参照しながら、本願についてさらに詳細に説明する。本明細書に記載された具体的な実施例は単なる本願を解釈するものであり、本願を限定するものではないと理解すべきである。
画像のセマンティックセグメンテーションは、画像理解の基本技術であり、自動運転システム、ドローンアプリケーション、又はさまざまな種類のスマートウェアラブルデバイスに非常に重要な役割を果たす。画像のセマンティックセグメンテーションは、実際には、画像で表現された意味に応じて画像内のピクセルをグループ化/分割し、それにタグを付けるプロセスである。たとえば、図1に示すように、画像のセマンティックセグメンテーションの後、「人」とタグ付けされたセマンティックエリア10と「オートバイ」とタグ付けされたセマンティックエリア20が形成される。
実際の画像では、特定のセマンティックを表す同一のオブジェクトは、通常、複数の異なる部分で構成され、各部分の色、テクスチャ、又は明るさが異なる。したがって、複雑なシーンの場合、ピクセルポイントの低次視覚情報に基づく従来のセマンティックセグメンテーションの方法は悪い効果がある。
複雑なシーンやタスクを満たすために、ディープラーニングに基づいてフレームワークとする方式により画像のセマンティックセグメンテーションを行ってもよい。ディープラーニングに基づく画像のセマンティックセグメンテーションは、従来のセグメンテーション方法と比較して、非常に顕著なセグメンテーション効果があるが、ディープラーニングにはアルゴリズムのトレーニングとラーニングのプロセスが必要である。
ディープラーニングアルゴリズムのトレーニング、ラーニングのプロセスにおいて、トレーニングデータに対する要件は非常に高く、トレーニング後のセマンティックセグメンテーションアルゴリズムに非常に高いセマンティックセグメンテーション精度を有させるためには、大量の画像データと非常に正確な画像データタグ付け情報(ピクセルレベルのタグ付け情報でも)が必要である。
コンピュータグラフィックスレンダリングテクノロジーの急速な発展に伴い、既存の仮想3Dシーンのレンダリング効果はますますリアルになり、仮想3Dシーンから派生した固定フレームピクチャはますますリアルで素晴らしいものになっている。これにより、仮想3Dシーンに基づいて必要なトレーニングデータを容易に生成でき、高精度のトレーニングデータの取得コストを効果的に削減し、トレーニングデータを迅速且つ効率的に取得することができる。
図2は本発明の実施例にて提供される、既存の仮想3Dシーンに基づいて達成されたトレーニングデータの生成方法のフローチャートである。
図2に示すように、前記方法はステップ201~205を含む。
201において、3次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定する。
前記3次元立体シーンとは、任意の適切なタイプの3Dモデリングソフトウェアによって構築された3次元立体シーンである。当該3次元立体シーンは、複数のオブジェクトモデルで構成される。たとえば、テーブル、天井、壁、ランプなどのオブジェクトモデルで構成されるリビングルームの3次元立体シーンである。
各クラスタグは、実際の3次元立体シーンに応じて具体的に設定できるオブジェクトモデルのタイプを表す。たとえば、オブジェクトモデルのインデックスに従って、デコレーション、家具、壁などの分類タグを3次元立体シーンにおけるオブジェクトモデルに設定できる。
分類タグを設定するステップは、オブジェクトモデルのコンテンツ又は意味に対する注釈プロセスであることを理解できる。3Dモデリングソフトウェアでは、3次元立体シーンの構築ユニット又は構築の基盤がオブジェクトモデルであるため、当該タグ付けのプロセスは非常に正確且つ実現しやすい。
202において、前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得する。
前記シーンパラメータは、照明、観察角度又は観察視野角など、3次元モデルの外観表現に影響するいくつかの影響因子である。つまり、前記シーングラフとは、さまざまな影響因子の下で取得された3次元立体シーンの平面ピクチャをいう。たとえば、異なる観察角度、視野角、又は異なる場合に得られる3次元立体シーンの平面ピクチャである。たとえば、3次元立体シーンの正面図、側面図又は斜視図などである。同一の3次元立体シーンに対して、複数の異なるシーングラフを取得することができる。これらのシーングラフは、異なる角度又は側面から当該3次元立体シーンを反映し、異なる環境での3次元立体シーンの表示状況を表示することができる。
具体的な取得方法は、3次元立体シーンが依存する3Dモデリングソフトウェアに基づいて決定される。通常、3Dモデリングソフトウェアは、仮想カメラを提供してシーングラフの取得を完了できる。
203において、前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングする。本実施例では、前記モノクロ材質は1つの色のみを有する材質であり、前記「レンダリング」とはオブジェクトモデルに対応する色を充填し、たとえば、テーブルを純青色にレンダリングし、ランプを黄色にレンダリングすることなどである。
クラスタグに基づいて、オブジェクトモデルを異なるモノクロ材質にレンダリングすると、オブジェクトモデルを3次元立体モデルにおいて対応する色で表現することができ、異なる色は異なるグループ又はセマンティックエリアに属することを示す(即ち図1に示される画像のセマンティックセグメンテーション結果を形成する)。前記モノクロ材質は具体的には任意の適切な単一の色又はパターン構造であってもよく、たとえば簡単な青色、赤色又は黄色等である。モノクロ材質とは、オブジェクトモデルの表面の色又はパターンである。当然、モノクロ材質にレンダリングした後、オブジェクトモデルは依然として元の外形輪郭を保持する。
具体的には、レンダリングプロセスでは、最終的に取得するセマンティックセグメンテーションマップは通常の視覚習慣に合致することを確保するように、シーングラフ内の各オブジェクトモデル間の相互の遮蔽状況を考慮する必要がある。したがって、まずオブジェクトモデルのシーングラフ内での奥行き順序を決定する必要がある。その後、前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングする。
このようにして、オブジェクトモデル間で正しい遮蔽順序が維持され、後にあるオブジェクトモデルが前のオブジェクトモデルを遮蔽してしまい、トレーニングデータにエラーが発生することはない。
204において、レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得する。
上記のように、画像のセマンティックセグメンテーションのアルゴリズムのトレーニングプロセスにおいて、シーングラフ以外に、シーングラフの各部分が正確にタグ付けされたピクチャも必要である。ここで、「セマンティックセグメンテーションマップ」という用語を用いて、シーングラフのピクセルポイントにタグを正確に付けて得られたピクチャを表す。上記のレンダリングプロセスは、3Dモデリングソフトウェアにおいて行われる。したがって、理論上、最終的に取得するセマンティックセグメンテーションマップのタグ付け精度はピクセルレベルを達することができる。
205において、各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを1セットのトレーニングデータとして記憶する。
画像のセマンティックセグメンテーションアルゴリズムのトレーニングについて、入力データ(即ちシーングラフ)及び対応するセマンティックセグメンテーション出力結果(即ちセマンティックセグメンテーションマップ)を提供すべきである。これによって、本実施例では、対応するシーングラフとセマンティックセグメンテーションマップを1セットのトレーニングデータとして、ディープラーニングアルゴリズムに提供してトレーニングを行うことができる。
上記のトレーニングデータの生成方法によって、大量のトレーニングデータのピクチャセットを迅速且つ効率的に生成できる。さらに、これらのトレーニングデータのピクチャセットは非常に高いタグ付け精度を持っている。
なお、上記の3次元立体シーンに基づいて、実際のニーズに従って複数のセットのトレーニングデータを迅速に生成できる。各セットのトレーニングデータについて、1つのセマンティックセグメンテーションマップは、複数の異なるシーングラフに対応することもあり、たとえば、異なる照明状態でのシーングラフは同一のセマンティックセグメンテーションマップに対応する。
いくつかの実施例では、図3に示すように、具体的にはステップ301とステップ302によって異なる照明状態でのシーングラフを取得することができる。
301において、前記3次元立体シーンにおける照明状況を動的に調整する。
3Dモデリングソフトウェアにおいて、3次元立体シーンに照明を調整し、それに対応する影又は輝度を有させることは非常に一般的な機能である。
3次元立体シーンのグローバル照明を調整することによって、3次元立体モデルが異なる時間又は天候等の異なる実際の状況における実際のシーンを模擬することができる。当然のことながら、いくつかの可能な状況で、3次元立体モデルの局所的な照明を調整して、シーンにおける特定のライト効果を模擬することができ、たとえばリビングに対応する3次元立体シーンにおける、吊りランプを起動する時のシーングラフが挙げられる。
302において、仮想カメラによって異なる照明状況でのシーングラフを収集する。
前記仮想カメラは3Dモデリングソフトウェアにおける3次元立体モデルの平面ピクチャを収集するための機能モジュールである。それは異なる角度、焦点距離又は画角で、カメラで撮影する方式によって3次元立体モデルを撮影することができる。
3次元立体シーンの照明状況の変化に伴い、仮想カメラを用いて複数の異なる角度で3次元立体シーンを撮影し、複数の異なる状況を含むシーングラフを取得することができる。明らかに、シーングラフの数及び含まれる具体的な状況が多いほど、トレーニングデータのデータ品質が高くなり、ディープラーニングアルゴリズムに対するトレーニング効果が向上する。
本実施例において、照明を変更する以外に、オブジェクトモデルの表面テクスチャ変化又は仮想カメラの移動経路及び角度変化等を組み合わせ、複数の異なるシーングラフを取得し、3次元立体モデルの異なる状況を示すことができる。
具体的には、3Dモデリングソフトウェアにおいて仮想カメラの撮影軌跡を設定することによってカメラの移動経路及び角度変化のいくつかのシーングラフを反映することができる。仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集する。
上記の方法の実施例において開示したとおり、異なる照明状況又はテクスチャ変化のシーングラフを可能な限り取得する必要があることと異なるのは、1セットのトレーニングデータにおいて、1つの明確なセマンティックセグメンテーションマップだけを有すべきである。即ちセマンティックセグメンテーション後の理想的な結果は一意に決定されるべきである。そのため、いくつかの実施例において、前記セマンティックセグメンテーションマップの取得方法は、
前記3次元立体シーンの照明をオフにする時に、レンダリング後のオブジェクトモデルに基づいて各シーンに対応するセマンティックセグメンテーションマップを取得するステップを含むべきである。
上記のように、セマンティックセグメンテーションマップの一意性を確保するために、3Dモデリングソフトウェアにおいて3次元立体シーンの照明をオフにする必要があり、それにより、オブジェクトモデルの表面が照明の影響を受け、異なるテクスチャ又は輝度が現れ、セマンティックセグメンテーションマップの精度を低下させることを回避する。
3次元立体シーンの照明をオフにした場合、同じ角度及び位置でシーングラフに対応するセマンティックセグメンテーションマップを取得する。前記対応するセマンティックセグメンテーションマップは具体的には仮想カメラが同じ角度と位置で取得した3次元立体シーンのセマンティックセグメンテーションマップとシーングラフである。セマンティックセグメンテーションマップはオブジェクトモデルをモノクロでレンダリングし、照明をオフにした後に取得される。
いくつかの場合で、前記3次元立体モデルはさらに属性が透明である透明なオブジェクトモデルを含む可能性があり、たとえばガラス窓又はガラスドアが挙げられる。それに応じて、レンダリングプロセスにおいて、正確なセマンティックセグメンテーションマップを提供するように、実際の状況に応じてこれらの透明なオブジェクトモデルに対して異なる処理を行う必要がある。
図4に示すように、前記透明なオブジェクトモデルに対してモノクロレンダリングを行う場合、前記方法は、ステップ401~403を含む。
401において、透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断する。そうであれば、ステップ402を実行し、そうでなければ、ステップ403を実行する。
402において、前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングする。
遮蔽効果を持っている場合、通常の視覚状態では、後のオブジェクトモデルが透明なオブジェクトモデルに遮蔽される。そのため、対応するモノクロレンダリングを行い、対応する輪郭を有するセマンティックセグメンテーションマップを形成する必要がある。
403において、前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除する。
透明なオブジェクトが遮蔽効果を持っていない場合、セマンティックセグメンテーションマップにおいて意味を有するエリアとしてタグ付けされないことを示す。そのため、セマンティックセグメンテーションマップにおいて当該透明なオブジェクトモデルを直接削除し又は透明なオブジェクトモデルを透明状態に維持することにより、後のオブジェクトモデルの透視関係に影響を及ぼすことを回避することができる。
本願の実施例にて提供されるトレーニングデータの生成方法は従来の任意の適切な3Dモデリングソフトウェアで実行することができ、たとえばUnity3Dエンジン、3DMax、OpenGL、DirectX又はUnrealなどが挙げられる。3次元立体シーンによって十分な数のトレーニングデータを取得した後、本願の実施例は画像のセマンティックセグメンテーション方法をさらに提供する。前記画像のセマンティックセグメンテーション方法において、上記の方法の実施例に開示されたトレーニングデータの生成方法によって得られたトレーニングデータを用いてディープラーニングモデルのトレーニングを行い、従来の画像のセマンティックセグメンテーション方法のサンプルデータの取得コストが高いという問題を効果的に解決する。
図5は本願の実施例にて提供されるトレーニングデータの生成方法をUnity3Dエンジンで実行する実行フローの概略図である。図5に示すように、当該実行フローは、
元の3次元立体シーンにおいて、3次元立体シーンにおけるオブジェクトに異なるTagタグを付けるという方式によってオブジェクトに対する分類及びタグ付けを完了し、Tagタグを付けると、各tag内の全てのオブジェクトをスクリプト内で取得することができるステップ501と、
3次元立体シーンに1つの一人称視点のコントローラ(First person controller)を追加するステップ502と、
元の材質モードで3次元立体シーンを実行するステップ503と、
カメラの移動軌跡を手動で制御し、カメラの移動情報(位置座標と回転角度を含む)を位置ファイルに書き込むステップ504と、
3次元立体シーンの局所的な照明状況を動的に調整するステップ505と、
複数の固定フレームの画像をシーングラフとして切り出すステップ506と、
ステップ501で設定されたTagタグに基づいて、オブジェクトのtag分類を決定するステップ507と、
3Dシーンの照明をオフにして、モノクロ材質にレンダリングするステップ508と、
ステップ504での位置ファイルを読み取り且つモノクロ材質モードで動作する時の固定フレーム画像をセマンティックセグメンテーションマップとして切り出し、このようにして、2回の実行で同じ時間に切り出す画像が完全に同じであることを保証でき、セマンティックセグメンテーションマップとシーングラフの対応性を確保し、また、このような動作時にカメラの動きを制御する方式は、カメラ経路の設定にとってはより便利で迅速であるステップ509と、
前記セマンティックセグメンテーションマップ及び対応するシーングラフを、トレーニングデータとしてセマンティックセグメンテーションのディープラーニングアルゴリズムのトレーニングプロセスに用いられる比較グラフセットとして記憶するステップ510と、を含む。
当然のことながら、より多くのセットのトレーニングデータを取得するために、ステップ509の後に、さらに3次元立体シーンに対して調整を行うことができ、照明パラメータの変更及び元の材質の置き換えの後に、シーングラフ及びセマンティックセグメンテーションマップを改めて取得することを含む。
図6は本願の実施例にて提供されるレーニングデータ生成方法を3D Maxで実行する実行フローの概略図である。図6に示すように、当該実行フローは、
元の3次元立体シーンでは、オブジェクトを分類し、各オブジェクトに対応するobjectID番号を付加するステップ601と、
仮想カメラの経路を設定するステップ602と、
レンダリング設定、ピクチャ保存経路、レンダリング範囲を設定し、レンダリング要素にVRayObjectIDを付加するステップ603と、
レンダリングし且つIDチャネルでレンダリングした後のセマンティックセグメンテーションマップ及び元の材質のシーングラフをそれぞれステップ603で設定された保存経路が指すファイルに出力するステップ604と、を含む。
3DMaxは元の材質と照明下の画像とIDチャネルのレンダリング後の画像を同時に保存することができる。そのため、ステップ604において出力されたのは相互に対応するセマンティックセグメンテーションマップ及びシーングラフである。これらの出力結果は比較グラフセットとして記憶され、トレーニングデータとして、セマンティックセグメンテーションのディープラーニングアルゴリズムのトレーニングプロセスに用いられる。
本実施例において、より多くのシーングラフを取得するために、さらにステップ604の後に、3次元立体シーンの照明パラメータ及びマテリアルプロパティを補正してもよい。
本願の実施例は上記の方法の実施例に対応するトレーニングデータの生成装置をさらに提供する。図7に示すように、当該トレーニングデータの生成装置は、分類モジュール701、シーングラフ生成モジュール702、レンダリングモジュール703、セマンティックセグメンテーションマップ生成モジュール704及び記憶モジュール705を含む。
ただし、前記分類モジュール701は3次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定することに用いられる。シーングラフ生成モジュール702は前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得することに用いられる。レンダリングモジュール703は前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングすることに用いられる。セマンティックセグメンテーションマップ生成モジュール704はレンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得することに用いられる。前記記憶モジュール705は各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを1セットのトレーニングデータとして記憶することに用いられる。
上記のトレーニングデータの生成装置によって、3次元立体シーンに基づいて大量のシーングラフ及びこれらのシーングラフに対応する、正確にタグ付けされたセマンティックセグメンテーションマップを生成することができ、それによってトレーニングデータの生成コストを効果的に低減させ、時間と労力を大幅に節約し、後続のディープラーニングアルゴリズムの画像のセマンティックセグメンテーションに対するセグメンテーション精度を保証する。
いくつかの実施例において、画像の収集は3Dモデリングソフトウェアの仮想カメラ又は類似の機能モジュールに基づいて実現されてもよい。図8に示すように、前記シーングラフ生成モジュール702は具体的に照明調整ユニット7021及び仮想カメラ制御ユニット7022を含む。
ただし、前記照明調整ユニット7021は前記3次元立体シーンにおける照明状況を動的に調整することに用いられる。前記仮想カメラ制御ユニット7022は仮想カメラによって異なる照明状況でのシーングラフを収集することに用いられる。
具体的に言えば、前記仮想カメラ制御ユニット7022は、前記仮想カメラの撮影軌跡を設定し、前記仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集することに用いられる。
他のいくつかの実施例では、前記レンダリングモジュール703は具体的には、前記3次元立体シーンの照明をオフにする時に、各シーンに対応するセマンティックセグメンテーションマップを取得することに用いられる。
具体的には、セマンティックセグメンテーションマップが正しい輪郭と遮蔽順序を有することを保証するために、前記レンダリングモジュール703は具体的には、オブジェクトモデルのシーングラフにおける奥行き順序を決定し、その後、前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングすることに用いられる。
ある特定の場合で、3次元立体シーンに透明なオブジェクトモデルが存在する。前記透明なオブジェクトモデルについて、前記レンダリングユニットは具体的には、前記透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断し、前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングし、前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除することに用いられる。
なお、上記の実施形態にて提供されるトレーニングデータの生成方法及びトレーニングデータの生成装置はいずれも同じ発明概念に基づくものである。したがって、トレーニングデータの生成方法における各具体的な実施例のステップはいずれも対応する機能モジュールによって実行することができ、機能モジュールにおける具体的な機能は前記トレーニングデータの生成方法において対応する方法のステップを有し、ここでは説明を省略する。
図9は本願の実施例にて提供される電子機器のハードウェアの概略構成図である。図9に示すように、当該機器90は、1つ以上のプロセッサ91及びメモリ92を含み、図9では1つのプロセッサを例として示す。
ただし、プロセッサ91、メモリ92はバス及び他の方法によって接続され、図9ではバスによる接続を例として示す。
メモリ92は不揮発性のコンピュータ可読記憶媒体として、たとえば、本願の実施例におけるトレーニングデータの生成方法に対応するプログラムコマンド/モジュール(たとえば、図7に示される分類モジュール701、シーングラフ生成モジュール702、レンダリングモジュール703、セマンティックセグメンテーションマップ生成モジュール704及び記憶モジュール705)のような、不揮発性のソフトウェアプログラム、不揮発性のコンピュータ実行可能なプログラム及びモジュールを記憶することに用いられる。プロセッサ91は、メモリ92に記憶される不揮発性のソフトウェアプログラム、コマンド及びモジュールを動作させることによって、トレーニングデータの生成装置の各機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例のトレーニングデータの生成方法を実現する。
メモリ92はプログラム記憶エリア及びデータ記憶エリアを含み、そのうち、プログラム記憶エリアはオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、トレーニングデータの生成装置の利用に基づいて作成されるデータ等を記憶することができる。また、メモリ92は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリも含んでもよく、たとえば、少なくとも1つのディスク記憶装置、フラッシュメモリ、又はその他の不揮発性の個体記憶装置が挙げられる。いくつかの実施例において、メモリ92はプロセッサ91に対してリモートに配置されたメモリを含むことが好ましく、これらのリモートメモリはネットワークを介してトレーニングデータの生成装置に接続される。上記のネットワークの実例は、インターネット、会社のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、それらに限られない。
前記1つ以上のモジュールはメモリ92に記憶され、前記1つ以上のプロセッサ91によって実行されると、上記のいずれかの方法の実施例におけるトレーニングデータの生成方法を実行する。
上記の製品は本願の実施例にて提供される方法を実行することができ、実行方法に対応する機能モジュール及び有益な効果を有する。本実施例において詳細に説明されない技術詳細は、本願の実施例にて提供される方法を参照することができる。
本願の実施例にて提供されるコンピュータプログラム製品は、不揮発性コンピュータ可読記憶媒体に記憶されるコンピュータプログラムを含み、前記コンピュータプログラムはプログラムコマンドを含み、前記プログラムコマンドがコンピュータに実行されると、前記コンピュータに上記の任意の方法の実施例におけるトレーニングデータの生成方法を実行させ、たとえば、上記の図2における方法のステップ201-204を実行し、図7における対応する機能モジュールの機能を実現する。
上記の装置の実施例は単なる例示的であり、分離した部材として説明された前記ユニットは物理的に分離しているものであってもよいし、そうでなくてもよく、ユニットとして表示されたユニットは物理的ユニットであってもよいし、そうでなくてもよく、即ち、1つの場所に位置してもよく、複数のネットワークユニットに分散してもよい。本実施例の解決手段の目的を達成するために、実際のニーズに基づいて、そのうち一部又はすべてのモジュールを選択してもよい。
上記の実施形態の説明を通して、当業者は、各実施形態がソフトウェアに共通のハードウェアプラットフォームを加える方式によって実現でき、もちろんハードウェアによっても実現できることを明確に理解すべきである。当業者であれば、上記の実施例の方法におけるフローの全部又は一部は、コンピュータプログラムによって関連するハードウェアを命令することで実現でき、前記プログラムはコンピュータ可読記憶媒体に記憶することができ、当該プログラムは実行時に、上記の方法の実施例のフローを含んでもよいことが理解されるべきである。ただし、前記記憶媒体は、磁気ディスク、コンパクトディスク、読み取り専用メモリ(Read-Only Memory、ROM)、又はランダムアクセスメモリ(Random Access Memory、RAM)であってもよい。
最後に、上記の実施例は、本願の技術的解決手段を説明することに用いられるものに過ぎず、それを限定するものではなく、本願の趣旨において、上記の実施例又は異なる実施例における技術的特徴は組み合わせてもよく、ステップは任意の順序に従って実現してもよく、且つ上記のように本願の異なる態様の他の多くの変形形態があるが、簡潔にするために、それらは詳細に記載されていない。上記の実施例を参照して本願について詳細に説明したが、当業者であれば、上記の実施例に記載の技術的解決手段を補正するか、又は技術的特徴の一部に対して等価置換を行ってもよく、これらの補正又は置換は、それ相応な技術的解決手段を本願の各実施例の技術的解決手段の範囲から逸脱させないことが理解されるべきである。

Claims (11)

  1. 3次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定するステップと、
    前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するステップと、
    前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするステップと、
    レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するステップと、
    各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを1セットのトレーニングデータとして記憶するステップと、を含み、
    前記3次元立体シーンの複数のシーングラフを取得する前記ステップは、
    前記3次元立体シーンにおける照明状況を動的に調整することと、
    仮想カメラによって異なる照明状況でのシーングラフを収集すること含み、
    レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得する前記ステップは、
    前記3次元立体シーンの照明をオフにする時に、レンダリング後のオブジェクトモデルに基づいて各シーンに対応するセマンティックセグメンテーションマップを取得し、前記セマンティックセグメンテーションマップを1セットのトレーニングデータにおける一意のセマンティックセグメンテーションマップとすること、を含む
    ことを特徴とするトレーニングデータの生成方法。
  2. 前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得する前記ステップは、
    仮想カメラの撮影軌跡を設定することと、
    前記仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集することと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングする前記ステップは、
    オブジェクトモデルのシーングラフにおける奥行き順序を決定することと、
    前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングすることと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングする前記ステップは、
    透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断することと、
    前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングすることと、
    前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除することと、を含むことを特徴とする請求項1に記載の方法。
  5. 3次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定する分類モジュールと、
    前記3次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するシーングラフ生成モジュールと、
    前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするレンダリングモジュールと、
    レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するセマンティックセグメンテーションマップ生成モジュールと、
    各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを1セットのトレーニングデータとして記憶する記憶モジュールと、を含み、
    前記シーングラフ生成モジュールは具体的に照明調整ユニット及び仮想カメラ制御ユニットを含み、
    前記照明調整ユニットは前記3次元立体シーンにおける照明状況を動的に調整することに用いられ、
    前記仮想カメラ制御ユニットは仮想カメラによって異なる照明状況でのシーングラフを収集することに用いられ、
    前記レンダリングモジュールは具体的には、前記3次元立体シーンの照明をオフにする時に、各シーンに対応するセマンティックセグメンテーションマップを取得することに用いられ、前記セマンティックセグメンテーションマップを1セットのトレーニングデータにおける一意のセマンティックセグメンテーションマップとすることを特徴とするトレーニングデータの生成装置。
  6. 前記シーングラフ生成モジュールは具体的には、
    仮想カメラの撮影軌跡を設定し、前記仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集することに用いられることを特徴とする請求項5に記載の装置。
  7. 前記レンダリングモジュールは具体的には、オブジェクトモデルのシーングラフにおける奥行き順序を決定し、
    前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングすることに用いられることを特徴とする請求項5に記載の装置。
  8. 前記オブジェクトモデルが透明なオブジェクトである場合、前記レンダリングモジュールは具体的には、
    前記透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断し、
    前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングし、
    前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除することに用いられることを特徴とする請求項5に記載の装置。
  9. 請求項1~4のいずれか一項に記載のトレーニングデータの生成方法によって生成されるシーングラフ及び対応するセマンティックセグメンテーションマップをトレーニングデータとして利用することを特徴とする画像のセマンティックセグメンテーション方法。
  10. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリと、を含み、
    ただし、前記メモリに前記少なくとも1つのプロセッサによって実行可能なコマンドプログラムが記憶されており、前記コマンドプログラムは、前記少なくとも1つのプロセッサに請求項1~4のいずれか一項に記載の方法を実行させるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  11. 不揮発性コンピュータ可読記憶媒体に埋め込まれるコンピュータプログラムコマンドを含み、前記コンピュータプログラムコマンドは、コンピュータに請求項1~4のいずれか一項に記載の方法を実行させるためのコマンドを含むことを特徴とするコンピュータプログラム
JP2020524660A 2017-07-25 2017-07-25 トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法 Active JP7203844B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/094312 WO2019019019A1 (zh) 2017-07-25 2017-07-25 训练数据生成方法、生成装置及其图像语义分割方法

Publications (2)

Publication Number Publication Date
JP2020526860A JP2020526860A (ja) 2020-08-31
JP7203844B2 true JP7203844B2 (ja) 2023-01-13

Family

ID=61154860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524660A Active JP7203844B2 (ja) 2017-07-25 2017-07-25 トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法

Country Status (5)

Country Link
US (1) US11281943B2 (ja)
EP (1) EP3660787A4 (ja)
JP (1) JP7203844B2 (ja)
CN (1) CN107690672B (ja)
WO (1) WO2019019019A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229479B (zh) 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US10867214B2 (en) * 2018-02-14 2020-12-15 Nvidia Corporation Generation of synthetic images for training a neural network model
CN108509855B (zh) * 2018-03-06 2021-11-23 成都睿码科技有限责任公司 一种通过增强现实生成机器学习样本图片的系统及方法
JP6719497B2 (ja) * 2018-03-12 2020-07-08 株式会社 日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
CN108509891A (zh) * 2018-03-27 2018-09-07 斑马网络技术有限公司 图像标注方法、装置、存储介质及电子设备
CN108563742B (zh) * 2018-04-12 2022-02-01 王海军 自动创建人工智能图像识别训练素材与标注文件的方法
CN108876764A (zh) * 2018-05-21 2018-11-23 北京旷视科技有限公司 渲染图像获取方法、装置、系统和存储介质
WO2019246157A1 (en) * 2018-06-18 2019-12-26 Magic Leap, Inc. Centralized rendering
CN108846897B (zh) * 2018-07-03 2022-10-14 百度在线网络技术(北京)有限公司 三维模型表面材质模拟方法、装置、存储介质及电子设备
CN109190674B (zh) * 2018-08-03 2021-07-20 百度在线网络技术(北京)有限公司 训练数据的生成方法及装置
JP7063764B2 (ja) * 2018-08-08 2022-05-09 ファナック株式会社 3次元モデル作成装置
CN109523640A (zh) * 2018-10-19 2019-03-26 深圳增强现实技术有限公司 深度学习缺陷数据集方法、系统及电子设备
CN114424916A (zh) * 2018-11-01 2022-05-03 北京石头创新科技有限公司 清洁模式选择方法,智能清洁设备,计算机存储介质
CN111143424A (zh) * 2018-11-05 2020-05-12 百度在线网络技术(北京)有限公司 特征场景数据挖掘方法、装置和终端
JP7207842B2 (ja) * 2019-04-24 2023-01-18 鹿島建設株式会社 地盤材料の粒度判定方法及びシステム
CN110189406B (zh) * 2019-05-31 2023-11-28 创新先进技术有限公司 图像数据标注方法及其装置
CN112308103B (zh) * 2019-08-02 2023-10-20 杭州海康威视数字技术股份有限公司 生成训练样本的方法和装置
CN112529022B (zh) * 2019-08-28 2024-03-01 杭州海康威视数字技术股份有限公司 一种训练样本的生成方法及装置
CN112712098A (zh) * 2019-10-25 2021-04-27 北京四维图新科技股份有限公司 图像数据处理方法及装置
CN111047693A (zh) * 2019-12-27 2020-04-21 浪潮(北京)电子信息产业有限公司 一种图像训练数据集生成方法、装置、设备及介质
CN111160529B (zh) * 2019-12-28 2023-06-20 天津大学 基于卷积神经网络的目标位姿测量中训练样本生成方法
CN111145136B (zh) * 2020-01-02 2023-08-18 国网安徽省电力有限公司超高压分公司 用于变电站表计图像数据集的合成方法、系统及存储介质
CN111259950B (zh) * 2020-01-13 2022-07-05 南京邮电大学 一种基于3d模型训练yolo神经网络的方法
CN111325212A (zh) * 2020-02-18 2020-06-23 北京奇艺世纪科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN111709431B (zh) * 2020-06-15 2023-02-10 厦门大学 即时翻译方法、装置、计算机设备和存储介质
CN111680758B (zh) * 2020-06-15 2024-03-05 杭州海康威视数字技术股份有限公司 图像训练样本生成方法和装置
CN111739159A (zh) * 2020-06-29 2020-10-02 上海商汤智能科技有限公司 三维模型生成方法、神经网络生成方法及装置
JP6932821B1 (ja) * 2020-07-03 2021-09-08 株式会社ベガコーポレーション 情報処理システム、方法及びプログラム
US11694301B2 (en) 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation
CN112581604B (zh) * 2020-12-21 2024-02-02 国网安徽省电力有限公司超高压分公司 变电站设备表面油污图像数据生成方法及装置
CN112818826A (zh) * 2021-01-28 2021-05-18 北京市商汤科技开发有限公司 目标识别方法及装置、电子设备及存储介质
CN112950760B (zh) * 2021-01-29 2023-08-11 杭州群核信息技术有限公司 一种三维合成场景数据生成系统和方法
WO2022165809A1 (zh) * 2021-02-07 2022-08-11 华为技术有限公司 一种训练深度学习模型的方法和装置
CN113808251B (zh) * 2021-08-09 2024-04-12 杭州易现先进科技有限公司 一种基于语义分割的稠密重建的方法、系统、装置和介质
CN113762422B (zh) * 2021-11-09 2022-04-05 广州思德医疗科技有限公司 一种图像训练集合成方法及系统
CN114419289B (zh) * 2021-12-29 2022-12-09 广州市玄武无线科技股份有限公司 一种基于Unity的虚拟场景货架陈列方法及系统
CN115249306B (zh) * 2022-09-13 2022-12-02 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像处理方法、装置及存储介质
CN115496818B (zh) * 2022-11-08 2023-03-10 之江实验室 一种基于动态物体分割的语义图压缩方法和装置
CN115578499B (zh) * 2022-11-29 2023-04-07 北京天图万境科技有限公司 一种非对称色彩失调一致性的拟合重建的方法及装置
CN115690592B (zh) * 2023-01-05 2023-04-25 阿里巴巴(中国)有限公司 图像处理方法和模型训练方法
CN116109753B (zh) * 2023-04-12 2023-06-23 深圳原世界科技有限公司 三维云渲染引擎装置及数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065382A (ja) 2009-09-16 2011-03-31 Konami Digital Entertainment Co Ltd 画像処理装置、画像処理装置の制御方法、及びプログラム
JP2013097473A (ja) 2011-10-28 2013-05-20 Nintendo Co Ltd ゲーム処理システム、ゲーム処理方法、ゲーム処理装置およびゲーム処理プログラム
JP2016006616A (ja) 2014-06-20 2016-01-14 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP2017037424A (ja) 2015-08-07 2017-02-16 日本放送協会 学習装置、認識装置、学習プログラム、及び認識プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574018B2 (en) * 2005-12-07 2009-08-11 Trw Automotive U.S. Llc Virtual reality scene generator for generating training images for a pattern recognition classifier
CN102308320B (zh) * 2009-02-06 2013-05-29 香港科技大学 从图像生成三维模型
US9201253B2 (en) * 2010-12-20 2015-12-01 Sharp Kabushiki Kaisha Display device
US9153031B2 (en) * 2011-06-22 2015-10-06 Microsoft Technology Licensing, Llc Modifying video regions using mobile device input
US8824797B2 (en) * 2011-10-03 2014-09-02 Xerox Corporation Graph-based segmentation integrating visible and NIR information
US8971612B2 (en) * 2011-12-15 2015-03-03 Microsoft Corporation Learning image processing tasks from scene reconstructions
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
US9030470B2 (en) * 2012-08-14 2015-05-12 Hong Kong Applied Science and Technology Research Institute Company Limited Method and system for rapid three-dimensional shape measurement
CN103268635B (zh) * 2013-05-15 2016-08-10 北京交通大学 一种几何网格场景模型的分割及语义标注方法
CN103679192B (zh) * 2013-09-30 2017-01-04 中国人民解放军理工大学 基于协方差特征的图像场景类型判别方法
CN104050722B (zh) * 2014-06-06 2016-12-07 北京航空航天大学 一种图像内容驱动的室内三维场景布局与颜色迁移生成方法
GB2532075A (en) * 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
CN104809187B (zh) * 2015-04-20 2017-11-21 南京邮电大学 一种基于rgb‑d数据的室内场景语义标注方法
JP2018515197A (ja) * 2015-04-29 2018-06-14 シーメンス アクチエンゲゼルシヤフトSiemens Aktiengesellschaft 腹腔鏡および内視鏡による2d/2.5d画像データにおけるセマンティックセグメンテーションのための方法およびシステム
US20160342861A1 (en) * 2015-05-21 2016-11-24 Mitsubishi Electric Research Laboratories, Inc. Method for Training Classifiers to Detect Objects Represented in Images of Target Environments
EP3156942A1 (en) * 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
US9836673B2 (en) * 2015-12-30 2017-12-05 International Business Machines Corporation System, method and computer program product for training a three dimensional object indentification system and identifying three dimensional objects using semantic segments
US10217195B1 (en) * 2017-04-17 2019-02-26 Amazon Technologies, Inc. Generation of semantic depth of field effect

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065382A (ja) 2009-09-16 2011-03-31 Konami Digital Entertainment Co Ltd 画像処理装置、画像処理装置の制御方法、及びプログラム
JP2013097473A (ja) 2011-10-28 2013-05-20 Nintendo Co Ltd ゲーム処理システム、ゲーム処理方法、ゲーム処理装置およびゲーム処理プログラム
JP2016006616A (ja) 2014-06-20 2016-01-14 ヤフー株式会社 学習装置、学習方法及び学習プログラム
JP2017037424A (ja) 2015-08-07 2017-02-16 日本放送協会 学習装置、認識装置、学習プログラム、及び認識プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SceneNet RGB-D: 5M Photorealistic Images of Synthetic Indoor Trajectories with Ground Truth,arXiv.org,2016年12月15日,https://arxiv.org/abs/1612.05079

Also Published As

Publication number Publication date
CN107690672A (zh) 2018-02-13
US11281943B2 (en) 2022-03-22
CN107690672B (zh) 2021-10-01
JP2020526860A (ja) 2020-08-31
US20200160114A1 (en) 2020-05-21
WO2019019019A1 (zh) 2019-01-31
EP3660787A1 (en) 2020-06-03
EP3660787A4 (en) 2021-03-03

Similar Documents

Publication Publication Date Title
JP7203844B2 (ja) トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法
US11410320B2 (en) Image processing method, apparatus, and storage medium
KR102653808B1 (ko) 3d 재구성에서 구조 특징들을 검출하고 결합하기 위한 방법들 및 시스템들
US10824910B2 (en) Image processing method, non-transitory computer readable storage medium and image processing system
CN105069827B (zh) 一种采用三维模型处理视频转场的方法
US11425283B1 (en) Blending real and virtual focus in a virtual display environment
CN108399634B (zh) 基于云端计算的rgb-d数据生成方法及装置
CN111105347B (zh) 一种生成带深度信息的全景图的方法、装置及存储介质
CN112258610A (zh) 图像标注方法、装置、存储介质及电子设备
WO2014170757A2 (en) 3d rendering for training computer vision recognition
US20140306953A1 (en) 3D Rendering for Training Computer Vision Recognition
Ma et al. Neural compositing for real-time augmented reality rendering in low-frequency lighting environments
CN114247136A (zh) 虚拟场景的制作方法及装置、电子设备、存储介质
Wei et al. Simulating shadow interactions for outdoor augmented reality with RGBD data
RU2606875C2 (ru) Способ и система отображения масштабных сцен в режиме реального времени
CN110969688A (zh) 一种实景三维模型实时匀色方法
Liu et al. Fog effect for photography using stereo vision
KR20110117487A (ko) 모션 컨트롤 카메라를 이용한 실사와 cg 합성 애니메이션 제작 방법 및 시스템
US20230252715A1 (en) Image processing method, apparatus and device and storage medium
WO2022217470A1 (en) Hair rendering system based on deep neural network
CN112689064A (zh) 视频画面处理方法和装置
JP2023540652A (ja) ソフトレイヤ化および深度認識インペインティングを用いた単画像3d写真技術
CN112991498A (zh) 一种镜头动画快速生成系统及方法
CN112106115A (zh) 估计用于增强现实的光的方法及其电子设备
CN117082225B (zh) 一种虚拟延时视频的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221227

R150 Certificate of patent or registration of utility model

Ref document number: 7203844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150