JP7203844B2

JP7203844B2 - トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法

Info

Publication number: JP7203844B2
Application number: JP2020524660A
Authority: JP
Inventors: 王▲カイ▼; 廉士国; 王洛威
Original assignee: Cloudminds Robotics Co Ltd
Current assignee: Cloudminds Robotics Co Ltd
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2023-01-13
Anticipated expiration: 2037-07-25
Also published as: CN107690672A; US11281943B2; CN107690672B; JP2020526860A; US20200160114A1; WO2019019019A1; EP3660787A1; EP3660787A4

Description

本願は画像処理の技術分野に関し、特にトレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法に関する。

マシンラーニング（特にディープラーニング）については、そのアルゴリズムの実行は大量のサンプルデータに基づく必要がある。サンプルデータの正確さと豊富さは、マシンラーニングにとって非常に重要である。

たとえば、ディープラーニングに基づく実際のシーンのセマンティックセグメンテーションには、トレーニングされたニューラルネットワークモデルがより良いセマンティックセグメンテーション結果を取得できるように、多数のトレーニングデータセットを用いてニューラルネットワークモデルをトレーニングする必要がある。

上記のトレーニングデータセットは、屋内外のシーンのピクチャと、正確なセマンティックセグメンテーションを行うことによって得られたピクチャと、を含む。ただし、モデルのトレーニング効果を確保するために、一方では、前記屋内外のシーンのピクチャには、できるだけ多くのシーン、及び異なる時間、照明、天気などの条件での各シーンのピクチャを含める必要がある。他方では、対応するセマンティックセグメンテーションマップは、オブジェクトクラスに従って正確にセグメント化する必要がある。

前記屋内外のシーンのピクチャに対応するセマンティックセグメンテーションマップを生成するには、まず、オブジェクトクラスに応じてシーンのピクチャにおけるオブジェクトを正確にセグメント化する必要がある。次に、ピクチャにおける各クラスのオブジェクトのエリアにタグを付けて、対応するセマンティックセグメンテーションマップを形成する。

先行技術を研究するプロセスでは、既存のトレーニングデータセットにおいて、シーンのピクチャの収集、及びセマンティックセグメンテーションマップのタグ付けは、通常、多くの時間と労力を必要とする完全手動の人工方式を採用し、また、特定の屋内外シーンに対して、収集できるシーンのピクチャが比較的に限られており、セマンティックセグメンテーションマップのセグメンテーション精度も確保にくいことを、出願人が見つけた。

本願の少なくとも１つの実施例は、従来技術において、完全手動の方式によるトレーニングデータセットの作成にかかる時間と労力が多く、サンプルデータが十分に豊富で正確ではないという問題を主に解決する。

上記の技術的問題を解決するために、本願の実施例の１つの技術的解決手段にて、トレーニングデータの生成方法が提供される。前記トレーニングデータの生成方法は、３次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定するステップと、前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するステップと、前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするステップと、レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するステップと、各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを１セットのトレーニングデータとして記憶するステップと、を含む。

上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、トレーニングデータの生成装置が提供される。前記トレーニングデータの生成装置は、３次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定する分類モジュールと、前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するシーングラフ生成モジュールと、前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするレンダリングモジュールと、レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するセマンティックセグメンテーションマップ生成モジュールと、各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを１セットのトレーニングデータとして記憶する記憶モジュールと、を含む。

上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、画像のセマンティックセグメンテーション方法が提供される。前記画像のセマンティックセグメンテーション方法は、上記のトレーニングデータの生成方法によって生成されるシーングラフ及び対応するセマンティックセグメンテーションマップをトレーニングデータとして使用する。

上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、電子機器が提供される。前記電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されるメモリと、を含む。ただし、前記メモリに前記少なくとも１つのプロセッサによって実行可能なコマンドプログラムが記憶されており、前記コマンドプログラムは、前記少なくとも１つのプロセッサに上記の方法を実行させるように、前記少なくとも１つのプロセッサによって実行される。

上記の技術的問題を解決するために、本願の実施例の他の技術的解決手段にて、コンピュータプログラム製品が提供される。前記コンピュータプログラム製品は、不揮発性コンピュータ可読記憶媒体及び前記不揮発性コンピュータ可読記憶媒体に埋め込まれるコンピュータプログラムコマンドを含み、前記コンピュータプログラムコマンドは、プロセッサに上記の方法を実行させるためのコマンドを含む。

本願の実施例にて提供されるトレーニングデータの生成方法及び生成装置は、３次元立体モデルのシーンに基づくトレーニングデータの作成が、３次元モデリングソフトウェアによって自動的に完成し、各パラメータを容易に調整することができる。そのため、使用要件を満たす、異なる時間を反映する大量のシーングラフ及びセマンティックセグメンテーションマップを急速に生成することができ、時間及び労力を大幅に節約する。また、３次元立体モデルを単位としてレンダリングすることで、セマンティックセグメンテーションマップのセグメンテーション精度が高くなる。

１つ又は複数の実施例は、それに対応する図面によって例示的に説明する。これらの例示的な説明は実施例を限定するものではない。図面中の同じ参照番号を有する要素は類似の要素として示されており、図面中の図は、特記しない限り、縮尺が限定されない。
本願の実施例にて提供される画像のセマンティックセグメンテーションの結果の概略図である。本願の実施例にて提供されるトレーニングデータの生成方法のフローチャートである。本願の実施例にて提供されるシーングラフの取得方法のフローチャートである。本願の他の実施例にて提供されるセマンティックセグメンテーションマップの取得方法のフローチャートである。本願の実施例にて提供されるトレーニングデータの生成方法をＵｎｉｔｙ３Ｄエンジンで実行する実行フローの概略図である。本願の実施例にて提供されるレーニングデータ生成方法を３ＤＭａｘで実行する実行フローの概略図である。本願の実施例にて提供されるレーニングデータ生成装置の機能ブロック図である。本願の実施例にて提供されるシーングラフ生成モジュールの機能ブロック図である。本願の実施例にて提供される電子機器の概略構成図である。

本願の目的、技術的解決手段及び利点をより分かりやすくするために、以下、図面及び実施例を参照しながら、本願についてさらに詳細に説明する。本明細書に記載された具体的な実施例は単なる本願を解釈するものであり、本願を限定するものではないと理解すべきである。

画像のセマンティックセグメンテーションは、画像理解の基本技術であり、自動運転システム、ドローンアプリケーション、又はさまざまな種類のスマートウェアラブルデバイスに非常に重要な役割を果たす。画像のセマンティックセグメンテーションは、実際には、画像で表現された意味に応じて画像内のピクセルをグループ化／分割し、それにタグを付けるプロセスである。たとえば、図１に示すように、画像のセマンティックセグメンテーションの後、「人」とタグ付けされたセマンティックエリア１０と「オートバイ」とタグ付けされたセマンティックエリア２０が形成される。

実際の画像では、特定のセマンティックを表す同一のオブジェクトは、通常、複数の異なる部分で構成され、各部分の色、テクスチャ、又は明るさが異なる。したがって、複雑なシーンの場合、ピクセルポイントの低次視覚情報に基づく従来のセマンティックセグメンテーションの方法は悪い効果がある。

複雑なシーンやタスクを満たすために、ディープラーニングに基づいてフレームワークとする方式により画像のセマンティックセグメンテーションを行ってもよい。ディープラーニングに基づく画像のセマンティックセグメンテーションは、従来のセグメンテーション方法と比較して、非常に顕著なセグメンテーション効果があるが、ディープラーニングにはアルゴリズムのトレーニングとラーニングのプロセスが必要である。

ディープラーニングアルゴリズムのトレーニング、ラーニングのプロセスにおいて、トレーニングデータに対する要件は非常に高く、トレーニング後のセマンティックセグメンテーションアルゴリズムに非常に高いセマンティックセグメンテーション精度を有させるためには、大量の画像データと非常に正確な画像データタグ付け情報（ピクセルレベルのタグ付け情報でも）が必要である。

コンピュータグラフィックスレンダリングテクノロジーの急速な発展に伴い、既存の仮想３Ｄシーンのレンダリング効果はますますリアルになり、仮想３Ｄシーンから派生した固定フレームピクチャはますますリアルで素晴らしいものになっている。これにより、仮想３Ｄシーンに基づいて必要なトレーニングデータを容易に生成でき、高精度のトレーニングデータの取得コストを効果的に削減し、トレーニングデータを迅速且つ効率的に取得することができる。

図２は本発明の実施例にて提供される、既存の仮想３Ｄシーンに基づいて達成されたトレーニングデータの生成方法のフローチャートである。

図２に示すように、前記方法はステップ２０１～２０５を含む。

２０１において、３次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定する。

前記３次元立体シーンとは、任意の適切なタイプの３Ｄモデリングソフトウェアによって構築された３次元立体シーンである。当該３次元立体シーンは、複数のオブジェクトモデルで構成される。たとえば、テーブル、天井、壁、ランプなどのオブジェクトモデルで構成されるリビングルームの３次元立体シーンである。

各クラスタグは、実際の３次元立体シーンに応じて具体的に設定できるオブジェクトモデルのタイプを表す。たとえば、オブジェクトモデルのインデックスに従って、デコレーション、家具、壁などの分類タグを３次元立体シーンにおけるオブジェクトモデルに設定できる。

分類タグを設定するステップは、オブジェクトモデルのコンテンツ又は意味に対する注釈プロセスであることを理解できる。３Ｄモデリングソフトウェアでは、３次元立体シーンの構築ユニット又は構築の基盤がオブジェクトモデルであるため、当該タグ付けのプロセスは非常に正確且つ実現しやすい。

２０２において、前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得する。

前記シーンパラメータは、照明、観察角度又は観察視野角など、３次元モデルの外観表現に影響するいくつかの影響因子である。つまり、前記シーングラフとは、さまざまな影響因子の下で取得された３次元立体シーンの平面ピクチャをいう。たとえば、異なる観察角度、視野角、又は異なる場合に得られる３次元立体シーンの平面ピクチャである。たとえば、３次元立体シーンの正面図、側面図又は斜視図などである。同一の３次元立体シーンに対して、複数の異なるシーングラフを取得することができる。これらのシーングラフは、異なる角度又は側面から当該３次元立体シーンを反映し、異なる環境での３次元立体シーンの表示状況を表示することができる。

具体的な取得方法は、３次元立体シーンが依存する３Ｄモデリングソフトウェアに基づいて決定される。通常、３Ｄモデリングソフトウェアは、仮想カメラを提供してシーングラフの取得を完了できる。

２０３において、前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングする。本実施例では、前記モノクロ材質は１つの色のみを有する材質であり、前記「レンダリング」とはオブジェクトモデルに対応する色を充填し、たとえば、テーブルを純青色にレンダリングし、ランプを黄色にレンダリングすることなどである。

クラスタグに基づいて、オブジェクトモデルを異なるモノクロ材質にレンダリングすると、オブジェクトモデルを３次元立体モデルにおいて対応する色で表現することができ、異なる色は異なるグループ又はセマンティックエリアに属することを示す（即ち図１に示される画像のセマンティックセグメンテーション結果を形成する）。前記モノクロ材質は具体的には任意の適切な単一の色又はパターン構造であってもよく、たとえば簡単な青色、赤色又は黄色等である。モノクロ材質とは、オブジェクトモデルの表面の色又はパターンである。当然、モノクロ材質にレンダリングした後、オブジェクトモデルは依然として元の外形輪郭を保持する。

具体的には、レンダリングプロセスでは、最終的に取得するセマンティックセグメンテーションマップは通常の視覚習慣に合致することを確保するように、シーングラフ内の各オブジェクトモデル間の相互の遮蔽状況を考慮する必要がある。したがって、まずオブジェクトモデルのシーングラフ内での奥行き順序を決定する必要がある。その後、前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングする。

このようにして、オブジェクトモデル間で正しい遮蔽順序が維持され、後にあるオブジェクトモデルが前のオブジェクトモデルを遮蔽してしまい、トレーニングデータにエラーが発生することはない。

２０４において、レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得する。

上記のように、画像のセマンティックセグメンテーションのアルゴリズムのトレーニングプロセスにおいて、シーングラフ以外に、シーングラフの各部分が正確にタグ付けされたピクチャも必要である。ここで、「セマンティックセグメンテーションマップ」という用語を用いて、シーングラフのピクセルポイントにタグを正確に付けて得られたピクチャを表す。上記のレンダリングプロセスは、３Ｄモデリングソフトウェアにおいて行われる。したがって、理論上、最終的に取得するセマンティックセグメンテーションマップのタグ付け精度はピクセルレベルを達することができる。

２０５において、各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを１セットのトレーニングデータとして記憶する。

画像のセマンティックセグメンテーションアルゴリズムのトレーニングについて、入力データ（即ちシーングラフ）及び対応するセマンティックセグメンテーション出力結果（即ちセマンティックセグメンテーションマップ）を提供すべきである。これによって、本実施例では、対応するシーングラフとセマンティックセグメンテーションマップを１セットのトレーニングデータとして、ディープラーニングアルゴリズムに提供してトレーニングを行うことができる。

上記のトレーニングデータの生成方法によって、大量のトレーニングデータのピクチャセットを迅速且つ効率的に生成できる。さらに、これらのトレーニングデータのピクチャセットは非常に高いタグ付け精度を持っている。

なお、上記の３次元立体シーンに基づいて、実際のニーズに従って複数のセットのトレーニングデータを迅速に生成できる。各セットのトレーニングデータについて、１つのセマンティックセグメンテーションマップは、複数の異なるシーングラフに対応することもあり、たとえば、異なる照明状態でのシーングラフは同一のセマンティックセグメンテーションマップに対応する。

いくつかの実施例では、図３に示すように、具体的にはステップ３０１とステップ３０２によって異なる照明状態でのシーングラフを取得することができる。

３０１において、前記３次元立体シーンにおける照明状況を動的に調整する。

３Ｄモデリングソフトウェアにおいて、３次元立体シーンに照明を調整し、それに対応する影又は輝度を有させることは非常に一般的な機能である。

３次元立体シーンのグローバル照明を調整することによって、３次元立体モデルが異なる時間又は天候等の異なる実際の状況における実際のシーンを模擬することができる。当然のことながら、いくつかの可能な状況で、３次元立体モデルの局所的な照明を調整して、シーンにおける特定のライト効果を模擬することができ、たとえばリビングに対応する３次元立体シーンにおける、吊りランプを起動する時のシーングラフが挙げられる。

３０２において、仮想カメラによって異なる照明状況でのシーングラフを収集する。

前記仮想カメラは３Ｄモデリングソフトウェアにおける３次元立体モデルの平面ピクチャを収集するための機能モジュールである。それは異なる角度、焦点距離又は画角で、カメラで撮影する方式によって３次元立体モデルを撮影することができる。

３次元立体シーンの照明状況の変化に伴い、仮想カメラを用いて複数の異なる角度で３次元立体シーンを撮影し、複数の異なる状況を含むシーングラフを取得することができる。明らかに、シーングラフの数及び含まれる具体的な状況が多いほど、トレーニングデータのデータ品質が高くなり、ディープラーニングアルゴリズムに対するトレーニング効果が向上する。

本実施例において、照明を変更する以外に、オブジェクトモデルの表面テクスチャ変化又は仮想カメラの移動経路及び角度変化等を組み合わせ、複数の異なるシーングラフを取得し、３次元立体モデルの異なる状況を示すことができる。

具体的には、３Ｄモデリングソフトウェアにおいて仮想カメラの撮影軌跡を設定することによってカメラの移動経路及び角度変化のいくつかのシーングラフを反映することができる。仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集する。

上記の方法の実施例において開示したとおり、異なる照明状況又はテクスチャ変化のシーングラフを可能な限り取得する必要があることと異なるのは、１セットのトレーニングデータにおいて、１つの明確なセマンティックセグメンテーションマップだけを有すべきである。即ちセマンティックセグメンテーション後の理想的な結果は一意に決定されるべきである。そのため、いくつかの実施例において、前記セマンティックセグメンテーションマップの取得方法は、
前記３次元立体シーンの照明をオフにする時に、レンダリング後のオブジェクトモデルに基づいて各シーンに対応するセマンティックセグメンテーションマップを取得するステップを含むべきである。

上記のように、セマンティックセグメンテーションマップの一意性を確保するために、３Ｄモデリングソフトウェアにおいて３次元立体シーンの照明をオフにする必要があり、それにより、オブジェクトモデルの表面が照明の影響を受け、異なるテクスチャ又は輝度が現れ、セマンティックセグメンテーションマップの精度を低下させることを回避する。

３次元立体シーンの照明をオフにした場合、同じ角度及び位置でシーングラフに対応するセマンティックセグメンテーションマップを取得する。前記対応するセマンティックセグメンテーションマップは具体的には仮想カメラが同じ角度と位置で取得した３次元立体シーンのセマンティックセグメンテーションマップとシーングラフである。セマンティックセグメンテーションマップはオブジェクトモデルをモノクロでレンダリングし、照明をオフにした後に取得される。

いくつかの場合で、前記３次元立体モデルはさらに属性が透明である透明なオブジェクトモデルを含む可能性があり、たとえばガラス窓又はガラスドアが挙げられる。それに応じて、レンダリングプロセスにおいて、正確なセマンティックセグメンテーションマップを提供するように、実際の状況に応じてこれらの透明なオブジェクトモデルに対して異なる処理を行う必要がある。

図４に示すように、前記透明なオブジェクトモデルに対してモノクロレンダリングを行う場合、前記方法は、ステップ４０１～４０３を含む。

４０１において、透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断する。そうであれば、ステップ４０２を実行し、そうでなければ、ステップ４０３を実行する。

４０２において、前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングする。

遮蔽効果を持っている場合、通常の視覚状態では、後のオブジェクトモデルが透明なオブジェクトモデルに遮蔽される。そのため、対応するモノクロレンダリングを行い、対応する輪郭を有するセマンティックセグメンテーションマップを形成する必要がある。

４０３において、前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除する。

透明なオブジェクトが遮蔽効果を持っていない場合、セマンティックセグメンテーションマップにおいて意味を有するエリアとしてタグ付けされないことを示す。そのため、セマンティックセグメンテーションマップにおいて当該透明なオブジェクトモデルを直接削除し又は透明なオブジェクトモデルを透明状態に維持することにより、後のオブジェクトモデルの透視関係に影響を及ぼすことを回避することができる。

本願の実施例にて提供されるトレーニングデータの生成方法は従来の任意の適切な３Ｄモデリングソフトウェアで実行することができ、たとえばＵｎｉｔｙ３Ｄエンジン、３ＤＭａｘ、ＯｐｅｎＧＬ、ＤｉｒｅｃｔＸ又はＵｎｒｅａｌなどが挙げられる。３次元立体シーンによって十分な数のトレーニングデータを取得した後、本願の実施例は画像のセマンティックセグメンテーション方法をさらに提供する。前記画像のセマンティックセグメンテーション方法において、上記の方法の実施例に開示されたトレーニングデータの生成方法によって得られたトレーニングデータを用いてディープラーニングモデルのトレーニングを行い、従来の画像のセマンティックセグメンテーション方法のサンプルデータの取得コストが高いという問題を効果的に解決する。

図５は本願の実施例にて提供されるトレーニングデータの生成方法をＵｎｉｔｙ３Ｄエンジンで実行する実行フローの概略図である。図５に示すように、当該実行フローは、
元の３次元立体シーンにおいて、３次元立体シーンにおけるオブジェクトに異なるＴａｇタグを付けるという方式によってオブジェクトに対する分類及びタグ付けを完了し、Ｔａｇタグを付けると、各ｔａｇ内の全てのオブジェクトをスクリプト内で取得することができるステップ５０１と、
３次元立体シーンに１つの一人称視点のコントローラ（Ｆｉｒｓｔｐｅｒｓｏｎｃｏｎｔｒｏｌｌｅｒ）を追加するステップ５０２と、
元の材質モードで３次元立体シーンを実行するステップ５０３と、
カメラの移動軌跡を手動で制御し、カメラの移動情報（位置座標と回転角度を含む）を位置ファイルに書き込むステップ５０４と、
３次元立体シーンの局所的な照明状況を動的に調整するステップ５０５と、
複数の固定フレームの画像をシーングラフとして切り出すステップ５０６と、
ステップ５０１で設定されたＴａｇタグに基づいて、オブジェクトのｔａｇ分類を決定するステップ５０７と、
３Ｄシーンの照明をオフにして、モノクロ材質にレンダリングするステップ５０８と、
ステップ５０４での位置ファイルを読み取り且つモノクロ材質モードで動作する時の固定フレーム画像をセマンティックセグメンテーションマップとして切り出し、このようにして、２回の実行で同じ時間に切り出す画像が完全に同じであることを保証でき、セマンティックセグメンテーションマップとシーングラフの対応性を確保し、また、このような動作時にカメラの動きを制御する方式は、カメラ経路の設定にとってはより便利で迅速であるステップ５０９と、
前記セマンティックセグメンテーションマップ及び対応するシーングラフを、トレーニングデータとしてセマンティックセグメンテーションのディープラーニングアルゴリズムのトレーニングプロセスに用いられる比較グラフセットとして記憶するステップ５１０と、を含む。

当然のことながら、より多くのセットのトレーニングデータを取得するために、ステップ５０９の後に、さらに３次元立体シーンに対して調整を行うことができ、照明パラメータの変更及び元の材質の置き換えの後に、シーングラフ及びセマンティックセグメンテーションマップを改めて取得することを含む。

図６は本願の実施例にて提供されるレーニングデータ生成方法を３ＤＭａｘで実行する実行フローの概略図である。図６に示すように、当該実行フローは、
元の３次元立体シーンでは、オブジェクトを分類し、各オブジェクトに対応するｏｂｊｅｃｔＩＤ番号を付加するステップ６０１と、
仮想カメラの経路を設定するステップ６０２と、
レンダリング設定、ピクチャ保存経路、レンダリング範囲を設定し、レンダリング要素にＶＲａｙＯｂｊｅｃｔＩＤを付加するステップ６０３と、
レンダリングし且つＩＤチャネルでレンダリングした後のセマンティックセグメンテーションマップ及び元の材質のシーングラフをそれぞれステップ６０３で設定された保存経路が指すファイルに出力するステップ６０４と、を含む。

３ＤＭａｘは元の材質と照明下の画像とＩＤチャネルのレンダリング後の画像を同時に保存することができる。そのため、ステップ６０４において出力されたのは相互に対応するセマンティックセグメンテーションマップ及びシーングラフである。これらの出力結果は比較グラフセットとして記憶され、トレーニングデータとして、セマンティックセグメンテーションのディープラーニングアルゴリズムのトレーニングプロセスに用いられる。

本実施例において、より多くのシーングラフを取得するために、さらにステップ６０４の後に、３次元立体シーンの照明パラメータ及びマテリアルプロパティを補正してもよい。

本願の実施例は上記の方法の実施例に対応するトレーニングデータの生成装置をさらに提供する。図７に示すように、当該トレーニングデータの生成装置は、分類モジュール７０１、シーングラフ生成モジュール７０２、レンダリングモジュール７０３、セマンティックセグメンテーションマップ生成モジュール７０４及び記憶モジュール７０５を含む。

ただし、前記分類モジュール７０１は３次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定することに用いられる。シーングラフ生成モジュール７０２は前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得することに用いられる。レンダリングモジュール７０３は前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングすることに用いられる。セマンティックセグメンテーションマップ生成モジュール７０４はレンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得することに用いられる。前記記憶モジュール７０５は各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを１セットのトレーニングデータとして記憶することに用いられる。

上記のトレーニングデータの生成装置によって、３次元立体シーンに基づいて大量のシーングラフ及びこれらのシーングラフに対応する、正確にタグ付けされたセマンティックセグメンテーションマップを生成することができ、それによってトレーニングデータの生成コストを効果的に低減させ、時間と労力を大幅に節約し、後続のディープラーニングアルゴリズムの画像のセマンティックセグメンテーションに対するセグメンテーション精度を保証する。

いくつかの実施例において、画像の収集は３Ｄモデリングソフトウェアの仮想カメラ又は類似の機能モジュールに基づいて実現されてもよい。図８に示すように、前記シーングラフ生成モジュール７０２は具体的に照明調整ユニット７０２１及び仮想カメラ制御ユニット７０２２を含む。

ただし、前記照明調整ユニット７０２１は前記３次元立体シーンにおける照明状況を動的に調整することに用いられる。前記仮想カメラ制御ユニット７０２２は仮想カメラによって異なる照明状況でのシーングラフを収集することに用いられる。

具体的に言えば、前記仮想カメラ制御ユニット７０２２は、前記仮想カメラの撮影軌跡を設定し、前記仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集することに用いられる。

他のいくつかの実施例では、前記レンダリングモジュール７０３は具体的には、前記３次元立体シーンの照明をオフにする時に、各シーンに対応するセマンティックセグメンテーションマップを取得することに用いられる。

具体的には、セマンティックセグメンテーションマップが正しい輪郭と遮蔽順序を有することを保証するために、前記レンダリングモジュール７０３は具体的には、オブジェクトモデルのシーングラフにおける奥行き順序を決定し、その後、前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングすることに用いられる。

ある特定の場合で、３次元立体シーンに透明なオブジェクトモデルが存在する。前記透明なオブジェクトモデルについて、前記レンダリングユニットは具体的には、前記透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断し、前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングし、前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除することに用いられる。

なお、上記の実施形態にて提供されるトレーニングデータの生成方法及びトレーニングデータの生成装置はいずれも同じ発明概念に基づくものである。したがって、トレーニングデータの生成方法における各具体的な実施例のステップはいずれも対応する機能モジュールによって実行することができ、機能モジュールにおける具体的な機能は前記トレーニングデータの生成方法において対応する方法のステップを有し、ここでは説明を省略する。

図９は本願の実施例にて提供される電子機器のハードウェアの概略構成図である。図９に示すように、当該機器９０は、１つ以上のプロセッサ９１及びメモリ９２を含み、図９では１つのプロセッサを例として示す。

ただし、プロセッサ９１、メモリ９２はバス及び他の方法によって接続され、図９ではバスによる接続を例として示す。

メモリ９２は不揮発性のコンピュータ可読記憶媒体として、たとえば、本願の実施例におけるトレーニングデータの生成方法に対応するプログラムコマンド／モジュール（たとえば、図７に示される分類モジュール７０１、シーングラフ生成モジュール７０２、レンダリングモジュール７０３、セマンティックセグメンテーションマップ生成モジュール７０４及び記憶モジュール７０５）のような、不揮発性のソフトウェアプログラム、不揮発性のコンピュータ実行可能なプログラム及びモジュールを記憶することに用いられる。プロセッサ９１は、メモリ９２に記憶される不揮発性のソフトウェアプログラム、コマンド及びモジュールを動作させることによって、トレーニングデータの生成装置の各機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例のトレーニングデータの生成方法を実現する。

メモリ９２はプログラム記憶エリア及びデータ記憶エリアを含み、そのうち、プログラム記憶エリアはオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、トレーニングデータの生成装置の利用に基づいて作成されるデータ等を記憶することができる。また、メモリ９２は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリも含んでもよく、たとえば、少なくとも１つのディスク記憶装置、フラッシュメモリ、又はその他の不揮発性の個体記憶装置が挙げられる。いくつかの実施例において、メモリ９２はプロセッサ９１に対してリモートに配置されたメモリを含むことが好ましく、これらのリモートメモリはネットワークを介してトレーニングデータの生成装置に接続される。上記のネットワークの実例は、インターネット、会社のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、それらに限られない。

前記１つ以上のモジュールはメモリ９２に記憶され、前記１つ以上のプロセッサ９１によって実行されると、上記のいずれかの方法の実施例におけるトレーニングデータの生成方法を実行する。

上記の製品は本願の実施例にて提供される方法を実行することができ、実行方法に対応する機能モジュール及び有益な効果を有する。本実施例において詳細に説明されない技術詳細は、本願の実施例にて提供される方法を参照することができる。

本願の実施例にて提供されるコンピュータプログラム製品は、不揮発性コンピュータ可読記憶媒体に記憶されるコンピュータプログラムを含み、前記コンピュータプログラムはプログラムコマンドを含み、前記プログラムコマンドがコンピュータに実行されると、前記コンピュータに上記の任意の方法の実施例におけるトレーニングデータの生成方法を実行させ、たとえば、上記の図２における方法のステップ２０１－２０４を実行し、図７における対応する機能モジュールの機能を実現する。

上記の装置の実施例は単なる例示的であり、分離した部材として説明された前記ユニットは物理的に分離しているものであってもよいし、そうでなくてもよく、ユニットとして表示されたユニットは物理的ユニットであってもよいし、そうでなくてもよく、即ち、１つの場所に位置してもよく、複数のネットワークユニットに分散してもよい。本実施例の解決手段の目的を達成するために、実際のニーズに基づいて、そのうち一部又はすべてのモジュールを選択してもよい。

上記の実施形態の説明を通して、当業者は、各実施形態がソフトウェアに共通のハードウェアプラットフォームを加える方式によって実現でき、もちろんハードウェアによっても実現できることを明確に理解すべきである。当業者であれば、上記の実施例の方法におけるフローの全部又は一部は、コンピュータプログラムによって関連するハードウェアを命令することで実現でき、前記プログラムはコンピュータ可読記憶媒体に記憶することができ、当該プログラムは実行時に、上記の方法の実施例のフローを含んでもよいことが理解されるべきである。ただし、前記記憶媒体は、磁気ディスク、コンパクトディスク、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、又はランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）であってもよい。

最後に、上記の実施例は、本願の技術的解決手段を説明することに用いられるものに過ぎず、それを限定するものではなく、本願の趣旨において、上記の実施例又は異なる実施例における技術的特徴は組み合わせてもよく、ステップは任意の順序に従って実現してもよく、且つ上記のように本願の異なる態様の他の多くの変形形態があるが、簡潔にするために、それらは詳細に記載されていない。上記の実施例を参照して本願について詳細に説明したが、当業者であれば、上記の実施例に記載の技術的解決手段を補正するか、又は技術的特徴の一部に対して等価置換を行ってもよく、これらの補正又は置換は、それ相応な技術的解決手段を本願の各実施例の技術的解決手段の範囲から逸脱させないことが理解されるべきである。

Claims

３次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定するステップと、
前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するステップと、
前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするステップと、
レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するステップと、
各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを１セットのトレーニングデータとして記憶するステップと、を含み、
前記３次元立体シーンの複数のシーングラフを取得する前記ステップは、
前記３次元立体シーンにおける照明状況を動的に調整することと、
仮想カメラによって異なる照明状況でのシーングラフを収集すること含み、
レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得する前記ステップは、
前記３次元立体シーンの照明をオフにする時に、レンダリング後のオブジェクトモデルに基づいて各シーンに対応するセマンティックセグメンテーションマップを取得し、前記セマンティックセグメンテーションマップを１セットのトレーニングデータにおける一意のセマンティックセグメンテーションマップとすること、を含む
ことを特徴とするトレーニングデータの生成方法。
前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得する前記ステップは、
仮想カメラの撮影軌跡を設定することと、
前記仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集することと、を含むことを特徴とする請求項１に記載の方法。
前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングする前記ステップは、
オブジェクトモデルのシーングラフにおける奥行き順序を決定することと、
前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングすることと、を含むことを特徴とする請求項１に記載の方法。
前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングする前記ステップは、
透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断することと、
前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングすることと、
前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除することと、を含むことを特徴とする請求項１に記載の方法。
３次元立体シーンにおけるオブジェクトモデルに対応するクラスタグを設定する分類モジュールと、
前記３次元立体シーンのシーンパラメータを変更することによって、対応する複数のシーングラフを取得するシーングラフ生成モジュールと、
前記オブジェクトモデルをオブジェクトモデルのクラスタグに対応するモノクロ材質にレンダリングするレンダリングモジュールと、
レンダリング後のオブジェクトモデルに基づいて各シーングラフに対応するセマンティックセグメンテーションマップを取得するセマンティックセグメンテーションマップ生成モジュールと、
各シーングラフ及びシーングラフに対応するセマンティックセグメンテーションマップを１セットのトレーニングデータとして記憶する記憶モジュールと、を含み、
前記シーングラフ生成モジュールは具体的に照明調整ユニット及び仮想カメラ制御ユニットを含み、
前記照明調整ユニットは前記３次元立体シーンにおける照明状況を動的に調整することに用いられ、
前記仮想カメラ制御ユニットは仮想カメラによって異なる照明状況でのシーングラフを収集することに用いられ、
前記レンダリングモジュールは具体的には、前記３次元立体シーンの照明をオフにする時に、各シーンに対応するセマンティックセグメンテーションマップを取得することに用いられ、前記セマンティックセグメンテーションマップを１セットのトレーニングデータにおける一意のセマンティックセグメンテーションマップとすることを特徴とするトレーニングデータの生成装置。
前記シーングラフ生成モジュールは具体的には、
仮想カメラの撮影軌跡を設定し、前記仮想カメラが前記撮影軌跡に沿って動作する時、異なる観察視野角に位置するシーングラフを収集することに用いられることを特徴とする請求項５に記載の装置。
前記レンダリングモジュールは具体的には、オブジェクトモデルのシーングラフにおける奥行き順序を決定し、
前記奥行き順序に従って、前記オブジェクトモデルをオブジェクトモデルの分類タグに対応するモノクロ材質に順次レンダリングすることに用いられることを特徴とする請求項５に記載の装置。
前記オブジェクトモデルが透明なオブジェクトである場合、前記レンダリングモジュールは具体的には、
前記透明なオブジェクトモデルが後のオブジェクトモデルに対して遮蔽効果を持っているか否かを判断し、
前記透明なオブジェクトモデルが遮蔽効果を持っている場合、前記透明なオブジェクトモデルにタグを付けて分類し且つ対応するモノクロ材質にレンダリングし、
前記透明なオブジェクトモデルが遮蔽効果を持っていない場合、前記セマンティックセグメンテーションマップにおいて前記透明なオブジェクトモデルの透明な状態を維持し又は前記透明なオブジェクトモデルを削除することに用いられることを特徴とする請求項５に記載の装置。
請求項１～４のいずれか一項に記載のトレーニングデータの生成方法によって生成されるシーングラフ及び対応するセマンティックセグメンテーションマップをトレーニングデータとして利用することを特徴とする画像のセマンティックセグメンテーション方法。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を含み、
ただし、前記メモリに前記少なくとも１つのプロセッサによって実行可能なコマンドプログラムが記憶されており、前記コマンドプログラムは、前記少なくとも１つのプロセッサに請求項１～４のいずれか一項に記載の方法を実行させるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
不揮発性コンピュータ可読記憶媒体に埋め込まれるコンピュータプログラムコマンドを含み、前記コンピュータプログラムコマンドは、コンピュータに請求項１～４のいずれか一項に記載の方法を実行させるためのコマンドを含むことを特徴とするコンピュータプログラム。