JP7347492B2

JP7347492B2 - 画像処理方法及びコンピューティングデバイス

Info

Publication number: JP7347492B2
Application number: JP2021211199A
Authority: JP
Inventors: ヤンリー; ニージャン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-12-25
Filing date: 2021-12-24
Publication date: 2023-09-20
Anticipated expiration: 2041-12-24
Also published as: US20220207866A1; CN114693694A; JP2022103149A

Description

本開示の実施形態は画像処理分野に関し、より具体的には、画像処理のための方法、デバイス及びコンピュータ可読記憶媒体に関する。

画像のセマンティックセグメンテーションは、画像処理及びコンピュータビジョンの分野で重要な技術であり、画像理解の基礎となるものである。画像のセマンティックセグメンテーションとは、画像内の各画素を分類し、各画素のセマンティッククラス（例えば、背景、人物又は車両に属するか等）を決定し、その結果、異なるセマンティッククラスに応じて画像領域を分割するものである。

一般的に、画像のセマンティックセグメンテーションを実施するために、トレーニングデータセットに基づいて画像セマンティックセグメンテーションモデル（例えば、ディープニューラルネットワーク）に学習させることができる。トレーニングデータセットの１つのトレーニングサンプルは、トレーニング画像と、そのトレーニング画像にアノテーションされたセマンティックセグメンテーションラベルとを含むことができる。場合によっては、トレーニング画像にアノテーションされたセマンティックセグメンテーションラベルが不正確なものである可能性があり、これは「ノイズラベル」とも称される。ノイズラベルを含むトレーニングサンプルを用いて画像セマンティックセグメンテーションモデルに学習させると、学習させた画像セマンティックセグメンテーションモデルが、正確なセマンティックセグメンテーション結果を出せない事態を招く。

本開示の実施形態では、画像処理のための解決手段が提供される。

本開示の第１の態様では、画像処理方法が提供される。当該方法は、第１画像及び少なくとも１つの第２画像を取得することと、少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果に基づいて、第１画像の第１セマンティックセグメンテーションラベルを生成することとを含む。少なくとも１つの第２画像における各画像は、第１画像の変換画像である。

本開示の第２の態様では、コンピューティングデバイスが提供される。当該コンピューティングデバイスは少なくとも１つのプロセッサを備える。前記少なくとも１つのプロセッサは、第１画像及び少なくとも１つの第２画像を取得し、少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果に基づいて、第１画像の第１セマンティックセグメンテーションラベルを生成するように配置される。少なくとも１つの第２画像における各画像は、第１画像の変換画像である。

本開示の第３の態様では、コンピュータ可読記憶媒体が提供される。当該コンピュータ可読記憶媒体には、マシンが実行可能な命令が記憶されており、当該マシンが実行可能な命令は、デバイスにより実行される場合に、当該デバイスに、本開示の第１の態様に記載の方法の任意のステップを実行させる。

本開示の第４の態様では、コンピュータプログラム製品が提供される。当該コンピュータプログラム製品は、コンピュータ可読記憶媒体に有形記憶されてマシンが実行可能な命令を含む。当該マシンが実行可能な命令は、デバイスによって実行される場合に、当該デバイスに、本開示の第１の態様に記載の方法の任意のステップを実行させる。

発明の概要部分は、一連の概念を簡略化して紹介するためのものである。これらについては、以下の実施形態においてさらに説明を行う。発明の概要部分の記述は、本開示の重要又は必要な特徴を標記することを意図したものではなく、本開示の範囲を限定することも意図していない。本開示のその他の特徴は、以下の説明により容易に理解できるはずである。

本発明の目的、利点、及びその他の特徴は、以下の開示内容及び請求項から、より明らかになるはずである。ここでは、あくまで例示を目的として、図面を参照して好ましい実施形態の非限定的な説明を行う。

本開示の実施形態にかかる画像処理システムの模式的なブロック図を示す。

本開示の実施形態にかかる画像処理の模式図を示す。

本開示の実施形態にかかる、画像処理に用いられる例示的方法のフローチャートを示す。

本開示の実施形態にかかる例示的モデル学習方法のフローチャートを示す。

本開示の実施形態を実施可能な例示的なコンピューティングデバイスの模式的なブロック図を示す。

各図において、同一又は対応する図面符号は、同一又は対応する部分を示す。

以下、図面を参照しつつ、本開示の実施形態についてより詳細に説明する。図には本開示のいくつかの実施形態が示されているが、本開示は様々な形式で実現することが可能であり、ここに記載された実施形態に限定されると解釈すべきではなく、むしろ、これら実施形態は本開示を、より徹底的且つ完全に理解するために提供されるものである、と理解されなければならない。また、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するためのものではない点も、理解されなければならない。

本開示の実施形態の説明において、「含む」及び類似の用語は開放的なもの、すなわち「…を含むが、これらに限定されない」と理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に基づく」と理解されるべきである。用語「１つの実施形態」又は「当該実施形態」は、「少なくとも１つの実施形態」と理解されるべきである。用語「第１」、「第２」等は、異なるか又は同一の対象を示すことができる。以下の文中ではさらに、その他の明確な定義及び暗黙の定義が含まれる可能性がある。

文中で用いられる「回路」という用語は、ハードウェア回路、及び／又は、ハードウェア回路とソフトウェアとの組合せを指すことができる。例えば、当該回路は、アナログ及び／又はデジタルのハードウェア回路とソフトウェア／ファームウェアとの組合せであってもよい。別の例として回路は、ソフトウェアを備えるハードウェアプロセッサ（デジタル信号処理器を含む）、ソフトウェア、及びメモリの任意の部分であってもよい。それらは、デバイスに様々な機能を実行させるために協働する。さらに別の例で回路は、マイクロプロセッサ又はマイクロプロセッサの一部等のハードウェア回路及び／又はプロセッサであってもよく、操作のためにソフトウェア／ファームウェアを必要とするが、動作にソフトウェアが必要とされない場合には当該ソフトウェアはなくてもよい。文中で用いられる「回路」という用語には、ハードウェア回路又はプロセッサのみの実装、又は、ハードウェア回路又はプロセッサの一部にそれ（又はそれら）に付随するソフトウェア及び／又はファームウェアを加えた実装も含まれる。

上述したように、画像のセマンティックセグメンテーションを実施するためには、通常、トレーニングデータセットに基づいて画像セマンティックセグメンテーションモデル（例えば、ディープニューラルネットワーク）に学習させる。トレーニングデータセットの１つのトレーニングサンプルは、トレーニング画像と、当該トレーニング画像にアノテーションされたセマンティックセグメンテーションラベルとを含むことができる。トレーニング画像のセマンティックセグメンテーションラベルは、手動でアノテーションすることができる。アノテーターの経験が不足しているか、又は画像自体のアノテーションの難易度が高い場合、アノテーションされたセマンティックセグメンテーションラベルが不正確になる可能性がある。場合によっては、トレーニング画像のセマンティックセグメンテーションラベルを、何らかのデバイスを使って一括してラベル付けすることによって、手作業によるラベル付けのコストを削減することができる。こうした場合、トレーニング画像のセマンティックセグメンテーションラベルが不正確なこともある。このような不正確なセマンティックセグメンテーションラベルは「ノイズラベル」とも称される。ノイズラベルを含むトレーニングサンプルを用いて画像セマンティックセグメンテーションモデルに学習させると、学習させた画像セマンティックセグメンテーションモデルが、正確なセマンティックセグメンテーション結果を出せない事態を招く。

上述の問題及び／又は他の潜在的問題を解決するために、本開示の実施形態は、画像処理に用いられる解決手段を提供する。

いくつかの実施形態では、第１画像及び少なくとも１つの第２画像を取得することができる。少なくとも１つの第２画像における各画像は、第１画像の変換画像である。そして、少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果に基づいて、第１画像の第１セマンティックセグメンテーションラベルを生成する。第１画像と第１セマンティックセグメンテーションラベルをトレーニングデータとし、画像セマンティックセグメンテーションモデルに学習させることで、学習させた画像セマンティックセグメンテーションモデルの精度向上に寄与する。

追加で又は選択的に、別のいくつかの他の実施形態では、複数の画像と、複数の画像の第１セマンティックセグメンテーションラベルセットとが取得されてもよい。さらに、複数の画像に対応する複数の画像マスクが取得されてもよい。各画像マスクは、複数の画像における対応する画像における対象領域（例えば、ノイズの少ない領域）を選択するために用いられる。そして、複数の画像マスクと第１セマンティックセグメンテーションラベルセットに基づいて、複数の画像の第２セマンティックセグメンテーションラベルセットを生成し、複数の画像と第２セマンティックセグメンテーションラベルセットに基づいて、混合画像と当該混合画像のセマンティックセグメンテーションラベルを生成する。生成された混合画像とそのセマンティックセグメンテーションラベルをトレーニングデータとし、画像セマンティックセグメンテーションモデルに学習させることで、ノイズラベルがモデルの学習に与える影響をさらに軽減するのに寄与し、その結果、学習させた画像セマンティックセグメンテーションモデルの精度が向上する。

以下、図面と結びつけて本開示の実施形態について詳細に説明する。本開示の実施形態では、「モデル」という用語は、入力を処理し、対応する出力を提供することができる。ニューラルネットワークモデルを例とすると、通常は入力層、出力層、及び入力層と出力層との間にある１つ又は複数の隠れ層を含む。深層学習のアプリケーションで使用されるモデル（「深層学習モデル」とも呼ばれる）は通常、隠れ層を多く含むことで、ネットワークの深さを拡張する。ニューラルネットワークモデルの各層は、前の層の出力が次の層の入力として使用されるように順次接続されており、入力層はニューラルネットワークモデルへの入力を受け取り、出力層の出力はニューラルネットワークモデルの最終出力となる。ニューラルネットワークモデルの各層は、１つ又は複数のノード（処理ノード又はニューロンとも称される）を含み、各ノードは前の層からの入力を処理する。文中では、「ニューラルネットワーク」、「モデル」、「ネットワーク」、及び「ニューラルネットワークモデル」という用語を互換的に使用することができる。

図１は、本開示の実施形態にかかる画像処理システム１００の模式的なブロック図を示す。図１に示すように、システム１００は、画像収集装置１１０、画像アノテーション装置１２０、画像処理装置１３０、モデル学習装置１４０、及びモデル適用装置１５０を備えることができる。いくつかの実施形態では、上述の複数の装置はそれぞれ、異なる物理デバイスに実装されることができる。選択的に、上述の複数のデバイスのうち少なくとも一部は、同じ物理的デバイスに実装されてもよい。図１に示すシステム１００は、本開示の実施形態を実施可能な１つの例示に過ぎず、本開示の範囲を限定することを意図していないことを理解されたい。本開示の実施形態は、他のシステム又はアーキテクチャにも同様に適用される。

画像収集装置１１０は、モデルに学習させるための画像コレクション１０１を収集することができる。画像コレクション１０１における画像は、任意のフォーマットの画像であってもよいことを理解されたい。さらに、画像収集装置１１０は、既知の又は将来開発される任意の方法を使用して画像コレクション１０１を収集することができる。本開示の範囲はこの点において限定されない。

画像アノテーション装置１２０は、各画像１０１に対して、当該画像内の各画素のセマンティッククラスを示すために、セマンティックセグメンテーションラベル１０２（本明細書では「初期セマンティックセグメンテーションラベル」とも称される）を生成することができる。画素のセマンティッククラスとは、画像におけるその画素に対応するオブジェクトのタイプを指す。画像におけるオブジェクトは、背景、人物、動物、車両等を含むことができるがこれらに限定されない。例えば、生成されるセマンティックセグメンテーションラベルは、各画素の真のセマンティッククラスを示すベクトル又は配列であってもよいし、図１に示すように可視化された画像であってもよい。異なるセマンティッククラスの画素は、異なる色を用いて標記することができる。理解すべき点として、画像のアノテーションは手動で行ってもよい。この場合、画像アノテーション装置１２０は、各画像１０１の各画素に対してアノテーションするように手動で制御される装置又はデバイスであってもよい。

画像コレクション１０１及びその対応するセマンティックセグメンテーションラベル１０２は、画像処理装置１３０に提供されることができる。画像処理装置１３０は画像コレクション１０１及びその対応するセマンティックセグメンテーションラベル１０２を処理して、複数のトレーニングサンプルを含むトレーニングデータセット１０３を生成することができる。

いくつかの実施形態では、画像処理装置１３０は、画像コレクション１０１における画像１０１（以下、「第１画像」とも称する）に対して画像オーギュメンテーション（ＩｍａｇｅＡｕｇｍｅｎｔａｔｉｏｎ）を行い、第１画像の少なくとも１つの変換画像（以下、「少なくとも１つの第２画像」とも称する）を得ることができる。画像処理装置１３０は、少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果を決定することができる。例えば、少なくとも１つの変換画像における各変換画像について、画像処理装置１３０は、当該変換画像のセマンティックセグメンテーションラベル又はセマンティック信頼度ラベルを生成して当該変換画像のセマンティック予測結果とすることができ、ここで、セマンティック信頼度ラベルは、例えば、当該変換画像における各画素が複数の所定のセマンティッククラスに属する対応する確率を示すことができる。画像処理装置１３０は、少なくとも１つのセマンティック予測結果に基づいて、第１画像１０１のセマンティックセグメンテーションラベルを生成することができる。例えば、第１画像１０１及び生成されたセマンティックセグメンテーションラベルは、トレーニングデータセット１０３における１つのトレーニングサンプルとして使用することができる。

追加で又は選択的に、いくつかの実施形態では、画像処理装置１３０は、画像コレクション１０１から複数の画像１０１を取得してもよい。画像処理装置１３０は、当該複数の画像１０１の第１セマンティックセグメンテーションラベルセットを取得してもよい。例えば、第１セマンティックセグメンテーションラベルセットにおける１つのセマンティックセグメンテーションラベルは、複数の画像１０１における対応する画像１０１の初期セマンティックセグメンテーションラベル１０２であってもよい。また例えば、第１セマンティックセグメンテーションラベルセットにおける１つのセマンティックセグメンテーションラベルは、上述したように、対応する画像１０１の少なくとも１つの変換画像の少なくとも１つのセマンティック予測結果に基づいて生成されたセマンティックセグメンテーションラベルであってもよい。画像処理装置１３０は、複数の画像１０１に対応する複数の画像マスクを取得することができる。各画像マスクは、対応する画像１０１における対象領域の選択に用いることができる。対象領域は、当該画像１０１においてそのセマンティッククラスがより容易に予測される複数の画素、すなわち、ノイズの程度が低い領域を含むことができる。これは本明細書では「非ノイズ領域」とも称される。画像処理装置１３０は、複数の画像マスクと第１セマンティックセグメンテーションラベルセットに基づいて、複数の画像１０１の第２セマンティックセグメンテーションラベルセットを生成することができる。例えば、複数の画像１０１における各画像について、画像処理装置１３０は、当該画像に対応する画像マスクと、第１セマンティックセグメンテーションラベルセットにおける当該画像に対応するセマンティックセグメンテーションラベルとにマスキング操作（すなわち、ドット積）を行うことにより、そのセマンティックセグメンテーションラベルにおいて対象領域のそれらの画素に対応する部分を選択し、非対象領域のそれらの画素の部分を無視することができる。こうして、第２セマンティックセグメンテーションラベルセットにおける、当該画像に対応するセマンティックセグメンテーションラベルを得ることができる。そして、画像処理装置１３０は、当該複数の画像１０１と第２セマンティックセグメンテーションラベルセットに基づいて、混合画像と、当該混合画像のセマンティックセグメンテーションラベルを生成することができる。例えば、生成された混合画像とそのセマンティックセグメンテーションラベルを、トレーニングデータセット１０３における１つのトレーニングサンプルとすることができる。

追加で又は選択的に、いくつかの実施形態では、画像処理装置１３０は、オリジナルの各画像１０１及びその対応する初期セマンティックセグメンテーションラベル１０２を、トレーニングデータセット１０３における１つのトレーニングサンプルとして使用してもよい。

このようにして、画像処理装置１３０は、複数のトレーニングサンプルを含むトレーニングデータセット１０３を生成することができる。トレーニングデータセット１０３は、対象のセマンティックセグメンテーションモデル１０４の学習に使用するように、モデル学習装置１４０に提供されることができる。

対象のセマンティックセグメンテーションモデル１０４は、それに入力される画像における各画素が属するセマンティッククラスを予測するように学習させることができる。例えば、モデル学習装置１４０は、トレーニングデータセット１０３に基づいてモデルに学習させ、対象のセマンティックセグメンテーションモデル１０４のモデルパラメータを決定することができる。学習させた対象のセマンティックセグメンテーションモデル１０４（例えば、決定されたモデルパラメータ）は、モデル適用装置１５０に提供されることができる。モデル適用装置１５０は、入力画像１０５を取得し、学習させた対象のセマンティックセグメンテーションモデル１０４を使用して、当該入力画像１０５における各画素のセマンティッククラスを予測することができる。モデル適用装置１５０は、予測結果に基づいて、入力画像１０５を示すセマンティックセグメンテーションラベル１０６を生成することができる。例えば、生成されるセマンティックセグメンテーションラベル１０６は、入力画像１０５における各画素のセマンティッククラスを示すベクトル又は配列であってもよいし、図１に示すように可視化された画像であってもよい。異なるセマンティッククラスの画素は、異なる色で充填することができる。

対象のセマンティックセグメンテーションモデル１０４は、様々な分野に適用されることができる。医療分野では、画像セマンティックセグメンテーションモデルは、入力される様々な医用画像に対してセマンティックセグメンテーションを行うことで、病変部を識別・理解して、医師の病気診断を支援することができる。例えば、医用画像を処理する方法は、入力される医用画像を取得することと、学習させた画像セマンティックセグメンテーションモデルを使用して、当該医用画像のセマンティックセグメンテーションラベルを生成することと、当該セマンティックセグメンテーションラベルに基づいて、医用画像における病変を識別することとを含むことができる。ここでセマンティックセグメンテーションラベルは、当該医用画像における画素のセマンティッククラスを示す。例えば自動運転の分野では、画像セマンティックセグメンテーションモデルは、走行中の車両が取得した画像に対してセマンティックセグメンテーションを行い、その中のストリートシーンを認識・理解して、自動運転システムの運転判断を支援することができる。例えば、自動運転方法は、走行中の車両によって撮影された画像を取得することと、学習させた画像セマンティックセグメンテーションモデルを使用して、当該画像のセマンティックセグメンテーションラベルを生成することと、当該セマンティックセグメンテーションラベルに基づいて、画像内のストリートシーンを認識することと、認識結果に基づいて自動運転の判断を生成することとを含むことができる。ここでセマンティックセグメンテーションラベルは、当該画像における画素のセマンティッククラスを示す。

以下、図２及び図３を結びつけて、図１に示す画像処理装置１３０が実行する操作について、さらに詳細に説明する。理解すべき点として、画像処理装置１３０は、図２に示す画像処理操作のみを行ってもよいし、図３に示す画像処理操作のみを行ってもよいし、又は図２に示す画像処理操作を先に行ってから図３に示す画像処理動作を行ってもよい。

図２は、本開示の実施形態にかかる画像処理の模式図を示す。図２は、画像コレクション１０１から取得した画像１０１に対して画像オーギュメンテーションを行うことで得られる複数の変換画像２０１－１、２０１－２．．．．．．２０１－４（以下、まとめて又は個別に「変換画像２０１」と称する）を示す。例えば、画像オーギュメンテーションは、ミラーリング変換、回転、拡大／縮小、トリミング、平行移動、明度変更、ノイズ追加、色変換等を含むことができるが、これらに限定されない。

図２に示すように、画像処理装置１３０は、画像セマンティックセグメンテーションモデル２１０を使用して、各変換画像２０１における画素のセマンティッククラスを予測し、各変換画像２０１のセマンティック予測結果を生成することができる。画像セマンティックセグメンテーションモデル２１０は、図１に示す対象のセマンティックセグメンテーションモデル１０４と同じモデルであってもよいし、異なるモデルであってもよい。例えば、画像セマンティックセグメンテーションモデル２１０は、事前に学習させた画像セマンティックセグメンテーションモデルであってもよいし、初歩的な学習をさせた画像セマンティックセグメンテーションモデルであってもよいし、又は、ノイズラベルを含むトレーニングサンプルを用いて学習させた画像セマンティックセグメンテーションモデルであってもよい。すなわち、画像セマンティックセグメンテーションモデル２１０は、予測精度の低いセマンティックセグメンテーションモデルを用いて実現してもよいし、セマンティックセグメンテーション機能を実現できる他のアルゴリズム又はデバイスを用いて実現してもよい。いくつかの実施形態では、各変換画像２０１のセマンティック予測結果は、当該変換画像２０１における各画素が属するセマンティッククラスを示す、当該変換画像２０１のセマンティックセグメンテーションラベルとして表すことができる。選択的に他のいくつかの実施形態では、各変換画像２０１のセマンティック予測結果は、当該変換画像２０１のセマンティック信頼度ラベルとして表されてもよい。セマンティック信頼度ラベルは、当該変換画像２０１における各画素が、複数の所定セマンティッククラスに属する対応する確率を示す。図２に示すように、例えば、変換画像２０１－１に対する予測結果はセマンティック信頼度ラベル２０２－１として表され、変換画像２０１－２に対する予測結果はセマンティック信頼度ラベル２０２－２として表され、変換画像２０１－３に対する予測結果はセマンティック信頼度ラベル２０２－３として表され、変換画像２０１－４に対する予測結果はセマンティック信頼度ラベル２０２－４として表される。以下では、セマンティック信頼度ラベル２０２－１～２０２－４をまとめて、又は個別に「セマンティック信頼度ラベル２０２」と称することができる。

画像処理装置１３０は、複数の変換画像２０１のセマンティック予測結果に基づいて、オリジナルの画像１０１のセマンティックセグメンテーションラベル２０３を生成することができる。例えば、画像処理装置１３０はまず、複数の変換画像２０１の複数のセマンティック信頼度ラベル２０２に対してそれぞれ、画像オーギュメンテーションに対応する逆変換を行い、複数の逆変換されたセマンティック信頼度ラベルを融合させることで、融合したセマンティック信頼度ラベルを生成することができる。融合したセマンティック信頼度ラベルは、オリジナルの画像１０１における各画素が複数の所定のセマンティッククラスに属する信頼度を示すことができる。そして、画像処理装置１３０は、オリジナルの画像１０１における各画素に対し、信頼度が最も高いセマンティッククラスを、当該画素が属するセマンティッククラスとして決定することができ、これによってセマンティックセグメンテーションラベル２０３を生成することができる。選択的に、いくつかの実施形態では、画像処理装置１３０は、最適化されたセマンティックセグメンテーションラベル２０４を得るために、生成されたセマンティックセグメンテーションラベル２０３に対して平滑化を行ってもよい。理解すべき点として、平滑化操作は、例えば条件付き確率場（ＣＲＦ）アルゴリズム等、既知の又は将来開発される任意の適切なアルゴリズムに基づくことができる。

図３は、複数の画像３０１－１及び３０１－２（例えば、画像コレクション１０１から取得されたもの）と、それらに対応するセマンティックセグメンテーションラベル３０４－１及び３０４－２とを示す。例えば、セマンティックセグメンテーションラベル３０４－１は、画像３０１－１の初期セマンティックセグメンテーションラベルであってもよいし、図２に示す方法で生成されるセマンティックセグメンテーションラベルであってもよい。セマンティックセグメンテーションラベル３０４－２は、画像３０１－２の初期セマンティックセグメンテーションラベルであってもよいし、図２に示す方法で生成されるセマンティックセグメンテーションラベルであってもよい。図３では一対の画像を処理することしか示されていないが、理解すべき点として、これらは単に例示の目的で使用されており、本開示の範囲に対する何らかの限定を暗示するものではない。いくつかの実施形態において画像処理装置１３０は、画像コレクション１０１から２つより多い画像を取得して処理してもよい。

いくつかの実施形態において、図３に示すように、複数の画像３０１－１及び３０１－２における各画像に対し、画像処理装置１３０は画像セマンティックセグメンテーションモデル３１０を使用して、当該画像における複数の画素の対応するセマンティッククラスを予測することができる。画像セマンティックセグメンテーションモデル３１０は、対象のセマンティックセグメンテーションモデル１０４と同じモデルであってもよいし、異なるモデルであってもよい。例えば、画像セマンティックセグメンテーションモデル３１０は、事前に学習させた画像セマンティックセグメンテーションモデルであってもよいし、初歩的な学習をさせた画像セマンティックセグメンテーションモデルであってもよいし、又は、学習させたことがない画像セマンティックセグメンテーションモデルであってもよい。すなわち、画像セマンティックセグメンテーションモデル３１０は、予測精度の低いセマンティックセグメンテーションモデルを用いて実現されてもよいし、セマンティックセグメンテーション機能を実現できる他のアルゴリズム又はデバイスを用いて実現されてもよい。

画像処理装置１３０はさらに、各画像に対するセマンティック予測結果に基づいて、当該画像における複数の画素の対応するスコアを決定することができる。各画素のスコアは、当該画素と、当該画像におけるノイズ領域との関連度を示すことができる。言い換えれば、各画素のスコアは、当該画素のセマンティッククラスを予測する場合の困難の程度を示すことができる。図３に示すように、画像３０１－１の複数の画素の対応スコアは、ヒートマップ３０２－１で表すことができ、画像３０１－２の複数の画素の対応スコアは、ヒートマップ３０２－２で表すことができる。

いくつかの実施形態では、各画像の各画素について、画像処理装置１３０は、当該画素の予測セマンティッククラスと当該画素の真のセマンティッククラスとの間の差に基づいて、当該画素のスコアを決定することができる。ここで、当該画素の真のセマンティッククラスは、当該画像のセマンティックセグメンテーションラベルによって示される。例えば、画像セマンティックセグメンテーションモデル３１０は、各画像における各画素が、異なるセマンティッククラスに属する対応する確率を予測することができ、一方で当該画像のセマンティックセグメンテーションラベルは、各画素が属する真のセマンティッククラスを示すことができる。画像処理装置１３０は、画像セマンティックセグメンテーションモデル３１０が予測した各画素がその真のセマンティッククラスに属する確率と、所定の確率値（例えば、１００％）との間の損失を、各画素のスコアとして算出することができる。つまり、画素のスコアが高いほど、当該画素の予測セマンティッククラスと、その真のセマンティックとの差が大きいということになる。

選択的に、いくつかの実施形態では、画像処理装置１３０は各画像における各画素について、当該画素の予測セマンティッククラスにおける不確実性又は乱雑さの程度（例えば、エントロピー）に基づいて、当該画素のスコアを決定してもよい。例えば、画像セマンティックセグメンテーションモデル３１０は、各画像における各画素が、異なるセマンティッククラスに属する対応する確率を予測することができる。画像処理装置１３０は、既知の又は開発予定の任意の適切なアルゴリズムを使用して、各画素に対して予測された異なるセマンティッククラスに属する対応する確率に基づいて、当該画素の予測セマンティッククラスの不確実性又は乱雑さの程度を決定して、当該画素のスコアとしてもよい。つまり、ある画素のスコアが高いほど、当該画素の予測セマンティッククラスの不確実性又は乱雑さの程度が高いことということになる。

いくつかの実施形態では、図３に示すように、画像処理装置１３０は、画像３０１－１における複数の画素の対応スコアを示すヒートマップ３０２－１に基づいて、画像３０１－１に対応する画像マスク３０３－１を決定することができる。同様に、画像処理装置１３０は、画像３０１－２における複数の画素の対応スコアを示すヒートマップ３０２－２に基づいて、画像３０１－２に対応する画像マスク３０３－２を決定することができる。

いくつかの実施形態では、画像処理装置１３０は、各画像における複数の画素のスコアを大きいものから小さいものへと順位付けし、順位が後ろのＮ％の画素を選択するか、又はスコアが閾値スコアｎ未満の画素を選択することができる。例えば、Ｎ％又はｎの数値は検証実験から決定することができる。画像処理装置１３０は、選択された画素に対応する位置のマスク値を１に設定し、他の位置のマスク値を０に設定することで、当該画像の画像マスクを生成することができる。選択的に、いくつかの実施形態では、画像処理装置１３０は、一連の画像における全ての画素のスコアを大きいものから小さいものへと順位付けし、順位が後ろのＮ％の画素を選択するか、又はスコアが閾値スコアｎ未満の画素を選択してもよい。例えば、Ｎ％又はｎの数値は検証実験から決定することができる。画像処理装置１３０は、選択された画素に対応する位置のマスク値を１に設定し、他の位置のマスク値を０に設定することで、当該一連の画像における各画像の画像マスクを生成することができる。選択的に、他の実施形態では、画像処理装置１３０は、各画像における複数の画素の対応スコアを示すヒートマップを直接、当該画像の画像マスクとしてもよい。

いくつかの実施形態では、図３に示すように、画像処理装置１３０は、画像マスク３０３－１と、画像３０１－１のセマンティックセグメンテーションラベル３０４－１とにマスキング操作（すなわち、ドット積）を行うことで、画像３０１－１のセマンティックセグメンテーションラベル３０５－１を生成することができる。同様に、画像処理装置１３０は、画像マスク３０３－２と、画像３０１－２の初期セマンティックセグメンテーションラベル３０４－２とにマスキング操作（すなわち、ドット積）を行うことで、画像３０１－２のセマンティックセグメンテーションラベル３０５－２を生成することができる。図３から理解できるように、新たに生成されたセマンティックセグメンテーションラベル３０５－１及び３０５－２はそれぞれ、セマンティックセグメンテーションラベル３０４－１及び３０４－２における、対象領域（すなわち、ノイズの少ない領域）のそれらの画素に対応するセマンティックセグメンテーションラベルを保持し、非対象領域におけるそれらの画素のセマンティックセグメンテーションラベルを無視する。

いくつかの実施形態では、図３に示すように、画像処理装置１３０は、複数の画像３０１－１及び３０１－２と、新たに生成されたセマンティックセグメンテーションラベル３０５－１及び３０５－２とに基づいて、混合画像３０６及びそのセマンティックセグメンテーションラベル３０７をさらに生成することができる。いくつかの実施形態では、画像処理装置１３０は、複数の画像３０１－１及び３０１－２の対応する重みに基づいて、複数の画像３０１－１及び３０１－２を重み付けし加算することで、混合画像３０６を得ることができる。画像処理装置１３０は、複数の画像３０１－１及び３０１－２の対応する重みに基づいて、セマンティックセグメンテーションラベル３０５－１及び３０５－２を重み付けし加算することで、混合画像３０６のセマンティックセグメンテーションラベル３０７を得ることができる。理解すべき点として、画像処理装置１３０は、他の方法を使用して混合画像３０６及びそのセマンティックセグメンテーションラベル３０７を生成してもよい。図３に示すように、混合画像３０６及びそのセマンティックセグメンテーションラベル３０７は、図１に示すようなトレーニングデータセット１０３における１つのトレーニングサンプルとして、対象のセマンティックセグメンテーションモデル１０４に学習させるために用いることができる。

図４は、本開示の実施形態にかかる、画像処理に用いられる例示的方法４００のフローチャートを示す。例えば、方法４００は、図１に示す画像処理装置１３０により実行されることができる。以下、図１と図２とを結びつけて方法４００を説明する。理解すべき点として、方法４００はさらに、図示されていない付加的ブロックを含むことができ、且つ／又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。

ブロック４１０において、第１画像と、少なくとも１つの第２画像（例えば、図２に示すような変換画像２０１－１～２０１－４）を取得する。少なくとも１つの第２画像における各画像は、第１画像の変換画像である。

ブロック４２０において、少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果（例えば、図２に示すセマンティック信頼度ラベル２０２－１～２０２－４）に基づいて、第１画像の第１セマンティックセグメンテーションラベル（例えば、図２に示すセマンティックセグメンテーションラベル２０３及び／又は２０４）を生成する。

いくつかの実施形態において、少なくとも１つの第２画像を取得することは、第１画像に画像オーギュメンテーションを実行することで、少なくとも１つの第２画像を取得することを含む。画像オーギュメンテーションは、ミラーリング変換、回転、拡大／縮小、トリミング、平行移動、明度変更、ノイズ追加及び色変換のうち、少なくとも１つを含む。

いくつかの実施形態において、方法４００はさらに、画像セマンティックセグメンテーションモデルを用いて、少なくとも１つの第２画像に対し、少なくとも１つのセマンティックセグメンテーションラベル又は少なくとも１つのセマンティック信頼度ラベルを生成して少なくとも１つのセマンティック予測結果とすることを含む。少なくとも１つのセマンティック信頼度ラベルは、少なくとも１つの第２画像における各画素が所定のセマンティッククラスに属する信頼度を示す。

いくつかの実施形態において、第１セマンティックセグメンテーションラベルを生成することは、少なくとも１つのセマンティック予測結果に対してそれぞれ、画像オーギュメンテーションに対応する逆変換を行うことで、逆変換された少なくとも１つのセマンティック予測結果を得ることと、逆変換された少なくとも１つのセマンティック予測結果に基づいて、第１セマンティックセグメンテーションラベルを生成することとを含む。

図５は、本開示の実施形態にかかる、画像処理に用いられる例示的方法５００のフローチャートを示す。例えば、方法５００は、図１に示す画像処理装置１３０によって実行されることができる。以下、図１と図２とを結びつけて方法５００を説明する。理解すべき点として、方法５００はさらに、図示されていない付加的ブロックを含むことができ、且つ／又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。

ブロック５１０において、複数の画像（例えば、図３に示す画像３０１－１及び３０１－２）と、複数の画像の第１セマンティックセグメンテーションラベルセット（例えば、図３に示すようなセマンティックセグメンテーションラベル３０４－１及び３０４－２）を取得する。いくつかの実施形態では、複数の画像は、第１画像を含み、第１セマンティックセグメンテーションラベルセットは、第１画像の第１セマンティックセグメンテーションラベルを含む。

ブロック５２０では、複数の画像に対応する複数の画像マスク（例えば、図３に示すような画像マスク３０３－１及び３０３－２）を取得する。各画像マスクは、複数の画像における対応する画像における対象領域を選択するために用いられる。

いくつかの実施形態において、複数の画像に対応する複数の画像マスクを取得することは、第１画像における複数の画素の対応する予測セマンティッククラスを決定することと、複数の画素の対応する予測セマンティッククラスに基づいて、複数の画素の対応スコアを決定することと、複数の画素の対応スコアに基づいて、第１画像の第１画像マスクを決定することとを含む。各画素のスコアは、当該画素と、第１画像におけるノイズ領域との関連度を示す。第１画像マスクは、複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる。

いくつかの実施形態において、第１画像における複数の画素の対応する予測セマンティッククラスを決定することは、画像セマンティックセグメンテーションモデルを用いて、第１画像における複数の画素の対応する予測セマンティッククラスを決定することを含む。

いくつかの実施形態において、第１画像における複数の画素の対応スコアを決定することは、複数の画素における各画素について、当該画素の予測セマンティッククラスと当該画素の真のセマンティッククラスとの差、当該画素の予測セマンティッククラスの不確実性、及び当該画素の予測セマンティッククラスの乱雑さの程度のうち、いずれかに基づいて当該画素のスコアを決定することを含む。当該画素の真のセマンティッククラスは、第１画像のセマンティックセグメンテーションラベルによって示される。

セグメント５３０では、複数の画像マスクと第１セマンティックセグメンテーションラベルセットに基づいて、複数の画像の第２セマンティックセグメンテーションラベルセット（例えば、図３に示すセマンティックセグメンテーションラベル３０５－１及び３０５－２）を生成する。

いくつかの実施形態では、複数の画像マスクは、第１画像に対応する第１画像マスクを含む。また、第２セマンティックセグメンテーションラベルセットを生成することは、第１画像の第１セマンティックセグメンテーションラベルと第１画像マスクとにマスキング操作を行うことにより、前記第１画像の第２セマンティックセグメンテーションラベルを生成することを含む。第２セマンティックセグメンテーションラベルセットは、第２セマンティックセグメンテーションラベルを含む。

ブロック５４０において、複数の画像と第２セマンティックセグメンテーションラベルセットに基づいて、混合画像（例えば、図３に示す混合画像３０６）と、当該混合画像のセマンティックセグメンテーションラベル（例えば、図３に示すセマンティックセグメンテーションラベル３０７）とを生成する。

いくつかの実施形態において、混合画像と、当該混合画像のセマンティックセグメンテーションラベルを生成することは、複数の画像の対応する重みに基づいて複数の画像を重み付けし加算することで、混合画像を生成することと、複数の画像の対応する重みに基づいて第２セマンティックセグメンテーションラベルセットを重み付けし加算することで、当該混合画像のセマンティックセグメンテーションラベルを生成することを含む。

図６は、本開示のいくつかの実施形態にかかる例示的モデル学習方法６００のフローチャートを示す。例えば、方法６００は、図１に示すモデル学習装置１４０によって実行されることができる。以下、図１及び図２と結びつけて方法６００を説明する。理解すべき点として、方法６００はさらに、図示されていない付加的ブロックを含むことができ、且つ／又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。

ブロック６１０において、トレーニングデータを取得する。例えば、モデル学習装置１４０は、図１に示すトレーニングデータセット１０３からトレーニングデータを取得することができる。いくつかの実施形態では、取得されたトレーニングデータは、第１トレーニングサンプルを含んでもよく、例えば、第１トレーニングサンプルは、方法４００に従って得られた第１画像と、第１画像の第１セマンティックセグメンテーションラベルとを含む。追加で又は選択的に、いくつかの実施形態では、取得されたトレーニングデータは、第２トレーニングサンプルを含んでもよく、例えば、第２トレーニングサンプルは、方法５００に従って得られた混合画像と、当該混合画像のセマンティックセグメンテーションラベルとを含む。

ブロック６２０において、入力画像のセマンティックセグメンテーションラベルを生成するために、トレーニングデータに基づいて、対象のセマンティックセグメンテーションモデル（例えば、図１に示す対象のセマンティックセグメンテーションモデル１０４）に学習させる。いくつかの実施形態において、モデル学習装置１４０は、取得したトレーニングデータに基づいてモデルに学習させ、対象のセマンティックセグメンテーションモデル１０４のモデルパラメータを決定することができる。

図７は、本開示の実施形態にかかる、画像処理に用いられる例示的方法７００のフローチャートを示す。例えば、方法７００は、図１に示すモデル適用装置１５０によって実行することができる。以下、図１と図２とを結びつけて方法７００を説明する。理解すべき点として、方法７００はさらに、図示されていない付加的ブロックを含むことができ、且つ／又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。

ブロック７１０において、入力画像（例えば、図１に示す入力画像１０５）を取得する。ブロック７２０において、学習させた対象のセマンティックセグメンテーションモデルを使用して、当該入力画像のセマンティックセグメンテーションラベル（例えば図１に示すセマンティックセグメンテーションラベル１０６）を生成する。当該セマンティックセグメンテーションラベルは、入力画像における画素のセマンティッククラスを示す。例えば、生成されるセマンティックセグメンテーションラベル１０６は、入力画像１０５の各画素のセマンティッククラスを示すベクトル又は配列であってもよいし、図１に示すように可視化された画像であってもよい。異なるセマンティッククラスの画素は、異なる色で充填することができる。

以上の説明から分かるように、本開示の実施形態では、ノイズラベルを含むトレーニングデータがモデルの学習に与える影響を効果的に低減することができ、その結果、学習させた画像セマンティックセグメンテーションモデルの精度を向上させることができる。本開示の実施形態は、弱教師あり学習シナリオに適用することができる。弱教師あり学習シナリオでは、初期トレーニングデータセットが、限られた、ノイズを含む、又はアノテーションが不正確なトレーニングサンプルを含む可能性がある。本開示の実施形態はこのようなトレーニングデータを最適化してから、最適化トレーニングデータを使用してモデルに学習させることができる。

本開示の実施形態は、セマンティックセグメンテーションタスクに適用するだけでなく、インスタンスセグメンテーション（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）タスクにも適用することができる。上述したように、セマンティックセグメンテーションタスクの目的は、画像における各画素が属するセマンティッククラスを識別することである。セマンティックセグメンテーションタスクと異なり、インスタンスセグメンテーションタスクの目的は、画像における各画素が属するインスタンスのクラスを識別することである。例えば、セマンティックセグメンテーションタスクでは、画像の中の人物に属する画素を同じクラスに分類することができるが、インスタンスセグメンテーションタスクでは、画像の中の異なる人物に属する画素を異なるクラスに分類することができる。

本開示の実施形態をインスタンスセグメンテーションタスクに適用するためには、各画像１０１にアノテーションされた初期ラベル１０２が、当該画像における各画素が属するインスタンスクラスを示す必要がある。例えば、２つの画素のセマンティッククラスがともに人物であるが、それぞれ異なる人に対応している場合、この２つの画素は異なるインスタンスクラスに属するものとしてアノテーションされる。その後の処理は、上述のセマンティックセグメンテーションタスクで説明した処理プロセスと同様であるため、ここでは詳述を繰り返さない。

図８は、本開示の実施形態を実施可能な例示的コンピューティングデバイス８００の模式的なブロック図を示す。例えば、図１に示すシステム１００の１つ又は複数の装置は、デバイス８００によって実施することができる。デバイス８００の例には、任意の汎用コンピュータ、専用コンピュータ、サーバ、仮想マシン、及び計算能力を有する他の任意の電子機器（例えば、ユーザ端末（ＵＥ）、移動電話、携帯電話、スマートフォン、携帯情報端末（ＰＤＡ）、画像取込デバイス（例えばデジタルカメラ）、ゲーム機器、音楽保存・再生装置、又は無線若しくは有線によるインターネットへのアクセス・閲覧を可能にするインターネットデバイス等）を含むことができる。

図に示すように、デバイス８００は、中央処理ユニット（ＣＰＵ）８０１（プロセッサ８０１とも称する）を備える。ＣＰＵ８０１は、リードオンリーメモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラムの命令、又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムの命令に基づいて、各種の適切な動作及び処理を実行することができる。ＲＡＭ８０３にはさらに、デバイス８００の操作に必要な各種プログラム及びデータを記憶することができる。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３はバス８０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）ポート８０５もバス８０４に接続されている。

デバイス８００における複数のコンポーネントは、Ｉ／Ｏポート８０５に接続されている。複数の部材には、キーボード、マウス等の入力ユニット８０６、様々な種類のディスプレイ、スピーカ等の出力ユニット８０７、磁気ディスク、光ディスク等の記憶ユニット８０８、及びネットワークインタフェースカード、モデム、無線通信送受信機等の通信ユニット８０９が備えられる。通信ユニット８０９は、デバイス８００が、インターネットのようなコンピュータネットワーク及び／又は各種電信ネットワークを介して、他のデバイスと情報／データを交換することを可能にする。

処理ユニット８０１は、例えば方法４００、５００、６００及び／又は７００のような上述した各プロセス及び処理を実行するように配置されることができる。例えば、いくつかの実施形態において、方法４００、５００、６００及び／又は７００は、コンピュータソフトウェアプログラムとして実現可能であり、記憶ユニット８０８のようなマシン可読媒体に、有形記憶されている。いくつかの実施形態において、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２及び／又は通信ユニット８０９を経由してデバイス８００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ８０３にロードされＣＰＵ８０１により実行されると、上述した方法４００、５００、６００及び／又は７００の一つ又は複数のステップが実行されることができる。

いくつかの実施形態において、コンピューティングデバイスは少なくとも１つの回路を備え、回路は、第１画像及び少なくとも１つの第２画像を取得し、前記少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果に基づいて、前記第１画像の第１セマンティックセグメンテーションラベルを生成するように配置される。前記少なくとも１つの第２画像における各画像は、第１画像の変換画像である。

いくつかの実施形態において、前記少なくとも１つの回路は、前記第１画像に画像オーギュメンテーションを実行することで、前記少なくとも１つの第２画像を取得するように配置される。

いくつかの実施形態において、前記画像オーギュメンテーションは、ミラーリング変換、回転、拡大・縮小、トリミング、平行移動、明度変更、ノイズ追加及び色変換のうち、少なくとも１つを含む。

いくつかの実施形態において、前記少なくとも１つの回路はさらに、画像セマンティックセグメンテーションモデルを用いて、前記少なくとも１つの第２画像に対し、少なくとも１つのセマンティックセグメンテーションラベル又は少なくとも１つのセマンティック信頼度ラベルを生成して、前記少なくとも１つのセマンティック予測結果とするように配置される。前記少なくとも１つのセマンティック信頼度ラベルは、前記少なくとも１つの第２画像の各画素が所定のセマンティッククラスに属する信頼度を示す。

いくつかの実施形態において、前記少なくとも１つの回路は、前記少なくとも１つのセマンティック予測結果に対してそれぞれ、前記画像オーギュメンテーションに対応する逆変換を行うことで、逆変換された少なくとも１つのセマンティック予測結果を得て、前記逆変換された少なくとも１つのセマンティック予測結果に基づいて、前記第１セマンティックセグメンテーションラベルを生成するように配置される。

いくつかの実施形態において、前記少なくとも１つの回路はさらに、複数の画像と、前記複数の画像の第１セマンティックセグメンテーションラベルセットを取得し、前記複数の画像に対応する複数の画像マスクを取得し、前記複数の画像マスクと前記第１セマンティックセグメンテーションラベルセットに基づいて、前記複数の画像の第２セマンティックセグメンテーションラベルセットを生成し、前記複数の画像と前記第２セマンティックセグメンテーションラベルセットに基づいて、混合画像と前記混合画像のセマンティックセグメンテーションラベルを生成するように配置される。前記複数の画像は、前記第１画像を含み、前記第１セマンティックセグメンテーションラベルセットは、前記第１セマンティックセグメンテーションラベルを含む。各画像マスクは、前記複数の画像における対応する画像における対象領域を選択するために用いられる。

いくつかの実施形態において、前記少なくとも１つの回路は、前記第１画像における複数の画素の対応する予測セマンティッククラスを決定し、前記複数の画素の対応する予測セマンティッククラスに基づいて、前記複数の画素の対応スコアを決定し、前記複数の画素の対応スコアに基づいて、前記第１画像の第１画像マスクを決定するように配置される。各画素のスコアは、当該画素と、前記第１画像におけるノイズ領域との関連度を示す。前記第１画像マスクは、前記複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる。

いくつかの実施形態において、前記少なくとも１つの回路は、画像セマンティックセグメンテーションモデルを用いて、前記第１画像における前記複数の画素の対応する予測セマンティッククラスを決定するように配置される。

いくつかの実施形態において、前記少なくとも１つの回路は、前記複数の画素における各画素について、前記画素の予測セマンティッククラスと前記画素の真のセマンティッククラスとの差、前記画素の予測セマンティッククラスの不確実性、及び前記画素の予測セマンティッククラスの乱雑さの程度のうち、いずれかに基づいて前記画素のスコアを決定するように配置される。前記画素の真のセマンティッククラスは、前記第１画像のセマンティックセグメンテーションラベルによって示される。

いくつかの実施形態において、前記複数の画像マスクは、前記第１画像に対応する第１画像マスクを含む。また、前記少なくとも１つの回路は、前記第１セマンティックセグメンテーションラベルと前記第１画像マスクとにマスキング操作を行うことにより、前記第１画像の第２セマンティックセグメンテーションラベルを生成するように配置される。前記第２セマンティックセグメンテーションラベルセットは、前記第２セマンティックセグメンテーションラベルを含む。

いくつかの実施形態において、前記少なくとも１つの回路は、前記複数の画像の対応する重みに基づいて前記複数の画像を重み付けし加算することで、前記混合画像を生成し、前記複数の画像の対応する重みに基づいて前記第２セマンティックセグメンテーションラベルセットを重み付けし加算することで、前記混合画像のセマンティックセグメンテーションラベルを生成するように配置される。

いくつかの実施形態において、前記少なくとも１つの回路はさらに、トレーニングデータを取得し、入力画像のセマンティックセグメンテーションラベルを生成するために前記トレーニングデータに基づいて対象のセマンティックセグメンテーションモデルに学習させるように配置される。前記トレーニングデータは、前記第１画像と前記第１セマンティックセグメンテーションラベルとを含む第１トレーニングサンプル、及び、前記混合画像と前記混合画像のセマンティックセグメンテーションラベルとを含む第２トレーニングサンプルのうち、少なくとも１つを含む。

いくつかの実施形態において、前記少なくとも１つの回路はさらに、前記入力画像を取得し、学習させた対象のセマンティックセグメンテーションモデルを使用して、前記入力画像のセマンティックセグメンテーションラベルを生成するように配置される。

本開示は、システム、方法、及び／又はコンピュータプログラム製品として実現することができる。本開示がシステムとして実現される場合、文中に記載されているコンポーネントは、単一のデバイスで実装できることに加えて、クラウドコンピューティングアーキテクチャとして実装することができる。クラウドコンピューティング環境では、これらのコンポーネントはリモート配置することができ、本開示に記載されている機能を実現するために協働することができる。クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供することができる。こうしたサービスを提供するシステム又はハードウェアの物理的な場所や設定は、エンドユーザが知る必要はない。クラウドコンピューティングでは、適切なプロトコルを使用して、ワイドエリアネットワーク（インターネット等）を介してサービスを提供することができる。例えば、クラウドコンピューティングプロバイダは、ワイドエリアネットワークを介してアプリケーションを提供する。それらは、ブラウザ又はその他の任意のコンピューティング・コンポーネントを介してアクセスすることも可能である。クラウドコンピューティングのコンポーネント及び対応データは、リモートのサーバに保存することができる。クラウドコンピューティング環境のコンピューティングリソースは、リモートのデータセンターに集約してもよいし、こうしたコンピューティングリソースを分散させてもよい。クラウドインフラは、ユーザにとっては単一のアクセスポイントとして提示されていても、共有データセンターを通じてサービスを提供することができる。したがって、文中で説明した様々な機能は、クラウドコンピューティングアーキテクチャを使用して、リモートのサービスプロバイダから提供することができる。選択的に、通常のサーバから提供してもよいし、クライアント端末に直接又はその他の方法でインストールしてもよい。また、本開示はコンピュータプログラム製品として実現することができる。当該コンピュータプログラム製品は、本開示の各態様を実行するための、コンピュータが読み取り可能なプログラム命令が格納されたコンピュータ可読記憶媒体を備えることができる。

コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持し記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁気記憶装置、半導体記憶装置又は上述の任意の適切な組合せであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例として（全てではない）、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去・書き込み可能なリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックＲＡＭ（ＳＲＡＭ：Static Random Access Memory）、携帯型コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリースティック、フロッピーディスク、機械的エンコーダディスク、例えば命令が記憶されているパンチカード又は溝内の突起構造、及び上述の任意の適切な組合せが含まれる。ここで使用されるコンピュータ可読記憶媒体は、例えば無線電波若しくは他の自由伝播する電磁波、導波若しくは他の送信媒体を介して伝播する電磁波（例えば、光ケーブルを介する光パルス）、又は電線で送信される電気信号のような、瞬時の信号そのものであるとは解釈されない。

ここで説明されるコンピュータが読み取り可能なプログラム命令は、コンピュータ可読記憶媒体から各計算／処理デバイスにダウンロードすることができ、又は、ネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／若しくは無線ネットワークを介して外部のコンピュータ若しくは外部記憶装置にダウンロードすることができる。ネットワークは、銅線送信ケーブル、光ケーブル送信、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含むことができる。各計算／処理デバイスにおけるネットワークインタフェースカード又はネットワークインタフェースは、コンピュータが読み取り可能なプログラム命令をネットワークから受信し、該コンピュータが読み取り可能なプログラム命令を転送し、各計算／処理デバイスのコンピュータ可読記憶媒体に記憶されるようにする。

本開示の操作を実行するためのコンピュータプログラム命令は、アセンブラ指示文、命令セットアーキテクチャ（ＩＳＡ：Instruction Set Architecture）、機械語命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は、一種類若しくは複数種類のプログラミング言語の任意の組合せで記述されたソースコード若しくはオブジェクトコードであり得る。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向のプログラミング言語、及び、「Ｃ」言語又は類似のプログラミング語言のような一般的なプロセス式プログラミング言語を含む。コンピュータが読み取り可能なプログラム命令は、全てユーザコンピュータ上で実行することができ、部分的にユーザコンピュータ上で実行することができ、１つの独立したソフトウェアパッケージとして実行することができ、ユーザコンピュータ上で部分的に実行するとともにリモートコンピュータ上で部分的に実行することができ、又は全てリモートコンピュータ若しくはサーバ上で実行することができる。リモートコンピュータにかかる状況において、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータに接続することができるか、又は、外部のコンピュータに接続する（例えばインターネットサービスプロバイダを利用しインターネットを介して接続する）ことができる。いくつかの実施形態では、コンピュータが読み取り可能なプログラム命令のステータス情報を利用して、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブルロジックアレイ（ＰＬＡ）のような電子回路をカスタマイズすることができる。当該電子回路は、コンピュータが読み取り可能なプログラム命令を実行することで、本開示の各態様を実現することができる。

ここでは、本開示の実施形態にかかる方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照して、本開示の各態様を説明した。理解すべき点として、フローチャート及び／又はブロック図における各ブロック並びにフローチャート及び／又はブロック図における各ブロックの組合せは、いずれも、コンピュータが読み取り可能なプログラム命令により実現可能である。

これらのコンピュータが読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットに提供されて、マシンを生成することができ、これらの命令がコンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットにより実行された場合、フローチャート及び／又はブロック図における１つ又は複数のブロックで規定された機能／動作を実現する装置が生成される。これらのコンピュータが読み取り可能なプログラム命令は、コンピュータ可読記憶媒体に記憶されてもよい。これらの命令によって、コンピュータ、プログラミング可能なデータ処理装置及び／又はその他のデバイスは特定の方法で動作を行う。したがって、命令が記憶されているコンピュータ可読媒体は、フローチャート及び／又はブロック図における１つ又は複数のブロックで規定された機能／動作を実現する各態様の命令が含まれている製品を含む。

コンピュータが読み取り可能なプログラム命令を、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスにロードして、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイス上で一連の操作ステップを実行させ、コンピュータが実現するプロセスを生成してもよい。これにより、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスで実行される命令に、フローチャート及び／又はブロック図における１つ又は複数のブロックで規定された機能／動作を実現させる。

図中のフローチャート及びブロック図は、本開示の複数の実施形態にかかるシステム、方法、コンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を表す。この点において、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を示すことができ、前記モジュール、プログラムセグメント又は命令の一部は、規定されたロジック機能を実現するための１つ又は複数の実行可能な命令を含む。代替としてのいくつかの実現形態において、ブロック内に表記された機能は、図中の表記と異なる順序で発生してもよい。例えば、２つの連続するブロックは実際には基本的に並行して実行することができるが、場合によっては反対の順序で実行されてもよい。これは、関係する機能によって定められる。また、注意すべき点として、ブロック図及び／又はフローチャートにおける各ブロック、並びにブロック図及び／又はフローチャートにおけるブロックの組合せは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムで実現することができ、又は、専用のハードウェアとコンピュータ命令との組合せにより実現することができる。

以上、本開示の各実施形態を説明したが、上述した説明は、例示的なもので、全て網羅したものではなく、開示された各実施形態に限定されない。説明した各実施形態の範囲及び精神から逸脱しない限り、当業者が複数の修正及び変更を行うことができることは明らかである。ここで使用された用語は、各実施形態の原理、実際の応用又は市場での技術改良について最適な説明を行うこと、又は当業者に本明細書で開示された各実施形態を理解させることを意図して、選択したものである。

Claims

第１画像及び少なくとも１つの第２画像を取得することと、
前記少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果に基づいて、前記第１画像の第１セマンティックセグメンテーションラベルを生成することと、
を含み、
前記少なくとも１つの第２画像における各画像は、前記第１画像の変換画像であり、
複数の画像と、前記複数の画像の第１セマンティックセグメンテーションラベルセットを取得することと、
前記複数の画像に対応する複数の画像マスクを取得することと、
前記複数の画像マスクと前記第１セマンティックセグメンテーションラベルセットに基づいて、前記複数の画像の第２セマンティックセグメンテーションラベルセットを生成することと、
前記複数の画像と前記第２セマンティックセグメンテーションラベルセットに基づいて、混合画像と、前記混合画像のセマンティックセグメンテーションラベルを生成することと、
をさらに含み、
前記複数の画像は前記第１画像を含み、前記第１セマンティックセグメンテーションラベルセットは、前記第１セマンティックセグメンテーションラベルを含み、
各画像マスクは、前記複数の画像の中の対応する画像における対象領域を選択するために用いられる、
画像処理方法。
前記少なくとも１つの第２画像を取得することは、
前記第１画像に画像オーギュメンテーションを実行することにより、前記少なくとも１つの第２画像を取得することを含む、
請求項１に記載の方法。
前記画像オーギュメンテーションは、ミラーリング変換、回転、拡大・縮小、トリミング、平行移動、明度変更、ノイズ追加及び色変換のうち、少なくとも１つを含む、
請求項２に記載の方法。
画像セマンティックセグメンテーションモデルを用いて、前記少なくとも１つの第２画像についての少なくとも１つのセマンティックセグメンテーションラベル又は少なくとも１つのセマンティック信頼度ラベルを生成して、前記少なくとも１つのセマンティック予測結果とすることをさらに含み、
前記少なくとも１つのセマンティック信頼度ラベルは、前記少なくとも１つの第２画像における各画素が所定のセマンティッククラスに属する信頼度を示す、
請求項１に記載の方法。
前記第１セマンティックセグメンテーションラベルを生成することは、
前記少なくとも１つのセマンティック予測結果に対してそれぞれ、前記画像オーギュメンテーションに対応する逆変換を行うことにより、逆変換された少なくとも１つのセマンティック予測結果を得ることと、
前記逆変換された少なくとも１つのセマンティック予測結果に基づいて、前記第１セマンティックセグメンテーションラベルを生成することと、
を含む、
請求項２に記載の方法。
前記複数の画像に対応する複数の画像マスクを取得することは、
前記第１画像における複数の画素の対応する予測セマンティッククラスを決定することと、
前記複数の画素の対応する予測セマンティッククラスに基づいて、前記複数の画素の対応スコアを決定することと、
前記複数の画素の対応スコアに基づいて、前記第１画像の第１画像マスクを決定することと、
を含み、
各画素のスコアは、当該画素と、前記第１画像におけるノイズ領域との関連度を示し、
前記第１画像マスクは、前記複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる、
請求項１に記載の方法。
第１画像及び少なくとも１つの第２画像を取得する手段と、
前記少なくとも１つの第２画像の少なくとも１つのセマンティック予測結果に基づいて、前記第１画像の第１セマンティックセグメンテーションラベルを生成する手段と、を備え、
前記少なくとも１つの第２画像における各画像は、前記第１画像の変換画像であり、
複数の画像と、前記複数の画像の第１セマンティックセグメンテーションラベルセットを取得する手段と、
前記複数の画像に対応する複数の画像マスクを取得する手段と、
前記複数の画像マスクと前記第１セマンティックセグメンテーションラベルセットに基づいて、前記複数の画像の第２セマンティックセグメンテーションラベルセットを生成する手段と、
前記複数の画像と前記第２セマンティックセグメンテーションラベルセットに基づいて、混合画像と、前記混合画像のセマンティックセグメンテーションラベルを生成する手段と、をさらに備え、
前記複数の画像は前記第１画像を含み、前記第１セマンティックセグメンテーションラベルセットは、前記第１セマンティックセグメンテーションラベルを含み、
各画像マスクは、前記複数の画像の中の対応する画像における対象領域を選択するために用いられる、
コンピューティングデバイス。
前記第１画像に画像オーギュメンテーションを実行することにより、前記少なくとも１つの第２画像を取得する手段をさらに備える、
請求項７に記載のコンピューティングデバイス。
画像セマンティックセグメンテーションモデルを用いて、前記少なくとも１つの第２画像についての少なくとも１つのセマンティックセグメンテーションラベル又は少なくとも１つのセマンティック信頼度ラベルを生成して、前記少なくとも１つのセマンティック予測結果とする手段をさらに備え、
前記少なくとも１つのセマンティック信頼度ラベルは、前記少なくとも１つの第２画像における各画素が所定のセマンティッククラスに属する信頼度を示す、
請求項７に記載のコンピューティングデバイス。
前記第１画像における複数の画素の対応する予測セマンティッククラスを決定する手段と、
前記複数の画素の対応する予測セマンティッククラスに基づいて、前記複数の画素の対応スコアを決定する手段と、
前記複数の画素の対応スコアに基づいて、前記第１画像の第１画像マスクを決定する手段と、をさらに備え、
各画素のスコアは、当該画素と、前記第１画像におけるノイズ領域との関連度を示し、
前記第１画像マスクは、前記複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる、
請求項７に記載のコンピューティングデバイス。
前記複数の画像マスクは、前記第１画像に対応する第１画像マスクを含み、
前記第１セマンティックセグメンテーションラベルと前記第１画像マスクとにマスキング操作を行うことにより、前記第１画像の第２セマンティックセグメンテーションラベルを生成する手段をさらに備え、
前記第２セマンティックセグメンテーションラベルセットは、前記第２セマンティックセグメンテーションラベルを含む、
請求項７に記載のコンピューティングデバイス。
前記複数の画像の対応する重みに基づいて前記複数の画像を重み付けし加算することにより、前記混合画像を生成する手段と、
前記複数の画像の対応する重みに基づいて前記第２セマンティックセグメンテーションラベルセットを重み付けし加算することにより、前記混合画像のセマンティックセグメンテーションラベルを生成する手段と、をさらに備える、
請求項７に記載のコンピューティングデバイス。
トレーニングデータを取得する手段と、
入力画像のセマンティックセグメンテーションラベルを生成するために、前記トレーニングデータに基づいて、対象のセマンティックセグメンテーションモデルに学習させる手段と、をさらに備え、
前記トレーニングデータは、
前記第１画像と前記第１セマンティックセグメンテーションラベルとを含む第１トレーニングデータ、及び
前記混合画像と、前記混合画像のセマンティックセグメンテーションラベルとを含む第２トレーニングデータ
のうち少なくともいずれかを含む、
請求項７に記載のコンピューティングデバイス。