JP7347492B2 - 画像処理方法及びコンピューティングデバイス - Google Patents

画像処理方法及びコンピューティングデバイス Download PDF

Info

Publication number
JP7347492B2
JP7347492B2 JP2021211199A JP2021211199A JP7347492B2 JP 7347492 B2 JP7347492 B2 JP 7347492B2 JP 2021211199 A JP2021211199 A JP 2021211199A JP 2021211199 A JP2021211199 A JP 2021211199A JP 7347492 B2 JP7347492 B2 JP 7347492B2
Authority
JP
Japan
Prior art keywords
image
semantic segmentation
semantic
images
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021211199A
Other languages
English (en)
Other versions
JP2022103149A (ja
Inventor
ヤン リー
ニー ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022103149A publication Critical patent/JP2022103149A/ja
Application granted granted Critical
Publication of JP7347492B2 publication Critical patent/JP7347492B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Description

本開示の実施形態は画像処理分野に関し、より具体的には、画像処理のための方法、デバイス及びコンピュータ可読記憶媒体に関する。
画像のセマンティックセグメンテーションは、画像処理及びコンピュータビジョンの分野で重要な技術であり、画像理解の基礎となるものである。画像のセマンティックセグメンテーションとは、画像内の各画素を分類し、各画素のセマンティッククラス(例えば、背景、人物又は車両に属するか等)を決定し、その結果、異なるセマンティッククラスに応じて画像領域を分割するものである。
一般的に、画像のセマンティックセグメンテーションを実施するために、トレーニングデータセットに基づいて画像セマンティックセグメンテーションモデル(例えば、ディープニューラルネットワーク)に学習させることができる。トレーニングデータセットの1つのトレーニングサンプルは、トレーニング画像と、そのトレーニング画像にアノテーションされたセマンティックセグメンテーションラベルとを含むことができる。場合によっては、トレーニング画像にアノテーションされたセマンティックセグメンテーションラベルが不正確なものである可能性があり、これは「ノイズラベル」とも称される。ノイズラベルを含むトレーニングサンプルを用いて画像セマンティックセグメンテーションモデルに学習させると、学習させた画像セマンティックセグメンテーションモデルが、正確なセマンティックセグメンテーション結果を出せない事態を招く。
本開示の実施形態では、画像処理のための解決手段が提供される。
本開示の第1の態様では、画像処理方法が提供される。当該方法は、第1画像及び少なくとも1つの第2画像を取得することと、少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果に基づいて、第1画像の第1セマンティックセグメンテーションラベルを生成することとを含む。少なくとも1つの第2画像における各画像は、第1画像の変換画像である。
本開示の第2の態様では、コンピューティングデバイスが提供される。当該コンピューティングデバイスは少なくとも1つのプロセッサを備える。前記少なくとも1つのプロセッサは、第1画像及び少なくとも1つの第2画像を取得し、少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果に基づいて、第1画像の第1セマンティックセグメンテーションラベルを生成するように配置される。少なくとも1つの第2画像における各画像は、第1画像の変換画像である。
本開示の第3の態様では、コンピュータ可読記憶媒体が提供される。当該コンピュータ可読記憶媒体には、マシンが実行可能な命令が記憶されており、当該マシンが実行可能な命令は、デバイスにより実行される場合に、当該デバイスに、本開示の第1の態様に記載の方法の任意のステップを実行させる。
本開示の第4の態様では、コンピュータプログラム製品が提供される。当該コンピュータプログラム製品は、コンピュータ可読記憶媒体に有形記憶されてマシンが実行可能な命令を含む。当該マシンが実行可能な命令は、デバイスによって実行される場合に、当該デバイスに、本開示の第1の態様に記載の方法の任意のステップを実行させる。
発明の概要部分は、一連の概念を簡略化して紹介するためのものである。これらについては、以下の実施形態においてさらに説明を行う。発明の概要部分の記述は、本開示の重要又は必要な特徴を標記することを意図したものではなく、本開示の範囲を限定することも意図していない。本開示のその他の特徴は、以下の説明により容易に理解できるはずである。
本発明の目的、利点、及びその他の特徴は、以下の開示内容及び請求項から、より明らかになるはずである。ここでは、あくまで例示を目的として、図面を参照して好ましい実施形態の非限定的な説明を行う。
本開示の実施形態にかかる画像処理システムの模式的なブロック図を示す。
本開示の実施形態にかかる画像処理の模式図を示す。
本開示の実施形態にかかる画像処理の模式図を示す。
本開示の実施形態にかかる、画像処理に用いられる例示的方法のフローチャートを示す。
本開示の実施形態にかかる、画像処理に用いられる例示的方法のフローチャートを示す。
本開示の実施形態にかかる例示的モデル学習方法のフローチャートを示す。
本開示の実施形態にかかる、画像処理に用いられる例示的方法のフローチャートを示す。
本開示の実施形態を実施可能な例示的なコンピューティングデバイスの模式的なブロック図を示す。
各図において、同一又は対応する図面符号は、同一又は対応する部分を示す。
以下、図面を参照しつつ、本開示の実施形態についてより詳細に説明する。図には本開示のいくつかの実施形態が示されているが、本開示は様々な形式で実現することが可能であり、ここに記載された実施形態に限定されると解釈すべきではなく、むしろ、これら実施形態は本開示を、より徹底的且つ完全に理解するために提供されるものである、と理解されなければならない。また、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するためのものではない点も、理解されなければならない。
本開示の実施形態の説明において、「含む」及び類似の用語は開放的なもの、すなわち「…を含むが、これらに限定されない」と理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に基づく」と理解されるべきである。用語「1つの実施形態」又は「当該実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「第1」、「第2」等は、異なるか又は同一の対象を示すことができる。以下の文中ではさらに、その他の明確な定義及び暗黙の定義が含まれる可能性がある。
文中で用いられる「回路」という用語は、ハードウェア回路、及び/又は、ハードウェア回路とソフトウェアとの組合せを指すことができる。例えば、当該回路は、アナログ及び/又はデジタルのハードウェア回路とソフトウェア/ファームウェアとの組合せであってもよい。別の例として回路は、ソフトウェアを備えるハードウェアプロセッサ(デジタル信号処理器を含む)、ソフトウェア、及びメモリの任意の部分であってもよい。それらは、デバイスに様々な機能を実行させるために協働する。さらに別の例で回路は、マイクロプロセッサ又はマイクロプロセッサの一部等のハードウェア回路及び/又はプロセッサであってもよく、操作のためにソフトウェア/ファームウェアを必要とするが、動作にソフトウェアが必要とされない場合には当該ソフトウェアはなくてもよい。文中で用いられる「回路」という用語には、ハードウェア回路又はプロセッサのみの実装、又は、ハードウェア回路又はプロセッサの一部にそれ(又はそれら)に付随するソフトウェア及び/又はファームウェアを加えた実装も含まれる。
上述したように、画像のセマンティックセグメンテーションを実施するためには、通常、トレーニングデータセットに基づいて画像セマンティックセグメンテーションモデル(例えば、ディープニューラルネットワーク)に学習させる。トレーニングデータセットの1つのトレーニングサンプルは、トレーニング画像と、当該トレーニング画像にアノテーションされたセマンティックセグメンテーションラベルとを含むことができる。トレーニング画像のセマンティックセグメンテーションラベルは、手動でアノテーションすることができる。アノテーターの経験が不足しているか、又は画像自体のアノテーションの難易度が高い場合、アノテーションされたセマンティックセグメンテーションラベルが不正確になる可能性がある。場合によっては、トレーニング画像のセマンティックセグメンテーションラベルを、何らかのデバイスを使って一括してラベル付けすることによって、手作業によるラベル付けのコストを削減することができる。こうした場合、トレーニング画像のセマンティックセグメンテーションラベルが不正確なこともある。このような不正確なセマンティックセグメンテーションラベルは「ノイズラベル」とも称される。ノイズラベルを含むトレーニングサンプルを用いて画像セマンティックセグメンテーションモデルに学習させると、学習させた画像セマンティックセグメンテーションモデルが、正確なセマンティックセグメンテーション結果を出せない事態を招く。
上述の問題及び/又は他の潜在的問題を解決するために、本開示の実施形態は、画像処理に用いられる解決手段を提供する。
いくつかの実施形態では、第1画像及び少なくとも1つの第2画像を取得することができる。少なくとも1つの第2画像における各画像は、第1画像の変換画像である。そして、少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果に基づいて、第1画像の第1セマンティックセグメンテーションラベルを生成する。第1画像と第1セマンティックセグメンテーションラベルをトレーニングデータとし、画像セマンティックセグメンテーションモデルに学習させることで、学習させた画像セマンティックセグメンテーションモデルの精度向上に寄与する。
追加で又は選択的に、別のいくつかの他の実施形態では、複数の画像と、複数の画像の第1セマンティックセグメンテーションラベルセットとが取得されてもよい。さらに、複数の画像に対応する複数の画像マスクが取得されてもよい。各画像マスクは、複数の画像における対応する画像における対象領域(例えば、ノイズの少ない領域)を選択するために用いられる。そして、複数の画像マスクと第1セマンティックセグメンテーションラベルセットに基づいて、複数の画像の第2セマンティックセグメンテーションラベルセットを生成し、複数の画像と第2セマンティックセグメンテーションラベルセットに基づいて、混合画像と当該混合画像のセマンティックセグメンテーションラベルを生成する。生成された混合画像とそのセマンティックセグメンテーションラベルをトレーニングデータとし、画像セマンティックセグメンテーションモデルに学習させることで、ノイズラベルがモデルの学習に与える影響をさらに軽減するのに寄与し、その結果、学習させた画像セマンティックセグメンテーションモデルの精度が向上する。
以下、図面と結びつけて本開示の実施形態について詳細に説明する。本開示の実施形態では、「モデル」という用語は、入力を処理し、対応する出力を提供することができる。ニューラルネットワークモデルを例とすると、通常は入力層、出力層、及び入力層と出力層との間にある1つ又は複数の隠れ層を含む。深層学習のアプリケーションで使用されるモデル(「深層学習モデル」とも呼ばれる)は通常、隠れ層を多く含むことで、ネットワークの深さを拡張する。ニューラルネットワークモデルの各層は、前の層の出力が次の層の入力として使用されるように順次接続されており、入力層はニューラルネットワークモデルへの入力を受け取り、出力層の出力はニューラルネットワークモデルの最終出力となる。ニューラルネットワークモデルの各層は、1つ又は複数のノード(処理ノード又はニューロンとも称される)を含み、各ノードは前の層からの入力を処理する。文中では、「ニューラルネットワーク」、「モデル」、「ネットワーク」、及び「ニューラルネットワークモデル」という用語を互換的に使用することができる。
図1は、本開示の実施形態にかかる画像処理システム100の模式的なブロック図を示す。図1に示すように、システム100は、画像収集装置110、画像アノテーション装置120、画像処理装置130、モデル学習装置140、及びモデル適用装置150を備えることができる。いくつかの実施形態では、上述の複数の装置はそれぞれ、異なる物理デバイスに実装されることができる。選択的に、上述の複数のデバイスのうち少なくとも一部は、同じ物理的デバイスに実装されてもよい。図1に示すシステム100は、本開示の実施形態を実施可能な1つの例示に過ぎず、本開示の範囲を限定することを意図していないことを理解されたい。本開示の実施形態は、他のシステム又はアーキテクチャにも同様に適用される。
画像収集装置110は、モデルに学習させるための画像コレクション101を収集することができる。画像コレクション101における画像は、任意のフォーマットの画像であってもよいことを理解されたい。さらに、画像収集装置110は、既知の又は将来開発される任意の方法を使用して画像コレクション101を収集することができる。本開示の範囲はこの点において限定されない。
画像アノテーション装置120は、各画像101に対して、当該画像内の各画素のセマンティッククラスを示すために、セマンティックセグメンテーションラベル102(本明細書では「初期セマンティックセグメンテーションラベル」とも称される)を生成することができる。画素のセマンティッククラスとは、画像におけるその画素に対応するオブジェクトのタイプを指す。画像におけるオブジェクトは、背景、人物、動物、車両等を含むことができるがこれらに限定されない。例えば、生成されるセマンティックセグメンテーションラベルは、各画素の真のセマンティッククラスを示すベクトル又は配列であってもよいし、図1に示すように可視化された画像であってもよい。異なるセマンティッククラスの画素は、異なる色を用いて標記することができる。理解すべき点として、画像のアノテーションは手動で行ってもよい。この場合、画像アノテーション装置120は、各画像101の各画素に対してアノテーションするように手動で制御される装置又はデバイスであってもよい。
画像コレクション101及びその対応するセマンティックセグメンテーションラベル102は、画像処理装置130に提供されることができる。画像処理装置130は画像コレクション101及びその対応するセマンティックセグメンテーションラベル102を処理して、複数のトレーニングサンプルを含むトレーニングデータセット103を生成することができる。
いくつかの実施形態では、画像処理装置130は、画像コレクション101における画像101(以下、「第1画像」とも称する)に対して画像オーギュメンテーション(Image Augmentation)を行い、第1画像の少なくとも1つの変換画像(以下、「少なくとも1つの第2画像」とも称する)を得ることができる。画像処理装置130は、少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果を決定することができる。例えば、少なくとも1つの変換画像における各変換画像について、画像処理装置130は、当該変換画像のセマンティックセグメンテーションラベル又はセマンティック信頼度ラベルを生成して当該変換画像のセマンティック予測結果とすることができ、ここで、セマンティック信頼度ラベルは、例えば、当該変換画像における各画素が複数の所定のセマンティッククラスに属する対応する確率を示すことができる。画像処理装置130は、少なくとも1つのセマンティック予測結果に基づいて、第1画像101のセマンティックセグメンテーションラベルを生成することができる。例えば、第1画像101及び生成されたセマンティックセグメンテーションラベルは、トレーニングデータセット103における1つのトレーニングサンプルとして使用することができる。
追加で又は選択的に、いくつかの実施形態では、画像処理装置130は、画像コレクション101から複数の画像101を取得してもよい。画像処理装置130は、当該複数の画像101の第1セマンティックセグメンテーションラベルセットを取得してもよい。例えば、第1セマンティックセグメンテーションラベルセットにおける1つのセマンティックセグメンテーションラベルは、複数の画像101における対応する画像101の初期セマンティックセグメンテーションラベル102であってもよい。また例えば、第1セマンティックセグメンテーションラベルセットにおける1つのセマンティックセグメンテーションラベルは、上述したように、対応する画像101の少なくとも1つの変換画像の少なくとも1つのセマンティック予測結果に基づいて生成されたセマンティックセグメンテーションラベルであってもよい。画像処理装置130は、複数の画像101に対応する複数の画像マスクを取得することができる。各画像マスクは、対応する画像101における対象領域の選択に用いることができる。対象領域は、当該画像101においてそのセマンティッククラスがより容易に予測される複数の画素、すなわち、ノイズの程度が低い領域を含むことができる。これは本明細書では「非ノイズ領域」とも称される。画像処理装置130は、複数の画像マスクと第1セマンティックセグメンテーションラベルセットに基づいて、複数の画像101の第2セマンティックセグメンテーションラベルセットを生成することができる。例えば、複数の画像101における各画像について、画像処理装置130は、当該画像に対応する画像マスクと、第1セマンティックセグメンテーションラベルセットにおける当該画像に対応するセマンティックセグメンテーションラベルとにマスキング操作(すなわち、ドット積)を行うことにより、そのセマンティックセグメンテーションラベルにおいて対象領域のそれらの画素に対応する部分を選択し、非対象領域のそれらの画素の部分を無視することができる。こうして、第2セマンティックセグメンテーションラベルセットにおける、当該画像に対応するセマンティックセグメンテーションラベルを得ることができる。そして、画像処理装置130は、当該複数の画像101と第2セマンティックセグメンテーションラベルセットに基づいて、混合画像と、当該混合画像のセマンティックセグメンテーションラベルを生成することができる。例えば、生成された混合画像とそのセマンティックセグメンテーションラベルを、トレーニングデータセット103における1つのトレーニングサンプルとすることができる。
追加で又は選択的に、いくつかの実施形態では、画像処理装置130は、オリジナルの各画像101及びその対応する初期セマンティックセグメンテーションラベル102を、トレーニングデータセット103における1つのトレーニングサンプルとして使用してもよい。
このようにして、画像処理装置130は、複数のトレーニングサンプルを含むトレーニングデータセット103を生成することができる。トレーニングデータセット103は、対象のセマンティックセグメンテーションモデル104の学習に使用するように、モデル学習装置140に提供されることができる。
対象のセマンティックセグメンテーションモデル104は、それに入力される画像における各画素が属するセマンティッククラスを予測するように学習させることができる。例えば、モデル学習装置140は、トレーニングデータセット103に基づいてモデルに学習させ、対象のセマンティックセグメンテーションモデル104のモデルパラメータを決定することができる。学習させた対象のセマンティックセグメンテーションモデル104(例えば、決定されたモデルパラメータ)は、モデル適用装置150に提供されることができる。モデル適用装置150は、入力画像105を取得し、学習させた対象のセマンティックセグメンテーションモデル104を使用して、当該入力画像105における各画素のセマンティッククラスを予測することができる。モデル適用装置150は、予測結果に基づいて、入力画像105を示すセマンティックセグメンテーションラベル106を生成することができる。例えば、生成されるセマンティックセグメンテーションラベル106は、入力画像105における各画素のセマンティッククラスを示すベクトル又は配列であってもよいし、図1に示すように可視化された画像であってもよい。異なるセマンティッククラスの画素は、異なる色で充填することができる。
対象のセマンティックセグメンテーションモデル104は、様々な分野に適用されることができる。医療分野では、画像セマンティックセグメンテーションモデルは、入力される様々な医用画像に対してセマンティックセグメンテーションを行うことで、病変部を識別・理解して、医師の病気診断を支援することができる。例えば、医用画像を処理する方法は、入力される医用画像を取得することと、学習させた画像セマンティックセグメンテーションモデルを使用して、当該医用画像のセマンティックセグメンテーションラベルを生成することと、当該セマンティックセグメンテーションラベルに基づいて、医用画像における病変を識別することとを含むことができる。ここでセマンティックセグメンテーションラベルは、当該医用画像における画素のセマンティッククラスを示す。例えば自動運転の分野では、画像セマンティックセグメンテーションモデルは、走行中の車両が取得した画像に対してセマンティックセグメンテーションを行い、その中のストリートシーンを認識・理解して、自動運転システムの運転判断を支援することができる。例えば、自動運転方法は、走行中の車両によって撮影された画像を取得することと、学習させた画像セマンティックセグメンテーションモデルを使用して、当該画像のセマンティックセグメンテーションラベルを生成することと、当該セマンティックセグメンテーションラベルに基づいて、画像内のストリートシーンを認識することと、認識結果に基づいて自動運転の判断を生成することとを含むことができる。ここでセマンティックセグメンテーションラベルは、当該画像における画素のセマンティッククラスを示す。
以下、図2及び図3を結びつけて、図1に示す画像処理装置130が実行する操作について、さらに詳細に説明する。理解すべき点として、画像処理装置130は、図2に示す画像処理操作のみを行ってもよいし、図3に示す画像処理操作のみを行ってもよいし、又は図2に示す画像処理操作を先に行ってから図3に示す画像処理動作を行ってもよい。
図2は、本開示の実施形態にかかる画像処理の模式図を示す。図2は、画像コレクション101から取得した画像101に対して画像オーギュメンテーションを行うことで得られる複数の変換画像201-1、201-2......201-4(以下、まとめて又は個別に「変換画像201」と称する)を示す。例えば、画像オーギュメンテーションは、ミラーリング変換、回転、拡大/縮小、トリミング、平行移動、明度変更、ノイズ追加、色変換等を含むことができるが、これらに限定されない。
図2に示すように、画像処理装置130は、画像セマンティックセグメンテーションモデル210を使用して、各変換画像201における画素のセマンティッククラスを予測し、各変換画像201のセマンティック予測結果を生成することができる。画像セマンティックセグメンテーションモデル210は、図1に示す対象のセマンティックセグメンテーションモデル104と同じモデルであってもよいし、異なるモデルであってもよい。例えば、画像セマンティックセグメンテーションモデル210は、事前に学習させた画像セマンティックセグメンテーションモデルであってもよいし、初歩的な学習をさせた画像セマンティックセグメンテーションモデルであってもよいし、又は、ノイズラベルを含むトレーニングサンプルを用いて学習させた画像セマンティックセグメンテーションモデルであってもよい。すなわち、画像セマンティックセグメンテーションモデル210は、予測精度の低いセマンティックセグメンテーションモデルを用いて実現してもよいし、セマンティックセグメンテーション機能を実現できる他のアルゴリズム又はデバイスを用いて実現してもよい。いくつかの実施形態では、各変換画像201のセマンティック予測結果は、当該変換画像201における各画素が属するセマンティッククラスを示す、当該変換画像201のセマンティックセグメンテーションラベルとして表すことができる。選択的に他のいくつかの実施形態では、各変換画像201のセマンティック予測結果は、当該変換画像201のセマンティック信頼度ラベルとして表されてもよい。セマンティック信頼度ラベルは、当該変換画像201における各画素が、複数の所定セマンティッククラスに属する対応する確率を示す。図2に示すように、例えば、変換画像201-1に対する予測結果はセマンティック信頼度ラベル202-1として表され、変換画像201-2に対する予測結果はセマンティック信頼度ラベル202-2として表され、変換画像201-3に対する予測結果はセマンティック信頼度ラベル202-3として表され、変換画像201-4に対する予測結果はセマンティック信頼度ラベル202-4として表される。以下では、セマンティック信頼度ラベル202-1~202-4をまとめて、又は個別に「セマンティック信頼度ラベル202」と称することができる。
画像処理装置130は、複数の変換画像201のセマンティック予測結果に基づいて、オリジナルの画像101のセマンティックセグメンテーションラベル203を生成することができる。例えば、画像処理装置130はまず、複数の変換画像201の複数のセマンティック信頼度ラベル202に対してそれぞれ、画像オーギュメンテーションに対応する逆変換を行い、複数の逆変換されたセマンティック信頼度ラベルを融合させることで、融合したセマンティック信頼度ラベルを生成することができる。融合したセマンティック信頼度ラベルは、オリジナルの画像101における各画素が複数の所定のセマンティッククラスに属する信頼度を示すことができる。そして、画像処理装置130は、オリジナルの画像101における各画素に対し、信頼度が最も高いセマンティッククラスを、当該画素が属するセマンティッククラスとして決定することができ、これによってセマンティックセグメンテーションラベル203を生成することができる。選択的に、いくつかの実施形態では、画像処理装置130は、最適化されたセマンティックセグメンテーションラベル204を得るために、生成されたセマンティックセグメンテーションラベル203に対して平滑化を行ってもよい。理解すべき点として、平滑化操作は、例えば条件付き確率場(CRF)アルゴリズム等、既知の又は将来開発される任意の適切なアルゴリズムに基づくことができる。
図3は、複数の画像301-1及び301-2(例えば、画像コレクション101から取得されたもの)と、それらに対応するセマンティックセグメンテーションラベル304-1及び304-2とを示す。例えば、セマンティックセグメンテーションラベル304-1は、画像301-1の初期セマンティックセグメンテーションラベルであってもよいし、図2に示す方法で生成されるセマンティックセグメンテーションラベルであってもよい。セマンティックセグメンテーションラベル304-2は、画像301-2の初期セマンティックセグメンテーションラベルであってもよいし、図2に示す方法で生成されるセマンティックセグメンテーションラベルであってもよい。図3では一対の画像を処理することしか示されていないが、理解すべき点として、これらは単に例示の目的で使用されており、本開示の範囲に対する何らかの限定を暗示するものではない。いくつかの実施形態において画像処理装置130は、画像コレクション101から2つより多い画像を取得して処理してもよい。
いくつかの実施形態において、図3に示すように、複数の画像301-1及び301-2における各画像に対し、画像処理装置130は画像セマンティックセグメンテーションモデル310を使用して、当該画像における複数の画素の対応するセマンティッククラスを予測することができる。画像セマンティックセグメンテーションモデル310は、対象のセマンティックセグメンテーションモデル104と同じモデルであってもよいし、異なるモデルであってもよい。例えば、画像セマンティックセグメンテーションモデル310は、事前に学習させた画像セマンティックセグメンテーションモデルであってもよいし、初歩的な学習をさせた画像セマンティックセグメンテーションモデルであってもよいし、又は、学習させたことがない画像セマンティックセグメンテーションモデルであってもよい。すなわち、画像セマンティックセグメンテーションモデル310は、予測精度の低いセマンティックセグメンテーションモデルを用いて実現されてもよいし、セマンティックセグメンテーション機能を実現できる他のアルゴリズム又はデバイスを用いて実現されてもよい。
画像処理装置130はさらに、各画像に対するセマンティック予測結果に基づいて、当該画像における複数の画素の対応するスコアを決定することができる。各画素のスコアは、当該画素と、当該画像におけるノイズ領域との関連度を示すことができる。言い換えれば、各画素のスコアは、当該画素のセマンティッククラスを予測する場合の困難の程度を示すことができる。図3に示すように、画像301-1の複数の画素の対応スコアは、ヒートマップ302-1で表すことができ、画像301-2の複数の画素の対応スコアは、ヒートマップ302-2で表すことができる。
いくつかの実施形態では、各画像の各画素について、画像処理装置130は、当該画素の予測セマンティッククラスと当該画素の真のセマンティッククラスとの間の差に基づいて、当該画素のスコアを決定することができる。ここで、当該画素の真のセマンティッククラスは、当該画像のセマンティックセグメンテーションラベルによって示される。例えば、画像セマンティックセグメンテーションモデル310は、各画像における各画素が、異なるセマンティッククラスに属する対応する確率を予測することができ、一方で当該画像のセマンティックセグメンテーションラベルは、各画素が属する真のセマンティッククラスを示すことができる。画像処理装置130は、画像セマンティックセグメンテーションモデル310が予測した各画素がその真のセマンティッククラスに属する確率と、所定の確率値(例えば、100%)との間の損失を、各画素のスコアとして算出することができる。つまり、画素のスコアが高いほど、当該画素の予測セマンティッククラスと、その真のセマンティックとの差が大きいということになる。
選択的に、いくつかの実施形態では、画像処理装置130は各画像における各画素について、当該画素の予測セマンティッククラスにおける不確実性又は乱雑さの程度(例えば、エントロピー)に基づいて、当該画素のスコアを決定してもよい。例えば、画像セマンティックセグメンテーションモデル310は、各画像における各画素が、異なるセマンティッククラスに属する対応する確率を予測することができる。画像処理装置130は、既知の又は開発予定の任意の適切なアルゴリズムを使用して、各画素に対して予測された異なるセマンティッククラスに属する対応する確率に基づいて、当該画素の予測セマンティッククラスの不確実性又は乱雑さの程度を決定して、当該画素のスコアとしてもよい。つまり、ある画素のスコアが高いほど、当該画素の予測セマンティッククラスの不確実性又は乱雑さの程度が高いことということになる。
いくつかの実施形態では、図3に示すように、画像処理装置130は、画像301-1における複数の画素の対応スコアを示すヒートマップ302-1に基づいて、画像301-1に対応する画像マスク303-1を決定することができる。同様に、画像処理装置130は、画像301-2における複数の画素の対応スコアを示すヒートマップ302-2に基づいて、画像301-2に対応する画像マスク303-2を決定することができる。
いくつかの実施形態では、画像処理装置130は、各画像における複数の画素のスコアを大きいものから小さいものへと順位付けし、順位が後ろのN%の画素を選択するか、又はスコアが閾値スコアn未満の画素を選択することができる。例えば、N%又はnの数値は検証実験から決定することができる。画像処理装置130は、選択された画素に対応する位置のマスク値を1に設定し、他の位置のマスク値を0に設定することで、当該画像の画像マスクを生成することができる。選択的に、いくつかの実施形態では、画像処理装置130は、一連の画像における全ての画素のスコアを大きいものから小さいものへと順位付けし、順位が後ろのN%の画素を選択するか、又はスコアが閾値スコアn未満の画素を選択してもよい。例えば、N%又はnの数値は検証実験から決定することができる。画像処理装置130は、選択された画素に対応する位置のマスク値を1に設定し、他の位置のマスク値を0に設定することで、当該一連の画像における各画像の画像マスクを生成することができる。選択的に、他の実施形態では、画像処理装置130は、各画像における複数の画素の対応スコアを示すヒートマップを直接、当該画像の画像マスクとしてもよい。
いくつかの実施形態では、図3に示すように、画像処理装置130は、画像マスク303-1と、画像301-1のセマンティックセグメンテーションラベル304-1とにマスキング操作(すなわち、ドット積)を行うことで、画像301-1のセマンティックセグメンテーションラベル305-1を生成することができる。同様に、画像処理装置130は、画像マスク303-2と、画像301-2の初期セマンティックセグメンテーションラベル304-2とにマスキング操作(すなわち、ドット積)を行うことで、画像301-2のセマンティックセグメンテーションラベル305-2を生成することができる。図3から理解できるように、新たに生成されたセマンティックセグメンテーションラベル305-1及び305-2はそれぞれ、セマンティックセグメンテーションラベル304-1及び304-2における、対象領域(すなわち、ノイズの少ない領域)のそれらの画素に対応するセマンティックセグメンテーションラベルを保持し、非対象領域におけるそれらの画素のセマンティックセグメンテーションラベルを無視する。
いくつかの実施形態では、図3に示すように、画像処理装置130は、複数の画像301-1及び301-2と、新たに生成されたセマンティックセグメンテーションラベル305-1及び305-2とに基づいて、混合画像306及びそのセマンティックセグメンテーションラベル307をさらに生成することができる。いくつかの実施形態では、画像処理装置130は、複数の画像301-1及び301-2の対応する重みに基づいて、複数の画像301-1及び301-2を重み付けし加算することで、混合画像306を得ることができる。画像処理装置130は、複数の画像301-1及び301-2の対応する重みに基づいて、セマンティックセグメンテーションラベル305-1及び305-2を重み付けし加算することで、混合画像306のセマンティックセグメンテーションラベル307を得ることができる。理解すべき点として、画像処理装置130は、他の方法を使用して混合画像306及びそのセマンティックセグメンテーションラベル307を生成してもよい。図3に示すように、混合画像306及びそのセマンティックセグメンテーションラベル307は、図1に示すようなトレーニングデータセット103における1つのトレーニングサンプルとして、対象のセマンティックセグメンテーションモデル104に学習させるために用いることができる。
図4は、本開示の実施形態にかかる、画像処理に用いられる例示的方法400のフローチャートを示す。例えば、方法400は、図1に示す画像処理装置130により実行されることができる。以下、図1と図2とを結びつけて方法400を説明する。理解すべき点として、方法400はさらに、図示されていない付加的ブロックを含むことができ、且つ/又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。
ブロック410において、第1画像と、少なくとも1つの第2画像(例えば、図2に示すような変換画像201-1~201-4)を取得する。少なくとも1つの第2画像における各画像は、第1画像の変換画像である。
ブロック420において、少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果(例えば、図2に示すセマンティック信頼度ラベル202-1~202-4)に基づいて、第1画像の第1セマンティックセグメンテーションラベル(例えば、図2に示すセマンティックセグメンテーションラベル203及び/又は204)を生成する。
いくつかの実施形態において、少なくとも1つの第2画像を取得することは、第1画像に画像オーギュメンテーションを実行することで、少なくとも1つの第2画像を取得することを含む。画像オーギュメンテーションは、ミラーリング変換、回転、拡大/縮小、トリミング、平行移動、明度変更、ノイズ追加及び色変換のうち、少なくとも1つを含む。
いくつかの実施形態において、方法400はさらに、画像セマンティックセグメンテーションモデルを用いて、少なくとも1つの第2画像に対し、少なくとも1つのセマンティックセグメンテーションラベル又は少なくとも1つのセマンティック信頼度ラベルを生成して少なくとも1つのセマンティック予測結果とすることを含む。少なくとも1つのセマンティック信頼度ラベルは、少なくとも1つの第2画像における各画素が所定のセマンティッククラスに属する信頼度を示す。
いくつかの実施形態において、第1セマンティックセグメンテーションラベルを生成することは、少なくとも1つのセマンティック予測結果に対してそれぞれ、画像オーギュメンテーションに対応する逆変換を行うことで、逆変換された少なくとも1つのセマンティック予測結果を得ることと、逆変換された少なくとも1つのセマンティック予測結果に基づいて、第1セマンティックセグメンテーションラベルを生成することとを含む。
図5は、本開示の実施形態にかかる、画像処理に用いられる例示的方法500のフローチャートを示す。例えば、方法500は、図1に示す画像処理装置130によって実行されることができる。以下、図1と図2とを結びつけて方法500を説明する。理解すべき点として、方法500はさらに、図示されていない付加的ブロックを含むことができ、且つ/又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。
ブロック510において、複数の画像(例えば、図3に示す画像301-1及び301-2)と、複数の画像の第1セマンティックセグメンテーションラベルセット(例えば、図3に示すようなセマンティックセグメンテーションラベル304-1及び304-2)を取得する。いくつかの実施形態では、複数の画像は、第1画像を含み、第1セマンティックセグメンテーションラベルセットは、第1画像の第1セマンティックセグメンテーションラベルを含む。
ブロック520では、複数の画像に対応する複数の画像マスク(例えば、図3に示すような画像マスク303-1及び303-2)を取得する。各画像マスクは、複数の画像における対応する画像における対象領域を選択するために用いられる。
いくつかの実施形態において、複数の画像に対応する複数の画像マスクを取得することは、第1画像における複数の画素の対応する予測セマンティッククラスを決定することと、複数の画素の対応する予測セマンティッククラスに基づいて、複数の画素の対応スコアを決定することと、複数の画素の対応スコアに基づいて、第1画像の第1画像マスクを決定することとを含む。各画素のスコアは、当該画素と、第1画像におけるノイズ領域との関連度を示す。第1画像マスクは、複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる。
いくつかの実施形態において、第1画像における複数の画素の対応する予測セマンティッククラスを決定することは、画像セマンティックセグメンテーションモデルを用いて、第1画像における複数の画素の対応する予測セマンティッククラスを決定することを含む。
いくつかの実施形態において、第1画像における複数の画素の対応スコアを決定することは、複数の画素における各画素について、当該画素の予測セマンティッククラスと当該画素の真のセマンティッククラスとの差、当該画素の予測セマンティッククラスの不確実性、及び当該画素の予測セマンティッククラスの乱雑さの程度のうち、いずれかに基づいて当該画素のスコアを決定することを含む。当該画素の真のセマンティッククラスは、第1画像のセマンティックセグメンテーションラベルによって示される。
セグメント530では、複数の画像マスクと第1セマンティックセグメンテーションラベルセットに基づいて、複数の画像の第2セマンティックセグメンテーションラベルセット(例えば、図3に示すセマンティックセグメンテーションラベル305-1及び305-2)を生成する。
いくつかの実施形態では、複数の画像マスクは、第1画像に対応する第1画像マスクを含む。また、第2セマンティックセグメンテーションラベルセットを生成することは、第1画像の第1セマンティックセグメンテーションラベルと第1画像マスクとにマスキング操作を行うことにより、前記第1画像の第2セマンティックセグメンテーションラベルを生成することを含む。第2セマンティックセグメンテーションラベルセットは、第2セマンティックセグメンテーションラベルを含む。
ブロック540において、複数の画像と第2セマンティックセグメンテーションラベルセットに基づいて、混合画像(例えば、図3に示す混合画像306)と、当該混合画像のセマンティックセグメンテーションラベル(例えば、図3に示すセマンティックセグメンテーションラベル307)とを生成する。
いくつかの実施形態において、混合画像と、当該混合画像のセマンティックセグメンテーションラベルを生成することは、複数の画像の対応する重みに基づいて複数の画像を重み付けし加算することで、混合画像を生成することと、複数の画像の対応する重みに基づいて第2セマンティックセグメンテーションラベルセットを重み付けし加算することで、当該混合画像のセマンティックセグメンテーションラベルを生成することを含む。
図6は、本開示のいくつかの実施形態にかかる例示的モデル学習方法600のフローチャートを示す。例えば、方法600は、図1に示すモデル学習装置140によって実行されることができる。以下、図1及び図2と結びつけて方法600を説明する。理解すべき点として、方法600はさらに、図示されていない付加的ブロックを含むことができ、且つ/又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。
ブロック610において、トレーニングデータを取得する。例えば、モデル学習装置140は、図1に示すトレーニングデータセット103からトレーニングデータを取得することができる。いくつかの実施形態では、取得されたトレーニングデータは、第1トレーニングサンプルを含んでもよく、例えば、第1トレーニングサンプルは、方法400に従って得られた第1画像と、第1画像の第1セマンティックセグメンテーションラベルとを含む。追加で又は選択的に、いくつかの実施形態では、取得されたトレーニングデータは、第2トレーニングサンプルを含んでもよく、例えば、第2トレーニングサンプルは、方法500に従って得られた混合画像と、当該混合画像のセマンティックセグメンテーションラベルとを含む。
ブロック620において、入力画像のセマンティックセグメンテーションラベルを生成するために、トレーニングデータに基づいて、対象のセマンティックセグメンテーションモデル(例えば、図1に示す対象のセマンティックセグメンテーションモデル104)に学習させる。いくつかの実施形態において、モデル学習装置140は、取得したトレーニングデータに基づいてモデルに学習させ、対象のセマンティックセグメンテーションモデル104のモデルパラメータを決定することができる。
図7は、本開示の実施形態にかかる、画像処理に用いられる例示的方法700のフローチャートを示す。例えば、方法700は、図1に示すモデル適用装置150によって実行することができる。以下、図1と図2とを結びつけて方法700を説明する。理解すべき点として、方法700はさらに、図示されていない付加的ブロックを含むことができ、且つ/又は示されたいくつかのブロックを省略することができる。本開示の範囲は、この点において限定されない。
ブロック710において、入力画像(例えば、図1に示す入力画像105)を取得する。ブロック720において、学習させた対象のセマンティックセグメンテーションモデルを使用して、当該入力画像のセマンティックセグメンテーションラベル(例えば図1に示すセマンティックセグメンテーションラベル106)を生成する。当該セマンティックセグメンテーションラベルは、入力画像における画素のセマンティッククラスを示す。例えば、生成されるセマンティックセグメンテーションラベル106は、入力画像105の各画素のセマンティッククラスを示すベクトル又は配列であってもよいし、図1に示すように可視化された画像であってもよい。異なるセマンティッククラスの画素は、異なる色で充填することができる。
以上の説明から分かるように、本開示の実施形態では、ノイズラベルを含むトレーニングデータがモデルの学習に与える影響を効果的に低減することができ、その結果、学習させた画像セマンティックセグメンテーションモデルの精度を向上させることができる。本開示の実施形態は、弱教師あり学習シナリオに適用することができる。弱教師あり学習シナリオでは、初期トレーニングデータセットが、限られた、ノイズを含む、又はアノテーションが不正確なトレーニングサンプルを含む可能性がある。本開示の実施形態はこのようなトレーニングデータを最適化してから、最適化トレーニングデータを使用してモデルに学習させることができる。
本開示の実施形態は、セマンティックセグメンテーションタスクに適用するだけでなく、インスタンスセグメンテーション(instance segmentation)タスクにも適用することができる。上述したように、セマンティックセグメンテーションタスクの目的は、画像における各画素が属するセマンティッククラスを識別することである。セマンティックセグメンテーションタスクと異なり、インスタンスセグメンテーションタスクの目的は、画像における各画素が属するインスタンスのクラスを識別することである。例えば、セマンティックセグメンテーションタスクでは、画像の中の人物に属する画素を同じクラスに分類することができるが、インスタンスセグメンテーションタスクでは、画像の中の異なる人物に属する画素を異なるクラスに分類することができる。
本開示の実施形態をインスタンスセグメンテーションタスクに適用するためには、各画像101にアノテーションされた初期ラベル102が、当該画像における各画素が属するインスタンスクラスを示す必要がある。例えば、2つの画素のセマンティッククラスがともに人物であるが、それぞれ異なる人に対応している場合、この2つの画素は異なるインスタンスクラスに属するものとしてアノテーションされる。その後の処理は、上述のセマンティックセグメンテーションタスクで説明した処理プロセスと同様であるため、ここでは詳述を繰り返さない。
図8は、本開示の実施形態を実施可能な例示的コンピューティングデバイス800の模式的なブロック図を示す。例えば、図1に示すシステム100の1つ又は複数の装置は、デバイス800によって実施することができる。デバイス800の例には、任意の汎用コンピュータ、専用コンピュータ、サーバ、仮想マシン、及び計算能力を有する他の任意の電子機器(例えば、ユーザ端末(UE)、移動電話、携帯電話、スマートフォン、携帯情報端末(PDA)、画像取込デバイス(例えばデジタルカメラ)、ゲーム機器、音楽保存・再生装置、又は無線若しくは有線によるインターネットへのアクセス・閲覧を可能にするインターネットデバイス等)を含むことができる。
図に示すように、デバイス800は、中央処理ユニット(CPU)801(プロセッサ801とも称する)を備える。CPU801は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラムの命令、又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムの命令に基づいて、各種の適切な動作及び処理を実行することができる。RAM803にはさらに、デバイス800の操作に必要な各種プログラム及びデータを記憶することができる。CPU801、ROM802及びRAM803はバス804を介して互いに接続されている。入力/出力(I/O)ポート805もバス804に接続されている。
デバイス800における複数のコンポーネントは、I/Oポート805に接続されている。複数の部材には、キーボード、マウス等の入力ユニット806、様々な種類のディスプレイ、スピーカ等の出力ユニット807、磁気ディスク、光ディスク等の記憶ユニット808、及びネットワークインタフェースカード、モデム、無線通信送受信機等の通信ユニット809が備えられる。通信ユニット809は、デバイス800が、インターネットのようなコンピュータネットワーク及び/又は各種電信ネットワークを介して、他のデバイスと情報/データを交換することを可能にする。
処理ユニット801は、例えば方法400、500、600及び/又は700のような上述した各プロセス及び処理を実行するように配置されることができる。例えば、いくつかの実施形態において、方法400、500、600及び/又は700は、コンピュータソフトウェアプログラムとして実現可能であり、記憶ユニット808のようなマシン可読媒体に、有形記憶されている。いくつかの実施形態において、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信ユニット809を経由してデバイス800にロード及び/又はインストールされることができる。コンピュータプログラムがRAM803にロードされCPU801により実行されると、上述した方法400、500、600及び/又は700の一つ又は複数のステップが実行されることができる。
いくつかの実施形態において、コンピューティングデバイスは少なくとも1つの回路を備え、回路は、第1画像及び少なくとも1つの第2画像を取得し、前記少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果に基づいて、前記第1画像の第1セマンティックセグメンテーションラベルを生成するように配置される。前記少なくとも1つの第2画像における各画像は、第1画像の変換画像である。
いくつかの実施形態において、前記少なくとも1つの回路は、前記第1画像に画像オーギュメンテーションを実行することで、前記少なくとも1つの第2画像を取得するように配置される。
いくつかの実施形態において、前記画像オーギュメンテーションは、ミラーリング変換、回転、拡大・縮小、トリミング、平行移動、明度変更、ノイズ追加及び色変換のうち、少なくとも1つを含む。
いくつかの実施形態において、前記少なくとも1つの回路はさらに、画像セマンティックセグメンテーションモデルを用いて、前記少なくとも1つの第2画像に対し、少なくとも1つのセマンティックセグメンテーションラベル又は少なくとも1つのセマンティック信頼度ラベルを生成して、前記少なくとも1つのセマンティック予測結果とするように配置される。前記少なくとも1つのセマンティック信頼度ラベルは、前記少なくとも1つの第2画像の各画素が所定のセマンティッククラスに属する信頼度を示す。
いくつかの実施形態において、前記少なくとも1つの回路は、前記少なくとも1つのセマンティック予測結果に対してそれぞれ、前記画像オーギュメンテーションに対応する逆変換を行うことで、逆変換された少なくとも1つのセマンティック予測結果を得て、前記逆変換された少なくとも1つのセマンティック予測結果に基づいて、前記第1セマンティックセグメンテーションラベルを生成するように配置される。
いくつかの実施形態において、前記少なくとも1つの回路はさらに、複数の画像と、前記複数の画像の第1セマンティックセグメンテーションラベルセットを取得し、前記複数の画像に対応する複数の画像マスクを取得し、前記複数の画像マスクと前記第1セマンティックセグメンテーションラベルセットに基づいて、前記複数の画像の第2セマンティックセグメンテーションラベルセットを生成し、前記複数の画像と前記第2セマンティックセグメンテーションラベルセットに基づいて、混合画像と前記混合画像のセマンティックセグメンテーションラベルを生成するように配置される。前記複数の画像は、前記第1画像を含み、前記第1セマンティックセグメンテーションラベルセットは、前記第1セマンティックセグメンテーションラベルを含む。各画像マスクは、前記複数の画像における対応する画像における対象領域を選択するために用いられる。
いくつかの実施形態において、前記少なくとも1つの回路は、前記第1画像における複数の画素の対応する予測セマンティッククラスを決定し、前記複数の画素の対応する予測セマンティッククラスに基づいて、前記複数の画素の対応スコアを決定し、前記複数の画素の対応スコアに基づいて、前記第1画像の第1画像マスクを決定するように配置される。各画素のスコアは、当該画素と、前記第1画像におけるノイズ領域との関連度を示す。前記第1画像マスクは、前記複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる。
いくつかの実施形態において、前記少なくとも1つの回路は、画像セマンティックセグメンテーションモデルを用いて、前記第1画像における前記複数の画素の対応する予測セマンティッククラスを決定するように配置される。
いくつかの実施形態において、前記少なくとも1つの回路は、前記複数の画素における各画素について、前記画素の予測セマンティッククラスと前記画素の真のセマンティッククラスとの差、前記画素の予測セマンティッククラスの不確実性、及び前記画素の予測セマンティッククラスの乱雑さの程度のうち、いずれかに基づいて前記画素のスコアを決定するように配置される。前記画素の真のセマンティッククラスは、前記第1画像のセマンティックセグメンテーションラベルによって示される。
いくつかの実施形態において、前記複数の画像マスクは、前記第1画像に対応する第1画像マスクを含む。また、前記少なくとも1つの回路は、前記第1セマンティックセグメンテーションラベルと前記第1画像マスクとにマスキング操作を行うことにより、前記第1画像の第2セマンティックセグメンテーションラベルを生成するように配置される。前記第2セマンティックセグメンテーションラベルセットは、前記第2セマンティックセグメンテーションラベルを含む。
いくつかの実施形態において、前記少なくとも1つの回路は、前記複数の画像の対応する重みに基づいて前記複数の画像を重み付けし加算することで、前記混合画像を生成し、前記複数の画像の対応する重みに基づいて前記第2セマンティックセグメンテーションラベルセットを重み付けし加算することで、前記混合画像のセマンティックセグメンテーションラベルを生成するように配置される。
いくつかの実施形態において、前記少なくとも1つの回路はさらに、トレーニングデータを取得し、入力画像のセマンティックセグメンテーションラベルを生成するために前記トレーニングデータに基づいて対象のセマンティックセグメンテーションモデルに学習させるように配置される。前記トレーニングデータは、前記第1画像と前記第1セマンティックセグメンテーションラベルとを含む第1トレーニングサンプル、及び、前記混合画像と前記混合画像のセマンティックセグメンテーションラベルとを含む第2トレーニングサンプルのうち、少なくとも1つを含む。
いくつかの実施形態において、前記少なくとも1つの回路はさらに、前記入力画像を取得し、学習させた対象のセマンティックセグメンテーションモデルを使用して、前記入力画像のセマンティックセグメンテーションラベルを生成するように配置される。
本開示は、システム、方法、及び/又はコンピュータプログラム製品として実現することができる。本開示がシステムとして実現される場合、文中に記載されているコンポーネントは、単一のデバイスで実装できることに加えて、クラウドコンピューティングアーキテクチャとして実装することができる。クラウドコンピューティング環境では、これらのコンポーネントはリモート配置することができ、本開示に記載されている機能を実現するために協働することができる。クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供することができる。こうしたサービスを提供するシステム又はハードウェアの物理的な場所や設定は、エンドユーザが知る必要はない。クラウドコンピューティングでは、適切なプロトコルを使用して、ワイドエリアネットワーク(インターネット等)を介してサービスを提供することができる。例えば、クラウドコンピューティングプロバイダは、ワイドエリアネットワークを介してアプリケーションを提供する。それらは、ブラウザ又はその他の任意のコンピューティング・コンポーネントを介してアクセスすることも可能である。クラウドコンピューティングのコンポーネント及び対応データは、リモートのサーバに保存することができる。クラウドコンピューティング環境のコンピューティングリソースは、リモートのデータセンターに集約してもよいし、こうしたコンピューティングリソースを分散させてもよい。クラウドインフラは、ユーザにとっては単一のアクセスポイントとして提示されていても、共有データセンターを通じてサービスを提供することができる。したがって、文中で説明した様々な機能は、クラウドコンピューティングアーキテクチャを使用して、リモートのサービスプロバイダから提供することができる。選択的に、通常のサーバから提供してもよいし、クライアント端末に直接又はその他の方法でインストールしてもよい。また、本開示はコンピュータプログラム製品として実現することができる。当該コンピュータプログラム製品は、本開示の各態様を実行するための、コンピュータが読み取り可能なプログラム命令が格納されたコンピュータ可読記憶媒体を備えることができる。
コンピュータ可読記憶媒体は、命令実行デバイスにより使用される命令を保持し記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁気記憶装置、半導体記憶装置又は上述の任意の適切な組合せであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例として(全てではない)、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去・書き込み可能なリードオンリーメモリ(EPROM又はフラッシュメモリ)、スタティックRAM(SRAM:Static Random Access Memory)、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリースティック、フロッピーディスク、機械的エンコーダディスク、例えば命令が記憶されているパンチカード又は溝内の突起構造、及び上述の任意の適切な組合せが含まれる。ここで使用されるコンピュータ可読記憶媒体は、例えば無線電波若しくは他の自由伝播する電磁波、導波若しくは他の送信媒体を介して伝播する電磁波(例えば、光ケーブルを介する光パルス)、又は電線で送信される電気信号のような、瞬時の信号そのものであるとは解釈されない。
ここで説明されるコンピュータが読み取り可能なプログラム命令は、コンピュータ可読記憶媒体から各計算/処理デバイスにダウンロードすることができ、又は、ネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/若しくは無線ネットワークを介して外部のコンピュータ若しくは外部記憶装置にダウンロードすることができる。ネットワークは、銅線送信ケーブル、光ケーブル送信、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含むことができる。各計算/処理デバイスにおけるネットワークインタフェースカード又はネットワークインタフェースは、コンピュータが読み取り可能なプログラム命令をネットワークから受信し、該コンピュータが読み取り可能なプログラム命令を転送し、各計算/処理デバイスのコンピュータ可読記憶媒体に記憶されるようにする。
本開示の操作を実行するためのコンピュータプログラム命令は、アセンブラ指示文、命令セットアーキテクチャ(ISA:Instruction Set Architecture)、機械語命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は、一種類若しくは複数種類のプログラミング言語の任意の組合せで記述されたソースコード若しくはオブジェクトコードであり得る。前記プログラミング言語は、Smalltalk、C++等のオブジェクト指向のプログラミング言語、及び、「C」言語又は類似のプログラミング語言のような一般的なプロセス式プログラミング言語を含む。コンピュータが読み取り可能なプログラム命令は、全てユーザコンピュータ上で実行することができ、部分的にユーザコンピュータ上で実行することができ、1つの独立したソフトウェアパッケージとして実行することができ、ユーザコンピュータ上で部分的に実行するとともにリモートコンピュータ上で部分的に実行することができ、又は全てリモートコンピュータ若しくはサーバ上で実行することができる。リモートコンピュータにかかる状況において、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータに接続することができるか、又は、外部のコンピュータに接続する(例えばインターネットサービスプロバイダを利用しインターネットを介して接続する)ことができる。いくつかの実施形態では、コンピュータが読み取り可能なプログラム命令のステータス情報を利用して、例えばプログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)のような電子回路をカスタマイズすることができる。当該電子回路は、コンピュータが読み取り可能なプログラム命令を実行することで、本開示の各態様を実現することができる。
ここでは、本開示の実施形態にかかる方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して、本開示の各態様を説明した。理解すべき点として、フローチャート及び/又はブロック図における各ブロック並びにフローチャート及び/又はブロック図における各ブロックの組合せは、いずれも、コンピュータが読み取り可能なプログラム命令により実現可能である。
これらのコンピュータが読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットに提供されて、マシンを生成することができ、これらの命令がコンピュータ又は他のプログラミング可能なデータ処理装置のプロセッサユニットにより実行された場合、フローチャート及び/又はブロック図における1つ又は複数のブロックで規定された機能/動作を実現する装置が生成される。これらのコンピュータが読み取り可能なプログラム命令は、コンピュータ可読記憶媒体に記憶されてもよい。これらの命令によって、コンピュータ、プログラミング可能なデータ処理装置及び/又はその他のデバイスは特定の方法で動作を行う。したがって、命令が記憶されているコンピュータ可読媒体は、フローチャート及び/又はブロック図における1つ又は複数のブロックで規定された機能/動作を実現する各態様の命令が含まれている製品を含む。
コンピュータが読み取り可能なプログラム命令を、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスにロードして、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイス上で一連の操作ステップを実行させ、コンピュータが実現するプロセスを生成してもよい。これにより、コンピュータ、他のプログラミング可能なデータ処理装置又は他のデバイスで実行される命令に、フローチャート及び/又はブロック図における1つ又は複数のブロックで規定された機能/動作を実現させる。
図中のフローチャート及びブロック図は、本開示の複数の実施形態にかかるシステム、方法、コンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を表す。この点において、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を示すことができ、前記モジュール、プログラムセグメント又は命令の一部は、規定されたロジック機能を実現するための1つ又は複数の実行可能な命令を含む。代替としてのいくつかの実現形態において、ブロック内に表記された機能は、図中の表記と異なる順序で発生してもよい。例えば、2つの連続するブロックは実際には基本的に並行して実行することができるが、場合によっては反対の順序で実行されてもよい。これは、関係する機能によって定められる。また、注意すべき点として、ブロック図及び/又はフローチャートにおける各ブロック、並びにブロック図及び/又はフローチャートにおけるブロックの組合せは、規定された機能又は動作を実行する、ハードウェアに基づく専用システムで実現することができ、又は、専用のハードウェアとコンピュータ命令との組合せにより実現することができる。
以上、本開示の各実施形態を説明したが、上述した説明は、例示的なもので、全て網羅したものではなく、開示された各実施形態に限定されない。説明した各実施形態の範囲及び精神から逸脱しない限り、当業者が複数の修正及び変更を行うことができることは明らかである。ここで使用された用語は、各実施形態の原理、実際の応用又は市場での技術改良について最適な説明を行うこと、又は当業者に本明細書で開示された各実施形態を理解させることを意図して、選択したものである。

Claims (13)

  1. 第1画像及び少なくとも1つの第2画像を取得することと、
    前記少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果に基づいて、前記第1画像の第1セマンティックセグメンテーションラベルを生成することと、
    を含み、
    前記少なくとも1つの第2画像における各画像は、前記第1画像の変換画像であ
    複数の画像と、前記複数の画像の第1セマンティックセグメンテーションラベルセットを取得することと、
    前記複数の画像に対応する複数の画像マスクを取得することと、
    前記複数の画像マスクと前記第1セマンティックセグメンテーションラベルセットに基づいて、前記複数の画像の第2セマンティックセグメンテーションラベルセットを生成することと、
    前記複数の画像と前記第2セマンティックセグメンテーションラベルセットに基づいて、混合画像と、前記混合画像のセマンティックセグメンテーションラベルを生成することと、
    をさらに含み、
    前記複数の画像は前記第1画像を含み、前記第1セマンティックセグメンテーションラベルセットは、前記第1セマンティックセグメンテーションラベルを含み、
    各画像マスクは、前記複数の画像の中の対応する画像における対象領域を選択するために用いられる、
    画像処理方法。
  2. 前記少なくとも1つの第2画像を取得することは、
    前記第1画像に画像オーギュメンテーションを実行することにより、前記少なくとも1つの第2画像を取得することを含む、
    請求項1に記載の方法。
  3. 前記画像オーギュメンテーションは、ミラーリング変換、回転、拡大・縮小、トリミング、平行移動、明度変更、ノイズ追加及び色変換のうち、少なくとも1つを含む、
    請求項2に記載の方法。
  4. 画像セマンティックセグメンテーションモデルを用いて、前記少なくとも1つの第2画像についての少なくとも1つのセマンティックセグメンテーションラベル又は少なくとも1つのセマンティック信頼度ラベルを生成して、前記少なくとも1つのセマンティック予測結果とすることをさらに含み、
    前記少なくとも1つのセマンティック信頼度ラベルは、前記少なくとも1つの第2画像における各画素が所定のセマンティッククラスに属する信頼度を示す、
    請求項1に記載の方法。
  5. 前記第1セマンティックセグメンテーションラベルを生成することは、
    前記少なくとも1つのセマンティック予測結果に対してそれぞれ、前記画像オーギュメンテーションに対応する逆変換を行うことにより、逆変換された少なくとも1つのセマンティック予測結果を得ることと、
    前記逆変換された少なくとも1つのセマンティック予測結果に基づいて、前記第1セマンティックセグメンテーションラベルを生成することと、
    を含む、
    請求項2に記載の方法。
  6. 前記複数の画像に対応する複数の画像マスクを取得することは、
    前記第1画像における複数の画素の対応する予測セマンティッククラスを決定することと、
    前記複数の画素の対応する予測セマンティッククラスに基づいて、前記複数の画素の対応スコアを決定することと、
    前記複数の画素の対応スコアに基づいて、前記第1画像の第1画像マスクを決定することと、
    を含み、
    各画素のスコアは、当該画素と、前記第1画像におけるノイズ領域との関連度を示し、
    前記第1画像マスクは、前記複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる、
    請求項に記載の方法。
  7. 1画像及び少なくとも1つの第2画像を取得する手段と
    記少なくとも1つの第2画像の少なくとも1つのセマンティック予測結果に基づいて、前記第1画像の第1セマンティックセグメンテーションラベルを生成する手段と、を備え
    前記少なくとも1つの第2画像における各画像は、前記第1画像の変換画像であ
    複数の画像と、前記複数の画像の第1セマンティックセグメンテーションラベルセットを取得する手段と、
    前記複数の画像に対応する複数の画像マスクを取得する手段と、
    前記複数の画像マスクと前記第1セマンティックセグメンテーションラベルセットに基づいて、前記複数の画像の第2セマンティックセグメンテーションラベルセットを生成する手段と、
    前記複数の画像と前記第2セマンティックセグメンテーションラベルセットに基づいて、混合画像と、前記混合画像のセマンティックセグメンテーションラベルを生成する手段と、をさらに備え、
    前記複数の画像は前記第1画像を含み、前記第1セマンティックセグメンテーションラベルセットは、前記第1セマンティックセグメンテーションラベルを含み、
    各画像マスクは、前記複数の画像の中の対応する画像における対象領域を選択するために用いられる、
    コンピューティングデバイス。
  8. 記第1画像に画像オーギュメンテーションを実行することにより、前記少なくとも1つの第2画像を取得する手段をさらに備える
    請求項に記載のコンピューティングデバイス。
  9. 像セマンティックセグメンテーションモデルを用いて、前記少なくとも1つの第2画像についての少なくとも1つのセマンティックセグメンテーションラベル又は少なくとも1つのセマンティック信頼度ラベルを生成して、前記少なくとも1つのセマンティック予測結果とする手段をさらに備え
    前記少なくとも1つのセマンティック信頼度ラベルは、前記少なくとも1つの第2画像における各画素が所定のセマンティッククラスに属する信頼度を示す、
    請求項に記載のコンピューティングデバイス。
  10. 記第1画像における複数の画素の対応する予測セマンティッククラスを決定する手段と
    記複数の画素の対応する予測セマンティッククラスに基づいて、前記複数の画素の対応スコアを決定する手段と
    記複数の画素の対応スコアに基づいて、前記第1画像の第1画像マスクを決定する手段と、をさらに備え
    各画素のスコアは、当該画素と、前記第1画像におけるノイズ領域との関連度を示し、
    前記第1画像マスクは、前記複数の画素においてより低いスコアを有する少なくとも一部の画素を選択するために用いられる、
    請求項に記載のコンピューティングデバイス。
  11. 前記複数の画像マスクは、前記第1画像に対応する第1画像マスクを含み、
    記第1セマンティックセグメンテーションラベルと前記第1画像マスクとにマスキング操作を行うことにより、前記第1画像の第2セマンティックセグメンテーションラベルを生成する手段をさらに備え
    前記第2セマンティックセグメンテーションラベルセットは、前記第2セマンティックセグメンテーションラベルを含む、
    請求項に記載のコンピューティングデバイス。
  12. 記複数の画像の対応する重みに基づいて前記複数の画像を重み付けし加算することにより、前記混合画像を生成する手段と
    記複数の画像の対応する重みに基づいて前記第2セマンティックセグメンテーションラベルセットを重み付けし加算することにより、前記混合画像のセマンティックセグメンテーションラベルを生成する手段と、をさらに備える
    請求項に記載のコンピューティングデバイス。
  13. レーニングデータを取得する手段と
    力画像のセマンティックセグメンテーションラベルを生成するために、前記トレーニングデータに基づいて、対象のセマンティックセグメンテーションモデルに学習させる手段と、をさらに備え
    前記トレーニングデータは、
    前記第1画像と前記第1セマンティックセグメンテーションラベルとを含む第1トレーニングデータ、及び
    前記混合画像と、前記混合画像のセマンティックセグメンテーションラベルとを含む第2トレーニングデータ
    のうち少なくともいずれかを含む、
    請求項に記載のコンピューティングデバイス。
JP2021211199A 2020-12-25 2021-12-24 画像処理方法及びコンピューティングデバイス Active JP7347492B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011562478.5 2020-12-25
CN202011562478.5A CN114693694A (zh) 2020-12-25 2020-12-25 图像处理的方法、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022103149A JP2022103149A (ja) 2022-07-07
JP7347492B2 true JP7347492B2 (ja) 2023-09-20

Family

ID=82119424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021211199A Active JP7347492B2 (ja) 2020-12-25 2021-12-24 画像処理方法及びコンピューティングデバイス

Country Status (3)

Country Link
US (1) US20220207866A1 (ja)
JP (1) JP7347492B2 (ja)
CN (1) CN114693694A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272681B (zh) * 2022-09-22 2022-12-20 中国海洋大学 基于高阶特征类解耦的海洋遥感图像语义分割方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125116A (ja) 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019171546A1 (ja) 2018-03-08 2019-09-12 株式会社島津製作所 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法
WO2019180848A1 (ja) 2018-03-20 2019-09-26 株式会社島津製作所 細胞画像解析装置、細胞画像解析システム、学習データの生成方法、学習モデルの生成方法、学習データの生成プログラム、および、学習データの製造方法
WO2020003434A1 (ja) 2018-06-28 2020-01-02 株式会社島津製作所 機械学習方法、機械学習装置、及び機械学習プログラム
WO2020121564A1 (ja) 2019-07-04 2020-06-18 株式会社日立ハイテク 寸法計測装置、寸法計測プログラム及び半導体製造システム
JP2020194446A (ja) 2019-05-29 2020-12-03 株式会社アーク情報システム プログラム、情報処理方法及び情報処理装置
WO2021033242A1 (ja) 2019-08-19 2021-02-25 株式会社ソニー・インタラクティブエンタテインメント 画像認識装置、画像認識方法、及び、画像認識プログラム
JP2022155690A (ja) 2021-03-31 2022-10-14 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125116A (ja) 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019171546A1 (ja) 2018-03-08 2019-09-12 株式会社島津製作所 細胞画像解析方法、細胞画像解析装置、及び学習モデル作成方法
WO2019180848A1 (ja) 2018-03-20 2019-09-26 株式会社島津製作所 細胞画像解析装置、細胞画像解析システム、学習データの生成方法、学習モデルの生成方法、学習データの生成プログラム、および、学習データの製造方法
WO2020003434A1 (ja) 2018-06-28 2020-01-02 株式会社島津製作所 機械学習方法、機械学習装置、及び機械学習プログラム
JP2020194446A (ja) 2019-05-29 2020-12-03 株式会社アーク情報システム プログラム、情報処理方法及び情報処理装置
WO2020121564A1 (ja) 2019-07-04 2020-06-18 株式会社日立ハイテク 寸法計測装置、寸法計測プログラム及び半導体製造システム
WO2021033242A1 (ja) 2019-08-19 2021-02-25 株式会社ソニー・インタラクティブエンタテインメント 画像認識装置、画像認識方法、及び、画像認識プログラム
JP2022155690A (ja) 2021-03-31 2022-10-14 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Daniel Smilkov et al.,"SmoothGrad:removing noise by adding noise",[online],2017年06月12日,https://arxiv.org/abs/1706.03825

Also Published As

Publication number Publication date
US20220207866A1 (en) 2022-06-30
CN114693694A (zh) 2022-07-01
JP2022103149A (ja) 2022-07-07

Similar Documents

Publication Publication Date Title
TWI601077B (zh) 媒體內容分析系統與方法
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
JP7392707B2 (ja) 画像処理の方法、デバイス及びコンピュータ可読記憶媒体
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
US20220092407A1 (en) Transfer learning with machine learning systems
JP7448562B2 (ja) 人工知能のための希な訓練データへの対処
US20230049817A1 (en) Performance-adaptive sampling strategy towards fast and accurate graph neural networks
CN114565812A (zh) 语义分割模型的训练方法、装置和图像的语义分割方法
JP7347492B2 (ja) 画像処理方法及びコンピューティングデバイス
CN115810135A (zh) 样本分析的方法、电子设备、存储介质和程序产品
WO2023168903A1 (zh) 模型训练和身份匿名化方法、装置、设备、存储介质及程序产品
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
JP7290183B2 (ja) データ処理の方法、ニューラルネットワークの学習方法及びデバイス
Shukla et al. Exploring the feasibility of adversarial attacks on medical image segmentation
CN114598610B (zh) 网络业务规则识别
CN115375657A (zh) 息肉检测模型的训练方法、检测方法、装置、介质及设备
JP2023543713A (ja) テキストを用いた、雑然としたビデオ・シーン内のアクション-オブジェクト認識
CN116501732A (zh) 用于管理训练数据的方法、电子设备和计算机程序产品
KR20220155882A (ko) 뉴럴 네트워크를 이용하는 데이터 처리 방법 및 장치
CN112149426A (zh) 阅读任务处理方法及相关设备
WO2022198526A1 (en) Methods, devices and computer readable media for image processing
JP7473583B2 (ja) 長い文書の要約のためのモデルグローバル化
CN115861684B (zh) 图像分类模型的训练方法、图像分类方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R151 Written notification of patent or utility model registration

Ref document number: 7347492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151