JP7476345B2 - 輪郭精度評価を用いた画像セグメンテーション訓練 - Google Patents

輪郭精度評価を用いた画像セグメンテーション訓練 Download PDF

Info

Publication number
JP7476345B2
JP7476345B2 JP2022560283A JP2022560283A JP7476345B2 JP 7476345 B2 JP7476345 B2 JP 7476345B2 JP 2022560283 A JP2022560283 A JP 2022560283A JP 2022560283 A JP2022560283 A JP 2022560283A JP 7476345 B2 JP7476345 B2 JP 7476345B2
Authority
JP
Japan
Prior art keywords
contour
ground truth
binary
rgb image
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022560283A
Other languages
English (en)
Other versions
JP2023520528A (ja
Inventor
メンユ チェン
ミャオチー ジュー
芳和 高島
オウヤン チャオ
ラ ローサ ダニエル デ
マイケル ラフェンテ
スティーヴン シャピーロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2023520528A publication Critical patent/JP2023520528A/ja
Application granted granted Critical
Publication of JP7476345B2 publication Critical patent/JP7476345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

〔関連出願との相互参照〕
本出願は、2020年7月2日に出願された「輪郭精度評価を用いた機械学習ベースの画像セグメンテーション訓練(Machine Learning based Image Segmentation Training with Contour Accuracy Evaluation)」という名称の同時継続米国仮特許出願第63/047,750号の米国特許法第119条に基づく優先権の利益を主張するものであり、上記出願の開示は引用により本明細書に組み入れられる。
本開示は、セグメンテーションマスクに関し、具体的には、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めることに関する。
マスクを使用する従来の機械学習(ML)ベースのセグメンテーション法は、ソーシャルメディア上の低解像度ビデオなどの非専門的メディアコンテンツについては十分な結果をもたらす。しかしながら、専門的な画像/ビデオ処理タスクの要件を満たすには、セグメンテーションマスクの品質が十分でないことがある。例えば、エッジの明瞭性がフレーム毎に異なることによって、誤って推測されたサブピクセルがマスク領域内に現れることがある。通常、これらの領域は、エッジ沿いの覆われていない穴又は不連続輪郭の形態で現れる。従って、いくつかのシナリオでは、MLベースのセグメンテーション法が信頼できる及び/又は一貫したセグメンテーションマスクを生成しないことがある。これらのシナリオとしては、高解像度画像(例えば、HD、4K)、とりわけ動きの速い物体を有する動的シーン、及びカラーグレーディングされたコンテンツ(例えば、低明度、前景及び背景内の同様のテクスチャ)を挙げることができる。
本開示は、輪郭精度を評価することによる予測セグメンテーションマスクの精度向上を提供する。
1つの実装では、予測セグメンテーションマスクの精度を高める方法を開示する。この方法は、セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第2の二値輪郭を生成することと、グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、を含む。
1つの実装では、方法が、特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像の手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させてグラウンドトゥルースRGB画像コンテナを生成することと、をさらに含む。1つの実装では、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させることが、グラウンドトゥルースRGB画像の各行をグラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、第1の二値輪郭の各行をグラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、を含む。1つの実装では、第1の1行おきの行が偶数行であり、第2の1行おきの行が奇数行である。1つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される。1つの実装では、総損失を計算することが、第1の定数にセグメンテーション損失を乗じたものと第2の定数に輪郭精度損失を乗じたものとの加算として総損失を計算することを含み、第1の定数と第2の定数との和は1に等しい。
別の実装では、予測セグメンテーションマスクの精度を高めるシステムを開示する。このシステムは、交差画像コンテナからグラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出するバッファ抽出器と、グラウンドトゥルースRGB画像バッファを受け取って予測セグメンテーションマスクを生成するセグメンテーションネットワークと、予測セグメンテーションマスクを受け取り、予測セグメンテーションマスクに基づいて予測輪郭を生成し、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算し、予測輪郭と二値輪郭画像バッファとの間の輪郭精度損失も計算するプロセッサと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算するエンハンサとを含む。
1つの実装では、エンハンサが、総損失を使用して二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高める。1つの実装では、プロセッサが、特定のアルゴリズムを使用して、予測セグメンテーションマスクに基づいて予測輪郭を生成する。1つの実装では、交差画像コンテナが、特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像バッファ内のグラウンドトゥルースRGB画像の手動でセグメント化されたマスクに基づいて二値輪郭を生成し、二値輪郭画像バッファ内の二値輪郭をグラウンドトゥルースRGB画像内に交差させることによって構築される。1つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される。
さらに別の実装では、予測セグメンテーションマスクの精度を高めるためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体を開示する。コンピュータプログラムは、セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、特定のアルゴリズムを使用して、予測セグメンテーションマスクから第2の二値輪郭を生成することと、グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、二値輪郭画像バッファの輪郭と予測セグメンテーションマスクの二値輪郭との間の輪郭精度損失を計算することと、セグメンテーション損失及び輪郭精度損失の加重平均としての総損失を計算することと、二値輪郭画像バッファの輪郭を計算された総損失で補償することによって改善された二値輪郭を生成し、改善された二値輪郭を使用して予測セグメンテーションマスクの精度を高めることと、をコンピュータに行わせる実行可能命令を含む。
1つの実装では、コンピュータプログラムが、特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像の手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させてグラウンドトゥルースRGB画像コンテナを生成することと、をコンピュータに行わせる実行可能命令をさらに含む。1つの実装では、第1の二値輪郭をグラウンドトゥルースRGB画像内に交差させることをコンピュータにさせる実行可能命令が、グラウンドトゥルースRGB画像の各行をグラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、第1の二値輪郭の各行をグラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、をコンピュータに行わせる実行可能命令を含む。1つの実装では、第1の1行おきの行が偶数行であり、第2の1行おきの行が奇数行である。1つの実装では、手動でセグメント化されたマスクが、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される。1つの実装では、総損失を計算することをコンピュータに行わせる実行可能命令が、第1の定数にセグメンテーション損失を乗じたものと第2の定数に輪郭精度損失を乗じたものとの加算として総損失を計算することをコンピュータに行わせる実行可能命令を含み、第1の定数と第2の定数との和は1に等しい。
本開示の態様を一例として示す本明細書からは、他の特徴及び利点も明らかになるはずである。
本特許又は出願書類は、カラーで作成された少なくとも1つの図面を含む。(単複の)カラー図面を含む本特許又は特許出願公開の複写物は、依頼時に必要な料金の支払いを受けて特許庁により提供される。
同じ部分を同じ参照数字によって示す添付図面を検討することにより、本開示の詳細をその構造及び動作の両方に関して部分的に入手することができる。
本開示の1つの実装による、予測セグメンテーションマスクの精度を高める方法のフロー図である。 グラウンドトゥルースRGB画像及び二値輪郭画像を示す図である。 画像バッファに保存された第2のグラウンドトゥルースRGB画像セットを示す図である。 画像のスケーリングを示す図である。 画像の回転を示す図である。 画像のトリミングを示す図である。 画像の明度制御を示す図である。 拡張訓練セット、並びに抽出されたグラウンドトゥルースRGB画像バッファ及び二値輪郭画像を示す図である。 本開示の1つの実装による、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めるプロセスを示す図である。 本開示の1つの実装による、予測セグメンテーションマスクの精度を高めるシステムのブロック図である。 本開示の1つの実装によるコンピュータシステム及びユーザの表現である。 本開示の1つの実装による、画像処理アプリケーションをホストするコンピュータシステムを示す機能ブロック図である。
上述したように、従来のMLベースのセグメンテーション法は、高解像度画像、動きの速い物体を含む動的シーン、及び/又はカラーグレーディングされたコンテンツを伴うシナリオでは、信頼できる及び/又は一貫したセグメンテーションマスクを生成できないことがある。
本開示の特定の実装は、(特にエッジに沿った)輪郭精度を評価し、「バッファ交差(buffer intersection)」として知られている画像再フォーマット法を使用することによって、予測セグメンテーションマスクの精度を高める方法及びシステムを提供する。
以下の説明を読んだ後には、様々な実装及び用途における本開示の実装方法が明らかになるであろう。本明細書では本開示の様々な実装について説明するが、これらの実装はほんの一例として提示するものであり、限定ではないと理解されたい。従って、様々な実装の詳細な説明は、本開示の範囲又は外延を限定するものとして解釈すべきではない。
1つの実装では、エッジに沿った予測セグメンテーションマスクの精度を高めるために、(a)グラウンドトゥルース赤色-緑色-青色(RGB)画像の手動でセグメント化されたマスクに基づいて二値輪郭を生成する特定のアルゴリズムを選択し、(b)二値輪郭バッファをオリジナルRGB画像内に交差させることによって新たなグラウンドトゥルース画像セットを生成し、(c)セグメンテーション訓練のための拡張訓練セットからグラウンドトゥルースRGB画像バッファを抽出し、(d)特定のアルゴリズムを使用して、予測セグメンテーションマスクに基づいて二値輪郭を取得し、(e)グラウンドトゥルースRGB画像の手動でセグメント化されたマスクの輪郭と予測セグメンテーションマスクの輪郭との間の損失関数の形態の差分を計算し、(f)逆伝播のためにセグメンテーション損失に輪郭損失を加算する、というステップを採用することができる。
図1は、本開示の1つの実装による、予測セグメンテーションマスクの精度を高める方法100のフロー図である。1つの実装では、輪郭精度を評価し、「バッファ交差」として知られている画像再フォーマット法を使用することによって、エッジに沿った予測セグメンテーションマスクの精度を高める。
図1の例示的な実装では、ステップ110において、第1のグラウンドトゥルース赤色-緑色-青色(RGB)画像セットの手動でセグメント化されたマスクに基づいて二値輪郭を生成する境界トレースアルゴリズムを選択する。1つの実装では、選択すべき従来の又は機械学習ベースの特定のアルゴリズムが、正方形トレースアルゴリズム、ムーア近傍(Moore-neighbor)トレースアルゴリズム、及び径方向スイープ(radial sweep)を含む。別の実装では、特定のアルゴリズムが、OpenCV関数などの境界トレースアルゴリズムを含む。RGB画像は、各個々のピクセルの赤色、緑色及び青色成分を定めるトゥルーカラー画像である。
図2に、グラウンドトゥルースRGB画像200及び二値輪郭画像210を示す。(例えば、第1のバッファに保存された)グラウンドトゥルースRGB画像200の手動セグメンテーション(矢印202を参照)を実行して手動でセグメント化されたマスク206を生成し、輪郭検出及び生成(矢印212を参照)を実行して手動でセグメント化されたマスクに基づいて(例えば、第2のバッファに保存された)二値輪郭画像210を生成する。
再び図1の例示的な実装を参照すると、ステップ120において、二値輪郭画像210の輪郭をグラウンドトゥルースRGB画像200内に交差させることによって第2のグラウンドトゥルースRGB画像セットを生成し、この第2のグラウンドトゥルースRGB画像セットを1つの画像コンテナに保存する。すなわち、グラウンドトゥルースRGB画像の各行は、グラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置される一方で、第1の二値輪郭の各行は、グラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置される。
図2には、二値輪郭画像210の輪郭をグラウンドトゥルースRGB画像200内に交差させるプロセスの1つの実装を示す。図2の例示的な実装では、(例えば、第1のバッファ内の)グラウンドトゥルースRGB画像200の各行204が画像コンテナ220の偶数行(例えば、0行目、2行目、4行目、6行目など)に配置される一方で、(例えば、第2のバッファ内の)二値輪郭画像210の各行214が画像コンテナ220の奇数行(例えば1行目、3行目、5行目、7行目など)に配置される。他の実装では、行と列を入れ替え、或いは奇数行又は列と偶数行又は列とを入れ替えることなどによって、異なる構成を使用してグラウンドトゥルースRGB画像200と二値輪郭画像210とを交差させ又は組み合わせることもできる。なお、列構成では、画像バッファが行ベースから列ベースに転置される。
図3A~図3Eに、(グラウンドトゥルースRGB画像及び二値輪郭画像の両方を含む)第2のグラウンドトゥルースRGB画像セットを生成してこれらの画像を1つの画像コンテナに保存する利点を示す。1つの画像コンテナに2又は3以上のバッファを収容する利点として、訓練中にピクセルが画像拡張による影響を受けないことができる。従って、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファの両方を1つの画像コンテナ内に有することにより、ユーザが選択した(単複の)画像拡張を使用して画像のピクセルを実質的に均等に処理(例えば、スケーリング、回転、トリミング、明度制御など)することができる。従って、訓練用のRGBバッファは、意図した通りの正しいフォーマット及びコード値を有するようになる。一方で、どのバッファに(単複の)拡張を適用すべきであるかをユーザが選択できるので、二値輪郭はそのままであることができる。図3Aには、画像バッファ内に保存された第2のグラウンドトゥルースRGB画像セット300を示す。図3Bには画像のスケーリング310を示す。図3Cには画像の回転320を示す。図3Dには画像のトリミング330を示す。図3Eには画像の明度調整340を示す。
再び図1の例示的な実装を参照すると、ステップ130において、セグメンテーション訓練のための交差画像コンテナからグラウンドトゥルースRGB画像バッファを抽出すること(抽出ステップ)によって予測セグメンテーションマスクを生成する。ステップ140において、ステップ110で使用したものと同じアルゴリズムを使用して、予測セグメンテーションマスクに基づいて二値輪郭を生成する(二値輪郭生成ステップ)。次に、ステップ150において、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算する(セグメンテーション損失計算ステップ)。なお、グラウンドトゥルースセグメンテーションマスクは予測セグメンテーションマスクよりも優れている。図4に、拡張訓練セット400、並びに抽出されたグラウンドトゥルースRGB画像バッファ410及び二値輪郭画像420を示す。
図1の例示的な実装では、ステップ160において、グラウンドトゥルースRGB画像の手動でセグメント化されたマスクの輪郭と予測セグメンテーションマスクの輪郭との間の損失関数の形態の差分を計算する(輪郭精度損失計算ステップ)。その後、ステップ170において、この差分(輪郭精度損失)をセグメンテーション損失に加算して、誤差逆伝播のためにグラウンドトゥルース輪郭を生成する。
図5に、本開示の1つの実装による、輪郭精度を評価することによって予測セグメンテーションマスクの精度を高めるプロセス500を示す。このプロセスは、抽出ステップ、二値輪郭生成ステップ、セグメンテーション損失計算ステップ、輪郭精度損失計算ステップ、及びグラウンドトゥルース輪郭生成ステップを含む。
図5の例示的な実装では、拡張訓練セット510からグラウンドトゥルースRGB画像バッファ512及び二値輪郭画像バッファ514を抽出する。グラウンドトゥルースRGB画像バッファ512をセグメンテーションネットワーク520に入力して予測セグメンテーションマスク522を生成する。次に、予測セグメンテーションマスク522から予測輪郭524を生成する。手動でセグメント化されたマスク530と予測セグメンテーションマスク522との間のセグメンテーション損失542も計算する。
図5の例示的な実装では、エンハンサ540が、セグメンテーション損失542及び輪郭精度損失544を受け取って、セグメンテーション損失542及び輪郭精度損失544の加重平均としての総損失を計算する(すなわち、総損失=k*セグメンテーション損失+(1-k)*輪郭精度損失)。1つの実装では、エンハンサ540が、総損失計算を使用して二値輪郭画像バッファ514の損失を補償して、改善された二値輪郭550を生成する。その後、エンハンサ540は、改善された二値輪郭550を利用して、予測セグメンテーションマスクの精度を高めるセグメンテーションネットワーク520の最適化プロセスを支援する。従って、エンハンサ540は、(訓練された輪郭精度ネットワークの使用を通じて)(既存の輪郭生成モデルを使用する)輪郭精度ネットワーク及びセグメンテーションネットワークの両方を訓練するように構成される。
図6は、本開示の1つの実装による、予測セグメンテーションマスクの精度を高めるシステム600のブロック図である。図6の例示的な実装では、システム600が、バッファ抽出器610、セグメンテーションネットワーク620、プロセッサ630、及びエンハンサ640を含む。1つの実装では、システム600のブロック610、620、630、640が、1又は2以上のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、又はその他の同等の集積又はディスクリート論理回路を含むハードウェアのみで構成される。
図6の例示的な実装では、バッファ抽出器610が、交差画像コンテナ602からグラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出する。セグメンテーションネットワーク620は、グラウンドトゥルースRGB画像バッファを受け取って予測セグメンテーションマスクを生成する。次に、プロセッサ630は、予測セグメンテーションマスクを受け取り、手動でセグメント化されたマスクから二値輪郭を生成するために使用したものと同じアルゴリズムを使用して、予測セグメンテーションマスクに基づいて予測輪郭を生成する。プロセッサ630は、手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失も計算し、計算されたセグメンテーション損失をエンハンサ640に送信する。プロセッサ630は、予測輪郭524と画像バッファの二値輪郭との間の輪郭精度損失をさらに計算する。
図6の例示的な実装では、エンハンサ640が、セグメンテーション損失542及び輪郭精度損失544を受け取って、セグメンテーション損失542及び輪郭精度損失544の加重平均としての総損失を計算する(すなわち、総損失=k*セグメンテーション損失+(1-k)*輪郭精度損失)。エンハンサ640は、総損失計算を使用して二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成する。その後、この改善された二値輪郭を使用して、セグメンテーションネットワーク620がより良好なセグメンテーションマスクを生成するのを支援する。
図7Aは、本開示の実装によるコンピュータシステム700及びユーザ702の表現である。ユーザ702は、コンピュータシステム700を使用して、図1の方法100及び図6のシステム600に関して予測セグメンテーションマスクの精度を高めるための画像処理アプリケーション790を実行する。
コンピュータシステム700は、図7Bの画像処理アプリケーション790を記憶して実行する。また、コンピュータシステム700は、ソフトウェアプログラム704と通信することもできる。ソフトウェアプログラム704は、画像処理アプリケーション790のためのソフトウェアコードを含むことができる。以下でさらに説明するように、ソフトウェアプログラム704は、CD、DVD又はストレージドライブなどの外部媒体にロードすることができる。
さらに、コンピュータシステム700は、ネットワーク780に接続することもできる。ネットワーク780は、例えばクライアント-サーバアーキテクチャ、ピアツーピアネットワークアーキテクチャ又は他のタイプのアーキテクチャなどの様々な異なるアーキテクチャで接続することができる。例えば、ネットワーク780は、画像処理アプリケーション790内で使用されるエンジンとデータとを協調させるサーバ785と通信することができる。また、ネットワークは、異なるタイプのネットワークとすることもできる。例えば、ネットワーク780は、インターネット、ローカルエリアネットワーク又はローカルエリアネットワークのいずれかの変形形態、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、イントラネット又はエクストラネット、或いは無線ネットワークとすることができる。
図7Bは、本開示の実装による、画像処理アプリケーション790をホストするコンピュータシステム700を示す機能ブロック図である。コントローラ710はプログラマブルプロセッサであり、コンピュータシステム700及びそのコンポーネントの動作を制御する。コントローラ710は、メモリ720又は埋め込みコントローラメモリ(図示せず)から(例えば、コンピュータプログラムの形態の)命令をロードし、これらの命令を実行してシステムを制御する。コントローラ710は、その実行において、精度を高めた予測セグメンテーションマスクの生成を可能にするようなソフトウェアシステムを画像処理アプリケーション790に提供する。或いは、このサービスは、コントローラ710又はコンピュータシステム700内の別のハードウェアコンポーネントとして実装することもできる。
メモリ720は、コンピュータシステム700の他のコンポーネントによって使用されるデータを一時的に記憶する。1つの実装では、メモリ720がRAMとして実装される。別の実装では、メモリ720が、フラッシュメモリ及び/又はROMなどの長期又は固定メモリも含む。
ストレージ730は、コンピュータシステム700の他のコンポーネントによって使用されるデータを一時的に又は長期にわたって記憶する。例えば、ストレージ730は、画像処理アプリケーション790によって使用されるデータを記憶する。1つの実装では、ストレージ730がハードディスクドライブである。
媒体装置740は、取り外し可能媒体を受け取り、挿入された媒体に対してデータの読み取り及び/又は書き込みを行う。1つの例では、媒体装置740が光ディスクドライブである。
ユーザインターフェイス750は、コンピュータシステム700のユーザからのユーザ入力を受け入れてユーザ702に情報を提示するコンポーネントを含む。1つの実装では、ユーザインターフェイス750が、キーボード、マウス、オーディオスピーカ及びディスプレイを含む。コントローラ710は、ユーザ702からの入力を使用してコンピュータシステム700の動作を調整する。
I/Oインターフェイス760は、外部記憶装置又は補助装置(例えば、プリンタ又はPDA)などの対応するI/O装置に接続するための1又は2以上のI/Oポートを含む。1つの実装では、I/Oインターフェイス760のポートが、USBポート、PCMCIAポート、シリアルポート及び/又はパラレルポートなどのポートを含む。別の実装では、I/Oインターフェイス760が、外部装置と無線で通信するための無線インターフェイスを含む。
ネットワークインターフェイス770は、イーサネット接続をサポートするRJ-45又は(限定するわけではないが802.11を含む)「Wi-Fi」インターフェイスなどの有線及び/又は無線ネットワーク接続を含む。
コンピュータシステム700は、コンピュータシステムに特有のさらなるハードウェア及びソフトウェア(例えば、電源、冷却、オペレーティングシステム)を含むが、これらのコンポーネントは、単純にするために図7Bには具体的に示していない。他の実装では、コンピュータシステムの異なる構成(例えば、異なるバス又はストレージ構成、又はマルチプロセッサ構成)を使用することもできる。
本明細書に開示した実装の説明は、本発明をいずれかの当業者が実施又は利用できるように行ったものである。当業者には、これらの実装の数多くの修正が容易に明らかになると思われ、また本明細書で定める原理は、本発明の趣旨又は範囲から逸脱することなく他の実装にも適用することができる。従って、本開示は、本明細書に示す実装に限定されることを意図するものではなく、本明細書に開示する原理及び新規の特徴と一致する最も広い範囲を許容すべきものである。
従って、さらなる変形及び実装も可能である。例えば、1つの実装は、画像セグメンテーションモデルの機械学習訓練に輪郭画像ベースの評価を追加して画像セグメンテーションプロセスの性能を高める。輪郭画像ベースの評価は、訓練中のモデルによるセグメンテーションが輪郭画像に一致する出力を提供しているかどうかにかかわらず、別の参照情報を提供することによってビデオセグメンテーションモデル訓練の効率を高めることができる。さらなる実装例としては、コンテンツ制作においてグリーンスクリーンを使用する必要性の排除、並びにロボット工学、自律運転、工場自動化のための画像セグメンテーション及び形状認識などが挙げられる。
提案する解決策で訓練された高忠実度ビデオセグメンテーションエンジンを使用して、コンテンツ制作の視覚効果(VFX)プロセスにおける役者及び物体のマスキングプロセスを自動化することができる。現在、このようなマスキングは人間によって手動で行われており、機械学習ベースのツールを使用して時間のかかるプロセスを自動化することができる。
本開示の特定の実装では、必ずしも上述した各実施例の全ての特徴が必要なわけではない。さらに、本明細書に示す説明及び図面は、本発明によって幅広く検討される主題を表すものであると理解されたい。さらに、本開示の範囲は、当業者に明らかになると考えられる他の実装を完全に含み、従って添付の特許請求の範囲以外のものによって限定されるものではないと理解されたい。
110 アルゴリズムを使用して、グラウンドトゥルースRGBの手動でセグメント化されたマスクに基づいて二値輪郭を生成
120 二値輪郭をオリジナルRGB画像内に交差させることによって新たなグラウンドトゥルース画像セットを生成
130 セグメンテーション訓練のための交差画像コンテナからグラウンドトゥルースRGB画像バッファを抽出
140 予測セグメンテーションマスクに基づいて、アルゴリズムを使用して新たな二値輪郭を取得
150 手動でセグメント化されたマスクと予測セグメンテーションマスクとの間のセグメンテーション損失を計算
160 二値輪郭と新たな二値輪郭との間の損失関数の形態の差分を計算
170 誤差逆伝播のためにセグメンテーション損失に輪郭損失を加算

Claims (16)

  1. 予測セグメンテーションマスクの精度を高める方法であって、
    セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、
    前記グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、
    特定のアルゴリズムを使用して、前記予測セグメンテーションマスクから第2の二値輪郭を生成することと、
    前記グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、
    前記二値輪郭画像バッファの輪郭と前記予測セグメンテーションマスクの前記二値輪郭との間の輪郭精度損失を計算することと、
    前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算することと、
    予測セグメンテーションマスクの精度を高めるために、前記総損失を使用して前記二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成し、前記改善された二値輪郭を使用してセグメンテーションネットワークを支援すること、
    を含むことを特徴とする方法。
  2. 前記特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像の前記手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、
    前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させて前記グラウンドトゥルースRGB画像コンテナを生成することと、
    をさらに含む請求項1に記載の方法。
  3. 前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させることは、
    前記グラウンドトゥルースRGB画像の各行を前記グラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、
    前記第1の二値輪郭の各行を前記グラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、
    を含む、請求項2に記載の方法。
  4. 前記第1の1行おきの行は偶数行であり、前記第2の1行おきの行は奇数行である、
    請求項3に記載の方法。
  5. 前記手動でセグメント化されたマスクは、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される、
    請求項1に記載の方法。
  6. 前記総損失を計算することは、
    第1の定数に前記セグメンテーション損失を乗じたものと第2の定数に前記輪郭精度損失を乗じたものとの加算として前記総損失を計算することを含み、
    前記第1の定数と前記第2の定数との和は1に等しい、
    請求項1に記載の方法。
  7. 予測セグメンテーションマスクの精度を高めるシステムであって、
    交差画像コンテナからグラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出するバッファ抽出器と、
    前記グラウンドトゥルースRGB画像バッファを受け取って予測セグメンテーションマスクを生成するセグメンテーションネットワークと、
    前記予測セグメンテーションマスクを受け取り、前記予測セグメンテーションマスクに基づいて予測輪郭を生成し、手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算し、前記予測輪郭と前記二値輪郭画像バッファとの間の輪郭精度損失も計算するプロセッサと、
    前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算するエンハンサであって、前記総損失を使用して前記二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成し、前記改善された二値輪郭を使用してセグメンテーションネットワークを支援することによって予測セグメンテーションマスクの精度を高めるエンハンサと、
    を備えることを特徴とするシステム。
  8. 前記プロセッサは、特定のアルゴリズムを使用して、前記予測セグメンテーションマスクに基づいて前記予測輪郭を生成する、
    請求項7に記載のシステム。
  9. 前記交差画像コンテナは、前記特定のアルゴリズムを使用して、前記グラウンドトゥルースRGB画像バッファ内のグラウンドトゥルースRGB画像の前記手動でセグメント化されたマスクに基づいて二値輪郭を生成し、前記二値輪郭画像バッファ内の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させることによって構築される、
    請求項に記載のシステム。
  10. 前記手動でセグメント化されたマスクは、前記グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される、
    請求項に記載のシステム。
  11. 予測セグメンテーションマスクの精度を高めるためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
    セグメンテーション訓練のためのグラウンドトゥルース赤色-緑色-青色(RGB)画像コンテナから、グラウンドトゥルースRGB画像バッファ及び二値輪郭画像バッファを抽出することと、
    前記グラウンドトゥルースRGB画像バッファから予測セグメンテーションマスクを生成することと、
    特定のアルゴリズムを使用して、前記予測セグメンテーションマスクから第2の二値輪郭を生成することと、
    前記グラウンドトゥルースRGB画像バッファの手動でセグメント化されたマスクと前記予測セグメンテーションマスクとの間のセグメンテーション損失を計算することと、
    前記二値輪郭画像バッファの輪郭と前記予測セグメンテーションマスクの前記二値輪郭との間の輪郭精度損失を計算することと、
    前記セグメンテーション損失及び前記輪郭精度損失の加重平均としての総損失を計算することと、
    予測セグメンテーションマスクの精度を高めるために、前記総損失を使用して前記二値輪郭画像バッファの損失を補償して改善された二値輪郭を生成し、前記改善された二値輪郭を使用してセグメンテーションネットワークを支援すること、
    をコンピュータに行わせる実行可能命令を含む、ことを特徴とする非一時的コンピュータ可読記憶媒体。
  12. 前記コンピュータプログラムは、
    前記特定のアルゴリズムを使用して、グラウンドトゥルースRGB画像の前記手動でセグメント化されたマスクに基づいて第1の二値輪郭を生成することと、
    前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させて前記グラウンドトゥルースRGB画像コンテナを生成することと、
    を前記コンピュータに行わせる実行可能命令をさらに含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
  13. 前記第1の二値輪郭を前記グラウンドトゥルースRGB画像内に交差させることを前記コンピュータにさせる前記実行可能命令は、
    前記グラウンドトゥルースRGB画像の各行を前記グラウンドトゥルースRGB画像コンテナの第1の1行おきの行内に配置することと、
    前記第1の二値輪郭の各行を前記グラウンドトゥルースRGB画像コンテナの第2の1行おきの行内に配置することと、
    を前記コンピュータに行わせる実行可能命令を含む、請求項12に記載の非一時的コンピュータ可読記憶媒体。
  14. 前記第1の1行おきの行は偶数行であり、前記第2の1行おきの行は奇数行である、
    請求項13に記載の非一時的コンピュータ可読記憶媒体。
  15. 前記手動でセグメント化されたマスクは、グラウンドトゥルースRGB画像を手動でセグメント化することによって生成される、
    請求項11に記載の非一時的コンピュータ可読記憶媒体。
  16. 前記総損失を計算することを前記コンピュータに行わせる実行可能命令は、
    第1の定数に前記セグメンテーション損失を乗じたものと第2の定数に前記輪郭精度損失を乗じたものとの加算として前記総損失を計算することを前記コンピュータに行わせる実行可能命令を含み、
    前記第1の定数と前記第2の定数との和は1に等しい、
    請求項11に記載の非一時的コンピュータ可読記憶媒体。
JP2022560283A 2020-07-02 2021-05-28 輪郭精度評価を用いた画像セグメンテーション訓練 Active JP7476345B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063047750P 2020-07-02 2020-07-02
US63/047,750 2020-07-02
US17/179,061 US11790533B2 (en) 2020-07-02 2021-02-18 Machine learning based image segmentation training with contour accuracy evaluation
US17/179,061 2021-02-18
PCT/US2021/035026 WO2022005670A1 (en) 2020-07-02 2021-05-28 Image segmentation training with contour accuracy evaluation

Publications (2)

Publication Number Publication Date
JP2023520528A JP2023520528A (ja) 2023-05-17
JP7476345B2 true JP7476345B2 (ja) 2024-04-30

Family

ID=79167561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560283A Active JP7476345B2 (ja) 2020-07-02 2021-05-28 輪郭精度評価を用いた画像セグメンテーション訓練

Country Status (5)

Country Link
US (1) US11790533B2 (ja)
EP (1) EP4154197A4 (ja)
JP (1) JP7476345B2 (ja)
CN (1) CN115280361A (ja)
WO (1) WO2022005670A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019050A (zh) * 2021-03-05 2022-09-06 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
US20240153099A1 (en) * 2022-11-01 2024-05-09 Black Sesame Technologies Inc. Strip decoder and inside-outside loss for high quality image segmentation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015145643A1 (ja) 2014-03-27 2015-10-01 コニカミノルタ株式会社 画像処理装置および画像処理プログラム
US20170287137A1 (en) 2016-03-31 2017-10-05 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
CN108846841A (zh) 2018-07-02 2018-11-20 北京百度网讯科技有限公司 显示屏质量检测方法、装置、电子设备及存储介质
WO2019066794A1 (en) 2017-09-27 2019-04-04 Google Llc END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328349B2 (en) 2001-12-14 2008-02-05 Bbn Technologies Corp. Hash-based systems and methods for detecting, preventing, and tracing network worms and viruses
US8392709B1 (en) 2009-04-28 2013-03-05 Adobe Systems Incorporated System and method for a single request—single response protocol with mutual replay attack protection
US8391594B1 (en) * 2009-05-28 2013-03-05 Adobe Systems Incorporated Method and apparatus for generating variable-width border masks
US9113130B2 (en) 2012-02-06 2015-08-18 Legend3D, Inc. Multi-stage production pipeline system
CN104737542B (zh) 2013-01-30 2018-09-25 英特尔公司 用于下一代视频的内容自适应熵编码
EP3007411A1 (en) 2014-10-06 2016-04-13 Verisign, Inc. System and method for adding a whitelist entry via dns
US10509954B2 (en) * 2016-02-10 2019-12-17 Intel Corporation Method and system of image segmentation refinement for image processing
US10601859B2 (en) 2016-02-25 2020-03-24 Trusona, Inc. Anti-replay systems and methods
US9680951B1 (en) * 2016-09-06 2017-06-13 Cloudflare, Inc. Method and apparatus for causing delay in processing requests for internet resources received from client devices
US10929987B2 (en) 2017-08-16 2021-02-23 Nvidia Corporation Learning rigidity of dynamic scenes for three-dimensional scene flow estimation
EP3625765B1 (en) 2017-12-29 2024-03-20 Leica Biosystems Imaging, Inc. Processing of histology images with a convolutional neural network to identify tumors
CN110517278B (zh) * 2019-08-07 2022-04-29 北京旷视科技有限公司 图像分割和图像分割网络的训练方法、装置和计算机设备
CN110660066B (zh) * 2019-09-29 2023-08-04 Oppo广东移动通信有限公司 网络的训练方法、图像处理方法、网络、终端设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015145643A1 (ja) 2014-03-27 2015-10-01 コニカミノルタ株式会社 画像処理装置および画像処理プログラム
US20170287137A1 (en) 2016-03-31 2017-10-05 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
WO2019066794A1 (en) 2017-09-27 2019-04-04 Google Llc END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION
CN108846841A (zh) 2018-07-02 2018-11-20 北京百度网讯科技有限公司 显示屏质量检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2023520528A (ja) 2023-05-17
US20220005200A1 (en) 2022-01-06
EP4154197A4 (en) 2023-12-06
US11790533B2 (en) 2023-10-17
EP4154197A1 (en) 2023-03-29
CN115280361A (zh) 2022-11-01
WO2022005670A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
CN112308095A (zh) 图片预处理及模型训练方法、装置、服务器及存储介质
CN108664981B (zh) 显著图像提取方法及装置
JP6213745B2 (ja) 画像処理方法及び装置
KR102084343B1 (ko) 배경 제거
JP7476345B2 (ja) 輪郭精度評価を用いた画像セグメンテーション訓練
JP2015232869A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2022194079A1 (zh) 天空区域分割方法、装置、计算机设备和存储介质
CN113301409A (zh) 视频合成方法、装置、电子设备和可读存储介质
CN114299101A (zh) 图像的目标区域获取方法、装置、设备、介质和程序产品
WO2020166596A1 (ja) 画像処理システム及びプログラム
CN116320334A (zh) 投影画面颜色校正方法、装置、投影设备和存储介质
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN107564085B (zh) 图像扭曲处理方法、装置、计算设备及计算机存储介质
CN114240804A (zh) 一种抠图数据生成方法、装置、计算机设备及存储介质
JP2014230283A (ja) ピクチャーを処理する方法および装置
JP4568692B2 (ja) 画像補正システム、画像補正方法およびこの方法のプログラム
CN114565633A (zh) 基于概念结构元素和矩阵范数的彩色图像边缘提取方法
CN115713464A (zh) 一种基于文本感知损失的注意力文本超分辨率方法
CN108629350B (zh) 一种识别图片之间相似关系的方法及装置
CN114140488A (zh) 视频目标分割方法及装置、视频目标分割模型的训练方法
JP7432766B2 (ja) オプティカルフローによって支援される、動いている物体のためのハイブリッドビデオセグメンテーション
Cao et al. TranStable: Towards Robust Pixel-level Online Video Stabilization by Jointing Transformer and CNN
CN104394300B (zh) 一种视频缩放方法及其系统
CN111462148B (zh) 提取前景图像的方法、系统、电子设备及存储介质
CN108108794A (zh) 一种基于二维码图像隐藏的可视化信息增强方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7476345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150