JP2023049037A - 画像内のディストラクションを低減させるための技術 - Google Patents

画像内のディストラクションを低減させるための技術 Download PDF

Info

Publication number
JP2023049037A
JP2023049037A JP2022153798A JP2022153798A JP2023049037A JP 2023049037 A JP2023049037 A JP 2023049037A JP 2022153798 A JP2022153798 A JP 2022153798A JP 2022153798 A JP2022153798 A JP 2022153798A JP 2023049037 A JP2023049037 A JP 2023049037A
Authority
JP
Japan
Prior art keywords
image
mask
attribute
inpainted
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022153798A
Other languages
English (en)
Other versions
JP7498238B2 (ja
Inventor
クフィル・アバーマン
Aberman Kfir
ヤエル・プリチ・ケイナーン
Pritch Knaan Yael
デイヴィッド・エドワード・ジェイコブス
Edward Jacobs David
オーリー・ライバ
Liba Orly
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023049037A publication Critical patent/JP2023049037A/ja
Application granted granted Critical
Publication of JP7498238B2 publication Critical patent/JP7498238B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4015Image demosaicing, e.g. colour filter arrays [CFA] or Bayer patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • G06T5/75Unsharp masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】第1の画像内のディストラクタオブジェクトを低減させるための技術を提供すること。【解決手段】本システムは、マスクおよび第1の画像にアクセスできる。第1の画像内のディストラクタオブジェクトは、関心領域内部であることができ、かつ元の属性を持つ画素を有することができる。追加的に、本システムは、機械学習修復モデルを使用して、第1の画像およびマスクを処理して修復画像を生成できる。修復画像内のディストラクタオブジェクトの画素は、色度チャネルにおいて修復属性を有することができる。その上、本システムは、第1の画像と修復画像の比較に基づいてパレット変換を決定できる。変換属性は修復属性と異なることができる。更には、本システムは、第1の画像を処理して再着色画像を生成できる。再着色画像内の画素は、パレット変換の変換属性に基づいて再着色属性を有することができる。【選択図】図2

Description

本開示は概して、画像内のディストラクション(distraction)を低減させることに関する。より詳細には、本開示は、画像の現実性を維持しつつ画像内のディストラクタ(distractor)を調和させるための技術に関する。
画像(例えば、写真、ビデオのフレーム)および他の形態の画像データは、しばしばユーザの視線を捉えることがあるディストラクションを含む。1つの例として、ディストラクションは、本題(例えば、ビデオ通話に参加している主たる話者)から気を散らす妨害オブジェクト(例えば、部屋の背景の散乱物、背景オブジェクトの1つの部分の明色)に相当することがある。別の例として、不要なディストラクタオブジェクトは、ユーザのさもなければ元の状態の肖像写真内の目障りなオブジェクトに相当することがある。したがって、ディストラクタオブジェクトは、画像の本題からユーザの視覚的注意を引き寄せるオブジェクトに相当することがある。
従来のシステムにおいて、ディストラクタオブジェクトは画像から除去できる。しかしながら、ディストラクタオブジェクトを置換することは難題であることがある。一部の事例では、画像を歪ませるまたは画像を非現実的に見せることなく画像からディストラクタを除去することが可能でないことがある。例えば、ディストラクタオブジェクトが、気を散らしている背景オブジェクト(例えば、椅子)の1つの部分(例えば、妨害色、明色、妨害パターン)であれば、ディストラクタオブジェクトは、背景オブジェクトを歪ませることなく容易に除去されることはない。
本開示の実施形態の態様および利点は、以下の説明に部分的に記載され、または同説明から学ぶことができ、または同実施形態の実施を通じて学ぶことができる。
本開示は、画像内のディストラクタの構造および内容を維持しつつ、機械訓練モデルを使用してディストラクタの色を操作することによって、ディストラクタの顕著性(例えば、注目)を低下させるためのシステムおよび方法を提供する。例えば、ディストラクタの色彩情報を(例えば、顕著性を低下させるように)操作できる一方で、輝度情報を(例えば、視覚的構造を維持するように)維持できる。ディストラクタは、本題から注意を引き離し全体としてのユーザ体験を低下させる画像の領域として定義できる。一部の事例では、結果的な効果は、追加のユーザ入力なしで専ら事前訓練モデルを使用して達成できる。
本開示の1つの態様例は、第1の画像内のディストラクタオブジェクトを低減させるためのコンピュータ実装方法を対象とする。上記方法は、1つまたは複数のコンピューティングデバイスによって、マスク、およびディストラクタオブジェクトを有する第1の画像にアクセスするステップを含むことができる。マスクは、第1の画像と関連付けられた関心領域を示すことができる。ディストラクタオブジェクトは、関心領域内にあり、元の属性を持つ1つまたは複数の画素を有することができる。上記方法は、機械学習修復モデルを使用して、第1の画像およびマスクを処理して修復画像を生成するステップを更に含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて修復属性を有することができる。追加的に、上記方法は、第1の画像と修復画像の比較に基づいてパレット変換を決定するステップを含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて変換属性を有することができ、ここで変換属性は修復属性とは異なる。更には、上記方法は、第1の画像を処理して再着色画像を生成するステップを含むことができる。再着色画像内のディストラクタオブジェクトの1つまたは複数の画素は、変換属性および決定されたパレット変換に基づいて再着色属性を有することができる。
本開示の別の態様例は、1つまたは複数のプロセッサと、1つまたは複数の非一時的コンピュータ可読媒体とを備える、コンピューティングシステムを対象とする。1つまたは複数の非一時的コンピュータ可読媒体は、機械学習修復モデルと、1つまたは複数のプロセッサによって実行されるときコンピューティングシステムに動作を行わせる命令とを集合的に記憶できる。機械学習修復モデルは、第1の画像を使用して修復画像を生成するように構成できる。上記動作は、マスク、およびディストラクタオブジェクトを有する第1の画像にアクセスすることを含むことができる。マスクは、第1の画像と関連付けられた関心領域を示すことができる。ディストラクタオブジェクトは、関心領域内にあり、元の属性を持つ1つまたは複数の画素を有することができる。追加的に、上記動作は、機械学習修復モデルを使用して、第1の画像およびマスクを処理して修復画像を生成することを含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて修復属性を有することができる。その上、上記動作は、第1の画像と修復画像の比較に基づいてパレット変換を決定することを含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて変換属性を有することができる。変換属性は修復属性とは異なることができる。更には、上記動作は、第1の画像を処理して再着色画像を生成することを含むことができる。再着色画像内のディストラクタオブジェクトの1つまたは複数の画素は、変換属性および決定されたパレット変換に基づいて再着色属性を有することができる。
本開示の更に別の態様例は、機械学習修復モデルを集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とする。機械学習修復モデルは、動作の実行によって学習させることができる。上記動作は、マスク、およびディストラクタオブジェクトを有する第1の画像にアクセスすることを含むことができる。マスクは、第1の画像と関連付けられた関心領域を示すことができ、ディストラクタオブジェクトは、1つまたは複数の画素が、元の属性を有し、関心領域内にあることができる。追加的に、上記動作は、機械学習修復モデルを使用して、第1の画像およびマスクを処理して修復画像を生成することを含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて修復属性を有することができる。その上、上記動作は、第1の画像と修復画像の比較に基づいてパレット変換を決定することを含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて変換属性を有することができ、変換属性は修復属性とは異なることができる。更には、上記動作は、第1の画像を処理して再着色画像を生成することを含むことができる。再着色画像内のディストラクタオブジェクトの1つまたは複数の画素は、変換属性および決定されたパレット変換に基づいて再着色属性を有することができる。
一部の事例では、上記方法に記載される第1の画像を処理して修復画像を生成するステップは、第1の画像およびマスクを処理してマスク画像を生成するステップを含むことができる。マスク画像は、機械学習修復モデルへ入力されて修復画像を生成できる。追加的に、本明細書に記載される方法で決定される再着色属性は修復属性とは異なることができる。
一部の事例では、1つまたは複数の色度チャネルは色相および彩度(HS)チャネルを含むことができる。追加的に、元の画像、修復画像および再着色画像内の各画素に対する値属性は不変に保つことができる。
一部の事例では、再着色属性は修復属性と異なることができる。
一部の事例では、パレット変換は、投票技術の実行を通じて生成できる。例えば、パレット変換は、投票分類子を有する機械学習モデルであることができる。機械学習モデルは、多数決投票、複数投票、加重投票、単純平均、加重平均等に基づくことができる。
一部の事例では、ディストラクタオブジェクトは、元の属性を持つ複数の画素を含むことができる。ディストラクタオブジェクトの1つまたは複数の画素は、複数投票技術に基づいて変換属性を有すると決定できる。他の事例では、変換属性の決定は、多数決投票、加重投票、単純平均、加重平均または他の投票技術に基づくことができる。
一部の事例では、パレット変換は、拡張マスクに基づいて更に決定できる。拡張マスクは、第1の画像と関連付けられた拡大関心領域を有することができる。拡張マスクの拡大関心領域はマスクの関心領域より大きい。
一部の事例では、機械学習修復モデルは、1つまたは複数の色度チャネルに訓練データを使用して訓練される。例えば、機械学習修復モデルは、色相および彩度(HS)訓練データを使用して訓練できる。
一部の事例では、上記方法は、生画像にアクセスするステップを更に含むことができる。生画像は赤緑青(RGB)色空間にあることができる。上記方法は、生画像を処理して第1の画像を生成するステップを更に含むことができる。例えば、第1の画像は色相-彩度(HS)チャネルにあることができ、第1の画像内の各画素に対する値属性は、第1の画像を生成するために生画像が処理されるときに不変に保つことができる。追加的に、生画像は高解像度画像(例えば、300ドット/インチ(DPI)超)であることができ、機械学習修復モデルによって処理される第1の画像のバージョンは低解像度画像(例えば、300DPI未満)である。これは、修復モデルが低解像度画像を処理できるために、修復モデルに対する高速処理時間による改善された技術的効果の一例である。
一部の事例では、再着色画像もHSチャネルにあることができる。その上、上記方法は、再着色画像を処理して最終画像を生成するステップを更に含むことができる。最終画像は赤緑青(RGB)色空間にあることができる。更には、再着色画像は高解像度画像であることができ、修復画像は低解像度画像である。これは、画質を低下させることなく高速処理時間を許容することによる(例えば、低解像度画像を処理することによる)改善された技術的効果の別の例である。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインタフェースおよび電子デバイスを対象とする。
本開示の様々な実施形態のこれらおよび他の特徴、態様および利点は、以下の説明および添付の特許請求の範囲を参照しつつより良く理解されるであろう。本明細書に組み込まれて、その一部を構成する添付の図面は、本開示の実施形態例を例示し、同説明と共に、関連した原理を説明するのに役立つ。
本特許または出願ファイルは、カラーで作成された少なくとも1つの図面を含む。カラー図面による本特許または特許出願公開の写しは、請求に応じて、必要な手数料が支払われた場合に、米国特許商標庁によって提供されることになる。
当業者を対象とする実施形態の詳細な検討が、添付の図を参照しつつ本明細書に明らかにされる。
本開示の実施形態例に係るコンピューティングシステム例のブロック図である。 本開示の実施形態例に係るコンピューティングデバイス例のブロック図である。 本開示の実施形態例に係るコンピューティングデバイス例のブロック図である。 本開示の実施形態例に係る画像内のディストラクタオブジェクトを低減させるための技術例のフロー図である。 本開示の実施形態例に係る色相-彩度-値(HSV)変換技術の例示を表す図である。 本開示の実施形態例に係るHSV空間投影技術の例示を表す図である。 本開示の実施形態例に係る色相-彩度チャネルにおける修復技術の例示を表す図である。 本開示の実施形態例に係る投票技術を使用してパレット変換を決定することを表す図である。 本開示の実施形態例に係る画像からディストラクションを低減させるための方法例のフローチャートである。 本開示の実施形態例に係る画像からディストラクションを低減させるための別の方法例のフローチャートである。 本開示の実施形態例に係る元の画像を修復画像および再着色画像へ変換する例示を表す図である。 本開示の実施形態例に係る元の画像を再着色画像へ変換する別の例示を表す図である。 本開示の実施形態例に係る元の画像を再着色画像へ変換する別の例示を表す図である。
複数の図にわたって繰り返される参照数字は、様々な実装形態において同じ特徴を識別すると意図される。
概して、本開示は、1つまたは複数の機械学習モデル(例えば、1つまたは複数の修復モデル)の出力を使用して、ディストラクションを低減させるように画像を修正するために使用できるパレット変換を生成するシステムおよび方法を対象とする。一部の実装形態において、本明細書に記載されるように、画像は、画像の現実性を維持しつつディストラクタオブジェクトを画像の背景と調和させる(例えば、カモフラージュする)ように修正できる。例えば、画像内のディストラクタオブジェクトの種々の部分を、画像の背景と調和するように再着色できる。特に、パレット変換は、ディストラクタの色彩情報を(例えば、顕著性を低下させるように)修正するために使用できる一方で、ディストラクタと関連付けられた輝度情報は(例えば、視覚的構造を維持するように)維持するまたは無修正のままにすることができる。
特に、一部の実装形態において、機械学習修復モデルによって提供される修復出力は、入力画像に再着色するために使用できるパレット変換を生成するために活用できる。具体的には、ディストラクタオブジェクトを含む入力画像を得ることができる。マスクがディストラクタオブジェクトの位置を示すことができる。マスクは入力画像に適用されて、ディストラクタオブジェクトがマスクされたマスク画像を得ることができる。マスク画像は、機械学習修復モデルを使用して処理されて修復画像を生成できる。修復画像は、マスク位置に修復属性(例えば、色値)を有することができる。入力画像を修復画像と比較することによってパレット変換を決定できる。例えば、パレット変換を決定することは、投票領域に含まれる各画素に対して、入力画像内の画素の色が、対応する画素位置での修復画像内の色にマッピングされ投票する投票技術を行うことを含むことができる。一部の実装形態において、本開示の一態様によれば、パレット変換は、色空間の色度チャネル(例えば、HSV色空間における色相および彩度チャネル)に対してのみ生成される。パレット変換は次いで、少なくともディストラクタを含む入力画像の部分に適用されてディストラクタを再着色できる。一部の実装形態において、パレット変換が色度情報のみを変更するように動作するので、ディストラクタは、その顕著性が低下される一方でその視覚的構造が維持されるように修正できる。更に、入力画像にパレット変換を適用することによって出力画像が生成されるので(例えば、修復画像を出力として提供することと対照的に)、典型的な修復モデルによってもたらされるアーチファクトまたは他の歪みを回避できる。代わりに、修復モデルは、単にパレット変換の生成を容易にするために使用される。
より具体的には、関連した課題に対処するために従来の技術(例えば、スタイル転送、色調和、画像カモフラージュ、顕著性主導の画像操作)が使用されてきたが、従来の技術のいずれも画像の現実性を適切に維持できない。特に、画像を編集して画像の背景からディストラクタオブジェクトを除去するために、或る従来の技術を使用できる。しかしながら、従来の技術を使用してディストラクタオブジェクトを除去することは、オブジェクトの構造が維持される必要があるときなど、或る状況では理想的でないことがある。対照的に、本開示の一部の実施形態に記載される技術は、画像における現実性を維持しつつ(例えば、ディストラクタオブジェクトの視覚的構造を維持しつつ)、ディストラクタオブジェクトと関連付けられる注意を低下させることができる。
一部の事例では、背景内のディストラクタオブジェクトが除去されない場合は画像の現実性は維持できるが、代わりにディストラクタオブジェクトの妨害色が再着色(例えば、修正)される。オブジェクト(例えば、多数のパターンを持つ椅子)の構造を維持できる一方で、本システムは、オブジェクト内の妨害色またはパターン(例えば、椅子の一部分のディストラクタ色、椅子の多数のパターン内のディストラクタパターン)を、背景により類似している色またはパターンに変更する。妨害成分(例えば、色、パターン)を、背景に類似した色またはパターンに変更することによって、妨害成分は背景に融合(例えば、カモフラージュ)でき、その結果、妨害成分と関連付けられる注意の低下に至ることができる。例えば、強いまたは調和しない背景色は気を散らし得るため、本システムは、強い背景色を画像のより一般に現れる背景色と調和させて、ディストラクションを低減させることができる。
本開示の一態様によれば、本明細書に記載される技術の或る部分は、色空間に含まれるチャネルの全てより少ない部分に行うことができる。一例として、一部の実装形態において、少なくともパレット変換は、色空間の色度チャネルのみに対して生成および適用できる一方で、輝度チャネルは変化なしであることができる。したがって、1つの例では、生画像を第1の色空間(例えば、RGB)において提供でき、色度および輝度チャネル両方を含む第2の色空間(例えば、HSV)に変換できる。上記プロセス(例えば、マスキング、修復、パレット変換生成およびパレット変換適用を含む)の残りは、次いで色度チャネル(例えば、HSV色空間におけるVチャネルでなく、HSチャネル)のみに関して行うことができる。再着色画像は、次いで所望により、任意選択で第1の色空間(例えば、RGB)へ逆変換できる。
他の実装形態において、上記プロセスのより少ない部分を、色度チャネルに関してのみ行うことができる。1つの例として、一部の実装形態において、入力RGB画像をマスクでき、修復をRGB空間において行うことができる。次に、入力RGB画像および修復RGB画像は代替色空間(例えば、HSV)に変換でき、パレット変換は色度チャネル(輝度チャネルでない)に対して生成できる。パレット変換は、変換された(例えば、HSV)入力画像に適用されて、第2の色空間(例えば、HSV)において再着色画像を生成できる。再び、再着色画像は、所望により任意選択でRGBに逆変換できる。RGB空間において動作する修復モデルがより一般に入手可能であり得るので、この代替手法は、上記プロセスがそのような修復モデルを活用することを可能にすることができる。
本開示の別の態様によれば、本明細書に記載される技術の或る部分を、比較的低解像度を有する画像に行うことができる一方で、他の部分は、比較的高解像度を有する画像に行うことができる。例えば、修復モデルでのマスク画像の処理は低解像度画像に行うことができる。パレット変換は、そのような低解像度処理から生成できる。修復プロセスから色変換情報のみが抽出されるので、修復出力の解像度はあまり重要でない。次いで、パレット変換を高解像度の入力画像に適用できる。そのような様式で、高解像度再着色出力を達成する能力を維持しつつ、或る作用を低解像度で行うことによって計算の省力化を達成できる。
本開示のシステムおよび方法は幾つかの技術的効果および利益を提供する。本開示の態様は、画像処理および編集のための機械学習訓練、画像処理技術ならびに画像編集技術への幾つかの技術的改善を提供できる。一例として、ディストラクションが低減されるときに画像の現実性を改善するのを促進するために、本開示の画像編集技術は、画像内のディストラクションを低減させつつ妨害オブジェクトの構造を維持できる。追加的に、画像編集技術は、機械学習修復モデルおよびパレット変換に基づいて少なくとも部分的に改善される。パレット変換は、機械学習修復モデルの出力に投票技術を適用することによって生成できる。一部の実装形態において、機械学習修復モデルは、低解像度画像データを使用して訓練することおよび走らせることができる。一部の事例では、画像データは、1つまたは複数の色度チャネルにデータを含むことができる。低解像度画像上でまたはそれを使用してモデルを訓練することおよび/または走らせることによって、モデルを訓練するためおよび/または走らせるための計算リソース(例えば、プロセッサ時間、メモリ使用量等)を削減できる。
本明細書に記載されるシステムおよび方法は、画像処理の処理速度を改善し、かつ画像処理を行うために必要とされる計算リソースも削減できる。本開示に記載される技術は、修正された最終画像の画質を失うことなく低解像度画像を処理するために高解像度画像を低解像度画像に変換するためのプロセスについて記載する。画像処理(例えば、上記プロセスの修復部分)が低解像度画像に行われるのを許容することによって、処理時間が削減され、処理のために必要とされる計算リソースが削減される。結果として、本システムは、高レベルの画質を維持しつつ最高水準の性能を達成できる。したがって、行われる画像編集は以前の技術より高品質(例えば、より正確)であることができ、これはコンピューティングシステムの性能の改善を表す。
高解像度画像から変換された低解像度画像の使用は、チューニングから一部の混乱も取り除き、チューニングをより効率的にし、それによって計算リソースを節約する。訓練されたシステムは、以前のシステムに対して、利用される計算リソースの量を削減し得る。特に、画像編集の或る効率的でない手法では、教師あり様式で人間の編集を模倣することを学習しようと試みることがある。代わりに、本開示は、事前訓練モデルへのアクセスを活用して、画像編集プロセスを実現するためにその後適用されるパレット変換の生成を促す。
追加的に、提案される手法は、所望の効果を達成するために画像に多数の種々の編集を生じさせるまたは行う必要性を排除し得る。例えば、或る既存の技術は、所望の結果が達成されるまで多くの異なる材料編集動作を使用する試行錯誤を必要とし得る。本システムおよび方法は、代わりに所望の効果を達成する機械学習モデルを直接使用できる。行われる必要がある編集動作の数を削減することによって、本開示のシステムおよび方法は、プロセッサ使用量、メモリ使用量および/またはネットワーク帯域幅使用量などの計算リソースの省力化に至ることができる。
その上、本明細書に記載される技術を使用して、本システムは、内部実世界画像データを使用する既存の方法に比べて良好な性能を示すことができる。提案される手法は、既存の方法より少ない処理時間および少ない計算リソースで、画像の現実性を維持しつつ、画像内のディストラクションを低減させることができる。これは、次いで、カメラ、画像記録デバイス、ビデオ記録デバイス、画像処理デバイスおよび他の画像関連デバイスの機能を改善する。
更には、本開示のシステムおよび方法は、画像からディストラクションを除去するために機械学習技術を利用して画像の編集を改善し得る。具体的には、本開示のシステムおよび方法例は、低解像度画像を処理するモデルを使用して、関心領域内のディストラクションを首尾よく低減させるように本システムを訓練するために活用できる。
機械学習の実装が画像内のディストラクションのあらゆる発生を手動で編集する必要性も排除するので、更なる効率が追加され得る。本システムは、コーダーが複雑なコードを書き、コードを走らせ、コードを改良し、そして性能を絶えず管理する必要性も排除し得る。
一部の実装形態において、モデルは、視線データに基づいて訓練できるか、または事前訓練されている。視線データは、ユーザによって見られている画像の位置を含むことができ、これは人間の視覚的注意を決定するために使用できる。例えば、マスクは、視線データを使用して本システムによって自動的に生成できる。
追加的に、本明細書に記載される技術は、画像を編集して、視覚的ディストラクションを低減させる目的で人間の注意を減少させること以外にも、本題への人間の注意を増加させることを許容する。例えば、本システムは、機械学習モデルを活用して、大幅であるが、それでも現実的な編集を促し、これにより画像内の異なる領域への観察者の注意を著しく変化させることができる。この機能は、映像が我々の描写したい本題から気を散らすオブジェクトをしばしば含む、写真撮影、または部屋もしくはオフィスの背景の散乱物が通話に参加している主たる話者から気を散らし得る、ビデオ会議においてなど、重要な応用例を有することができる。
本明細書に記載される技術は、機械学習モデル内に組み込まれる視覚的注意の知識によって画像編集プロセスをどのように誘導できるかを示す。実装された画像編集モデルのユーザ調査は、得られた画像編集が、a)特定された領域に引き付けられる視覚的注意を効果的に低減させ、b)画像の全体的な現実性を十分に維持し、かつc)他の既存の編集効果に比べてユーザによって著しく好まれることを明らかにしている。
ここで図を参照しつつ、本開示の実施形態例が更に詳細に述べられる。
デバイスおよびシステム例
図1Aは、本開示の実施形態例に係る画像編集を行うコンピューティングシステム例100のブロック図を表す。システム100は、ネットワーク180を通じて通信的に結合されるユーザコンピューティングデバイス102、サーバコンピューティングシステム130および訓練コンピューティングシステム150を含む。
ユーザコンピューティングデバイス102は、例えばパーソナルコンピューティングデバイス(例えば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(例えば、スマートフォンもしくはタブレット)、ゲーミングコンソールもしくはコントローラ、ウェアラブルコンピューティングデバイス、組込みコンピューティングデバイスまたは任意の他の種類のコンピューティングデバイスなどの、任意の種類のコンピューティングデバイスであることができる。
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112と、メモリ114とを含む。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラ等)であることができ、1つのプロセッサまたは動作的に接続される複数のプロセッサであることができる。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスク等、およびその組合せなどの、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ114は、データ116、およびプロセッサ112によって実行されてユーザコンピューティングデバイス102に動作を行わせる命令118を記憶できる。
一部の実装形態において、ユーザコンピューティングデバイス102は、1つまたは複数のモデル120を記憶するまたは含むことができる。例えば、モデル120(例えば、修復モデル)は、非線形モデルおよび/または線形モデルを含め、ニューラルネットワーク(例えば、ディープニューラルネットワーク)または他の種類の機械学習モデルなどの、様々な機械学習モデルであること、またはそうでなければそれらを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(例えば、長短期記憶リカレントニューラルネットワーク)、畳込みニューラルネットワークまたは他の形態のニューラルネットワークを含むことができる。他の例では、モデル120は、区別可能であり、かつ機械学習技術の適用を容易にするためにパラメータ化された具体的な画像編集モデルであることができる。モデル例120は図2~図6を参照しつつ述べられる。
一部の実装形態において、1つまたは複数のモデル120は、ネットワーク180を通じてサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで1つまたは複数のプロセッサ112によって使用またはさもなければ実装できる。一部の実装形態において、ユーザコンピューティングデバイス102は、単一モデル120の多数の並列インスタンスを実装できる。
より具体的には、モデル120は、モデルを最適化するようにモデルのパラメータを訓練するために訓練コンピューティングシステム150を使用して一組の訓練データ162で訓練できる。訓練コンピューティングシステム150は、訓練モジュールに効率および精度を追加するために視線データに依存してよい。訓練データは、高解像度生画像データからの低解像度処理画像データの作成も含んでよい。関心領域または不要なデータのサイズおよび位置に対する標識を提供するために訓練中にマスクも使用されてよい。一部の事例では、マスクは、ユーザ入力コンポーネント122を使用して入力すること、または視線データに基づいて自動的に決定することができる。一部の事例では、ユーザが同意を与えたならば、視線データは、ユーザコンピューティングデバイス102から受信されるリアルタイムデータであることができる。
追加的または代替的に、1つまたは複数のモデル140を、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含むこと、またはそうでなければそれによって記憶および実装することができる。例えば、モデル140は、ウェブサービス(例えば、画像編集サービス)の一部分としてサーバコンピューティングシステム130によって実装できる。したがって、1つもしくは複数のモデル120をユーザコンピューティングデバイス102において記憶および実装でき、かつ/または1つもしくは複数のモデル140をサーバコンピューティングシステム130において記憶および実装できる。
ユーザコンピューティングデバイス102は、ユーザ入力を受ける1つまたは複数のユーザ入力コンポーネント122も含むことができる。例えば、ユーザ入力コンポーネント122は、ユーザ入力物体(例えば、指またはスタイラス)のタッチに感応するタッチ感応コンポーネント(例えば、タッチ感応ディスプレイスクリーンまたはタッチパッド)であることができる。タッチ感応コンポーネントは、仮想キーボードを実装するのに役立つことができる。他のユーザ入力コンポーネント例は、マイクロホン、従前のキーボード、またはユーザがユーザ入力を提供できる他の手段を含む。
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132と、メモリ134とを含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラ等)であることができ、かつ1つのプロセッサまたは動作的に接続される複数のプロセッサであることができる。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスク等、およびその組合せなどの、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ134は、データ136、およびプロセッサ132によって実行されてサーバコンピューティングシステム130に動作を行わせる命令138を記憶できる。
一部の実装形態において、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含む、またはそうでなければそれによって実装される。サーバコンピューティングシステム130が複数サーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはその何らかの組合せに従って動作できる。
上記したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習モデル140を記憶するまたはそうでなければそれらを含むことができる。例えば、モデル140は、様々な機械学習モデルであることができる、またはそうでなければそれらを含むことができる。機械学習モデル例は、ニューラルネットワークまたは他の多層非線形モデルを含む。ニューラルネットワーク例は、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワークおよび畳込みニューラルネットワークを含む。モデル例140は図2~図6を参照しつつ述べられる。
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を通じて通信的に結合される訓練コンピューティングシステム150との相互作用を介してモデル120および/または140を訓練できる。訓練コンピューティングシステム150は、サーバコンピューティングシステム130と別々であることができ、またはサーバコンピューティングシステム130の一部分であることができる。
訓練コンピューティングシステム150は、1つまたは複数のプロセッサ152と、メモリ154とを含む。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラ等)であることができ、かつ1つのプロセッサまたは動作的に接続される複数のプロセッサであることができる。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスク等、およびその組合せなどの、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ154は、データ156、およびプロセッサ152によって実行されて訓練コンピューティングシステム150に動作を行わせる命令158を記憶できる。一部の実装形態において、訓練コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含む、またはそうでなければそれによって実装される。
訓練コンピューティングシステム150は、例えば誤差逆伝播などの様々な訓練または学習技術を使用してユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶される機械学習モデル120および/または140を訓練するモデルトレーナ160を含むことができる。例えば、モデルを通じて損失関数が逆伝播されてモデルの1つまたは複数のパラメータを更新できる(例えば、損失関数の勾配に基づいて)。平均二乗誤差、尤度損失、クロスエントロピー損失、ヒンジ損失および/または様々な他の損失関数など、様々な損失関数を使用できる。多くの訓練反復にわたってパラメータを反復的に更新するために勾配降下技術を使用できる。
一部の実装形態において、誤差逆伝播を行うことは、時間の経過に伴う打切り型逆伝播を行うことを含むことができる。モデルトレーナ160は、多くの汎化技術(例えば、加重減衰、ドロップアウト等)を行って、訓練されているモデルの汎化機能を改善できる。
特に、モデルトレーナ160は、一組の訓練データ162に基づいて画像編集モデル120および/または140を訓練できる。訓練データ162は、例えば、一組の生画像データ、一組の処理画像データ、および関心領域を示す一組のマスク、一組の修復画像データ、および一組の再着色画像データを含むことができる。
一部の実装形態において、ユーザが同意を与えたならば、訓練例はユーザコンピューティングデバイス102によって提供できる。したがって、そのような実装形態において、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信されるユーザ固有のデータ上で訓練コンピューティングシステム150によって訓練できる。一部の事例では、このプロセスは、モデルを個人化すると称することができる。
モデルトレーナ160は、所望の機能性を提供するために利用されるコンピュータ論理を含む。モデルトレーナ160は、汎用プロセッサを制御するハードウェア、ファームウェアおよび/またはソフトウェアに実装できる。例えば、一部の実装形態において、モデルトレーナ160は、記憶デバイス上に記憶され、メモリへロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態において、モデルトレーナ160は、RAMハードディスクまたは光学もしくは磁気媒体などの有形のコンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
ネットワーク180は、ローカルエリアネットワーク(例えば、イントラネット)、ワイドエリアネットワーク(例えば、インターネット)またはその何らかの組合せなどの、任意の種類の通信ネットワークであることができ、任意の数の有線または無線リンクを含むことができる。一般に、ネットワーク180を通じた通信は、多種多様な通信プロトコル(例えば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくは形式(例えば、HTML、XML)および/または保護方式(例えば、VPN、セキュアHTTP、SSL)を使用して、任意の種類の有線および/または無線接続を介して実施できる。
図1Aは、本開示を実装するために使用できる1つのコンピューティングシステム例を例示する。他のコンピューティングシステムも使用できる。例えば、一部の実装形態において、ユーザコンピューティングデバイス102は、モデルトレーナ160および訓練データセット162を含むことができる。そのような実装形態において、モデル120は、ユーザコンピューティングデバイス102においてローカルに訓練も使用もできる。そのような実装形態の一部において、ユーザコンピューティングデバイス102は、ユーザ固有のデータに基づいてモデル120を個人化するようにモデルトレーナ160を実装できる。
図1Bは、本開示の実施形態例に従って実行するコンピューティングデバイス例10のブロック図を表す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであることができる。
コンピューティングデバイス10は、多くのアプリケーション(例えば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習モデルを含む。例えば、各アプリケーションは機械学習モデルを含むことができる。アプリケーション例は、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーション等を含む。
図1Bに例示されるように、各アプリケーションは、例えば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネントおよび/または追加コンポーネントなど、コンピューティングデバイスの多くの他のコンポーネントと通信できる。一部の実装形態において、各アプリケーションは、API(例えば、パブリックAPI)を使用して各デバイスコンポーネントと通信できる。一部の実装形態において、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
図1Cは、本開示の実施形態例に従って実行するコンピューティングデバイス例50のブロック図を表す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであることができる。
コンピューティングデバイス50は、多くのアプリケーション(例えば、アプリケーション1~N)を含む。各アプリケーションは中央インテリジェンス層と通信状態にある。アプリケーション例は、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーション等を含む。一部の実装形態において、各アプリケーションは、API(例えば、全てのアプリケーションにわたる共通API)を使用して中央インテリジェンス層(およびそこに記憶されるモデル)と通信できる。
中央インテリジェンス層は多くの機械学習モデルを含む。例えば、図1Cに例示されるように、それぞれの機械学習モデル(例えば、モデル)が各アプリケーションに対して提供され、中央インテリジェンス層によって管理できる。他の実装形態において、2つ以上のアプリケーションが単一の機械学習モデルを共有できる。例えば、一部の実装形態において、中央インテリジェンス層は、アプリケーションの全てに対して単一モデル(例えば、単一モデル)を提供できる。一部の実装形態において、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステム内に含まれる、またはそうでなければそれによって実装される。
中央インテリジェンス層は中央デバイスデータ層と通信できる。中央デバイスデータ層は、コンピューティングデバイス50のためのデータの集中リポジトリであることができる。図1Cに例示されるように、中央デバイスデータ層は、例えば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネントおよび/または追加コンポーネントなど、コンピューティングデバイスの多くの他のコンポーネントと通信できる。一部の実装形態において、中央デバイスデータ層は、API(例えば、プライベートAPI)を使用して各デバイスコンポーネントと通信できる。
モデル配置例
図2は、本開示の実施形態例に係る、画像内のディストラクタオブジェクトを低減させるための技術例200のフロー図を表す。一部の実装形態において、コンピューティングシステム(ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、訓練コンピューティングシステム150、コンピューティングデバイス10、コンピューティングデバイス50)は、図2に記載される技術例200を使用して元の画像を処理して画像からディストラクタを低減させることができる。
コンピューティングシステムは、ディストラクタを有する元の画像202およびマスク203にアクセスする(例えば、得る、受信する)ことができる。一部の事例では、マスク203は、サーバコンピューティングシステム130の機械学習モデル140によって(例えば、ディストラクタオブジェクトの境界を決定するセグメンテーションモデルを使用することによって)決定できるか、またはマスクは、ユーザコンピューティングデバイス102のユーザ入力コンポーネント122によって得ることができる。例えば、ユーザは、ユーザ入力コンポーネント122を使用して、ディストラクタオブジェクトと関連付けられた関心領域を有し、かつ関心領域内のディストラクタオブジェクトが画像から低減されるためのマスク203を入力できる。マスク203およびディストラクタを有する画像202を処理することによって、コンピューティングシステムによってマスキング技術204を使用してマスク画像206を生成できる。
追加的に、マスク画像206は、修復モデル208へ入力されて修復画像212を生成できる。一部の実装形態において、マスク画像206は、ディストラクタを有する元の画像202より低解像度であることができ、その結果、修復モデル208による高速処理時間に至ることができる。修復モデル208は、訓練データ210を使用して既に訓練されていてよい。一部の事例では、修復画像212は、色相-彩度-値(HSV)色空間の色相-彩度(HS)チャネルにおいて生成できる。修復画像212がHSチャネルにおいて生成される場合、修復モデル208は、HS訓練データ210を使用して訓練できる。2つの色度チャネル(例えば、HS)のみを使用し、輝度チャネル(例えば、値)を不変に保つことによって、修復画像を生成する処理は高速であり、修復モデルの訓練はより効率的である。追加的に、値チャネルを不変に保つことによって、元の画像の構造は変化なしであり、その結果、その現実性を維持する最終画像に至る。図3A~図3Cは、修復のための技術を更に説明する。
一部の実装形態において、生画像または元の画像は赤緑青(RGB)色空間にあることができる。RGBと同様に、色相-彩度-値(HSV)は色空間の別の例である。一部の事例では、RGB色空間にあることができる生画像は、HSV色空間にあることができる元の画像へ処理できる。色相、彩度および値はHSV色空間におけるチャネルである。色相および彩度はHSV空間における色度チャネルである。画像内の各画素は、画像の色空間における各チャネルに対して属性(例えば、数値)を有することができる。HSV色空間は、色相-彩度-明度(HSL)色空間および色相-彩度-明るさ(HSB)色空間としても知ることができる。これらの代替色空間において、値チャネルを不変に保つ代わりに、HSL色空間における明度チャネルまたはHSB色空間における明るさチャネルを不変に保つことができる。追加的に、色相-彩度(HS)長方形格子を使用することによって、本明細書に記載される技術は、色変化を平滑化することを介して量子化を緩和できる。例えば、HS空間内の長方形格子に作用することによって、各HSセルは、両方向に明確に定められた隣接セルを有することができる。これは、色変化を平滑化することによって量子化を緩和することに対する技術的利益の一例である。
その後、技術200は、コンピューティングシステムが投票技術214を使用してパレット変換216を決定することを続けることができる。一部の実装形態において、投票技術214は、拡張マスク内部である修復画像212の領域に行う(例えば、限定する)ことができる。拡張マスクは、マスク203に対する関心領域より拡大された関心領域を有することができる。例えば、拡張マスクは、元のマスク領域の周囲を囲む追加画素をマスク領域内に含むようにマスク203を拡張させることによって生成できる。本明細書に記載される技術の利益の1つは、プロセスが正しく機能するためにマスク203はそれほど正確である必要がないということである。本明細書に記載される技術は、マスクが不正確な場合でも画像からディストラクタを低減させることができる。図4に、投票技術を使用してパレット変換を決定するための技術を更に説明する。同様に、投票技術214のために拡張マスクを使用することは、投票技術214に周囲の情報が含まれることを可能にすることができ、改善されたパレット変換結果を可能にすることができる。
一旦パレット変換216が決定されると、パレット変換を適用すること218によって元の画像202を使用して再着色画像220を生成できる。元の画像202は高解像度画像であることができ、再着色画像220も高解像度画像であることができる。低解像度画像であることができる修復画像に投票技術214を行うことによって、上記技術は、再着色出力のための元の画像の品質/解像度を維持しつつより効果的な処理を許容する。図4は、投票技術を使用してパレット変換を決定するための技術を更に説明する。
図3Aは、本開示の実施形態例に係る、HSV変換技術の例示300を表す。一部の実装形態において、コンピューティングシステム(ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、訓練コンピューティングシステム150、コンピューティングデバイス10、コンピューティングデバイス50)は、図3Aに記載されるHSV変換技術を使用して元の画像を処理して処理画像を生成できる。一部の事例では、コンピューティングシステムは、マスクされた領域内で元の画像内の1つまたは複数の画素のHSV空間における特定された属性を、マスク外の画素の属性に類似する(例えば、等しい)ように変換できる。
上記技術は、色相画像304において色相チャネルのみを変更し、彩度画像306において彩度チャネルのみを変更し、値画像308において値チャネルのみを変更し、色相-彩度画像312において色相および彩度チャネルを変更し、彩度-値画像314において彩度および値チャネルを変更し、色相-値画像316において色相および値チャネルを変更し、かつHSV画像318においてHSVチャネルを変更することによって、マスク310を使用して元の画像302を変換することを含む。
一部の実施形態において、コンピューティングシステム(ユーザコンピューティングデバイス102、サーバコンピューティングシステム130)は、ディストラクションを低減させるように画像の背景の色を適合させることができる。従来のシステムにおいて、RGBが、画像内の色およびオブジェクトを表すための一般的な方法であることができる。しかしながら、本開示の技術に記載されるように、HSVも、画像内の色およびオブジェクトを表すための方法であることができる。一部の事例では、HSVは、画像の現実性を維持しつつディストラクタを低減させるためのより良好な方法であることができる。色相画像304に例示されるように、花の色相のみが変更されると(例えば、色相の平均)、花はまだ明るいが、縁色である。彩度画像306において彩度が変更されると、紫色は暗くなる。値画像308において値属性が変更されると、花は灰色になり、画像とほぼカモフラージュする。HSV画像318において全ての3つの成分(HSV)が変更されると、花のカモフラージュはその他の画像のいずれのカモフラージュよりも良好である。
図3Bは、本開示の実施形態例に係る、HSV空間投影技術の例示320を表す。一部の実装形態において、コンピューティングシステム(ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、訓練コンピューティングシステム150、コンピューティングデバイス10、コンピューティングデバイス50)は、図3Bに記載されるHSV空間投影技術を使用して元の画像を処理して処理画像を生成できる。
一部の実施形態によれば、本システムは、RGB空間の代わりに、HSV空間において入力画像322を修正する。HSVを使用することの一部の利益は、値属性が不変であるとき画像の構造を保持することを含むことができる。画像の構造を保持することで、画像を見ているユーザの図式的知覚(schematic perception)を改善できる。オブジェクトの図式的知覚は、ユーザによって知覚されるときのオブジェクトの一意性を特定するオブジェクトの示差的特徴を含むことができる。
図3Bに例示されるように、入力画像322から色相-彩度画像324が生成され、このとき入力画像322は色相-彩度チャネルにおいてのみ見られる。例えば、色相-彩度画像324において、各画素に対する値属性は削除される、またはそうでなければ分離データとして扱われる。追加的に、入力画像322から値画像326が生成され、このとき入力画像322は値(例えば、明るさ)チャネルにおいてのみ見られる。例えば、値画像326において、各画素に対する色相属性および彩度属性は削除される、またはそうでなければ分離データとして扱われる。値画像326に図示されるように、値属性が不変に保たれると元の画像322内のオブジェクトの図式的知覚(例えば、詳細)は維持される。それゆえに、画像内の各画素に対する値属性(すなわち、HSV空間における値属性)を不変に保つことによって、画像内のオブジェクトの図式的知覚も維持できる。追加的に、画像内の1つまたは複数の画素に対する色相属性および/または彩度属性が変更されるときに、オブジェクトの図式的知覚は低下されなくてよい。本明細書に記載される技術は、画像内のディストラクタオブジェクトの1つまたは複数の画素に対する色相属性および/または彩度属性を修正する一方、ディストラクタオブジェクトの画素の値属性を不変に維持することによって画像内のディストラクションを低減させるための方法を例示する。
代替的に、本システムは、HSV空間の代わりに、明度-チャネルa-チャネルb(LAB)空間において元の画像322を処理画像に変換できる。元の画像がLAB空間において処理されるときに、画像内のオブジェクトの図式的知覚を維持するために、画像の各画素に対する明度属性は不変に保つことができる。それゆえに、元の画像内のディストラクションを低減させるために、画像の1つまたは複数の画素のチャネルa属性および/またはチャネルb属性は、コンピューティングシステムによって修正される。
図3Cは、本開示の実施形態例に係る、色相-彩度チャネルにおける修復技術の例示350を表す。一部の実装形態において、コンピューティングシステム(ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、訓練コンピューティングシステム150、コンピューティングデバイス10、コンピューティングデバイス50)は、図3Cに記載される修復技術を使用して元の画像を処理して処理画像を生成できる。
元の画像(例えば、元の画像322)はHS画像352(例えば、穴のあるHS画像)へ変換できる。これは、元の画像322が色相-彩度画像324に変換されるときの図3Bに記載される技術に類似していることができる。HS画像352およびマスク354が修復モデル356へ入力されて修復画像358を生成できる。図2におけるマスク203に類似していることができるマスク354は、コンピューティングシステムによって受信、またはコンピューティングシステムによって生成することができる。この例では、マスク354内部であったディストラクタオブジェクトは修復画像358から除去されており、修復モデル356は、HS画像352内の画素に対する色相属性および彩度属性に基づいてマスク354内部の画素に対する色相属性および彩度属性を決定した。図8に、図3Cの修復画像358に基づく再着色画像を例示しており、画像の前景へ背景色を持ってくることによってディストラクタオブジェクトがどのように融合されるかを例示している。
図4は、本開示の実施形態例に係る、投票技術を使用してパレット変換を決定する図400を表す。一部の実装形態において、コンピューティングシステム(ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、訓練コンピューティングシステム150、コンピューティングデバイス10、コンピューティングデバイス50)は、図4に記載される投票技術を使用してパレット変換を決定できる。
一部の実施形態によれば、元の画像はHSでの元の画像410へ変換できる。図3A~図3Cは、生の元の画像をHSチャネルでの元の画像へ変換するための技術を説明している。HSでの元の画像410は、第1の背景HS属性416を持つ画素(すなわち、赤色画素)を有する第1の背景領域412、および第2の背景HS属性418を持つ画素(すなわち、青色画素)を有する第2の背景領域414を含むことができる。HSでの元の画像は、第1のディストラクタHS属性424を持つ画素(すなわち、淡緑色画素)を有するディストラクタオブジェクトの第1の部分420、および第2のディストラクタHS属性426を持つ画素(すなわち、暗緑色画素)を有するディストラクタオブジェクトの第2の部分422も含むことができる。ディストラクタオブジェクトは、拡張マスク428内部であることができる。拡張マスクは、図2で述べられた拡張マスク(例えば、拡大関心領域を持つマスク203)に類似していることができる。
本明細書に記載される技術の利益の1つは、マスクが正確でない場合でもディストラクションを低減させることができるということである。従来のシステムにおいて、ディストラクタオブジェクトの境界は決定するのが難しいことがあるので、精密なマスクを有することは複雑であることがある。結果として、本明細書における技術は、マスクが不正確であることを前提とすることができ、それでも画像からディストラクションを適切に低減させることができる。
その後、HSでの元の画像のマスクバージョン(図示せず)が修復モデルへ入力されて修復画像430を生成する。修復モデル(例えば、図2における修復モデル208)は、拡張マスク内部のディストラクタオブジェクトを除去できる。修復モデルは、HSでの元の画像のマスクバージョン(図示せず)を修復画像430へ変換できる。修復画像430において、ディストラクタオブジェクトの画素(すなわち、ディストラクタオブジェクトの第1の部分420(淡緑色画素)、ディストラクタオブジェクトの第2の部分422(暗緑色画素))は、第1の背景領域432(すなわち、赤色画素)か第2の背景領域434(すなわち、青色画素)かの画素に類似するように修正された。
一部の事例では、コンピューティングシステムは、投票技術440を使用してパレット変換442を決定できる。図400に例示される例では、各画素は、同じ色を持つ画素の大部分が投票した色で再着色できる。投票は、HSでの元の画像410および修復画像430の拡張マスク内部の空間的に対応する画素の色を計数することによって行うことができる。追加的に、図3A~図3Cで述べられたように、値属性を不変に維持することによって、ディストラクタオブジェクトの図式的知覚は維持でき、その結果、再着色画像がより現実的になる。
この例では、第1のディストラクタHS属性444を持つディストラクタオブジェクトの第1の部分の画素(すなわち、淡緑色画素)は、第1の背景領域432のHS属性に類似したHS属性(例えば、赤色画素)を有すると投票できる。この例では、HSでの元の画像410内の淡緑色画素が1つだけであるので、淡緑色画素は赤色画素であると投票し、淡緑色画素は修復画像430内で赤色画素へ変換される。それゆえに、赤色画素に対して1票および青色画素に対して0票であり、その結果、赤色画素が最高票数を得る。この投票技術例(すなわち、赤色画素が最高票数を得ること)に基づいて、第1の投票分類子を割り当てることができる。投票分類子は、ディストラクタオブジェクトの第1の部分420内の画素が(例えば、いずれの淡緑色画素も)第1の背景HS属性416に類似しているHS属性を有するように変換(例えば、赤色に変換)できるということであることができる。
追加的に、第2のディストラクタHS属性446を持つディストラクタオブジェクトの第2の部分の画素(すなわち、暗緑色画素)は、第2の背景領域434のHS属性に類似したHS属性(例えば、青色画素)を有すると投票できる。この例では、修復画像430内の暗緑色画素の変換に基づいて、暗緑色画素の1つが赤色画素であると投票する一方で、暗緑色画素の2つが青色画素であると投票する。それゆえに、赤色画素に対して1票および青色画素に対して2票であり、その結果、青色画素が最高票数を得る。この投票技術例(すなわち、青色画素が最高票数を得ること)に基づいて、第2の投票分類子を割り当てることができる。第2の投票分類子は、ディストラクタオブジェクトの第2の部分422内の画素が(例えば、いずれの暗緑色画素も)第2の背景HS属性418に類似しているHS属性を有するように変換(例えば、青色に変換)できるということであることができる。図4に与えられる簡易例では、全てのディストラクタ画素が異なる色に変換されるが、一部の事例では、第1のディストラクタHS属性424は第1の背景HS属性416に等しくなることができる。換言すると、一部の事例では、パレット変換が元のディストラクタに含まれる或る色を保持することが可能である。
一旦パレット変換が決定されると、コンピューティングシステムは、パレット変換442を使用してHSでの元の画像410をHSでの再着色画像450に変換できる。この例では、パレット変換442に基づいて、HSでの元の画像410内の第1のディストラクタHS属性424は、第1の背景HS属性416に類似する(例えば、等しい)ように変換できる。追加的に、パレット変換442に基づいて、HSでの元の画像410内の第2のディストラクタHS属性426は、第2の背景HS属性418に類似する(例えば、等しい)ように変換できる。この変換の結果として、画素452はHSでの再着色画像450内で青色画素へ修正されたが、対応する画素は修復画像430内では赤色であった。
方法例
図5は、本開示の実施形態例に係る、第1の画像内のディストラクタオブジェクトを低減させるための例のフローチャート図を表す。図5が例示および考察の目的で特定の順に行われるステップを表すが、本開示の方法は、特に例示される順序または配置に限定されない。方法500の様々なステップは、本開示の範囲から逸脱することなく様々な仕方で省略、再配置、結合および/または適合できる。
一部の事例では、方法500は、ステップ502に先立ち、コンピューティングシステムが生画像にアクセスすることを含むことができる。例えば、生画像は赤緑青(RGB)色空間にあることができる。追加的に、コンピューティングシステムは、生画像を処理して第1の画像を生成できる。例えば、第1の画像は、色相-彩度-値(HSV)色空間、色相-彩度(HS)チャネル、または他の類似した色度チャネルにあることができる。
コンピューティングシステムは、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、訓練コンピューティングシステム150、コンピューティングデバイス10、コンピューティングデバイス50であることができる。コンピューティングシステムは、1つまたは複数のプロセッサ(例えば、プロセッサ112、132、152)を使用して、生画像にアクセスし、502でマスクおよび第1の画像にアクセスできる。
502で、コンピューティングシステムユーザは、マスク、およびディストラクタオブジェクトを有する第1の画像にアクセスできる。マスクは、ディストラクタオブジェクトの境界と関連付けられる第1の画像内の関心領域を示すことができる。ディストラクタオブジェクトは、関心領域内部であることができ、かつ元の属性を持つ1つまたは複数の画素を有することができる。
例えば、502でアクセスされるマスクは、図2におけるマスク203に類似していることができ、502でアクセスされる第1の画像は、図2におけるディストラクタを有する元の画像202に類似していることができる。別の例では、502でアクセスされるマスクは、図3Cにおけるマスク354に類似していることができ、そして502でアクセスされる第1の画像は、図3CにおけるHS画像352に類似していることができる。更に別の例では、図4における拡張マスク428は、502でアクセスされるマスクに基づいて決定でき、図4におけるHSでの元の画像410は、502でアクセスされる第1の画像に対するものであることができる。
一部の事例では、マスクは、コンピューティングシステムによってユーザ入力コンポーネント122から受信できる。例えば、関心領域は、ユーザデバイスコンピューティングデバイス102上でユーザによって入力できる。ユーザは、第1の画像内の1つまたは複数のディストラクタを選択(例えば、ハイライト)し、これらの選択されたディストラクタを第1の画像の背景と調和させることによってそれらを低減させるようコンピューティングシステムに要求できる。
別の例では、コンピューティングシステムは、セグメンテーションモデルを使用してディストラクタオブジェクトの境界を決定することによってマスクを決定できる。前述したように、マスクは不正確である(例えば、ディストラクタオブジェクトの境界を適切に定めない)可能性があるが、508で処理される再着色画像は、それでも現実的であることができる。
前述したように、502でアクセスされる第1の画像は、生画像を処理することによって生成できる。生画像はRGB色空間にあることができ、第1の画像はHSV色空間にあることができる。第1の画像は、生画像から、第1の画像内の各画素の値(V)属性を不変に保つことによってHSV色空間のHSチャネルにおいて生成できる。代替的に、第1の画像は、生画像から、第1の画像内の各画素の輝度(L)属性を不変に保つことによってLAB色空間のABチャネルにおいて生成できる。
一部の事例では、第1の画像内のディストラクタオブジェクトの1つまたは複数の画素と関連付けられた元の属性は、1つまたは複数の色度チャネルに属性を有することができる。例えば、1つまたは複数の色度チャネルは色相-彩度(HS)チャネルであることができ、ディストラクタオブジェクトの各画素の元の属性は色相属性および彩度属性を含むことができる。追加的に、元の画像、修復画像および再着色画像の値属性は不変に保つことができる。
追加的に、方法500は、ステップ504に先立ち、コンピューティングシステムが第1の画像およびマスクを処理してマスク画像を生成することを含むことができる。一部の事例では、502でマスクおよび第1の画像を受信した後に、コンピューティングシステムは、第1の画像およびマスクを処理してマスク画像を生成できる。例えば、コンピューティングシステムは、図2に記載されるマスキング技術204を使用してマスク画像206を生成できる。前記したように、マスク画像(例えば、マスク画像206)はHSチャネルにあることができ、RGB色空間にあることができる生画像より低解像度画像であることができる。その後、マスク画像は、機械学習修復モデルへ入力されて修復画像を生成できる。
504で、コンピューティングシステムは、機械学習修復モデルを使用して、第1の画像およびマスクを処理して修復画像を生成できる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて修復属性を有することができる。前述したように、1つまたは複数の色度チャネルは色相-彩度(HS)チャネルであることができ、修復属性はHSチャネルにあることができる。例えば、修復属性は色相属性および彩度属性であることができる。追加的に、第1の画像、修復画像および再着色画像の値属性は、方法500に記載されるプロセスを通して不変に保つことができる。例えば、RGB画像がHSV色空間に変換されるとき、値属性は不変に保つことができる。前記したように、値属性を不変に保つことによって、オブジェクトの図式的知覚(例えば、ユーザによって知覚されるときのオブジェクトの一意性を特定するオブジェクトの示差的特徴)は、方法500に記載される処理の間、維持できる。
例えば、コンピューティングシステムは、ステップ504で、図2に記載される修復モデル208を使用して、マスク画像206に基づいて修復画像212を生成できる。機械学習修復モデル208は、HS訓練データ210などの色度チャネル訓練データを使用して訓練できる。追加的に、機械学習修復モデルは、色相-彩度-値(HSV)訓練データまたは他の色空間訓練データを使用して訓練できる。他の色空間訓練データは、RGB、色相-彩度-輝度(HSL)、シアン-マゼンタ-イエロー-キー(CMYK)等を含むことができるが、それらに限定されない。
506で、コンピューティングシステムは、第1の画像と修復画像の比較に基づいてパレット変換を決定できる。ディストラクタオブジェクトの1つまたは複数の画素は、1つまたは複数の色度チャネルにおいて変換属性を有することができる。変換属性は、HSチャネルにあることもでき、504で得られる修復属性と異なることができる。図4における例示400は、第1の画像(例えば、HSでの元の画像410)と修復画像(例えば、修復画像430)の比較に基づいてパレット変換(例えば、パレット変換442)を決定することの一例を説明している。
一部の事例では、506で決定されるパレット変換は、投票分類子を有する機械学習モデルである。例えば、投票分類子は、例示400に記載されるように元の画像内のディストラクタオブジェクトと関連付けられた画素に背景画素のHS属性を割り当てることができる。機械学習モデルは、多数決投票、複数投票、加重投票、単純平均または加重平均に基づくことができる。同様に、投票分類子の決定は、多数決投票、複数投票、加重投票、単純平均または加重平均に基づくことができる。図4に記載される例は複数投票方法の一例である。
例えば、ディストラクタオブジェクトは、元の属性を持つ複数の画素を含むことができ、ディストラクタオブジェクトの1つまたは複数の画素の変換属性は、複数投票技術に基づいて決定できる。代替的に、変換属性は、多数決投票、加重投票、単純平均、加重平均および他の投票技術に基づいて決定できる。
一部の事例では、パレット変換は、拡張マスクに基づいて更に決定される。拡張マスクは、第1の画像と関連付けられた拡大関心領域を有することができる。拡張マスクの拡大関心領域はマスクの関心領域より大きい。例えば、502でアクセスされるマスクと関連付けられた関心領域は、拡張マスクと関連付けられた拡大関心領域の小区分であることができる。図2に記載されるように、パレット変換216は、修復画像212および拡張マスクを使用して投票技術214によって決定できる。前述したように、方法500は、不正確なマスクでさえも画像の現実を維持しつつディストラクションを低減させることができる。拡張マスクを使用することによって、それは、コンピューティングシステムが不正確なマスクと関連付けられた誤差を低減させるのを許容する。
508で、コンピューティングシステムは、第1の画像を処理して再着色画像を生成できる。再着色画像内のディストラクタオブジェクトの1つまたは複数の画素は、決定されたパレット変換の変換属性に基づいて再着色属性を有することができる。再着色属性は修復属性と異なることができる。例えば、再着色画像は、図4に記載されるHSでの再着色画像450に類似していることができる。別の例では、再着色画像は、コンピューティングシステムが元の画像202にパレット変換を適用218すると生成される再着色画像220であることができる。
一部の事例では、方法500は、生画像に更にアクセスできる。生画像は赤緑青(RGB)色空間にあることができる。追加的に、方法500は、コンピューティングシステムが生画像を処理して第1の画像を生成することを更に含むことができる。例えば、第1の画像は色相-彩度(HS)チャネルにあることができる。
追加的に、生画像は高解像度画像であることができ、方法500によって生成される第1の画像は低解像度画像であることができる。低解像度の第1の画像、マスク画像および修復画像を有することによって、方法500の処理時間は高速であることができる。追加的に、機械学習モデルの訓練も高速であることができる。
その上、再着色画像はHSチャネルにあることができ、そして方法500は、508で生成される再着色画像を処理して最終画像を生成することを更に含むことができる。最終画像は赤緑青(RGB)色空間にあることができる。更には、再着色画像は高解像度画像であることができ、最終画像は高解像度画像である。これは、方法500が画質を低下させることなく高速処理時間をもたらすことができる技術的効果の別の例である。
図6は、本開示の実施形態例に係る、第1の画像内のディストラクタオブジェクトを低減させるための別の例のフローチャート図を表す。図6が例示および考察の目的で特定の順に行われるステップを表すが、本開示の方法は、特に例示される順序または配置に限定されない。方法600の様々なステップは、本開示の範囲から逸脱することなく様々な仕方で省略、再配置、結合および/または適合できる。
602で、コンピューティングシステムは、生画像にアクセスできる。生画像はRGB色空間にある。生画像は高解像度画像であることができる。生画像はディストラクタオブジェクトを含むことができる。
604で、コンピューティングシステムは、生画像を処理して第1の画像を生成できる。第1の画像は低解像度画像であることができる。低解像度画像は、高解像度画像より小さいドット/インチ(DPI)数を有する。一部の事例では、低解像度画像のDPIは、高解像度画像のDPIの分数(例えば1/4、1/2)であることができる。第1の画像はHSチャネルにあることができる。ディストラクタオブジェクトは、元の色相属性および元の彩度属性を有する1つまたは複数の画素を有することができる。604で処理される第1の画像は、方法500の502でアクセスされる第1の画像に類似していることができる。
606で、コンピューティングシステムは、第1の画像およびマスクを処理して修復画像を生成できる。修復画像はHSチャネルにあることができる。修復画像は低解像度画像であることができる。ディストラクタオブジェクトの1つまたは複数の画素は修復色相属性および修復彩度属性を有することができ、ここで修復色相属性は元の色相属性とは異なることができ、修復彩度属性は元の彩度属性とは異なることができる。606で生成される修復画像は、方法500の504で生成される修復画像に類似していることができる。
608で、コンピューティングシステムは、第1の画像と修復画像の比較に基づいてパレット変換を決定できる。パレット変換は修復色相属性および/または修復彩度属性を修正できる。パレット変換は、図4に記載される技術に基づいて決定できる。追加的に、608で決定されるパレット変換は、方法500の506で決定されるパレット変換に類似していることができる。
610で、コンピューティングシステムは、608で決定されるパレット変換を適用することによって、第1の画像を処理して再着色画像を生成できる。再着色画像はHSチャネルにあることができる。ディストラクタオブジェクトの1つまたは複数の画素は再着色色相属性および再着色彩度属性を有することができ、ここで再着色色相属性は修復色相属性とは異なることができ、再着色彩度属性は修復彩度属性とは異なることができる。再着色画像は高解像度画像であることができる。610で生成される再着色画像は、方法500の508で生成される再着色画像に類似していることができる。
612で、コンピューティングシステムは、再着色画像を処理して最終画像を生成できる。最終画像はRGB色空間にあることができる。最終画像は高解像度画像であることができる。
図7は、本開示の実施形態例に係る元の画像を修復画像および再着色画像へ変換する例示700を表す。従来の技術は、修復画像720に図示されるように、元の画像710内からディストラクタ715を適切に修復することができないことがある。修復画像720において、カラフルなボールであるディストラクタ715は修復オブジェクト725になった。修復画像720に図示されるように、ディストラクタを除去した結果、修復オブジェクトに依然として存在する陰影725によって明白なように、修復画像720が現実的に見えなくなることがある。修復画像720は、元の画像710からディストラクタオブジェクト715を除去することがどれくらい技術的に複雑であり得るかの一例を例示する。例えば、元の画像710からディストラクタ715を除去することによって、ディストラクタの背後で何が起こっているかを判断することが困難であり、ディストラクタの近くのエッジを埋めることが困難であり、かつディストラクタの陰影を除去していることがある。ディストラクタオブジェクト715を除去する代わりに、本明細書に記載される技術を使用して、元の画像710は、元の画像710の背景から色相および彩度を適合させることによってディストラクタオブジェクト735が融合されている再着色画像730へ処理できる。
図8は、本開示の実施形態例に係る元の画像を再着色画像へ変換する別の例示800を表す。例示例800では、元の画像810は再着色画像820へ変換される。再着色画像820において、第1のディストラクタオブジェクト830、第2のディストラクタオブジェクト840および第3のディストラクタオブジェクト850は、元の画像810の背景に融合するように修正される。結果として、再着色画像820は、元の画像810の現実性を維持するが、ディストラクタオブジェクト830~850と関連付けられたディストラクションを低減させた。図3Cに前記したように、図8における再着色画像820は、少なくとも図3Cの修復画像358に基づいて生成できる。
図9は、本開示の実施形態例に係る元の画像を再着色画像へ変換する別の例示を表す。この例示例900では、元の画像910内のディストラクタオブジェクト950は、再着色画像920内のディストラクションを低減させるために再着色オブジェクト960に修正できる。追加的に、元の画像のズームインバージョン930に例示されるように、ディストラクタオブジェクト950は、マスクの正確さに関係なく再着色オブジェクト960として適切に修正できる。この例に例示されるように、マスクは、ユーザによって入力するか、またはセグメンテーションモデルによって決定することができるが、不正確であることもある。マスクは、ディストラクタオブジェクトの境界を定めることができる。従来のシステムにおいて、マスクが不正確である場合、ディストラクタオブジェクトの境界が不正確であるので、処理後の最終画像は現実的に見えないことがあり、それゆえにディストラクタオブジェクトの除去は、最終画像を非現実的に見せる。この例示例では、再着色オブジェクト960は背景と融合し、その結果、再着色画像940はより現実的に見える。
追加の開示
本明細書に述べられる技術は、サーバ、データベース、ソフトウェアアプリケーションおよび他のコンピュータベースのシステム、ならびに取られる措置、およびそのようなシステムに/から送られる情報に言及する。コンピュータベースのシステムの特有の柔軟性が、コンポーネント間のタスクおよび機能性の多種多様な可能な構成、組合せおよび分割を許容する。例えば、本明細書に述べられるプロセスは、単一のデバイスもしくはコンポーネントまたは組み合わせて機能する多数のデバイスもしくはコンポーネントを使用して実装できる。データベースおよびアプリケーションは、単一のシステム上に実装することまたは多数のシステムにわたって分散することができる。分散されたコンポーネントは順次または並列に動作できる。
本主題がその様々な具体的な実施形態例に関して詳細に記載されたが、各例は本開示の限定でなく説明として提供される。当業者は、以上の理解を達成した上で、そのような実施形態の代替え、変形および均等物を直ちに生み出すことができる。したがって、本開示は、当業者にとって直ちに明らかであろう本主題へのそのような修正、変形および/または追加を含むことを排除しない。例えば、1つの実施形態の一部として例示または記載される特徴を別の実施形態と共に使用して更なる実施形態をもたらすことができる。したがって、本開示がそのような代替え、変形および均等物を包含することが意図される。
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
118 命令
120 モデル
122 ユーザ入力コンポーネント
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 モデル
150 訓練コンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデルトレーナ
162 訓練データ
180 ネットワーク
202 ディストラクタを有する元の画像
203 マスク
204 マスキング技術
206 マスク画像
208 修復モデル
210 訓練データ
212 修復画像
214 投票技術
216 パレット変換
218 パレット変換を適用する
220 再着色画像
302 元の画像
304 色相画像
306 彩度画像
308 値画像
310 マスク
312 色相-彩度画像
314 彩度-値画像
316 色相-値画像
318 HSV画像
322 入力画像、元の画像
324 色相-彩度画像
326 値画像
352 HS画像
354 マスク
356 修復モデル
358 修復画像
410 HSでの元の画像
412 第1の背景領域
414 第2の背景領域
416 第1の背景HS属性
418 第2の背景HS属性
420 ディストラクタオブジェクトの第1の部分
422 ディストラクタオブジェクトの第2の部分
424 第1のディストラクタHS属性
426 第2のディストラクタHS属性
428 拡張マスク
430 修復画像
432 第1の背景領域
434 第2の背景領域
440 投票技術
442 パレット変換
444 第1のディストラクタHS属性
446 第2のディストラクタHS属性
450 HSでの再着色画像
452 画素
710 元の画像
715 ディストラクタオブジェクト
720 修復画像
725 修復オブジェクト
730 再着色画像
735 ディストラクタオブジェクト
810 元の画像
820 再着色画像
830 第1のディストラクタオブジェクト
840 第2のディストラクタオブジェクト
850 第3のディストラクタオブジェクト
910 元の画像
920 再着色画像
930 元の画像のズームインバージョン
940 再着色画像
950 ディストラクタオブジェクト
960 再着色オブジェクト

Claims (20)

  1. 第1の画像内のディストラクタオブジェクトを低減させるためのコンピュータ実装方法であって、
    1つまたは複数のコンピューティングデバイスによって、マスク、および前記ディストラクタオブジェクトを有する前記第1の画像にアクセスするステップであり、前記マスクが、前記第1の画像と関連付けられた関心領域を示し、前記ディストラクタオブジェクトが、前記関心領域内にあり、元の属性を持つ1つまたは複数の画素を有する、ステップと、
    機械学習修復モデルを使用して、前記第1の画像および前記マスクを処理して修復画像を生成するステップであり、前記修復画像内の前記1つまたは複数の画素が、1つまたは複数の色度チャネルにおいて修復属性を有する、ステップと、
    前記第1の画像と前記修復画像の比較に基づいてパレット変換を決定するステップであり、前記パレット変換における前記1つまたは複数の画素が、前記1つまたは複数の色度チャネルにおいて変換属性を有し、前記変換属性が前記修復属性とは異なる、ステップと、
    前記第1の画像を処理して再着色画像を生成するステップであり、前記再着色画像内の前記ディストラクタオブジェクトの前記1つまたは複数の画素が、前記決定されたパレット変換の前記変換属性に基づいて再着色属性を有する、ステップとを含む、コンピュータ実装方法。
  2. 前記第1の画像を処理して前記修復画像を生成するステップが、
    前記第1の画像および前記マスクを処理してマスク画像を生成するステップを含み、
    前記修復画像を生成するために、前記マスク画像が前記機械学習修復モデルに入力される、請求項1に記載のコンピュータ実装方法。
  3. 前記1つまたは複数の色度チャネルが色相および彩度(HS)チャネルを備え、元の画像、前記修復画像および前記再着色画像内の各画素に対する値属性が不変に保たれる、請求項1に記載のコンピュータ実装方法。
  4. 前記再着色属性が前記修復属性と異なる、請求項1に記載のコンピュータ実装方法。
  5. 前記パレット変換が、投票技術の実行を通じて生成される、請求項1に記載のコンピュータ実装方法。
  6. 前記ディストラクタオブジェクトが、前記元の属性を持つ複数の画素を含み、前記ディストラクタオブジェクトの前記1つまたは複数の画素が、複数投票技術に基づいて前記パレット変換において前記変換属性を有すると決定される、請求項1に記載のコンピュータ実装方法。
  7. 前記パレット変換が、拡張マスクに基づいて更に決定され、前記拡張マスクが、前記第1の画像と関連付けられた拡大関心領域を有し、前記拡張マスクの前記拡大関心領域が前記マスクの前記関心領域より大きい、請求項1に記載のコンピュータ実装方法。
  8. 前記機械学習修復モデルが、色相および彩度(HS)訓練データを使用して訓練される、請求項1に記載のコンピュータ実装方法。
  9. 生画像にアクセスするステップであって、前記生画像が赤緑青(RGB)色空間にある、ステップと、
    前記生画像を処理して前記第1の画像を生成するステップであって、前記第1の画像が色相-彩度(HS)チャネルにあり、前記第1の画像内の各画素に対する値属性が、前記第1の画像を生成するために前記生画像が処理されるときに不変に保たれる、ステップと
    を更に含む、請求項1に記載のコンピュータ実装方法。
  10. 前記生画像が高解像度画像であり、前記機械学習修復モデルによって処理される前記第1の画像のバージョンが低解像度画像である、請求項9に記載のコンピュータ実装方法。
  11. 前記再着色画像が前記色相-彩度(HS)チャネルにあり、方法が、
    前記再着色画像を処理して最終画像を生成するステップであり、前記最終画像が赤緑青(RGB)色空間にある、ステップを更に含む、請求項9に記載のコンピュータ実装方法。
  12. 前記再着色画像が高解像度画像であり、前記修復画像が低解像度画像である、請求項11に記載のコンピュータ実装方法。
  13. コンピューティングシステムであって、
    1つまたは複数のプロセッサと、
    1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記1つまたは複数の非一時的コンピュータ可読媒体が、
    機械学習修復モデルであり、第1の画像を使用して修復画像を生成するように構成される、機械学習修復モデル、および
    前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を行わせる命令を集合的に記憶し、前記動作が、
    マスク、およびディストラクタオブジェクトを有する前記第1の画像にアクセスすることであり、前記マスクが、前記第1の画像と関連付けられた関心領域を示し、前記ディストラクタオブジェクトが、前記関心領域内にあり、元の属性を持つ1つまたは複数の画素を有する、アクセスすることと、
    前記機械学習修復モデルを使用して、前記第1の画像および前記マスクを処理して修復画像を生成することであり、前記修復画像の前記1つまたは複数の画素が、1つまたは複数の色度チャネルにおいて修復属性を有する、生成することと、
    前記第1の画像と前記修復画像の比較に基づいてパレット変換を決定することであり、前記パレット変換における前記1つまたは複数の画素が、前記1つまたは複数の色度チャネルにおいて変換属性を有し、前記変換属性が前記修復属性とは異なる、決定することと、
    前記第1の画像を処理して再着色画像を生成することであり、前記再着色画像内の前記1つまたは複数の画素が、前記決定されたパレット変換の前記変換属性に基づいて再着色属性を有する、生成することとを含む、コンピューティングシステム。
  14. 前記動作が、
    前記第1の画像および前記マスクを処理してマスク画像を生成することを更に含み、
    前記修復画像を生成するために、前記マスク画像が前記機械学習修復モデルに入力される、請求項13に記載のコンピュータシステム。
  15. 前記1つまたは複数の色度チャネルが色相および彩度(HS)チャネルを備え、元の画像、前記修復画像および前記再着色画像内の各画素に対する値属性が不変に保たれる、請求項13に記載のコンピュータシステム。
  16. 前記再着色属性が前記修復属性と異なる、請求項13に記載のコンピュータシステム。
  17. 前記ディストラクタオブジェクトが、前記元の属性を持つ複数の画素を含み、前記ディストラクタオブジェクトの前記1つまたは複数の画素が、複数投票技術に基づいて前記パレット変換において前記変換属性を有すると決定される、請求項13に記載のコンピュータシステム。
  18. 前記機械学習修復モデルが、色相および彩度(HS)訓練データを使用して訓練される、請求項13に記載のコンピュータシステム。
  19. 前記動作が、
    生画像にアクセスすることであって、前記生画像が赤緑青(RGB)色空間にある、アクセスすることと、
    前記生画像を処理して前記第1の画像を生成することであって、前記第1の画像が色相-彩度(HS)チャネルにあり、前記第1の画像内の各画素に対する値属性が、前記第1の画像を生成するために前記生画像が処理されるときに不変に保たれる、生成することとを更に含む、請求項13に記載のコンピュータシステム。
  20. 機械学習修復モデルを集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記機械学習修復モデルが、動作の実行によって学習されており、前記動作が、
    マスク、およびディストラクタオブジェクトを有する第1の画像にアクセスすることであり、前記マスクが、前記第1の画像と関連付けられた関心領域を示し、前記ディストラクタオブジェクトが、前記関心領域内にあり、元の属性を持つ1つまたは複数の画素を有する、アクセスすることと、
    前記機械学習修復モデルを使用して、前記第1の画像および前記マスクを処理して修復画像を生成することであり、前記修復画像内の前記1つまたは複数の画素が、1つまたは複数の色度チャネルにおいて修復属性を有する、生成することと、
    前記第1の画像と前記修復画像の比較に基づいてパレット変換を決定することであり、前記パレット変換における前記1つまたは複数の画素が、前記1つまたは複数の色度チャネルにおいて変換属性を有し、前記変換属性が前記修復属性とは異なる、決定することと、
    前記第1の画像を処理して再着色画像を生成することであり、前記再着色画像内の前記1つまたは複数の画素が、前記決定されたパレット変換の前記変換属性に基づいて再着色属性を有する、生成することとを含む、1つまたは複数の非一時的コンピュータ可読媒体。
JP2022153798A 2021-09-28 2022-09-27 画像内のディストラクションを低減させるための技術 Active JP7498238B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/487,741 US11854120B2 (en) 2021-09-28 2021-09-28 Techniques for reducing distractions in an image
US17/487,741 2021-09-28

Publications (2)

Publication Number Publication Date
JP2023049037A true JP2023049037A (ja) 2023-04-07
JP7498238B2 JP7498238B2 (ja) 2024-06-11

Family

ID=83506229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022153798A Active JP7498238B2 (ja) 2021-09-28 2022-09-27 画像内のディストラクションを低減させるための技術

Country Status (5)

Country Link
US (2) US11854120B2 (ja)
EP (1) EP4156084A1 (ja)
JP (1) JP7498238B2 (ja)
KR (1) KR20230045569A (ja)
CN (1) CN115689914A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173512A (ja) * 1997-03-10 1999-03-16 Yuseisho Tsushin Sogo Kenkyusho 領域抽出装置および領域抽出方法
JP2009284485A (ja) * 2008-05-20 2009-12-03 Ricoh Co Ltd 元画像のダイナミックレンジの圧縮方法と装置及びデジタルカメラ
JP2012175533A (ja) * 2011-02-23 2012-09-10 Sanyo Electric Co Ltd 電子機器
US20200302656A1 (en) * 2019-03-19 2020-09-24 Adobe Inc. Object-Based Color Adjustment
JP2021149825A (ja) * 2020-03-23 2021-09-27 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691744B2 (en) * 2014-06-26 2020-06-23 Amazon Technologies, Inc. Determining affiliated colors from keyword searches of color palettes
WO2016207875A1 (en) * 2015-06-22 2016-12-29 Photomyne Ltd. System and method for detecting objects in an image
US10037615B2 (en) 2016-07-01 2018-07-31 Disney Enterprises, Inc. System and method facilitating palette-based color editing
US11501415B2 (en) * 2019-11-15 2022-11-15 Huawei Technologies Co. Ltd. Method and system for high-resolution image inpainting
EP3864615A1 (en) * 2019-12-20 2021-08-18 Google LLC Spatially varying reduction of haze in images
US11676390B2 (en) * 2020-10-23 2023-06-13 Huawei Technologies Co., Ltd. Machine-learning model, methods and systems for removal of unwanted people from photographs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173512A (ja) * 1997-03-10 1999-03-16 Yuseisho Tsushin Sogo Kenkyusho 領域抽出装置および領域抽出方法
JP2009284485A (ja) * 2008-05-20 2009-12-03 Ricoh Co Ltd 元画像のダイナミックレンジの圧縮方法と装置及びデジタルカメラ
JP2012175533A (ja) * 2011-02-23 2012-09-10 Sanyo Electric Co Ltd 電子機器
US20200302656A1 (en) * 2019-03-19 2020-09-24 Adobe Inc. Object-Based Color Adjustment
JP2021149825A (ja) * 2020-03-23 2021-09-27 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP7498238B2 (ja) 2024-06-11
US11854120B2 (en) 2023-12-26
CN115689914A (zh) 2023-02-03
EP4156084A1 (en) 2023-03-29
KR20230045569A (ko) 2023-04-04
US20240046532A1 (en) 2024-02-08
US20230094723A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
CN109191558B (zh) 图像打光方法和装置
US9275445B2 (en) High dynamic range and tone mapping imaging techniques
US10679328B2 (en) Machine learning techniques for increasing color consistency across videos
US9478004B2 (en) Method and system for analog/digital image simplification and stylization
CN105279746A (zh) 一种基于双边滤波的多曝光图像融合方法
CN107408401B (zh) 用于图像的简化调整的用户滑块
US20210150676A1 (en) Systems and Methods for Content-Aware Enhancement of Images
JP2021531571A (ja) 証明書画像抽出方法及び端末機器
CN113240760B (zh) 一种图像处理方法、装置、计算机设备和存储介质
WO2023005743A1 (zh) 图像处理方法及装置、计算机设备、存储介质和计算机程序产品
US20230015117A1 (en) Deep Saliency Prior
EP3365867B1 (en) Performing segmentation of cells and nuclei in multichannel images
CN111275648B (zh) 人脸图像处理方法、装置、设备及计算机可读存储介质
EP4147172A1 (en) Machine learning for high quality image processing
JP7498238B2 (ja) 画像内のディストラクションを低減させるための技術
CN115082345A (zh) 图像阴影去除方法、装置、计算机设备和存储介质
WO2023055390A1 (en) Cascaded multi-resolution machine learning based image regions processing with improved computational efficiency
US20220084170A1 (en) Deep SDR-HDR Conversion
Liu et al. An adaptive tone mapping algorithm based on gaussian filter
KR20130004708A (ko) 개선된 영상 생성모델과 적응적 필터를 이용한 컬러 영상 보정방법
Zini et al. Shallow Camera Pipeline for Night Photography Enhancement
AU2011200830B2 (en) Method, apparatus and system for modifying quality of an image
US20240265499A1 (en) Photorealistic image color style transfer compression
Ghous et al. Efficient image enhancement using improved RIQMC based ROHIM model
Grundland et al. Interactive contrast enhancement by histogram warping

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240530

R150 Certificate of patent or registration of utility model

Ref document number: 7498238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150