JP7303783B2 - 不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法 - Google Patents

不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法 Download PDF

Info

Publication number
JP7303783B2
JP7303783B2 JP2020133682A JP2020133682A JP7303783B2 JP 7303783 B2 JP7303783 B2 JP 7303783B2 JP 2020133682 A JP2020133682 A JP 2020133682A JP 2020133682 A JP2020133682 A JP 2020133682A JP 7303783 B2 JP7303783 B2 JP 7303783B2
Authority
JP
Japan
Prior art keywords
image
kernel
scaling
generating
scaled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020133682A
Other languages
English (en)
Other versions
JP2021034038A (ja
JP2021034038A5 (ja
Inventor
シュレールス クリストファー
ワン イーファン
コルニレール ヴィクトル
ソルキン-ホーナング オルガ
ジェロウア アブデルアジズ
Original Assignee
ディズニー エンタープライジーズ インコーポレイテッド
アイトゲノシシュ・テクニシェ・ホッホシューレ・チューリッヒ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディズニー エンタープライジーズ インコーポレイテッド, アイトゲノシシュ・テクニシェ・ホッホシューレ・チューリッヒ filed Critical ディズニー エンタープライジーズ インコーポレイテッド
Publication of JP2021034038A publication Critical patent/JP2021034038A/ja
Publication of JP2021034038A5 publication Critical patent/JP2021034038A5/ja
Application granted granted Critical
Publication of JP7303783B2 publication Critical patent/JP7303783B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2211/00Image generation
    • G06T2211/40Computed tomography
    • G06T2211/416Exact reconstruction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Description

様々な実施形態は概ね映像処理、より具体的には、不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法に関する。
代表的なメディア作成過程は、様々な理由で処理中のメディアコンテンツの解像度が増加及び/又は減少させられる1つ以上のメディア処理段階を含む。例えば、処理中のメディアコンテンツは最初に8K解像度などの相対的により高い解像度で取り込まれ得たであろう。メディアコンテンツのこのより高い解像度版は次に既知のダウンスケーリングカーネルを使用してHD(高精細)解像度などの相対的により低い解像度(下流の作成処理操作のためにより適切である)にダウンスケールされうる。メディア作成過程の下流部では、メディアコンテンツのこのより低い解像度版は追加の描画されたコンテンツと合成されメディアコンテンツのより低い解像度合成版を生成しうる。次に、メディアコンテンツのより低い解像度合成版は既知のダウンスケーリングカーネルを使用して、見るためにより適切である4K解像度などの相対的により高い解像度にアップスケールされうる。
上記の手法の1つの欠点は、ダウンスケール及びアップスケール操作に使用されるダウンスケーリングカーネルが既知である場合に限り、メディアコンテンツは通常相対的により低い解像度にダウンスケールされ次に相対的に高い解像度に視覚アーティファクトが生ずることなくアップスケールされうることである。しかし、多くの状況では、ダウンスケーリングカーネルは不明であり、従って、メディアコンテンツのより低い解像度版を、かなりの視覚アーティファクトがメディアコンテンツの得られたアップスケール版に生ずることなくアップスケールするために使用され得ない。視覚アーティファクトはメディアコンテンツの全体視覚品質を低下させ低質な視覚体験を引き起こしうるので望ましくない。
上記のように、当分野で必要なものは、ダウンスケーリングカーネルが不明である場合にメディアコンテンツをアップスケールするより効果的な手法である。
様々な実施形態は画像をスケールするためのコンピュータ実行方法を含む。この方法は、スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップとを含む。
従来技術に比べて開示された手法の少なくとも1つの技術的利点は、不明のダウンスケーリングカーネルを使用してダウンスケールされた低解像度画像をより高い解像度に重大な視覚アーティファクトが生ずることなくアップスケールできることである。従って、開示された手法は、様々な理由でメディアコンテンツをダウンスケールし、次に表示するのにより適切であるいくらか相対的により高い解像度にアップスケールする必要があるメディア作成過程及び他のメディア処理状況において適用されうる。
様々な実施形態の上記の特徴が詳細に理解されうるために、一部が添付の図面に例示された様々な実施形態を参照することで、上記に簡潔に要約された本発明概念のより明確な説明を得られるかもしれない。しかし、添付の図面は本発明概念の典型的な実施形態のみを例示し、従って、範囲を限定すると全く考えられるべきではなく、他の同様に効果的な実施形態が存在することは留意されるべきである。
本実施形態の1つ以上の態様を実施するように構成されたシステムを例示する。 様々な実施形態に係る図1のスケーリングアプリケーションのより詳細な図である。 他の様々な実施形態に係る図2Aのスケーリングアプリケーションに含まれうる訓練エンジンを例示する。 様々な実施形態に係る様々な異なるダウンスケーリングカーネルを含むカーネル空間を例示する。 様々な実施形態に係る不明のダウンスケーリングカーネルを使用してダウンスケールされた画像をアップスケールするための方法ステップのフロー図である。
以下の説明において、様々な実施形態のより完全な理解を提供するために多数の具体的詳細が明らかにされる。しかし、これらの具体的詳細の1つ以上を欠いて本発明概念を実施してもよいことは当業者には明白であろう。
上述したように、代表的なメディア作成過程は、様々な理由でメディアコンテンツの解像度が増加及び/又は減少させられる1つ以上のメディア処理段階を含む。例えば、メディアコンテンツは最初に8K解像度などのより高い解像度で取り込まれうる。メディアコンテンツのより高い解像度版は次に既知のダウンスケーリングカーネルに基づいてHD解像度などのより低い解像度(作成処理操作に適している)にダウンスケールされうる。メディアコンテンツのより低い解像度版は描画されたコンテンツと合成されメディアコンテンツのより低い解像度合成版を生成しうる。次に、メディアコンテンツのより低い解像度合成版は既知のダウンスケーリングカーネルに基づいて、見るのに適している4K解像度などのより高い解像度にアップスケールされうる。
上記例のようにメディアコンテンツが既知のダウンスケーリングカーネルを使用してより低い解像度にダウンスケールされる状況では、メディアコンテンツのより低い解像度版は既知のダウンスケーリングカーネルに基づいて重大な視覚アーティファクトが生ずることなくより高い解像度に効果的にアップスケールされうる。しかし、多くの状況では、ダウンスケーリングカーネルは不明であり、従って、メディアコンテンツのより低い解像度版をアップスケールするために使用され得ない。結果として、メディアコンテンツのより低い解像度版は通常、重大な視覚アーティファクトが生ずることなくより高い解像度にアップスケールされ得ない。これらの視覚アーティファクトはメディアコンテンツの全体様相を低下させ、低質な視覚体験を引き起こしうる。
これらの問題に対処するために、様々な実施形態はダウンスケールされた画像を生成するのに使用されたダウンスケーリングカーネルを推定するスケーリングアプリケーションを含む。スケーリングアプリケーションは推定されたダウンスケーリングカーネルに基づいてダウンスケールされた画像をアップスケールし、これによりダウンスケールされた画像の最小の視覚アーティファクトを持ったより高い解像度版を生成する。スケーリングアプリケーションは上記操作を実行する様々な網状要素を含む。特に、カーネルマッピング網は推定されたダウンスケーリングカーネルに基づいて低下マップを生成する。低下認識生成器網はダウンスケールされた画像及び低下マップに基づいて復元画像を生成する。カーネル識別器網は復元画像に存在する視覚アーティファクトを反映する画像デルタを生成する。スケーリングアプリケーションは、画像デルタに示された視覚アーティファクトを低減するために、推定されたダウンスケーリングカーネルを繰り返し部分変更するパラメータ最適化器を更に含む。1回以上の繰り返しにより、スケーリングアプリケーションはそのダウンスケーリングカーネルのますます正確な推定であって、ダウンスケールされた画像をアップスケールし視覚アーティファクトを低減するのに使用されうる推定を生成する。
従来技術に比べて開示された手法の少なくとも1つの技術的利点は、不明のダウンスケーリングカーネルを使用してダウンスケールされた低解像度画像をより高い解像度に重大な視覚アーティファクトが生ずることなくアップスケールできることである。従って、開示された手法は、様々な理由でメディアコンテンツをダウンスケールし、次に表示により適したいくらか相対的により高い解像度にアップスケールする必要があるメディア作成過程に適用されうる。これらの技術的利点は従来技術の手法と比較して1つ以上の技術的進歩を表す。
システム概要
図1は様々な実施形態の1つ以上の態様を実施するように構成されたシステムを例示する。図示のように、システム100はネットワーク150を介して互いに結合されたクライアント110及びサーバー130を含む。クライアント110又はサーバー130は、卓上コンピュータ、ラップトップコンピュータ、携帯装置、計算装置の仮想インスタンス、分散及び/又はクラウドベースのコンピュータシステムなどを含む任意の技術的に可能な種類のコンピュータシステムであってよい。ネットワーク150は、特定区域内ネットワーク(LAN)、広域ネットワーク(WAN)、ワールドワイドウェブ、又はインターネットなどを含む複数の相互接続通信リンクの任意の技術的に可能な組であってよい。
更に図示のように、クライアント110は互いに結合されたプロセッサ112、入力/出力(I/O)装置114、及びメモリ116を含む。プロセッサ112はデータを処理しソフトウェアアプリケーションを実行するように構成された複数のハードウェアユニットの任意の技術的に可能な組を含む。例えば、プロセッサ112は1つ以上の中央処理装置(CPU)を含みうる。I/O装置114は、例えば表示装置、キーボード、及びタッチスクリーンなどを含む入力及び/又は出力動作を実行するように構成された装置の任意の技術的に可能な組を含む。
メモリ116は、データ及びソフトウェアアプリケーションを記憶するように構成された任意の技術的に可能な記憶媒体、例えばハードディスク、ランダムアクセスメモリ(RAM)モジュール、及び読み出し専用メモリ(ROM)を含む。メモリ116はデータベース118(0)、スケーリングアプリケーション120(0)、及びグラフィカル・ユーザーインターフェース(GUI)122(0)を含む。データベース118(0)はスケーリングアプリケーション120(0)により処理される様々なデータを記憶する。スケーリングアプリケーション120(0)は、プロセッサ112により実行される時、サーバー130上で動作している対応するソフトウェアアプリケーションと相互動作するソフトウェアアプリケーションである。GUI122(0)はスケーリングアプリケーション120(0)がそれを通して入力を受け取り出力を提供できるインターフェースである。
サーバー130は互いに結合されたプロセッサ132、I/O装置134、及びメモリ136を含む。プロセッサ132はデータを処理しソフトウェアアプリケーションを実行するように構成された複数のハードウェアユニットの任意の技術的に可能な組、例えば1つ以上のCPUを含む。I/O装置134は、入力及び/又は出力動作を実行するように構成された装置の任意の技術的に可能な組、例えば表示装置、キーボード、及びタッチスクリーンなどを含む。
メモリ136は、データ及びソフトウェアアプリケーションを記憶するように構成された任意の技術的に可能な記憶媒体、例えばハードディスク、RAMモジュール、及びROMを含む。メモリ136はデータベース118(1)、スケーリングアプリケーション120(1)、及びGUI122(1)を含む。データベース118(1)はスケーリングアプリケーション120(1)により処理される様々なデータを記憶する。スケーリングアプリケーション120(1)は、プロセッサ132により実行される時、クライアント110上で動作しているスケーリングアプリケーション120(0)と相互動作するソフトウェアアプリケーションである。GUI122(1)はスケーリングアプリケーション120(1)がそれを通して入力を受け取り出力を提供できるインターフェースである。
通例、データベース118(0)及び118(1)は分散された記憶実体の別々の部分を表す。従って、簡単のために、データベース118(0)及び118(1)はデータベース118と以下総称される。同様に、スケーリングアプリケーション120(0)及びスケーリングアプリケーション120(1)は本書に記載された発明の動作のどれも及び全てを実行するように構成され分散されたソフトウェア実体の別々の部分を表す。従って、簡単のために、スケーリングアプリケーション120(0)及び120(1)はスケーリングアプリケーション120と以下総称される。同様に、GUI122(0)及び122(1)は分散されたGUIの別々の部分を表し、GUI122と以下総称される。
動作時、スケーリングアプリケーション120はダウンスケールされた画像を処理しこれらの画像のより高い解像度版を生成するように構成されている。そうする時、スケーリングアプリケーション120はダウンスケールされた画像を生成するのに使用されたダウンスケーリングカーネルを推定し、次に推定されたダウンスケーリングカーネル(又はそれの符号化され及び/又は圧縮されたバージョン)を部分変更してこれらの画像のより高い解像度版の視覚アーティファクトを低減する。これは図2A~図4と共に下記にもっと詳細に説明される。
ソフトウェア概要
図2Aは、様々な実施形態に係る図1のスケーリングアプリケーションのより詳細な図である。図示のように、スケーリングアプリケーション120はカーネルマッピング網200、低下認識生成器網220、カーネル識別器網230、入力データ210、及びパラメータ最適化器240を含む。カーネルマッピング網200、低下認識生成器網210、及びカーネル識別器網220は図2Bと共に下記に説明される手法により訓練される人工神経網である。1つの実施形態では、上記の人工神経網の1つ以上は畳み込み神経網であってもよい。
動作時、カーネルマッピング網200はダウンスケーリングカーネル202を取得又は生成する。幾つかの使用シナリオでは、ダウンスケーリングカーネル202は予め決められており、従って、ダウンスケールされた画像208を生成するのに使用されたと分かっている。しかし、他の使用シナリオでは、ダウンスケールされた画像208を生成するのに使用されたダウンスケーリングカーネルは予め決められてはいない、従って、不明である。これらの使用シナリオでは、ダウンスケーリングカーネル202は、無作為化されるか又は一組の可能なダウンスケーリングカーネルに広がるカーネル空間から無作為に抽出されて、ダウンスケールされた画像208を生成するのに使用されたかも知れないダウンスケーリングカーネルへの近似を提供する。代表的なカーネル空間は図3と共に下記にもっと詳細に説明される。
カーネルマッピング網200はダウンスケーリングカーネル202を潜在空間内に符号化して潜在表現204を生成する。潜在表現204はダウンスケーリングカーネル202の低減された次元数版である。1つの実施形態では、カーネルマッピング網200は、行連結により得られるベクトル形態のダウンスケーリングカーネル202を分析する2層高密度網であってもよい。カーネルマッピング網200は次にベクトル形態のダウンスケーリングカーネル202を潜在表現204に対応付けてもよい。
カーネルマッピング網200は潜在表現204の1つ以上のインスタンスを集めて低下マップ206を形成する。低下マップ206は、低下の様々な空間的に依存する源を示す空間的特徴マップである。カーネルマッピング網200は低下マップ206を下記のプロセスの1つにより生成する。特定の入力画像の複数の領域又は画素位置に亘って変わらない単一のダウンスケーリングカーネルに基づいてダウンスケールされた画像208が生成される場合は、カーネルマッピング網200はそれらの領域又は画素位置に亘って潜在表現204を複写することで低下マップ206を組み立てる。ダウンスケールされた画像208がその特定の入力画像の複数の領域又は画素位置に亘って変わる複数のダウンスケーリングカーネルに基づいて生成される場合は、カーネルマッピング網200は各異なる領域又は画素位置について異なる潜在表現204を生成しそれらの異なる潜在表現204を低下マップ206に組み合わせることで低下マップ206を組み立てる。
上述した低下マップ206により、カーネルマッピング網200は、空間的に変わるダウンスケーリングカーネルにより実行されるダウンスケーリング操作に加えて空間的に不変のダウンスケーリングカーネルにより実行されるダウンスケーリング操作に対応できる。1つの実施形態では、カーネルマッピング網200は最初、ダウンスケーリングカーネル202を空間的に不変として扱い、従って、低下マップ206内に潜在表現204の複数のコピーを含んでもよい。次に、カーネルマッピング網200はダウンスケーリングカーネル202を1つ以上の空間的変化を有するとして扱い、次に低下マップ206内に潜在表現204の異なるバージョンを含むように低下マップ206を部分変更してもよい。ダウンスケーリングカーネル202の空間的変化は、図2Bと共に下記に説明されるパラメータ最適化プロセスにより低下マップ206内に符号化されてもよい。
ダウンスケールされた画像208及び低下マップ206が入力210に含まれ、低下認識生成器網220及びカーネル識別器網230に供給される。低下認識生成器網220は、ダウンスケールされた画像208及び低下マップ206を分析して復元画像222を生成する畳み込み神経網である。復元画像222はダウンスケールされた画像208のより高い解像度版である。低下認識生成器網220は図2Bと共に下記にもっと詳細に説明される手法によりダウンスケールされた画像のより高い解像度版を生成するように訓練される。
カーネル識別器網230はダウンスケールされた画像208、低下マップ206、及び低下認識生成器網220の1つ以上の出力を分析して画像デルタ232を生成する畳み込み神経網である。画像デルタ232は通常、復元画像222に存在するかも知れないどんなアーティファクトも示す。そのようなアーティファクトはダウンスケーリングカーネルが不明の時に存在しうる。従って、低下認識生成器網220は、無作為化されたか又は無作為に抽出されたダウンスケーリングカーネル202に基づいて生成される低下マップ206を入力として受け取る。名目の状況下では、画像デルタ232は、カーネル識別器網230により予測されるダウンスケールされた画像208とダウンスケールされた画像208の元のより高い解像度版の差を表す。1つの実施形態では、カーネル識別器網230は低下認識生成器網220に含まれる少なくとも1つの特徴層からの1つ以上の出力を受け取ってもよい。低下認識生成器網220は図2Bと共に下記にもっと詳細に説明される手法により画像デルタを生成するように訓練される。
パラメータ最適化器240はカーネル生成器網230から画像デルタ232を得て、ダウンスケーリングカーネル202及び低下マップ206の少なくとも1つを用いてパラメータ最適化プロセスを実行する。ダウンスケーリングカーネル202を用いてパラメータ最適化プロセスを実行する時、パラメータ最適化器240はダウンスケーリングカーネル202の物理的構成を記述する1つ以上の係数を変更し、カーネルマッピング網200、低下認識生成器網220、及びカーネル識別器網230の次回の処理実行の後の画像デルタ232を最小にする。特に、カーネル識別器網230はダウンスケーリングカーネル202の1つ以上の係数を最適化して画像デルタ232がゼロに近づき、復元画像222に含まれる幾つか又は全てのアーティファクトが除去されたことを示すようにさせる。本手法はダウンスケーリングカーネル202が空間的に不変である時に実行されうる。
低下マップ206を用いてパラメータ最適化プロセスを実行する時、パラメータ最適化器240は低下マップ206に含まれる潜在表現204の1つ以上のバージョンを部分変更してカーネルマッピング網200、低下認識生成器網220、及びカーネル識別器網230の次回の処理実行の後の画像デルタ232を最小にする。具体的には、カーネル識別器網230は低下マップ206に1つ以上の空間的に変わる部分変更を行って画像デルタ232がゼロに近づき、復元画像222に含まれる幾つか又は全てのアーティファクトが除去されたことを示すようにさせる。本手法はダウンスケーリングカーネル202が空間的に不変である時、及びダウンスケーリングカーネル202が特定の入力画像の複数の異なる領域又は画素位置に亘って変わる時にも実行されうる。
上記手法により、ダウンスケールされた画像208より高い解像度を持ち、もしあればごく少数の視覚アーティファクトを含む復元画像222を生成できる。また、開示された手法は、ダウンスケーリングカーネル202が予め決められており、従ってダウンスケールされた画像208を生成するのに使用されたと分かっている場合、及びダウンスケールされた画像208を生成するのに使用されたダウンスケーリングカーネルが不明で及び/又は空間的に変わる場合にも実行されうる。上述した様々な人工神経網は図2Bと共に下記に説明される手法を使って訓練されうる。
人工神経網の訓練
図2Bは様々な他の実施形態に係る図2Aのスケーリングアプリケーションに含まれうる訓練エンジンを例示する。図示のように、訓練エンジン250は、1つ以上の元の画像254に1つ以上のダウンスケーリングカーネル202に基づいてダウンスケーリング操作を実行して1つ以上のダウンスケールされた画像208を生成するように構成された畳み込み操作部252を含む。元の画像254は、例えば通常様々な異なる画像タイプに亘る1つ以上のランダム画像を含みうる。訓練エンジン250は、下記に説明する2つの訓練段階の間、元の画像254、ダウンスケーリングカーネル202、及びダウンスケールされた画像208を訓練データとして使用するように構成されている。
第1の訓練段階では、訓練エンジン250はカーネルマッピング網200及び/又は低下認識生成器網220に含まれる重みの様々な組を用いて、ダウンスケーリングカーネル202及びダウンスケールされた画像208から得られる入力及び元の画像254から得られるターゲット出力を使用して逆伝搬操作を実行する。そうする時、訓練エンジン250はカーネルマッピング網200及び/又は低下認識生成器網220に含まれる複数の組の重みを、1つ以上の復元画像222が対応する元の画像254と閾誤差未満で一致するまで部分変更する。次に訓練エンジン250はカーネルマッピング網200及び/又は低下認識生成器網220の訓練を止め、第2の訓練段階を実行する。
第2の訓練段階では、訓練エンジン250はカーネル識別器網230に含まれる重みの様々な組を用いて、特定のダウンスケーリングカーネル202の適正版及び不適正版を使用して生成された復元画像222のペアを含む入力を使用して逆伝搬操作を実行する。第2の訓練段階時にカーネル識別器網230に提供される入力は、低下認識生成器網220の1つ以上の畳み込み層の少なくとも1つの出力も含みうる。訓練エンジン250は、ダウンスケーリングカーネル202の変化と画像デルタ232に存在する視覚アーティファクトの間の対応付けをそれらの変化に基づいて符号化するためにカーネル識別器網230に含まれる複数の組の重みを部分変更する。この手法で、カーネル識別器網230はこれらの視覚アーティファクトを示す画像デルタ232を予測するように訓練される。
上記2つの訓練段階が完了すると、パラメータ最適化器240は前述したやり方で動作してダウンスケーリングカーネル202及び/又は低下マップ206を最適化し、画像デルタ232を最小にし、それによりダウンスケールされた画像208を生成するのに使用されたダウンスケーリングカーネルを近似する(又はそれらから派生する低下マップを近似する)。
概ね図2A~2Bを参照すると、様々な状況下で、ダウンスケーリングカーネル202は、上記のように、1つ以上の無作為化されたカーネル及び/又は1つ以上の無作為抽出されたダウンスケーリングカーネル202により実現されうる。後者の場合、ダウンスケーリングカーネルは、図3と共に下記にもっと詳細に説明されるように、ある範囲の可能なダウンスケーリングカーネルを含むカーネル空間から無作為に選択されうる。
代表的なカーネル空間
図3は様々な実施形態に係る様々な異なるダウンスケーリングカーネルを含むカーネル空間を例示する。図示のように、カーネル空間300は異なるタイプのダウンスケーリングカーネル、例えばインパルスカーネル310、ディスクカーネル320、及び双3次カーネル330を含む。また、任意の特定のタイプのカーネルについて、カーネル空間300は、その特定のタイプのカーネルの伸ばされた及び/又はサイズ変更されたバージョン群を含むその特定のタイプのカーネルの異なる空間バリエーションを含む。
1つの実施形態では、通常の使用シナリオでは、図2A~2Bと共に上述したカーネルマッピング網200は初めにカーネル空間300からN個のダウンスケーリングカーネルを選択しこれらのN個のダウンスケーリングカーネルに基づいてN個の画像デルタ232を計算してもよい。得られたN個の画像デルタ232内に見つかる視覚アーティファクトの程度及び/又は重大さに依って、カーネルマッピング網200は、これらのN個のダウンスケーリングカーネルの1つのサブセットが、カーネル空間300から抽出された他のダウンスケーリングカーネルに比べて適正なダウンスケーリングカーネルをより含んでいそうであると判断する場合がある。開示された手法は任意の特定のダウンスケーリングカーネルに関連する極小を避けることで、適正なダウンスケーリングカーネルをより効果的に特定できる。
別の実施形態では、開示された手法は図1のGUI122と共に実行されてよい。GUI122は異なるパラメータでアップスケールされるべきダウンスケールされた画像の特定の部分を反映するユーザー入力を受け取るよう構成されてもよい。例えば、GUI122はユーザーから特定のダウンスケールされた画像の特定領域を際立たせるブラシの一振りを受け取りうる。ブラシの一振りはダウンスケーリングカーネル202の1つ以上のパラメータ、例えば標準偏差がその特定領域内で変更されるべきであることを示しうる。
概ね図1~3を参照すると、開示された手法の1つの利点は、それらの画像を生成するのに使用されたダウンスケーリングカーネルが入手できないか又は不明である状況下でダウンスケールされた画像のより高い解像度版を生成しうることである。また、開示された手法は、画像の異なる部分が異なるダウンスケーリングカーネルによって引き起こされる低下を被っている状況に適用されうる。例えば、背景コンテンツに描画されたコンテンツを重ねる場合、異なるタイプのコンテンツは、異なるダウンスケーリングカーネルの結果だとされうる異なるタイプの視覚アーティファクトを持ちうる。開示された手法はそのようなコンテンツを効果的にアップスケールしてそのコンテンツの、もしあればごく少数の気付きうる視覚アーティファクトを含む高解像度版を作成できる。様々な実施形態では、開示された手法は、ダウンスケールされていないが代わりに初めに低解像度で生成されたより低い解像度の画像をアップスケールするのに適用されてよい。そのような状況では、最初のダウンスケーリング操作は実行されないので、ダウンスケーリングカーネルは通常「入手できない」と考えられる。より低い解像度の画像がより高い解像度にアップスケールされる必要がある任意の技術的に可能な状況に開示された手法が適用可能であることを当業者は理解するであろう。開示された手法は図4と共に下記にもっと詳細に説明される。
画像をアップスケールするための手順
図4は様々な実施形態に係る不明のダウンスケーリングカーネルを使用してダウンスケールされた画像をアップスケールするための方法ステップのフロー図である。方法ステップは図1~3のシステムと共に説明されるが、当業者はこれらの方法ステップをいずれかの順に実行するように構成されたどのシステムもこれらの実施形態の範囲内に入ることを理解するであろう。
図示のように、方法400は図1のスケーリングアプリケーション120がダウンスケールされた画像を受信するステップ402から始まる。ダウンスケールされた画像は複数の異なるシナリオで生成されうる。例えば、メディアコンテンツは高解像度で取り込まれ、次に視覚効果演出などの生成後操作を実行するためにより低い「作業用」解像度にダウンスケールされうる。或いは、ダウンスケールされた画像は、初めに低解像度で取り込まれ及び/又は提示されたが表示のためにより高い解像度にアップスケールされる必要がある単に低解像度画像である場合がある。
ステップ404では、スケーリングアプリケーション120はダウンスケーリングカーネルを生成する。通常ダウンスケーリングカーネルは不明で、スケーリングエンジン120は初めに図3に示すようなカーネル空間からの無作為抽出によりダウンスケーリングカーネルを生成するが、幾つかの状況では、ダウンスケーリングは予め決められている場合がある。1つの実施形態では、スケーリングアプリケーション120は初めに複数のダウンスケーリングカーネルを生成し、次に画像アップスケーリングを最も良く容易にするような1つのダウンスケーリングカーネルを選択してもよい。
ステップ406では、スケーリングアプリケーション120内のカーネルマッピング網200はステップ404で生成されたダウンスケーリングカーネルを潜在空間内に符号化しダウンスケーリングカーネルの潜在表現を生成する。潜在表現はダウンスケーリングカーネルの原版に比べて低減された次元数を有するダウンスケーリングカーネルの圧縮版である。
ステップ408では、カーネルマッピング網200はステップ406で生成された潜在表現に基づいて低下マップを生成する。低下マップは低下の様々な空間的に依存する源を示す空間的特徴マップである。カーネルマッピング網200は、潜在表現を目標のアップスケールされた解像度を有する画像に関連する領域又は画素位置に亘って複写することで、又は各異なる領域又は画素位置について異なる潜在表現を生成しそれらの異なる潜在表現を組み合わせることで低下マップを生成できる。1つの実施形態では、カーネルマッピング網200は潜在表現を生成するように訓練データに基づいて訓練される畳み込み神経網であってもよく、訓練データは1つ以上のダウンスケーリングカーネル、一組の画像、及びその一組の画像をそれらの1つ以上のダウンスケーリングカーネルを使用してダウンスケールすることで生成された一組のダウンスケールされた画像を含む。
ステップ410では、スケーリングアプリケーション120内の低下認識生成器網220はステップ402で受信したダウンスケールされた画像及びステップ408で生成された低下マップに基づいて復元画像を生成する。復元画像は、ステップ402で受信したダウンスケールされた画像を生成するためにダウンスケールされる元の画像に、幾つかの場合、対応する目標組の寸法及び/又は解像度を有する。1つの実施形態では、低下認識生成器網220は潜在表現を生成するように訓練データに基づいて訓練される畳み込み神経網であってもよく、訓練データは1つ以上の低下マップ、一組の画像、及びそれらの1つ以上の低下マップと関連する一組のダウンスケールされた画像を含む。
ステップ412では、カーネル識別器網230は画像デルタをステップ402で受信したダウンスケールされた画像、ステップ408で生成された低下マップ、及び低下認識生成器網220から引き出された一組の出力に基づいて生成する。1つの実施形態では、その一組の出力は低下認識生成器網220に含まれる最終の畳み込み層から得られてもよい。カーネル識別器網230はステップ410で生成された復元画像内に存在するかも知れない一組のアーティファクトを示す画像デルタを生成する。1つの実施形態では、カーネル識別器網230は画像デルタを生成するように訓練データに基づいて訓練される畳み込み神経網であってもよく、訓練データは低下認識生成器網220への入力及び/又はからの出力のいずれかを含む。
ステップ414では、スケーリングアプリケーション120内のパラメータ最適化器240はステップ404で生成されたダウンスケーリングカーネル及び/又はステップ408で生成された低下マップを部分変更して画像デルタを1回以上の処理実行に亘って低減する。特に、パラメータ最適化器240は、画像デルタが視覚アーティファクトの閾量未満を示すまで、ダウンスケーリングカーネルを規定する1つ以上のパラメータを繰り返し変更し、及び/又は低下マップを直接部分変更し、次に復元画像及び画像デルタを繰り返し再計算する。
ステップ416では、スケーリングエンジン120はダウンスケールされた画像より高い解像度の復元画像を出力する。スケーリングエンジン120はダウンスケーリングカーネル及び/又は低下マップを最適化して画像デルタを低減するので、ステップ416で出力される復元画像はもしあれば最少の視覚アーティファクトを含む。
要約すると、スケーリングアプリケーションはダウンスケールされた画像を生成するのに使用されたダウンスケーリングカーネルを推定する。次にスケーリングアプリケーションはダウンスケールされた画像を推定されたダウンスケーリングカーネルに基づいてアップスケールし、それによりダウンスケールされた画像の最少の視覚アーティファクトを含むより高い解像度版を生成する。スケーリングアプリケーションは上記動作を行う様々な人工神経網を含む。特に、カーネルマッピング網は低下マップを推定されたダウンスケーリングカーネルに基づいて生成する。低下認識生成器網は復元画像をダウンスケールされた画像及び低下マップに基づいて生成する。カーネル識別器網は復元画像内に存在する視覚アーティファクトを反映する画像デルタを生成する。スケーリングアプリケーションは、画像デルタに示された視覚アーティファクトを低減するために、推定されたダウンスケーリングカーネルを繰り返し部分変更するパラメータ最適化器を更に含む。1回以上繰り返すことで、スケーリングアプリケーションはダウンスケーリングカーネルの合理的に正確な推定を生成し、次にダウンスケールされた画像をアップスケールし視覚アーティファクトを低減できる。
従来技術に比べて開示された手法の少なくとも1つの技術的利点は、不明のダウンスケーリングカーネルを使用してダウンスケールされた低解像度の画像は重大な視覚アーティファクトが生じることなくより高い解像度にアップスケールされうることである。従って、開示された手法は、様々な理由でメディアコンテンツをダウンスケールし、次に表示により適したいくらか相対的により高い解像度にアップスケールする必要があるメディア作成過程に適用されうる。これらの技術的利点は従来技術の手法と比較して1つ以上の技術的進歩を表す。
態様1
幾つかの実施形態は画像内容をスケールするためのコンピュータ実行方法を含む。この方法は、スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップとを含む。
態様2
前記第1復元画像を生成するステップは、前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、前記スケールされた画像及び前記低下マップを組み合わせて前記第1復元画像を生成するステップとを含む、態様1記載のコンピュータ実行方法。
態様3
前記スケーリングカーネルを前記潜在空間内に符号化するステップは、前記スケーリングカーネルに関連する次元数値を低減することを含む、態様1又は2記載のコンピュータ実行方法。
態様4
前記低下マップを生成するステップは、前記スケーリングカーネルの前記潜在表現を前記第1解像度を有するターゲット画像に関連する1つ以上の領域に亘って複写することを含む、態様1~3のいずれかに記載のコンピュータ実行方法。
態様5
前記スケールされた画像及び前記低下マップを組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを畳み込み神経網を使用して分類して前記第1復元画像を生成することを含む、態様1~4のいずれかに記載のコンピュータ実行方法。
態様6
前記画像差を生成するステップは、前記第1復元画像を生成するのに使用される第1畳み込み神経網の畳み込み層から引き出された一組の出力を得るステップと、前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせて前記画像差を生成するステップであって、前記画像差は前記第1復元画像と前記スケールされた画像の原版の差を表す、ステップとを含む、態様1~5のいずれかに記載のコンピュータ実行方法。
態様7
前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを第2畳み込み神経網を使用して分類して前記画像差を生成することを含む、態様1~6のいずれかに記載のコンピュータ実行方法。
態様8
記スケーリングカーネルを部分変更するステップは、パラメータ最適化操作を前記スケーリングカーネル及び前記スケーリングカーネルの符号化版の少なくとも1つを用いて実行することを含む、態様1~7のいずれかに記載のコンピュータ実行方法。
態様9
複数の異なるカーネルを含むカーネル空間から抽出して前記スケーリングカーネルを生成するステップを更に含む態様1~8のいずれかに記載のコンピュータ実行方法。
態様10
前記スケーリングカーネル及び前記スケールされた画像の原版に基づいて前記スケールされた画像を生成するステップを更に含む態様1~9のいずれかに記載のコンピュータ実行方法。
態様11
幾つかの実施形態は、プログラム命令群を記憶する持続性コンピュータ読取可能媒体を含む。前記プログラム命令群は、プロセッサにより実行される時、前記プロセッサに、スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、前記スケールされた画像と最適化処理により生成される部分変更されたスケーリングカーネルとに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップとを実行させることで画像内容をスケールさせる。
態様12
前記第1復元画像を生成するステップは、前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、前記スケールされた画像及び前記低下マップを組み合わせて前記第1復元画像を生成するステップとを含む、態様11記載の持続性コンピュータ読取可能媒体。
態様13
前記スケーリングカーネルを前記潜在空間内に符号化するステップは、前記スケーリングカーネルを圧縮して前記スケーリングカーネルより少ない次元数を持つ前記スケーリングカーネルの圧縮版を生成することを含む、態様11又は12記載の持続性コンピュータ読取可能媒体。
態様14
前記低下マップを生成するステップは、前記スケーリングカーネルの前記潜在表現を前記第1解像度を有するターゲット画像に関連する1つ以上の領域に亘って複写することを含む、態様11~13のいずれかに記載の持続性コンピュータ読取可能媒体。
態様15
前記スケールされた画像及び前記低下マップを組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを畳み込み神経網を使用して分類して前記第1復元画像を生成することを含む、態様11~14のいずれかに記載の持続性コンピュータ読取可能媒体。
態様16
前記画像差を生成するステップは、前記第1復元画像を生成するのに使用される第1畳み込み神経網の畳み込み層から引き出された一組の出力を得るステップと、前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせて前記画像差を生成するステップであって、前記画像差は前記第1復元画像と前記スケールされた画像の原版の差を表す、ステップとを含む、態様11~15のいずれかに記載の持続性コンピュータ読取可能媒体。
態様17
前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを第2畳み込み神経網を使用して分類して前記画像差を生成することを含む、態様11~16のいずれかに記載の持続性コンピュータ読取可能媒体。
態様18
前記スケーリングカーネル及び前記スケールされた画像の原版に基づいて前記スケールされた画像を生成するステップと、前記スケールされた画像、前記スケーリングカーネル、及び前記第1復元画像の原版を含む訓練データを使用して1つ以上の神経網を前記第1復元画像及び前記画像差を生成するように訓練するステップとを更に含む態様11~17のいずれかに記載の持続性コンピュータ読取可能媒体。
態様19
前記第1解像度は前記第2解像度より大きく、前記スケーリングカーネルはダウンスケーリングカーネルから成る、態様11~18のいずれかに記載の持続性コンピュータ読取可能媒体。
態様20
幾つかの実施形態はソフトウェアアプリケーションを記憶するメモリ及びプロセッサを備えるシステムを含む。前記プロセッサは前記ソフトウェアアプリケーションを実行する時、スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップとを実行するように構成される。
請求項のいずれかに記述された請求要素のいずれか及び/又は本願に記載されたいずれかの要素の任意の組み合わせ及び全ての組み合わせは、任意のやり方で、本実施形態及び保護の考慮された範囲内に入る。
様々な実施形態の説明が例示の目的のために提示されたが、網羅的であることも開示した実施形態に限定されることも意図されていない。説明した実施形態の範囲及び要旨から逸脱することなく多くの改良及び変更が、当業者には明らかであろう。
本実施形態の態様はシステム、方法、又はコンピュータプログラム製品として具体化されてもよい。従って、本開示の態様は完全にハードウェア実施形態、完全にソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又は本明細書において一般に「モジュール」又は「システム」と呼ばれうるソフトウェア態様とハードウェア態様を組み合わせた実施形態の形をとってもよい。また、本開示の態様は、コンピュータ読取可能プログラムコードが組み込まれた1つ以上のコンピュータ読取可能媒体に具体化されたコンピュータプログラム製品の形をとってもよい。
1つ以上のコンピュータ読取可能媒体のいずれの組み合わせも利用してよい。コンピュータ読取可能媒体は、コンピュータ読取可能信号媒体又はコンピュータ読取可能記憶媒体であってもよい。コンピュータ読取可能記憶媒体は、例えば、これらに限定されないが、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置、又はデバイス、又はそれらの任意の適切な組み合わせであってよい。コンピュータ読取可能記憶媒体のより具体的な例(非網羅的リスト)は、1つ以上のワイヤーを有する電気的接続、携帯型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去・プログラム可能読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、携帯型コンパクトディスク読み出し専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はそれらの任意の適切な組み合わせを含むであろう。本明細書の文脈では、コンピュータ読取可能記憶媒体は、命令実行システム、装置、又はデバイスによる又はに関連した使用のためのプログラムを含み又は記憶しうる任意の有形の媒体であってよい。
本開示の態様は、本開示の実施形態に係るフローチャート図及び/又は方法、装置(システム)、及びコンピュータプログラム製品のブロック図を参照して上記で説明されている。フローチャート図及び/又はブロック図の各ブロックと、フローチャート図及び/又はブロック図内のブロックの組み合わせとはコンピュータプログラム命令群により実施されうることは理解されよう。これらのコンピュータプログラム命令は汎用コンピュータ、特殊用途コンピュータ、又は機械を製造する他のプログラム可能データ処理装置のプロセッサに提供されてもよい。コンピュータ又は他のプログラム可能データ処理装置のプロセッサにより実行される時、それらの命令はフローチャート及び/又はブロック図内ブロックに明記された機能/動作の実行を可能にする。このようなプロセッサは、限定されないが、汎用プロセッサ、特殊用途プロセッサ、特定用途向けプロセッサ、又はフィールド・プログラム可能ゲートアレイであってもよい。
図のフローチャート及びブロック図は、本開示の様々な実施形態に係る、システム、方法、及びコンピュータプログラム製品の可能な実施形態のアーキテクチャ、機能、及び動作を例示する。これに関して、フローチャート又はブロック図の各ブロックは、指定された論理機能を実施するための1つ以上の実行可能命令を含むコードのモジュール、セグメント、又は部分を表す場合がある。なお、幾つかの他の実施形態では、ブロックに記された機能は、図に記された順番から外れて発生してもよい。例えば、続けて示された2つのブロックは、実際には実質的に同時に実行されるか、又は係る機能に依って、時には逆の順番に実行されるかもしれない。また、ブロック図及び/又はフローチャート図の各ブロックと、ブロック図及び/又はフローチャート図内のブロックの組み合わせとは、指定の機能又は動作を実行する特殊用途ハードウェアベースシステム又は特殊用途ハードウェア及びコンピュータ命令群の組み合わせにより実現されうる。
以下、本発明の好ましい実施形態を項分け記載する。
実施形態1
画像内容をスケールするためのコンピュータ実行方法であって、
スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、
前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、
前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、
前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップと
を含むコンピュータ実行方法。
実施形態2
前記第1復元画像を生成するステップは、
前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、
前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、前記スケールされた画像及び前記低下マップを組み合わせて前記第1復元画像を生成するステップと
を含む、実施形態1に記載のコンピュータ実行方法。
実施形態3
前記スケーリングカーネルを前記潜在空間内に符号化するステップは、前記スケーリングカーネルに関連する次元数値を低減することを含む、実施形態2に記載のコンピュータ実行方法。
実施形態4
前記低下マップを生成するステップは、前記スケーリングカーネルの前記潜在表現を前記第1解像度を有するターゲット画像に関連する1つ以上の領域に亘って複写することを含む、実施形態2に記載のコンピュータ実行方法。
実施形態5
前記スケールされた画像及び前記低下マップを組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを畳み込み神経網を使用して分類して前記第1復元画像を生成することを含む、実施形態2に記載のコンピュータ実行方法。
実施形態6
前記画像差を生成するステップは、
前記第1復元画像を生成するのに使用される第1畳み込み神経網の畳み込み層から引き出された一組の出力を得るステップと、
前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせて前記画像差を生成するステップであって、前記画像差は前記第1復元画像と前記スケールされた画像の原版の差を表す、ステップと
を含む、実施形態1に記載のコンピュータ実行方法。
実施形態7
前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを第2畳み込み神経網を使用して分類して前記画像差を生成することを含む、実施形態6に記載のコンピュータ実行方法。
実施形態8
前記ダウンスケーリングカーネルを部分変更するステップは、パラメータ最適化操作を前記ダウンスケーリングカーネル及び前記ダウンスケーリングカーネルの符号化版の少なくとも1つを用いて実行することを含む、実施形態1に記載のコンピュータ実行方法。
実施形態9
複数の異なるカーネルを含むカーネル空間から抽出して前記スケーリングカーネルを生成するステップを更に含む実施形態1に記載のコンピュータ実行方法。
実施形態10
前記スケーリングカーネル及び前記スケールされた画像の原版に基づいて前記ダウンスケールされた画像を生成するステップを更に含む実施形態1に記載のコンピュータ実行方法。
実施形態11
プログラム命令群を記憶する持続性コンピュータ読取可能媒体であって、前記プログラム命令群は、プロセッサにより実行される時、前記プロセッサに、
スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、
前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、
前記スケールされた画像と最適化処理により生成される部分変更されたスケーリングカーネルとに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップと
を実行させることで画像内容をスケールさせる、持続性コンピュータ読取可能媒体。
実施形態12
前記第1復元画像を生成するステップは、
前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、
前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、
前記スケールされた画像及び前記低下マップを組み合わせて前記第1復元画像を生成するステップと
を含む、実施形態11に記載の持続性コンピュータ読取可能媒体。
実施形態13
前記スケーリングカーネルを前記潜在空間内に符号化するステップは、前記スケーリングカーネルを圧縮して前記スケーリングカーネルより少ない次元数を持つ前記スケーリングカーネルの圧縮版を生成することを含む、実施形態12に記載の持続性コンピュータ読取可能媒体。
実施形態14
前記低下マップを生成するステップは、前記スケーリングカーネルの前記潜在表現を前記第1解像度を有するターゲット画像に関連する1つ以上の領域に亘って複写することを含む、実施形態12に記載の持続性コンピュータ読取可能媒体。
実施形態15
前記スケールされた画像及び前記低下マップを組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを畳み込み神経網を使用して分類して前記第1復元画像を生成することを含む、実施形態12に記載の持続性コンピュータ読取可能媒体。
実施形態16
前記画像差を生成するステップは、
前記第1復元画像を生成するのに使用される第1畳み込み神経網の畳み込み層から引き出された一組の出力を得るステップと、
前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせて前記画像差を生成するステップであって、前記画像差は前記第1復元画像と前記スケールされた画像の原版の差を表す、ステップと
を含む、実施形態11に記載の持続性コンピュータ読取可能媒体。
実施形態17
前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを第2畳み込み神経網を使用して分類して前記画像差を生成することを含む、実施形態16に記載の持続性コンピュータ読取可能媒体。
実施形態18
前記スケーリングカーネル及び前記スケールされた画像の原版に基づいて前記ダウンスケールされた画像を生成するステップと、
前記スケールされた画像、前記スケーリングカーネル、及び前記第1復元画像の原版を含む訓練データを使用して1つ以上の神経網を前記第1復元画像及び前記画像差を生成するように訓練するステップと
を更に含む実施形態11に記載の持続性コンピュータ読取可能媒体。
実施形態19
前記第1解像度は前記第2解像度より大きく、前記スケーリングカーネルはダウンスケーリングカーネルから成る、実施形態11に記載の持続性コンピュータ読取可能媒体。
実施形態20
ソフトウェアアプリケーションを記憶するメモリ及びプロセッサを備えるシステムであって、前記プロセッサは前記ソフトウェアアプリケーションを実行する時、
スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、
前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、
前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、
前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップと
を実行するように構成される、システム。

100 システム
110 クライアント
112、132 プロセッサ
114、134 I/O装置
116、136 メモリ
118 データベース
120 スケーリングアプリケーション
122 グラフィカル・ユーザーインターフェース(GUI)
130 サーバー
150 ネットワーク
200 カーネルマッピング網
202 ダウンスケーリングカーネル
204 潜在表現
206 低下マップ
208 ダウンスケールされた画像
210 入力データ
220 低下認識生成器網
222 復元画像
230 カーネル識別器網
232 画像デルタ
240 パラメータ最適化器
250 訓練エンジン
254 元の画像

Claims (18)

  1. 画像内容をスケールするためのコンピュータ実行方法であって、
    スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、
    前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、
    前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、
    前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップと
    を含み、
    前記第1復元画像を生成するステップは、
    前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、
    前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、
    前記スケールされた画像及び前記低下マップを組み合わせ、前記スケールされた画像の少なくとも一部及び前記低下マップを神経網を使用して分類して前記第1復元画像を生成するステップと
    を含むコンピュータ実行方法。
  2. 前記スケーリングカーネルを前記潜在空間内に符号化するステップは、前記スケーリングカーネルに関連する次元数値を低減することを含む、請求項記載のコンピュータ実行方法。
  3. 前記低下マップを生成するステップは、前記スケーリングカーネルの前記潜在表現を前記第1解像度を有するターゲット画像に関連する1つ以上の領域に亘って複写することを含む、請求項記載のコンピュータ実行方法。
  4. 前記スケールされた画像及び前記低下マップを組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを畳み込み神経網を使用して分類して前記第1復元画像を生成することを含む、請求項記載のコンピュータ実行方法。
  5. 前記画像差を生成するステップは、
    前記第1復元画像を生成するのに使用される第1畳み込み神経網の畳み込み層から引き出された一組の出力を得るステップと、
    前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせて前記画像差を生成するステップであって、前記画像差は前記第1復元画像と前記スケールされた画像の原版の差を表す、ステップと
    を含む、請求項1記載のコンピュータ実行方法。
  6. 前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを第2畳み込み神経網を使用して分類して前記画像差を生成することを含む、請求項記載のコンピュータ実行方法。
  7. 前記スケーリングカーネルを部分変更するステップは、パラメータ最適化操作を前記スケーリングカーネル及び前記スケーリングカーネルの符号化版の少なくとも1つを用いて実行することを含む、請求項1記載のコンピュータ実行方法。
  8. 複数の異なるカーネルを含むカーネル空間から抽出して前記スケーリングカーネルを生成するステップを更に含む請求項1記載のコンピュータ実行方法。
  9. 前記スケーリングカーネル及び前記スケールされた画像の原版に基づいて前記スケールされた画像を生成するステップを更に含む請求項1記載のコンピュータ実行方法。
  10. プログラム命令群を記憶する持続性コンピュータ読取可能媒体であって、前記プログラム命令群は、プロセッサにより実行される時、前記プロセッサに、
    スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、
    前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、
    前記スケールされた画像と最適化処理により生成される部分変更されたスケーリングカーネルとに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップと
    を実行させることで画像内容をスケールさせ、
    前記第1復元画像を生成するステップは、
    前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、
    前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、
    前記スケールされた画像及び前記低下マップを組み合わせ、前記スケールされた画像の少なくとも一部及び前記低下マップを神経網を使用して分類して前記第1復元画像を生成するステップと
    を含む、持続性コンピュータ読取可能媒体。
  11. 前記スケーリングカーネルを前記潜在空間内に符号化するステップは、前記スケーリングカーネルを圧縮して前記スケーリングカーネルより少ない次元数を持つ前記スケーリングカーネルの圧縮版を生成することを含む、請求項10記載の持続性コンピュータ読取可能媒体。
  12. 前記低下マップを生成するステップは、前記スケーリングカーネルの前記潜在表現を前記第1解像度を有するターゲット画像に関連する1つ以上の領域に亘って複写することを含む、請求項10記載の持続性コンピュータ読取可能媒体。
  13. 前記スケールされた画像及び前記低下マップを組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを畳み込み神経網を使用して分類して前記第1復元画像を生成することを含む、請求項10記載の持続性コンピュータ読取可能媒体。
  14. 前記画像差を生成するステップは、
    前記第1復元画像を生成するのに使用される第1畳み込み神経網の畳み込み層から引き出された一組の出力を得るステップと、
    前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせて前記画像差を生成するステップであって、前記画像差は前記第1復元画像と前記スケールされた画像の原版の差を表す、ステップと
    を含む、請求項10記載の持続性コンピュータ読取可能媒体。
  15. 前記スケールされた画像及び前記低下マップを前記一組の出力と組み合わせるステップは、前記スケールされた画像の少なくとも一部及び前記低下マップを第2畳み込み神経網を使用して分類して前記画像差を生成することを含む、請求項14記載の持続性コンピュータ読取可能媒体。
  16. 前記スケーリングカーネル及び前記スケールされた画像の原版に基づいて前記スケールされた画像を生成するステップと、
    前記スケールされた画像、前記スケーリングカーネル、及び前記第1復元画像の原版を含む訓練データを使用して1つ以上の神経網を前記第1復元画像及び前記画像差を生成するように訓練するステップと
    を更に含む請求項10記載の持続性コンピュータ読取可能媒体。
  17. 前記第1解像度は前記第2解像度より大きく、前記スケーリングカーネルはダウンスケーリングカーネルから成る、請求項10記載の持続性コンピュータ読取可能媒体。
  18. ソフトウェアアプリケーションを記憶するメモリ及びプロセッサを備えるシステムであって、前記プロセッサは前記ソフトウェアアプリケーションを実行する時、
    スケールされた画像及びスケーリングカーネルに基づいて第1復元画像を生成するステップであって、前記第1復元画像は第1解像度を有し、前記スケールされた画像は第2解像度を有する、ステップと、
    前記スケールされた画像及び前記スケーリングカーネルに基づいて画像差を生成するステップであって、前記画像差は少なくとも1つの視覚アーティファクトが前記第1復元画像内に存在することを示す、ステップと、
    前記スケーリングカーネルを部分変更して変更されたスケーリングカーネルを生成するステップと、
    前記スケールされた画像及び前記変更されたスケーリングカーネルに基づいて第2復元画像を生成するステップであって、前記少なくとも1つの視覚アーティファクトは前記第2復元画像内で低減されているか又は除去されている、ステップと
    を実行するように構成され
    前記第1復元画像を生成するステップは、
    前記スケーリングカーネルを潜在空間内に符号化して前記スケーリングカーネルの潜在表現を生成するステップと、
    前記スケーリングカーネルの前記潜在表現に基づいて低下マップを生成するステップと、
    前記スケールされた画像及び前記低下マップを組み合わせ、前記スケールされた画像の少なくとも一部及び前記低下マップを神経網を使用して分類して前記第1復元画像を生成するステップと
    を含む、システム。
JP2020133682A 2019-08-15 2020-08-06 不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法 Active JP7303783B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/542,227 US11080824B2 (en) 2019-08-15 2019-08-15 Techniques for upscaling images generated with undetermined downscaling kernels
US16/542,227 2019-08-15

Publications (3)

Publication Number Publication Date
JP2021034038A JP2021034038A (ja) 2021-03-01
JP2021034038A5 JP2021034038A5 (ja) 2021-07-26
JP7303783B2 true JP7303783B2 (ja) 2023-07-05

Family

ID=71950572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020133682A Active JP7303783B2 (ja) 2019-08-15 2020-08-06 不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法

Country Status (4)

Country Link
US (1) US11080824B2 (ja)
EP (1) EP3779863B1 (ja)
JP (1) JP7303783B2 (ja)
KR (1) KR102512507B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126895B2 (en) * 2019-05-22 2021-09-21 Lawrence Livermore National Security, Llc Mimicking of corruption in images
US11769227B2 (en) * 2021-08-12 2023-09-26 Adobe Inc. Generating synthesized digital images utilizing a multi-resolution generator neural network

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6276901B1 (ja) * 2017-05-26 2018-02-07 楽天株式会社 画像処理装置、画像処理方法、および画像処理プログラム
US10885608B2 (en) * 2018-06-06 2021-01-05 Adobe Inc. Super-resolution with reference images
US11107205B2 (en) * 2019-02-18 2021-08-31 Samsung Electronics Co., Ltd. Techniques for convolutional neural network-based multi-exposure fusion of multiple image frames and for deblurring multiple image frames
US10977524B2 (en) * 2019-04-11 2021-04-13 Open Text Sa Ulc Classification with segmentation neural network for image-based content capture

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jinjin Gu 他,Blind Super-ResolutionWith Iterative Kernel Correction,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) ,IEEE,2019年06月15日,p1604-1613

Also Published As

Publication number Publication date
JP2021034038A (ja) 2021-03-01
KR20210021272A (ko) 2021-02-25
KR102512507B1 (ko) 2023-03-22
EP3779863A1 (en) 2021-02-17
US11080824B2 (en) 2021-08-03
US20210049739A1 (en) 2021-02-18
EP3779863B1 (en) 2022-04-27

Similar Documents

Publication Publication Date Title
US10783611B2 (en) Frame-recurrent video super-resolution
Lai et al. Deep laplacian pyramid networks for fast and accurate super-resolution
CN113014927B (zh) 图像压缩方法和图像压缩装置
Li et al. FilterNet: Adaptive information filtering network for accurate and fast image super-resolution
EP3721628B1 (en) Processing signal data using an upsampling adjuster
KR102225024B1 (ko) 이미지 채움 장치 및 방법
EP2529353A1 (en) Method and system for generating an output image of increased pixel resolution from an input image
JP7303783B2 (ja) 不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法
CN114868401A (zh) 使用下采样/上采样和深度图非线性滤波对视频数据的编码方案
US11308361B1 (en) Checkerboard artifact free sub-pixel convolution
WO2016108847A1 (en) Methods and apparatus for processing motion information images
Sidike et al. A fast single-image super-resolution via directional edge-guided regularized extreme learning regression
Gao et al. A fast view synthesis implementation method for light field applications
US10964076B2 (en) Method and system for solving inverse problems in image processing using deep dictionary learning (DDL)
CN113902617B (zh) 基于参考图像的超分辨率方法、装置、设备及介质
US20220321830A1 (en) Optimization of adaptive convolutions for video frame interpolation
KR102353837B1 (ko) 고해상도 얼굴 영상 복원 방법 및 장치
WO2020263112A1 (en) Image processing method and apparatus and computer program product for the same
KR102244457B1 (ko) 시멘틱 구역화를 위한 상향샘플링 방법 및 시스템
Liu et al. Soft-introVAE for continuous latent space image super-resolution
Ahmed et al. Digital image inpainting techniques for cultural heritage preservation and restoration
US20230342893A1 (en) Transferring faces between digital images by combining latent codes utilizing a blending network
US20230237628A1 (en) Modeling continuous kernels to generate an enhanced digital image from a burst of digital images
Ye et al. Learning multi-granularity semantic interactive representation for joint low-light image enhancement and super-resolution
CN117557452A (zh) 一种图像还原方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220720

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221020

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230623

R150 Certificate of patent or registration of utility model

Ref document number: 7303783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150