JP2023517486A - 画像再スケーリング - Google Patents
画像再スケーリング Download PDFInfo
- Publication number
- JP2023517486A JP2023517486A JP2022548582A JP2022548582A JP2023517486A JP 2023517486 A JP2023517486 A JP 2023517486A JP 2022548582 A JP2022548582 A JP 2022548582A JP 2022548582 A JP2022548582 A JP 2022548582A JP 2023517486 A JP2023517486 A JP 2023517486A
- Authority
- JP
- Japan
- Prior art keywords
- resolution
- image
- group
- training images
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002441 reversible effect Effects 0.000 claims abstract description 132
- 238000013528 artificial neural network Methods 0.000 claims abstract description 105
- 238000009826 distribution Methods 0.000 claims abstract description 88
- 238000012549 training Methods 0.000 claims description 158
- 230000006870 function Effects 0.000 claims description 93
- 238000000034 method Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 8
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4007—Interpolation-based scaling, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4023—Decimation- or insertion-based scaling, e.g. pixel or line decimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
- G06T3/4076—Super resolution, i.e. output image resolution higher than sensor resolution by iteratively correcting the provisional high resolution image using the original low-resolution image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4084—Transform-based scaling, e.g. FFT domain scaling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20064—Wavelet transform [DWT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提案される。この解決策によれば、第1の解像度の入力画像が得られる。訓練された可逆ニューラルネットワークを使用することにより、入力画像に基づいて、第2の解像度の出力画像と、既定の分布に従う高周波数情報とが生成され、第1の解像度は、第2の解像度を超える。そのうえ、第2の解像度のさらなる入力画像が得られる。可逆ニューラルネットワークの逆ネットワークを使用することにより、さらなる入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度のさらなる出力画像が生成される。この解決策は、同じセマンティクスでオリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングすることができ、及び低解像度画像から高品質の高解像度画像を再構築することもできる。
Description
背景
[0001] 画像再スケーリングは、デジタル画像処理に対する最も一般的な動作の1つになっている。一方では、インターネット上における高解像度(HR)画像/映像の量の急増により、そのような大容量データの格納、転送及び共有のために、画像ダウンスケーリングが極めて不可欠であり、なぜなら、対応物のダウンスケーリングにより、同じセマンティック情報を維持しながら、ストレージを大幅に節約し、帯域幅を効率的に利用することができるためである。他方では、これらのダウンスケーリングシナリオの多くは、逆タスク(すなわちダウンスケーリングされた画像をそのオリジナルのサイズにアップスケーリングすること)への大きい需要を必然的に高める。
[0001] 画像再スケーリングは、デジタル画像処理に対する最も一般的な動作の1つになっている。一方では、インターネット上における高解像度(HR)画像/映像の量の急増により、そのような大容量データの格納、転送及び共有のために、画像ダウンスケーリングが極めて不可欠であり、なぜなら、対応物のダウンスケーリングにより、同じセマンティック情報を維持しながら、ストレージを大幅に節約し、帯域幅を効率的に利用することができるためである。他方では、これらのダウンスケーリングシナリオの多くは、逆タスク(すなわちダウンスケーリングされた画像をそのオリジナルのサイズにアップスケーリングすること)への大きい需要を必然的に高める。
[0002] 従来の画像ダウンスケーリング(すなわち高解像度画像を低解像度画像にダウンスケーリングすること)スキームは、通常、高解像度画像における高周波数情報の損失につながる。高周波数情報の損失により、従来の画像アップスケーリング(すなわち低解像度画像を高解像度画像にアップスケーリングすること)スキームは、低解像度画像からの高品質の高解像度画像の再構築に失敗する場合が多い。
概要
[0003] 本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提案される。この解決策によれば、第1の解像度の入力画像が得られる。訓練された可逆ニューラルネットワークを使用することにより、入力画像に基づいて、第2の解像度の出力画像と、既定の分布に従う高周波数情報とが生成され、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。そのうえ、第2の解像度のさらなる入力画像が得られる。可逆ニューラルネットワークの逆ネットワークを使用することにより、さらなる入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度のさらなる出力画像が生成され、さらなる入力画像とさらなる出力画像とは、同じセマンティクスを有する。この解決策は、同じセマンティクスでオリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングすることができ、及び低解像度画像から高品質の高解像度画像を再構築することもできる。
[0003] 本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提案される。この解決策によれば、第1の解像度の入力画像が得られる。訓練された可逆ニューラルネットワークを使用することにより、入力画像に基づいて、第2の解像度の出力画像と、既定の分布に従う高周波数情報とが生成され、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。そのうえ、第2の解像度のさらなる入力画像が得られる。可逆ニューラルネットワークの逆ネットワークを使用することにより、さらなる入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度のさらなる出力画像が生成され、さらなる入力画像とさらなる出力画像とは、同じセマンティクスを有する。この解決策は、同じセマンティクスでオリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングすることができ、及び低解像度画像から高品質の高解像度画像を再構築することもできる。
[0004] この概要は、選択された概念を簡略化して紹介するために提供され、それらの概念は、以下の詳細な説明でさらに説明される。この概要は、特許請求される主題の重要な特徴又は本質的な特徴を特定することを意図するものでも、特許請求される主題の範囲を限定するために使用することを意図するものでもない。
図面の簡単な説明
[0005]本明細書で説明される主題の複数の実装形態を実装することができるコンピューティングデバイスの概略ブロック図を示す。
[0006]本明細書で説明される主題の実装形態による、画像再スケーリングモジュールの動作原理の概略図を示す。
[0007]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークの概略ブロック図を示す。
[0008]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークユニットの例の概略図を示す。
[0009]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークの逆ネットワークの概略ブロック図を示す。
[0010]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークユニットの例の概略図を示す。
[0011]本明細書で説明される主題の実装形態による、画像再スケーリングのための方法の例のフローチャートを示す。
[0012]本明細書で説明される主題の実装形態による、画像再スケーリングのための方法の例のフローチャートを示す。
[0013]本明細書で説明される主題の実装形態を実装することができるシステムの例のブロック図を示す。
[0014] 図面全体を通して、同じ又は同様の参照記号は、同じ又は同様の要素を指す。
詳細な説明
[0015] ここで、いくつかの実装形態の例を参照して、本明細書で説明される主題について論じる。これらの実装形態は、主題の範囲の限定を示唆するのではなく、本明細書で説明される主題を当業者がよりよく理解して実装できるようにすることのみを目的として論じられていることを理解されたい。
[0015] ここで、いくつかの実装形態の例を参照して、本明細書で説明される主題について論じる。これらの実装形態は、主題の範囲の限定を示唆するのではなく、本明細書で説明される主題を当業者がよりよく理解して実装できるようにすることのみを目的として論じられていることを理解されたい。
[0016] 本明細書で使用される場合、「含む」という用語及びその変形語は、「限定されないが、含む」を意味する、制約のない用語として読み取るべきである。「基づいて」という用語は、「少なくとも部分的に基づいて」として読み取るべきである。「1つの実装形態」及び「ある実装形態」という用語は、「少なくとも1つの実装形態」として読み取るべきである。「別の実装形態」という用語は、「少なくとも1つの他の実装形態」として読み取るべきである。「第1」、「第2」という用語及び同様の用語は、異なる又は同じ対象を指し得る。他の定義は、明示的及び暗黙的に以下に含まれ得る。
[0017] 本明細書で使用される場合、「ニューラルネットワーク」は、入力を取り扱い、対応する出力を提供することができ、通常、入力層、出力層及び入力層と出力層との間の1つ又は複数の隠れ層を含む。ニューラルネットワークのそれぞれの層は、前の層の出力が次の層の入力として提供されるように順番に接続され、入力層は、ニューラルネットワークモデルの入力を受信し、出力層の出力は、ニューラルネットワークモデルの最終出力となる。ニューラルネットワークモデルの各層は、1つ又は複数のノード(処理ノード又はニューロンとしても知られている)を含み、各ノードは、前の層からの入力を処理する。本文中では、「ニューラルネットワーク」、「モデル」、「ネットワーク」及び「ニューラルネットワークモデル」という用語は、互いに交換可能に使用することができる。
[0018] 上記で説明されるように、画像再スケーリングは、デジタル画像処理に対する最も一般的な動作の1つである。しかし、従来の画像ダウンスケーリング(すなわち高解像度画像を低解像度画像にダウンスケーリングすること)スキームは、通常、高解像度画像における高周波数情報の損失につながる。また、高周波数情報の損失により、画像アップスケーリング手順(すなわち低解像度画像を高解像度画像にアップスケーリングすること)は、非常に難易度が高くなり、なぜなら、同じ低解像度(LR)画像は、複数の高解像度(HR)画像に対応し得ること(画像アップスケーリング手順における不良設定性としても知られている)を意味するためである。それに従って、従来のスキームは、通常、LR画像からの高品質のHR画像の再構築に失敗する。
[0019] 従来のスキームは、通常、超解像度(SR)方法でLR画像をアップスケーリングする。既存のSR方法は、主に、用例ベースの戦略又はディープラーニングモデルにより、事前情報の学習に焦点を置いている。明らかに、ターゲットLR画像が、対応するHR画像をダウンスケーリングすることによって得られる場合、画像アップスケーリング手順中に画像ダウンスケーリング方法を考慮することは、HR画像再構築の質を向上させるうえで役立つ。
[0020] 従来の画像ダウンスケーリング方法は、入力HR画像をターゲット解像度にサブサンプリングするためのローパスフィルタとして周波数ベースのカーネル(双線形補間及びバイキュービック補間など)を採用する。しかし、高周波数情報が抑制されるため、上記の方法は、過剰平滑化された画像をもたらす場合が多い。最近では、いくつかの詳細保存又は構造的に同様のダウンスケーリング方法が提案されている。しかし、これらの知覚指向のダウンスケーリング方法は、画像ダウンスケーリングと、その逆タスク(すなわち画像アップスケーリング)との間の潜在的な相互補強を決して考慮しない。
[0021] 画像ダウンスケーリングと、その逆タスク(すなわち画像アップスケーリング)との間の潜在的な相互補強から発想を得て、いくつかの従来のスキームは、画像ダウンスケーリング及び画像アップスケーリングを統一タスクにモデル化しようと試みている。例えば、いくつかのスキームは、自動エンコーダフレームワークに基づいて画像ダウンスケーリングモデルを提供し、その場合、エンコーダ及びデコーダは、それぞれ画像ダウンスケーリング及びSRモデルとして機能し、それにより、画像ダウンスケーリング及びアップスケーリング手順は、統合タスクとして一緒に訓練される。いくつかのスキームは、畳み込みニューラルネットワークを使用して、ダウンスケーリングされた低解像度画像を推定し、学習又は指定されたSRモデルをHR画像再構築のために利用する。いくつかのスキームは、コンテンツ適応サンプラベースの画像ダウンスケーリング方法をさらに提案し、既存の任意のSRモデルと一緒に訓練することができる。上記のスキームは、ダウンスケーリングされたLR画像から復元されるHR画像の質をある程度向上させることができるが、画像アップスケーリング手順の不良設定問題を根本的に解決することはできず、従ってLR画像からの高品質のHR画像の再構築に失敗する。
[0022] 本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提供される。この解決策では、第1の解像度の入力画像は、可逆ニューラルネットワークを使用することにより、第2の解像度の出力画像に再スケーリングされる。そのうえ、ニューラルネットワークの逆ネットワークは、第2の解像度の入力画像を第1の解像度の出力画像に再スケーリングすることができる。具体的には、画像ダウンスケーリング中、可逆ニューラルネットワークは、HR画像を、LR画像と、既定の分布に従う高周波数ノイズとに変換することができる。画像アップスケーリング中、可逆ニューラルネットワークの逆ネットワークは、LR画像と、既定の分布に従うランダムノイズとをHR画像に変換することができる。可逆ニューラルネットワークは、画像ダウンスケーリング及びアップスケーリング手順をモデル化するために使用されるため、この解決策は、オリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングし、低解像度画像から高品質の高解像度画像を再構築することができるように、画像アップスケーリング手順の不良設定問題を大幅に軽減することができる。
[0023] 以下では、図面を参照して、解決策の様々な実装形態の例をさらに詳細に説明する。
[0024] 図1Aは、本明細書で説明される主題の複数の実装形態を実施することができるコンピューティングデバイス100のブロック図を示す。図1に示されるコンピューティングデバイス100は、単なる例示的なものであり、本明細書で説明される主題によって説明される実装形態の機能及び範囲における限定をもたらすものではないことを理解すべきである。図1によれば、コンピューティングデバイス100は、汎用コンピューティングデバイスの形態のコンピューティングデバイス100を含む。コンピューティングデバイス100のコンポーネントは、これらに限定されないが、1つ又は複数のプロセッサ又は処理ユニット110と、メモリ120と、記憶装置130と、1つ又は複数の通信ユニット140と、1つ又は複数の入力デバイス150と、1つ又は複数の出力デバイス160とを含み得る。
[0025] いくつかの実装形態では、コンピューティングデバイス100は、演算能力を有する様々なユーザ端末又はサービス端末として実装することができる。サービス端末は、様々なサービスプロバイダによって提供されるサーバ、大規模コンピューティングデバイス及び同様のものであり得る。ユーザ端末は、例えば、任意のタイプの携帯端末、固定端末又はポータブル端末であり、携帯電話、モバイルサイト、モバイルユニット、モバイルデバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤ、デジタルカメラ/ビデオ、測位デバイス、テレビ受像機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス又はそれらの他の任意の組合せ(これらのデバイスのアクセサリ及び周辺機器若しくはそれらの他の任意の組合せからなる)を含む。コンピューティングデバイス100が任意のタイプのユーザ特有のインタフェース(「ウェアラブル」回路及び同様のものなど)をサポートできることも予測され得る。
[0026] 処理ユニット110は、物理又は仮想プロセッサであり得、メモリ120に格納されたプログラムに基づいて様々な処理を実行することができる。マルチプロセッサシステムでは、コンピューティングデバイス100の並列処理能力を高めるために、複数の処理ユニットがコンピュータ実行可能命令を並行して実行する。処理ユニット110は、中央処理装置(CPU)、マイクロプロセッサ、コントローラ及びマイクロコントローラとしても知られ得る。
[0027] コンピューティングデバイス100は、通常、複数のコンピュータ記憶媒体を含む。そのような媒体は、コンピューティングデバイス100によってアクセス可能ないかなる達成可能媒体でもあり得、これらに限定されないが、揮発性及び不揮発性媒体、取り外し可能及び取り外し不能媒体を含む。メモリ120は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(読み取り専用メモリ(ROM)、電気的消去型プログラム可能読み取り専用メモリ(EEPROM)、フラッシュなど)又はそれらの任意の組合せであり得る。
[0028] 記憶装置130は、取り外し可能又は取り外し不能媒体であり得、情報及び/又はデータを格納するために使用することができ、及びコンピューティングデバイス100内でアクセスすることができる機械可読媒体(例えば、メモリ、フラッシュドライブ、磁気ディスク)又は他の任意の媒体を含み得る。コンピューティングデバイス100は、追加の取り外し可能/取り外し不能、揮発性/不揮発性記憶媒体をさらに含み得る。図1には示されていないが、取り外し可能な不揮発性ディスクからの読み取り又は取り外し可能な不揮発性ディスクへの書き込みを行うためのディスクドライブ及び取り外し可能な不揮発性光ディスクからの読み取り又は取り外し可能な不揮発性光ディスクへの書き込みを行うための光ディスクドライブを提供することができる。そのような事例では、各ドライブは、1つ又は複数のデータ媒体インタフェースを介してバス(図示せず)に接続することができる。
[0029] 通信ユニット140は、通信媒体を通して別のコンピューティングデバイスとの通信を実施する。加えて、コンピューティングデバイス100のコンポーネントの機能は、単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって実現することができ、これらのコンピューティングマシンは、通信接続を通して通信することができる。従って、コンピューティングデバイス100は、1つ若しくは複数の他のサーバ、パーソナルコンピュータ(PC)又はさらなる汎用ネットワークノードとの論理接続を使用して、ネットワーク接続環境で動作することができる。
[0030] 入力デバイス150は、マウス、キーボード、トラックボール、音声入力デバイス及び同様のものなど、1つ又は複数の様々な入力デバイスであり得る。出力デバイス160は、例えば、ディスプレイ、ラウドスピーカ及びプリンタなど、1つ又は複数の出力デバイスであり得る。コンピューティングデバイス100は、必要に応じて、通信ユニット140を通して1つ又は複数の外部のデバイス(図示せず)と通信することもでき、外部のデバイス(例えば、記憶装置、ディスプレイデバイスなど)は、ユーザがコンピューティングデバイス100と対話できるようにするための1つ若しくは複数のデバイスと通信するか、又はコンピューティングデバイス100が1つ若しくは複数の他のコンピューティングデバイスと通信できるようにするための任意のデバイス(ネットワークカード、モデム及び同様のものなど)と通信する。そのような通信は、入力/出力(I/O)インタフェース(図示せず)を介して実行することができる。
[0031] いくつかの実装形態では、個々のデバイス上で統合されることとは別に、コンピューティングデバイス100のそれぞれのコンポーネントのいくつか又はすべては、クラウドコンピューティングアーキテクチャの形態で設定することもできる。クラウドコンピューティングアーキテクチャでは、これらのコンポーネントは、リモート設置することができ、本明細書で説明される主題によって説明される機能を実装するために協働することができる。いくつかの実装形態では、クラウドコンピューティングは、演算、ソフトウェア、データアクセス及びストレージサービスを提供するが、そのようなサービスを提供するシステム又はハードウェアの物理的位置又は構成が端末ユーザに通知されることはない。様々な実装形態では、クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク(インターネットなど)を介してサービスを提供する。例えば、クラウドコンピューティングプロバイダは、広域ネットワークを介して、ウェブブラウザ又は他の任意のコンピューティングコンポーネントを通してアクセスすることができるアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔位置にあるサーバに格納することができる。クラウドコンピューティング環境のコンピューティング資源は、リモートデータセンタでマージ又は分散することができる。クラウドコンピューティングインフラストラクチャは、ユーザに対して単一のアクセスポイントとして示されている場合でも、共有データセンタを介してサービスを提供することができる。従って、本明細書で説明されるコンポーネント及び機能は、遠隔位置にあるサービスプロバイダからクラウドコンピューティングアーキテクチャを使用して提供することができる。代わりに、コンポーネント及び機能は、従来のサーバから提供するか、又はクライアントデバイスに直接若しくは他の方法で搭載することができる。
[0032] コンピューティングデバイス100は、本明細書で説明される主題の様々な実装形態に従って画像再スケーリングを実施するために使用することができる。メモリ120は、1つ又は複数のプログラム命令を有する画像再スケーリングモジュール122を含み得る。モジュールは、処理ユニット110により、本明細書で説明される様々な実装形態の機能を実装するためにアクセス及び動作することができる。
[0033] 画像再スケーリング中、コンピューティングデバイス100は、入力デバイス150を介して入力画像170を受信することができる。いくつかの実装形態では、入力画像170は、例えば、第1の解像度の画像であり得る。入力画像170は、メモリ120内の画像再スケーリングモジュール122に入力することができる。画像再スケーリングモジュール122は、訓練された可逆ニューラルネットワークを使用して、入力画像170に基づいて、第2の解像度の出力画像180と、既定の分布に従う高周波数情報とを生成することができ、第1の解像度は、第2の解像度を超え、及び入力画像170と出力画像180とは、同じセマンティクスを有する。他の実装形態では、入力画像170は、例えば、第2の解像度の画像であり得る。入力画像170は、メモリ120内の画像再スケーリングモジュール122に入力することができる。画像再スケーリングモジュール122は、可逆ニューラルネットワークの逆ネットワークを使用して、入力画像170と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の出力画像180を生成することができ、第1の解像度は、第2の解像度を超え、及び入力画像170と出力画像180とは、同じセマンティクスを有する。出力画像180は、出力デバイス160を介して出力することができる。
[0034] いくつかの実装形態では、画像再スケーリングモジュール122は、訓練された可逆ニューラルネットワークを使用して、画像ダウンスケーリング(すなわちHR画像をLR画像に変換すること)を実行することができ、画像再スケーリングモジュール122は、可逆ニューラルネットワークの逆ネットワークを使用して、逆画像アップスケーリング(すなわちLR画像をHR画像に再構築すること)を実行することができる。図1Bは、本明細書で説明される主題の実装形態による、画像再スケーリングモジュール122の動作原理の概略図を示す。示されるように、画像再スケーリングモジュール122は、可逆ニューラルネットワーク191(「fθ」として示される)を使用して、高解像度の入力画像170に基づいて、低解像度の出力画像180と、既定の分布に従う高周波数情報185とを生成することができる。例えば、高周波数情報185は、入力画像170のセマンティクスとは無関係の高周波数ノイズとして具体化することができる。画像再スケーリングモジュール122は、可逆ニューラルネットワーク191の逆ネットワーク192(
として示される)を使用して、低解像度の入力画像170と、既定の分布に従う高周波数情報175とに基づいて、高解像度の出力画像180を生成することができる。本明細書で使用される「既定の分布」は、これらに限定されないが、ガウス分布、一様分布及び同様のものを含み得、可逆ニューラルネットワークの訓練手順中に事前に定義することができる。
として示される)を使用して、低解像度の入力画像170と、既定の分布に従う高周波数情報175とに基づいて、高解像度の出力画像180を生成することができる。本明細書で使用される「既定の分布」は、これらに限定されないが、ガウス分布、一様分布及び同様のものを含み得、可逆ニューラルネットワークの訓練手順中に事前に定義することができる。
[0035] 可逆ニューラルネットワーク(INN)は、生成的モデルにおける一般的なネットワーク構造であり、マッピング関係m=fθ(n)及びその逆のマッピング関係
を指定することができる。INNは、通常、少なくとも1つの可逆ブロックを含み得る。l番目のブロックの場合、入力hlは、チャネル軸に沿って、
と、
とに分割され、以下のアフィン変換:
が行われ、対応する出力は、
である。出力を考慮すると、その逆変換は、以下:
の通り演算することができ、式中、φ、ρ及びηは、任意の関数であり得、
は、畳み込み演算を表す。
を指定することができる。INNは、通常、少なくとも1つの可逆ブロックを含み得る。l番目のブロックの場合、入力hlは、チャネル軸に沿って、
と、
とに分割され、以下のアフィン変換:
が行われ、対応する出力は、
である。出力を考慮すると、その逆変換は、以下:
の通り演算することができ、式中、φ、ρ及びηは、任意の関数であり得、
は、畳み込み演算を表す。
[0036] INNが画像再スケーリングタスクに適用されると、INNは、高解像度の入力画像xに基づいて、ダウンスケーリングされた低解像度画像yと、既定の分布に従う高周波数情報zとを出力することができ、高周波数情報zは、例えば、画像のセマンティクスとは無関係の高周波数ノイズとして具体化することができる。この方法では、INNの逆ネットワークは、低解像度画像y及びノイズzに基づいて、高品質の高解像度画像xを再構築することができる。換言すれば、画像再スケーリング手順を逆行可能にするために、通常、画像ダウンスケーリング手順で失われる高周波数情報zを維持する必要がある。そのうえ、画像再スケーリング手順全体は、マッピング関係(y,z)=fθ(x)、及び
によって表すことができる。
によって表すことができる。
[0037] しかし、画像アップスケーリング中、通常、いかなるLR画像もアップスケーリングする必要がある。従って、入力LR画像に対応する高周波数情報zは、存在しない場合が多い。本発明者は、画像ダウンスケーリング手順で失われる情報がナイキストシャノンサンプリング理論による高周波数詳細と均等であることを認識した。同じLR画像に対応するHR画像の群が異なる高周波数詳細を含むと想定すると、これらの詳細は、通常、ある程度の変動性及びランダム性を示し得る。従って、zは、確率変数として表すことができ、その分布は、INNがzを表す方法(すなわちfθがzを出力する方法)によって決定される。具体的には、INNは、既定の分布p(z)を満たすように訓練することができる。この方法では、画像ダウンスケーリング手順中に可逆ニューラルネットワークによって出力される高周波数ノイズzを保存する必要はない。加えて、画像アップスケーリング手順中、高解像度画像は、低解像度画像と、既定の分布下のいずれか1つのサンプルとに基づいて再構築することができる。
[0038] 図2Aは、本明細書で説明される主題の実装形態による、可逆ニューラルネットワーク191の概略ブロック図を示す。図2Aに示される可逆ニューラルネットワーク191の構造は、単なる例示的なものであり、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する可逆ニューラルネットワークにも適している。
[0039] 図2Aに示されるように、可逆ニューラルネットワーク19は、1つ又は複数のダウンサンプリングモジュール210を直列に接続することによって形成することができる。簡略化のため、図2Aでは、ダウンサンプリングモジュール210は、1つのみ示されている。可逆ニューラルネットワーク191によってサポートされる画像ダウンスケーリング比は、各ダウンサンプリングモジュール210によってサポートされる画像ダウンスケーリング比及び可逆ニューラルネットワーク191に含まれるダウンサンプリングモジュール210の数によって決定することができる。例えば、各ダウンサンプリングモジュール210が画像の1/2倍縮小をサポートし、可逆ニューラルネットワーク191が2つのダウンサンプリングモジュール210を含むと想定すると、可逆ニューラルネットワーク191は、画像の1/4倍縮小をサポートする。
[0040] 図2Aに示されるように、例えば、ダウンサンプリングモジュール210は、変換モジュール230と、1つ又は複数のINNユニット220-1、220-2...220-M(集合的に「INNユニット220」として又は個別に「INNユニット220」として知られており、M≧1である)とを含み得る。
[0041] 変換モジュール230は、高解像度の入力画像170を、入力画像170のセマンティクスを表す低周波数成分242と、セマンティクスに関連する高周波数成分241とに分解することができる。いくつかの実装形態では、変換モジュール230は、ウェーブレット変換モジュール(例えば、ハール変換モジュール)として実装することができる。例えば、変換モジュール230がハール変換モジュールとして実装されると、ダウンサンプリングモジュール210は、画像の1/2倍縮小をサポートすることができる。具体的には、ハール変換モジュールは、長さH、幅W及びチャネル数Cを有する入力画像又は特徴マップの群を出力テンソル
に変換することができる。出力テンソルの第1のCスライスは、双線形補間ダウンサンプリングと均等であるほぼローパス表現であり得る。Cスライスの残りの3つの群は、垂直、水平及び対角方向のそれぞれにおける残差成分を含む。これらの残差成分は、オリジナルのHR画像の高周波数情報に基づく。代わりに、変換モジュール230は、1×1可逆畳み込みブロックとして、又は入力画像170を低周波数成分と高周波数成分とに分解することができる現在知られているか若しくは将来開発される任意の変換モジュールとして実装することもできる。変換モジュール230の実装形態は、ダウンサンプリングモジュール210によってサポートされる画像ダウンスケーリング比が変化する場合に異なり得ることを理解されたい。この方法では、低周波数情報242及び高周波数情報241は、後続のINNユニット220-1に供給することができる。
に変換することができる。出力テンソルの第1のCスライスは、双線形補間ダウンサンプリングと均等であるほぼローパス表現であり得る。Cスライスの残りの3つの群は、垂直、水平及び対角方向のそれぞれにおける残差成分を含む。これらの残差成分は、オリジナルのHR画像の高周波数情報に基づく。代わりに、変換モジュール230は、1×1可逆畳み込みブロックとして、又は入力画像170を低周波数成分と高周波数成分とに分解することができる現在知られているか若しくは将来開発される任意の変換モジュールとして実装することもできる。変換モジュール230の実装形態は、ダウンサンプリングモジュール210によってサポートされる画像ダウンスケーリング比が変化する場合に異なり得ることを理解されたい。この方法では、低周波数情報242及び高周波数情報241は、後続のINNユニット220-1に供給することができる。
[0042] 上記で説明されるように、ニューラルネットワーク191のネットワーク構造が逆行可能であることを保証するため、各INNユニット220の構造は、逆行可能であるべきである。INNユニット220は、入力低周波数成分及び高周波数成分から対応する特徴を抽出し、画像セマンティクスに関連する高周波数成分を高周波数情報に変換するために使用され、高周波数情報は、既定の分布に従い、画像セマンティクスとは無関係である。
[0043] 図2Bは、本明細書で説明される主題の実装形態による、INNユニット220の例の概略図を示す。ここでは、INNユニット220に入力される低周波数成分及び高周波数成分は、
及び
としてそれぞれ表されると想定される。図2Bに示されるように、上記の式(1)に示されるアフィン変換は、低周波数成分
に適用することができ、上記の式(2)に示されるアフィン変換は、高周波数成分
に適用することができる。図2Bに示される変換関数φ、ρ及びηは、任意の関数であり得る。図2BのINNユニット220は、単なる例を目的として示されており、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する他のINNユニットにも適用することができる。INNユニットの例は、これらに限定されないが、可逆畳み込みブロック、可逆残差ネットワークユニット、可逆生成的ネットワークユニット、深層可逆ネットワークユニットなどを含み得る。
及び
としてそれぞれ表されると想定される。図2Bに示されるように、上記の式(1)に示されるアフィン変換は、低周波数成分
に適用することができ、上記の式(2)に示されるアフィン変換は、高周波数成分
に適用することができる。図2Bに示される変換関数φ、ρ及びηは、任意の関数であり得る。図2BのINNユニット220は、単なる例を目的として示されており、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する他のINNユニットにも適用することができる。INNユニットの例は、これらに限定されないが、可逆畳み込みブロック、可逆残差ネットワークユニット、可逆生成的ネットワークユニット、深層可逆ネットワークユニットなどを含み得る。
[0044] 図3Aは、図2Aの可逆ニューラルネットワーク191の逆ネットワーク192の概略ブロック図を示す。図3Aに示されるように、ネットワーク192は、1つ又は複数のアップサンプリングモジュール310を直列に接続することによって形成することができる。簡略化のため、図3Aでは、アップサンプリングモジュール310は、1つのみ示されている。逆ネットワーク192によってサポートされる画像アップスケーリング比は、各アップサンプリングモジュール310によってサポートされる画像アップスケーリング比及び逆ネットワーク192に含まれるアップサンプリングモジュール310の数によって決定することができる。例えば、各アップサンプリングモジュール310が画像の2倍拡大をサポートし、逆ネットワーク192が2つのアップサンプリングモジュール310を含むと想定すると、逆ネットワーク192は、画像の4倍拡大をサポートする。
[0045] 図3Aに示されるように、例えば、アップサンプリングモジュール310は、変換モジュール330と、1つ又は複数のINNユニット320-1、320-2...320-M(集合的に「INNユニット320」として又は個別に「INNユニット320」として知られており、M≧1である)とを含み得る。例えば、INNユニット320の構造及び図2BのINNユニット220の構造は、図3Bに示されるように、互いに逆行可能である。INNユニット320-Mの場合、INNユニット320-Mに入力される低解像度の入力画像170は、
として表され、既定の分布に従う高周波数情報175は、
として示されると想定される。図3Bに示されるように、上記の式(3)に示されるアフィン変換は、
に適用することができ、上記の式(3)に示されるアフィン変換は、
に適用することができる。図3Bの変換関数φ、ρ及びηは、任意の関数であり得る。図3BのINNユニット320は、単なる例を目的として示されており、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する他のINNユニットにも適用することができる。INNユニットの例は、これらに限定されないが、可逆畳み込みブロック、可逆残差ネットワークユニット、可逆生成的ネットワークユニット、深層可逆ネットワークユニットなどを含み得る。
として表され、既定の分布に従う高周波数情報175は、
として示されると想定される。図3Bに示されるように、上記の式(3)に示されるアフィン変換は、
に適用することができ、上記の式(3)に示されるアフィン変換は、
に適用することができる。図3Bの変換関数φ、ρ及びηは、任意の関数であり得る。図3BのINNユニット320は、単なる例を目的として示されており、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する他のINNユニットにも適用することができる。INNユニットの例は、これらに限定されないが、可逆畳み込みブロック、可逆残差ネットワークユニット、可逆生成的ネットワークユニット、深層可逆ネットワークユニットなどを含み得る。
[0046] 図3Aに示されるように、1つ又は複数のINNユニット320は、低解像度の入力画像170及び既定の分布に従う高周波数情報175を、組み合わされる高周波数成分341及び低周波数成分342に変換することができる。図2Aに示される変換モジュール230とは反対に、変換モジュール330は、高周波数成分341と低周波数成分342とを組み合わせて、高解像度の出力画像180にすることができる。いくつかの実装形態では、変換モジュール230がウェーブレット変換モジュールとして実装されると、変換モジュール330は、逆ウェーブレット変換モジュールとして実装することができる。例えば、変換モジュール230がハール変換モジュールとして実装されと、変換モジュール330は、逆ハール変換モジュールとして実装することができる。代わりに、変換モジュール330は、1×1可逆畳み込みブロックにより、又は高周波数成分と低周波数成分とを組み合わせて画像にすることができる現在知られているか若しくは将来開発される任意の変換モジュールとして実装することもできる。
[0047] 可逆ニューラルネットワークの訓練手順について、以下でさらに詳細に説明する。本文中では、訓練されるニューラルネットワーク及びその逆ネットワークは、簡略化のため、集合的に「モデル」として知られている。上記の説明によれば、モデルを訓練する目的は、高解像度画像xと、低解像度画像yと、既定の分布p(z)との間のマッピング関係fθを決定することであることが分かる。
[0048] 訓練目的を達成するため、いくつかの実装形態では、高解像度画像の群
(「訓練画像の第1の群」としても知られており、Nは、画像の数を表す)及び対応するセマンティクスを有する低解像度画像の群(「訓練画像の第2の群」としても知られている)は、モデルを訓練するための訓練データとして取得することができる。いくつかの実装形態では、低解像度の訓練画像の第2の群は、高解像度の訓練画像の第1の群に基づいて生成することができる。例えば、対応するセマンティクスを有する低解像度訓練画像は、補間方法又は現在知られているか若しくは将来開発される他の任意の適切な方法を使用して、高解像度訓練画像から生成される。本明細書で説明される主題の範囲は、この点において限定されない。いくつかの実装形態では、訓練画像の第1の群及び訓練画像の第2の群に基づいて、モデルを訓練するための目的関数を生成することができる。次いで、目的関数を最小化することにより、モデルのパラメータを決定することができる。
(「訓練画像の第1の群」としても知られており、Nは、画像の数を表す)及び対応するセマンティクスを有する低解像度画像の群(「訓練画像の第2の群」としても知られている)は、モデルを訓練するための訓練データとして取得することができる。いくつかの実装形態では、低解像度の訓練画像の第2の群は、高解像度の訓練画像の第1の群に基づいて生成することができる。例えば、対応するセマンティクスを有する低解像度訓練画像は、補間方法又は現在知られているか若しくは将来開発される他の任意の適切な方法を使用して、高解像度訓練画像から生成される。本明細書で説明される主題の範囲は、この点において限定されない。いくつかの実装形態では、訓練画像の第1の群及び訓練画像の第2の群に基づいて、モデルを訓練するための目的関数を生成することができる。次いで、目的関数を最小化することにより、モデルのパラメータを決定することができる。
[0049] いくつかの実装形態では、モデルを訓練するための目的関数は、低解像度訓練画像と、高解像度訓練画像に基づいてモデルによって生成された低解像度画像との間の差に基づいて決定することができる。例えば、訓練画像の第1の群の高解像度訓練画像x(n)に対して、高解像度訓練画像x(n)に基づいてモデルによって生成された低解像度画像は、
として示され、訓練画像の第2の群の高解像度訓練画像x(n)に対応する低解像度訓練画像は、
として表されると想定すると、可逆ニューラルネットワークを訓練するための目的関数(「第1の目的関数」又は「LR誘導損失関数」としても知られている)は、低解像度訓練画像
と、モデルによって生成された低解像度画像
との間の差に従って生成される。例えば、第1の目的関数は、以下の通り表すことができる。
式中、
は、L1損失関数又はL2損失関数など、差分メトリック関数を表す。
として示され、訓練画像の第2の群の高解像度訓練画像x(n)に対応する低解像度訓練画像は、
として表されると想定すると、可逆ニューラルネットワークを訓練するための目的関数(「第1の目的関数」又は「LR誘導損失関数」としても知られている)は、低解像度訓練画像
と、モデルによって生成された低解像度画像
との間の差に従って生成される。例えば、第1の目的関数は、以下の通り表すことができる。
式中、
は、L1損失関数又はL2損失関数など、差分メトリック関数を表す。
[0050] 加えて又は代わりに、いくつかの実装形態では、モデルを訓練するための目的関数は、高解像度訓練画像と、低解像度画像に基づいてモデルによって再構築された高解像度画像との間の差に基づいて決定することができる。例えば、訓練画像の第1の群の高解像度訓練画像x(n)に対して、高解像度訓練画像x(n)に基づいてモデルによって生成された低解像度画像は、
として示され、低解像度画像
に基づいてモデルによって再構築された高解像度画像は、
として表される(zは、既定の分布p(z)によるものである(すなわちz~p(z)))と想定すると、可逆ニューラルネットワークを訓練するための目的関数(「第2の目的関数」又は「HR再構築損失関数」としても知られている)は、高解像度訓練画像x(n)と、高解像度再構築画像
との間の差に従って生成することができる。例えば、第2の目的関数は、以下の通り表すことができる。
式中、
は、オリジナルの高解像度画像と再構築画像との間の差を測定し、
は、zが既定の分布p(z)による場合の
の数学的期待値を示す。
として示され、低解像度画像
に基づいてモデルによって再構築された高解像度画像は、
として表される(zは、既定の分布p(z)によるものである(すなわちz~p(z)))と想定すると、可逆ニューラルネットワークを訓練するための目的関数(「第2の目的関数」又は「HR再構築損失関数」としても知られている)は、高解像度訓練画像x(n)と、高解像度再構築画像
との間の差に従って生成することができる。例えば、第2の目的関数は、以下の通り表すことができる。
式中、
は、オリジナルの高解像度画像と再構築画像との間の差を測定し、
は、zが既定の分布p(z)による場合の
の数学的期待値を示す。
[0051] 加えて又は代わりに、モデル訓練の別の目的は、高解像度訓練画像のデータ分布を捕捉するようにモデルを促すことである。ここでは、訓練データの第1の群
のデータ分布は、q(x)として表されると想定される。例えば、訓練画像の第1の群の高解像度訓練画像x(n)に対して、モデルによって再構築された高解像度画像は、
として示され、式中、
は、高解像度訓練画像x(n)からモデルによってダウンスケーリングされた低解像度画像を示し、z(n)~p(z)は、既定の分布p(z)による確率変数を表す。ダウンスケーリングされた低解像度画像の群
は、訓練データの第1の群
をトラバースすることによって得ることができる。
のデータ分布は、
として示すことができ、それは、変換された確率変数
のデータ分布を表し、そのオリジナルの確率変数xは、データ分布q(x)によるものである(すなわちx~q(x))。同様に、モデルによって再構築された高解像度画像は、
として示すことができ、そのデータ分布は、
として表すことができ、なぜなら、
であるためである。いくつかの実装形態では、可逆ニューラルネットワークを訓練するための目的関数(「第3の目的関数」又は「分布整合損失関数」としても知られている)は、オリジナルのデータ分布q(x)と、モデル再構築データ分布
との間の差に従って生成することができる。例えば、第3の目的関数は、
として表すことができ、式中、
は、2つのデータ分布の差を測定する。
のデータ分布は、q(x)として表されると想定される。例えば、訓練画像の第1の群の高解像度訓練画像x(n)に対して、モデルによって再構築された高解像度画像は、
として示され、式中、
は、高解像度訓練画像x(n)からモデルによってダウンスケーリングされた低解像度画像を示し、z(n)~p(z)は、既定の分布p(z)による確率変数を表す。ダウンスケーリングされた低解像度画像の群
は、訓練データの第1の群
をトラバースすることによって得ることができる。
のデータ分布は、
として示すことができ、それは、変換された確率変数
のデータ分布を表し、そのオリジナルの確率変数xは、データ分布q(x)によるものである(すなわちx~q(x))。同様に、モデルによって再構築された高解像度画像は、
として示すことができ、そのデータ分布は、
として表すことができ、なぜなら、
であるためである。いくつかの実装形態では、可逆ニューラルネットワークを訓練するための目的関数(「第3の目的関数」又は「分布整合損失関数」としても知られている)は、オリジナルのデータ分布q(x)と、モデル再構築データ分布
との間の差に従って生成することができる。例えば、第3の目的関数は、
として表すことができ、式中、
は、2つのデータ分布の差を測定する。
[0052] いくつかの事例では、2つの分布は、両方とも高次元であり、未知の密度関数を有するため、式(6)に示される第3の目的関数を直接最小化することは、困難である場合がある。いくつかの実装形態では、JSダイバージェンスを使用して、2つのデータ分布の差を測定することができる。すなわち、第3の目的関数は、以下の通り表すこともできる。
[0053] いくつかの実装形態では、モデルを訓練するための全目的関数は、第1の目的関数と、第2の目的関数と、第3の目的関数とを組み合わせることによって生成することができる。例えば、全目的関数は、以下の通り表すことができる。
Ltotal:λ1Lrecon+λ2Lguide+λ3Ldistr (8)
式中、λ1、λ2及びλ3は、異なる損失項の均衡を保つための係数である。
Ltotal:λ1Lrecon+λ2Lguide+λ3Ldistr (8)
式中、λ1、λ2及びλ3は、異なる損失項の均衡を保つための係数である。
[0054] いくつかの実装形態では、モデル訓練の安定性を向上させるため、式(8)に示される全目的関数でモデルを訓練する前に事前訓練段階を実行することができる。事前訓練段階では、弱いが、より安定した分布整合損失関数を採用することができる。例えば、分布整合損失関数は、モデル訓練の安定性を強化するために、クロスエントロピー損失関数に基づいて構築することができる。例えば、クロスエントロピー(CE)損失関数に基づいて構築される分布整合損失関数(「第4の目的関数」としても知られている)は、以下の通り表すことができる。
式中、CEは、クロスエントロピー損失関数を表す。それに応じて、事前訓練段階で使用される全目的関数は、以下の通り表すことができる。
式中、λ1、λ2及びλ3は、異なる損失項の均衡を保つための係数である。
式中、CEは、クロスエントロピー損失関数を表す。それに応じて、事前訓練段階で使用される全目的関数は、以下の通り表すことができる。
式中、λ1、λ2及びλ3は、異なる損失項の均衡を保つための係数である。
[0055] いくつかの実装形態では、事前訓練段階後、再び式(8)に示される全目的関数に基づいてモデルに対して2回目の訓練を実行することができる。代わりに、いくつかの実装形態では、事前訓練段階後、以下の通り、式(11)に示される全目的関数に基づいてモデルに対して2回目の訓練を実行することができる。
LIRN+:=λ1Lrecon+λ2Lguide+λ3Ldistr+λ4Lpercp (11)
式中、意味的特徴におけるオリジナルの高解像度画像と、再構築された高解像度画像との間の差を測定するための知覚損失関数Lpercpが提供される。例えば、オリジナルの高解像度画像及び再構築された高解像度画像の意味的特徴は、当技術分野で公知のベンチマークモデルによって抽出することができ、ここでは詳述しない。λ1、λ2、λ3及びλ4は、異なる損失項の均衡を保つための係数である。
LIRN+:=λ1Lrecon+λ2Lguide+λ3Ldistr+λ4Lpercp (11)
式中、意味的特徴におけるオリジナルの高解像度画像と、再構築された高解像度画像との間の差を測定するための知覚損失関数Lpercpが提供される。例えば、オリジナルの高解像度画像及び再構築された高解像度画像の意味的特徴は、当技術分野で公知のベンチマークモデルによって抽出することができ、ここでは詳述しない。λ1、λ2、λ3及びλ4は、異なる損失項の均衡を保つための係数である。
[0056] 図4は、本明細書で説明される主題のいくつかの実装形態による、画像再スケーリングのための方法400のフローチャートを示す。方法400は、コンピューティングデバイス100により、例えばコンピューティングデバイス100のメモリ120内の画像再スケーリングモジュール122において実施することができる。ブロック410では、コンピューティングデバイス100は、第1の解像度の入力画像を得る。ブロック420では、コンピューティングデバイス100は、訓練された可逆ニューラルネットワークを使用して、入力画像に基づいて、第2の解像度の出力画像と、既定の分布に従う高周波数情報とを生成し、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。
[0057] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び出力画像と高周波数情報とを生成することは、変換モジュールを使用して、入力画像を、入力画像のセマンティクスを表す低周波数成分と、セマンティクスに関連する高周波数成分とに分解することと、少なくとも1つの可逆ネットワークユニットを使用して、低周波数成分及び高周波数成分に基づいて、出力画像と、セマンティクスとは無関係の高周波数情報とを生成することとを含む。
[0058] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか1つを含む。
[0059] いくつかの実装形態では、方法400は、可逆ニューラルネットワークを訓練することをさらに含み、可逆ニューラルネットワークは、第1の解像度の第1の画像に基づいて、第2の解像度の第2の画像と、既定の分布に従う第1の高周波数情報とを生成するように訓練され、及び可逆ニューラルネットワークの逆ネットワークは、第2の解像度の第3の画像と、既定の分布に従う第2の高周波数情報とに基づいて、第1の解像度の第4の画像を生成するように訓練される。
[0060] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、第1の解像度の訓練画像の第1の群を得ることと、訓練画像の第1の群のセマンティクスにそれぞれ対応する、第2の解像度の訓練画像の第2の群を得ることと、訓練画像の第1の群及び訓練画像の第2の群に基づいて、可逆ニューラルネットワークを訓練することとを含む。
[0061] いくつかの実装形態では、訓練画像の第2の群を得ることは、訓練画像の第1の群に基づいて、及び補間方法を使用して、訓練画像の第2の群を生成することを含む。
[0062] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、訓練画像の第1の群及び訓練画像の第2の群に基づいて、複数の目的関数を決定することと、複数の目的関数の少なくとも一部を組み合わせることにより、可逆ニューラルネットワークを訓練するための全目的関数を決定することと、全目的関数を最小化することにより、可逆ニューラルネットワークのネットワークパラメータを決定することとを含む。
[0063] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群に基づいて、及び可逆ニューラルネットワークを使用して、第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、訓練画像の第2の群と、訓練画像の第3の群との間の差に基づいて、第1の目的関数を決定することとを含む。
[0064] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群に基づいて、及び可逆ニューラルネットワークを使用して、第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、逆ネットワークを使用して、訓練画像の第3の群と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の訓練画像の第4の群を生成することと、訓練画像の第1の群と、訓練画像の第4の群との間の差に基づいて、第2の目的関数を決定することとを含む。
[0065] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群の第1のデータ分布を決定することと、訓練画像の第4の群の第2のデータ分布を決定することと、第1のデータ分布と第2のデータ分布との間の差に基づいて、第3の目的関数を決定することとを含む。
[0066] いくつかの実装形態では、複数の目的関数を決定することは、確率変数の群の第3のデータ分布を決定することと、第3のデータ分布と既定の分布との間の差に基づいて、第4の目的関数を決定することとを含む。
[0067] 図5は、本明細書で説明される主題のいくつかの実装形態による、画像再スケーリングのための方法500のフローチャートを示す。方法500は、コンピューティングデバイス100により、例えばコンピューティングデバイス100のメモリ120内の画像再スケーリングモジュール122において実施することができる。ブロック510では、コンピューティングデバイス100は、第2の解像度の入力画像を得る。ブロック520では、コンピューティングデバイス100は、訓練された可逆ニューラルネットワークを使用して、入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の出力画像を生成し、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。
[0068] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び出力画像を生成することは、少なくとも1つの可逆ネットワークユニットを使用して、入力画像及び高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、低周波数成分は、入力画像のセマンティクスを表し、及び高周波数成分は、セマンティクスに関連する、生成することと、変換モジュールを使用して、低周波数成分と高周波数成分とを組み合わせて出力画像にすることとを含む。
[0069] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか1つを含む。
[0070] 上記を踏まえて、本明細書で説明される主題の実装形態は、画像再スケーリングのための解決策を提案する。画像ダウンスケーリング中、可逆ニューラルネットワークは、HR画像を、LR画像と、既定の分布に従う高周波数ノイズとに変換することができる。画像アップスケーリング中、可逆ニューラルネットワークの逆ネットワークは、LR画像と、既定の分布に従うランダムノイズとをHR画像に変換することができる。可逆ニューラルネットワークは、画像ダウンスケーリング及びアップスケーリング手順をモデル化するために使用されるため、この解決策は、オリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングし、低解像度画像から高品質の高解像度画像を再構築し、それにより画像アップスケーリング手順の不良設定問題を大幅に軽減することができる。そのうえ、様々な実験データにより、従来の画像再スケーリングスキームと比べて、本明細書で説明される主題の実装形態は、より高いピーク信号対ノイズ比(PSNR)及び/又は構造類似性(SSIM)など、より優れた画像再構築性能指標を達成できることも示されている。
[0071] 本明細書で説明される主題の実装形態は、画像及び/又は映像処理分野に広く適用することができる。例えば、オンラインビデオストリーミングは、動画サイト、ライブストリーミングサイト、ビデオストリーミングモバイルアプリケーションなど、人々の生活で重要な役割を果たす。豊富な知覚的詳細を有する高解像度映像など、高品質のオンラインビデオストリーミングが望ましい。しかし、高解像度映像は、通常、送信のために多くのネットワーク帯域幅を必要とする。従って、ネットワーク帯域幅を節約するため、高解像度映像は、通常、ユーザクライアントに送信される前に処理及び圧縮される。これにより、ユーザクライアント側において低質の低解像度映像が提示されることになる。上記の問題は、本明細書で説明される主題の実装形態による画像再スケーリング解決策を適用することによって解決することができる。
[0072] 図6は、本明細書で説明される主題の実装形態を実装することができるシステム600の例のブロック図を示す。示されるように、システム600は、ビデオストリームサービスプロバイダ610、サーバ620及びクライアントデバイス630を含み得る。例えば、ビデオストリームサービスプロバイダ610は、クライアントデバイス630によって要求された映像データをサーバ620に提供することができ、サーバ620は、ネットワークを介して、ビデオストリームサービスプロバイダ610からの映像データをクライアントデバイス630に送信することができる。
[0073] 図6に示されるように、いくつかの実装形態では、ビデオストリームサービスプロバイダ610は、高解像度ビデオストリーム601をサーバ620に提供することができ、高解像度ビデオストリーム601は、「高解像度画像シーケンス601」としても知られている。サーバ620は、上記で説明されるような可逆ニューラルネットワーク191を使用して、高解像度画像シーケンス601を低解像度画像シーケンスに変換することができる。いくつかの実装形態では、サーバ620は、低解像度ビデオストリーム602として低解像度画像シーケンスをクライアントデバイス630に直接送信することができる。この事例では、クライアントデバイス630は、低解像度画像シーケンスを受信することができる。加えて又は代わりに、いくつかの実装形態では、サーバ620は、低解像度画像シーケンスに対して映像符号化を実行して、符号化された低解像度ビデオストリーム602を生成し、ネットワークを介して、符号化された低解像度ビデオストリーム602をクライアントデバイス630に送信することができる。この事例では、クライアントデバイス630は、受信した符号化された低解像度ビデオストリーム602を復号して、復号された低解像度画像シーケンスを導出することができる。次いで、クライアントデバイス630は、可逆ニューラルネットワーク191の逆ネットワーク192を使用して、導出した低解像度画像シーケンスを高解像度ビデオストリーム603に再構築することができる。この方法では、クライアントは、ネットワーク帯域幅を節約しながら、高品質のビデオストリームを得ることができる。
[0074] 画像及び/又は映像処理分野に加えて、本明細書で説明される主題の実装形態は、画像及び/又は映像格納分野にも適用することができる。例えば、高解像度画像及び/又は映像を記憶装置に格納する前に、上記で説明されるような可逆ニューラルネットワーク191を使用して、高解像度画像及び/又は映像を、低解像度画像及び/又は映像と、既定の分布に従う対応する高周波数情報とに変換することができる。次いで、導出された低解像度画像及び/又は映像を記憶装置に格納する一方、対応する高周波数情報を破棄することができる。記憶装置に格納された画像及び/又は映像にアクセスするため、最初に低解像度画像及び/又は映像を記憶装置から得ることができる。次いで、上記で説明されるような可逆ニューラルネットワーク191の逆ネットワーク192を使用して、得られた低解像度画像及び/又は映像と、既定の分布に従うランダムノイズとに基づいて、高解像度画像及び/又は映像を再構築することができる。この方法では、画像及び/又は映像の質を損なうことなく、画像及び/又は映像を格納するための格納スペースを節約することができる。
[0075] 以下では、本明細書で説明される主題の実装形態のいくつかの例をリストする。
[0076] 第1の態様では、本明細書で説明される主題は、コンピュータ実装方法を提供する。方法は、第1の解像度の入力画像を得ることと、入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第2の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することとを含み、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。
[0077] いくつかの実装形態では、方法は、高周波数情報を格納することなく、出力画像を格納することをさらに含む。
[0078] いくつかの実装形態では、方法は、出力画像を符号化することと、符号化された出力画像を提供することとをさらに含む。
[0079] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び出力画像と高周波数情報とを生成することは、変換モジュールを使用して、入力画像を、入力画像のセマンティクスを表す低周波数成分と、セマンティクスに関連する高周波数成分とに分解することと、少なくとも1つの可逆ネットワークユニットを使用して、低周波数成分及び高周波数成分に基づいて、出力画像と、セマンティクスとは無関係の高周波数情報とを生成することとを含む。
[0080] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか1つを含む。
[0081] いくつかの実装形態では、方法は、可逆ニューラルネットワークを訓練することをさらに含み、可逆ニューラルネットワークは、第1の解像度の第1の画像に基づいて、第2の解像度の第2の画像と、既定の分布に従う第1の高周波数情報とを生成するように訓練され、及び可逆ニューラルネットワークの逆ネットワークは、第2の解像度の第3の画像と、既定の分布に従う第2の高周波数情報とに基づいて、第1の解像度の第4の画像を生成するように訓練される。
[0082] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、第1の解像度の訓練画像の第1の群を得ることと、訓練画像の第1の群のセマンティクスにそれぞれ対応する、第2の解像度の訓練画像の第2の群を得ることと、訓練画像の第1の群及び訓練画像の第2の群に基づいて、可逆ニューラルネットワークを訓練することとを含む。
[0083] いくつかの実装形態では、訓練画像の第2の群を得ることは、訓練画像の第1の群に基づいて、及び補間方法を使用して、訓練画像の第2の群を生成することを含む。
[0084] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、訓練画像の第1の群及び訓練画像の第2の群に基づいて、複数の目的関数を決定することと、複数の目的関数の少なくとも一部を組み合わせることにより、可逆ニューラルネットワークを訓練するための全目的関数を決定することと、全目的関数を最小化することにより、可逆ニューラルネットワークのネットワークパラメータを決定することとを含む。
[0085] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群に基づいて、及び可逆ニューラルネットワークを使用して、第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、訓練画像の第2の群と、訓練画像の第3の群との間の差に基づいて、第1の目的関数を決定することとを含む。
[0086] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群に基づいて、及び可逆ニューラルネットワークを使用して、第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、逆ネットワークを使用して、訓練画像の第3の群と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の訓練画像の第4の群を生成することと、訓練画像の第1の群と、訓練画像の第4の群との間の差に基づいて、第2の目的関数を決定することとを含む。
[0087] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群の第1のデータ分布を決定することと、訓練画像の第4の群の第2のデータ分布を決定することと、第1のデータ分布と第2のデータ分布との間の差に基づいて、第3の目的関数を決定することとを含む。
[0088] いくつかの実装形態では、複数の目的関数を決定することは、確率変数の群の第3のデータ分布を決定することと、第3のデータ分布と既定の分布との間の差に基づいて、第4の目的関数を決定することとを含む。
[0089] 第2の態様では、本明細書で説明される主題は、コンピュータ実装方法を提供する。方法は、第2の解像度の入力画像を得ることと、訓練された可逆ニューラルネットワークを使用して、入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の出力画像を生成することとを含み、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。
[0090] いくつかの実装形態では、入力画像を得ることは、符号化された入力画像を得ることと、符号化された入力画像を復号することとを含む。
[0091] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び出力画像を生成することは、少なくとも1つの可逆ネットワークユニットを使用して、入力画像及び高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、低周波数成分は、入力画像のセマンティクスを表し、及び高周波数成分は、セマンティクスに関連する、生成することと、変換モジュールを使用して、低周波数成分と高周波数成分とを組み合わせて出力画像にすることとを含む。
[0092] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか1つを含む。
[0093] 第3の態様では、本明細書で説明される主題は、電子デバイスを提供する。電子デバイスは、処理ユニットと、処理ユニットに結合されたメモリであって、その上に格納された命令を含むメモリとを含み、命令は、処理ユニットによって実行されると、第1の解像度の入力画像を得ることと、入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第2の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することとを含む行為をデバイスに実行させ、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。
[0094] いくつかの実装形態では、行為は、高周波数情報を格納することなく、出力画像を格納することをさらに含む。
[0095] いくつかの実装形態では、行為は、出力画像を符号化することと、符号化された出力画像を提供することとをさらに含む。
[0096] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び出力画像と高周波数情報とを生成することは、変換モジュールを使用して、入力画像を、入力画像のセマンティクスを表す低周波数成分と、セマンティクスに関連する高周波数成分とに分解することと、少なくとも1つの可逆ネットワークユニットを使用して、低周波数成分及び高周波数成分に基づいて、出力画像と、セマンティクスとは無関係の高周波数情報とを生成することとを含む。
[0097] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか1つを含む。
[0098] いくつかの実装形態では、行為は、可逆ニューラルネットワークを訓練することをさらに含み、可逆ニューラルネットワークは、第1の解像度の第1の画像に基づいて、第2の解像度の第2の画像と、既定の分布に従う第1の高周波数情報とを生成するように訓練され、及び可逆ニューラルネットワークの逆ネットワークは、第2の解像度の第3の画像と、既定の分布に従う第2の高周波数情報とに基づいて、第1の解像度の第4の画像を生成するように訓練される。
[0099] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、第1の解像度の訓練画像の第1の群を得ることと、訓練画像の第1の群のセマンティクスにそれぞれ対応する、第2の解像度の訓練画像の第2の群を得ることと、訓練画像の第1の群及び訓練画像の第2の群に基づいて、可逆ニューラルネットワークを訓練することとを含む。
[00100] いくつかの実装形態では、訓練画像の第2の群を得ることは、訓練画像の第1の群に基づいて、及び補間方法を使用して、訓練画像の第2の群を生成することを含む。
[00101] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、訓練画像の第1の群及び訓練画像の第2の群に基づいて、複数の目的関数を決定することと、複数の目的関数の少なくとも一部を組み合わせることにより、可逆ニューラルネットワークを訓練するための全目的関数を決定することと、全目的関数を最小化することにより、可逆ニューラルネットワークのネットワークパラメータを決定することとを含む。
[00102] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群に基づいて、及び可逆ニューラルネットワークを使用して、第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、訓練画像の第2の群と、訓練画像の第3の群との間の差に基づいて、第1の目的関数を決定することとを含む。
[00103] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群に基づいて、及び可逆ニューラルネットワークを使用して、第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、逆ネットワークを使用して、訓練画像の第3の群と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の訓練画像の第4の群を生成することと、訓練画像の第1の群と、訓練画像の第4の群との間の差に基づいて、第2の目的関数を決定することとを含む。
[00104] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第1の群の第1のデータ分布を決定することと、訓練画像の第4の群の第2のデータ分布を決定することと、第1のデータ分布と第2のデータ分布との間の差に基づいて、第3の目的関数を決定することとを含む。
[00105] いくつかの実装形態では、複数の目的関数を決定することは、確率変数の群の第3のデータ分布を決定することと、第3のデータ分布と既定の分布との間の差に基づいて、第4の目的関数を決定することとを含む。
[00106] 第4の態様では、本明細書で説明される主題は、電子デバイスを提供する。電子デバイスは、処理ユニットと、処理ユニットに結合されたメモリであって、その上に格納された命令を含むメモリとを含み、命令は、処理ユニットによって実行されると、第2の解像度の入力画像を得ることと、訓練された可逆ニューラルネットワークを使用して、入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の出力画像を生成することとを含む行為をデバイスに実行させ、第1の解像度は、第2の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。
[00107] いくつかの実装形態では、入力画像を得ることは、符号化された入力画像を得ることと、符号化された入力画像を復号することとを含む。
[00108] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び出力画像を生成することは、少なくとも1つの可逆ネットワークユニットを使用して、入力画像及び高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、低周波数成分は、入力画像のセマンティクスを表し、及び高周波数成分は、セマンティクスに関連する、生成することと、変換モジュールを使用して、低周波数成分と高周波数成分とを組み合わせて出力画像にすることとを含む。
[00109] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか1つを含む。
[00110] 第5の態様では、本明細書で説明される主題は、非一時的なコンピュータ記憶媒体に具体的に格納されており、及び機械実行可能命令を含むコンピュータプログラム製品を提供し、機械実行可能命令は、デバイスによって実行されると、第1の態様又は第2の態様による方法をデバイスに実行させる。
[00111] さらなる態様では、本明細書で説明される主題は、機械実行可能命令が格納されたコンピュータ可読媒体を提供し、機械実行可能命令は、デバイスによって実行されると、第1の態様又は第2の態様による方法をデバイスに実行させる。
[00112] 本明細書で説明される機能性は、1つ又は複数のハードウェアロジックコンポーネントにより、少なくとも部分的に実行することができる。例えば、限定されることなく、使用することができる例示されるタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)及び同様のものを含む。
[00113] 本明細書で説明される主題の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せで記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それにより、プログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で指定される機能/動作を実施させる。プログラムコードは、マシン上で全体的に、マシン上で部分的に、スタンドアロンソフトウェアパッケージとして、マシン上で部分的に及びリモートマシン上で部分的に又はリモートマシン若しくはサーバ上で全体的に実行することができる。
[00114] 本明細書で説明される主題に関連して、機械可読媒体は、命令実行システム、装置若しくはデバイスによって又は命令実行システム、装置若しくはデバイスと関係して使用するためのプログラムを含むか又は格納することができる任意の有形の媒体であり得る。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、これらに限定されないが、電子、磁気、光学、電磁、赤外線若しくは半導体システム、装置若しくはデバイス又は前述の任意の適切な組合せを含み得る。機械可読記憶媒体のより具体的な例は、1つ若しくは複数のワイヤを有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去型プログラム可能読み取り専用メモリ(EPROM若しくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置又は前述の任意の適切な組合せを含むであろう。
[00115] さらに、動作は、特定の順番で描写されているが、示される特定の順番で若しくは順次に動作を実行する必要があるか、又は期待される結果を得るように、示されるすべての動作を実行する必要があることを理解すべきである。特定の状況では、マルチタスキング及び並列処理が有利であり得る。同様に、いくつかの特定の実装形態の詳細が上記の論考に含まれているが、これらは、本明細書で説明される主題の範囲を限定するものと解釈すべきではない。別々の実装形態に関連して説明される特定の特徴は、単一の実装形態において組み合わせて実装することもできる。逆に、単一の実装形態に関連して説明される様々な特徴は、複数の実装形態において別々に又は任意の適切な部分組合せで実装することもできる。
[00116] 本明細書で説明される主題は、構造上の特徴及び/又は方法の行為に特有の言語で説明されているが、添付の特許請求の範囲で指定されるような本明細書で説明される主題は、必ずしも上記で説明される特定の特徴又は行為に限定されないことを理解されたい。むしろ、上記で説明される特定の特徴及び行為は、特許請求の範囲を実装する形態の例として開示される。
Claims (15)
- コンピュータ実装方法であって、
第1の解像度の入力画像を得ることと、
前記入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第2の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することと
を含み、前記第1の解像度は、前記第2の解像度を超え、及び前記入力画像と前記出力画像とは、同じセマンティクスを有する、コンピュータ実装方法。 - 前記可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び前記出力画像と前記高周波数情報とを生成することは、
前記変換モジュールを使用して、前記入力画像を、前記入力画像のセマンティクスを表す低周波数成分と、前記セマンティクスに関連する高周波数成分とに分解することと、
前記少なくとも1つの可逆ネットワークユニットを使用して、前記低周波数成分及び前記高周波数成分に基づいて、前記出力画像と、前記セマンティクスとは無関係の前記高周波数情報とを生成することと
を含む、請求項1に記載の方法。 - 前記変換モジュールは、
ウェーブレット変換モジュール、及び
可逆畳み込みブロック
のいずれか1つを含む、請求項2に記載の方法。 - 前記可逆ニューラルネットワークを訓練することをさらに含み、
前記可逆ニューラルネットワークは、前記第1の解像度の第1の画像に基づいて、前記第2の解像度の第2の画像と、前記既定の分布に従う第1の高周波数情報とを生成するように訓練され、及び
前記可逆ニューラルネットワークの逆ネットワークは、前記第2の解像度の第3の画像と、前記既定の分布に従う第2の高周波数情報とに基づいて、前記第1の解像度の第4の画像を生成するように訓練される、請求項1に記載の方法。 - 前記可逆ニューラルネットワークを訓練することは、
前記第1の解像度の訓練画像の第1の群を得ることと、
前記訓練画像の第1の群のセマンティクスにそれぞれ対応する、前記第2の解像度の訓練画像の第2の群を得ることと、
前記訓練画像の第1の群及び前記訓練画像の第2の群に基づいて、前記可逆ニューラルネットワークを訓練することと
を含む、請求項4に記載の方法。 - 前記訓練画像の第2の群を得ることは、
前記訓練画像の第1の群に基づいて、及び補間方法を使用して、前記訓練画像の第2の群を生成すること
を含む、請求項5に記載の方法。 - 前記可逆ニューラルネットワークを訓練することは、
前記訓練画像の第1の群及び前記訓練画像の第2の群に基づいて、複数の目的関数を決定することと、
前記複数の目的関数の少なくとも一部を組み合わせることにより、前記可逆ニューラルネットワークを訓練するための全目的関数を決定することと、
前記全目的関数を最小化することにより、前記可逆ニューラルネットワークのネットワークパラメータを決定することと
を含む、請求項5に記載の方法。 - 前記複数の目的関数を決定することは、
前記訓練画像の第1の群に基づいて、及び前記可逆ニューラルネットワークを使用して、前記第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、
前記訓練画像の第2の群と、前記訓練画像の第3の群との間の差に基づいて、第1の目的関数を決定することと
を含む、請求項7に記載の方法。 - 前記複数の目的関数を決定することは、
前記訓練画像の第1の群に基づいて、及び前記可逆ニューラルネットワークを使用して、前記第2の解像度の訓練画像の第3の群及び確率変数の群を生成することと、
前記逆ネットワークを使用して、前記訓練画像の第3の群と、前記既定の分布に従う高周波数情報とに基づいて、前記第1の解像度の訓練画像の第4の群を生成することと、
前記訓練画像の第1の群と、前記訓練画像の第4の群との間の差に基づいて、第2の目的関数を決定することと
を含む、請求項7に記載の方法。 - 前記複数の目的関数を決定することは、
前記訓練画像の第1の群の第1のデータ分布を決定することと、
前記訓練画像の第4の群の第2のデータ分布を決定することと、
前記第1のデータ分布と前記第2のデータ分布との間の差に基づいて、第3の目的関数を決定することと
を含む、請求項9に記載の方法。 - 前記複数の目的関数を決定することは、
前記確率変数の群の第3のデータ分布を決定することと、
前記第3のデータ分布と前記既定の分布との間の差に基づいて、第4の目的関数を決定することと
を含む、請求項9に記載の方法。 - コンピュータ実装方法であって、
第2の解像度の入力画像を得ることと、
訓練された可逆ニューラルネットワークを使用して、前記入力画像と、既定の分布に従う高周波数情報とに基づいて、第1の解像度の出力画像を生成することと
を含み、前記第1の解像度は、前記第2の解像度を超え、及び前記入力画像と前記出力画像とは、同じセマンティクスを有する、コンピュータ実装方法。 - 前記可逆ニューラルネットワークは、変換モジュールと、少なくとも1つの可逆ネットワークユニットとを含み、及び前記出力画像を生成することは、
前記少なくとも1つの可逆ネットワークユニットを使用して、前記入力画像及び前記高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、前記低周波数成分は、前記入力画像のセマンティクスを表し、及び前記高周波数成分は、前記セマンティクスに関連する、生成することと、
前記変換モジュールを使用して、前記低周波数成分と前記高周波数成分とを組み合わせて前記出力画像にすることと
を含む、請求項12に記載の方法。 - 前記変換モジュールは、
ウェーブレット変換モジュール、及び
可逆畳み込みブロック
のいずれか1つを含む、請求項13に記載の方法。 - 電子デバイスであって、
処理ユニットと、
前記処理ユニットに結合されたメモリであって、その上に格納された命令を含むメモリと
を含み、前記命令は、前記処理ユニットによって実行されると、
第1の解像度の入力画像を得ることと、
前記入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第2の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することと
を含む行為を前記デバイスに実施させ、
前記第1の解像度は、前記第2の解像度を超え、及び前記入力画像と前記出力画像とは、同じセマンティクスを有する、電子デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203650.1A CN113496465A (zh) | 2020-03-20 | 2020-03-20 | 图像缩放 |
CN202010203650.1 | 2020-03-20 | ||
PCT/US2021/018950 WO2021188254A1 (en) | 2020-03-20 | 2021-02-21 | Image rescaling |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023517486A true JP2023517486A (ja) | 2023-04-26 |
Family
ID=74873807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022548582A Pending JP2023517486A (ja) | 2020-03-20 | 2021-02-21 | 画像再スケーリング |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230093734A1 (ja) |
EP (1) | EP4121936A1 (ja) |
JP (1) | JP2023517486A (ja) |
KR (1) | KR20220157402A (ja) |
CN (1) | CN113496465A (ja) |
WO (1) | WO2021188254A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920013B (zh) * | 2021-10-14 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 一种基于超分辨率的小图像多目标检测方法 |
CN114742738A (zh) * | 2022-04-11 | 2022-07-12 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、存储介质及电子设备 |
-
2020
- 2020-03-20 CN CN202010203650.1A patent/CN113496465A/zh active Pending
-
2021
- 2021-02-21 WO PCT/US2021/018950 patent/WO2021188254A1/en active Application Filing
- 2021-02-21 JP JP2022548582A patent/JP2023517486A/ja active Pending
- 2021-02-21 KR KR1020227033277A patent/KR20220157402A/ko unknown
- 2021-02-21 EP EP21711982.5A patent/EP4121936A1/en active Pending
- 2021-02-21 US US17/802,775 patent/US20230093734A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230093734A1 (en) | 2023-03-23 |
KR20220157402A (ko) | 2022-11-29 |
CN113496465A (zh) | 2021-10-12 |
EP4121936A1 (en) | 2023-01-25 |
WO2021188254A1 (en) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230206396A1 (en) | Image super-resolution reconstructing | |
US20200162789A1 (en) | Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
JP2023517486A (ja) | 画像再スケーリング | |
Zhang et al. | Kernel attention network for single image super-resolution | |
CN115861131A (zh) | 基于图像生成视频、模型的训练方法、装置及电子设备 | |
Feng et al. | A dual-network based super-resolution for compressed high definition video | |
Guo et al. | CBANet: Toward Complexity and Bitrate Adaptive Deep Image Compression Using a Single Network | |
Xiao et al. | Invertible rescaling network and its extensions | |
JP2023537823A (ja) | ビデオ処理方法、装置、機器、デコーダ、システム及び記憶媒体 | |
CN111311486A (zh) | 用于处理图像的方法和装置 | |
CN114066722B (zh) | 用于获取图像的方法、装置和电子设备 | |
CN115294222A (zh) | 图像编码方法及图像处理方法、终端及介质 | |
CN114157895A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN113132732B (zh) | 一种人机协同的视频编码方法及视频编码系统 | |
Gutenko et al. | Remote volume rendering pipeline for mHealth applications | |
Zhang et al. | Dual-layer image compression via adaptive downsampling and spatially varying upconversion | |
US8244071B2 (en) | Non-dyadic spatial scalable wavelet transform | |
CN113747242A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US11948275B2 (en) | Video bandwidth optimization within a video communications platform | |
US20230419447A1 (en) | Lightweight Dense Residual Network for Video Super-Resolution on Mobile Devices | |
US20240144425A1 (en) | Image compression augmented with a learning-based super resolution model | |
CN117422614B (zh) | 基于混合特征交互Transformer的单帧图像超分辨率方法及装置 | |
CN117237259B (zh) | 基于多模态融合的压缩视频质量增强方法及装置 | |
WO2023185305A1 (zh) | 编码方法、装置、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240110 |