JP2023517486A

JP2023517486A - 画像再スケーリング

Info

Publication number: JP2023517486A
Application number: JP2022548582A
Authority: JP
Inventors: ジェン，シュシン; リウ，チャン; ヘ，ディ; ケ，グオリン; リー，ヤタオ; ビアン，ジアン; リウ，ティエ－ヤン
Original assignee: マイクロソフトテクノロジーライセンシング，エルエルシー
Priority date: 2020-03-20
Filing date: 2021-02-21
Publication date: 2023-04-26
Also published as: US20230093734A1; KR20220157402A; CN113496465A; EP4121936A1; WO2021188254A1

Abstract

本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提案される。この解決策によれば、第１の解像度の入力画像が得られる。訓練された可逆ニューラルネットワークを使用することにより、入力画像に基づいて、第２の解像度の出力画像と、既定の分布に従う高周波数情報とが生成され、第１の解像度は、第２の解像度を超える。そのうえ、第２の解像度のさらなる入力画像が得られる。可逆ニューラルネットワークの逆ネットワークを使用することにより、さらなる入力画像と、既定の分布に従う高周波数情報とに基づいて、第１の解像度のさらなる出力画像が生成される。この解決策は、同じセマンティクスでオリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングすることができ、及び低解像度画像から高品質の高解像度画像を再構築することもできる。

Description

背景
[0001] 画像再スケーリングは、デジタル画像処理に対する最も一般的な動作の１つになっている。一方では、インターネット上における高解像度（ＨＲ）画像／映像の量の急増により、そのような大容量データの格納、転送及び共有のために、画像ダウンスケーリングが極めて不可欠であり、なぜなら、対応物のダウンスケーリングにより、同じセマンティック情報を維持しながら、ストレージを大幅に節約し、帯域幅を効率的に利用することができるためである。他方では、これらのダウンスケーリングシナリオの多くは、逆タスク（すなわちダウンスケーリングされた画像をそのオリジナルのサイズにアップスケーリングすること）への大きい需要を必然的に高める。

[0002] 従来の画像ダウンスケーリング（すなわち高解像度画像を低解像度画像にダウンスケーリングすること）スキームは、通常、高解像度画像における高周波数情報の損失につながる。高周波数情報の損失により、従来の画像アップスケーリング（すなわち低解像度画像を高解像度画像にアップスケーリングすること）スキームは、低解像度画像からの高品質の高解像度画像の再構築に失敗する場合が多い。

概要
[0003] 本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提案される。この解決策によれば、第１の解像度の入力画像が得られる。訓練された可逆ニューラルネットワークを使用することにより、入力画像に基づいて、第２の解像度の出力画像と、既定の分布に従う高周波数情報とが生成され、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。そのうえ、第２の解像度のさらなる入力画像が得られる。可逆ニューラルネットワークの逆ネットワークを使用することにより、さらなる入力画像と、既定の分布に従う高周波数情報とに基づいて、第１の解像度のさらなる出力画像が生成され、さらなる入力画像とさらなる出力画像とは、同じセマンティクスを有する。この解決策は、同じセマンティクスでオリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングすることができ、及び低解像度画像から高品質の高解像度画像を再構築することもできる。

[0004] この概要は、選択された概念を簡略化して紹介するために提供され、それらの概念は、以下の詳細な説明でさらに説明される。この概要は、特許請求される主題の重要な特徴又は本質的な特徴を特定することを意図するものでも、特許請求される主題の範囲を限定するために使用することを意図するものでもない。

図面の簡単な説明
[0005]本明細書で説明される主題の複数の実装形態を実装することができるコンピューティングデバイスの概略ブロック図を示す。 [0006]本明細書で説明される主題の実装形態による、画像再スケーリングモジュールの動作原理の概略図を示す。 [0007]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークの概略ブロック図を示す。 [0008]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークユニットの例の概略図を示す。 [0009]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークの逆ネットワークの概略ブロック図を示す。 [0010]本明細書で説明される主題の実装形態による、可逆ニューラルネットワークユニットの例の概略図を示す。 [0011]本明細書で説明される主題の実装形態による、画像再スケーリングのための方法の例のフローチャートを示す。 [0012]本明細書で説明される主題の実装形態による、画像再スケーリングのための方法の例のフローチャートを示す。 [0013]本明細書で説明される主題の実装形態を実装することができるシステムの例のブロック図を示す。

[0014] 図面全体を通して、同じ又は同様の参照記号は、同じ又は同様の要素を指す。

詳細な説明
[0015] ここで、いくつかの実装形態の例を参照して、本明細書で説明される主題について論じる。これらの実装形態は、主題の範囲の限定を示唆するのではなく、本明細書で説明される主題を当業者がよりよく理解して実装できるようにすることのみを目的として論じられていることを理解されたい。

[0016] 本明細書で使用される場合、「含む」という用語及びその変形語は、「限定されないが、含む」を意味する、制約のない用語として読み取るべきである。「基づいて」という用語は、「少なくとも部分的に基づいて」として読み取るべきである。「１つの実装形態」及び「ある実装形態」という用語は、「少なくとも１つの実装形態」として読み取るべきである。「別の実装形態」という用語は、「少なくとも１つの他の実装形態」として読み取るべきである。「第１」、「第２」という用語及び同様の用語は、異なる又は同じ対象を指し得る。他の定義は、明示的及び暗黙的に以下に含まれ得る。

[0017] 本明細書で使用される場合、「ニューラルネットワーク」は、入力を取り扱い、対応する出力を提供することができ、通常、入力層、出力層及び入力層と出力層との間の１つ又は複数の隠れ層を含む。ニューラルネットワークのそれぞれの層は、前の層の出力が次の層の入力として提供されるように順番に接続され、入力層は、ニューラルネットワークモデルの入力を受信し、出力層の出力は、ニューラルネットワークモデルの最終出力となる。ニューラルネットワークモデルの各層は、１つ又は複数のノード（処理ノード又はニューロンとしても知られている）を含み、各ノードは、前の層からの入力を処理する。本文中では、「ニューラルネットワーク」、「モデル」、「ネットワーク」及び「ニューラルネットワークモデル」という用語は、互いに交換可能に使用することができる。

[0018] 上記で説明されるように、画像再スケーリングは、デジタル画像処理に対する最も一般的な動作の１つである。しかし、従来の画像ダウンスケーリング（すなわち高解像度画像を低解像度画像にダウンスケーリングすること）スキームは、通常、高解像度画像における高周波数情報の損失につながる。また、高周波数情報の損失により、画像アップスケーリング手順（すなわち低解像度画像を高解像度画像にアップスケーリングすること）は、非常に難易度が高くなり、なぜなら、同じ低解像度（ＬＲ）画像は、複数の高解像度（ＨＲ）画像に対応し得ること（画像アップスケーリング手順における不良設定性としても知られている）を意味するためである。それに従って、従来のスキームは、通常、ＬＲ画像からの高品質のＨＲ画像の再構築に失敗する。

[0019] 従来のスキームは、通常、超解像度（ＳＲ）方法でＬＲ画像をアップスケーリングする。既存のＳＲ方法は、主に、用例ベースの戦略又はディープラーニングモデルにより、事前情報の学習に焦点を置いている。明らかに、ターゲットＬＲ画像が、対応するＨＲ画像をダウンスケーリングすることによって得られる場合、画像アップスケーリング手順中に画像ダウンスケーリング方法を考慮することは、ＨＲ画像再構築の質を向上させるうえで役立つ。

[0020] 従来の画像ダウンスケーリング方法は、入力ＨＲ画像をターゲット解像度にサブサンプリングするためのローパスフィルタとして周波数ベースのカーネル（双線形補間及びバイキュービック補間など）を採用する。しかし、高周波数情報が抑制されるため、上記の方法は、過剰平滑化された画像をもたらす場合が多い。最近では、いくつかの詳細保存又は構造的に同様のダウンスケーリング方法が提案されている。しかし、これらの知覚指向のダウンスケーリング方法は、画像ダウンスケーリングと、その逆タスク（すなわち画像アップスケーリング）との間の潜在的な相互補強を決して考慮しない。

[0021] 画像ダウンスケーリングと、その逆タスク（すなわち画像アップスケーリング）との間の潜在的な相互補強から発想を得て、いくつかの従来のスキームは、画像ダウンスケーリング及び画像アップスケーリングを統一タスクにモデル化しようと試みている。例えば、いくつかのスキームは、自動エンコーダフレームワークに基づいて画像ダウンスケーリングモデルを提供し、その場合、エンコーダ及びデコーダは、それぞれ画像ダウンスケーリング及びＳＲモデルとして機能し、それにより、画像ダウンスケーリング及びアップスケーリング手順は、統合タスクとして一緒に訓練される。いくつかのスキームは、畳み込みニューラルネットワークを使用して、ダウンスケーリングされた低解像度画像を推定し、学習又は指定されたＳＲモデルをＨＲ画像再構築のために利用する。いくつかのスキームは、コンテンツ適応サンプラベースの画像ダウンスケーリング方法をさらに提案し、既存の任意のＳＲモデルと一緒に訓練することができる。上記のスキームは、ダウンスケーリングされたＬＲ画像から復元されるＨＲ画像の質をある程度向上させることができるが、画像アップスケーリング手順の不良設定問題を根本的に解決することはできず、従ってＬＲ画像からの高品質のＨＲ画像の再構築に失敗する。

[0022] 本明細書で説明される主題の実装形態によれば、画像再スケーリングのための解決策が提供される。この解決策では、第１の解像度の入力画像は、可逆ニューラルネットワークを使用することにより、第２の解像度の出力画像に再スケーリングされる。そのうえ、ニューラルネットワークの逆ネットワークは、第２の解像度の入力画像を第１の解像度の出力画像に再スケーリングすることができる。具体的には、画像ダウンスケーリング中、可逆ニューラルネットワークは、ＨＲ画像を、ＬＲ画像と、既定の分布に従う高周波数ノイズとに変換することができる。画像アップスケーリング中、可逆ニューラルネットワークの逆ネットワークは、ＬＲ画像と、既定の分布に従うランダムノイズとをＨＲ画像に変換することができる。可逆ニューラルネットワークは、画像ダウンスケーリング及びアップスケーリング手順をモデル化するために使用されるため、この解決策は、オリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングし、低解像度画像から高品質の高解像度画像を再構築することができるように、画像アップスケーリング手順の不良設定問題を大幅に軽減することができる。

[0023] 以下では、図面を参照して、解決策の様々な実装形態の例をさらに詳細に説明する。

[0024] 図１Ａは、本明細書で説明される主題の複数の実装形態を実施することができるコンピューティングデバイス１００のブロック図を示す。図１に示されるコンピューティングデバイス１００は、単なる例示的なものであり、本明細書で説明される主題によって説明される実装形態の機能及び範囲における限定をもたらすものではないことを理解すべきである。図１によれば、コンピューティングデバイス１００は、汎用コンピューティングデバイスの形態のコンピューティングデバイス１００を含む。コンピューティングデバイス１００のコンポーネントは、これらに限定されないが、１つ又は複数のプロセッサ又は処理ユニット１１０と、メモリ１２０と、記憶装置１３０と、１つ又は複数の通信ユニット１４０と、１つ又は複数の入力デバイス１５０と、１つ又は複数の出力デバイス１６０とを含み得る。

[0025] いくつかの実装形態では、コンピューティングデバイス１００は、演算能力を有する様々なユーザ端末又はサービス端末として実装することができる。サービス端末は、様々なサービスプロバイダによって提供されるサーバ、大規模コンピューティングデバイス及び同様のものであり得る。ユーザ端末は、例えば、任意のタイプの携帯端末、固定端末又はポータブル端末であり、携帯電話、モバイルサイト、モバイルユニット、モバイルデバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム（ＰＣＳ）デバイス、パーソナルナビゲーションデバイス、携帯情報端末（ＰＤＡ）、オーディオ／ビデオプレーヤ、デジタルカメラ／ビデオ、測位デバイス、テレビ受像機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス又はそれらの他の任意の組合せ（これらのデバイスのアクセサリ及び周辺機器若しくはそれらの他の任意の組合せからなる）を含む。コンピューティングデバイス１００が任意のタイプのユーザ特有のインタフェース（「ウェアラブル」回路及び同様のものなど）をサポートできることも予測され得る。

[0026] 処理ユニット１１０は、物理又は仮想プロセッサであり得、メモリ１２０に格納されたプログラムに基づいて様々な処理を実行することができる。マルチプロセッサシステムでは、コンピューティングデバイス１００の並列処理能力を高めるために、複数の処理ユニットがコンピュータ実行可能命令を並行して実行する。処理ユニット１１０は、中央処理装置（ＣＰＵ）、マイクロプロセッサ、コントローラ及びマイクロコントローラとしても知られ得る。

[0027] コンピューティングデバイス１００は、通常、複数のコンピュータ記憶媒体を含む。そのような媒体は、コンピューティングデバイス１００によってアクセス可能ないかなる達成可能媒体でもあり得、これらに限定されないが、揮発性及び不揮発性媒体、取り外し可能及び取り外し不能媒体を含む。メモリ１２０は、揮発性メモリ（例えば、レジスタ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ））、不揮発性メモリ（読み取り専用メモリ（ＲＯＭ）、電気的消去型プログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュなど）又はそれらの任意の組合せであり得る。

[0028] 記憶装置１３０は、取り外し可能又は取り外し不能媒体であり得、情報及び／又はデータを格納するために使用することができ、及びコンピューティングデバイス１００内でアクセスすることができる機械可読媒体（例えば、メモリ、フラッシュドライブ、磁気ディスク）又は他の任意の媒体を含み得る。コンピューティングデバイス１００は、追加の取り外し可能／取り外し不能、揮発性／不揮発性記憶媒体をさらに含み得る。図１には示されていないが、取り外し可能な不揮発性ディスクからの読み取り又は取り外し可能な不揮発性ディスクへの書き込みを行うためのディスクドライブ及び取り外し可能な不揮発性光ディスクからの読み取り又は取り外し可能な不揮発性光ディスクへの書き込みを行うための光ディスクドライブを提供することができる。そのような事例では、各ドライブは、１つ又は複数のデータ媒体インタフェースを介してバス（図示せず）に接続することができる。

[0029] 通信ユニット１４０は、通信媒体を通して別のコンピューティングデバイスとの通信を実施する。加えて、コンピューティングデバイス１００のコンポーネントの機能は、単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって実現することができ、これらのコンピューティングマシンは、通信接続を通して通信することができる。従って、コンピューティングデバイス１００は、１つ若しくは複数の他のサーバ、パーソナルコンピュータ（ＰＣ）又はさらなる汎用ネットワークノードとの論理接続を使用して、ネットワーク接続環境で動作することができる。

[0030] 入力デバイス１５０は、マウス、キーボード、トラックボール、音声入力デバイス及び同様のものなど、１つ又は複数の様々な入力デバイスであり得る。出力デバイス１６０は、例えば、ディスプレイ、ラウドスピーカ及びプリンタなど、１つ又は複数の出力デバイスであり得る。コンピューティングデバイス１００は、必要に応じて、通信ユニット１４０を通して１つ又は複数の外部のデバイス（図示せず）と通信することもでき、外部のデバイス（例えば、記憶装置、ディスプレイデバイスなど）は、ユーザがコンピューティングデバイス１００と対話できるようにするための１つ若しくは複数のデバイスと通信するか、又はコンピューティングデバイス１００が１つ若しくは複数の他のコンピューティングデバイスと通信できるようにするための任意のデバイス（ネットワークカード、モデム及び同様のものなど）と通信する。そのような通信は、入力／出力（Ｉ／Ｏ）インタフェース（図示せず）を介して実行することができる。

[0031] いくつかの実装形態では、個々のデバイス上で統合されることとは別に、コンピューティングデバイス１００のそれぞれのコンポーネントのいくつか又はすべては、クラウドコンピューティングアーキテクチャの形態で設定することもできる。クラウドコンピューティングアーキテクチャでは、これらのコンポーネントは、リモート設置することができ、本明細書で説明される主題によって説明される機能を実装するために協働することができる。いくつかの実装形態では、クラウドコンピューティングは、演算、ソフトウェア、データアクセス及びストレージサービスを提供するが、そのようなサービスを提供するシステム又はハードウェアの物理的位置又は構成が端末ユーザに通知されることはない。様々な実装形態では、クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク（インターネットなど）を介してサービスを提供する。例えば、クラウドコンピューティングプロバイダは、広域ネットワークを介して、ウェブブラウザ又は他の任意のコンピューティングコンポーネントを通してアクセスすることができるアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔位置にあるサーバに格納することができる。クラウドコンピューティング環境のコンピューティング資源は、リモートデータセンタでマージ又は分散することができる。クラウドコンピューティングインフラストラクチャは、ユーザに対して単一のアクセスポイントとして示されている場合でも、共有データセンタを介してサービスを提供することができる。従って、本明細書で説明されるコンポーネント及び機能は、遠隔位置にあるサービスプロバイダからクラウドコンピューティングアーキテクチャを使用して提供することができる。代わりに、コンポーネント及び機能は、従来のサーバから提供するか、又はクライアントデバイスに直接若しくは他の方法で搭載することができる。

[0032] コンピューティングデバイス１００は、本明細書で説明される主題の様々な実装形態に従って画像再スケーリングを実施するために使用することができる。メモリ１２０は、１つ又は複数のプログラム命令を有する画像再スケーリングモジュール１２２を含み得る。モジュールは、処理ユニット１１０により、本明細書で説明される様々な実装形態の機能を実装するためにアクセス及び動作することができる。

[0033] 画像再スケーリング中、コンピューティングデバイス１００は、入力デバイス１５０を介して入力画像１７０を受信することができる。いくつかの実装形態では、入力画像１７０は、例えば、第１の解像度の画像であり得る。入力画像１７０は、メモリ１２０内の画像再スケーリングモジュール１２２に入力することができる。画像再スケーリングモジュール１２２は、訓練された可逆ニューラルネットワークを使用して、入力画像１７０に基づいて、第２の解像度の出力画像１８０と、既定の分布に従う高周波数情報とを生成することができ、第１の解像度は、第２の解像度を超え、及び入力画像１７０と出力画像１８０とは、同じセマンティクスを有する。他の実装形態では、入力画像１７０は、例えば、第２の解像度の画像であり得る。入力画像１７０は、メモリ１２０内の画像再スケーリングモジュール１２２に入力することができる。画像再スケーリングモジュール１２２は、可逆ニューラルネットワークの逆ネットワークを使用して、入力画像１７０と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の出力画像１８０を生成することができ、第１の解像度は、第２の解像度を超え、及び入力画像１７０と出力画像１８０とは、同じセマンティクスを有する。出力画像１８０は、出力デバイス１６０を介して出力することができる。

[0034] いくつかの実装形態では、画像再スケーリングモジュール１２２は、訓練された可逆ニューラルネットワークを使用して、画像ダウンスケーリング（すなわちＨＲ画像をＬＲ画像に変換すること）を実行することができ、画像再スケーリングモジュール１２２は、可逆ニューラルネットワークの逆ネットワークを使用して、逆画像アップスケーリング（すなわちＬＲ画像をＨＲ画像に再構築すること）を実行することができる。図１Ｂは、本明細書で説明される主題の実装形態による、画像再スケーリングモジュール１２２の動作原理の概略図を示す。示されるように、画像再スケーリングモジュール１２２は、可逆ニューラルネットワーク１９１（「ｆ_θ」として示される）を使用して、高解像度の入力画像１７０に基づいて、低解像度の出力画像１８０と、既定の分布に従う高周波数情報１８５とを生成することができる。例えば、高周波数情報１８５は、入力画像１７０のセマンティクスとは無関係の高周波数ノイズとして具体化することができる。画像再スケーリングモジュール１２２は、可逆ニューラルネットワーク１９１の逆ネットワーク１９２（

として示される）を使用して、低解像度の入力画像１７０と、既定の分布に従う高周波数情報１７５とに基づいて、高解像度の出力画像１８０を生成することができる。本明細書で使用される「既定の分布」は、これらに限定されないが、ガウス分布、一様分布及び同様のものを含み得、可逆ニューラルネットワークの訓練手順中に事前に定義することができる。

[0035] 可逆ニューラルネットワーク（ＩＮＮ）は、生成的モデルにおける一般的なネットワーク構造であり、マッピング関係ｍ＝ｆ_θ（ｎ）及びその逆のマッピング関係

を指定することができる。ＩＮＮは、通常、少なくとも１つの可逆ブロックを含み得る。ｌ番目のブロックの場合、入力ｈ^ｌは、チャネル軸に沿って、

と、

とに分割され、以下のアフィン変換：

が行われ、対応する出力は、

である。出力を考慮すると、その逆変換は、以下：

の通り演算することができ、式中、φ、ρ及びηは、任意の関数であり得、

は、畳み込み演算を表す。

[0036] ＩＮＮが画像再スケーリングタスクに適用されると、ＩＮＮは、高解像度の入力画像ｘに基づいて、ダウンスケーリングされた低解像度画像ｙと、既定の分布に従う高周波数情報ｚとを出力することができ、高周波数情報ｚは、例えば、画像のセマンティクスとは無関係の高周波数ノイズとして具体化することができる。この方法では、ＩＮＮの逆ネットワークは、低解像度画像ｙ及びノイズｚに基づいて、高品質の高解像度画像ｘを再構築することができる。換言すれば、画像再スケーリング手順を逆行可能にするために、通常、画像ダウンスケーリング手順で失われる高周波数情報ｚを維持する必要がある。そのうえ、画像再スケーリング手順全体は、マッピング関係（ｙ，ｚ）＝ｆ_θ（ｘ）、及び

によって表すことができる。

[0037] しかし、画像アップスケーリング中、通常、いかなるＬＲ画像もアップスケーリングする必要がある。従って、入力ＬＲ画像に対応する高周波数情報ｚは、存在しない場合が多い。本発明者は、画像ダウンスケーリング手順で失われる情報がナイキストシャノンサンプリング理論による高周波数詳細と均等であることを認識した。同じＬＲ画像に対応するＨＲ画像の群が異なる高周波数詳細を含むと想定すると、これらの詳細は、通常、ある程度の変動性及びランダム性を示し得る。従って、ｚは、確率変数として表すことができ、その分布は、ＩＮＮがｚを表す方法（すなわちｆ_θがｚを出力する方法）によって決定される。具体的には、ＩＮＮは、既定の分布ｐ（ｚ）を満たすように訓練することができる。この方法では、画像ダウンスケーリング手順中に可逆ニューラルネットワークによって出力される高周波数ノイズｚを保存する必要はない。加えて、画像アップスケーリング手順中、高解像度画像は、低解像度画像と、既定の分布下のいずれか１つのサンプルとに基づいて再構築することができる。

[0038] 図２Ａは、本明細書で説明される主題の実装形態による、可逆ニューラルネットワーク１９１の概略ブロック図を示す。図２Ａに示される可逆ニューラルネットワーク１９１の構造は、単なる例示的なものであり、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する可逆ニューラルネットワークにも適している。

[0039] 図２Ａに示されるように、可逆ニューラルネットワーク１９は、１つ又は複数のダウンサンプリングモジュール２１０を直列に接続することによって形成することができる。簡略化のため、図２Ａでは、ダウンサンプリングモジュール２１０は、１つのみ示されている。可逆ニューラルネットワーク１９１によってサポートされる画像ダウンスケーリング比は、各ダウンサンプリングモジュール２１０によってサポートされる画像ダウンスケーリング比及び可逆ニューラルネットワーク１９１に含まれるダウンサンプリングモジュール２１０の数によって決定することができる。例えば、各ダウンサンプリングモジュール２１０が画像の１／２倍縮小をサポートし、可逆ニューラルネットワーク１９１が２つのダウンサンプリングモジュール２１０を含むと想定すると、可逆ニューラルネットワーク１９１は、画像の１／４倍縮小をサポートする。

[0040] 図２Ａに示されるように、例えば、ダウンサンプリングモジュール２１０は、変換モジュール２３０と、１つ又は複数のＩＮＮユニット２２０－１、２２０－２．．．２２０－Ｍ（集合的に「ＩＮＮユニット２２０」として又は個別に「ＩＮＮユニット２２０」として知られており、Ｍ≧１である）とを含み得る。

[0041] 変換モジュール２３０は、高解像度の入力画像１７０を、入力画像１７０のセマンティクスを表す低周波数成分２４２と、セマンティクスに関連する高周波数成分２４１とに分解することができる。いくつかの実装形態では、変換モジュール２３０は、ウェーブレット変換モジュール（例えば、ハール変換モジュール）として実装することができる。例えば、変換モジュール２３０がハール変換モジュールとして実装されると、ダウンサンプリングモジュール２１０は、画像の１／２倍縮小をサポートすることができる。具体的には、ハール変換モジュールは、長さＨ、幅Ｗ及びチャネル数Ｃを有する入力画像又は特徴マップの群を出力テンソル

に変換することができる。出力テンソルの第１のＣスライスは、双線形補間ダウンサンプリングと均等であるほぼローパス表現であり得る。Ｃスライスの残りの３つの群は、垂直、水平及び対角方向のそれぞれにおける残差成分を含む。これらの残差成分は、オリジナルのＨＲ画像の高周波数情報に基づく。代わりに、変換モジュール２３０は、１×１可逆畳み込みブロックとして、又は入力画像１７０を低周波数成分と高周波数成分とに分解することができる現在知られているか若しくは将来開発される任意の変換モジュールとして実装することもできる。変換モジュール２３０の実装形態は、ダウンサンプリングモジュール２１０によってサポートされる画像ダウンスケーリング比が変化する場合に異なり得ることを理解されたい。この方法では、低周波数情報２４２及び高周波数情報２４１は、後続のＩＮＮユニット２２０－１に供給することができる。

[0042] 上記で説明されるように、ニューラルネットワーク１９１のネットワーク構造が逆行可能であることを保証するため、各ＩＮＮユニット２２０の構造は、逆行可能であるべきである。ＩＮＮユニット２２０は、入力低周波数成分及び高周波数成分から対応する特徴を抽出し、画像セマンティクスに関連する高周波数成分を高周波数情報に変換するために使用され、高周波数情報は、既定の分布に従い、画像セマンティクスとは無関係である。

[0043] 図２Ｂは、本明細書で説明される主題の実装形態による、ＩＮＮユニット２２０の例の概略図を示す。ここでは、ＩＮＮユニット２２０に入力される低周波数成分及び高周波数成分は、

及び

としてそれぞれ表されると想定される。図２Ｂに示されるように、上記の式（１）に示されるアフィン変換は、低周波数成分

に適用することができ、上記の式（２）に示されるアフィン変換は、高周波数成分

に適用することができる。図２Ｂに示される変換関数φ、ρ及びηは、任意の関数であり得る。図２ＢのＩＮＮユニット２２０は、単なる例を目的として示されており、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する他のＩＮＮユニットにも適用することができる。ＩＮＮユニットの例は、これらに限定されないが、可逆畳み込みブロック、可逆残差ネットワークユニット、可逆生成的ネットワークユニット、深層可逆ネットワークユニットなどを含み得る。

[0044] 図３Ａは、図２Ａの可逆ニューラルネットワーク１９１の逆ネットワーク１９２の概略ブロック図を示す。図３Ａに示されるように、ネットワーク１９２は、１つ又は複数のアップサンプリングモジュール３１０を直列に接続することによって形成することができる。簡略化のため、図３Ａでは、アップサンプリングモジュール３１０は、１つのみ示されている。逆ネットワーク１９２によってサポートされる画像アップスケーリング比は、各アップサンプリングモジュール３１０によってサポートされる画像アップスケーリング比及び逆ネットワーク１９２に含まれるアップサンプリングモジュール３１０の数によって決定することができる。例えば、各アップサンプリングモジュール３１０が画像の２倍拡大をサポートし、逆ネットワーク１９２が２つのアップサンプリングモジュール３１０を含むと想定すると、逆ネットワーク１９２は、画像の４倍拡大をサポートする。

[0045] 図３Ａに示されるように、例えば、アップサンプリングモジュール３１０は、変換モジュール３３０と、１つ又は複数のＩＮＮユニット３２０－１、３２０－２．．．３２０－Ｍ（集合的に「ＩＮＮユニット３２０」として又は個別に「ＩＮＮユニット３２０」として知られており、Ｍ≧１である）とを含み得る。例えば、ＩＮＮユニット３２０の構造及び図２ＢのＩＮＮユニット２２０の構造は、図３Ｂに示されるように、互いに逆行可能である。ＩＮＮユニット３２０－Ｍの場合、ＩＮＮユニット３２０－Ｍに入力される低解像度の入力画像１７０は、

として表され、既定の分布に従う高周波数情報１７５は、

として示されると想定される。図３Ｂに示されるように、上記の式（３）に示されるアフィン変換は、

に適用することができ、上記の式（３）に示されるアフィン変換は、

に適用することができる。図３Ｂの変換関数φ、ρ及びηは、任意の関数であり得る。図３ＢのＩＮＮユニット３２０は、単なる例を目的として示されており、本明細書で説明される主題の範囲に関する限定を示唆するものではないことを理解すべきである。本明細書で説明される主題の実装形態は、異なる構造を有する他のＩＮＮユニットにも適用することができる。ＩＮＮユニットの例は、これらに限定されないが、可逆畳み込みブロック、可逆残差ネットワークユニット、可逆生成的ネットワークユニット、深層可逆ネットワークユニットなどを含み得る。

[0046] 図３Ａに示されるように、１つ又は複数のＩＮＮユニット３２０は、低解像度の入力画像１７０及び既定の分布に従う高周波数情報１７５を、組み合わされる高周波数成分３４１及び低周波数成分３４２に変換することができる。図２Ａに示される変換モジュール２３０とは反対に、変換モジュール３３０は、高周波数成分３４１と低周波数成分３４２とを組み合わせて、高解像度の出力画像１８０にすることができる。いくつかの実装形態では、変換モジュール２３０がウェーブレット変換モジュールとして実装されると、変換モジュール３３０は、逆ウェーブレット変換モジュールとして実装することができる。例えば、変換モジュール２３０がハール変換モジュールとして実装されと、変換モジュール３３０は、逆ハール変換モジュールとして実装することができる。代わりに、変換モジュール３３０は、１×１可逆畳み込みブロックにより、又は高周波数成分と低周波数成分とを組み合わせて画像にすることができる現在知られているか若しくは将来開発される任意の変換モジュールとして実装することもできる。

[0047] 可逆ニューラルネットワークの訓練手順について、以下でさらに詳細に説明する。本文中では、訓練されるニューラルネットワーク及びその逆ネットワークは、簡略化のため、集合的に「モデル」として知られている。上記の説明によれば、モデルを訓練する目的は、高解像度画像ｘと、低解像度画像ｙと、既定の分布ｐ（ｚ）との間のマッピング関係ｆ_θを決定することであることが分かる。

[0048] 訓練目的を達成するため、いくつかの実装形態では、高解像度画像の群

（「訓練画像の第１の群」としても知られており、Ｎは、画像の数を表す）及び対応するセマンティクスを有する低解像度画像の群（「訓練画像の第２の群」としても知られている）は、モデルを訓練するための訓練データとして取得することができる。いくつかの実装形態では、低解像度の訓練画像の第２の群は、高解像度の訓練画像の第１の群に基づいて生成することができる。例えば、対応するセマンティクスを有する低解像度訓練画像は、補間方法又は現在知られているか若しくは将来開発される他の任意の適切な方法を使用して、高解像度訓練画像から生成される。本明細書で説明される主題の範囲は、この点において限定されない。いくつかの実装形態では、訓練画像の第１の群及び訓練画像の第２の群に基づいて、モデルを訓練するための目的関数を生成することができる。次いで、目的関数を最小化することにより、モデルのパラメータを決定することができる。

[0049] いくつかの実装形態では、モデルを訓練するための目的関数は、低解像度訓練画像と、高解像度訓練画像に基づいてモデルによって生成された低解像度画像との間の差に基づいて決定することができる。例えば、訓練画像の第１の群の高解像度訓練画像ｘ^（ｎ）に対して、高解像度訓練画像ｘ^（ｎ）に基づいてモデルによって生成された低解像度画像は、

として示され、訓練画像の第２の群の高解像度訓練画像ｘ^（ｎ）に対応する低解像度訓練画像は、

として表されると想定すると、可逆ニューラルネットワークを訓練するための目的関数（「第１の目的関数」又は「ＬＲ誘導損失関数」としても知られている）は、低解像度訓練画像

と、モデルによって生成された低解像度画像

との間の差に従って生成される。例えば、第１の目的関数は、以下の通り表すことができる。

式中、

は、Ｌ_１損失関数又はＬ_２損失関数など、差分メトリック関数を表す。

[0050] 加えて又は代わりに、いくつかの実装形態では、モデルを訓練するための目的関数は、高解像度訓練画像と、低解像度画像に基づいてモデルによって再構築された高解像度画像との間の差に基づいて決定することができる。例えば、訓練画像の第１の群の高解像度訓練画像ｘ^（ｎ）に対して、高解像度訓練画像ｘ^（ｎ）に基づいてモデルによって生成された低解像度画像は、

として示され、低解像度画像

に基づいてモデルによって再構築された高解像度画像は、

として表される（ｚは、既定の分布ｐ（ｚ）によるものである（すなわちｚ～ｐ（ｚ）））と想定すると、可逆ニューラルネットワークを訓練するための目的関数（「第２の目的関数」又は「ＨＲ再構築損失関数」としても知られている）は、高解像度訓練画像ｘ^（ｎ）と、高解像度再構築画像

との間の差に従って生成することができる。例えば、第２の目的関数は、以下の通り表すことができる。

式中、

は、オリジナルの高解像度画像と再構築画像との間の差を測定し、

は、ｚが既定の分布ｐ（ｚ）による場合の

の数学的期待値を示す。

[0051] 加えて又は代わりに、モデル訓練の別の目的は、高解像度訓練画像のデータ分布を捕捉するようにモデルを促すことである。ここでは、訓練データの第１の群

のデータ分布は、ｑ（ｘ）として表されると想定される。例えば、訓練画像の第１の群の高解像度訓練画像ｘ^（ｎ）に対して、モデルによって再構築された高解像度画像は、

として示され、式中、

は、高解像度訓練画像ｘ^（ｎ）からモデルによってダウンスケーリングされた低解像度画像を示し、ｚ^（ｎ）～ｐ（ｚ）は、既定の分布ｐ（ｚ）による確率変数を表す。ダウンスケーリングされた低解像度画像の群

は、訓練データの第１の群

をトラバースすることによって得ることができる。

のデータ分布は、

として示すことができ、それは、変換された確率変数

のデータ分布を表し、そのオリジナルの確率変数ｘは、データ分布ｑ（ｘ）によるものである（すなわちｘ～ｑ（ｘ））。同様に、モデルによって再構築された高解像度画像は、

として示すことができ、そのデータ分布は、

として表すことができ、なぜなら、

であるためである。いくつかの実装形態では、可逆ニューラルネットワークを訓練するための目的関数（「第３の目的関数」又は「分布整合損失関数」としても知られている）は、オリジナルのデータ分布ｑ（ｘ）と、モデル再構築データ分布

との間の差に従って生成することができる。例えば、第３の目的関数は、

として表すことができ、式中、

は、２つのデータ分布の差を測定する。

[0052] いくつかの事例では、２つの分布は、両方とも高次元であり、未知の密度関数を有するため、式（６）に示される第３の目的関数を直接最小化することは、困難である場合がある。いくつかの実装形態では、ＪＳダイバージェンスを使用して、２つのデータ分布の差を測定することができる。すなわち、第３の目的関数は、以下の通り表すこともできる。

[0053] いくつかの実装形態では、モデルを訓練するための全目的関数は、第１の目的関数と、第２の目的関数と、第３の目的関数とを組み合わせることによって生成することができる。例えば、全目的関数は、以下の通り表すことができる。
Ｌ_{ｔｏｔａｌ}：λ_１Ｌ_{ｒｅｃｏｎ}＋λ_２Ｌ_{ｇｕｉｄｅ}＋λ_３Ｌ_{ｄｉｓｔｒ} （８）
式中、λ_１、λ_２及びλ_３は、異なる損失項の均衡を保つための係数である。

[0054] いくつかの実装形態では、モデル訓練の安定性を向上させるため、式（８）に示される全目的関数でモデルを訓練する前に事前訓練段階を実行することができる。事前訓練段階では、弱いが、より安定した分布整合損失関数を採用することができる。例えば、分布整合損失関数は、モデル訓練の安定性を強化するために、クロスエントロピー損失関数に基づいて構築することができる。例えば、クロスエントロピー（ＣＥ）損失関数に基づいて構築される分布整合損失関数（「第４の目的関数」としても知られている）は、以下の通り表すことができる。

式中、ＣＥは、クロスエントロピー損失関数を表す。それに応じて、事前訓練段階で使用される全目的関数は、以下の通り表すことができる。

式中、λ_１、λ_２及びλ_３は、異なる損失項の均衡を保つための係数である。

[0055] いくつかの実装形態では、事前訓練段階後、再び式（８）に示される全目的関数に基づいてモデルに対して２回目の訓練を実行することができる。代わりに、いくつかの実装形態では、事前訓練段階後、以下の通り、式（１１）に示される全目的関数に基づいてモデルに対して２回目の訓練を実行することができる。
Ｌ_ＩＲＮ＋：＝λ_１Ｌ_{ｒｅｃｏｎ}＋λ_２Ｌ_{ｇｕｉｄｅ}＋λ_３Ｌ_{ｄｉｓｔｒ}＋λ_４Ｌ_{ｐｅｒｃｐ} （１１）
式中、意味的特徴におけるオリジナルの高解像度画像と、再構築された高解像度画像との間の差を測定するための知覚損失関数Ｌ_{ｐｅｒｃｐ}が提供される。例えば、オリジナルの高解像度画像及び再構築された高解像度画像の意味的特徴は、当技術分野で公知のベンチマークモデルによって抽出することができ、ここでは詳述しない。λ_１、λ_２、λ_３及びλ_４は、異なる損失項の均衡を保つための係数である。

[0056] 図４は、本明細書で説明される主題のいくつかの実装形態による、画像再スケーリングのための方法４００のフローチャートを示す。方法４００は、コンピューティングデバイス１００により、例えばコンピューティングデバイス１００のメモリ１２０内の画像再スケーリングモジュール１２２において実施することができる。ブロック４１０では、コンピューティングデバイス１００は、第１の解像度の入力画像を得る。ブロック４２０では、コンピューティングデバイス１００は、訓練された可逆ニューラルネットワークを使用して、入力画像に基づいて、第２の解像度の出力画像と、既定の分布に従う高周波数情報とを生成し、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。

[0057] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び出力画像と高周波数情報とを生成することは、変換モジュールを使用して、入力画像を、入力画像のセマンティクスを表す低周波数成分と、セマンティクスに関連する高周波数成分とに分解することと、少なくとも１つの可逆ネットワークユニットを使用して、低周波数成分及び高周波数成分に基づいて、出力画像と、セマンティクスとは無関係の高周波数情報とを生成することとを含む。

[0058] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか１つを含む。

[0059] いくつかの実装形態では、方法４００は、可逆ニューラルネットワークを訓練することをさらに含み、可逆ニューラルネットワークは、第１の解像度の第１の画像に基づいて、第２の解像度の第２の画像と、既定の分布に従う第１の高周波数情報とを生成するように訓練され、及び可逆ニューラルネットワークの逆ネットワークは、第２の解像度の第３の画像と、既定の分布に従う第２の高周波数情報とに基づいて、第１の解像度の第４の画像を生成するように訓練される。

[0060] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、第１の解像度の訓練画像の第１の群を得ることと、訓練画像の第１の群のセマンティクスにそれぞれ対応する、第２の解像度の訓練画像の第２の群を得ることと、訓練画像の第１の群及び訓練画像の第２の群に基づいて、可逆ニューラルネットワークを訓練することとを含む。

[0061] いくつかの実装形態では、訓練画像の第２の群を得ることは、訓練画像の第１の群に基づいて、及び補間方法を使用して、訓練画像の第２の群を生成することを含む。

[0062] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、訓練画像の第１の群及び訓練画像の第２の群に基づいて、複数の目的関数を決定することと、複数の目的関数の少なくとも一部を組み合わせることにより、可逆ニューラルネットワークを訓練するための全目的関数を決定することと、全目的関数を最小化することにより、可逆ニューラルネットワークのネットワークパラメータを決定することとを含む。

[0063] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群に基づいて、及び可逆ニューラルネットワークを使用して、第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、訓練画像の第２の群と、訓練画像の第３の群との間の差に基づいて、第１の目的関数を決定することとを含む。

[0064] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群に基づいて、及び可逆ニューラルネットワークを使用して、第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、逆ネットワークを使用して、訓練画像の第３の群と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の訓練画像の第４の群を生成することと、訓練画像の第１の群と、訓練画像の第４の群との間の差に基づいて、第２の目的関数を決定することとを含む。

[0065] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群の第１のデータ分布を決定することと、訓練画像の第４の群の第２のデータ分布を決定することと、第１のデータ分布と第２のデータ分布との間の差に基づいて、第３の目的関数を決定することとを含む。

[0066] いくつかの実装形態では、複数の目的関数を決定することは、確率変数の群の第３のデータ分布を決定することと、第３のデータ分布と既定の分布との間の差に基づいて、第４の目的関数を決定することとを含む。

[0067] 図５は、本明細書で説明される主題のいくつかの実装形態による、画像再スケーリングのための方法５００のフローチャートを示す。方法５００は、コンピューティングデバイス１００により、例えばコンピューティングデバイス１００のメモリ１２０内の画像再スケーリングモジュール１２２において実施することができる。ブロック５１０では、コンピューティングデバイス１００は、第２の解像度の入力画像を得る。ブロック５２０では、コンピューティングデバイス１００は、訓練された可逆ニューラルネットワークを使用して、入力画像と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の出力画像を生成し、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。

[0068] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び出力画像を生成することは、少なくとも１つの可逆ネットワークユニットを使用して、入力画像及び高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、低周波数成分は、入力画像のセマンティクスを表し、及び高周波数成分は、セマンティクスに関連する、生成することと、変換モジュールを使用して、低周波数成分と高周波数成分とを組み合わせて出力画像にすることとを含む。

[0069] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか１つを含む。

[0070] 上記を踏まえて、本明細書で説明される主題の実装形態は、画像再スケーリングのための解決策を提案する。画像ダウンスケーリング中、可逆ニューラルネットワークは、ＨＲ画像を、ＬＲ画像と、既定の分布に従う高周波数ノイズとに変換することができる。画像アップスケーリング中、可逆ニューラルネットワークの逆ネットワークは、ＬＲ画像と、既定の分布に従うランダムノイズとをＨＲ画像に変換することができる。可逆ニューラルネットワークは、画像ダウンスケーリング及びアップスケーリング手順をモデル化するために使用されるため、この解決策は、オリジナルの画像を視覚的に快適な低解像度画像にダウンスケーリングし、低解像度画像から高品質の高解像度画像を再構築し、それにより画像アップスケーリング手順の不良設定問題を大幅に軽減することができる。そのうえ、様々な実験データにより、従来の画像再スケーリングスキームと比べて、本明細書で説明される主題の実装形態は、より高いピーク信号対ノイズ比（ＰＳＮＲ）及び／又は構造類似性（ＳＳＩＭ）など、より優れた画像再構築性能指標を達成できることも示されている。

[0071] 本明細書で説明される主題の実装形態は、画像及び／又は映像処理分野に広く適用することができる。例えば、オンラインビデオストリーミングは、動画サイト、ライブストリーミングサイト、ビデオストリーミングモバイルアプリケーションなど、人々の生活で重要な役割を果たす。豊富な知覚的詳細を有する高解像度映像など、高品質のオンラインビデオストリーミングが望ましい。しかし、高解像度映像は、通常、送信のために多くのネットワーク帯域幅を必要とする。従って、ネットワーク帯域幅を節約するため、高解像度映像は、通常、ユーザクライアントに送信される前に処理及び圧縮される。これにより、ユーザクライアント側において低質の低解像度映像が提示されることになる。上記の問題は、本明細書で説明される主題の実装形態による画像再スケーリング解決策を適用することによって解決することができる。

[0072] 図６は、本明細書で説明される主題の実装形態を実装することができるシステム６００の例のブロック図を示す。示されるように、システム６００は、ビデオストリームサービスプロバイダ６１０、サーバ６２０及びクライアントデバイス６３０を含み得る。例えば、ビデオストリームサービスプロバイダ６１０は、クライアントデバイス６３０によって要求された映像データをサーバ６２０に提供することができ、サーバ６２０は、ネットワークを介して、ビデオストリームサービスプロバイダ６１０からの映像データをクライアントデバイス６３０に送信することができる。

[0073] 図６に示されるように、いくつかの実装形態では、ビデオストリームサービスプロバイダ６１０は、高解像度ビデオストリーム６０１をサーバ６２０に提供することができ、高解像度ビデオストリーム６０１は、「高解像度画像シーケンス６０１」としても知られている。サーバ６２０は、上記で説明されるような可逆ニューラルネットワーク１９１を使用して、高解像度画像シーケンス６０１を低解像度画像シーケンスに変換することができる。いくつかの実装形態では、サーバ６２０は、低解像度ビデオストリーム６０２として低解像度画像シーケンスをクライアントデバイス６３０に直接送信することができる。この事例では、クライアントデバイス６３０は、低解像度画像シーケンスを受信することができる。加えて又は代わりに、いくつかの実装形態では、サーバ６２０は、低解像度画像シーケンスに対して映像符号化を実行して、符号化された低解像度ビデオストリーム６０２を生成し、ネットワークを介して、符号化された低解像度ビデオストリーム６０２をクライアントデバイス６３０に送信することができる。この事例では、クライアントデバイス６３０は、受信した符号化された低解像度ビデオストリーム６０２を復号して、復号された低解像度画像シーケンスを導出することができる。次いで、クライアントデバイス６３０は、可逆ニューラルネットワーク１９１の逆ネットワーク１９２を使用して、導出した低解像度画像シーケンスを高解像度ビデオストリーム６０３に再構築することができる。この方法では、クライアントは、ネットワーク帯域幅を節約しながら、高品質のビデオストリームを得ることができる。

[0074] 画像及び／又は映像処理分野に加えて、本明細書で説明される主題の実装形態は、画像及び／又は映像格納分野にも適用することができる。例えば、高解像度画像及び／又は映像を記憶装置に格納する前に、上記で説明されるような可逆ニューラルネットワーク１９１を使用して、高解像度画像及び／又は映像を、低解像度画像及び／又は映像と、既定の分布に従う対応する高周波数情報とに変換することができる。次いで、導出された低解像度画像及び／又は映像を記憶装置に格納する一方、対応する高周波数情報を破棄することができる。記憶装置に格納された画像及び／又は映像にアクセスするため、最初に低解像度画像及び／又は映像を記憶装置から得ることができる。次いで、上記で説明されるような可逆ニューラルネットワーク１９１の逆ネットワーク１９２を使用して、得られた低解像度画像及び／又は映像と、既定の分布に従うランダムノイズとに基づいて、高解像度画像及び／又は映像を再構築することができる。この方法では、画像及び／又は映像の質を損なうことなく、画像及び／又は映像を格納するための格納スペースを節約することができる。

[0075] 以下では、本明細書で説明される主題の実装形態のいくつかの例をリストする。

[0076] 第１の態様では、本明細書で説明される主題は、コンピュータ実装方法を提供する。方法は、第１の解像度の入力画像を得ることと、入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第２の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することとを含み、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。

[0077] いくつかの実装形態では、方法は、高周波数情報を格納することなく、出力画像を格納することをさらに含む。

[0078] いくつかの実装形態では、方法は、出力画像を符号化することと、符号化された出力画像を提供することとをさらに含む。

[0079] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び出力画像と高周波数情報とを生成することは、変換モジュールを使用して、入力画像を、入力画像のセマンティクスを表す低周波数成分と、セマンティクスに関連する高周波数成分とに分解することと、少なくとも１つの可逆ネットワークユニットを使用して、低周波数成分及び高周波数成分に基づいて、出力画像と、セマンティクスとは無関係の高周波数情報とを生成することとを含む。

[0080] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか１つを含む。

[0081] いくつかの実装形態では、方法は、可逆ニューラルネットワークを訓練することをさらに含み、可逆ニューラルネットワークは、第１の解像度の第１の画像に基づいて、第２の解像度の第２の画像と、既定の分布に従う第１の高周波数情報とを生成するように訓練され、及び可逆ニューラルネットワークの逆ネットワークは、第２の解像度の第３の画像と、既定の分布に従う第２の高周波数情報とに基づいて、第１の解像度の第４の画像を生成するように訓練される。

[0082] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、第１の解像度の訓練画像の第１の群を得ることと、訓練画像の第１の群のセマンティクスにそれぞれ対応する、第２の解像度の訓練画像の第２の群を得ることと、訓練画像の第１の群及び訓練画像の第２の群に基づいて、可逆ニューラルネットワークを訓練することとを含む。

[0083] いくつかの実装形態では、訓練画像の第２の群を得ることは、訓練画像の第１の群に基づいて、及び補間方法を使用して、訓練画像の第２の群を生成することを含む。

[0084] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、訓練画像の第１の群及び訓練画像の第２の群に基づいて、複数の目的関数を決定することと、複数の目的関数の少なくとも一部を組み合わせることにより、可逆ニューラルネットワークを訓練するための全目的関数を決定することと、全目的関数を最小化することにより、可逆ニューラルネットワークのネットワークパラメータを決定することとを含む。

[0085] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群に基づいて、及び可逆ニューラルネットワークを使用して、第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、訓練画像の第２の群と、訓練画像の第３の群との間の差に基づいて、第１の目的関数を決定することとを含む。

[0086] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群に基づいて、及び可逆ニューラルネットワークを使用して、第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、逆ネットワークを使用して、訓練画像の第３の群と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の訓練画像の第４の群を生成することと、訓練画像の第１の群と、訓練画像の第４の群との間の差に基づいて、第２の目的関数を決定することとを含む。

[0087] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群の第１のデータ分布を決定することと、訓練画像の第４の群の第２のデータ分布を決定することと、第１のデータ分布と第２のデータ分布との間の差に基づいて、第３の目的関数を決定することとを含む。

[0088] いくつかの実装形態では、複数の目的関数を決定することは、確率変数の群の第３のデータ分布を決定することと、第３のデータ分布と既定の分布との間の差に基づいて、第４の目的関数を決定することとを含む。

[0089] 第２の態様では、本明細書で説明される主題は、コンピュータ実装方法を提供する。方法は、第２の解像度の入力画像を得ることと、訓練された可逆ニューラルネットワークを使用して、入力画像と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の出力画像を生成することとを含み、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。

[0090] いくつかの実装形態では、入力画像を得ることは、符号化された入力画像を得ることと、符号化された入力画像を復号することとを含む。

[0091] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び出力画像を生成することは、少なくとも１つの可逆ネットワークユニットを使用して、入力画像及び高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、低周波数成分は、入力画像のセマンティクスを表し、及び高周波数成分は、セマンティクスに関連する、生成することと、変換モジュールを使用して、低周波数成分と高周波数成分とを組み合わせて出力画像にすることとを含む。

[0092] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか１つを含む。

[0093] 第３の態様では、本明細書で説明される主題は、電子デバイスを提供する。電子デバイスは、処理ユニットと、処理ユニットに結合されたメモリであって、その上に格納された命令を含むメモリとを含み、命令は、処理ユニットによって実行されると、第１の解像度の入力画像を得ることと、入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第２の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することとを含む行為をデバイスに実行させ、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。

[0094] いくつかの実装形態では、行為は、高周波数情報を格納することなく、出力画像を格納することをさらに含む。

[0095] いくつかの実装形態では、行為は、出力画像を符号化することと、符号化された出力画像を提供することとをさらに含む。

[0096] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び出力画像と高周波数情報とを生成することは、変換モジュールを使用して、入力画像を、入力画像のセマンティクスを表す低周波数成分と、セマンティクスに関連する高周波数成分とに分解することと、少なくとも１つの可逆ネットワークユニットを使用して、低周波数成分及び高周波数成分に基づいて、出力画像と、セマンティクスとは無関係の高周波数情報とを生成することとを含む。

[0097] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか１つを含む。

[0098] いくつかの実装形態では、行為は、可逆ニューラルネットワークを訓練することをさらに含み、可逆ニューラルネットワークは、第１の解像度の第１の画像に基づいて、第２の解像度の第２の画像と、既定の分布に従う第１の高周波数情報とを生成するように訓練され、及び可逆ニューラルネットワークの逆ネットワークは、第２の解像度の第３の画像と、既定の分布に従う第２の高周波数情報とに基づいて、第１の解像度の第４の画像を生成するように訓練される。

[0099] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、第１の解像度の訓練画像の第１の群を得ることと、訓練画像の第１の群のセマンティクスにそれぞれ対応する、第２の解像度の訓練画像の第２の群を得ることと、訓練画像の第１の群及び訓練画像の第２の群に基づいて、可逆ニューラルネットワークを訓練することとを含む。

[00100] いくつかの実装形態では、訓練画像の第２の群を得ることは、訓練画像の第１の群に基づいて、及び補間方法を使用して、訓練画像の第２の群を生成することを含む。

[00101] いくつかの実装形態では、可逆ニューラルネットワークを訓練することは、訓練画像の第１の群及び訓練画像の第２の群に基づいて、複数の目的関数を決定することと、複数の目的関数の少なくとも一部を組み合わせることにより、可逆ニューラルネットワークを訓練するための全目的関数を決定することと、全目的関数を最小化することにより、可逆ニューラルネットワークのネットワークパラメータを決定することとを含む。

[00102] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群に基づいて、及び可逆ニューラルネットワークを使用して、第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、訓練画像の第２の群と、訓練画像の第３の群との間の差に基づいて、第１の目的関数を決定することとを含む。

[00103] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群に基づいて、及び可逆ニューラルネットワークを使用して、第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、逆ネットワークを使用して、訓練画像の第３の群と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の訓練画像の第４の群を生成することと、訓練画像の第１の群と、訓練画像の第４の群との間の差に基づいて、第２の目的関数を決定することとを含む。

[00104] いくつかの実装形態では、複数の目的関数を決定することは、訓練画像の第１の群の第１のデータ分布を決定することと、訓練画像の第４の群の第２のデータ分布を決定することと、第１のデータ分布と第２のデータ分布との間の差に基づいて、第３の目的関数を決定することとを含む。

[00105] いくつかの実装形態では、複数の目的関数を決定することは、確率変数の群の第３のデータ分布を決定することと、第３のデータ分布と既定の分布との間の差に基づいて、第４の目的関数を決定することとを含む。

[00106] 第４の態様では、本明細書で説明される主題は、電子デバイスを提供する。電子デバイスは、処理ユニットと、処理ユニットに結合されたメモリであって、その上に格納された命令を含むメモリとを含み、命令は、処理ユニットによって実行されると、第２の解像度の入力画像を得ることと、訓練された可逆ニューラルネットワークを使用して、入力画像と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の出力画像を生成することとを含む行為をデバイスに実行させ、第１の解像度は、第２の解像度を超え、及び入力画像と出力画像とは、同じセマンティクスを有する。

[00107] いくつかの実装形態では、入力画像を得ることは、符号化された入力画像を得ることと、符号化された入力画像を復号することとを含む。

[00108] いくつかの実装形態では、可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び出力画像を生成することは、少なくとも１つの可逆ネットワークユニットを使用して、入力画像及び高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、低周波数成分は、入力画像のセマンティクスを表し、及び高周波数成分は、セマンティクスに関連する、生成することと、変換モジュールを使用して、低周波数成分と高周波数成分とを組み合わせて出力画像にすることとを含む。

[00109] いくつかの実装形態では、変換モジュールは、ウェーブレット変換モジュール及び可逆畳み込みブロックのいずれか１つを含む。

[00110] 第５の態様では、本明細書で説明される主題は、非一時的なコンピュータ記憶媒体に具体的に格納されており、及び機械実行可能命令を含むコンピュータプログラム製品を提供し、機械実行可能命令は、デバイスによって実行されると、第１の態様又は第２の態様による方法をデバイスに実行させる。

[00111] さらなる態様では、本明細書で説明される主題は、機械実行可能命令が格納されたコンピュータ可読媒体を提供し、機械実行可能命令は、デバイスによって実行されると、第１の態様又は第２の態様による方法をデバイスに実行させる。

[00112] 本明細書で説明される機能性は、１つ又は複数のハードウェアロジックコンポーネントにより、少なくとも部分的に実行することができる。例えば、限定されることなく、使用することができる例示されるタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）及び同様のものを含む。

[00113] 本明細書で説明される主題の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せで記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それにより、プログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で指定される機能／動作を実施させる。プログラムコードは、マシン上で全体的に、マシン上で部分的に、スタンドアロンソフトウェアパッケージとして、マシン上で部分的に及びリモートマシン上で部分的に又はリモートマシン若しくはサーバ上で全体的に実行することができる。

[00114] 本明細書で説明される主題に関連して、機械可読媒体は、命令実行システム、装置若しくはデバイスによって又は命令実行システム、装置若しくはデバイスと関係して使用するためのプログラムを含むか又は格納することができる任意の有形の媒体であり得る。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、これらに限定されないが、電子、磁気、光学、電磁、赤外線若しくは半導体システム、装置若しくはデバイス又は前述の任意の適切な組合せを含み得る。機械可読記憶媒体のより具体的な例は、１つ若しくは複数のワイヤを有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去型プログラム可能読み取り専用メモリ（ＥＰＲＯＭ若しくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置又は前述の任意の適切な組合せを含むであろう。

[00115] さらに、動作は、特定の順番で描写されているが、示される特定の順番で若しくは順次に動作を実行する必要があるか、又は期待される結果を得るように、示されるすべての動作を実行する必要があることを理解すべきである。特定の状況では、マルチタスキング及び並列処理が有利であり得る。同様に、いくつかの特定の実装形態の詳細が上記の論考に含まれているが、これらは、本明細書で説明される主題の範囲を限定するものと解釈すべきではない。別々の実装形態に関連して説明される特定の特徴は、単一の実装形態において組み合わせて実装することもできる。逆に、単一の実装形態に関連して説明される様々な特徴は、複数の実装形態において別々に又は任意の適切な部分組合せで実装することもできる。

[00116] 本明細書で説明される主題は、構造上の特徴及び／又は方法の行為に特有の言語で説明されているが、添付の特許請求の範囲で指定されるような本明細書で説明される主題は、必ずしも上記で説明される特定の特徴又は行為に限定されないことを理解されたい。むしろ、上記で説明される特定の特徴及び行為は、特許請求の範囲を実装する形態の例として開示される。

Claims

コンピュータ実装方法であって、
第１の解像度の入力画像を得ることと、
前記入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第２の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することと
を含み、前記第１の解像度は、前記第２の解像度を超え、及び前記入力画像と前記出力画像とは、同じセマンティクスを有する、コンピュータ実装方法。
前記可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び前記出力画像と前記高周波数情報とを生成することは、
前記変換モジュールを使用して、前記入力画像を、前記入力画像のセマンティクスを表す低周波数成分と、前記セマンティクスに関連する高周波数成分とに分解することと、
前記少なくとも１つの可逆ネットワークユニットを使用して、前記低周波数成分及び前記高周波数成分に基づいて、前記出力画像と、前記セマンティクスとは無関係の前記高周波数情報とを生成することと
を含む、請求項１に記載の方法。
前記変換モジュールは、
ウェーブレット変換モジュール、及び
可逆畳み込みブロック
のいずれか１つを含む、請求項２に記載の方法。
前記可逆ニューラルネットワークを訓練することをさらに含み、
前記可逆ニューラルネットワークは、前記第１の解像度の第１の画像に基づいて、前記第２の解像度の第２の画像と、前記既定の分布に従う第１の高周波数情報とを生成するように訓練され、及び
前記可逆ニューラルネットワークの逆ネットワークは、前記第２の解像度の第３の画像と、前記既定の分布に従う第２の高周波数情報とに基づいて、前記第１の解像度の第４の画像を生成するように訓練される、請求項１に記載の方法。
前記可逆ニューラルネットワークを訓練することは、
前記第１の解像度の訓練画像の第１の群を得ることと、
前記訓練画像の第１の群のセマンティクスにそれぞれ対応する、前記第２の解像度の訓練画像の第２の群を得ることと、
前記訓練画像の第１の群及び前記訓練画像の第２の群に基づいて、前記可逆ニューラルネットワークを訓練することと
を含む、請求項４に記載の方法。
前記訓練画像の第２の群を得ることは、
前記訓練画像の第１の群に基づいて、及び補間方法を使用して、前記訓練画像の第２の群を生成すること
を含む、請求項５に記載の方法。
前記可逆ニューラルネットワークを訓練することは、
前記訓練画像の第１の群及び前記訓練画像の第２の群に基づいて、複数の目的関数を決定することと、
前記複数の目的関数の少なくとも一部を組み合わせることにより、前記可逆ニューラルネットワークを訓練するための全目的関数を決定することと、
前記全目的関数を最小化することにより、前記可逆ニューラルネットワークのネットワークパラメータを決定することと
を含む、請求項５に記載の方法。
前記複数の目的関数を決定することは、
前記訓練画像の第１の群に基づいて、及び前記可逆ニューラルネットワークを使用して、前記第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、
前記訓練画像の第２の群と、前記訓練画像の第３の群との間の差に基づいて、第１の目的関数を決定することと
を含む、請求項７に記載の方法。
前記複数の目的関数を決定することは、
前記訓練画像の第１の群に基づいて、及び前記可逆ニューラルネットワークを使用して、前記第２の解像度の訓練画像の第３の群及び確率変数の群を生成することと、
前記逆ネットワークを使用して、前記訓練画像の第３の群と、前記既定の分布に従う高周波数情報とに基づいて、前記第１の解像度の訓練画像の第４の群を生成することと、
前記訓練画像の第１の群と、前記訓練画像の第４の群との間の差に基づいて、第２の目的関数を決定することと
を含む、請求項７に記載の方法。
前記複数の目的関数を決定することは、
前記訓練画像の第１の群の第１のデータ分布を決定することと、
前記訓練画像の第４の群の第２のデータ分布を決定することと、
前記第１のデータ分布と前記第２のデータ分布との間の差に基づいて、第３の目的関数を決定することと
を含む、請求項９に記載の方法。
前記複数の目的関数を決定することは、
前記確率変数の群の第３のデータ分布を決定することと、
前記第３のデータ分布と前記既定の分布との間の差に基づいて、第４の目的関数を決定することと
を含む、請求項９に記載の方法。
コンピュータ実装方法であって、
第２の解像度の入力画像を得ることと、
訓練された可逆ニューラルネットワークを使用して、前記入力画像と、既定の分布に従う高周波数情報とに基づいて、第１の解像度の出力画像を生成することと
を含み、前記第１の解像度は、前記第２の解像度を超え、及び前記入力画像と前記出力画像とは、同じセマンティクスを有する、コンピュータ実装方法。
前記可逆ニューラルネットワークは、変換モジュールと、少なくとも１つの可逆ネットワークユニットとを含み、及び前記出力画像を生成することは、
前記少なくとも１つの可逆ネットワークユニットを使用して、前記入力画像及び前記高周波数情報に基づいて、組み合わされる低周波数成分及び高周波数成分を生成することであって、前記低周波数成分は、前記入力画像のセマンティクスを表し、及び前記高周波数成分は、前記セマンティクスに関連する、生成することと、
前記変換モジュールを使用して、前記低周波数成分と前記高周波数成分とを組み合わせて前記出力画像にすることと
を含む、請求項１２に記載の方法。
前記変換モジュールは、
ウェーブレット変換モジュール、及び
可逆畳み込みブロック
のいずれか１つを含む、請求項１３に記載の方法。
電子デバイスであって、
処理ユニットと、
前記処理ユニットに結合されたメモリであって、その上に格納された命令を含むメモリと
を含み、前記命令は、前記処理ユニットによって実行されると、
第１の解像度の入力画像を得ることと、
前記入力画像に基づいて、及び訓練された可逆ニューラルネットワークを使用して、第２の解像度の出力画像と、既定の分布に従う高周波数情報とを生成することと
を含む行為を前記デバイスに実施させ、
前記第１の解像度は、前記第２の解像度を超え、及び前記入力画像と前記出力画像とは、同じセマンティクスを有する、電子デバイス。