JP2021511579A

JP2021511579A - 画像処理システム及び画像処理方法

Info

Publication number: JP2021511579A
Application number: JP2020539002A
Authority: JP
Inventors: カンシゾグル、エスラ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-03-29
Filing date: 2018-10-26
Publication date: 2021-05-06
Anticipated expiration: 2038-10-26
Also published as: WO2019187298A1; JP7155271B2; US20190304063A1; US10540749B2

Abstract

画像処理システムは、画像生成器をトレーニングするために画像のペアのセットを受信する入力インターフェースであって、各ペアは、シーンの低解像度画像及びシーンの高解像度画像を含む、入力インターフェースと、最適化問題を解いて、高解像度画像の画像勾配と画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する画像生成器のパラメータを生成することによって画像生成器をトレーニングするプロセッサと、画像生成器のパラメータをレンダリングする出力インターフェースとを備える。

Description

本発明は、包括的には、画像処理に関し、より詳細には、低解像度画像から高解像度画像を生成する画像超解像技術（super-resolution：超解像技術）に関する。

超解像技術は、低解像度画像から高解像度画像を生成することを目的とするタスクである。例えば、顔アップサンプリング又は顔超解像技術は、顔の低解像度入力画像から顔の高解像度画像を生成するタスクである。顔アップサンプリングは、監視、認証及び写真において広範な応用を有する。顔アップサンプリングは、入力顔解像度が非常に低い（例えば、１２×１２ピクセル）場合、倍率が高い（例えば、８倍）場合、及び／又は、姿勢及び照明が変動する制御不能な環境において顔画像を捕捉する場合、特に困難である。

超解像に対処するためには、主に、３つのカテゴリ、すなわち、補間ベース方法、再構成ベース方法、及び学習ベース方法が存在する。補間ベース方法は、シンプルであるが、高周波数細部がぼけを含む傾向にある。補間ベース方法には、例えば、ニアレストネイバー補間、バイリニア補間及びバイキュービック補間がある。しかしながら、補間ベース画像超解像方法では、画像の細部が失われるか又は不十分な品質を有する平滑化された画像を生成する。鮮鋭な高解像度画像を得るために、いくつかの方法は、補間の後にバイラテラルフィルタリング等の画像鮮鋭化フィルターを用いていた。

再構成ベース方法は、再構成制約を強制し、再構成制約は、高解像度画像の平滑化かつダウンサンプリングされたバージョンが低解像度画像に近いことを求める。例えば、１つの方法は、顔を幻覚化する（hallucinating）するために２段階手法を用いる。まず、線形射影演算である固有顔（eigenface）モデルを用いて大域的顔の再構成が行われる。第２段階において、再構成された大域的顔の細部は、近傍パッチにわたる一貫性がマルコフ確率場を通して強制されるトレーニングセットからの非パラメトリックパッチ転写によって強調される。この方法は、顔画像がほぼ正面向きであり、良好に位置合わせされ、かつ照明条件が制御されている場合、高品質の顔の幻覚化（face hallucination）結果を生成する。しかしながら、これらの仮定が守られない場合、シンプルな線形固有顔モデルは、満足な大域的顔再構成を生成することに失敗する。

学習ベース方法は、高解像度／低解像度画像ペアのトレーニングセットから高周波数の細部を「幻覚化する」。学習ベース手法は、トレーニングセットとテストセットとの間の類似度にかなりの程度依存する。しかしながら、学習ベース方法にとって、超解像された画像の高周波数細部を再構成することは困難である。例えば、特許文献１を参照されたい。例えば、１つの方法は、顔アップサンプリングのためにバイチャネル畳み込みニューラルネットワーク（ＢＣＣＮＮ：bi-channel convolutional neural network）を用いる。その方法は、畳み込み層と、それに後続する全結合層とを含む畳み込みニューラルネットワークアーキテクチャを使用し、このアーキテクチャの出力は、バイキュービックアップサンプリング画像を用いて平均される。このネットワークの最終層は、全結合であり、ここで、高解像度ベースの画像が平均される。その平均に起因して、個人に固有の顔の細部が失われる可能性がある。

米国特許第９８３６８２０号

したがって、画像の高周波数細部をアップサンプリングするのに適した学習ベース超解像方法が必要とされている。

機械学習は、コンピュータに、明示的にプログラミングすることなく特定のタスクを学習させ、そのタスクを達成する能力を与える、コンピュータサイエンスの一分野である。例えば、機械学習は、複雑なタスクを、学習されたパラメトリック関数として表すことを可能にする。これにより、そのタスクを達成するのに要するメモリ使用量が削減されるとともに、そのタスクを実行するプロセッサの性能が簡素化される。機械学習は、オブジェクト認識、検証及び検出、画像セグメンテーション、音声処理並びに制御等の多岐にわたる応用において用いられる。

畳み込みニューラルネットワーク（ＣＮＮ：convolutional Neural Networks）、リカレントニューラルネットワーク（ＲＮＮ：Recurrent Neural Networks）等の人工ニューラルネットワーク（ＡＮＮ：Artificial neural networks）は、生物学的な神経網（biological neural networks）から着想を得た機械学習フレームワークの一部を形成する。そのようなニューラルネットワークベースシステムは、概してタスク固有のプログラミングを用いることなく、例を検討することによってタスクを行うように学習する。そのような学習プロセスは、通常、トレーニング、すなわち、ニューラルネットワークのトレーニングと称される。例えば、画像超解像において、ニューラルネットワークベースシステムは、グラウンドトゥルース高解像度画像の画像ピクセルと、ニューラルネットワークによって超解像された画像の画像ピクセルとの間のＬ２距離、すなわち、ユークリッド距離を低減するように画像をアップサンプリングするように学習することができる。

ニューラルネットワークがタスクを達成することができるまでに、ニューラルネットワークは、トレーニングを必要とし、これは、冗長なプロセスであり得る。いくつかの実施の形態は、画像超解像について、トレーニング段階におけるコスト関数として、グラウンドトゥルース高解像度画像の画像ピクセルと、超解像された画像の画像ピクセルとの間のＬ２距離、例えば、ユークリッド距離を最小化するように、ニューラルネットワークをトレーニングすることができるという認識に基づいている。しかしながら、ピクセル強度間のＬ２距離の使用は、超解像されたアップサンプリング画像における重要な細部を潜在的に平滑化除去する可能性がある。なぜならば、平均画像は、グラウンドトゥルースとの低Ｌ２距離を与えるためである。したがって、顔の画像等のアップサンプリング画像の高周波数細部を保存することが必要とされている。

高周波数細部を保存するために、いくつかの実施の形態は、グラウンドトゥルースの画像勾配と、超解像された顔の画像勾配との間のＬ２距離を用いる。画像勾配距離の使用は、収束を高速化するとともにより鮮鋭な見た目の画像を生成することに役立つ。加えて又は代替的に、ピクセル強度に基づく再構成損失に、画像勾配距離を用いることができる。

いくつかの実施の形態は、フォトリアリスティックな（photorealistic）高解像度画像、例えば、顔の画像のアップサンプリングは、以下の制約を満たす必要があるという認識に基づいている。第１の制約は、再構成された高解像度顔画像は、形状、姿勢、及び対称性等の全体論的な制約を満たす必要があり、かつ、目及び鼻等の細部で特色的な顔の特徴を含む必要があるということを要求する大域的制約である。第２の制約は、再構成された局所的画像領域の統計値が、高解像度顔画像パッチ、例えば、鮮鋭な境界を有する平滑領域に整合する必要があるとともに、顔固有の細部を含むべきであるということを要求する局所的制約である。第３の制約は、再構成が、観測された低解像度画像と一貫する必要があるということを要求するデータ制約である。しかしながら、ピクセル強度間のＬ２距離は、データ制約を保存する可能性があるものの、画像の更なる認識のために重要である大域的制約及び局所的制約を満たすことに失敗する可能性がある。

いくつかの実施の形態は、或る画像における高周波数情報は、大きな画像勾配を有する領域から由来するという理解に基づいている。それゆえ、大きな勾配がアップサンプリングプロセス中に保存された場合、結果として得られる画像は、より鮮鋭になる可能性がある。その上、未加工画像における勾配プロファイルの形状統計値は、安定しており、画像解像度に対して不変である。そのような安定した統計値を用いて、高解像度画像と超解像された低解像度画像との間の勾配プロファイルの鮮鋭度の統計的関係を学習することができる。勾配プロファイル事前分布（gradient profile prior）及び統計的関係を用いて、制約が、高解像度画像の勾配場上で提供される。再構成制約と組み合わされると、高品質高解像度画像が結果として得られる。

いくつかの実施の形態は、顔等の目標物体についての４倍を超える高倍率は、「顔画像」に可能な限り近い画像のアップサンプリングを提供するために深層学習方法が有益であるという認識に基づいている。なぜならば、いくつかの応用において、結果として得られるアップサンプリング画像は、顔同定タスクにおいて用いられることが意図されており、「顔」を復元することが有益であるためである。いくつかの実施の形態は、画像の更なる分類又は認識に有益な高周波数細部を保存する画像超解像方法を提示する。

そのために、いくつかの実施の形態は、高周波数細部を保存するために、高解像度のグラウンドトゥルース画像の画像勾配と、ニューラルネットワークによって超解像された対応する画像の画像勾配との間のＬ２距離を用いて、画像超解像のためのニューラルネットワークをトレーニングする。画像勾配制約の使用は、収束を高速化するとともに、より鮮鋭な見た目の画像を生成することに役立つ。

したがって、１つの実施の形態は、画像処理システムを開示する。画像処理システムは、画像生成器をトレーニングするために画像のペアのセットを受信する入力インターフェースであって、各ペアは、シーンの低解像度画像及びシーンの高解像度画像を含む、入力インターフェースと、最適化問題を解いて、高解像度画像の画像勾配と画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する画像生成器のパラメータを生成することによって画像生成器をトレーニングするプロセッサと、画像生成器のパラメータをレンダリングする出力インターフェースとを備える。

別の実施の形態は、画像処理方法を開示する。方法は、方法を実施する記憶された命令と結合されたプロセッサを使用する。命令は、プロセッサによって実行されると、方法のステップを実行する。方法は、画像生成器をトレーニングするために画像のペアのセットを受信することであって、各ペアは、シーンの低解像度画像及びシーンの高解像度画像を含むことと、最適化問題を解いて、高解像度画像の画像勾配と画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する画像生成器のパラメータを生成することによって画像生成器をトレーニングすることと、画像生成器のパラメータを出力することとを含む。

更に別の実施の形態は、方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体を開示する。方法は、画像生成器をトレーニングするために画像のペアのセットを受信することであって、各ペアは、シーンの低解像度画像及びシーンの高解像度画像を含むことと、最適化問題を解いて、高解像度画像の画像勾配と画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する画像生成器のパラメータを生成することによって画像生成器をトレーニングすることと、画像生成器のパラメータを出力することとを含む。

画像生成器をトレーニングするためにいくつかの実施形態によって用いられる画像１０１及びその勾配画像１０２の一例を示す図である。いくつかの実施形態による、低解像度画像をアップサンプリングする画像生成器をトレーニングする方法の概略図である。いくつかの実施形態による、画像生成器をトレーニングする画像処理システムのブロック図である。いくつかの実施形態による、画像生成器のトレーニングが完了した後のアップサンプリングの概略図である。いくつかの実施形態によって用いられるトレーニングの概略図である。いくつかの実施形態によって用いられるトレーニング方法のブロック図である。１つの実施形態によるトレーニングシステムのブロック図である。

図１は、いくつかの実施形態による、一例の画像１０１及びその勾配画像１０２を示しており、勾配画像１０２において、各ピクセルは、入力画像のそのピクセルに対して計算される画像勾配の大きさを示している。見て取ることができるように、エッジ及び高周波数の細部が、高い勾配の大きさを生成する。いくつかの実施形態は、低解像度画像から高周波数情報を復元する際に、超解像中に勾配の大きさを保存することが有益であるという理解に基づいている。鮮鋭画像を生成することは、低解像度画像からの更なる認識タスク及び同定タスクにとって重要である。

図２は、いくつかの実施形態による、低解像度画像をアップサンプリングする画像生成器をトレーニングする方法の概略図を示している。画像生成器は、低解像度画像の解像度を高めて、高解像度又は相対的に高い解像度の画像を生成する。画像生成器の一例は、ニューラルネットワークである。

高解像度画像２０１及び対応する低解像度画像２０２のペアが、学習システム２１０に提供される。本開示では、低解像度及び高解像度という用語は、互いを基準として用いられる。具体的には、高解像度画像の解像度は、低解像度画像の解像度よりも高い。システム２１０は、コスト関数を最適化して、画像生成器２０４のパラメータ２０９を学習する。低解像度画像２０２は、画像生成器２０４によってアップサンプリングされて、アップサンプリング画像２２０が生成される。高解像度グラウンドトゥルース画像２０１及び超解像されたアップサンプリング画像２２０の双方に対して、勾配計算２０３が実行される。

例えば、いくつかの実施形態は、例えばガウスカーネル畳み込みと、それに後く空間勾配計算とを用いて、ピクセル単位で画像勾配を計算する。Ｉは画像を示し、Ｈ_σは分散σのガウスカーネルを用いた畳み込み関数を示すものとする。まず、勾配計算において推定雑音を低減するために、画像を、ガウスカーネルを用いて畳み込む。

畳み込まれた画像のピクセルロケーション（ｒ，ｃ）において計算されるｘ方向及びｙ方向の画像勾配は、

であり、ここで、Ｉ（ｒ，ｃ）は、画像Ｉのピクセル（ｒ，ｃ）において読み取られる強度値を示す。したがって、勾配の大きさは、以下のように計算される。

この勾配計算は、勾配画像のペア２０６をもたらし、ペアの第１の画像２０７は、高解像度画像２０１の勾配であり、ペアの第２の画像２０８は、超解像されたアップサンプリング画像２２０の勾配である。それゆえ、学習システムは、勾配画像２０７と２０８との間のユークリッド距離を最小化して、画像生成器２０４のパラメータ２０９を決定／更新する。学習システムは、最適化が完了した後に画像生成器のパラメータ２０９を出力する。例えば、パラメータ更新は、入力画像の１つ又は複数のペアについて反復して実行することができ、学習システムは、終了条件が満たされるとパラメータ２０９を出力する。終了条件の例として、反復回数及びパラメータ２０９の更新率が挙げられる。

いくつかの実施形態は、フォトリアリスティックな高解像度画像、例えば、顔の画像のアップサンプリングは、以下の制約を満たす必要があるという認識に基づいている。第１の制約は、再構成された高解像度顔画像は、形状、姿勢、及び対称性等の全体論的な制約を満たす必要があり、かつ、目及び鼻等の細部で特色的な顔の特徴を含む必要があるということを要求する大域的制約である。第２の制約は、再構成された局所的画像領域の統計値が、高解像度顔画像パッチ、例えば、鮮鋭な境界を有する平滑領域に整合する必要があるとともに、顔固有の細部を含むべきであるということを要求する局所的制約である。第３の制約は、再構成が、観測された低解像度画像と一貫する必要があるということを要求するデータ制約である。しかしながら、ピクセル強度間のＬ２距離は、データ制約を保存する可能性があるものの、画像の更なる認識のために重要である大域的制約及び局所的制約を満たすことに失敗する可能性がある。

いくつかの実施形態は、或る画像における高周波数情報は、大きな画像勾配を有する領域から由来するという理解に基づいている。それゆえ、大きな勾配がアップサンプリングプロセス中に保存された場合、結果として得られる画像は、より鮮鋭になる可能性がある。その上、未加工画像における勾配プロファイルの形状統計値は、安定しており、画像解像度に対して不変である。そのような安定した統計値を用いて、高解像度画像と超解像された低解像度画像との間の勾配プロファイルの鮮鋭度の統計的関係を学習することができる。勾配プロファイル事前分布及び統計的関係を用いて、制約が、高解像度画像の勾配場上で提供される。再構成制約と組み合わされると、高品質高解像度画像が結果として得られる。

いくつかの実施形態は、顔等の目標物体についての４倍を超える高倍率は、「顔画像」に可能な限り近い画像のアップサンプリングを提供するために深層学習方法から利益を得ることができるという認識に基づいている。なぜならば、いくつかの応用において、結果として得られるアップサンプリング画像は、顔同定タスクにおいて用いられることが意図されており、「顔」を復元することが有益であるためである。いくつかの実施形態は、画像の更なる分類又は認識に有益な高周波数細部を保存する画像超解像方法を提示する。

そのために、いくつかの実施形態は、高周波数細部を保存するために、高解像度のグラウンドトゥルース画像の画像勾配と、ニューラルネットワークによって超解像された対応する画像の画像勾配との間のＬ２距離を用いて、画像超解像のためのニューラルネットワークをトレーニングする。画像勾配制約の使用は、収束を高速化するとともに、より鮮鋭な見た目の画像を生成することに役立つ。

図３は、いくつかの実施形態による、画像生成器をトレーニングする画像処理システム３００のブロック図を示している。システム３００は、低解像度画像２０２及びその対応する高解像度画像２０１を含む画像のペア３０１を受信する入力インターフェース３０４を備える。例えば、入力インターフェースは、システム３００をキーボード及びポインティングデバイスに接続するヒューマンマシンインターフェースを含むことができ、ポインティングデバイスは、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーン等である。

加えて又は代替的に、入力インターフェース３０４は、トレーニングシステムをネットワークに接続するネットワークインターフェースコントローラーを含むことができる。有線ネットワーク及び／又は無線ネットワーク等のネットワークを用いて、更なる処理のためにトレーニング画像のペア３０１をダウンロードすることができる。

画像処理システム３００は、超解像損失関数を最小化することによって最適化問題３０５を解いて、画像生成器のパラメータ２０４を見つけるプロセッサ３０８を備え、画像生成器は、勾配計算器２０３とインタラクトする。プロセッサ３０８は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。

画像処理システム３００は、最適化問題が解かれた後に画像生成器のパラメータ２０９をレンダリングする出力インターフェース３０９を備える。出力インターフェース３０９は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリシステム等のメモリを含むことができる。加えて又は代替的に、出力インターフェースは、画像処理システム３００を、とりわけ、コンピュータモニター、カメラ、テレビジョン、プロジェクター、又はモバイルデバイス等のディスプレイデバイスに接続するように適応されたディスプレイインターフェースを含むことができる。加えて又は代替的に、出力インターフェースは、システム３００を撮像デバイスに接続するように適応された撮像インターフェースを含むことができる。１つの実施形態では、トレーニング画像は、ビデオカメラ、コンピュータ、モバイルデバイス、ウェブカム、又はこれらの任意の組み合わせ等の撮像デバイスから受信され、及び／又は撮像デバイスにレンダリングされる。

加えて又は代替的に、出力インターフェースは、画像処理システム３００を、画像アップサンプリング及び超解像の結果に基づいて動作することができるアプリケーションデバイスに接続するように適応されたアプリケーションインターフェースを含む。例えば、アプリケーションデバイスは、セキュリティアプリケーションを実行することができる。例えば、アプリケーションデバイスは、画像処理システム３００によってトレーニングされた画像生成器に作動的に接続するとともに、画像生成器を用いて入力画像をアップサンプリングして、アップサンプリングされた入力画像に基づいて制御アクションを実行するように構成することができる。

図４は、いくつかの実施形態による、画像生成器のトレーニングが完了した後のアップサンプリングの概略図を提示している。所与の入力低解像度画像４０１が、本発明による画像生成器２０４にフィードされ、画像生成器のパラメータ２０９が、トレーニングプロセス中に見つけられる。画像生成器２０４は、試験／推論の結果として超解像されたアップサンプリング画像４０４を出力する。複数の実施態様において、超解像されたアップサンプリング画像４０４の解像度は、トレーニングに用いられる高解像度画像２０１の解像度に対応する。

図５は、いくつかの実施形態によって用いられるトレーニングの概略図を示している。これらの実施形態において、画像生成器は、人工ニューラルネットワークである。トレーニング５１０は、低解像度画像５０１及び対応する高解像度グラウンドトゥルース画像５０２のペアのトレーニングセットを用いて、ネットワークの重み５２０を生成する。一般に、人工ニューラルネットワークをトレーニングすることは、時として「学習」と称されるトレーニング方法を、トレーニングセットを考慮して人工ニューラルネットワークに適用することを含む。トレーニングセットは、１つ以上の入力セット及び１つ以上の出力セットを含むことができ、各入力セットは、１つの出力セットに対応する。トレーニングセット内の出力セットは、対応する入力セットが人工ニューラルネットワークに入力され、次に、人工ニューラルネットワークがフィードフォワード方式で動作されると、人工ニューラルネットワークが生成するように所望される出力セットを含む。

ニューラルネットワークをトレーニングすることには、人工ニューラルネットワーク内の結合に関連付けられた重み値を計算することが伴う。そのために、本明細書において別段に言及されない限り、トレーニングは、ニューラルネットワークの層及び／又はノードの結合についての重み値を電子的に計算することを含む。それらの重み値は、画像生成器のパラメータである。

図６は、いくつかの実施形態によって用いられるトレーニング方法５１０のブロック図を示している。方法は、画像生成器２０４を用いてセット５０１からの低解像度画像をアップサンプリングして、アップサンプリング画像４０４を生成し、アップサンプリング画像４０４を、セット２０１からの対応する高解像度画像と比較する。出力画像の勾配２０８及び高解像度画像の勾配２０７が計算されて、２つの勾配画像間の距離が生成される（６３０）。例えば、１つの実施形態は、２つの勾配画像間のユークリッド距離を求める。ネットワークは、最適化手順を用いて、ネットワークパラメータに関する距離を最小化するようにトレーニングされる（６３０）。最適化は、勾配降下、確率的勾配降下、及びニュートン法を含む種々の異なる方法を用いて行うことができる。

例えば、１つの実施形態では、プロセッサは、最適化問題を解いて、高解像度画像の画像勾配と画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する画像生成器のパラメータを生成する。Ｇは、低解像度画像を与えられると高解像度画像を出力する画像生成器を示し、Ｄは、勾配の大きさ計算についての関数を示すものとする。トレーニング中、それぞれ高解像度画像及び対応する低解像度画像

のＮ個のペアが提供される。勾配の大きさの間の距離に基づく損失関数は、

であり、ここで、｜｜・｜｜は、Ｌ_２ノルムを示している。

加えて又は代替的に、１つの実施形態では、プロセッサは、高解像度画像の画像勾配と画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離、及び、高解像度画像のピクセル強度と画像生成器によってアップサンプリングされた対応する低解像度画像のピクセル強度との間の距離の重み付き組み合わせを含むコスト関数を最小化する。この実施形態は、勾配とピクセル強度との利点を平衡化させて、アップサンプリングされた画像の品質を改善する。ピクセル強度に基づく損失関数は、以下のように表すことができる。

２つの関数の重み付き組み合わせをシステムのトレーニングにおける損失として用いることができ、

ここで、α及びβは、２つの損失間の重み付け係数である。重み付け係数は、目下の問題に基づいて経験的に決定することができる。αがβよりもはるかに小さい場合、及び／又はαが０に近い場合、画像生成器は、より平滑な画像をもたらす。同様に、βがαと比較して小さい場合、及び／又はβが０に近い場合、画像生成器は、より鮮鋭な見た目の画像を生成する。

高解像度出力画像の勾配画像は、グラウンドトゥルース画像の勾配画像と比較してより平滑化除去されて見えることに留意されたい。これは、超解像された画像がぼけを含むとともに、エッジの周辺の細部情報が欠落しているためである。ここでもまた、勾配画像は、画像のいずれのピクセルが高周波数細部を有するのか、及びそれらをいかに鮮鋭化することができるのかについての重要な情報を与える。

図７は、１つの実施形態による、画像処理システムにおいて用いられるトレーニングシステムのハードウェア図を示している。トレーニングシステムは、バス２２によってリードオンリーメモリ（ＲＯＭ）２４及びメモリ３８に接続されたプロセッサを含む。トレーニングシステムは、ユーザに情報を提示するディスプレイ２８と、キーボード２６、マウス３４及び入力／出力ポート３０を介してアタッチすることができる他のデバイスを含む複数の入力デバイスとを含むこともできる。他のポインティングデバイス又は音声センサー又は画像センサー等の他の入力デバイスをアタッチすることもできる。他のポインティングデバイスは、タブレット、数値キーパッド、タッチスクリーン、タッチスクリーンオーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等を含む。Ｉ／Ｏ３０は、通信線、ディスクストレージ、入力デバイス、出力デバイス又は他のＩ／Ｏ機器に接続することができる。メモリ３８は、ディスプレイスクリーンについてのピクセル強度値を含むディスプレイバッファ７２を含む。ディスプレイ２８は、ディスプレイバッファ７２からピクセル値を定期的に読み取り、これらの値をディスプレイスクリーンに表示する。ピクセル強度値は、グレーレベル又は色を表すことができる。

メモリ３８は、データベース９０、トレーナ８２、ニューラルネットワーク７００を含む画像生成器、プリプロセッサ８４を含む。データベース９０は、履歴データ１０６、トレーニングデータ、試験データ９２を含むことができる。データベースは、ニューラルネットワークの使用の動作モード、トレーニングモード又は維持モードからの結果を含むこともできる。これらの要素は、上記で詳細に説明されたものである。

また、メモリ３８には、オペレーティングシステム７４が示されている。オペレーティングシステムの例として、ＡＩＸ、ＯＳ／２、及びＤＯＳが挙げられる。メモリ３８に示される他の要素は、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバ７６を含む。ワーキングメモリエリア７８もメモリ３８に示されている。ワーキングメモリエリア７８は、メモリ３８に示される要素のうちのいずれによっても利用することができる。ワーキングメモリエリアは、ニューラルネットワーク７００、トレーナ８２、オペレーティングシステム７４及び他の機能によって利用することができる。ワーキングメモリエリア７８は、複数の要素間で、及び一要素内で区画化することができる。ワーキングメモリエリア７８は、通信、バッファリング、一時記憶、又はプログラムが実行されている間のデータの記憶に利用することができる。

本発明の上記で説明した実施形態は、多数の方法のうちの任意のもので実施することができる。例えば、実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータに設けられるのか又は複数のコンピュータ間に分散されるのかにかかわらず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、１つ以上のプロセッサを集積回路部品に有する集積回路として実装することができる。ただし、プロセッサは、任意の適したフォーマットの回路類を用いて実装することができる。

また、本発明の実施形態は、例が提供された方法として実施することができる。この方法の一部として実行される動作は、任意の適切な方法で順序付けすることができる。

したがって、動作が示したものと異なる順序で実行される実施形態を構築することができ、これには、例示の実施形態では一連の動作として示されたにもかかわらず、いくつかの動作を同時に実行することを含めることもできる。

請求項の要素を修飾する、特許請求の範囲における「第１」、「第２」等の序数の使用は、それ自体で、或る請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する或る請求項の要素を、同じ（序数の用語の使用を除く）名称を有する別の要素と区別するラベルとして用いられているにすぎない。

Claims

画像生成器をトレーニングするために画像のペアのセットを受信する入力インターフェースであって、各ペアは、シーンの低解像度画像及び前記シーンの高解像度画像を含む、入力インターフェースと、
最適化問題を解いて、前記高解像度画像の画像勾配と、前記画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する前記画像生成器のパラメータを生成することによって前記画像生成器をトレーニングするプロセッサと、
前記画像生成器のパラメータをレンダリングする出力インターフェースと、
を備える、画像処理システム。
前記画像生成器は、ニューラルネットワークであり、前記画像生成器のパラメータは、前記プロセッサが前記画像のペアのセットを用いて前記ニューラルネットワークをトレーニングする、前記ニューラルネットワークの異なる層のノード間の結合の重みである、請求項１に記載の画像処理システム。
前記プロセッサは、前記高解像度画像の画像勾配と前記画像生成器によってアップサンプリングされた前記対応する低解像度画像の画像勾配との間の距離、及び、前記高解像度画像のピクセル強度と前記画像生成器によってアップサンプリングされた前記対応する低解像度画像のピクセル強度との間の距離の重み付き組み合わせを含むコスト関数を最小化する、請求項１に記載の画像処理システム。
前記プロセッサは、確率的勾配降下を用いて前記最適化問題を解く、請求項１に記載の画像処理システム。
前記プロセッサは、ガウスカーネル畳み込みと、それに後続する空間勾配計算とを用いて、画像勾配を計算するように構成される、請求項１に記載の画像処理システム。
前記プロセッサは、ピクセル単位で画像勾配を求める、請求項１に記載の画像処理システム。
請求項１に記載の画像処理システムによってトレーニングされた前記画像生成器に作動的に接続されたデバイスであって、前記画像生成器を用いて入力画像をアップサンプリングするとともに、アップサンプリングされた入力画像に基づいて制御アクションを実行するように構成される、デバイス。
画像処理方法であって、画像処理の方法は、前記方法を実施する記憶された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記方法は、
画像生成器をトレーニングするために画像のペアのセットを受信することであって、各ペアは、シーンの低解像度画像及び前記シーンの高解像度画像を含むことと、
最適化問題を解くことによって、前記高解像度画像の画像勾配と前記画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する前記画像生成器のパラメータを生成することによって前記画像生成器をトレーニングすることと、
前記画像生成器のパラメータを出力することと、
を含む、画像処理方法。
前記画像生成器は、ニューラルネットワークである、請求項８に記載の画像処理方法。
前記最適化問題を解くことは、
前記高解像度画像の画像勾配と前記画像生成器によってアップサンプリングされた前記対応する低解像度画像の画像勾配との間の距離、及び、前記高解像度画像のピクセル強度と前記画像生成器によってアップサンプリングされた前記対応する低解像度画像のピクセル強度との間の距離の重み付き組み合わせを含むコスト関数を最小化すること、
を含む、請求項８に記載の画像処理方法。
前記最適化問題は、確率的勾配降下を用いて解かれる、請求項８に記載の画像処理方法。
ガウスカーネル畳み込みと、それに後続する空間勾配計算とを用いて、画像勾配を計算すること、
を更に含む、請求項８に記載の画像処理方法。
前記高解像度画像の画像勾配および前記対応する低解像度画像の画像勾配は、ピクセル単位で計算される、請求項８に記載の画像処理方法。
方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、前記方法は、
画像生成器をトレーニングするために画像のペアのセットを受信することであって、各ペアは、シーンの低解像度画像及び前記シーンの高解像度画像を含むことと、
最適化問題を解くことによって、前記高解像度画像の画像勾配と前記画像生成器によってアップサンプリングされた対応する低解像度画像の画像勾配との間の距離を低減する前記画像生成器のパラメータを生成することによって前記画像生成器をトレーニングすることと、
前記画像生成器の前記パラメータを出力することと、
を含む、媒体。
前記最適化問題を解くことは、
前記高解像度画像の画像勾配と前記画像生成器によってアップサンプリングされた前記対応する低解像度画像の画像勾配との間の距離、及び、前記高解像度画像のピクセル強度と前記画像生成器によってアップサンプリングされた前記対応する低解像度画像のピクセル強度との間の距離の重み付き組み合わせを含むコスト関数を最小化すること、
を含む、請求項１４に記載の媒体。