JP7415251B2

JP7415251B2 - 画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム

Info

Publication number: JP7415251B2
Application number: JP2020529196A
Authority: JP
Inventors: ミケリーニパブロナバレッテ、; ダンジュー、; ハンウェンリウ、
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-09-30
Filing date: 2019-04-23
Publication date: 2024-01-17
Anticipated expiration: 2039-04-23
Also published as: JP2022501662A; US20210334642A1; KR102661434B1; EP3859655A4; RU2762144C1; EP3857504A1; WO2020062957A1; JP7463643B2; EP3857503A4; EP3857447A1; KR102389173B1; US11361222B2; KR20200073267A; US11348005B2; US11615505B2; AU2019350918A1; EP3857504A4; US20210365744A1; JP7446997B2; US20200285959A1

Description

関連出願の相互参照
本出願は、２０１８年９月３０に出願された中国特許出願第２０１８１１１５５２５２．６号に基づく優先権と、２０１８年９月３０に出願された中国特許出願第２０１８１１１５５３２６．６号に基づく優先権と、２０１８年９月３０に出願された中国特許出願第２０１８１１１５５１４７．２号に基づく優先権と、２０１８年９月３０に出願された中国特許出願第２０１８１１１５５９３０．９号に基づく優先権とを主張しており、その内容は、本明細書において出典明記により全体に組み込まれる。

本開示は、全般的には、深層学習技術分野に関し、より詳しくは、画像処理鑑別ネットワーク用の装置、方法及びコンピュータ読み取り可能媒体を含む深層学習に基づく画像処理技術に関する。

人工ニューラルネットワークに基づく深層学習技術は、画像処理などの分野で大いに進歩している。深層学習技術の利点は、汎用構造及び比較的に類似したシステムを利用した異なる技術的問題のソリューションにある。

本開示の実施形態は、複数の相関性画像を生成する装置である。前記装置は、トレーニング画像を受信し、前記トレーニング画像から少なくとも１つ以上の特徴を抽出して前記トレーニング画像に基づいて第１特徴画像を生成するように構成される特徴抽出ユニットと、前記第１特徴画像を正規化し、第２特徴画像を生成するように構成される正規化器と、前記第２特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成し、前記複数のシフトされた画像の各々を前記第２特徴画像と相関させて複数の相関性画像を生成するように構成されるシフト相関ユニットとを含み得る。

少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記第２特徴画像のピクセルブロック内の一番左の又は一番右のａ列のピクセルをそれぞれ前記ピクセルブロックの一番右の又は一番左の列になるようにシフトし、前記第２特徴画像のピクセルブロック内の最下位又は最上位のｂ行のピクセルをそれぞれ前記ピクセルブロックの最上位又は最下位の行になるようにシフトすることによって、前記第２特徴画像に対して前記複数回の並進シフトを行うように構成され得る。少なくともいくつかの実施形態において、０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数であり、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数であり、ａとｂとは同一であり、又は異なる。

少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記第２特徴画像のピクセルブロック内の一番左の又は一番右のａ列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にａ列のピクセルをそれぞれ追加することと、前記第２特徴画像のピクセルブロック内の最下位又は最上位のｂ行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にｂ行のピクセルをそれぞれ追加することによって、前記第２特徴画像に対して前記複数回の並進シフトを行うように構成され得る。少なくともいくつかの実施形態において、０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数であり、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数であり、追加されたピクセルの各々は、０のピクセル値を有する。

少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第２特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じることによって、前記複数のシフトされた画像の各々を前記第２特徴画像と相関させるように構成され得る。少なくともいくつかの実施形態において、前記第１特徴画像は、輝度特徴画像であり得る。少なくともいくつかの実施形態において、前記特徴抽出ユニットは、前記トレーニング画像から輝度情報を抽出して前記輝度特徴画像を生成するように構成される輝度検出器を含み得る。

少なくともいくつかの実施形態において、前記輝度特徴画像を生成するために、前記輝度検出器は、次の式（１）によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するように構成され、

Ｉ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ（１）

Ｉは、前記輝度値である。Ｒは、前記トレーニング画像における位置的に対応するピクセルの赤成分値である。Ｇは、前記トレーニング画像における位置的に対応するピクセルの緑成分値である。Ｂは、前記トレーニング画像における位置的に対応するピクセルの青成分値である。

少なくともいくつかの実施形態において、前記正規化器は、次の式（２）によって前記輝度特徴画像を正規化するように構成され得、

Ｎは、前記第１特徴画像である。Ｉは、前記輝度特徴画像における所与の位置でのピクセルの輝度値を表す。Ｂｌｕｒ（Ｉ）は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。Ｂｌｕｒ（Ｉ^２）は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。

少なくともいくつかの実施形態において、前記第２特徴画像は、第１サイズを有するピクセルブロックを含み得る。前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第１サイズを有するピクセルブロックを含み得る。前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第２特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有し得る。

本開示の別の実施形態は、複数の相関性画像を生成する方法である。前記方法は、トレーニング画像に基づいて第１特徴画像を生成するステップと、前記第１特徴画像を正規化し、第２特徴画像を生成するステップと、前記第２特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成するステップと、前記複数のシフトされた画像の各々を前記第２特徴画像と相関させて複数の相関性画像を生成するステップとを含み得る。

少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々を前記第２特徴画像と相関させるステップは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第２特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じるステップを含み得る。

少なくともいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第２特徴画像のピクセルブロック内の一番左の又は一番右のａ列のピクセルをそれぞれ前記ピクセルブロックの一番右の又は一番左の列になるようにシフトするステップと、前記第２特徴画像のピクセルブロック内の最下位又は最上位のｂ行のピクセルをそれぞれ前記ピクセルブロックの最上位又は最下位の行になるようにシフトするステップとを含み得る。少なくともいくつかの実施形態において、０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数であり、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数であり、ａとｂとは同一であり、又は異なる。少なくともいくつかの実施形態において、ａ及びｂの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化し得る。

少なくともいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第２特徴画像のピクセルブロック内の一番左の又は一番右のａ列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にａ列のピクセルをそれぞれ追加するステップと、前記第２特徴画像のピクセルブロック内の最下位又は最上位のｂ行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にｂ行のピクセルをそれぞれ追加するステップとを含み得る。少なくともいくつかの実施形態において、０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数であり、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数である。少なくともいくつかの実施形態において、追加されたピクセルの各々は、０のピクセル値を有し得る。少なくともいくつかの実施形態において、ａ及びｂの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化し得る。

少なくともいくつかの実施形態において、前記方法は、Ｘ＊Ｙ回の並進シフトを行うステップを更に含み得、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数である。

少なくともいくつかの実施形態において、前記方法は、前記第１特徴画像を生成する前に、前記トレーニング画像を受信するステップを更に含み得る。少なくともいくつかの実施形態において、前記第１特徴画像を生成するステップは、前記トレーニング画像の輝度情報に基づいて輝度特徴画像を生成するステップを含み得る。

少なくともいくつかの実施形態において、前記方法は、次の式（１）によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するステップを更に含み得、

Ｉ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ（１）

少なくともいくつかの実施形態において、前記方法は、次の式（２）によって前記輝度特徴画像を正規化するステップを更に含み得、

Ｎは、前記第１特徴画像である。Ｉは、前記輝度特徴画像を表す。Ｂｌｕｒ（Ｉ）は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。Ｂｌｕｒ（Ｉ^２）は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。

少なくともいくつかの実施形態において、前記第１特徴画像は、第１サイズを有するピクセルブロックを含み得る。少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第１サイズを有するピクセルブロックを含み得る。少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第１特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有し得る。

本開示の別の実施形態は、コンピュータに複数の相関性画像を生成する方法を実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体である。前記方法は、上記のようであり得る。

本開示の別の実施形態は、敵対的生成ネットワークをトレーニングするシステムである。前記システムは、鑑別ネットワークマイクロプロセッサによりトレーニングされるように構成される生成ネットワークマイクロプロセッサと、前記生成ネットワークにカップリングされた鑑別ネットワークマイクロプロセッサとを含む敵対的生成ネットワークプロセッサを含み得る。

少なくともいくつかの実施形態において、前記鑑別ネットワークマイクロプロセッサは、それぞれが上記のようであり得る複数の相関性画像を生成する複数の装置にカップリングされた複数の入力端と、それぞれが前記複数の入力端のうちの一つにカップリングされた複数の分析モジュールと、カスケードの各ステージが前記複数の分析モジュールのうちの一つ及び前記カスケードの前のステージにおけるプーリングモジュールにカップリングされたプーリングモジュールを含む前記カスケードにより、接続された複数のプーリングモジュールと、前記カスケードの最後のステージにおけるプーリングモジュールにカップリングされた鑑別ネットワークとを含み得る。

本発明と見なされる主題は、本明細書の終末での請求項に特に指摘され且つ明確に請求される。本開示の前述の及び他の目的、特徴並びに利点は、添付図面と併せて進められる次の詳細な説明からより明らかになるであろう。図面は以下の通りである。

本開示の実施形態に係る画像処理用の装置のブロック図を示す。本開示の実施形態に係る第１特徴画像における３＊３ピクセルブロックの概略図を示す。本開示の実施形態に係る図２に図示される第１特徴画像をシフトすることによって得られた９つのシフトされた画像の各々における３＊３ピクセルブロックを示す。本開示の別の実施形態に係る図２に図示される第１特徴画像をシフトすることによって得られた９つのシフトされた画像の各々における３＊３ピクセルブロックを示す。本開示に係る画像処理用の装置にカップリングされ得る本開示の実施形態に係る鑑別ネットワークを示す。本開示の実施形態に係る画像処理用の方法のフローチャートを示す。本開示の別の実施形態に係る画像処理用の方法のフローチャートを示す。本開示の実施形態に係るニューラルネットワークをトレーニングするシステムのブロック図を示す。

図示は当業者による詳細な説明と併せた本発明の理解の促進における明確性を図るものであるため、図面の多様な特徴は一定の縮尺で描かれたものではない。

次に、上で簡単に述べられた添付図面と併せて本開示の実施形態を明確且つ具体的に記述することにする。本開示の主題は、法定要件を満たすために特異性を持って記述される。しかし、説明そのものは本開示の範囲を限定することを意図していない。むしろ、本発明者らは、この文書で記述されるステップ又は要素に類似した異なるステップ又は要素を含むように、請求される主題が現在又は将来の技術と併せて他のやり方で具現され得ることを考える。

多様な図面の実施形態に関連して本技術を記述したが、理解すべきことは、本技術から逸脱することなく本技術の同じ機能を実行するために、他の類似した実施形態が利用され得るか、又は記述された実施形態に対する変更及び追加が実施され得る。したがって、本技術は、いずれか単一の実施形態に限定されるべきではなく、添付される特許請求の範囲に応じた広さ及び範囲に準拠して解釈されるべきである。また、当該技術分野における通常の知識を有する者によりこの書類に記載される実施形態に基づいて得られるその他すべての実施形態は本開示の範囲内であると見なされる。

人工ニューラルネットワークに基づく深層学習技術は、画像処理などの分野で大いに進歩している。深層学習は、機械学習方法におけるデータの特徴づけに基づく学習方法である。観測値（例えば、画像）は多様なピクセルの強度値のベクタとして、もしくは、より抽象的には、一連のエッジ、特定の形状を有する領域等として多様な方式により表され得る。深層学習技術の利点は、汎用構造及び比較的に類似したシステムを利用した異なる技術的問題のソリューションにある。深層学習の利点は、特徴の手動取得を特徴学習及び階層的な特徴抽出用の効率的な教師なし又は半教師ありアルゴリズムに置き換えることである。

自然界の画像は、人間によって合成的に又はコンピュータによってランダムに作成された画像と容易に区別され得る。自然画像は、少なくとも特定の構造を含有し、非常に非ランダムであるため特徴的である。例えば、合成的に及びコンピュータによってランダムに生成された画像は、自然的なシーン又はオブジェクトをほとんど含有しない。

圧縮アルゴリズム、アナログ記憶媒体、さらには人間自身の視覚システムのような画像処理システムは現実世界の画像に対して機能する。敵対的生成ネットワーク（ＧＡＮ）は、自然画像の現実的サンプルを生成する一ソリューションである。ＧＡＮは、２つのモデルが同時にトレーニングされるか又はクロストレーニングされる生成モデリングへのアプローチであり得る。

学習システムは、特定のターゲットに基づいてパラメータを調整するように構成され、損失関数で表され得る。ＧＡＮにおいて、損失関数は、難しいタスクを独立して学習できる別の機械学習システムに置き換えられる。ＧＡＮは、通常、鑑別ネットワークに対抗する生成ネットワークを含む。前記生成ネットワークは、低解像度データ画像の入力を受信し、前記低解像度データ画像をアップスケールし、当該アップスケールされた画像を前記鑑別ネットワークに送る。前記鑑別ネットワークは、その入力が前記生成ネットワークの出力（即ち、「フェイク」アップスケールされたデータ画像）であるかそれとも実際画像（即ち、オリジナル高解像度データ画像）であるかを分類するタスクを任せられる。前記鑑別ネットワークは、その入力がアップスケールされた画像及びオリジナル画像である確率を測定する「０」と「１」の間のスコアを出力する。前記鑑別ネットワークが「０」又は「０」に近づくスコアを出力する場合、前記鑑別ネットワークは、当該画像が前記生成ネットワークの出力であると判断している。前記鑑別ネットワークが「１」又は「１」に近づく数値を出力する場合、前記鑑別ネットワークは、当該画像がオリジナル画像であると判断している。このような生成ネットワークを鑑別ネットワークに対抗させ、したがって、「敵対的」な仕方は２つのネットワーク間の競争を利用して、生成ネットワークにより生成された画像がオリジナルと区別できなくなるまで、両方のネットワークがそれらの方法を改善するように駆動する。

鑑別ネットワークは、所定のスコアを有するデータを用いて入力を「リアル」又は「フェイク」とスコアリングするようにトレーニングされ得る。「フェイク」データは生成ネットワークにより生成された高解像度画像であり得、「リアル」データは所定のリファレンス画像であり得る。鑑別ネットワークをトレーニングするために、鑑別ネットワークが「リアル」データを受信する時はいつでも「１」に近づくスコアを出力し、「フェイク」データを受信する時はいつでも「０」に近づくスコアを出力するまで、前記鑑別ネットワークのパラメータを調整する。生成ネットワークをトレーニングするために、前記生成ネットワークの出力が鑑別ネットワークから「１」にできるだけ近いスコアを受信するまで、前記生成ネットワークのパラメータを調整する。

ＧＡＮの普遍的な類推は、偽造者と警察である。生成ネットワークは偽造者に類推され、贋金を製造して、検出なしにそれを使用しようとするのに対し、鑑別ネットワークは警察に類推され、当該贋金を検出しようとし得る。偽造者と警察の間の競争は双方が偽造品を本物と区別できなくなるまでそれらの方法を改善するように刺激する。

生成ネットワーク及び鑑別ネットワークの両方ともゼロ和ゲームで異なり且つ対立する目的関数、即ち、損失関数を最適化しようとする。「クロストレーニング」を通じて鑑別ネットワークによる出力を最大化し、生成ネットワークは生成ネットワークが生成する画像を改善し、鑑別ネットワークはそのオリジナル高解像度画像と生成ネットワークにより生成された画像の区別の正確度を向上させる。前記生成ネットワークと前記鑑別ネットワークとは、より良好な画像を生成し、画像を評価する基準を高めようと競争する。

特定のパラメータにおいて、生成ネットワークを改善するようにトレーニングするためには、オリジナル高解像度画像と生成ネットワークにより生成された画像の区別における鑑別ネットワークの正確度を高める必要が残っている。例えば、リアルで破損していないと認識される画像の生成するタスクに関心がある。これは、ぼけ除去、雑音除去、デモザイク処理、圧縮解除、コントラスト強調、画像超解像度などのような問題に応用できる。このような問題において、破損された画像が視覚的に損なわれており、機械学習システムがそれを修復するために設計され得る。しかし、オリジナル画像を復旧する目標は往々にして非現実的であり、本物らしく見えない画像につながる。ＧＡＮは、「リアル」画像を生成するように設計される。一般的な構成は、カラー出力画像を取り、機械学習システム（例えば、畳み込みネットワーク）を用いて画像がどれほどリアルであるかを測定する単一の数値を出力する。このシステムは知覚品質を向上できるが、現在、敵対的システムの出力は依然として人間ビューアにより自然画像と認識されるのに不足している。

図１は、本開示の実施形態に係る画像処理用の装置のブロック図を示す。

図１のブロック図は、装置１００が図１に示されるコンポーネントのみを含むことを示すことを意図していない。むしろ、装置１００は、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが図１に示されていない任意の数の追加的なアクセサリ及び／又はコンポーネントを含み得る。

図１に示す如く、装置１００は、特徴抽出ユニット１１０と、シフト相関ユニット１２０とを含む。

特徴抽出ユニット１１０は、装置１００に入力されるか又は装置１００により受信されるトレーニング画像から１つ以上の特徴を抽出し、当該抽出された特徴に基づいて特徴画像を生成するように構成される。前記特徴画像は、前記トレーニング画像の１つ以上の特徴を表す。前記トレーニング画像は、生成ネットワークにより生成された画像又は所定のリファレンス画像であり得る。

いくつかの実施形態において、図１に示す如く、特徴抽出ユニット１１０は、輝度検出器１１１を含み得る。

輝度検出器１１１は、例えば、トレーニング画像における輝度に関する情報をトレーニング画像から抽出することによって、前記トレーニング画像の第１特徴画像を生成するように構成される。したがって、前記第１特徴画像は、輝度特徴画像とも称され得る。

いくつかの実施形態において、図１に示す如く、特徴抽出ユニット１１０は、正規化器１１２を含み得る。

正規化器１１２は、前記第１特徴画像を正規化することによって第２特徴画像を生成するように構成される。第１特徴画像が輝度特徴画像である実施形態において、正規化器１１２は、前記輝度特徴画像を正規化するように構成される。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、以下で議論されるように、相関性の計算を促進できる。

本開示に係る画像処理用の装置１００は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はその組み合わせの形になっているコンピューティング装置で実施され得る。

特徴抽出ユニット１１０により生成された第２特徴画像は、さらなる処理を行うためにシフト相関ユニット１２０に出力される。シフト相関ユニット１２０は、前記第２特徴画像の複数回の並進シフトを行って複数のシフトされた画像を生成するように構成される。シフト相関ユニット１２０は、さらに、前記第２特徴画像と前記複数のシフトされた画像の各々の間の１組の相関性に基づいて複数の相関性画像を生成するように構成される。シフト相関ユニット１２０は、さらに、深層学習ネットワークをトレーニングするために、前記複数の相関性画像を深層学習ネットワークに送信するように構成される。例えば、いくつかの実施形態において、前記複数の相関性画像を敵対的生成ネットワークにおける鑑別ネットワークに送信して、前記鑑別ネットワークを敵対的生成ネットワークにおける生成ネットワークと反復的にトレーニングし得る。

前記第２特徴画像は、第１数量の行のピクセル及び第１数量の列のピクセルにより定義される第１サイズのピクセルブロックを有する。前記第２特徴画像は、複数の並進シフトの前に前記第１サイズに対応する第１領域を占める。並進シフトは、いくつかの方法で達成され得る。いくつかの実施形態において、並進シフトは、前記第２特徴画像におけるピクセルを初期領域から行（又は水平）方向或いは列（又は垂直）方向に移動させる。いくつかの実施形態において、並進シフトは、前記第１領域の外にシフトされたピクセルの行及び／又は列を削除することと、シフトされたピクセルによって空いたスペースにおけるピクセルに「０」の値を割り当てることとを含み得る。いくつかの実施形態において、並進シフトは、ピクセルの行及び／又は列を並べ替えるか又は再配列することを含み得る。

前記複数のシフトされた画像の各々は、前記第２特徴画像におけるピクセルブロックの第１サイズと同じサイズのピクセルブロックを有する。前記複数のシフトされた画像の各々は、前記第２特徴画像と同じ数の行のピクセル及び同じ数の列のピクセルを有する。

各シフトされた画像における非ゼロ値を有する各々のピクセルは、前記第２特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。少なくともいくつかの実施形態において、前記第２特徴画像における対応するピクセルを有しないピクセは「０」の値が割り当てられる。例示的な例として、シフトされた画像における最初の２行のピクセルの値は、第１特徴画像の最後の２行におけるそれぞれ対応するピクセルの値と同じであり、前記シフトされた画像における他の全てのピクセルは「０」の値が割り当てられる。前記第２特徴画像における対応するピクセルを有するシフトされた画像における各ピクセルは、対応するピクセルと同じピクセル値を有する。

本開示において、「対応するピクセル」は、位置的に対応するピクセルに限定されず、異なる位置を占めるピクセルも含み得る。「対応するピクセル」は、同じピクセル値を有するピクセルを指す。

本開示において、画像はピクセルブロックとして処理される。ブロック内のピクセルの値は、ブロック内のピクセルに位置的に対応する画像におけるピクセルの値を表す。

２つの画像の間の相関性は、当該２つの画像のピクセルブロックのピクセル対ピクセルの乗算によって計算され得る。例えば、相関性画像のｉ行目かつｊ列目（ｉ，ｊ）のピクセルの値は、第２特徴画像における（ｉ，ｊ）位置でのピクセルの値に、対応するシフトされた画像における（ｉ，ｊ）位置でのピクセルの値を乗じることによって確定され得る。

図１に示す如く、いくつかの実施形態において、特徴抽出ユニット１１０は、輝度検出器１１１と、正規化器１１２とを含む。

輝度検出器１１１は、例えば、特徴抽出ユニット１１０が受信したトレーニング画像から前記トレーニング画像における輝度に関する情報を抽出することによって第１特徴画像を生成し、当該抽出された輝度情報に基づいて輝度特徴画像を生成するように構成される。したがって、前記第１特徴画像は、輝度特徴画像とも称される。人間の目は、他の特徴よりも画像の輝度にもっと敏感である傾向がある。輝度情報を抽出することにより、本開示の装置は、トレーニング画像から不必要な情報を取り除き、処理負荷を低減できる。

前記輝度特徴画像におけるピクセルの行及び列の数は、前記トレーニング画像と同じである。前記輝度特徴画像のｉ行目かつｊ列目（ｉ，ｊ）でのピクセルの輝度値Ｉは、次の式（１）によって計算され得る。

Ｉ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ（１）

式（１）において、Ｒは、前記トレーニング画像におけるピクセル（ｉ，ｊ）の赤成分値を表す。Ｇは、緑成分値を表す。Ｂは、青成分値を表す。ｉ及びｊはいずれも整数である。ｉの値は、１≦ｉ≦Ｘである。ｊの値は、１≦ｊ≦Ｙである。Ｘは前記トレーニング画像における総行数であり、Ｙは前記トレーニング画像における総列数である。

いくつかの実施形態において、前記トレーニング画像は、カラー画像である。いくつかの実施形態において、前記トレーニング画像は、Ｒコンポーネントと、Ｇコンポーネントと、Ｂコンポーネントとを有し、本開示の装置は、前記Ｒコンポーネント、前記Ｇコンポーネント、及び前記Ｂコンポーネントが前記輝度検出器に入力されて、それぞれＹコンポーネント、Ｕコンポーネント、及びＶコンポーネントに変換されてから、そこで、それぞれＹチャンネル、Ｕチャンネル、及びＶチャンネルに入力されるように、前記トレーニング画像を処理するように構成され得る。前記Ｙコンポーネント、前記Ｕコンポーネント、及びＶコンポーネントは、ＹＵＶ空間内のトレーニング画像のコンポーネントである。前記Ｙチャンネル、前記Ｕチャンネル、前記Ｖチャンネルは、これらのチャンネルからの出力がそれぞれＹコンポーネント出力、Ｕコンポーネント出力、及びＶコンポーネント出力であることを示す。トレーニング画像のＲＧＢコンポーネントがＹＵＶコンポーネントに変換される実施形態において、前記輝度値Ｉは、Ｙコンポーネントの値に対応する。

いくつかの実施形態において、トレーニング画像は、Ｙコンポーネントと、Ｕコンポーネントと、Ｖコンポーネントとを有する。その場合、本開示の装置は、前記輝度検出器のＹチャンネルを介して前記トレーニング画像のＹコンポーネントを処理し、前記輝度検出器のＵチャンネルを介して前記トレーニング画像のＵコンポーネントを処理し、前記輝度検出器Ｖチャンネルを介して前記トレーニング画像のＶコンポーネントを処理するように構成され得る。

いくつかの実施形態において、ＹＵＶ空間を用いることは、トレーニング画像に対してクロマサンプリングを行うことである。前記トレーニング画像のＹコンポーネントは、Ｙチャンネルに入る。前記トレーニング画像のＵコンポーネントは、Ｕチャンネルに入る。前記トレーニング画像のＶコンポーネントは、Ｖチャンネルに入る。前記トレーニング画像の入力信号を３つのグループに分けることにより、前記Ｙコンポーネント、前記Ｕコンポーネント、及び前記Ｖコンポーネントのグループからのコンポーネントにおけるそれぞれのチャンネル処理信号は、計算負担を軽減し、処理速度を向上し得る。前記Ｕコンポーネント及び前記Ｖコンポーネントは、画像の表示効果への影響が比較的に低いため、異なるチャンネルにおいて異なるコンポーネントを処理するのは、画像表示に大きな影響を及ぼさない。

正規化器１１２は、前記第１特徴画像を正規化することによって第２特徴画像を生成するように構成される。特徴抽出ユニット１１０が輝度検出器１１１を含み且つ第１特徴画像が輝度特徴画像である実施形態において、正規化器１１２は、前記輝度特徴画像を正規化するように構成される。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、相関性の計算を促進できる。

より具体的には、正規化器１１２は、次の式（２）によって正規化を行って、第２特徴画像を得るように構成される。

式（２）において、Ｎは、第２特徴画像を表す。Ｉは、トレーニング画像から得られた輝度特徴画像を表す。Ｂｌｕｒは、ガウシアンぼかしを表す。Ｂｌｕｒ（Ｉ）は、前記輝度特徴画像に対して実行するガウシアンぼかしフィルタを表す。Ｂｌｕｒ（Ｉ^２）は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンぼかしフィルタを実行することによって得られた画像を表す。μは、ガウシアンぼかしフィルタを用いて得られた出力画像を表す。σ^２は、局所分散正規化された画像を表す。

本開示のいくつかの実施形態において、第２特徴画像の並進シフトは、前記第２特徴画像における最後のａ列のピクセルを残りの列のピクセルの前にシフトして中間画像を得ることを含む。そして、前記中間画像における最後のｂ行のピクセルを残りの行のピクセル前にシフトしてシフトされた画像を得る。ａの値は、０≦ａ＜Ｙである。ｂの値は、０≦ｂ＜Ｘである。ａ及びｂはいずれも整数である。Ｘは、前記第２特徴画像におけるピクセルの総行数を表す。Ｙは、前記第２特徴画像におけるピクセルの総列数を表す。ａの値とｂの値とは同じか又は異なり得る。ａ及びｂがいずれもゼロである場合、前記シフトされた画像は、前記第２特徴画像である。いくつかの実施形態において、任意の所与の２つの画像シフトプロセスにおいて、ａ及びｂの少なくとも一つの値は変化する。シフトが行われる順序が特に限定されないことは理解できる。例えば、いくつかの実施形態において、行のピクセルをシフトして中間画像が得られ得、そして列のピクセルをシフトしてシフトされた画像が得られ得る。

前記シフトされた画像における各ピクセルの値は、前記第２特徴画像におけるピクセルの値に対応する。複数のシフトされた画像の各々におけるピクセル（ｉ，ｊ）の値は、前記第２特徴画像における異なる位置での異なるピクセルに由来する。

いくつかの実施形態において、前記第１特徴画像の並進シフトは、前記第２特徴画像における最後のｂ行のピクセルを残りの行のピクセルの前にシフトして中間画像を得ることを含む。そして、前記中間画像における最後のａ行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得る。

いくつかの実施形態において、前記第２特徴画像に対してＸ＊Ｙ回の並進シフトを行ってＸ＊Ｙ個の相関性画像を得る。ａ及びｂがいずれもゼロである場合でも、これも一つの並進シフトとしてカウントされる。

図２は、本開示の実施形態に係る第２特徴画像における３＊３ピクセルブロックの概略図を示す。図２において、「ｐ１」…「ｐ９」はそれぞれ９つのピクセルのうちの一つの値を表す。図３は、本開示の実施形態に係る図２に図示される第２特徴画像をシフトすることによって得られた９つのシフトされた画像の各々における３＊３ピクセルブロックを示す。

本開示の実施形態において、前記第２特徴画像は、第１サイズを有するピクセルブロックを含む。前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第１サイズを有するピクセルブロックを含む。

本開示の目的のために、図２に図示されるブロック内の最上位の行のピクセルは第１行であり、図２に図示されるブロック内の一番左の列のピクセルは第１列である。ａ＝１かつｂ＝１である場合、図３における第２行の中央に示されるシフトされた画像が得られ、前記第２特徴画像における最後の列（即ち、一番右の列）のピクセルを第１列（即ち、一番左の列）のピクセルの前に移動し、最後の行（即ち、一番下の行）のピクセルを第１行（即ち、一番上の行）のピクセルの前に移動する。

図２及び図３に図示される実施形態において、ピクセルはブロック内の９つの位置のうちの一つを占めることができ、各ピクセルが９つの位置の各々に現れる可能性が９つのシフトされた画像に反映される。その後、９つの相関性画像には、各ピクセルのそれ自体との相関性だけでなく、各ピクセルの画像における他のピクセルとの相関性も含まれている。敵対的生成ネットワークの例示的な例において、前記生成ネットワークが、一つのピクセルの値が高解像度のオリジナル（「リアル」）画像と異なる画像を生成する場合、合成的に生成された画像に基づいて得られた各相関性画像は、前記高解像度のオリジナル画像の相関性画像との不一致を示す。この不一致は、鑑別ネットワークに合成的に生成された画像を「０」により近くスコアリングさせ（即ち、「フェイク」の分類）、前記生成ネットワークがより現実的で知覚的により納得のいく出力の生成をアップデート及び向上させるように駆動する。

本開示が画像に応用され得る並進シフトを限定しないことは理解できる。図４は、本開示の別の実施形態に係る図２に図示される第２特徴画像をシフトした後に得られた９つのシフトされた画像の各々における３＊３ピクセルブロックを示す。

図２及び図４において、前記第２特徴画像における最後のａ列のピクセルを除去し、残りの列のピクセルの前にａ列のピクセルを追加して中間画像を得る。当該追加されたａ列における各々のピクセルは、「０」の値を有する。次に、前記中間画像において、最後のｂ行のピクセルを除去し、残りの行のピクセルの前にｂ行のピクセルを追加してシフトされた画像を得る。当該追加されたｂ列における各々のピクセルは「０」の値を有する。より具体的には、０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数である。Ｘは、前記第２特徴画像におけるピクセルの総行数を表す。Ｙは、前記第２特徴画像におけるピクセルの総列数を表す。ａの値とｂの値とは同じか又は異なり得る。いくつかの実施形態において、任意の所与の２つの画像シフトプロセスにおいて、ａ及びｂの少なくとも一つの値は変化する。

シフト相関ユニット１２０は、２つの画像における対応する位置でのピクセルの値を乗じることによって相関性画像を生成するように構成される。相関性画像において、（ｉ，ｊ）位置でのピクセルの値は、前記第２特徴画像におけるピクセル（ｉ，ｊ）の値と前記シフトされた画像におけるピクセル（ｉ，ｊ）の値とを乗じることによって得られる。ｉの値は、１≦ｉ≦Ｘである。ｊの値は、１≦ｊ≦Ｙである。ｉ及びｊはいずれも整数である。Ｘは、前記第２特徴画像におけるピクセルの総行数を表す。Ｙは、前記第２特徴画像におけるピクセルの総列数を表す。

本開示に係る画像処理用の装置１００は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はその組み合わせの形になっているコンピューティング装置で実施され得る。これらの多様な実施は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能及び／又は解釈可能な１つ以上のコンピュータプログラムにおける実施を含み、当該少なくとも一つのプログラマブルプロセッサは専用又は汎用であり得、且つカップリングされて記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及び命令を送信し得る。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルの手続き及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実施され得る。本明細書で使用されるように、用語「機械読み取り可能媒体」、「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び／又はデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクションを提供するために、本説明書で記述される装置、システム、プロセス、機能、及び技法は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、並びにユーザがコンピュータに入力を提供できるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール））を有するコンピュータで実施され得る。他の種類のアクセサリ及び／又はデバイスを用いてユーザとのインタラクションを提供しても良い。例えば、ユーザに提供されるフィードバックは任意の形の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であり得る。ユーザからの入力は、音響、音声又は触覚入力を含む任意の形で受信され得る。

上記の装置、システム、プロセス、機能、及び技法は、バックエンド・コンポーネント（例えば、データサーバとして）を含む、又はミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含む、又はフロントエンドコンポーネント（例えば、ユーザが上記の装置、システム、プロセス、機能、及び技法の実施とインタラクションを行えるグラフィカルユーザインタフェース又はウェブブラウザを有するクライアントコンピュータ）を含む、又はそのようなバックエンド、ミドルウェア、又はフロントエンドコンポーネントの組み合わせを含むコンピューティングシステムにおいて実施され得る。前記システムのコンポーネントは、任意の形式又はデジタルデータ通信の媒体（通信ネットワーク等）により相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、及びインターネットを含む。

前記コンピューティングシステムは、クライアントと、サーバとを含み得る。クライアントとサーバとは、通常互いに離れており、且つ、一般的に通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は、それぞれのコンピュータで実行され且つ互いにクライアント・サーバ関係を持つコンピュータプログラムによって生じる。

本開示に係る画像処理用の装置は、ニューラルネットワークにカップリングされ得、前記ニューラルネットワークをトレーニングするように構成され得る。いくつかの実施形態において、本開示に係る装置は、敵対的生成ネットワーク（ＧＡＮ）をトレーニングするように構成される。前記ＧＡＮは、生成ネットワークと、鑑別ネットワークとを含み得る。

前記鑑別ネットワークは、鑑別ネットワークが入力として受信した画像と入力された画像と同じ解像度を有する所定のリファレンス画像の間のマッチング度を分類できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法で構築及び構成され得る。図５は、本開示の実施形態に係る鑑別ネットワーク２００を示す。鑑別ネットワーク２００は、複数の入力端Ｉｎ１、Ｉｎ２、Ｉｎ３と、複数の分析モジュール２１０と、複数のプーリングモジュール２２０と、鑑別モジュール２３０とを含み得る。

複数の分析モジュール２１０の各々は、複数の入力端Ｉｎ１、Ｉｎ２、Ｉｎ３の対応する一つにカップリングされる。分析モジュール２１０は、入力端Ｉｎ１、Ｉｎ２、Ｉｎ３を介して本開示に係る装置により生成された複数の相関性画像を受信する。分析モジュール２１０は、前記複数の相関性画像に基づいて対応する複数の第３特徴画像を生成するように構成される。前記複数の第３特徴画像の各々は、対応する相関性画像の異なるディメンションを表すマルチチャンネル画像である。前記複数の第３特徴画像の各々は、前記対応する相関性画像より多い数のチャンネルを有する。例えば、入力される相関性画像は３つのチャンネルを有し得、出力される第３特徴画像は６４個のチャンネル、１２８個のチャンネル又は他の任意の数のチャンネルを有し得る。前記複数の第３特徴画像の各々は、前記対応する相関性画像と同じ解像度で生成される。

複数の分析モジュール２１０の各々は、複数のプーリングモジュール２２０のうちの一つにカップリングされる。複数のプーリングモジュール２２０は、カスケード接続される。プーリングモジュール２２０は、複数の入力画像を受信し、前記複数の入力画像を連結することによって併合画像を生成し、前記併合画像の解像度を低下させてダウンスケールされた併合画像を生成するように構成される。より具体的には、前記複数の入力画像は、対応する分析モジュール２１０から受信された第３特徴画像と、リファレンス画像とを含む。図５に示す如く、カスケードの第１ステージにおいて、分析モジュール２１０からの第３特徴画像は、対応するプーリングモジュール２２０のリファレンス画像として兼ねる。カスケードの後続のステージにおいて、前記リファレンス画像は、カスケードの前のステージにおけるプーリングモジュールにより生成されたダウンスケールされた併合画像である。

鑑別モジュール２３０は、カスケードの最後のステージにおけるプーリングモジュール２２０からダウンスケールされた併合画像を受信し、受信された画像と、当該受信された画像と同じ解像度を有する所定のリファレンス画像との間のマッチング度を表すスコアを生成することによって受信されたダウンスケールされた併合画像を分類するように構成される。

前記生成ネットワークは、生成ネットワークが画像をアップスケール及び生成できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法で構築及び構成され得る。

装置１００は、前記鑑別ネットワークの入力端を介して前記鑑別ネットワークにカップリングされ得る。前記鑑別ネットワークは、前記生成ネットワークからの出力画像、又は高解像度オリジナルサンプル画像を直接受信しなくて良い。むしろ、前記鑑別ネットワークは、前記生成ネットワークからの出力画像、又は高解像度オリジナルサンプル画像が装置１００により前処理された後にそれらを受信、分類及びスコアリングするように構成され得る。言い換えれば、前記鑑別ネットワークは、装置１００からの出力を受信、分類及びスコアリングするように構成され得る。

ＧＡＮをトレーニングする従来の方法は、生成ネットワークからの出力画像又はオリジナルサンプル画像を、分類のために、直接鑑別ネットワークに送る。その結果、分類を目的として、前記鑑別ネットワークは前記出力画像又は前記オリジナルサンプル画像にある情報に依存することに限定される。

本開示に係る画像処理用の装置において、シフト相関ユニットは、前記生成ネットワークからの出力画像及び／又は高解像度のオリジナル画像を処理して複数の相関性画像を生成する。例えば、前記シフト相関ユニットは、前記出力画像及び／又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像とシフトされた或いはそうでなければ変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。従来の方法に比べ、本開示のシステムにおける鑑別ネットワークは、例えば、前記生成ネットワークからの出力画像と前記変換された画像の間の１組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間の１組の相関性とを比較することによって分類を行うための追加的な情報を備える。さらに、自然画像評価（ＮＩＱＥ）非参照画質スコアにより、出力画像（又はオリジナルサンプル画像）と変換画像の間の相関性は知覚品質に影響を与えることが考えられる。

従来の方法に比べ、本開示の画像処理用の装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。

本開示は、画像処理用の方法を更に提供する。図６は、本開示の実施形態に係る画像処理用の方法のフローチャートを示す。

ステップＳ１は、例えば、トレーニング画像の抽出された輝度情報に基づいて輝度特徴画像を生成することによって第１特徴画像を得るステップを含む。

ステップＳ２は、前記第１特徴画像を正規化して第２特徴画像を得るステップを含む。

ステップＳ３は、前記第２特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を得るステップを含む。各シフトされた画像は、前記第２特徴画像と同じ数の行及び列のピクセルを有する。各シフトされた画像における非ゼロ値を有する各ピクセルは、前記第２特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。前記第２特徴画像における対応するピクセルを有しないピクセルは、「０」の値が割り当てられてもよい。言い換えれば、シフトされた画像における非ゼロ値を有する各ピクセルは、前記第２特徴画像における対応するピクセルを有する。

ステップＳ４は、前記第２特徴画像と前記複数のシフトされた画像の間の相関性に基づいて複数の相関性画像を生成するステップを含む。各相関性画像は、前記第２特徴画像と同じ数の行及び列のピクセルを有する。

ステップＳ５は、例えば、敵対的生成ネットワークの鑑別ネットワークのようなニューラルネットワークに前記複数の相関性画像を送信するステップを含む。

本開示に係る方法は、ニューラルネットワークをトレーニングするように構成され得る。いくつかの実施形態において、本開示に係る方法は、敵対的生成ネットワーク（ＧＡＮ）をトレーニングするように構成される。前記ＧＡＮは、生成ネットワークと、鑑別ネットワークとを含み得る。ＧＡＮをトレーニングする従来の方法は、生成ネットワークからの出力画像又はオリジナルサンプル画像を、分類のために、直接鑑別ネットワークに送る。その結果、分類を目的として、前記鑑別ネットワークは前記出力画像又は前記オリジナルサンプル画像にある情報に依存することに限定される。

従来の技法に比べ、本開示の方法は、生成ネットワークからの出力画像又は高解像度のオリジナル画像を直接鑑別ネットワークに送信しない。むしろ、画像は、分類のために前記鑑別ネットワークに送られる前に、特徴抽出ユニットとシフト相関ユニットとを含む上記の装置により処理される。前記シフト相関ユニットは、複数の変換された画像を生成する。例えば、前記シフト相関ユニットは、前記出力画像及び／又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像と変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。この追加的な情報は、前記鑑別ネットワークが２組の相関性の間の類似性に基づいて、即ち、前記生成ネットワークからの出力画像と前記変換された画像の間の１組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間のもう１組の相関性の間の類似性に基づいて分類を行うようにする。さらに、自然画像評価（ＮＩＱＥ）非参照画質スコアにより、出力画像（又はオリジナルサンプル画像）と変換された画像の間の相関性は知覚品質に影響を与えることが考えられる。

本開示の装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。

図７は、本開示の別の実施形態に係る画像処理用の方法のフローチャートを示す。

ステップＳ１は、第１特徴画像を得るステップを含む。前記第１特徴画像は、トレーニング画像の輝度情報を抽出することによって得られた輝度特徴画像であり得る。

したがって、前記第１特徴画像を得るステップは、前記トレーニング画像における輝度情報に基づいて輝度特徴画像を得るステップを含むステップＳ１１を含み得る。

前記輝度特徴画像は、前記トレーニング画像と同じ数の行及び列のピクセルを有する。前記輝度特徴画像のｉ行目かつｊ列目（ｉ，ｊ）でのピクセルの輝度値Ｉは、次の式（１）によって計算され得る。

Ｉ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ（１）

ステップＳ１２において、前記輝度特徴画像を正規化して第２特徴画像を得る。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、相関性の計算を促進できる。

より具体的には、ステップＳ１２において、次の式（２）によって正規化を行う。

式（２）において、Ｎは、前記第２特徴画像を表す。Ｉは、前記トレーニング画像から得られた輝度特徴画像における所与の位置でのピクセルの輝度値を表す。Ｂｌｕｒは、ガウシアンぼかしを表す。Ｂｌｕｒ（Ｉ）は、前記輝度特徴画像に対して実行するガウシアンぼかしフィルタを表す。Ｂｌｕｒ（Ｉ^２）は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンぼかしフィルタを実行することによって得られた画像を表す。μは、ガウシアンぼかしフィルタを用いて得られた出力画像を表す。σ^２は、局所分散画像を表す。

ステップＳ２は、前記第２特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を得るステップを含む。各シフトされた画像は、前記第２特徴画像と同じ数の行及び列のピクセルを有する。

本開示のいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第２特徴画像における最後のａ列のピクセルを残りの列のピクセルの前にシフトして中間画像を得、そして前記中間画像における最後のｂ行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得るステップを含む。

本開示の他の実施形態において、前記複数回の並進シフトを行うステップは、第２特徴画像における最後のｂ行のピクセルを残りの行のピクセルの前にシフトして中間画像を得、そして前記中間画像における最後のａ行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得るステップを含む。

ａの値は、≦ａ＜Ｙである。ｂの値は、０≦ｂ＜Ｘである。ａ及びｂはいずれも整数である。Ｘは、前記第２特徴画像におけるピクセルの総行数を表す。Ｙは、前記第２特徴画像におけるピクセルの総列数を表す。いくつかの実施形態において、任意の所与の２つの画像シフトプロセスにおいて、ａ及びｂの少なくとも一つの値は変化する。

各シフトされた画像における非ゼロ値を有する各ピクセルは、前記第２特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。前記第２特徴画像における対応するピクセルを有しないピクセルは、「０」の値が割り当てられてもよい。言い換えれば、シフトされた画像における非ゼロ値を有する各ピクセルは、前記第２特徴画像における対応するピクセルを有する。

ステップＳ３は、前記第２特徴画像と前記複数のシフトされた画像の間の相関性に基づいて複数の相関性画像を生成するステップを含む。各相関性画像は、前記第２特徴画像と同じ数の行及び列のピクセルを有する。

前記複数の相関性画像を生成するステップは、前記第２特徴画像における各ピクセルの値と前記シフトされた画像における位置的に対応するピクセルの値とを乗じるステップを含む。言い換えれば、前記第２特徴画像におけるピクセル（ｉ，ｊ）の値に前記シフトされた画像におけるピクセル（ｉ，ｊ）の値を乗じて前記相関性画像における（ｉ，ｊ）位置でのピクセルの値を生成する。ｉの値は、１≦ｉ≦Ｘである。ｊの値は、１≦ｊ≦Ｙである。ｉ及びｊはいずれも整数である。Ｘは、前記第２特徴画像におけるピクセルの総行数を表す。Ｙは、前記第２特徴画像におけるピクセルの総列数を表す。

ステップＳ４は、例えば、敵対的生成ネットワークの鑑別ネットワークのようなニューラルネットワークに前記複数の相関性画像を送信するステップを含む。

本開示に係る画像処理用の方法は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はその組み合わせの形になっているコンピューティング装置で実施され得る。これらの多様な実施は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能及び／又は解釈可能な１つ以上のコンピュータプログラムにおける実施を含み、当該少なくとも一つのプログラマブルプロセッサは専用又は汎用であり得、且つカップリングされて記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及び命令を送信し得る。

図８は、本開示の実施形態に係るニューラルネットワークをトレーニングするシステムのブロック図を示す。

図８に示す如く、上記の装置１００は、入力端Ｉｎを介して鑑別ネットワーク２００にカップリングされ得る。鑑別ネットワーク２００の構造及び構成は特に限定されない。鑑別ネットワーク２００は、以上の記述のように、構築及び構成され得、または、鑑別ネットワークが入力として受信した画像と、入力された画像と同じ解像度を有する所定のリファレンス画像との間のマッチング度を分類できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法でも構築及び構成され得る。

本開示の実施形態は、生成ネットワークからの出力画像及び／又は高解像度のオリジナル画像を直接鑑別ネットワークに送信しない。むしろ、画像は、分類のために前記鑑別ネットワークに送られる前に、特徴抽出ユニットとシフト相関ユニットとを含む上記の装置により処理される。前記シフト相関ユニットは、前記生成ネットワークからの出力画像及び／又は前記高解像度のオリジナル画像を処理して複数の変換された画像を生成するように構成される。例えば、前記シフト相関ユニットは、前記出力画像及び／又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像と変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。この追加的な情報は、前記鑑別ネットワークが２組の相関性の間の類似性に基づいて、即ち、前記生成ネットワークからの出力画像と前記変換された画像の間の１組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間のもう１組の相関性の間の類似性に基づいて分類を行うようにする。さらに、自然画像評価（ＮＩＱＥ）非参照画質スコアにより、出力画像（又はオリジナルサンプル画像）と変換された画像の間の相関性は知覚品質に影響を与えることが考えられる。

本開示に係る装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。

いくつかの実施形態において、本開示に係る装置は、例えば、図８に示す如く、敵対的生成ネットワークをトレーニングするように構成され得る。図８は、本開示の実施形態に係る、一つの入力端Ｉｎを介して鑑別ネットワーク２００にカップリングされた一つの装置１００を含む敵対的生成ネットワークをトレーニングするシステムを示す。但し、本開示は、図８に示す実施形態に限定されない。例えば、生成ネットワークが異なる解像度を有する複数の画像を生成する実施形態において、鑑別ネットワークは、それぞれが装置１００にカップリングされた複数の入力端Ｉｎを含み得る。前記生成ネットワークからの各画像は、複数の画像処理用の装置１００のうちの一つに送信される。各装置１００は、当該受信された画像に基づいて複数の相関性画像を生成し、前記複数の相関性画像を鑑別ネットワーク２００に送信する。一つの装置１００からの複数の相関性画像は、分類されるべき画像の特定のチャネルの特徴画像を表し得る。鑑別ネットワーク２００は、前記複数の入力端を介して複数の装置１００から相関性画像を受信し、前記生成ネットワークからの最高解像度を持つ画像を分類されるべき画像として設定するように構成され、そして、鑑別ネットワーク２００は、分類されるべき画像と、同じ解像度を有する所定のリファレンス画像の間のマッチング度をスコアリングするように構成される。

図８のブロック図は、前記鑑別ネットワークが図８に示されるコンポーネントのみを含むことを示すことを意図していない。本開示に係る鑑別ネットワークは、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが図８に示されていない任意の数の追加的なアクセサリ及び／又はコンポーネントを含み得る。

本開示は、上記のように敵対的生成ネットワークをトレーニングする画像を前処理する方法を実行するための命令を記憶するコンピュータ読み取り可能媒体を提供する。

本明細書で使用されるように、用語「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び／又はデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。本開示に係るコンピュータ読み取り可能媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気又は光学データストレージ、レジスタ、コンパクトディスク（ＣＤ）又はＤＶＤ（デジタル・バーサタイル・ディスク）光学記憶媒体及び他の非一時的媒体のようなディスク又はテープを含むが、これらに限られない。

本明細書の記述において、「ある実施形態」、「いくつかの実施形態」、及び「例示的な実施形態」、「例」及び「特定の例」又は「いくつかの例」などに対する言及は、特定の特徴及び構造、材料又は特性が本開示の少なくとも一部の実施形態又は例に含まれる実施形態又は例に関連して記述された旨を意図する。用語の概略的な表現は、必ずしも同じ実施形態又は例を指すとは限らない。さらに、記述される特定の特徴、構造、材料又は特性は、任意の適切な方法で任意の１つ以上の実施形態又は例に含まれ得る。また、当該技術分野における通常の知識を有する者にとって、開示されたものは本開示の範囲に関し、技術方案は技術的特徴の特定の組み合わせに限定されず、本発明の概念から逸脱することなく技術的特徴又は技術的特徴の同等の特徴を組み合わせることによって形成される他の技術方案も網羅すべきである。その上、用語「第１」及び「第２」は単に説明を目的としており、示された技術的特徴の相対的な重要性を明示又は暗示するものと、数量の暗示的な言及として解釈されるべきではない。したがって、用語「第１」及び「第２」によって定義される特徴は、１つ以上の特徴を明示的又は暗黙的に含み得る。本開示の記述において、「複数」の意味は、特に具体的に定義されない限り、２つ以上である。

本開示の原理及び実施形態は明細書に記載されている。本開示の実施形態の記述は単に本開示の方法及びその核となるアイデアの理解を助けるためのみに用いられる。一方、当該技術分野における通常の知識を有する者にとって、開示されたものは本開示の範囲に関し、技術方案は技術的特徴の特定の組み合わせに限定されず、本発明の概念から逸脱することなく技術的特徴又は技術的特徴の同等の特徴を組み合わせることによって形成される他の技術方案も網羅すべきである。例えば、本開示に開示されるような（ただし、これに限られない）上記の特徴を類似した特徴に置き換えることによって技術方案が得られ得る。

Claims

複数の相関性画像を生成する装置であって、
トレーニング画像を受信し、前記トレーニング画像から少なくとも１つ以上の特徴を抽出して、前記トレーニング画像に基づいて第１特徴画像を生成するように構成される特徴抽出ユニットと、
前記第１特徴画像を正規化し、第２特徴画像を生成するように構成される正規化器と、前記第２特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成し、前記複数のシフトされた画像の各々を前記第２特徴画像と相関させて複数の相関性画像を生成するように構成されるシフト相関ユニットとを含み、
前記シフト相関ユニットは、前記第２特徴画像のピクセルブロック内の一番左の又は一番右のａ列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にａ列のピクセルをそれぞれ追加することと、前記第２特徴画像のピクセルブロック内の最下位又は最上位のｂ行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にｂ行のピクセルをそれぞれ追加することによって、前記第２特徴画像に対して前記複数回の並進シフトを行うように構成され、
０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数であり、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数であり、
追加されたピクセルの各々は、０のピクセル値を有する、装置。
前記シフト相関ユニットは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第２特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じることによって、前記複数のシフトされた画像の各々を前記第２特徴画像と相関させるように構成される、請求項１に記載の装置。
前記第１特徴画像は、輝度特徴画像であり、
前記特徴抽出ユニットは、
前記トレーニング画像から輝度情報を抽出して前記輝度特徴画像を生成するように構成される輝度検出器を含む請求項１又は請求項２に記載の装置。
前記輝度特徴画像を生成するために、前記輝度検出器は、次の式（１）によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するように構成され、
Ｉ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ（１）
Ｉは、前記輝度値であり、
Ｒは、前記トレーニング画像における位置的に対応するピクセルの赤成分値であり、
Ｇは、前記トレーニング画像における位置的に対応するピクセルの緑成分値であり、
Ｂは、前記トレーニング画像における位置的に対応するピクセルの青成分値である、請求項３に記載の装置。
前記正規化器は、次の式（２）によって前記輝度特徴画像を正規化するように構成され、

Ｎは、前記第１特徴画像であり、
Ｉは、前記輝度特徴画像における所与の位置でのピクセルの輝度値を表し、
Ｂｌｕｒ（Ｉ）は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像であり、
Ｂｌｕｒ（Ｉ^２）は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である、請求項３又は請求項４に記載の装置。
前記第２特徴画像は、第１サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第１サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第２特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有する、請求項１から請求項５のいずれか一項に記載の装置。
複数の相関性画像を生成する方法であって、
前記方法は、
トレーニング画像に基づいて第１特徴画像を生成するステップと、
前記第１特徴画像を正規化し、第２特徴画像を生成するステップと、
前記第２特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成するステップと、
前記複数のシフトされた画像の各々を前記第２特徴画像と相関させて複数の相関性画像を生成するステップと
を含み、
前記複数回の並進シフトを行うステップは、
前記第２特徴画像のピクセルブロック内の一番左の又は一番右のａ列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にａ列のピクセルをそれぞれ追加するステップと、
前記第２特徴画像のピクセルブロック内の最下位又は最上位のｂ行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にｂ行のピクセルをそれぞれ追加するステップと
を含み、
０≦ａ＜Ｙであり、０≦ｂ＜Ｘであり、ａ及びｂはいずれも整数であり、Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数であり、
追加されたピクセルの各々は、０のピクセル値を有する、方法。
前記複数のシフトされた画像の各々を前記第２特徴画像と相関させるステップは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第２特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じるステップを含む、請求項７に記載の方法。
ａ及びｂの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化する、請求項７に記載の方法。
Ｘ＊Ｙ回の並進シフトを行うステップを更に含み、
Ｙは前記第２特徴画像のピクセルブロック内のピクセルの総列数であり、Ｘは前記第２特徴画像のピクセルブロック内のピクセルの総行数である、請求項７から請求項９のいずれか一項に記載の方法。
前記第１特徴画像を生成する前に、前記トレーニング画像を受信するステップを更に含み、
前記第１特徴画像を生成するステップは、前記トレーニング画像の輝度情報に基づいて輝度特徴画像を生成するステップを含む、請求項７から請求項１０のいずれか一項に記載の方法。
次の式（１）によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するステップを更に含み、
Ｉ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ（１）
Ｉは、前記輝度値であり、
Ｒは、前記トレーニング画像における位置的に対応するピクセルの赤成分値であり、
Ｇは、前記トレーニング画像における位置的に対応するピクセルの緑成分値であり、
Ｂは、前記トレーニング画像における位置的に対応するピクセルの青成分値である、請求項１１に記載の方法。
次の式（２）によって前記輝度特徴画像を正規化するステップを更に含み、

Ｎは、前記第１特徴画像であり、
Ｉは、前記輝度特徴画像を表し、
Ｂｌｕｒ（Ｉ）は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像であり、
Ｂｌｕｒ（Ｉ^２）は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である、請求項１１又は請求項１２に記載の方法。
前記第１特徴画像は、第１サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第１サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第１特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有する、請求項７から請求項１３のいずれか一項に記載の方法。
コンピュータに請求項７から１４のいずれか一項に記載の方法をコンピュータに実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体。
敵対的生成ネットワークをトレーニングするシステムであって、
鑑別ネットワークマイクロプロセッサによりトレーニングされるように構成される生成ネットワークマイクロプロセッサと、前記敵対的生成ネットワークにカップリングされた鑑別ネットワークマイクロプロセッサとを含む敵対的生成ネットワークプロセッサを含み、前記鑑別ネットワークマイクロプロセッサは、
複数の請求項１から６のいずれか一項に記載の装置にカップリングされた複数の入力端と、
それぞれが前記複数の入力端のうちの一つにカップリングされた複数の分析モジュールと、
カスケードの各ステージが前記複数の分析モジュールのうちの一つ及び前記カスケードの前のステージにおけるプーリングモジュールにカップリングされたプーリングモジュールを含む前記カスケードにより、接続された複数のプーリングモジュールと、
前記カスケードの最後のステージにおけるプーリングモジュールにカップリングされた鑑別ネットワークと
を含むシステム。