JP2018516412A

JP2018516412A - 畳み込みニューラルネットワークに基づいたフルリファレンス画像品質評価方法

Info

Publication number: JP2018516412A
Application number: JP2017563173A
Authority: JP
Inventors: シュンシュー; ペンイェ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-06-05
Filing date: 2016-06-03
Publication date: 2018-06-21
Anticipated expiration: 2036-06-03
Also published as: EP3292512A4; JP6544543B2; US9741107B2; KR101967089B1; EP3292512B1; CN107636690A; CN107636690B; KR20180004208A; WO2016197026A1; EP3292512A1; US20160358321A1

Abstract

本実施形態は、一般に、リファレンス画像に対する歪み画像の画像品質を評価するためのシステム及び方法を提供することに関する。１つの実施形態において、本システムは、歪み画像及びリファレンス画像を入力として受け入れて画像品質のメトリックを出力として提供する畳み込みニューラルネットワークを備える。別の実施形態において、本方法は、歪み画像及びリファレンス画像を処理して画像品質のメトリックとして提供するよう構成された畳み込みニューラルネットワークに対して、歪み画像及びリファレンス画像を入力するステップを含む。【選択図】図１

Description

（関連出願の相互参照）
本出願は、２０１５年６月５日に提出された、名称「畳み込みニューラルネットワークに基づいたフルリファレンス画像品質評価方法」の米国特許出願第１４／７３２，５１８号に基づく優先権を主張し、当該出願は、本明細書において本出願に全て記載されるように引用により本明細書に組み込まれる。

デジタル撮像デバイス及び通信技術の発展並びに普及に伴って、デジタル画像は、情報の表現及び伝達において益々重要になっている。デジタル画像は、その寿命の間に様々な段階で劣化する可能性があり、このような品質の劣化は、その後の段階で活用できなくなる恐れがある。従って、数多くの画像及びビデオ処理システムにおいて画像品質を維持及び監視することが重要であり、このような画像品質評価（ＩＱＡ）の第１の目的は、観る人によって知覚されるような視覚的品質を予測することである。画像品質測度は、伝送速度のようなパラメータの関数として、また画像向上方法の最適パラメータを選択するため、知覚された歪みの依存性を評価するのに用いることができる。ＩＱＡを実行するために、主観テストを実験室設定にて実施することができるが、このようなテストは、コストと時間がかかり、リアルタイムの自動システムでは用いることはできない。従って、画像品質を自動的且つ効率的に測定する客観的ＩＱＡメトリックを構築し実現することが重要である。

フルリファレンスＩＱＡ（ＦＲ−ＩＱＡ）モデルは、歪み画像と対応する初期のリファレンス画像の両方からの情報を利用して視覚的品質を推定する。平均二乗誤差（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ（ＭＳＥ））又はピーク信号対雑音比（ＰｅａｋＳｉｇｎａｌ−ｔｏ−ＮｏｉｓｅＲａｔｉｏ（ＰＳＮＲ））などの従来のＦＲ−ＩＱＡメトリックは、空間領域において歪み画像とリファレンス画像との間のピクセル毎の差違を直接測定している。これらのタイプのメトリックは、信号忠実度を測定するが、多くの場合、特に雑音が加法性ではない場合には、人間の知覚との相関性が低くなる。

人間の知覚とより良好に一致する知覚による視覚的品質メトリック（ＰＶＱＭ）の構築に向けて、２つのタイプの手法、すなわち、ボトムアップとトップダウン手法がとられてきた。ボトムアップ手法は、コントラスト感度、輝度順応、種々のマスク効果などを含む関連の精神物理学的特性及び生理学的特性をシミュレートすることによって、人間の視覚システム（ＨＶＳ）の視覚路における様々な処理段階をモデル化する試みである。しかしながら、これらの特性の知識が限定的なこと、並びに最終的な知覚への複合的な影響を考慮すると、ＨＶＳは複雑過ぎて、このようにして正確にモデル化することはできない。

より最近の研究への取り組みは、自然画像の統計的特性などの様々な情報源からの知識並びに画像歪みがＨＶＳによって処理される方法に関するデータを組み込むことによって入出力関係をモデル化するトップダウン機構に向けられている。最新のほとんどのＦＲ−ＩＱＡモデルは、このカテゴリーに分類され、更に、構造類似性（ＳｔｒｕｃｔｕｒａｌＳＩＭｉｌａｒｉｔｙ（ＳＳＩＭ））インデックス及びその変形形態（マルチスケールＳＳＩＭ（Ｍｕｌｔｉ−ＳｃａｌｅＳＳＩＭ（ＭＳ−ＳＳＩＭ））及び情報重み付けＳＳＩＭ（ＩｎｆｏｒｍａｔｉｏｎＷｅｉｇｈｔｅｄＳＳＩＭ（ＩＷ−ＳＳＩＭ））を含む）、特徴類似性（ＦｅａｔｕｒｅＳＩＭｉｌａｒｉｔｙ（ＦＳＩＭ））インデックス及び勾配度類似性偏差（ＧｒａｄｉｅｎｔＭａｇｎｉｔｕｄｅＳｉｍｉｌａｒｉｔｙＤｅｖｉａｔｉｏｎ（ＧＭＳＤ））などは、ある程度の成功を収めており、平均強度、強度の標準偏差、位相一致及び勾配度などの低レベル視覚的特徴が有効な品質指標であることを示唆している。しかしながら、これら低レベルのキューは、異なる歪みカテゴリー全体にわたり一様に良好には機能しない場合がある。その結果、対応するＦＲ測度の性能は、異なるタイプの歪みにわたり大きく異なる可能性がある。

従って、異なるタイプの歪みにわたって人間の知覚とより良好に一致し、客観性があり、測定可能なデータによって決定され且つ効率的である改善された画像品質評価方法に対する要求がある。一部では、畳み込みニューラルネットワーク（ＣｏｎｖＮｅｔ）を利用した学習ベースの手法を適用することに向けて取り組まれているが、これらは、リファレンス画像が品質推定に利用可能ではない状況、すなわちノンリファレンスＩＱＡ（Ｎｏ−ＲｅｆｅｒｅｎｃｅＩＱＡ（ＮＲ−ＩＱＡ））に限られている。従って、リファレンス画像及び歪み画像の対応するペアが分析に利用可能である、ＦＲ−ＩＱＡに対するこのような方法の適用を研究し構築する必要性が依然としてある。

本実施形態は、一般に、リファレンス画像に対する歪み画像の画像品質を評価するためのシステム及び方法を提供することに関する。１つの実施形態において、本システムは、歪み画像及びリファレンス画像を入力として受け入れて画像品質のメトリックを出力として提供する畳み込みニューラルネットワークを備える。別の実施形態において、本方法は、歪み画像及びリファレンス画像を処理して画像品質のメトリックとして提供するよう構成された畳み込みニューラルネットワークに対して、歪み画像及びリファレンス画像を入力するステップを含む。

更に別の実施形態において、リファレンス画像に対する歪み画像の画像品質を評価するために畳み込みニューラルネットワークをトレーニングする方法が提供される。本方法は、畳み込みニューラルネットワークにおけるネットワークパラメータの現行のセットとしてネットワークパラメータの初期セットを選択するステップと、歪み画像及び対応するリファレンス画像から各々がなる画像の複数のペアの各々について、計算された類似性スコアメトリックＳｃを提供するよう畳み込みニューラルネットワークを通じて画像のペアを処理するステップと、歪みスコアメトリックＳとペアについての期待類似性スコアメトリックＳｐの比較に基づいて、ネットワークパラメータの現行のセットのうちの１又はそれよりも多いネットワークパラメータを調整するステップと、を含み、期待類似性スコアメトリックＳｐは、人間の知覚によって提供される。

本明細書で開示された特定の実施形態の性質及び利点の更なる理解は、本明細書の残りの部分及び添付図面を参照することによって実現することができる。

１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するシステムの利用を概略的に示す図である。１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するシステムのアーキテクチャを示す図である。リファレンス画像に対する歪み画像の画像品質を評価する階層システムの１つの実施態様を示す図である。１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価する方法のステップを示すフローチャートである。１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するための畳み込みニューラルネットワークをトレーニングする方法を示す図である。１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するための畳み込みニューラルネットワークをトレーニングする方法のステップを示すフローチャートである。

図１は、１つの実施形態によるリファレンス画像１０４に対する歪み画像１０２の画像品質を評価するシステム１００の利用を概略的に示している。システム１００は、トレーニングＦＲ−ＩＱＡモデルを具現化する相互接続されたモジュール又は層のネットワークを含み、これは図２を参照して以下で更に説明される。歪み画像１０２及びリファレンス画像１０４の各々からの画像データがシステム１００に提供され、該システムは、観る人によって知覚される可能性が高い歪み画像１０２の品質を示す出力メトリック１０６を生成する。

図２は、１つの実施形態によるリファレンス画像２１４に対する歪み画像２１２の画像品質を評価するのに用いることができるシステム２００のアーキテクチャの概略図を示す。システム２００は、複数の層２０１〜２０７を含む。システム２００を２段階システムとみなすことが有用とすることができ、ここでは、第１段階が層２０１〜２０５からなり、第２段階である層２０６及び２０７にデータを全体的に提供する。この第２段階は、「標準」ニューラルネットワークと考えることができ、第１段階と第２段階の組み合わせにより、システム２００が畳み込みニューラルネットワークとなる。

歪み画像２１２及びリファレンス画像２１４からの画像データが入力層２０１に提供され、該入力層２０１は、画像データの両方のセットを正規化して、正規化リファレンス画像及び正規化リファレンス画像を提供する機能を果たす。正規化歪み画像及び正規化リファレンス画像からの画像データは、畳み込み層２０２に提供され、該畳み込み層２０２は、Ｎ１個の複数のフィルタを用いて正規化歪み画像及び正規化リファレンス画像の各々を畳み込む機能を果たし、また、二乗活性化関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）を各画像の各ピクセルに適用して、特徴マップのＮ１個のペアをもたらす。特徴マップの各ペアは、１つのフィルタ処理された正規化歪み画像と１つの対応するフィルタ処理された正規化リファレンス画像とを含む。

特徴マップのＮ１個のペアからの画像データは、線形結合層２０３に提供され、該線形結合層２０３は、歪み画像２１２に対応するＮ１個の特徴マップのＮ２個の線形結合と、リファレンス画像２１４に対応する対応Ｎ１個の特徴マップのＮ２個の線形結合とを計算して、結合特徴マップのＮ２個のペアを提供する。結合特徴マップの各ペアは、フィルタ処理された正規化歪み画像の１つの組み合わせと、フィルタ処理された正規化リファレンス画像の対応する１つの組み合わせとを含む。

類似性計算層２０４は、線形結合層２０３から受け取った結合特徴マップのＮ２個のペアからのデータに作用して、Ｎ２個の類似性マップを計算する。各類似性マップは、結合特徴マップの１つのペアからのピクセルの対応するパッチによるデータに基づいて計算され、各類似性マップは、結合特徴マップのＮ２個のペアのうちの異なるものに対応する。

類似性マップからのデータは、プーリング層２０５に提供され、該プーリング層は、Ｎ２個の類似性マップの各々について平均プーリングを適用して、Ｎ２個の類似性入力値をもたらす。Ｎ２個の類似性入力値は、全結合層２０６に提供され、該全結合層２０６は、Ｎ２個の類似性入力値に作用して、Ｍ個の隠れノード値（ここでＭは、Ｎ２よりも大きな整数）を提供する。Ｍ個の隠れノード値は、線形回帰層２０７によって単一の出力ノードにマップされる。出力ノードでの値は、システム２００のトレーニングに基づいて、観る人によって知覚される可能性が高い歪み画像２０２の品質を示す画像品質のメトリックである。

ニューラルネットワーク２００の複数のハイパーパラメータは、特定の画像評価アプリケーションに好適な固有の異なるアーキテクチャ又は実施態様を決定するよう選択することができる。１つのハイパーパラメータは、オリジナルの歪み画像及びリファレンス画像におけるピクセルのパッチサイズである。他のハイパーパラメータは、畳み込み層で使用されるフィルタのサイズ（ピクセルの数に関する）、畳み込み層で使用されるフィルタの数Ｎ１、畳み込み層で使用される活性化関数、線形結合層にて計算された線形結合の数Ｎ２、全結合層における隠れノードの数Ｍ、及び類似性計算層において類似性を計算するのに使用される式を含む。更に、一部の実施形態において、２以上の畳み込み層、２以上の線形結合層、及び２以上の全結合層が存在してもよく、使用されるそれぞれの数は、追加のハイパーパラメータである。

画像品質評価を実施するのに好適であることが分かっている畳み込みニューラルネットワークの１つの固有の実施態様が図３に例示され、３２×３２−７×７×１０−１×１×１０−８００−１構造を示している。各層の詳細について以下で説明する。

入力層は、２つの３２×３２グレースケール画像パッチ、すなわち、歪み画像パッチＩ_dis及びそのレファレンスパッチＩ_refからなる。両パッチは、線形変換関数ｆ（ｘ）＝（ｘ−１２８）／１２８＊１．６により正規化される。

畳み込み層において、１０個の７×７線形フィルタ
が歪み及び画像パッチに適用されて、歪み画像及びリファレンス画像それぞれに対してフィルタ処理された特徴マップ
及び
をもたらし、ここで、
及び、
である。他の実施形態において、対象の低レベル特徴の最小サイズに応じて、７×７よりも小さい又は大きいフィルタを用いてもよい。同様に、一部の実施形態において、関連する歪みの複雑さに応じて、１０個よりも少ない又は多いフィルタを用いてもよい。この層では、二乗活性化関数が、各画像パッチの各ピクセルに適用される。

線形結合層において、畳み込み層によって生成されるフィルタ処理された特徴マップの線形結合が計算される。

類似性計算層において、対応する歪みパッチ及びリファレンスパッチからの結合特徴マップ間のポイント毎（すなわち、ピクセル毎）の方式で類似性が計算される。
ここで、Ｓｋは第ｋの類似性マップ、Ｃは小さい正定数である。

プーリング層において、平均プーリングが各類似性マップに適用される。プーリング層の出力を
とすると、
となる。プーリング層は、１０次元プーリングされた類似性を入力として全結合層に提供する。１０を超えるフィルタが畳み込み層で使用されて１０を超えるフィルタ処理された特徴マップが生成されるなどの場合には、これに応じて、プーリングされた類似性入力に対しより多くの次元性が存在することになる。

全結合層において、類似性入力が８００個の隠れノードに密に結合される。隠れノードに対する活性化関数として、正規化線形関数（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ（ＲｅＬＵ））（ｆ（ｘ）＝ｍａｘ（ｘ，０））が使用される。全結合層における重み付けを
とすると、全結合層の出力は、
となり、ここでｂ_jはバイアス項である。一部の実施形態において、活性化関数は他の非線形動作を含むことができる点に留意されたい。

線形回帰層において、８００個の隠れノードが単一の出力ノードにマップされる。線形回帰層の重み付けが、
で記述される場合、ネットワークの出力は、
＋ｂ
であり、ここでｂはバイアス項である。

図４は、１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するための方法４００のステップを示すフローチャートである。ステップ４０２において、歪み画像及びリファレンス画像（例えば、歪み及びリファレンスビデオストリームからの対応するフレームとすることができる）がトレーニング畳み込みニューラルネットワークへの入力として受けられる。ステップ４０４において、歪み画像及びリファレンス画像は、トレーニング畳み込みニューラルネットワークを通じて処理される。

図５は、１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するための畳み込みニューラルネットワークモデルをトレーニングする方法を示す。モデルについてネットワークパラメータの初期セットが選択され、観る人によって決定された、期待又は予測される類似性スコアメトリックを有する対応する歪み画像（５０２）及びリファレンス画像（５０４）のペアがネットワークへの入力として提供される。ネットワークによって提供される類似性スコアメトリックＳ’は、コストモジュール５０６において、予測されたスコアメトリックＳと比較され、この比較に応じて、モデル５００の１又はそれよりも多いパラメータが調整されてモデルを更新する。次いで、歪み画像及びリファレンス画像の第２のペアが、調整されたパラメータを用いてネットワーク５００を通じて処理されて、生成された第２のメトリックとこの第２のペアで期待されるスコアメトリックとの間の比較が行われ、これに応じて更に調整を行うことができる。このプロセスは、最終のモデルパラメータが設定されて、モデルネットワークがトレーニングされたとみなされるまで、トレーニング画像ペアの利用可能なセットに対して必要に応じて繰り返される。

図６は、１つの実施形態によるリファレンス画像に対する歪み画像の画像品質を評価するための畳み込みニューラルネットワークをトレーニングする方法６００のステップを示すフローチャートである。ステップ６０６において、歪み画像及びリファレンス画像のペア（利用可能な全Ｔ個のペアのうちのｉ番目のペア）が、パラメータの以前に選択されたセットによって特徴付けられるネットワークへの入力として受けられる。ステップ６０４において、歪み画像及びリファレンス画像がネットワークを通じて処理される。ステップ６０６において、畳み込みニューラルネットワークによって計算された出力類似性スコアＳｃと、観る人によって知覚される、画像の当該ペアに対して予測された類似性スコアメトリックとの間の比較に応じて、ネットワークパラメータが目的関数を用いて調整される。ステップ６０８において、未だ処理されていないトレーニング画像の他のペアが利用可能であるかどうか判定される。利用可能である場合、このような１つのペアがステップ６０２及び６０４を通じて処理されて、ステップ６０６において、ネットワークパラメータが更に調整され、ステップ６０８において、全てのトレーニング画像ペアの処理が完了したかどうかの更なる判定が行われる。ステップ６０８において、全てのトレーニング画像の処理が完了したと判定されると、ニューラルネットワークがトレーニングされたとみなすことができる。場合によっては、トレーニング画像は、トレーニングを改善するために２回以上ネットワークに提供されてもよい。トレーニング画像が処理される順序はランダムであってもよい。

１つの実施形態において、例えば、方法６００のステップ６０６でモデルパラメータがどのように調整されるかを正確に判定する際に、ネットワークをトレーニングするのに使用される目的関数は、標準のε−ＳＶＲ（サポートベクトル回帰）で使用されるのと同じである。
が入力パッチのペアを表し、ｙ_nが計算されたｗ類似性スコアメトリック（グラウンドトルース品質スコアとも呼ばれる）を表し、
がネットワークパラメータＷとの入力ペアについての予測類似性スコアメトリックを表すとすると、目的関数は次式で記述することができる。
この場合、Ｌ_εは次式で定義される。
ここでεは、調整可能な小さい正定数であり、ｎはトレーニングサンプルの数である。ネットワークは、確率的勾配降下法（ＳＧＤ）を用いてバックプロパゲーションを実施することによってトレーニングすることができる。

正則化法を用いて、ニューラルネットワークの過学習を回避することができる。１つの実施形態において、正則化法は、目的関数の線形回帰層において重み付けのＬ２ノルムを付加するステップを含む。これは、例えばＳＶＭ（サポートベクタマシン）で使用されてきた正則化に広く使用されている方法である。詳細には、目的関数は、次式のように修正することができる。
ここで、λ₁は小さい正定数である。

一部の実施形態において、線形結合層における入力ノード及び出力ノードの結合は制約されるので、ほとんどの出力ノードは、入力ノードの小さなセット（例えば、Ｎ１＝１０の場合、全ての１０個の入力ノードではなく）とのみ結合される。この制約は、スパースバイナリマスクＷｍａｓｋを付加することによって実装することができ、ここでＷｍａｓｋ（ｋ，ｉ）＝０の場合、
は強制的にゼロでなければならない。結合パターンは、ランダムに選ぶことができる。１つの特定の実施形態において有用であることが分かっているマスクは、以下で定義される。

本明細書で記載される実施形態は、様々な利点をもたらす。詳細には、本実施形態は、リファレンス画像及び歪み画像の対応するペアが利用可能である用途において、リアルタイムの自動システムで容易に実装され且つ異なるタイプの歪みにわたり人間の知覚とより良好に一致する結果をもたらすシステム及び方法を用いて画像品質を評価することを可能にする。本発明は、入力としてリファレンス画像及び歪み画像を受け入れて、出力として有意義な画像品質メトリックを提供する、自動画像品質評価の「エンドツーエンド」解決手段をもたらす。

本発明の詳細な説明では、その特定の実施形態に関して説明してきたが、これらの特定の実施形態は、単に例証に過ぎず、限定ではない。

特定の実施形態のルーチンを実行するために、Ｃ、Ｃ＋＋、Ｊａｖａ(登録商標)、アセンブル言語等を含むあらゆる好適なプログラム言語を使用できる。手続き形又はオブジェクト指向等の別のプログラミング手法を使用することができる。ルーチンは、単一の処理デバイス又は複数のプロセッサで実行することができる。しかしながら、ステップ、動作、又は計算は、特定の順番で提示されるが、この順番は、別の特定の実施形態では変更することができる。特定の実施形態において、本明細書では順次的に示される複数のステップは、同時に実行してもよい。

特定の実施形態は、命令実行システム、装置、システム、又はデバイスによって、又はこれに関連して使用するコンピュータ可読記憶媒体で実施することができる。特定の実施形態は、ソフトウェア又はハードウェアもしくはこれらの組み合わせにおける制御ロジックの形態で実施することができる。制御ロジックは、１又はそれよりも多いプロセッサで実行される場合、特定の実施形態で説明されたものを実行するように作動可能である。

特定の実施形態は、プログラムド汎用デジタルコンピュータ、特定用途向け集積回路、プログラム可能倫理デバイス、フィールドプログラマブルゲートアレイ、光学的、化学的、生物学的、量子力学的又はナノ加工システム、構成要素、及び機構を使用して実行できる。一般に、特定の実施形態の機能は、従来から公知の任意の手段で実現することができる。分散型、ネットワークシステム、構成要素及び／又は回路を使用することができる。データの通信又は伝送は、有線、無線、又は他の何れかの手段とすることができる。

また、図面に示される要素の１又はそれよりも多い要素は、特定の用途に有用であるように、より分離された又は統合された様式で、或いは場合によっては取り除かれるか又は動作不能にされた状態で実施できることは理解されるであろう。また、マシン可読媒体に格納されてコンピュータが上述の方法の何れかを実行可能にすることができるプログラム又はコードを実行することは、本発明の精神及び範囲に含まれる。

「プロセッサ」は、データ、信号、又は他の情報を処理する何らかの好適なハードウェア及び／又はソフトウェアシステム、機構又は構成要素を含む。プロセッサは、汎用中央処理装置、マルチ処理装置、特定機能を実現する専用回路、又は他のシステムを含むことができる。処理は、地理的位置に限定されるか又は時間的限界を有する必要はない。例えば、プロセッサは、「リアルタイム」、「オフライン」、「バッチモード」等での機能を実行することができる。処理の一部は、別の（又は同じ）処理システムによって別の時間及び場所で実行することができる。処理システムの実施例は、サーバ、クライアント、エンドユーザデバイス、ルータ、スイッチ、ネットワークストレージなどを含むことができる。コンピュータは、メモリと通信するあらゆるプロセッサとすることができる。メモリは、プロセッサにより実行する命令を格納するのに好適な、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、磁気又は光ディスク、又は他の有形媒体などの何れかの好適なプロセッサ可読記憶媒体とすることができる。

本明細書及び請求項を通して使用する場合、単数形態は、前後関係から明らかに別の意味を示さない限り、複数形態も含む。本明細書及び請求項を通して使用する場合、前後関係から明らかに別の意味を示さない限り、「における」の意味は「における」及び「上で」の意味を含む。

従って、本明細書において特定の実施形態を説明してきたが、許容範囲の変形例、種々の変更、及び代用例は前述の開示内容の対象であり、場合によっては、特定の実施形態の一部の特徴は、本発明の範囲及び精神を逸脱することなく、他の特徴を対応して使用することなく利用されることは理解される。従って、特定の状况又は内容を実質的な範囲及び精神に適合させるように、多くの変形を行うことができる。

１０４：リファレンス
１０２：歪み
１００：ＦＲ−ＩＱＡモデル（トレーニング）

Claims

リファレンス画像に対する歪み画像の画像品質を評価するシステムであって、前記システムが、前記歪み画像及び前記リファレンス画像を入力として受け入れて画像品質のメトリックを出力として提供する畳み込みニューラルネットワークを備える、システム。
前記畳み込みニューラルネットワークが複数の層を含む、請求項１に記載のシステム。
前記複数の層が、
前記歪み画像及び前記リファレンス画像の各々を構成する画像パッチに正規化関数を適用して、正規化歪み画像及び正規化リファレンス画像を提供するよう構成された入力層と、
Ｎ１フィルタを用いて前記正規化歪み画像及び前記正規化リファレンス画像の各々を畳み込み、１つのフィルタ処理された正規化歪み画像と１つの対応するフィルタ処理された正規化リファレンス画像とを各々が含む特徴マップのＮ１（１よりも大きい整数）個のペアを提供するよう構成された畳み込み層と、
を含む、請求項２に記載のシステム。
前記複数の層が更に、
前記歪み画像及び前記リファレンス画像の各々から提供される前記Ｎ１個の特徴マップのＮ２個の線形結合を計算して、フィルタ処理された正規化歪み画像のの１つの組み合わせと、フィルタ処理された正規化リファレンス画像の対応する１つの組み合わせとを各々が含む結合特徴マップのＮ２（１よりも大きい整数）個のペアを提供するよう構成された線形結合層と、
前記結合特徴マップのＮ２個のペアのうちの異なるものからの対応するピクセルに各々が基づいたＮ２個の類似性マップを計算するよう構成された類似性計算層と、
前記Ｎ２個の類似性マップの各々について平均プーリングを適用して、Ｎ２個の類似性入力値を提供するよう構成されたプーリング層と、
を備える、請求項３に記載のシステム。
前記複数の層が更に、
前記Ｎ２個の類似性入力値に作用して、Ｍ個（Ｎ２よりも大きい整数）の隠れノード値を提供するよう構成された全結合層と、
前記Ｍ個の隠れノード値を単一の出力ノードにマップして、画像品質のメトリックを提供するよう構成された線形回帰層と、
を含む、請求項４に記載のシステム。
Ｎ１＝Ｎ２であり、Ｎ１＝１０である、請求項５に記載のシステム。
Ｍ＝８００である、請求項５に記載のシステム。
前記畳み込み層によって前記特徴マップのＮ１個のペアが前記複数の層の後続の層に提供される前に、前記特徴マップのＮ１個のペアの各ノードにおいて二乗活性化関数が適用される、請求項３に記載のシステム。
リファレンス画像に対する歪み画像の画像品質を評価する方法であって、前記方法が、
前記歪み画像及び前記リファレンス画像を処理して画像品質のメトリックとして提供するよう構成された畳み込みニューラルネットワークに対して、前記歪み画像及び前記リファレンス画像を入力するステップを含む、方法。
前記畳み込みニューラルネットワークによって実行される処理が、
前記歪み画像及び前記リファレンス画像の各々を構成する画像パッチに正規化関数を適用して、正規化歪み画像及び正規化リファレンス画像を提供するステップと、
Ｎ１フィルタを用いて前記正規化歪み画像及び前記正規化リファレンス画像の各々を畳み込み、１つのフィルタ処理された正規化歪み画像と１つの対応するフィルタ処理された正規化リファレンス画像とを各々が含む特徴マップのＮ１（１よりも大きい整数）個のペアを提供するステップと、
を含む、方法。
前記歪み画像及び前記リファレンス画像の各々から提供される前記Ｎ１個の特徴マップのＮ２個の線形結合を計算して、フィルタ処理された正規化歪み画像のの１つの組み合わせと、フィルタ処理された正規化リファレンス画像の対応する１つの組み合わせとを各々が含む結合特徴マップのＮ２個のペアを提供するステップと、
前記結合特徴マップのＮ２個のペアのうちの異なるものからの対応するピクセルに各々が基づいたＮ２個の類似性マップを計算するステップと、
前記Ｎ２個の類似性マップの各々について平均プーリングを適用して、Ｎ２個の類似性入力値を提供するステップと、
を更に含む、請求項１０に記載の方法。
前記Ｎ２個の類似性入力値を全結合層に入力して、Ｍ個（Ｎ２よりも大きい整数）の隠れノード値を提供するステップと、
回帰層を通じて前記Ｍ個の隠れノード値をマップして、画像品質のメトリックを提供するステップと、
を更に含む、請求項１１に記載の方法。
Ｍ＝８００である、請求項１２に記載の方法。
リファレンス画像に対する歪み画像の画像品質を評価するために畳み込みニューラルネットワークをトレーニングする方法であって、前記方法が、
前記畳み込みニューラルネットワークにおけるネットワークパラメータの現行のセットとしてネットワークパラメータの初期セットを選択するステップと、
歪み画像及び対応するリファレンス画像から各々がなる画像の複数のペアの各々について、計算された類似性スコアメトリックＳｃを提供するよう前記畳み込みニューラルネットワークを通じて前記画像のペアを処理するステップと、
歪みスコアメトリックＳと前記ペアについての期待類似性スコアメトリックＳｐの比較に基づいて、前記ネットワークパラメータの現行のセットのうちの１又はそれよりも多い前記ネットワークパラメータを調整するステップと、
を含み、前記期待類似性スコアメトリックＳｐが、人間の知覚によって提供される、方法。
前記画像の各ペアが、歪み画像パッチＩｄｉｓ及びそのレファレンスパッチＩｒｅｆを含み、
前記画像のペアを処理するステップが、前記画像のペアを前記畳み込みニューラルネットワークに通して、サポートベクトル回帰（ＳＶＲ）目的関数を前記複数の画像パッチに適用することによって、結果として得られる歪みスコアメトリックＳを前記期待類似性スコアメトリックＳｐと比較するステップを含む、請求項１４に記載の方法。
前記ＳＶＲ目的関数が
式中Ｌ_εは次式で定義され、
式中εは調整可能な小さい正定数であり、ｎはトレーニングサンプルの数である、請求項１４に記載の方法。
確率的勾配降下法（ＳＧＤ）を用いてバックプロパゲーションを実行するステップを更に含む、請求項１４に記載の方法。
前記畳み込みニューラルネットワークを通じて前記画像のペアを処理するステップが、結合特徴マップを提供するよう、前記歪み画像及びリファレンス画像の各ペアから生成された特徴マップの線形結合を計算するステップを含み、
前記線形結合を計算するステップが、スパースバイナリマスクを用いて、前記計算に対する特徴マップの入力と前記計算からの前記結合特徴マップの出力との間の結合を制約するステップを含む、請求項１４に記載の方法。