JP5911563B2

JP5911563B2 - ビットストリームレベルで動画品質を推定する方法及び装置

Info

Publication number: JP5911563B2
Application number: JP2014509580A
Authority: JP
Inventors: リャオ，ニン; グ，シャオドン; チェン，ジボ; シエ，カイ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2011-05-12
Filing date: 2011-05-12
Publication date: 2016-04-27
Anticipated expiration: 2031-05-12
Also published as: WO2012151719A1; EP2708028A1; EP2708028B8; EP2708028B1; CN103548342A; BR112013028991A2; JP2014519735A; CN103548342B; US20140219350A1; KR20140022065A; US9549183B2; EP2708028A4; AU2011367779B2; AU2011367779A1

Description

本発明は、特に動画復号化の前にビットストリームレベルで、知覚される動画品質を推定する方法及び装置に関する。

この部分は、以下に説明する及び／又は特許請求の範囲に記載する本発明の様々な側面に関係し得る技術の様々な側面を読者に紹介することを意図するものである。この説明は、本発明の様々な側面のより良い理解を促すための背景情報を読者に提供するのに有用であると考えられる。従って、これらの記述はこの観点から読まれるべきであり、従来技術の認定として読まれるべきではないことが分かる。

IPネットワークでの動画配信は信頼性が低い。動画品質モデリング（VQM：video quality modeling）の要件は、動画圧縮により生じる品質劣化に加えて、IP伝送障害（impairment）（例えば、パケットロス、遅延、ジッタ）により生じる品質劣化を評価するものである。アーチファクト（artifact）は、その結果が視聴者により知覚される動画品質に関係するべきものであるため、復号化器で誤り隠蔽（EC：error concealment）を適用した後に評価される。ECの目的は、最低限の知覚品質劣化を提供するために、ビット消失又はパケットロスから生じた欠落したマクロブロック（MB：macroblock）を推定することである。従って、ECの有効性の正確な予測は、VQM測定の伝送障害の基本的な部分である。

EC法は、空間的（すなわち、主にIフレームのためのバイリニア補間）又は時間的（すなわち、主にB及びPフレームのための欠落した動きベクトル（MV：motion vector）の推定）である。VQM技術は、パケットレイヤモデル、ビットストリームレベルモデル、メディアレベルモデル及びハイブリッドモデルに分類可能である。ITU-T SG12/Q14は、モバイルストリーミング及びIPTVアプリケーションにおける品質において、観測される符号化及びIPネットワーク障害の影響を予測するために、ビットストリームレベルのNo-Reference型動画品質（video quality）モデルを検討している。これは、ビットストリーム情報と、パケットヘッダに含まれる情報と、メディアストリームについての事前の認識と、クライアントからのバッファリング情報とを使用して平均オピニオン評点（MOS：Mean Opinion Score）を予測する。H. Rui, C. Li, and S. Qiu, “Evaluation of packet loss impairment on streaming video”, J. Zhejiang Univ.-Sci. A, Vol. 7, pp. 131-136 (Jan.2006)は、パケットロスの兆候として強い空間的不連続性を使用し、復号化された画素情報に基づくVQMモデルを提案している。しかし、この情報は、ビットストリームレベルで利用可能ではない。

T. Yamada, Y. Miyamoto, and M. Serizawa, “No-reference video quality estimation based on error-concealment effectiveness”, Packet Video, 288-293, (2007)は、ビットストリームレベルの情報と復号化された画素情報との双方を使用したNo-Reference型のハイブリッドVQMについて記載している。これは、誤り隠蔽が無効であるとして判定されたMBの数をMOS値にマッピングする。

前述の方法の問題は、欠落したMBが静止していない場合、うまく動作しないことにある。これは、現実の動画シーケンスでは非常に頻繁に生じる。

A. R. Reibman, V. A. Vaishampayan and Y. Sermadevi, “Quality monitoring of video over a packet network”, IEEE Transactions on Multimedia, 6(2), 327-334, (2004)は、伝送障害の場合にEC動画シーケンスの平均二乗誤差（MSE：Mean Squared Error）を推定するために、No-Reference型のビットストリームレベルのVQMを使用する。マクロブロックに基づく受信した動画ビットストリームからのいくつかの統計パラメータの推定（IフレームMBのDCTのDC及びAC成分、P及びB-MBの動きベクトル等）が使用される。このモデルの１つの問題は、主観的なMOSの代わりに、目的の視覚品質メトリックとして平均二乗誤差（MSE）を使用することにある。MSEは、主観的な動画品質のため、特に伝送障害により生じる品質劣化を測定するための良好なメトリックではないことは周知である。

H. Rui, C. Li, and S. Qiu: "Evaluation of packet loss impairment on streaming video", J. Zhejiang Univ.-Sci. A, Vol. 7, pp. 131-136 (Jan.2006) T. Yamada, Y. Miyamoto, and M. Serizawa: "No-reference video quality estimation based on error-concealment effectiveness", Packet Video, 288-293, (2007) A. R. Reibman, V. A. Vaishampayan and Y. Sermadevi: "Quality monitoring of video over a packet network", IEEE Transactions on Multimedia, 6(2), 327-334, (2004)

画素補間に基づくEC方式及びMV推定に基づくEC方式により生成された可視アーチファクトは、非常に異なる。一般的に、空間的手法は、欠落したMBのぼやけた推定を生成するが、時間的手法は、あまり乱れない又は目に見えないエッジアーチファクト（edge artifact）を生成する。

本発明は、ビットストリームレベルのVQMモデルの基本的に重要な部分であるビットストリームレベルのECの有効性の評価方法及び対応する装置を提案する。この方法及び装置は、一般的にネットワーク伝送障害により生じた知覚動画品質劣化のNon-Reference型VQM測定に少なくとも使用可能である。特に、この方法及び装置は、インターネットプロトコル（IP：Internet Protocol）ネットワーク伝送障害の場合に有利である。

本発明によれば、ECの有効性を反映する可視アーチファクトレベルを評価する方式は、符号化された動画の複数のローカル特徴量（local feature）（ここでは有効性特徴量とも呼ばれる）と複数のグローバル特徴量（global feature）（ここでは条件特徴量（condition feature）とも呼ばれる）とをビットストリームレベルで抽出し、復号化器で使用される特定の誤り隠蔽法の処理をエミュレートすることにより、ECの有効性の数値レベルを計算することを有する。

複数の有効性特徴量は、例えば、空間的動き均一性（spatial motion homogeneity）、時間的動き整合性（temporal motion consistence）、テクスチャ平滑性（texture smoothness）、及び１つ以上の特定の符号化モデルの確率（蓋然性）のグループからのものでもよい。一実施例では、３つの有効性特徴量が抽出される、すなわち、空間的動き均一性、時間的動き整合性、及びテクスチャ平滑性が抽出される。

複数の条件特徴量は、受信したビットストリームから計算された各フレームのグローバル特徴量である。これらは、どの種類のEC法が伝送ロス後のフレームに使用されるかを推定又は判定するための条件としての役目をする。例示的な条件特徴量は、フレーム種別、イントラMB／インターMBの比、モーションインデックス、及びテクスチャインデックスである。テクスチャインデックスは、いずれか既知のテクスチャ解析方法（例えば、DC係数及び／又は選択されたAC係数と閾値との比較）に基づいてもよい。一実施例では、これらの条件特徴量の４つの全てが、それぞれ抽出又は計算される。

使用される特徴量の全ては、符号化された動画からビットストリームレベルで抽出されたデータに基づく。すなわち、ビットストリームを画素領域に復号化しない。これは、動画品質評価モデルの計算上の複雑性が低く保持されるという利点を有する。この理由は、動画復号化処理が含まれず、動画シンタックス解析のみが必要であるからである。その一方で、動画内容特徴量、符号化特徴量及び復号化特徴量が考慮されるため、モデルの動画品質予測精度が改善する。他の利点は、この結果は実際に使用される復号化器から独立しており、従って客観的であるため、様々な結果が比較可能である点にある。

一実施例では、欠落したMB又は不正確なMBについて計算された空間的動き均一性は、隣接する正確なMBのMVから取得される。一実施例では、時間的動き整合性は、MV均一性から取得される。一実施例では、テクスチャ平滑性は、Iフレームのみについて隣接するMBのDCT係数から計算される。一実施例では、MBのインタースキップモード（inter-skip mode）比及び／又はインターダイレクトモード（inter-direct mode）比は、隣接するMBの4×4ブロックからのデータに基づく。

一実施例では、誤り隠蔽（EC）の後の動画を示す動画品質を推定する方法は、このEC前にビットストリームレベルで実行される方法であり、動画ビットストリームから複数のグローバル条件特徴量を抽出及び／又は計算するステップと、マクロブロック（MB）が欠落したことを判定するステップと、少なくとも欠落したMBについて複数のローカル有効性特徴量を抽出及び／又は計算するステップと、このECで使用されるEC法をエミュレートすることにより、MB毎に（又は少なくとも欠落したMB毎に）数値のEC有効性レベルを計算するステップと、動画品質の推定された可視アーチファクトレベルとして、計算されたEC有効性レベルを提供するステップとを有する。

一実施例では、誤り隠蔽の後の動画を示す動画品質を推定する装置は、動画品質がこの誤り隠蔽前にビットストリームレベルで推定される装置であり、動画ビットストリームから複数のグローバル条件特徴量を抽出及び計算する第１の抽出及び計算手段と、MBが欠落したことを判定する判定手段と、少なくとも欠落したMBについて複数のローカル有効性特徴量を抽出及び計算する第２の抽出及び計算手段と、誤り隠蔽法をエミュレートすることにより、MB毎に（又は少なくとも欠落したMB毎に）数値のEC有効性レベルを計算する計算手段と、動画品質の推定された可視アーチファクトレベルとして、計算された誤り隠蔽有効性レベルを提供する出力手段とを有する。

本発明の有利な実施例は、従属項、以下の説明及び図面に開示されている。

VQM及びアーチファクト種別の概要提案の方式のブロック図 EC有効性特徴量の抽出及び条件特徴量の抽出のブロック図欠落したMB及びその隣接するMB H.264におけるイントラ4×4及びイントラ8×8予測モードの方向

本発明の例示的な実施例について、添付図面を参照して説明する。

有線及び無線IPネットワークでの動画通信（例えば、IPTVサービス）は、非常に普及してきている。ケーブルネットワークでの従来の動画伝送に比べて、IPネットワークでの動画配信は、かなり信頼性が低い。無線ネットワークの環境では状況は更に悪くなる。これに対応して、動画圧縮により生じる品質劣化に加えて、IP伝送障害（例えば、パケットロス、遅延、ジッタ）により生じる品質劣化を評価するための動画品質モデリング（VQM：video quality modeling）が望まれている。図１に示すように、伝送及び動画符号化からそれぞれ生じる２つの種類の可視アーチファクト（伝送障害／ネットワーク障害50及び符号化アーチファクト60）が存在する。

VQM測定の符号化アーチファクトのみと比べて、ネットワーク障害により生じるVQM測定の知覚アーチファクトに特有の１つの課題は、復号化器での誤り隠蔽を適用した後にアーチファクトを評価する点にある。符号化された動画ビットストリームのいくつかの部分はネットワーク伝送中に欠落しているため、復号化器は、知覚動画品質の劣化を低減しようとして、欠落した部分を隠蔽する誤り隠蔽（EC：error concealment）法を採用する。隠蔽された欠落が見えないほど、EC法が有効になる。ECの有効性は、動画内容特徴量に大いに依存する。ECの有効性の評価は、パケットロスが生じたときの初期可視アーチファクト（IVA：initial visible artifact）レベルを判定する。更に、IVAは、H.264、MPEG-2等のような予測動画符号化フレームワークにおける参照として使用する領域に空間時間的に広がる。要するに、ECの有効性の正確な予測は、VQM測定の伝送障害の基本的な部分である。VQMに利用可能な入力情報に従って、VQM技術は、パケットレイヤモデル10と、ビットストリームレベルモデル20と、メディアレベルモデル30と、ハイブリッドモデル40とに分類可能である。

パケットレイヤモデル10は、デマルチプレクサ及びパケット化解除器11を含む。ビットストリームレベルモデル20もまた、デマルチプレクサ及びパケット化解除器21を含むが、更に、符号化された動画ビットストリームのシンタックス解析器22も含む。双方のモデルは、動画復号化器25に入力する前に、動画信号を考慮する。動画復号化器25は、通常では、ECユニットを含む、又はECユニットに結合される。従って、パケットレイヤモデル10及びビットストリームレベルモデル20は、視聴者により知覚される動画品質を評価するときに、ECユニットの効果を推定する必要がある。他方、メディアレベルモデル30及びハイブリッドモデル40は、動画復号化及びECユニット25の後に使用される。ハイブリッドVQM40もまた、デマルチプレクサ及びパケット化解除器41と、符号化された動画ビットストリームの解析器42と、ECユニットを含む動画復号化器43とを含む。P.NBAMS（ITU-T SG12/Q14）により考慮される前述のビットストリームレベルの動画品質評価モデルは、例えばメディアレイヤモデル30と比べて軽量のモデルであり、リアルタイム監視に適しており、STB又はホームゲートウェイのような顧客の装置への容易な展開に適している。以下に説明するビットストリームレベルのECの有効性評価方法は、ビットストリームレベルのVQMモデル20の重要な部分である。

符号化された動画ビットストリームの部分がネットワーク伝送中に欠落した場合、復号化及びECユニット25は、欠落した部分を隠蔽するためにECを採用する。パケットロスにより生成されるアーチファクトの程度は、使用されるEC方式に大いに依存する。ECの目的は、最低限の知覚品質劣化を提供するために、圧縮された動画ストリームにおいて、ビット消失又はパケットロスにより生じた欠落したマクロブロック（MB：macroblock）の画素を推定することである。一般的に、EC法は、大きく２つのカテゴリ（空間的及び時間的）に入る。空間的カテゴリでは、ローカルの画素の間での空間相関が利用される。欠落したMBは、隣接する画素からの補間技術により回復する。時間的カテゴリでは、モーションフィールド（motion field）の整合性と、ブロック境界を横切るエッジに沿った画素の空間的平滑性との双方が、欠落したMBの動きベクトル（MV：motion vector）を推定するために利用される。例えば、H.264 JMリファレンス復号化器では、空間的手法が、バイリニア補間技術を使用することにより、イントラ符号化フレーム（Iフレーム）の欠落したMBを推定するために適用される。時間的手法は、隣接するMBのMVから欠落したMBのMVを推定することにより、インター予測（inter-predicted）フレーム（Pフレーム、Bフレーム）の欠落したMBを推定するために適用される。最も良いMV推定を選択するために、境界マッチング（boundary-matching）基準が使用される。

画素補間に基づくEC方式及び動きベクトル推定に基づくEC方式により生成された可視アーチファクトは、非常に異なる。一般的に、空間的手法は、欠落したMBのぼやけた推定を生成するが、時間的手法は、推定されたMVが正確でない場合にエッジアーチファクトを生成する。他の場合には、時間的手法は、可視アーチファクトをほとんど生成しない。

ECの有効性を反映しつつ、可視アーチファクトを評価するための開示の方式のブロック図が図２に示されている。入力信号105は、２つの特徴量抽出ユニット120、130に提供される。ローカル特徴量抽出ユニット120では、受信したビットストリーム情報に基づいて、EC法の有効性を反映する少なくとも２つのローカル特徴量がMB毎に（又は少なくとも欠落したMB毎に）抽出及び／又は計算される。グローバル特徴量抽出ユニット130では、各フレームの少なくとも２つのグローバル特徴量が受信したビットストリームから抽出及び／又は計算され、どの種類のEC法が伝送ロスを有するフレームに使用されているかを判定するための条件として使用される。最後に、復号化器で使用される予め認識されたEC法をエミュレートすることにより、MB毎に（又は少なくとも欠落したMB毎に）ECの有効性の数値の可視アーチファクトレベルがEC有効性推定ユニット140において取得される。出力は、ECの有効性を反映した可視アーチファクトレベル値145である。復号化器で使用されるEC法は、例えば、自動検出、手動入力、事前のプログラミング等により、いずれかの方法を通じて取得可能である。これはまた、復号化及びECユニット25により直接的又は間接的に提供されてもよい。

図３は、ローカル特徴量抽出ユニット120及びグローバル特徴量抽出ユニット130の例示的な実施例を示している。

一実施例では、ローカル特徴量抽出ユニット120は、異なる有効性特徴量を評価する３つのサブユニット121-123（すなわち、空間的MV均一性を計算する第１のサブユニット121、時間的MV均一性を計算する第２のサブユニット122、及びMVの大きさを検出する第３のサブユニット123）と、テクスチャ平滑性を計算する第４のサブユニット124とを有する。更に（図示せず）、インタースキップモード及び／又はインターダイレクトモードのような特定のモデルの確率を計算する１つ以上の更なるサブユニットが存在してもよい。

一実施例では、グローバル特徴量抽出ユニット130は、異なる条件特徴量を評価する４つのサブユニット131-134（すなわち、フレーム種別判定サブユニット131、イントラ／インター比検出サブユニット132、モーションインデックス判定サブユニット133、及びテクスチャインデックス判定サブユニット134）を有する。

サブユニットの以下の説明では、フレームインデックスはnとして示され、フレーム内のMBの座標は(i,j)として示される。フレームn内の欠落したMB(i,j)について、フレームnの条件特徴量と、MB(i,j)のローカル特徴量とが計算される。一実施例では、条件特徴量は、ローカル特徴量の前に計算される。以下では、ローカル特徴量判定ユニット120のサブユニットについて説明する（図３参照）。

空間的均一性判定サブユニット121は、空間的MV均一性を計算する。一実施例では、空間的均一性について２つの別々のパラメータがx方向及びy方向に計算される。

図４ｂ）は、欠落したMB(n,i,j)を有する現在の動画フレームnの部分を示している。図４ａ）は、前の動画フレームn-1の同じ部分を示しており、図４ｃ）は次の動画フレームn+1の同じ部分を示している。欠落したMB(n,i,j)の周辺の８個のMBのいずれかが受信又は回復する限り、その動きベクトルは、存在する場合には空間的MV均一性を計算するために使用される。利用可能な隣接するMBが存在しない場合、空間MV均一性は、前の参照フレーム（すなわち、階層的H.264符号化におけるPフレーム又は参照Bフレーム）の同一場所のMB（collocated MB）のものに設定される。H.264動画符号化器では、１つのMBは、動き推定のためにサブブロックに分割されてもよい。従って、H.264符号化器の場合、MBの１つの動きベクトルの代わりに、MBの4×4のサイズのブロックの16個の動きベクトルが前述の式で使用されてもよい。各動きベクトルは、現在のフレームから対応する参照フレームまでの距離により正規化される。このやり方はまた、動きベクトルの操作に関与する以下の計算においても適用される。隣接するMBの標準偏差が小さいほど、これらのMBの動きが均一になる。次に、特定の種類の動き推定に基づく時間的EC法がここで適用された場合、欠落したMBは、可視アーチファクトがなく隠蔽される可能性が高くなる。この特徴は、Pフレーム及びBフレームのようなインター予測フレームの欠落したMBに適用可能である。Bフレームでは、２つのモーションフィールド（前方及び後方）が存在し得る。空間的均一性は、それぞれ２つの方向で計算される。

時間的均一性判定ユニット122は、時間的MV均一性を計算する。一実施例では、時間的均一性について２つの別々のパラメータがx方向及びy方向に計算される。

時間的MV均一性は、図４に示すような隣接するフレームにおいて同一場所のMBの間の動きの差の標準偏差として計算される。標準偏差が小さいほど、時間軸においてこれらのMBの動きが均一になる。次に、動き予測に基づく時間的EC法がここで適用された場合、欠落したMBは、可視アーチファクトがなく隠蔽される可能性が高くなる。この特徴は、イントラフレーム（例えば、Iフレーム）とインター予測フレーム（例えば、Pフレーム及び／又はBフレーム）との双方の欠落したMBに適用可能である。

隣接するフレームの１つ（例えば、フレームn+1）が、符号化されたビットストリームで利用可能なMVが存在しないイントラフレームである場合、欠落したMBの空間的に隣接するMB（すなわち、図４ｂ）に示す(n,i+1,j+1)）のMV及びインター予測フレーム（すなわち、フレームn-1及び／又はn+1）の時間的に隣接するMBのMVが、時間的MV均一性を計算するために使用される。すなわち、

が計算される。

MV大きさ判定ユニット123は、MVの大きさを計算する。簡単なゼロモーションコピー（zero motion copy）に基づくEC方式では、MVの大きさが大きいほど、欠落したアーチファクトが見える可能性が高くなる。一実施例では、隣接するMB及び現在のMB（欠落していない場合）の動きベクトルの平均が計算される。すなわち、

が計算される。

他の実施例では、隣接するMBの動きベクトルの中央値の大きさが、欠落した現在のMBの動きの大きさとして使用される。欠落した現在のMBが隣接するMBを有さない場合、欠落した現在のMBの動きの大きさは、前のフレームの同一場所のMBのものに設定される。

テクスチャ平滑性判定ユニット124は、テクスチャの平滑性を計算する。一実施例では、以下の方法が使用される。

Iフレームでは、正確に受信したMBのテクスチャ平滑性は、以下の式に従ってそのDCT係数を使用して計算される。

ただし、

であり、p=0の場合、p×log(1/p)=0である。kはDCT係数のインデックスであり、k=0はDC成分を示す。MはDCT変換のサイズである。Tは0から1までの範囲の閾値であり、データセットに従って経験的に設定される（発明者の実験では0.8の値になる）。H.264では、DCT変換は、16×16、8×8又は4×4のサイズになってもよい。DCT変換が8×8（又は4×4）のサイズになる場合、１つの方法では、前述の式は、MBの4個（又は16個）の基本DCT変換単位に個々に適用され、MBのテクスチャ平滑性（texturesmoothness）は、4個（又は16個）の基本DCT変換単位のテクスチャ平滑性（texturesmoothness）の値の平均になる。他の方法では、4×4のDCT変換では、4×4のアダマール変換（Hadamard transform）が、16個の基本4×4DCT係数単位の同じ成分で構成された16個の4×4の配列に適用される。8×8のDCT変換では、ハール変換（Haar transform）が、64個の8×8DCT係数単位の同じ成分で構成された64個の2×2の配列に適用される。そして、どのサイズのDCT変換がMBにより使用されたとしても、256個の係数が取得される。次に、MBのテクスチャ平滑性（texturesmoothness）を計算するために、前述の式を使用する。イントラフレームのMBが欠落した場合、そのテクスチャ平滑性は、隣接するMBのものの中央値に等しい。欠落したMBが隣接するMBを有さない場合、そのテクスチャ平滑性は、前のフレームの同一場所のMBのものに等しい。

インター予測フレーム（P又はBフレーム）では、現在のMBの動きの動作状態（例えば、前述の空間均一性又は動きの大きさ）がゼロに等しい場合又はMBが予測残差（prediction residual）を有さない場合（例えば、スキップモード又はゼロに等しい予測残差のDCT係数）、MBのテクスチャ平滑性は、前のフレームの同一場所のMBのものに等しい。そうでない場合、正確なMBのテクスチャ平滑性は、前述の平滑性計算式に従って計算され、欠落したテクスチャ平滑性は、隣接するMB（存在する場合）のものの中央値として計算される、或いは、前のフレームの同一場所のMBのものと等しくなる。テクスチャ平滑性についての前述の式の背景にある基本的な概念は、テクスチャが平滑である場合、エネルギーのほとんどは、DCT係数のDC成分に集められるという点にある。他方、高い動作状態のMBでは、MBのテクスチャが大きいほど、MBのエネルギーがDCTの異なるAC成分により均一に分散される。前述の式に従って計算されたテクスチャ平滑性メトリックはまた、テクスチャマスキング効果を可視アーチファクト検出に適用するために使用されてもよい。

H.264のIフレームについて他の複雑でない実施例では、従って、あまり正確でない実施例では、図５に示す８個の種類の指向性のイントラ予測（intra-prediction）モードに加え、イントラ4×4（Intra_4x4）及びイントラ8×8（intra_8x8）イントラMBのための１つのイントラDC（Intra_DC）予測モードが存在する。イントラ16×16MBのための４つの予測モード（すなわち、垂直、水平、DC及びプラン（Plan））が存在する。従って、その空間的に隣接するMBのイントラ予測モードは、欠落したMBの平滑性を推測するために直接使用されてもよい。すなわち、

であり、（num.=数（number））である。texturesmoothness(n,i,j)の値が小さいほど、欠落したMBを回復するためにイントラ画素補間に基づくEC法が使用された場合、誤り隠蔽の後に欠落したMBのアーチファクトが見えにくくなる。

一実施例では、テクスチャ平滑性は、少なくとも隣接するMBのDCT係数から取得される。一実施例では、テクスチャ平滑性は、DC+AC係数のエネルギーに対するDC係数のエネルギーの比と閾値との比較（例えば、E_DC/E_DC+AC<thr?）から取得され、現在のMB及び隣接するMBのDCT係数を使用する。

一実施例では、確率判定ユニットは、インタースキップモード及び／又はインターダイレクトモードのような特定のモードの確率を計算する。これらのモードは、H.264符号化されたビットストリームに特有のものである。他の符号化フォーマットは、使用可能な他のモードを有してもよい。

一実施例では、インタースキップモードの確率は、以下の方法を使用して計算される。

H.264のスキップモードとは、ビットストリームのMBに更なるデータが存在しないことを意味する。MBが小さいブロックに分割されても分割されなくても、前述の式のブロックは、欠落したMBの隣接するMBの4×4のサイズのブロックを示す。

一実施例では、インターダイレクトモードの確率は、以下の方法を使用して計算される。

H.264のダイレクトモードとは、MBについてMVの差又は参照インデックスが存在しないことを意味する。MBが小さいブロックに分割されても分割されなくても、前述の式のブロックは、欠落したMBの隣接するMBの4×4のサイズのブロックを示す。

前述の２つの特徴量InterSkipModeRatio及びInterDirectModeRatioは、例えば加算の形式で、一緒に使用されてもよい。一般的に、MBがH.264のスキップモード又はダイレクトモードを使用して予測される場合、その動きは、その空間的又は時間的に隣接するMBの動きからうまく予測され得る。従って、この種類のMBが欠落した場合、時間的EC手法が欠落した画素を回復するために適用された場合には、あまり見えないアーチファクトで隠蔽され得る。

以下では、グローバル特徴量判定ユニット130のサブユニットについて説明する（図３参照）。この実施例では、１つ以上の欠落したパケットを有するフレーム毎に、４つの条件特徴量が抽出される。

フレーム種別判定サブユニット131は、フレーム種別を判定する。可能なフレーム種別は、イントラ予測（intra-predicted）フレーム又はインター予測（inter-predicted）フレームであり、これらはPフレーム又はBフレームでもよい。

フレームが部分的に欠落した場合、フレーム種別情報は、フレームの受信したパケットのスライスヘッダ（slice header）を解析することにより検出されてもよい。フレームが完全に欠落した場合、フレーム種別は、シーケンスのGOP構成から推測されてもよい。

イントラ／インター比検出サブユニット132は、フレーム内のインター予測MBに対するイントラ予測MBの比を計算する。

この特徴量は、部分的に欠落したフレームについて計算され、正確に受信したMBに基づいて計算される。

モーションインデックス判定サブユニット133では、部分的に欠落したP及び／又はBフレームについて（すなわち、フレームの半分未満が欠落した場合）、モーションインデックは、フレームの受信したMBの動きベクトルを使用して計算される。

欠落したIフレーム又は他の部分的に欠落したP/Bフレームについて（すなわち、フレームの半分より多くが欠落した場合）、そのモーションインデックスは、正確に受信したその隣接するPフレーム又はBフレームの動きベクトルを使用して計算される。

２つの隣接するフレームが完全に欠落した場合、前のフレームのモーションインデックスのパラメータが使用される（すなわち、MotionIndex(n)=MotionIndex(n-1)）。MotionIndexの値が大きいほど、フレームの動きが高くなる。

テクスチャインデックス判定サブユニット134は、欠落したMBを有するフレームのテクスチャインデックスを判定する。

フレームがイントラ予測であれインター予測であれ、テクスチャインデックスは、フレームの関心のあるMBのテクスチャ平滑性の値を使用して計算される。一実施例では、関心のあるMBは、欠落したMBに隣接するMB及び欠落したMB自体である。TextureIndexは、以下のように関心のあるMBのテクスチャ平滑性の値の平均を使用して計算される。

ただし、Kは関心のあるMBの総数であり、kは関心のあるMBのインデックスである。TextureIndexの値が大きいほど、フレームのテクスチャがリッチ（rich）になる。

最後に、EC有効性推定ユニット140は、既知のEC法をエミュレートし、可視アーチファクトレベルを予測する。前述のように、ビットストリームレベルのVQMの１つの課題は、復号化器で使用されるEC方式の有効性を推定することである。この理由は、実際に復号化せずにアーチファクトの可視性は分からないためである。ビットストリームレベルでは、EC方式で復号化した後に、欠落したMBのアーチファクトレベルのみを推定することができる。既存のEC法の有効性に密接に関係する典型的な条件特徴量及びローカルコンテンツ／符号化特徴量を抽出する方法について前述した。復号化器のEC方式が分かっていると仮定すると、欠落したMBの可視アーチファクトレベルは、ビットストリームレベルでのEC法の有効性をエミュレートすることにより、抽出された特徴量を使用して推定可能である。

例えば、EC有効性推定ユニット140の一実施例において、JM参照復号化器が使用されることを仮定する。JM復号化器で使用されるEC法については前述した。入力動画ビットストリームは、符号化順に解析される。解析中に欠落したMBが検出されたフレーム毎に、条件特徴量及びローカル特徴量が計算され、以下のステップに従って、MB毎に（又は少なくとも欠落したMB毎に）可視アーチファクトレベルが評価される。

フレームがイントラ予測である場合（すなわち、前に判定されたフレーム種別がイントラフレームである場合）アーチファクトレベルは、以下の式に従って前に計算されたテクスチャ平滑性から導かれる。

そうでなく、フレームがインター予測である場合（すなわち、前に判定されたフレーム種別がインターフレームである場合）、アーチファクトレベルは、以下の式に従って前に計算された空間均一性パラメータから導かれる（高い計算上の複雑性の場合）。

或いは、以下の式に従って導かれる（低い計算上の複雑性の場合）。

双方共に等しく適切である。

JM復号化器では、インター予測フレームの欠落したMBの動きベクトルは、空間的に隣接するMBのものから推定されるため、ここでは、欠落したMBの可視アーチファクトレベルを計算するために、spatialuniformMV特徴量が使用される。他の種類のEC方式では、spatialuniformMV特徴量及びaveragemagnitudeMV特徴量が、欠落したMBの可視アーチファクトレベルを予測するのに好適になり得る。

EC有効性推定ユニット140の他の実施例では、ffmpeg復号化器が使用されることを仮定する。ここでは、EC方式は、JM復号化器より高度である。イントラフレームが欠落したMBである場合、isIntraMoreLikeという名前の値が、現在のフレーム及び前のフレームの復号化された画素に基づいて計算される。パラメータisIntraMoreLike>0である場合、空間的画素補間に基づくEC法が使用される。そうでない場合、時間的EC法が使用される。インター予測フレームが欠落したMBを有する場合、受信したイントラ符号化MBの数が、受信したインター符号化MBの数と比較される。インター符号化MBの数がイントラ符号化MBの数より高い場合、時間的EC法が使用される。そうでない場合、空間的EC法が使用される。

従って、復号化器での処理をエミュレートすることにより、MB毎の（又は少なくとも欠落したMB毎の）可視アーチファクトレベルが、以下のステップに従って評価される。

前述の特徴量は、復号化器で使用される予め認識されたEC方式に応じて、誤り隠蔽の後の欠落したMBの可視アーチファクトレベルを予測するために別々に使用されてもよく、組み合わせて使用されてもよい。

一実施例では、本発明は、コンピュータに対して、動画ビットストリームから複数のグローバル条件特徴量を抽出及び／又は計算するステップと、マクロブロック（MB）が欠落したことを判定するステップと、少なくとも欠落したMBについて複数のローカル有効性特徴量を抽出及び／又は計算するステップと、この誤り隠蔽で使用される誤り隠蔽法をエミュレートすることにより、MB毎に（又は少なくとも欠落したMB毎に）数値の誤り隠蔽有効性レベルを計算するステップと、動画品質の推定された可視アーチファクトレベルとして、計算された誤り隠蔽有効性レベルを提供するステップとを有する方法を実行させる実行可能命令を有するコンピュータ可読媒体に関する。

前述では、どのような特徴量がMB毎に（又は少なくとも欠落したMB毎に）抽出及び／又は計算されても、これは、一実施例では、欠落したMBのみを示してもよく、他の実施例では、更に１つ以上の正確に受信したMBを示してもよい。本発明がチャネルアーチファクトを扱う限り、正確に受信したMBのアーチファクトレベルはゼロとしてみなされるため、アーチファクトレベルは、欠落したMBについて計算される。対応して、ECの有効性レベルが欠落したMB毎に計算される。しかし、正確なMBの特徴量は、欠落したMBの特徴量を推定するために使用される。従って、一実施例では、アルゴリズムの簡略化のため、また、ソフトウェアの実装のプログラミングの便宜上で、提案されたローカル特徴量がMB毎に（すなわち、欠落して正確なMB毎に）計算される。これは、正確なMBの特徴量が必要な場合に容易に利用可能であるという利点を有する。

本発明は、概して動画品質評価の分野に、特に受信機、復号化器等又はルータのようなネットワークエレメント等において使用可能である。本発明について単に一例として説明したが、本発明の範囲を逸脱することなく、詳細の変更が行われてもよいことが分かる。本発明の好ましい実施例に適用される本発明の基本的な新規な特徴について図示、説明及び指摘したが、本発明の要旨を逸脱することなく、開示された装置の形式及び詳細並びにその動作において、前述の装置及び方法の様々な省略、置換及び変更が当業者により行われてもよいことが分かる。同じ結果を実現するために実質的に同じ方法で実質的に同じ機能を実行する要素の全ての組み合わせは、本発明の範囲内にあることを明示的に意図する。１つの前述の実施例から他への要素の置換も、十分に意図及び考慮される。詳細な説明並びに（適切な場合には）特許請求の範囲及び図面に開示された各機能は、独立して提供されてもよく、いずれかの適切な組み合わせで提供されてもよい。機能は、必要に応じて、ハードウェア、ソフトウェア又は２つの組み合わせで実装されてもよい。請求項に現れる参照符号は、例示のみのためであり、特許請求の範囲に限定的な影響を有するものではない。
以上の実施例に関し、更に、以下の項目を開示する。
（付記１）誤り隠蔽の後の動画を示す動画品質をビットストリームレベルで推定する方法であり、前記誤り隠蔽前にビットストリームレベルで実行される方法であって、
動画ビットストリームから複数のグローバル条件特徴量を抽出及び／又は計算するステップと、
MBが欠落したことを判定するステップと、
少なくとも前記欠落したMBについて複数のローカル有効性特徴量を抽出及び／又は計算するステップと、
前記誤り隠蔽で使用される誤り隠蔽法をエミュレートすることにより、前記欠落したMBについて数値の誤り隠蔽の有効性レベルを計算するステップと、
動画品質の推定された可視アーチファクトレベルとして、前記計算された誤り隠蔽有効性レベルを提供するステップと
を有する方法。
（付記２）前記複数の条件特徴量は、フレーム種別、イントラMB対インターMBの比、モーションインデックス、及びテクスチャインデックスのうち少なくとも２つを有する、付記１に記載の方法。
（付記３）前記複数の条件特徴量は、フレーム種別、イントラMB対インターMBの比、モーションインデックス、及びテクスチャインデックスを少なくとも有する、付記２に記載の方法。
（付記４）前記テクスチャインデックスは、フレームの関心のあるMBのテクスチャ平滑性特徴量から取得され、
前記関心のあるMBは、前記欠落したMB自体と、前記欠落したMBに隣接するMBとを有し、
前記テクスチャ平滑性特徴量は、DC及びAC係数の累積エネルギーに対するDC係数の比と閾値との比較から取得される、付記２又は３に記載の方法。
（付記５）前記複数のローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、及びテクスチャ平滑性のうち少なくとも２つを有する、付記１ないし４のうちいずれか１項に記載の方法。
（付記６）前記複数のローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、平均の動きの大きさ、及びテクスチャ平滑性を少なくとも有する、付記５に記載の方法。
（付記７）前記空間的動きベクトル均一性は、隣接する正確なMBの動きベクトルに基づく、付記５又は６に記載の方法。
（付記８）前記テクスチャ平滑性は、DC+ACエネルギーに対するDC係数エネルギーの比と閾値との比較から取得され、現在のMB及び隣接するMBのDCT係数に基づく、付記５ないし７のうちいずれか１項に記載の方法。
（付記９）H.264符号化が使用され、前記複数のローカル有効性特徴量は、インタースキップモードの比及びインターダイレクトモードの比のうち少なくとも１つを有する、付記１ないし８のうちいずれか１項に記載の方法。
（付記１０）誤り隠蔽の後の動画を示す動画品質を推定する装置であり、前記動画品質が前記誤り隠蔽前にビットストリームレベルで推定される装置であって、
動画ビットストリームから複数のグローバル条件特徴量を抽出及び計算する第１の抽出及び計算手段と、
MBが欠落したことを判定する判定手段と、
少なくとも前記欠落したMBについて複数のローカル有効性特徴量を抽出及び計算する第２の抽出及び計算手段と、
誤り隠蔽法をエミュレートすることにより、前記欠落したMBについて数値のEC有効性レベルを計算する計算手段と、
動画品質の推定された可視アーチファクトレベルとして、前記計算された誤り隠蔽有効性レベルを提供する出力手段と
を有する装置。
（付記１１）前記複数の条件特徴量は、フレーム種別、イントラMB対インターMBの比、モーションインデックス、及びテクスチャインデックスのうち少なくとも２つを有する、付記１０に記載の装置。
（付記１２）前記複数の条件特徴量は、フレーム種別、イントラMB対インターMBの比、モーションインデックス、及びテクスチャインデックスを少なくとも有する、付記１１に記載の装置。
（付記１３）前記テクスチャインデックスは、フレームの関心のあるMBのテクスチャ平滑性特徴量から取得され、
前記テクスチャ平滑性特徴量は、DC及びAC係数の累積エネルギーに対するDC係数の比と閾値との比較から取得され、
前記関心のあるMBは、前記欠落したMB自体と、前記欠落したMBに隣接するMBとを有する、付記１１又は１２に記載の装置。
（付記１４）前記複数のローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、及びテクスチャ平滑性のうち少なくとも２つを有する、付記１０ないし１３のうちいずれか１項に記載の装置。
（付記１５）H.264符号化が使用され、前記複数のローカル有効性特徴量は、インタースキップモードの比及びインターダイレクトモードの比のうち少なくとも１つを有する、付記１０ないし１４のうちいずれか１項に記載の装置。

Claims

動画品質をビットストリームレベルで推定する方法であり、前記方法は、誤り隠蔽前に符号化されたビットストリームレベルで実行され、前記動画品質は、誤り隠蔽後の復号化された動画の推定品質である方法であって、
動画ビットストリームから複数のグローバル条件特徴量を抽出及び／又は計算するステップであり、前記グローバル条件特徴量は、フレーム種別、イントラマクロブロック対インターマクロブロックの比、モーションインデックス、及びテクスチャインデックスのうち少なくとも２つを有し、モーションインデックスは、フレームの全ての受信した動きベクトルの平均の長さであり、テクスチャインデックスは、前記フレームの関心のあるマクロブロックの特徴であるテクスチャ平滑性から取得されるステップと、
マクロブロックが欠落したことを決定するステップと、
少なくとも前記欠落したマクロブロックについて複数のローカル有効性特徴量を抽出及び／又は計算するステップであり、前記ローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、及びテクスチャ平滑性のうち少なくとも２つを有し、空間的動きベクトル均一性は、前記欠落したマクロブロックに空間的に隣接するマクロブロックの動きベクトルの均一性の指標であり、時間的動きベクトル均一性は、前記欠落したマクロブロックに時間的に隣接する同一場所のマクロブロックの動きベクトルの均一性の指標であり、テクスチャ平滑性は、空間的又は時間的に隣接するマクロブロックのDCT係数の均一性の指標であるステップと、
前記誤り隠蔽で使用される誤り隠蔽法をエミュレートすることにより、前記複数のグローバル条件特徴量及び前記複数のローカル有効性特徴量に基づいて前記欠落したマクロブロックについて数値の誤り隠蔽レベルを計算するステップと、
動画品質の推定されたアーチファクトレベルとして、前記計算された誤り隠蔽レベルを提供するステップと
を有する方法。
前記複数のグローバル条件特徴量は、フレーム種別、イントラマクロブロック対インターマクロブロックの比、モーションインデックス、及びテクスチャインデックスを少なくとも有する、請求項１に記載の方法。
前記関心のあるマクロブロックは、前記欠落したマクロブロックと、前記欠落したマクロブロックに隣接するマクロブロックとを有し、
前記テクスチャ平滑性は、DC及びAC係数の累積エネルギーに対するDC係数エネルギーの比と閾値との比較から、

に従って取得され、

であり、kはDCT係数のインデックスであり、MはDCT変換のサイズであり、Tは範囲[0,...,1]内の閾値である、請求項１又は２に記載の方法。
前記複数のローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、平均の動きの大きさ、及びテクスチャ平滑性を少なくとも有する、請求項１ないし３のうちいずれか１項に記載の方法。
前記空間的動きベクトル均一性は、水平及び垂直方向に別々に、隣接する正確なマクロブロックの動きベクトルの分散に基づいて計算される、請求項１ないし４のうちいずれか１項に記載の方法。
前記テクスチャ平滑性は、DC+ACエネルギーに対するDC係数エネルギーの比と閾値との比較から取得され、現在のマクロブロック及び隣接するマクロブロックのDCT係数に基づく、請求項１ないし５のうちいずれか１項に記載の方法。
前記複数のローカル有効性特徴量は、インタースキップモードの比及びインターダイレクトモードの比のうち少なくとも１つを有し、
インタースキップモードの比は、スキップモードを使用するブロックと、これに隣接するマクロブロック内のブロックとの比であり、ブロックのスキップモードは、前記ブロックを有するマクロブロックについて前記ビットストリームに更なるデータが存在しないことを意味し、
インターダイレクトモードの比は、ダイレクトモードを使用するブロックと、これに隣接するマクロブロック内のブロックとの比であり、インターダイレクトモードは、前記ブロックを有するマクロブロックについて前記ビットストリームに動きベクトルの差又は参照インデックスが存在しないことを意味する、請求項１ないし６のうちいずれか１項に記載の方法。
前記方法は、No-Reference型動画品質測定方法である、請求項１ないし７のうちいずれか１項に記載の方法。
動画品質を推定する装置であり、前記動画品質は、誤り隠蔽前に符号化されたビットストリームレベルで推定され、前記動画品質は、誤り隠蔽後の復号化された動画の推定品質である装置であって、
動画ビットストリームから複数のグローバル条件特徴量を抽出及び計算する第１の抽出及び計算手段であり、前記グローバル条件特徴量は、フレーム種別、イントラマクロブロック対インターマクロブロックの比、モーションインデックス、及びテクスチャインデックスのうち少なくとも２つを有し、モーションインデックスは、フレームの全ての受信した動きベクトルの平均の長さであり、テクスチャインデックスは、前記フレームの関心のあるマクロブロックの特徴であるテクスチャ平滑性から取得される第１の抽出及び計算手段と、
マクロブロックが欠落したことを決定する決定手段と、
少なくとも前記欠落したマクロブロックについて複数のローカル有効性特徴量を抽出及び計算する第２の抽出及び計算手段であり、前記ローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、及びテクスチャ平滑性のうち少なくとも２つを有し、空間的動きベクトル均一性は、前記欠落したマクロブロックに空間的に隣接するマクロブロックの動きベクトルの均一性の指標であり、時間的動きベクトル均一性は、前記欠落したマクロブロックに時間的に隣接する同一場所のマクロブロックの動きベクトルの均一性の指標であり、テクスチャ平滑性は、空間的又は時間的に隣接するマクロブロックのDCT係数の均一性の指標である第２の抽出及び計算手段と、
誤り隠蔽法をエミュレートすることにより、前記複数のグローバル条件特徴量及び前記複数のローカル有効性特徴量に基づいて前記欠落したマクロブロックについて数値の誤り隠蔽レベルを計算する計算手段と、
動画品質の推定されたアーチファクトレベルとして、前記計算された誤り隠蔽レベルを提供する出力手段と
を有する装置。
前記複数のグローバル条件特徴量は、フレーム種別、イントラマクロブロック対インターマクロブロックの比、モーションインデックス、及びテクスチャインデックスを少なくとも有する、請求項９に記載の装置。
前記関心のあるマクロブロックは、前記欠落したマクロブロックと、前記欠落したマクロブロックに隣接するマクロブロックとを有し、
前記テクスチャ平滑性は、DC及びAC係数の累積エネルギーに対するDC係数エネルギーの比と閾値との比較から、

に従って取得され、

であり、kはDCT係数のインデックスであり、MはDCT変換のサイズであり、Tは範囲[0,...,1]内の閾値である、請求項９又は１０に記載の装置。
前記複数のローカル有効性特徴量は、空間的動きベクトル均一性、時間的動きベクトル均一性、平均の動きの大きさ、及びテクスチャ平滑性を少なくとも有する、請求項９ないし１１のうちいずれか１項に記載の装置。
前記空間的動きベクトル均一性は、水平及び垂直方向に別々に、隣接する正確なマクロブロックの動きベクトルの分散に基づいて計算される、請求項９ないし１２のうちいずれか１項に記載の装置。
前記テクスチャ平滑性は、DC+ACエネルギーに対するDC係数エネルギーの比と閾値との比較から取得され、現在のマクロブロック及び隣接するマクロブロックのDCT係数に基づく、請求項９ないし１３のうちいずれか１項に記載の装置。
前記複数のローカル有効性特徴量は、インタースキップモードの比及びインターダイレクトモードの比のうち少なくとも１つを有し、
インタースキップモードの比は、スキップモードを使用するブロックと、これに隣接するマクロブロック内のブロックとの比であり、ブロックのスキップモードは、前記ブロックを有するマクロブロックについて前記ビットストリームに更なるデータが存在しないことを意味し、
インターダイレクトモードの比は、ダイレクトモードを使用するブロックと、これに隣接するマクロブロック内のブロックとの比であり、インターダイレクトモードは、前記ブロックを有するマクロブロックについて前記ビットストリームに動きベクトルの差又は参照インデックスが存在しないことを意味する、請求項９ないし１４のうちいずれか１項に記載の装置。