JP2016510567A - コンテキスト・ベースのビデオ品質評価のための方法および装置 - Google Patents

コンテキスト・ベースのビデオ品質評価のための方法および装置 Download PDF

Info

Publication number
JP2016510567A
JP2016510567A JP2015556366A JP2015556366A JP2016510567A JP 2016510567 A JP2016510567 A JP 2016510567A JP 2015556366 A JP2015556366 A JP 2015556366A JP 2015556366 A JP2015556366 A JP 2015556366A JP 2016510567 A JP2016510567 A JP 2016510567A
Authority
JP
Japan
Prior art keywords
distortion
temporal
current frame
determined
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2015556366A
Other languages
English (en)
Other versions
JP2016510567A5 (ja
Inventor
リヤオ,ニーン
チェン,ジーボー
ジャン,ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2016510567A publication Critical patent/JP2016510567A/ja
Publication of JP2016510567A5 publication Critical patent/JP2016510567A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

空間的歪み(すなわち、フレームがビデオ・シーケンス中の他のフレームとは独立に見られるときのもの)は、時間的歪み(すなわち、諸フレームが連続的に見られるときのもの)とは全く異なることがありうる。時間的歪みを推定するために、スライディング窓アプローチが使われる。具体的には、現在フレームのまわりの複数のスライディング窓が考慮される。各スライディング窓内で、大きな歪みの密度が計算され、最高の大きな歪みの密度をもつスライディング窓が選択される。現在フレームと、選択された窓内の大きな歪みをもつ最も近いフレームとの間の距離が計算される。その後、時間的歪みは、最高の大きな歪みの比、現在フレームについての空間的歪みおよび前記距離の関数として推定される。別の実施形態では、各スライディング窓について空間的歪み値のメジアンが計算され、メジアン空間的歪み値のうちの最大のものが、時間的歪みを推定するために使われる。

Description

本発明は、ビデオ品質測定に、より詳細には客観的なビデオ品質メトリックを決定するための方法および装置に関する。
ビデオ・シーケンス中の個々のフレームの品質レベルを推定するために種々の方法が開発されてきた。ビデオ・シーケンス中の個々のフレームの推定された品質レベルが与えられたとき、該ビデオ・シーケンスの知覚される品質とよく一致する、客観的な全体的なビデオ品質メトリックを得る諸方法は、時間的プール戦略の部門のもとで研究されてきた。
本願の原理は、後述するように、ビデオ・シーケンスの視覚的品質を推定する方法であって:前記ビデオ・シーケンス中の現在フレームを含む複数のスライディング窓内の諸フレームについての空間的歪みにアクセスする段階と;各スライディング窓についての大きな歪みの密度および代表的アーチファクト・レベルの少なくとも一方を示す因子を、該各スライディング窓内の諸フレームについてのそれぞれの空間的歪みに応じて決定する段階と;現在フレームについての時間的歪みを、決定された前記因子に応じて決定する段階と;前記ビデオ・シーケンスの視覚的品質を、現在フレームの時間的歪みに応じて決定する段階とを含む方法を提供する。本願の原理はまた、これらの段階を実行するための装置をも提供する。
本願の原理は、後述するように、ビデオ・シーケンスの視覚的品質を推定する方法であって:前記ビデオ・シーケンス中の現在フレームを含む複数のスライディング窓内の諸フレームについての空間的歪みにアクセスする段階と;各スライディング窓についての大きな歪みの密度および代表的アーチファクト・レベルの少なくとも一方を示す因子を、該各スライディング窓内の諸フレームについてのそれぞれの空間的歪みに応じて決定する段階と;前記複数のスライディング窓についての前記因子のうちの最大を決定する段階と;現在フレームについての時間的歪みを、前記最大の因子に応じて決定する段階と;前記ビデオ・シーケンスの視覚的品質を、現在フレームの時間的歪みに応じて決定する段階とを含む方法を提供する。本願の原理はまた、これらの段階を実行するための装置をも提供する。
本願の原理は、上記の方法に従ってビデオ・シーケンスの視覚的品質を推定するための命令を記憶しているコンピュータ可読記憶媒体をも提供する。
Aは、例示的なビデオ・シーケンスにおける個々のフレームについての空間的アーチファクト・レベルを描く絵的な例である。Bは、前記例示的なビデオ・シーケンスにおける個々のフレームについての知覚される時間的品質を描く絵的な例である。 A、B、Cは、本願の原理のある実施形態に基づく、ビデオ品質モデル化において使用されるスライディング窓を描いている絵的な例である。 Aは、別の例示的なビデオ・シーケンスにおける個々のフレームについての空間的アーチファクト・レベルを描く絵的な例である。B、Cは、本願の原理のある実施形態に基づく、それぞれフレームの近傍における優勢な歪みおよび推定される時間的歪みを描く絵的な例である。 Aは、別の例示的なビデオ・シーケンスにおける個々のフレームについての空間的アーチファクト・レベルを描く絵的な例である。B、Cは、本願の原理のある実施形態に基づく、それぞれフレームの近傍における最高の大きな歪みおよび推定される時間的歪みを描く絵的な例である。 Aは、別の例示的なビデオ・シーケンスにおける個々のフレームについての空間的アーチファクト・レベルを描く絵的な例である。B、Cは、本願の原理のある実施形態に基づく、それぞれフレームの近傍における最高の大きな歪みおよび推定される時間的歪みを描く絵的な例である。 本願の原理のある実施形態に基づく、フレームnにおける時間的歪みをモデル化するための例示的な方法を描く流れ図である。 本願の原理のある実施形態に基づく、例示的なビデオ品質モニタを描くブロック図である。 一つまたは複数の実装とともに使用されうる例示的なビデオ処理システムを描くブロック図である。
本願では、「空間的アーチファクト」は、ビデオ・シーケンス中のピクチャがそのビデオ・シーケンス中の他のピクチャとは独立に見られるときに該ピクチャにおいて知覚されるアーチファクトを表わすために使い、「時間的アーチファクト」は、ビデオ・シーケンス中の諸ピクチャが連続的に表示されるときにそのビデオ・シーケンスのあるピクチャにおいて知覚されるアーチファクトを表わすために使う。同様に、「空間的歪み」または「空間的品質」は、ピクチャがビデオ・シーケンス中の他のピクチャとは独立に見られるときに該ピクチャにおいて知覚される歪みまたは品質を表わすために使い、「時間的歪み」または「時間的品質」は、ビデオ・シーケンス中の諸ピクチャが連続的に表示されるときにそのビデオ・シーケンスのあるピクチャにおいて知覚される歪みまたは品質を表わすために使う。
空間的歪みを評価するときは、ピクチャは、見る者が画像内容および歪みを認識するために十分長い時間期間にわたって、ビデオ・シーケンス中の他のピクチャとは独立に見られる。これは、諸ピクチャが連続的に表示される時間的歪みの評価とは異なる。
本願では、用語「フレーム」は、用語「ピクチャ」と交換可能に使用される。用語「歪み」および「アーチファクト」はいずれもフレームにおける品質劣化を指し、しばしば交換可能に使われる。
ds(n)として表わされるフレームnの空間的歪みは、さまざまな画像品質評価方法によって得ることができる。そうした方法は、これに限られないがたとえば、フル参照または参照なし方法およびピクセル・ドメインにおけるまたはビットストリーム・レベルでの方法である。ある実施形態では、空間的歪みは、N.Liao, Z.Chen, and K.Xieによる「ビットストリーム・レベルでのビデオ品質評価」と題する本願と共通の所有者のPCT出願(PCT/CN2012/078766、代理人整理番号PA120027)において開示される初期のおよび/または伝搬された可視的アーチファクトによって引き起こされる全体的な可視のアーチファクト・レベルとして推定されることができる。同出願の教示はここに参照によって具体的に組み込まれる。
諸ピクチャにおける空間的アーチファクトは、視線がそこに留まりそれをアーチファクトとして認識することができるにはある時間期間にわたって続く必要がある。ピクチャがビデオ・シーケンスの一部であり、それぞれが非常に短い時間期間(たとえばビデオがリアルタイムで再生されるときのフレーム・レート分の一の期間)しか表示されないときは、フレームnの時点における知覚されるビデオ歪み、すなわちフレームnにおける時間的歪みdt(n)は、フレームnの空間的歪みds(n)とは全く異なることがある。これは、時間的歪みdt(n)が内容およびその近隣フレームの歪みによって影響されるためでありうる。
例示的なビデオ・シーケンスとして、図1のAは、ビデオ・シーケンス内の個々のフレームの空間的アーチファクト・レベルを示しており、図1のBはビデオ・シーケンス内の個々のフレームの時間的品質を示している。より具体的には、図1のAは、例示的なビデオ・シーケンスがパケット損失を被るときの諸フレームの空間的アーチファクト・レベルを示している。空間的アーチファクトはビデオ・シーケンスにおいて散発的であることがある。たとえば、フレーム74、77、215、261および262において見られる空間的アーチファクトである。空間的アーチファクトは、フレーム106〜111あたりに見られるアーチファクトのように、バーストで起こることもある。
図1のBは、ビデオ・シーケンスの諸フレームが連続的に表示されるときの時間的品質を示している。ここで、スコア100が最良品質に対応する。品質測定方法に依存して、品質スコアは、異なるスケールにあってもよい。時間的品質の正確な曲線は、主観的な試験方法を使って得られてもよい。そうした方法は、これに限られないがたとえば、ITU-R BT500において定義されているような単一刺激連続品質評価(SSCQE: Single Stimulus Continuous Quality Evaluation)である。
図1のAから、フレーム74および77が、これら二つのフレームが独立して見られるときは、強い空間的アーチファクトをもつことが見て取れる。しかしながら、これら二つのフレームにおけるアーチファクトは、ビデオが連続的に表示されるときには見えなくなり、よってフレーム74および77は、図1のBに示されるように、連続的に見られるときは、最良品質レベルにある。このように、強い空間的アーチファクトがいつも高い時間的歪みに対応するのではないことがある。他方、ビデオ・シーケンスの一つのフレームが、他のフレームと独立して見られるときには良好な品質をもつように見えることがあるが、ビデオ・シーケンスが連続的に表示されるときは非常に強い時間的歪み(たとえば動きジッタ)を呈することがある。すなわち、小さな空間的歪みがいつも小さな知覚される時間的歪み(すなわち、より高い時間的品質)に対応するのではないことがある。
このように、空間的歪み(すなわち、ピクチャがビデオ・シーケンス中の他のピクチャとは独立に見られるときのもの)は、時間的歪み(すなわち、諸ピクチャが連続的に見られるときのもの)とは全く異なることがありうる。本願の原理は、個々のフレームについての空間的歪みから時間的品質を正確にモデル化するための方法および装置を提供する。特に、本願の原理は、見る者が時間的歪みをどのように識別するかに影響するコンテキストを考慮する。ここで、コンテキストは、たとえば、歪みの継続時間およびパターンならびに近隣フレームを見ることにより見る者が認識するテクスチャおよびオブジェクトの動きを含むがそれに限られない。
ある実施形態では、空間的歪みを与えられたとき、知覚される時間的歪みは、スライディング窓アプローチを使ってモデル化されることができる。図2のA〜Cに示されるように、フレームnを含むL0個のフレームのスライディング窓(Si,nと表わされる)はフレーム(n−i)において始まり、フレーム(n−i+L0−1)において終わる。0≦i<L0である。見る者の目が歪みを認識するために必要とされる時間期間を近似する窓長を選んでもよい。よって、スライディング窓は、L0=round(T0×frame_rate)個のフレームを含む。ここで、T0は見る者が歪みを認識するために必要とされる時間期間であり、frame_rateはビデオ・シーケンスのフレーム・レートである。スライディング窓の外に存在するアーチファクトは、現在フレームの時間的アーチファクトの可視性にほとんど寄与をもたないと見なされる。
現在フレームの知覚される時間的歪みは主として、大きな歪みをもつ(すなわち歪みレベルがある閾値を超える)近くにあるフレームによって影響されることが観察される。本願の原理において、我々は、あるフレームの近傍におけるそのようなクラスタリングされた大きな空間的歪みの影響を推定するための種々の実施形態を提供する。
ある実施形態では、時間的歪みを推定するために、諸スライディング窓における諸メジアン歪み値のうちの最大を使ってもよい。数学的には、各スライディング窓Si,nについて、Si,n内のフレームのメジアン歪みを
MDi,n=median{ds(j),frame j∈Si,n} (1)
として計算できる。メジアン関数は、近隣の諸フレームを調べて、現在フレームの空間的歪みがその周囲の代表的なものであるか否かを決定し、極端な歪みレベル(外れ値)を拒否する。すなわち、MDi,nを、スライディング窓Si,nについての代表的な歪みレベルと考えてもよい。他の実施形態では、MDi,nを得るために平均または他のフィルタリングを使ってもよい。
フレームnを含むすべてのスライディング窓において、より大きな歪みをもつスライディング窓は通例、視覚的品質に、より有意に影響する。よって、諸スライディング窓{Si,n, 0≦i<L0}のうちのメジアン歪み値の最大として優勢な歪みを同定するために、最大関数が使用されることができる:
mn=max{MDi,n, 0≦i<L0} (2)
現在フレームについての知覚される時間的歪みは、概して、現在フレームの空間的歪みの強さよりは、その近傍における優勢な歪みによって決定されることが観察される。たとえば、フレームnが、認識されるのに十分長く続かない深刻な空間的歪みds(n)をもつとき、知覚される時間的歪みは主として、その近傍における歪みによって影響される。よって、現在フレームについての時間的歪みを設定するために最小関数が使用されることができる。すなわち、時間的歪みdt(n)を:
dt(n)=min{mn,ds(n)} (3)
のように、フレームnについての空間的歪み値とメジアン歪み値の最大mnとのうちの小さいほうに設定してもよい。
図3のAは、例示的なビデオ・シーケンス内のフレームについての空間的アーチファクト・レベルを示しており、図3のB、Cは、それぞれ式(2)および(3)を適用した後の結果を示している。メジアン関数を使うことにより、メジアン歪み値の最大は、図3のBに示されるように、極端な値を回避する。結果として、図3から見て取れるように、たとえばフレーム86、125、166にある、近隣のものよりずっと大きな空間的アーチファクト・レベルは、推定される時間的歪みには存在しない。加えて、推定される時間的歪みレベルは、空間的歪みレベルよりも、フレームからフレームにかけてより小さな変動をもつ。
もう一つの実施形態では、時間的歪みを推定するために、すべてのスライディング窓{Si,n, 0≦i<L0}における、大きな歪みをもつ(すなわち、歪みレベルがある閾値を超える)フレームの比のうちの最大値を使ってもよい。より小さな歪みは通例、ビデオ・シーケンスが連続的に再生されるときは見えなくなるので、大きな歪みをもつフレームのみを考える。数学的には、各スライディング窓Si,nについて、Si,n中の大きな歪みをもつフレームの数とSi,n中のフレームの総数との比を
Figure 2016510567
として、計算することができる。ここで、
Figure 2016510567
であり、Uは空間的歪み閾値である。記法の簡単のため、スライディング窓内の大きな空間的歪みをもつフレームの数と該スライディング窓内のフレームの総数との比を、そのスライディング窓についての大きな歪みの密度(large distortion density)と記す。
大きな歪みの密度がより高いスライディング窓は通例、視覚的品質により有意に影響することが観察される。よって、すべてのスライディング窓のうちでの最高の比を:
wn=max{Ri,n, 0≦i<L0} (5)
として計算する。すると、フレームnにおける知覚される時間的歪みを、重み付けされた歪み:
dt(n)=wn×ds(n) (6)
として推定することができる。
加えて、大きな歪みをもつ二つの最も近いフレームの間の距離も知覚される時間的歪みに影響することが観察される。すなわち、大きな歪みをもつ二つのフレームがより近いとき、歪みは人間の目にとってより可視になる。よって、時間的歪みの推定は、フレームnと、最も近い、大きな歪みをもつフレームとの間の距離をも考慮することにより、改善されうる。ある実施形態では、式(6)を修正して次のようにしてもよい。
dt(n)=wn×ds(n)/f(dist(n)) (7)
ここで、dist(n)はフレームnと、最高の大きな歪みの密度に対応するスライディング窓内の大きな歪みをもつ最も近いフレームとの間の距離である。対応するスライディング窓内に大きな歪みをもつ他のフレームがなければ、dist(n)は非常に大きな値、たとえば1000に設定する。すなわち、スライディング窓内に大きな歪みをもつフレームが一つしかないときは、その歪みはそれほど可視ではないと考え、dt(n)を非常に小さな値に設定するのである。f(dist(n))を定義するためには種々の関数を使うことができ、たとえばf(dist(n))=dist(n)またはf(dist(n))=(dist(n))αである。ここで、αは定数である。
図4のAは、例示的なビデオ・シーケンスにおける諸フレームについての空間的アーチファクト・レベルを示している。図4のBおよびCは、それぞれ式(5)および式(7)を適用した後の結果を示している。ここで、L0=1秒、U=(フレーム当たりのマクロブロック数)/100である。L0およびUの値は、構成設定とともに、たとえばGOP長、ビデオ解像度およびフレーム・レートとともに変わりうる。図5のAは、別の例示的なビデオ・シーケンスにおける諸フレームについての空間的アーチファクト・レベルを示しており、図5のBおよびCは、それぞれ式(5)および式(7)を適用した後の結果を示している。
図4のBおよび図5のBから、大きな歪みがよりクラスタリングされているときは比がより大きくなることが観察される。すなわち、比は、近隣のフレームが現在フレームの知覚される品質に影響するかどうかおよびどの程度影響するかを効果的に反映する。結果として、図4のCおよび図5のCから見て取れるように、クラスタリングされた大きな歪みをもつ諸フレーム(たとえば図4のAではフレーム106付近、図5のAではフレーム105および200付近)の継続時間は推定される時間的歪みレベルに影響する。すなわち、図4のAに示されるような、より短い歪み継続時間は結果として、空間的歪みよりずっと小さい推定された時間的歪みを与え、一方、図5のAに示されるような、より長い歪み継続時間は結果として、空間的歪みと同じオーダーの推定される時間的歪みを与える。このことは、持続的な歪みが知覚される品質に対してよりマイナスの影響をもつ人間の知覚と整合する。
上記で論じたように、フレームnについての時間的歪みを推定するために、近隣フレームにおいて与えられるコンテキストを考慮する。ある実施形態では、式(1)〜式(3)に示されるように、メジアン歪み値を使う。もう一つの実施形態では、式(4)〜式(7)に示されるように、大きな歪みの密度を使う。さらにもう一つの実施形態では、メジアン歪み値と大きな歪みの密度のアプローチが組み合わされて、フレームnについての時間的歪みを:
dt(n)=wn×min(mn,ds(n)) (8)
として推定することができる。
上記では、目がアーチファクトを認識するために十分に長い時間期間を必要とするという人間の視覚属性に基づいて時間的歪みを推定している。時間的歪みは、他の因子、たとえばこれに限られないが動きががたがたしていること(motion jerkiness)によって影響されてもよい。結果として、上記のようにして推定された時間的歪みは、他の因子を考慮するために調整される必要があることがある。ある例示的な組み合わせはdt'(n)=dt(n)+c×dt2(n)であることができる。ここで、dt2(n)は動きががたがたしていることによって引き起こされる歪みである。
ビデオ・シーケンス中の個々のフレームについての時間的歪み{dt(n)}に基づいて、ビデオ・シーケンスの全体的な知覚される歪みが、時間的プール(temporal pooling)戦略を使って導出されることができる。たとえば、単純な平均演算が使われることができる。すなわち、全体的な歪み=(1/N)Σn=1 Ndt(n)である。
図6は、本願の原理に基づく、フレームnにおける時間的歪みをモデル化する例示的な方法600を示している。方法600はステップ605で始まる。スライディング窓Si,nについて、ステップ610においてたとえば式(1)を使ってメジアン歪み値を計算し、ステップ620においてたとえば式(4)を使って大きな歪みの密度を計算する。ステップ630において、さらなるスライディング窓が処理される必要があるかどうかを検査する。そうであれば、ステップ610に制御を戻す。そうでなければ、ステップ640において、フレームnについてのすべてのスライディング窓におけるメジアン歪み値の最大を、たとえば式(2)を使って計算する。ステップ650では、フレームnについてのすべてのスライディング窓における最高の大きな歪みの密度を、たとえば式(5)を使って計算する。ステップ660では、フレームnについての時間的歪みを、たとえば式(3)、(6)または(8)を使って推定する。フレームnと大きな歪みをもつ最も近いフレームとの間の距離がステップ660においてたとえば式(7)を使って考慮されてもよい。方法600はステップ699で終了する。
方法600では、メジアン歪み値の最大および最高の大きな歪みの密度の両方が時間的歪みを推定するために使われる。もう一つの実施形態では、メジアン歪み値の最大だけが時間的歪みを推定するために使われる。すなわち、ステップ620および650は必要とされず、ステップ660は時間的歪みをメジアン歪み値の最大に基づいて、たとえば式(3)を使って推定する。もう一つの実施形態では、最高の大きな歪みの密度だけが時間的歪みを推定するために使われる。すなわち、ステップ610および640は必要とされず、ステップ660は最高の大きな歪みの密度に基づいて、たとえば式(6)または式(7)を使って、時間的歪みを推定する。
方法600またはその変形は、ステップの異なる順序で進行してもよい。たとえば、ステップ620はステップ610の前に実行されてもよく、ステップ650はステップ640の前に実行されてもよい。
本願の原理に基づくビデオ品質モデリング方法は、ビデオ・シーケンスが圧縮アーチファクトおよび/またはパケット損失を被るときのビデオ品質を測定するために適用されることができる。本願の方法は、ビットストリーム・レベルまたはピクセル・レベルで得られる空間的アーチファクトとの関連で使用されてもよい。すなわち、本願の方法は、ビットストリーム・レベルおよびピクセル・レベルの両方で適用されることができる。
本願の原理は、ビデオ品質を測定するためにビデオ品質モニタにおいて使用されてもよい。図7は、例示的なビデオ品質モニタ700のブロック図を描いている。装置700の入力は、ビットストリームを含むトランスポート・ストリームを含んでいてもよい。この入力は、ビットストリームを含む他のフォーマットであってもよい。
デマルチプレクサ710は、ビットストリームからのパケット層情報を得る。デコーダ720は入力ストリームをパースしてさらなる情報を得る。デコーダ720はピクチャを再構成してもしなくてもよい。他の実施形態では、デコーダがデマルチプレクサの機能を実行してもよい。
デコードされた情報を使って、空間的アーチファクト・レベル推定器730において空間的アーチファクト・レベルが推定される。推定されたパラメータに基づいて、時間的歪み推定器740において、たとえば方法600を使って、時間的歪みレベルが推定される。次いで、品質予測器750は、個々のフレームについての時間的歪みレベルを、当該ビデオ・シーケンスについての品質スコア中にプールする。品質予測器750は、他の型のアーチファクトおよび人間の視覚的属性の属性を考慮してもよい。
ビデオ品質モニタ700はたとえばITU-T P.NBAMS(parametric non-intrusive bitstream assessment of video media streaming quality[ビデオ・メディア・ストリーミング品質のパラメトリックな非侵襲的ビットストリーム評価])規格において使われてもよい。同規格は、二つの応用シナリオ、つまりそれぞれHR(High Resolution[高分解能])シナリオおよびLR(Low Resolution[低分解能])シナリオとも呼ばれるIPTVおよびモバイル・ビデオ・ストリーミングにおけるビデオ品質評価モデルに基づいて機能する。二つのシナリオの間の相違は、ビデオ・コンテンツの空間時間的分解能および符号化構成からトランスポート・プロトコルおよび閲覧条件にまで及ぶ。
P.NBAMS VQM(Video Quality Model[ビデオ品質モデル])への入力は、すべての伝送パケット・ヘッダ(UDP/IP/RTPまたはUDP/IP/RTP/TS)をもつ符号化されたビデオ・ビットストリームである。出力は、客観的なMOSスコア(Mean Opinion Score[平均意見スコア])である。P.NBAMS作業の主要な目標用途は、セットトップボックス(STB)またはゲートウェイにおいてビデオ品質をモニタリングすることである。P.NBAMSモード1モデルはビットストリーム情報のみを使い、モード2モデルはビデオ・シーケンスの一部または全部をデコードしてもよく、予測精度を改善するために、ビットストリーム情報をパースすることに加え、ピクセル情報が視覚的品質予測のために使われる。
図8を参照するに、上記の特徴および原理が適用されうるビデオ伝送システムまたは装置800が示されている。プロセッサ805はビデオを処理し、エンコーダ810はビデオをエンコードする。エンコーダから生成されるビットストリームは、配送ネットワーク820を通じてデコーダ830に伝送される。種々の段階においてビデオ品質モニタが使用されうる。
ある実施形態では、ビデオ品質モニタ840が、コンテンツ・クリエーターによって使用されてもよい。たとえば、推定されたビデオ品質は、エンコーダによって、モード決定またはビットレート割り当てのようなエンコード・パラメータを決定する際に使用されてもよい。もう一つの例では、ビデオがエンコードされた後、コンテンツ・クリエーターは、エンコードされたビデオの品質をモニタリングするためにビデオ品質モニタを使う。品質メトリックがあらかじめ定義された品質レベルを満たさない場合には、コンテンツ・クリエーターは、ビデオ品質を改善するためにビデオをエンコードし直すことを選んでもよい。コンテンツ・クリエーターは、品質に基づいてエンコードされたビデオをランク付けしてもよく、コンテンツにしかるべく課金する。
もう一つの実施形態では、ビデオ品質モニタ850が、コンテンツ配送者によって使用されてもよい。ビデオ品質モニタは配送ネットワーク内に置かれてもよい。ビデオ品質モニタは品質メトリックを計算し、それをコンテンツ配送者に報告する。ビデオ品質モニタからのフィードバックに基づいて、コンテンツ配送者は、帯域幅割り当ておよびアクセス・コントロールを調整することによってそのサービスを改善してもよい。
コンテンツ配送者は、該フィードバックを、エンコードを調整するためにコンテンツ・クリエーターにも送ってもよい。エンコーダにおけるエンコード品質の改善は必ずしもデコーダにおける品質を改善しないことがあることを注意しておく。高品質のエンコードされたビデオは通例、より大きな帯域幅を必要とし、伝送保護のために残される帯域幅をより少なくするからである。よって、デコーダにおける最適な品質に達するために、エンコード・ビットレートとチャネル保護のための帯域幅との間のバランスが考慮されるべきである。
もう一つの実施形態では、ビデオ品質モニタ860が、ユーザー装置によって使用されてもよい。たとえば、ユーザー装置がインターネットにおけるビデオを探索するとき、検索結果は、要求されたビデオ・コンテンツに対応する多くのビデオまたはビデオへのリンクを返すことがある。検索結果内のビデオは種々の品質レベルをもつことがある。ビデオ品質モニタは、これらのビデオについての品質メトリックを計算し、どのビデオを記憶するかを選択することを決定することができる。もう一つの例では、ユーザー装置はいくつかの誤り隠蔽技法へのアクセスをもつことがある。ビデオ品質モニタは、種々の誤り隠蔽技法のための品質メトリックを計算し、計算された品質メトリックに基づいて、使用する隠蔽技法を自動的に選ぶことができる。
本稿に記載される実装は、たとえば、方法またはプロセス、装置、ソフトウェア・プログラム、データ・ストリームまたは信号において実装されてもよい。たとえ単一の形の実装のコンテキストで論じられるだけであったとしても(たとえば方法としてのみ論じられるとしても)、論じられる特徴の実装は、他の形(たとえば装置またはプログラム)で実装されてもよい。装置は、たとえば、適切なハードウェア、ソフトウェアおよびファームウェアで実装されてもよい。方法は、たとえば、装置において実装されてもよい。装置はたとえば、コンピュータ、マイクロプロセッサ、集積回路またはプログラム可能型論理デバイスなどを含む、処理装置一般を指すプロセッサなどである。プロセッサは、たとえばコンピュータ、携帯電話、ポータブル/パーソナル・デジタル・アシスタント(「PDA」)およびエンドユーザー間の情報の通信を容易にする他の装置のような通信装置をも含む。
本願の原理の「一つの実施形態」または「ある実施形態」または「一つの実装」または「ある実装」およびそれらのその他の変形への言及は、その実施形態との関連で記載されている特定の特徴、構造、特性などが本願の原理の少なくとも一つの実施形態に含まれることを意味する。よって、「一つの実施形態において」または「ある実施形態において」または「一つの実装において」または「ある実装において」という句および他の任意の変形が本明細書を通じた随所に現われることは、必ずしもみなが同じ実施形態を指しているのではない。
さらに、本願またはその請求項がさまざまな情報を「決定」することに言及することがある。該情報を決定するとは、たとえば該情報を推定すること、該情報を計算すること、該情報を予測することまたは該情報をメモリから取り出すことの一つまたは複数を含みうる。
さらに、本願またはその請求項がさまざまな情報に「アクセスする」ことに言及することがある。該情報にアクセスするとは、たとえば、該情報を受領すること、該情報を(たとえばメモリから)取得すること、該情報を記憶すること、該情報を処理すること、該情報を送信すること、該情報を移すこと、該情報をコピーすること、該情報を消去すること、該情報を計算すること、該情報を決定すること、該情報を予測することまたは該情報を推定することの一つまたは複数を含みうる。
さらに、本願またはその請求項がさまざまな情報を「受信/受領する」ことに言及することがある。受信/受領は、「アクセス」と同様に、広義の用語であることが意図されている。該情報を受信/受領するとは、たとえば、該情報にアクセスすることまたは該情報を(たとえばメモリから)取得することを含みうる。さらに、「受信/受領」は典型的には、たとえば該情報を記憶すること、該情報を処理すること、該情報を送信すること、該情報を移すこと、該情報をコピーすること、該情報を消去すること、該情報を計算すること、該情報を決定すること、該情報を予測することまたは該情報を推定することのような動作の間に何らかの仕方で関わる。
当業者には明白であろうが、実装は、たとえば記憶または伝送されうる情報を担持するようフォーマットされた多様な信号を生成することがある。該情報はたとえば、方法を実行するための命令または記載される実装の一つによって生成されるデータを含みうる。たとえば、信号が、記載される実施形態のビットストリームを担持するようフォーマットされてもよい。そのような信号は、たとえば、電磁波(たとえばスペクトルの電波周波数部分を使う)としてまたはベースバンド信号としてフォーマットされてもよい。フォーマットすることはたとえば、データ・ストリームをエンコードすることおよびエンコードされたデータ・ストリームで搬送波を変調することを含みうる。信号が担持する情報は、たとえば、アナログまたはデジタル情報であってもよい。信号は、知られているように、多様な異なる有線または無線リンクを通じて伝送されてもよい。信号は、プロセッサ読み取り可能な媒体上に記憶されてもよい。

Claims (15)

  1. ビデオ・シーケンスの視覚的品質を推定する方法であって、
    前記ビデオ・シーケンス中の現在フレームを含む複数のスライディング窓内の諸フレームについての空間的歪みにアクセスするステップと、
    各スライディング窓についての大きな歪みの密度および代表的アーチファクト・レベルの少なくとも一方を示す因子を、該各スライディング窓内の諸フレームについてのそれぞれの空間的歪みに応じて決定するステップと、
    現在フレームについての時間的歪みを、決定された前記因子に応じて決定するステップと、
    前記ビデオ・シーケンスの視覚的品質を、現在フレームの時間的歪みに応じて決定するステップとを含む、
    方法。
  2. 前記複数のスライディング窓についての前記因子のうちの最大を決定するステップをさらに含み、現在フレームについての前記時間的歪みが、前記最大の因子に応じて決定される、請求項1記載の方法。
  3. 前記大きな歪みの密度は、前記各スライディング窓内の大きな歪みをもつフレームの数と前記各スライディング窓内のフレームの総数との比に応じて決定される、請求項1記載の方法。
  4. 現在フレームについての前記時間的歪みが、現在フレームについての空間的歪みと前記最大の因子との積として決定される、請求項1記載の方法。
  5. 前記代表的アーチファクト・レベルが、前記各スライディング窓についての空間的歪みのメジアン関数に応じて決定される、請求項1記載の方法。
  6. 現在フレームについての前記時間的歪みが、現在フレームについての空間的歪みと前記最大の因子とのうちの小さいほうとして決定される、請求項1記載の方法。
  7. ビットストリームの品質をモニタリングすること、決定された前記視覚的品質に応答して前記ビットストリームを調整すること、決定された前記視覚的品質に基づいて新たなビットストリームを生成すること、前記ビットストリームを送信するために使われる配送ネットワークのパラメータを調整すること、決定された前記視覚的品質に基づいて前記ビットストリームを保持するかどうかを決定することおよびデコーダにおいて誤り隠蔽モードを選ぶことのうちの少なくとも一つを実行するステップをさらに含む、請求項1記載の方法。
  8. ビデオ・シーケンスの視覚的品質を推定する装置であって:
    前記ビデオ・シーケンス中の現在フレームを含む複数のスライディング窓内の諸フレームについての空間的歪みにアクセスする空間的アーチファクト・レベル推定器と;
    各スライディング窓についての大きな歪みの密度および代表的アーチファクト・レベルの少なくとも一方を示す因子を、該各スライディング窓内の諸フレームについてのそれぞれの空間的歪みに応じて決定し、現在フレームについての時間的歪みを、前記複数のスライディング窓についての決定された前記因子に応じて決定する時間的歪み推定器と;
    前記ビデオ・シーケンスの視覚的品質を、現在フレームの時間的歪みに応じて決定する品質予測器とを有する、
    装置。
  9. 前記時間的歪み推定器が前記複数のスライディング窓についての前記因子のうちの最大を決定し、現在フレームについての前記時間的歪みが、前記最大の因子に応じて決定される、請求項8記載の装置。
  10. 前記時間的歪み推定器が、前記大きな歪みの密度を、前記各スライディング窓内の大きな歪みをもつフレームの数と前記各スライディング窓内のフレームの総数との比に応じて決定する、請求項8記載の装置。
  11. 前記時間的歪み推定器が、現在フレームについての前記時間的歪みを、前記空間的歪みと前記最大の因子との積として決定する、請求項8記載の装置。
  12. 前記時間的歪み推定器が、前記代表的アーチファクト・レベルを、前記各スライディング窓についての空間的歪みのメジアン関数に応じて決定する、請求項8記載の装置。
  13. 前記時間的歪み推定器が、現在フレームについての前記時間的歪みを、前記空間的歪みと前記最大の因子とのうちの小さいほうとして決定する、請求項8記載の装置。
  14. ビットストリームの品質をモニタリングすること、決定された前記視覚的品質に応答して前記ビットストリームを調整すること、決定された前記視覚的品質に基づいて新たなビットストリームを生成すること、前記ビットストリームを送信するために使われる配送ネットワークのパラメータを調整すること、決定された前記視覚的品質に基づいて前記ビットストリームを保持するかどうかを決定することおよびデコーダにおいて誤り隠蔽モードを選ぶことのうちの少なくとも一つを実行するビデオ品質モニタ(840、850、860)をさらに有する、請求項8記載の装置。
  15. 請求項1ないし7のうちいずれか一項記載の方法に従ってビデオ・シーケンスの視覚的品質を推定するための命令を記憶しているコンピュータ可読記憶媒体。
JP2015556366A 2013-02-07 2013-06-09 コンテキスト・ベースのビデオ品質評価のための方法および装置 Withdrawn JP2016510567A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2013/071538 2013-02-07
CN2013071538 2013-02-07
PCT/CN2013/077082 WO2014121571A1 (en) 2013-02-07 2013-06-09 Method and apparatus for context-based video quality assessment

Publications (2)

Publication Number Publication Date
JP2016510567A true JP2016510567A (ja) 2016-04-07
JP2016510567A5 JP2016510567A5 (ja) 2016-07-21

Family

ID=51299229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015556366A Withdrawn JP2016510567A (ja) 2013-02-07 2013-06-09 コンテキスト・ベースのビデオ品質評価のための方法および装置

Country Status (8)

Country Link
US (1) US9716881B2 (ja)
EP (1) EP2954677B1 (ja)
JP (1) JP2016510567A (ja)
KR (1) KR20150115771A (ja)
AU (1) AU2013377642A1 (ja)
BR (1) BR112015018465A2 (ja)
HK (1) HK1218482A1 (ja)
WO (1) WO2014121571A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9769501B2 (en) * 2012-07-17 2017-09-19 Thomson Licensing Video quality assessment at a bitstream level
KR102452313B1 (ko) * 2017-11-29 2022-10-07 한국전자통신연구원 인지 민감도를 고려하는 영상 화질 측정 방법 및 장치
US10887602B2 (en) * 2018-02-07 2021-01-05 Netflix, Inc. Techniques for modeling temporal distortions when predicting perceptual video quality

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6331859B1 (en) 1999-04-06 2001-12-18 Sharp Laboratories Of America, Inc. Video skimming system utilizing the vector rank filter
US6671324B2 (en) 2001-04-16 2003-12-30 Mitsubishi Electric Research Laboratories, Inc. Estimating total average distortion in a video with variable frameskip
US7209519B2 (en) 2001-04-16 2007-04-24 Mitsubishi Electric Research Laboratories, Inc. Encoding a video with a variable frame-rate while minimizing total average distortion
US7298865B2 (en) * 2001-07-30 2007-11-20 Sarnoff Corporation Secure robust high-fidelity watermarking
US6885757B2 (en) * 2002-04-18 2005-04-26 Sarnoff Corporation Method and apparatus for providing an asymmetric watermark carrier
US20050157791A1 (en) * 2004-01-20 2005-07-21 Eastman Kodak Company System and method for video tone scale reduction
US7636454B2 (en) 2005-12-05 2009-12-22 Samsung Electronics Co., Ltd. Method and apparatus for object detection in sequences
US9025673B2 (en) 2006-04-05 2015-05-05 Qualcomm Incorporated Temporal quality metric for video coding
US20080174694A1 (en) 2007-01-22 2008-07-24 Horizon Semiconductors Ltd. Method and apparatus for video pixel interpolation
US8401331B2 (en) * 2007-12-06 2013-03-19 Alcatel Lucent Video quality analysis using a linear approximation technique
EP2114080A1 (en) * 2008-04-30 2009-11-04 Thomson Licensing Method for assessing the quality of a distorted version of a frame sequence
WO2010009637A1 (zh) 2008-07-21 2010-01-28 华为技术有限公司 一种视频质量评估方法、系统及装置
EP2396768B1 (en) 2009-02-12 2013-04-17 Dolby Laboratories Licensing Corporation Quality evaluation of sequences of images
CN101695141B (zh) 2009-10-20 2012-05-23 浙江大学 一种视频质量评估方法和装置
WO2011053255A1 (en) * 2009-10-30 2011-05-05 Agency For Science, Technology And Research Methods, devices, and computer readable mediums for processing a digital picture
US10728538B2 (en) 2010-01-11 2020-07-28 Telefonaktiebolaget L M Ericsson(Publ) Technique for video quality estimation
EP2649801B1 (en) * 2010-12-10 2015-04-15 Deutsche Telekom AG Method and apparatus for objective video quality assessment based on continuous estimates of packet loss visibility
CN102685548B (zh) 2012-05-29 2015-09-30 公安部第三研究所 视频质量的无参评估方法
US9769501B2 (en) 2012-07-17 2017-09-19 Thomson Licensing Video quality assessment at a bitstream level
EP3042498A4 (en) * 2013-09-06 2017-11-08 Zhou Wang Method and system for objective perceptual video quality assessment

Also Published As

Publication number Publication date
US20150373324A1 (en) 2015-12-24
HK1218482A1 (zh) 2017-02-17
EP2954677A4 (en) 2016-07-13
KR20150115771A (ko) 2015-10-14
WO2014121571A1 (en) 2014-08-14
US9716881B2 (en) 2017-07-25
AU2013377642A1 (en) 2015-07-23
BR112015018465A2 (pt) 2017-07-18
EP2954677A1 (en) 2015-12-16
EP2954677B1 (en) 2019-07-31

Similar Documents

Publication Publication Date Title
JP5215288B2 (ja) 映像符号化のための時間的品質メトリック
JP5670551B2 (ja) ビデオストリームの品質を評価する方法と装置
KR101641994B1 (ko) 비디오 인코딩 압축 품질을 획득하는 방법 및 장치
JP2015502713A (ja) シーンカットアーチファクトを考慮するビデオ品質評価
JP2015533269A (ja) ビデオストリーミングサービスのためのコンテンツ依存型ビデオ品質モデル
US9723301B2 (en) Method and apparatus for context-based video quality assessment
EP3073736B1 (en) Method and device for measuring quality of experience of mobile video service
JP2016510567A (ja) コンテキスト・ベースのビデオ品質評価のための方法および装置
JP2015528247A (ja) ビットストリームレベルにおけるビデオ品質評価
US10110893B2 (en) Method and device for calculating distortion of a video being affected by compression artifacts and channel artifacts
JP2015530807A (ja) ビデオ品質評価のためにコンテンツ複雑性を推定する方法および装置
JP6162596B2 (ja) 品質推定装置、方法及びプログラム
CN107682701B (zh) 基于感知哈希算法的分布式视频压缩感知自适应分组方法
US9924167B2 (en) Video quality measurement considering multiple artifacts
CN104995914A (zh) 用于基于上下文的视频质量评估的方法和装置
CN104969548A (zh) 用于基于上下文的视频质量评估的方法和装置
Wilk et al. The content-aware video adaptation service for mobile devices
WO2013159275A1 (en) Perceived video quality estimation considering visual attention
JP2015530806A (ja) ビデオ品質評価のための動き均一性を推定する方法および装置
WO2013098539A1 (en) Assessing packet loss visibility in video

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160603

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160603

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20170130