JP5318424B2 - 関心領域映像符号化に関するコンテンツ適応型背景スキップ - Google Patents

関心領域映像符号化に関するコンテンツ適応型背景スキップ Download PDF

Info

Publication number
JP5318424B2
JP5318424B2 JP2007558171A JP2007558171A JP5318424B2 JP 5318424 B2 JP5318424 B2 JP 5318424B2 JP 2007558171 A JP2007558171 A JP 2007558171A JP 2007558171 A JP2007558171 A JP 2007558171A JP 5318424 B2 JP5318424 B2 JP 5318424B2
Authority
JP
Japan
Prior art keywords
roi
video
frame
encoding
skip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007558171A
Other languages
English (en)
Other versions
JP2008532431A (ja
Inventor
ワン、ハオホン
エル−マレー、クハレド・ヘルミ
リャン、イ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2008532431A publication Critical patent/JP2008532431A/ja
Application granted granted Critical
Publication of JP5318424B2 publication Critical patent/JP5318424B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/198Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including smoothing of a sequence of encoding parameters, e.g. by averaging, by choice of the maximum, minimum or median value
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、米国仮特許出願番号60/658,008(出願日:2005年3月1日)の利益を主張するものである。
本開示は、デジタル映像符号化に関するものである。本発明は、より具体的には、ビデオテレフォニー(VT)用途に関する関心領域(ROI)情報符号化技術に関するものである。
デジタル映像シーケンスを符号化するための幾つかの異なる映像符号化基準が確立されている。例えば、ムービング・ピクチャー・エキスパート・グループ(MPEG)は、MPEG−1、MPEG−2及びMPEG−4を含む幾つかの基準を策定している。その他の例は、国際電気通信連合(ITU)H.263基準、新興のITU H.264基準を含む。これらの映像符号化基準は、一般的は、データを圧縮して符号化することによって映像シーケンスの向上された伝送効率をサポートする。
ビデオテレフォニー(VT)は、テレビ会議等の用途をサポートするためにユーザーが映像及び音声情報を共有することを可能にする。典型的ビデオテレフォニー基準は、セッション開始プロトコル(SIP)、ITU H.323基準、及びITU H.324基準によって定義されるビデオテレフォニー基準を含む。VTシステムにおいては、ユーザーは、映像情報を送受信する、映像情報を受信するだけである、又は映像情報を送信するだけである。受信者は、一般的には、送信者から送信された形の受信映像情報を観る。
映像情報の選択された部分の優先的符号化が提案されている。例えば、送信者は、受信者に送信するためにより高い品質で符号化すべき関心領域(ROI)を指定することができる。送信者は、遠隔の受信者に対してROIを強調するのを望むことができる。ROIの典型例は人間の顔であるが、送信者は、映像シーン内のその他のオブジェクトに注意を集中するのを望むことができる。ROIを優先的に符号化することにより、受信者は、非ROI領域よりも鮮明にROIを観ることができる。
ROIは、映像シーンの非ROIエリア、すなわち「背景」エリアよりもROIに対してより大きな割合の符号化ビットを割り当てることによって優先的に符号化することができる。映像フレームの非ROIエリアをスキップすることは、符号化ビットをROIに割り当てるために保存することを可能にする。先行フレームに関する符号化された非ROIは、現在のフレーム内のスキップされた非ROIの代わりに用いることができる。代替として、スキップされた非ROIは、内挿することができる。
いずれの場合においても、フレームの非ROIエリアの符号化をスキップすることは、ROIの向上された符号化を可能にする。
本開示は、関心領域(ROI)映像符号化に関するコンテンツ適応型背景スキップ技術に関するものである。該技術は、映像ストリーミング及びテレビ会議、等のビデオテレフォニー(VT)用途において有用であり、特にモバイルVT、等の低ビットレート無線通信用途において有用である。コンテンツ適応型非ROIスキップは、幾つかの実施形態においては、相対的に軽度の複雑さで実装することができる。
ROI映像符号化は、例えば映像フレーム内のROIに追加の符号化ビットを割り当て、さらに減らされた数の符号化ビットを非ROIエリアに割り当てることによって、前記ROIの優先的な符号化を行うことを含む。前記非ROIエリアは、「背景」エリアと呼ぶことができるが、非ROIエリアは、より一般的には、映像シーンのうちでROIの一部を形成していないエリアを包含する。従って、非ROI及び背景という表現は、本開示全体を通じて、ROI内にないエリアを指すために互換的に用いることができる。
開示される技術は、映像フレームのコンテンツ情報を解析して前記フレーム内における非ROIエリアの符号化をスキップするかどうかを決定する。例えば、前記スキップ決定は、コンテンツ活動(content activity)、例えば、ROI形状の変形、ROIの動き、非ROIの動き、非ROIのテクスチャの複雑さ、1つ以上の以前のフレームにおける非ROIのスキップに起因する累積歪み、等、に基づくことができる。前記スキップ決定は、フレームレベル又はマクロブロックレベルでのビット割当てとともに行うことができる。
複数の領域の間における及び複数のフレームの間におけるビット割当てを行うために異なる戦略を用いることができる。将来のフレームにおけるスキップされる非ROIエリア数を動き及び非ROIのテクスチャの複雑さに基づいて推定するために、ベイジアンモデルに基づく自習分類手法を利用することができる。この方法により、リアルタイムシステムでは困難である現在のフレームに関する非ROIスキップ決定を行うために将来のコンテンツ情報を入手する必要がない。さらに、ROIエリア及び非ROIエリアに関するビットを割り当てるために重み付き速度制御及びビット割当てアルゴリズムを利用することができる。
人間の視覚系(HVS)は、映像シーンフレームが激しい動きを含むときには時間的な変化に対する感度が高くなり、映像シーンがゆっくりとした動きを含むときには空間的な詳細に対する感度が高くなる傾向がある。HVSモデルを利用することで、受け入れ可能な時間上の品質が維持されるようにするために激しい動きのシーン中には非ROIのスキップを回避することができる。しかしながら、時間的感度がより低いゆっくりとした動きのシーン中に非ROIエリアをスキップすることによって、向上されたROI符号化のために符号化ビットを節約することができる。この方法により、非ROIエリアの空間上の品質を向上させることができる。
一実施形態においては、本開示は、映像フレームを得ることと、前記映像フレーム内の関心領域(ROI)を符号化することと、前記映像フレームの非ROIエリアの符号化をスキップするかどうかを前記ROI及び前記非ROIエリアのコンテンツ活動及び1つ以上のその他のフレームにおける非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定すること、とを具備する方法を提供する。
他の実施形態においては、本開示は、映像フレーム内の関心領域(ROI)の定義を生成する関心領域マッパーと、前記映像フレーム内の前記ROIを符号化する映像符号器と、前記符号器が、前記映像フレームの非ROIエリアの符号化をスキップするかどうかを、前記ROI及び前記非ROIエリアのコンテンツ活動及び1つ以上のその他のフレームにおける非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定するスキップモジュールと、を具備するデバイスを提供する。
さらなる実施形態においては、本開示は、映像フレームを得ること、前記映像フレーム内の関心領域(ROI)を符号化すること、及び前記映像フレームの非ROIエリアの符号化をスキップするかどうかを前記ROI及び非ROIエリアのコンテンツ活動及び1つ以上のその他のフレームにおける非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定することをプロセッサに行わせるための命令を具備する、コンピュータによって読み取り可能な媒体、を提供する。
本明細書において説明される技術は、ハードウェア内、ソフトウェア内、又はその組合せ内において実装することができる。ソフトウェア内に実装された場合は、前記技術は、実行されたときに本明細書において説明される方法のうちの1つ以上を実行する命令を含むプログラムコードを具備するコンピュータ読取可能媒体によって一部を実現することができる。
1つ以上の実施形態の詳細が、添付図面及び以下の説明において示されている。該説明及び図面から、及び請求項からその他の特長、目的、及び利点が明確になるであろう。
図1は、ROIイネーブルド映像符号器−復号器(CODEC)を組み入れた映像符号化及び復号システム10を示すブロック図である。図1に示されるように、システム10は、第1の映像通信デバイス12と、第2の映像通信デバイス14と、を含む。通信デバイス12、14は、送信チャネル16によって接続される。送信チャネル16は、有線又は無線の通信媒体であることができる。システム10は、ビデオテレフォニーに関する映像通信デバイス12、14の間における双方向映像送信をサポートする。デバイス12、14は、実質的に対称的に動作することができる。しかしながら、幾つかの実施形態においては、一方又は両方の映像通信デバイス12、14は、ROIイネーブルド映像ストリーミングをサポートするために1方向通信のみに関して構成することができる。
映像通信デバイス12、14の一方又は両方は、本明細書において説明されるように、ビデオテレフォニー(VT)に関するROI符号化技術を利用するように構成することができる。ROI映像符号化は、例えば映像フレーム内のROIに追加の符号化ビットを割り当て、減らされた数の符号化ビットを非ROIエリアに割り当てることによって、ROIの優先的な符号化を行うことを含む。本明細書において説明されるROI符号化技術は、ROIへの割当て用に符号化ビットを保存するために非ROIエリアのコンテンツ適応型スキップを行うことを含む。コンテンツ適応型スキップ技術は、映像フレーム内のコンテンツ情報を解析して映像フレーム内の非ROIエリアをスキップするかどうかを各フレームごとに動的に決定することを含む。
フレームに関するコンテンツ適応型スキップ決定は、フレーム内のコンテンツ活動、例えば、ROI形状の変形、ROIの動き、非ROIの動き、非ROIのテクスチャの複雑さ、その他のフレームにおける非ROIのスキップに起因する累積歪み、等、に基づくことができる。テクスチャの複雑さは、分散として表すことができる。さらに、コンテンツ適応型スキップ決定は、フレームレベル又はマクロブロックレベルのビット割当てとともに行うことができる。マクロブロック(MB)は、フレームの一部を成す映像ブロックである。MBの大きさは、16×16画素であることができる。しかしながら、その他のMBの大きさも可能である。マクロブロックは、様々な大きさを有することができるということを理解しつつ、本明細書においては例示することを目的として説明される。一般的には、マクロブロックは、1つにまとまって映像フレームを形成するあらゆる大きさの映像ブロックを指す。
双方向性の用途に関しては、相互符号化、復号、多重化(MUX)及び逆多重化(DEMUX)コンポーネントをチャネル16の反対側の端部に備えることができる。図1の例においては、映像通信デバイス12は、MUX/DEMUXコンポーネント18と、ROIイネーブルド映像CODEC20と、音声CODEC22と、を含む。同様に、映像通信デバイス14は、MUX/DEMUXコンポーネント26と、ROIイネーブルド映像CODEC28と、音声CODEC30と、を含む。
システム10は、セッション開始プロトコル(SIP)、ITU H.323基準、ITU H.324基準、又はその他の基準に従ってビデオテレフォニーをサポートすることができる。各映像CODEC20、28は、MPEG−2、MPEG−4、ITU H.263、又はITU H.264、等の映像圧縮基準に従って符号化映像データを生成する。図1においてさらに示されるように、映像CODEC20、28は、各々の音声CODEC22、30と一体化することができ、データストリームの音声部分及び映像部分を処理する適切なMUX/DEMUXコンポーネント18、26を含む。音声部分は、声又はその他の音声分を搬送することができる。MUX/DEMUX装置18、26は、ITU H.223マルチプレクサプロトコル又はその他のプロトコル、例えばユーザーデータグラムプロトコル(UDP)に準拠することができる。
各ROIイネーブルド映像CODEC20、28は、各々の映像通信デバイス12、14のローカルユーザーによってローカルで提供されるROI情報又は他方の映像通信デバイス12、14の遠隔ユーザーから遠隔で提供されるROI情報を処理することができる。例えば、映像通信デバイス12のローカルユーザーは、送信映像の領域をデバイス14の遠隔ユーザーに対して強調するために、映像通信デバイス12によってローカルで生成される「ニアエンド」映像内のROIを指定することができる。逆に、映像通信デバイス12のローカルユーザーは、映像通信デバイス14によって遠隔で生成される「ファーエンド」映像においてROIを指定して該ROIを遠隔映像通信デバイスに通信することができる。この場合は、映像通信デバイス12のユーザーは、例えば映像通信デバイス14から受信された映像内のROIをより鮮明に観るために、映像通信デバイス14によるROIの優先的符号化を遠隔制御する。
映像通信デバイス12、14は、映像ストリーミング、ビデオテレフォニー、又は両方のために備えられた無線移動端末又は有線端末として実装することができる。この目的のために、映像通常デバイス12、14は、無線通信をサポートするための適切な無線送信機、受信機、モデム、及び処理用電子装置をさらに含むことができる。無線移動端末の例は、無線通信能力及び映像符号化及び/又は復号能力を備えた移動無線電話、モバイルパーソナルデジタルアシスタント(PDA)、モバイルコンピュータ、又はその他のモバイルデバイスを含む。有線端末の例は、デスクトップコンピュータ、ビデオ電話、ネットワーク機器、セットトップボックス、双方向型テレビ、等、を含む。どちらの映像通信デバイス12、14も、映像情報を送信するように、映像情報を受信するように、又は映像情報を送受信するように構成することができる。
ビデオテレフォニー用途に関しては、一般的には、データ12が映像送信能力及び映像受信能力の両方をサポートするのが望ましい。しかしながら、ストリーミング映像用途も企図されている。ビデオテレフォニー、特に無線通信によるモバイルビデオテレフォニーにおいては、極端に低いビットレートがしばしば要求されるため帯域幅が重要な懸念事項である。特に、通信チャネル16は、制限された帯域幅を有しており、チャネル16で高質の映像シーケンスを有効にリアルタイムで送信するのが非常に難しい場合がある。例えば、通信チャネル16は、チャネル16における物理的制約事項、又は通信チャネル16の提供者によって課せられたサービスの質(QoS)上の制限事項又は帯域幅割当て上の制約事項に起因する制限された帯域幅を有する無線通信リンクである場合がある。
従って、追加の符号化ビットをROIに選択的に割り当てること、より強力な誤り保護、又はその他の優先的符号化ステップは、全体的な符号化効率を維持しながら映像の一部分の画質を向上させることができる。優先的符号化に関しては、追加のビットをROIに割り当てることができ、その一方で減らされた数のビットを非ROI領域、例えば映像シーン内の背景、に割り当てることができる。非ROIエリアは、「背景」エリアと呼ばれるが、非ROIエリアは、より一般的には、ROIの一部を形成しない映像シーンのあらゆるエリアを包含する。従って、本開示においては、非ROI及び背景という表現は、指定されたROI内にないエリアを指すために互換的に用いることができる。
一般的には、システム10は、ビデオテレフォニー(VT)用途に関する関心領域(ROI)を処理するための技術を採用する。しかしながら、前記技術は、上述されるように、映像ストリーミング用途に対しても応用可能である。例示することを目的として、各映像通信デバイス12、14は、映像情報の送信者及び受信者の両方として動作し、それによってVTセッションへの完全な参加者として動作することができると仮定される。映像通信デバイス12から映像通信デバイス14に送信される映像情報に関しては、映像通信デバイス12が送信者デバイスであり、映像通信デバイス14が受信者デバイスである。
逆に、映像通信デバイスか14から映像通信デバイス12に送信される映像情報に関しては、映像通信デバイス12が受信者デバイスであり、映像通信デバイス14が送信者デバイスである。本明細書において説明される技術は、前記映像を送信するだけ又は受信するだけのデバイスに対しても応用可能である。ローカル映像通信デバイス12、14によって符号化及び送信される映像情報について論じるときには、前記映像情報は、上述されるように、「ニアエンド」映像と呼ぶことができる。遠隔映像通信デバイス12、14によって符号化されて遠隔映像通信デバイス12、14から受信される映像情報について論じるときには、前記映像情報は、「ファーエンド」映像と呼ぶことができる。
開示される技術により、映像通信デバイス12又は14は、受信者デバイスとして動作時には、送信者デバイスから受信されるファーエンド情報に関するROI情報を定義する。繰り返しになるが、送信者デバイスから受信される映像情報は、通信チャネルの遠端部に位置する他方の(送信者)デバイスから受信されるという意味で「ファーエンド」映像情報と呼ばれる。
同様に、送信者デバイスから受信される映像情報に関して定義されたROI情報は、「ファーエンド」ROI情報と呼ばれる。ファーエンドROIは、一般的には、ファーエンド映像の受信者にとっても最も関心のあるファーエンド映像内の領域を指す。受信者デバイスは、ファーエンド映像情報を復号し、復号されたファーエンド映像を表示デバイスを介してユーザーに提示する。ユーザーは、ファーエンド映像によって提示された映像シーン内のROIを選択する。代替として、ROIは、自動的に定義することができる。
受信者デバイスは、受信者デバイスにおいてユーザーによって選択されたROIに基づいてファーエンドROI情報を生成し、送信者デバイスがファーエンドROI情報を使用できるようにするために該情報を送信者デバイスに送信する。ファーエンドROI情報は、ROI内に常駐するROIマクロブロック(MB)に基づいてROIを定義するROIマクロブロック(MB)マップの形態をとることができる。ROI MBマップは、ROIに含まれているMB(1)及びROIから除外されているMB(0)を簡単に識別するために、ROI内のMBに1のフラグを付け、ROI外のMBに0のフラグを付けることができる。
送信者デバイスは、受信者デバイスによって送信されたファーエンドROI情報を用いることによって、映像シーン内の対応するROIに対して優先的符号化を適用する。特に、ROIに対して追加の符号化ビットを割り当てて減らされた数のビットを非ROI領域に割り当て、それによってROIの画質を向上させることができる。この方法により、受信者デバイスは、送信者デバイスによるファーエンド映像情報のROI符号化を遠隔制御することができる。
優先的符号化は、例えばROIエリア内における優先的ビット割当て又は優先的量子化によって、映像シーンの非ROIエリアに対してよりも高い品質の符号化をROIエリアに対して適用する。優先的に符号化されたROIは、受信者デバイスのユーザーがオブジェクト又は領域をより鮮明に観るのを可能にする。例えば、受信者デバイスのユーザーは、顔又はその他の何らかのオブジェクトを映像シーンの背景領域よりも鮮明に観るのを希望することができる。
映像通信デバイス12又は14は、送信者デバイスとして動作時には、送信者デバイスによって送信される映像情報に関するROI情報を定義することもできる。繰り返しになるが、送信者デバイスにおいて生成される映像情報は、通信チャネルの近端部において生成されるという意味で「ニアエンド」映像と呼ばれる。送信者デバイスによって生成されたROI情報は、「ニアエンド」ROI情報と呼ばれる。
ニアエンドROIは、一般的には、送信者が受信者に対して強調することを希望するニアエンド映像の領域を指す。従って、ROIは、受信者デバイスユーザーの場合はファーエンドROI情報として、送信者デバイスユーザーの場合はニアエンドROI情報として指定することができる。送信者デバイスは、表示デバイスを通じてユーザーにニアエンド映像を提示する。送信者デバイスと関連するユーザーは、ニアエンド映像によって提示された映像シーン内のROIを選択する。送信者デバイスは、ニアエンド映像内のROIが非ROIエリアよりも高い品質の符号化を用いて優先的に符号化されるようにするために、ユーザーによって選択されたROIを用いてニアエンド映像を符号化する。
送信者デバイスにおいてローカルユーザーによって選択または定義されたニアエンドROIは、送信者デバイスのユーザーが映像シーン内の領域又はオブジェクトを強調し、それによって前記領域又はオブジェクトに受信者デバイスユーザーの注意を向けさせることを可能にする。顕著なことに、送信者デバイスユーザーによって選択されたニアエンドROIは、受信者デバイスに送信する必要がない。その代わりに、送信者デバイスは、ニアエンド映像が受信者デバイスに送信される前に、選択されたニアエンドROI情報を用いてニアエンド映像をローカルで符号化する。しかしながら、幾つかの実施形態においては、送信者デバイスは、優先的符号化技術、例えばより高い品質の誤り訂正又は後処理、の適用を可能にするためにROI情報を受信者デバイスに送信することができる。
ROI情報が送信者デバイス及び受信者デバイスの両方によって提供される場合は、送信者デバイスは、ニアエンド映像を符号化するために、受信者デバイスからの受信されたファーエンドROI情報又はローカルで生成されたニアエンドROI情報を利用する。送信者デバイス及び受信者デバイスによって提供されたニアエンドROIの選択とファーエンドROIの選択との間においてROIの衝突が生じることがある。該衝突は、解決、例えば、ローカルユーザーによる能動的解決又は指定されたアクセス権及びレベルに従った解決、等を要求する。どちらの場合においても、送信者デバイスは、送信者デバイスによってローカルで又は受信者デバイスによって遠隔で提供されたニアエンドROI情報に基づいて優先的にROIを符号化する。
本開示は、ローカルユーザー又は遠隔ユーザーによって指定されるROIを考慮し、一般的には映像フレームの非ROIエリアをコンテンツに応じてスキップする技術に焦点を合わせている。コンテンツ適応型スキップ技術は、様々な追加のROI符号化技術とともに利用することができ、本明細書では例示目的でこれらのROI符号化技術の多くが説明される。
例えば、本開示は、映像シーン内のROIエリアと非ROIエリアとの間におけるビット割当てに基づいて、ROIを優先的に符号化する方法についても対応する。幾つかの実施形態においては、ROIエリアと非ROIエリアとの間における重み付きビット割当てを偏らせるためにROI映像品質測定基準を利用することができる。映像品質測定基準は、符号化された映像シーケンスの品質を評価する際にユーザーの優先度(preference)、すなわち、ROIへの関心、ROI映像忠実度、及びROIの知覚上の品質を考慮に入れる。
重み付きビット割当ては、ロー(ρ)領域内で適用することができ、フレームレベル速度コントローラによって提供されるρ領域フレームバジェット(frame budget)に依存する。一般的には、非ROIスキップ技術は、ROI及び非ROIの両方における受け入れ可能な視覚上の品質を維持しつつROIに割り当てるための符号化ビットを保存するために、単独で又は本明細書において説明されるその他の技術とともに用いることができる。
図2は、無線通信デバイス36と関連するディスプレイ34上に提示された映像シーン32内におけるROIの定義を示す図である。図2の例においては、ROIは、長方形のROI38又は非長方形のROI40として描かれている。非長方形のROI40は、丸い又は不規則な形状を有することができる。各場合において、ROI38及びROI40は、映像シーン32において表示された人の顔42を含む。図3A及び3Bは、図2において描かれている映像シーン32のROI38及び非ROIエリア43を表す図である。非ROIエリア43、すなわち背景は、図3Bでは陰影によって強調されている。
ROI38又は40は、ユーザーが手作業で、デバイス36によって自動的に、又はユーザーによる手作業でのROI描写とデバイス36による自動的なROI定義の組合せを用いて、定義することができる。長方形のROI38は、ユーザーによって選択することができる。非長方形のROI40は、ユーザーが例えばスタイラス及びタッチ画面を用いて描くか又はデバイス36が様々なオブジェクト検出又はセグメンテーション技術のうちのいずれかを用いて自動的に選択することができる。VT用途の場合は、ROI38又は40は、映像シーン32のうちでテレビ会議への参加者の顔42を含む部分を包含することができる。ROI38又は40の大きさ、形状及び位置は、固定又は調整可能であり、様々な方法で定義すること、描くこと又は調整することが可能である。
ROI38又は40は、映像送信者が送信された映像シーン32内の個々のオブジェクト、例えば人の顔42、を強調するのを可能にする。逆に、ROI38又は40は、映像受信者が受信された映像シーン32内の希望されるオブジェクトをより鮮明に観ることを可能にする。どちらの場合においても、ROI38又は40内の顔42は、映像シーン32の背景領域等の非ROIエリアよりも高い画質で符号化される。この方法により、ユーザーは、顔の表情、唇の動き、目の動き、等をより鮮明に観ることができる。
しかしながら、ROI38又は40は、顔以外のオブジェクトを指定するために用いることができる。概して、VT用途におけるROIは非常に主観的であることが可能であり、ユーザーごとに異なる可能性がある。希望されるROIも、VTがどのように用いられるかに依存する。幾つかの事例においては、VTは、テレビ会議とは対照的に、オブジェクトを観るため及び評価するために用いることができる。例えば、ユーザーは、特にプレゼンターがカメラに背を向けて黒板の方を向いている時には、該プレゼンターの顔ではなく方程式又は描かれた物を含む黒板部分に集中することを希望することができる。幾つかの場合においては、映像シーンは、優先的符号化用に指定される2つ以上のROIを含むことができる。
図4は、映像通信デバイス12において用いるためのROIイネーブルド映像符号化システム44を示すブロック図である。図4に示されるように、システム44は、ROI重み計算器46と、ROIρ領域ビット割当てモジュール48と、コンテンツ適応型非ROIスキップモジュール50と、ROIマクロブロック(MB)マッパー52と、フレームレベル速度コントローラ54と、ρ−量子化パラメータ(QP)マッパー56と、映像符号器58と、フレームアナライザ60と、バジェット調整モジュール61と、を含む。後述されるように、コンテンツ適応型非ROIスキップモジュール50は、フレームアナライザ60によって提供されるフレーム情報を用いて、検討中のフレームの非ROIエリアをスキップするかどうかの動的な決定を行うことができる。フレーム情報は、映像コンテンツの活動、例えば、ROI形状の変形、ROIの動き、非ROIの動き、及び非ROIのテクスチャの複雑さ、及び非ROIのスキップに起因する累積歪みを含むことができる。
図4に描かれた様々な構成要素は、個別の機能モジュールとして又は各モジュールに属する機能を包含するモノリシックモジュールとして様々な方法で形成することができる。いずれの場合においても、映像符号化システム44の様々な構成要素は、ハードウェア内において、ソフトウェア内において、又はその組合せ内において実現させることができる。例えば、該構成要素は、1つ以上のマイクロプロセッサ又はデジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、1つ以上のフィールドプログラマブルゲートアレイ(FPGA)、又はその他の同等の集積回路又は個別論理回路において実行するソフトウェアプロセスとして動作することができる。図4においては、例示を容易にするためにMUX−DEMUX及び音声構成要素は省かれている。
図4の例において、ROI重み計算器46は、映像通信デバイス12のローカルユーザー又は映像通信デバイス14の遠隔ユーザーによって入力されたユーザー優先度係数αを受信することができる。ユーザー優先度係数αは、ROIに関する知覚上の重要度係数であり、ROIの視覚上の品質の重要性を実際のユーザーの観点から表す。ユーザー優先度係数αは、ユーザーがROI内における視覚上の品質を評価する度合いを定量化する。ユーザーがROIの視覚上の品質を強く評価する場合は、αは高くなる。ROIの視覚上の品質の重要度が低いほどαは低くなる。ROI重み計算器46は、優先度αに基づき、映像符号器58によって符号化中の映像フレームの非ROIエリアとROIエリアとの間における重み付きビット割当てを偏らせるためにROIρ領域ビット割当てモジュール48に適用される一組の重みwiを生成する。重みwiは、映像フレーム内の個々の映像ブロック、例えばマクロブロック(MB)、に関して指定することができる。ROI重み計算器46は、ROI MBマップをROI MBマッパー52から受け取り、ROI MBマッパー52によって識別されたROI及び非ROI MBに各々の重みwiを割り当てる。より高い重みwiを有するマクロブロックは、より多い数の符号化ビットを受信する。
ρ領域ビット割当てモジュール48は、ROI重み計算器46から重み入力wiを、コンテンツ適応型非ROIスキップモジュール50からスキップ指示(SKIP ON/OFF)を、ROI MBマッパー52からROI MAPマップを、フレームレベル速度コントローラ54からρ領域速度バジェットRBUDGETを、映像符号器58から符号化されたMBに関する標準偏差σを受け取る。フレームレベル速度バジェットRBUDGETは、例えば、Z.ホー及びS.K.マイトラ"A linear source model and a unified rate control algorithm for DCT video coding"(DCT映像符号化に関する線形ソースモデル及び統一速度制御アルゴリズム)、IEEE Trans. Circuits and System for Video Technology, Vol. 12, No. 11, Nov. 2002. pp. 970-982において説明されるように、検討中のフレームに関するρ領域バジェットであることができる。標準偏差σは、動き推定後に得られた実際の残りの標準偏差であることができ、前の複数のフレームからの格納された残り統計値とすることが可能である。
ROI MBマッパー52によって提供されるROI MBマップは、所定の映像フレーム内において、指定されたROI内にあるMBを識別する。ρ領域ビット割当てモジュール48は、ROI MBマップを用いて、すなわちROI重み計算器46によって提供される重みwiを用いて、ROI MBへの優先的ビット割当てを目的としてROI MBを非ROI MBと区別する。ビット割当てモジュール48は、各MBに関するρパラメータを生成する。ρパラメータは、MB内におけるゼロ以外のAC係数の数を表す。MBレベル及びフレームレベルでのρ領域における速度制御は、QP領域における速度制御よりも正確になる傾向がある。
本開示の目的上、適切なROI MBマップ生成プロセスを利用可能であることが仮定されている。例えば、ROIマッピングプロセスは、ROIを定義するユーザーによる手動入力、又は従来の技術、例えば、顔の検出、顔のセグメンテーション、及び受け入れ可能な精度を有するターゲット追跡、等、を用いた自動的なROIの定義又は検出に基づくことができる。本開示においては、例示を目的として、頭又は頭と肩の映像シーケンスが検討されるが、本明細書において説明される技術は、人に加えて又は人の代替として様々なオブジェクトを含むその他の型の映像シーケンスに対しても応用可能である。
フレームレベル速度コントローラ54は、映像シーケンス内の個々のフレームへのビット割当てを生成する。特に、フレームレベル速度コントローラ54は、現在のフレーム内のすべてのMB、すなわちROI MBと非ROI MBの両方を符号化するために利用可能なビット数を示すρ領域値RBUDGETを生成する。図4においてさらに示されるように、ρ領域ビット割当てモジュール48は、現在のフレーム内の非ROIエリアが符号化されるか又はスキップされるかを示すスキップ指示(SKIP ON/OFF)を非ROI背景スキップモジュール50から受け取る。
背景がスキップされる場合は、ρ領域ビット割当てモジュール48は、実際には、本来であれば非ROIに対して割り当てられることになっていたビットを再取得し、現在のフレーム又は将来のフレームのROIを符号化するために利用可能なビットプールにこれらのビットを再度割り当てる。従って、スキップが特定のフレームにおいてONである場合は、ρ領域ビット割当てモジュール48は、ROIに割り当てるためのビットをRBUDGET内により多く有する。従って、バジェット調整モジュール61は、非ROIのスキップによって再取得された符号化ビット数に比例してフレームレベル値RBUDGETを調整することができる。非ROIの符号化が特定のフレームにおいてスキップされる場合は、前に符号化されたフレームからの非ROIエリアをその代わりに用いることができる。代替として、スキップされた非ROIエリアは、内挿によって生成することが可能である。
ρ領域ビット割当てモジュール48は、重みwi、ROI MBマップ、RBUDGET、SKIP ON/OFF指示、及び標準偏差σを用いて、各MBに関するρバジェットを示すρ領域出力を生成する。ρ領域出力は、ρ−QPマッパー56に加えられ、ρ−QPマッパー56は、各MBに関する対応するQP値にρ値をマッピングする。映像符号器58は、フレーム内のMBに関するQP値を用いて、入力映像を符号化して符号化映像を生成する。さらに、スキップモジュール50は、フレームのROIエリアを符号化しさらにスキップがONのときにはフレームの非ROIエリアの符号化をスキップするように映像符号器58に指示するスキップ指示(SKIP ON/OFF)を該映像符号器に提供することができる。スキップは、スキップモジュール50が選択されたフレームに関する非ROIエリアの符号化をフレームアナライザ60によって得られたフレーム情報に基づいてスキップするように映像符号器58に指示できるという意味で適応型である。この方法により、スキップモジュール50は、視覚上の品質を維持するために適応型スキップを動的に適用することができる。
入力映像は、映像キャプチャデバイス、例えば、映像通信デバイス12と一体化されるか又は映像通信デバイス12に動作可能な形で結合されたビデオカメラ、から得ることができる。幾つかの実施形態においては、例えば、映像キャプチャデバイスは、携帯電話と一体化していわゆるカメラフォン又はビデオフォンを形成することができる。この方法により、映像キャプチャデバイス40は、モバイルVT用途をサポートすることができる。映像は、映像通信デバイス12においてローカルで提示すること、及び、送信時に、映像通信デバイス12又は14と一体化すること又は動作可能な形で結合することができる表示デバイス、例えば液晶ディスプレイ(LCD)、プラズマ画面、等、を介して映像通信デバイス14において提示することができる。
図4のROI重み計算器46は、ROI品質測定基準計算器の一部を成すことができる。従って、該ROI品質測定基準計算器の1つの産物は、ユーザーの優先度係数αに基づくことができる一組の重みwi、さらには映像忠実度、空間的品質、及び/又は時間的品質値である。ROI品質測定基準計算器は、ユーザー優先度値α及び1つ以上の映像歪み値を受信する。映像歪み値は、ROI値及び非ROI値に分割することができ、映像忠実度値DRF、DNF、空間的品質値DRS、DNS、及び時間的品質値DRT、DNTを含むことができる。DRFは、ROI内の映像忠実度を表し、DNFは、非ROI領域内の映像忠実度を表す。DRSは、ROIエリア内の空間的品質を表し、DNSは、非ROIエリア内の空間的品質を表す。DRTは、ROIエリア内の時間的品質を表し、DNTは、非ROIエリア内の時間的品質を表す。ROI品質測定基準は、符号化された映像シーケンスの品質を評価する際には、ユーザーの関心、映像忠実度及び知覚上の品質(空間的、時間的又は両方)を考慮する。幾つかの実施形態においては、前記測定基準は、ρ領域ビット割当てモジュール48によって用いられるビット割当てアルゴリズムを偏向させてより良い主観的な視覚上の品質を達成させるために用いることができる。
ROI映像符号化は幅広く研究されているが、ROI映像に関する品質測定は十分に詳細には取り組まれていない。ほとんどの品質測定技術は、ピーク信号−雑音比(PSNR)を歪み測定として使用し、映像フレームのROI部分及び非ROI部分の品質を評価する。ROI映像品質測定基準は、解析目的上だけでなく(図4のビット割当てモジュール48によって適用された)重み付きビット割当て技術を主観的な視覚上好ましい解決方法に偏向させるための入力としても有用である。一般的には、上述されるように、ROI映像品質の評価は、少なくとも次の3つの側面、すなわち、ROIの視覚上の品質に対するユーザーの関心又は優先度係数α、再構築された映像データの映像忠実度、及び再構築された映像データの知覚上の品質(空間的、時間的又は両方)を考慮する。
ユーザーの優先度αは、ROI部分と非ROI部分への映像フレームの分類及びその関連する知覚上の重要度率を直接決定する。優先度は、ニアエンド又はファーエンドのユーザーによって指定することができる。ビデオテレフォニー用途においては、人間の顔の表情は非常に複雑で小さい変化が大量の情報を伝達する可能性があるため、発言者の顔領域が典型的なROIである。映像忠実度係数に関しては、原フレームと比較した場合における再構築された映像フレームの総歪み量を示すPSNRが優れた測定基準である。再構築されたフレームは、符号化された映像フレームを復号することによって生成され、原フレームは、符号化前の映像フレームである。
多くの場合は、映像忠実度が映像符号化にとっての最も重要な考慮事項になり、どのような向上もより良い主観的な視覚上の品質をもたらすことができる。しかしながら、このことが常に当てはまるわけではなく、従って、幾つかの事例においては知覚上の品質要因も考慮に入れるべきである。知覚上の品質は、空間的誤差及び時間的誤差の両方を考慮する。空間的誤差は、ブロッキング(すなわち「ブロック性」)の存在、リンギングアーティファクト、又は両方を含む。時間的誤差は、時間的ちらつきの存在、すなわち、映像フレームの視覚上の品質が時間軸に沿って不均一に変化するときを含む。時間的誤差は、望ましくない映像シーケンス内の動きの細切れが結果的に生じる可能性がある。
DR及びDNRは、ROI及び非ROIの正規化された画素当たりの歪みを表し、αは、ROIの知覚上の重要度率である。映像品質評価において上述される側面間の関係を線形関数に単純化することができると仮定すると、映像シーケンスの全体的な歪みは以下の式で表すことができる。
Figure 0005318424
ここで、fi及び
Figure 0005318424
は、映像シーケンスにおけるMのフレーム内のi番目の原フレーム及び再構築フレームであり、β及びγは、重み付け係数であり、DR及びDNRは、ROI及び非ROIに関する総歪みであり、DRF、DRS及びDRTは、忠実度、空間的知覚品質及び時間的知覚品質におけるROIの正規化誤差であり、DNF、DNS及びDNTは、非ROIエリアに関する前記の正規化誤差である。α、β及びγの値は、0乃至1の実数値を割り当てるべきである。その結果得られる品質測定基準は、重み付きビット割当てにおけるロー(ρ)パラメータに関する最適化問題を公式化するためのコスト関数として用いること、又はROI処理におけるその他の問題に関して用いることができる。
無線ビデオテレフォニー、等の低ビットレート映像用途においては、ブロッキング(すなわち、ブロック性)アーティファクトが空間的知覚品質に関する重要な懸念事項である。この種のアーティファクトは、高頻度係数のほとんどが除去される、すなわちゼロに設定される量子化に起因する。結果的に生じる影響は、平滑化された画像ブロックがブロック境界を非常に著しくすることである。極端な低ビットレート事例においては、DC係数のみが符号化され、復号された画像ごとの一定のブロックを作る。本開示においては、ROI空間的品質値DRS(DNSの場合と類似)は、正規化ブロック性歪みとして定義され、以下の式で表すことができる。
Figure 0005318424
ここで、知覚可能な不連続部が存在するかどうかを確認するためにブロック間の境界が検査される。ブロック境界全体における強度傾きの平均二乗差の和を検査する適切な不連続部検出手法が、ミナミ及びA.ザクホー、"An optimization approach for removing blocking effects in transform coding"(変換符号化におけるブロッキングの影響を除去するための最適化手法)、IEEE Trans. Circuits Systems for Video Technology, Vol. 5, No. 2, pp.74-82, April 1995において説明されており、該文献の全内容は、本明細書において参照されることによって本明細書に組み入れられている。この手法では、ブロック境界の両側における傾きが同一であり、さらに突然の傾きの変化は量子化に起因すると仮定している。
方程式(1)において、DRT(又はDNT)値は、映像シーケンス内の全フレームに関するDRS(又はDNS)の分散に基づく[0,1]の範囲内の割り当てられた点数であると定義される。この方法により、映像忠実度、空間的知覚品質、及び時間的知覚品質に関する項が正規化され、制御可能な映像品質測定値を形成するために重み付けパラメータα、β及びγによってブリッジすることができる。これらの重み付けパラメータの選択は、ユーザーに依存し、これらのユーザーの要求及び期待に基づく。繰り返しになるが、この測定値は、ビット割当てプロセスを好ましい主観的知覚の方向に偏らせるための入力として役立つことができる。従って、ユーザーは、ROI符号化において視覚的により感じの良い結果を達成させることができる。
ビット割当てモジュール48は、フレームに関するROI定義及び速度バジェットの両方を得る。ROI定義は、ROI内にあるMB又はその他の映像ブロックを識別するROI MBマップの形をとることができる。速度バジェットは、ROIエリア及び非ROIエリアを含むフレーム全体を符号化するために利用可能なビット数を提供する。さらに、ビット割当てモジュール48は、ROIと非ROIとの間でのビット割当てを偏らせるROI重みwiをROI重み計算器46から得る。スキップモードを指示することで、ビット割当てモジュール48は、すべての利用可能なビットをROI専用にする(非ROIフレームのスキップをONにする)ことが可能であるかどうか又はROIと非ROIとの間でビットを分配(非ROIフレームのスキップをOFFに)しなければならないかどうかを決定することができる。
ビット割当てモジュール48は、ROIの定義、フレーム速度バジェット、重みwi、及び非ROIスキップモードを用いて、ROI MBと非ROI MBとの間におけるビットの重み付きρ領域割当てを生成する。ρ領域ビット割当てが決定された時点で、マッパー56は、映像符号器58に適用するためのMB QP値を提供するためにQPへのρのマッピングを行う。マッパー56は、QPマッピングテーブルに対して、又は特定のρに関するQPを生成する方程式又は関数に対してρを適用することができる。映像符号器58は、ビット割当てモジュール48及びマッパー56によって提供されたQP値を用いて、該当する映像フレーム内の個々のROI及び非ROI MBを符号化する。その結果得られたビット割当ては、該当する映像フレームだけでなく、非ROIのスキップの利用可能性及び映像シーケンス内の先行フレームと関連する品質測定基準も考慮に入れることができる。以下ではビット割当てモジュール48の動作がさらに詳細に説明される。
本開示において説明されるビット割当て技術は、一般的には、十分なROIの検出又は定義を利用可能であること、及び受け入れ可能なフレームレベル速度制御を利用可能であることを想定している。この想定に基づいて、ビット割当て技術は、一般的には、ROI MBと非ROI MBとの間におけるMBレベルの速度制御に焦点を合わせている。ほとんどの従来のROIビット割当てアルゴリズムは、ITU H.263+TMN8モデルの重み付きバージョンに基づいており、コスト関数が生成され、一組の予め設定された重みを用いることによって前記関数内の様々な領域に関する歪み成分が別々に処理される。TMN8は、その他の映像基準のほとんどと同様に、QPの関数を用いて速度と歪みのモデルを作成するQP領域速度制御方式を用いる。しかしながら、本開示において説明されるビット割当て技術は、ρ領域速度制御モジュールを利用し、ここでρは、映像符号化におけるMB内のゼロ以外の量子化されたAC係数の数を表す。本明細書において説明されるように、ρ領域ビット割当てを使用することは、QP領域速度制御よりも正確になる傾向があり、速度変動を有効に低減させることができる。
映像符号化用途において、典型的問題は、映像シーケンスに関する所定のビットバジェットを用いて歪み値Dsequenceを最小にすることである。この複雑な問題に関する最適な解決方法は、最適なフレームレベル速度制御アルゴリズム及び最適なマクロブロックレベルビット割当て方式に依存する。しかしながら、現在のフレームを符号化時に利用可能な将来のフレームに関する情報が非常に限定されているリアルタイム用途、例えばビデオテレフォニー、に関しては、最適なフレームレベル速度制御を追求するのは現実的でなく実行可能でもない。典型的には、人気のある速度制御アルゴリズム(「貪欲」アルゴリズム)が適用される。貪欲アルゴリズムは、映像コンテンツの複雑さが映像シーケンス内のフレーム全体にわたって一様に分散されていると仮定する。この仮定に基づき、貪欲アルゴリズムは、利用可能なビットの一部分を映像シーケンス内のフレームの各々に割り当てる。リアルタイム用途においては、将来のフレーム情報の利用可能性が限定されていることは、速度制御において時間的品質を考慮することを困難にする。
本開示においては、実践的な解決方法を見つけ出すため及びビット割当て問題を単純化するため、一般的には、良好なフレームレベル制御を利用可能であることが仮定されている。この仮定は、ビット割当て問題をマクロブロックレベルのビット割当てにまで縮小する。同時に、ビット割当て方式は、非ROIスキップ手法を利用することができる。非ROIスキップは、スキップされた領域が前のフレームのスキップされた領域と同じ知覚上の品質を呈するため、時間的歪み項DNT(f~ 1,…,f~ M)の値を小さくする機会を増大させる。従って、非ROIエリアのスキップは、連続するフレーム間における知覚上の品質の変動を小さくすることができる。
例示する目的上、方程式(1)に従って映像フレームの画質が評価される。しかしながら、説明を単純化するため、β及びγは、β+γ=1になるように設定される。所定のフレームfに関する総ビットバジェットをRbudget、フレームを符号化するためのビットレートをRで表すと、問題は以下の関数によって表すことができる。
Figure 0005318424
従って、R ≦ Rbudget
上記の最適化問題は、ラグランジュ緩和及び動的プログラミングによって解決することが可能である。しかしながら、該手法の演算上の複雑さは、リアルタイムシステムが耐えることが可能な複雑さよりもはるかに複雑になる可能性がある。従って、本開示により、複雑さが小さくほぼ最適な解決方法が好まれる。特に、本開示においては、ρ領域内における2段階式ビット割当てアルゴリズムが適用される。第1の段階は、以下の最適化問題を含む。
Figure 0005318424
方程式(4)に関する最適な符号化パラメータが得られた後は、第2の段階は、符号化パラメータを繰り返し調整し、ローカル最低値に達するまで項αDRS(f~) + (1−α)DNS(f~)を約分する。この2段階式アルゴリズムの結果は、βが相対的に大きい数であるときに最適な解法に非常に近い解法になることができる。β = 1であるときには、問題(3)及び(4)は同一である。本開示においては、第1の段階及び問題(4)の解法に焦点が合わせられる。
ROI映像符号化においては、Nは、フレーム内のMB数であり、{ρi}、{σi}、{Ri}及び{Di}は、i番目のマクロブロックに関するρ、標準偏差、速度および歪み(二乗誤差の和)の組である。従って、
Figure 0005318424
である。フレーム内の全MBに関して一組の重み{wi}が以下のように定義される。
Figure 0005318424
ここで、Kは、ROI内のMB数である。方程式(5)は、例えばROI重み計算器46によって実装することができる。従って、フレームの重み付き歪みは以下の式になる。
Figure 0005318424
ゆえに、問題(4)は以下のように書き換えることができる。
Figure 0005318424
方程式(7)は、モデル作成に基づくビット割当て手法を用いて解かれる。自然画像のAC係数の分布は、ラプラシアン分布
Figure 0005318424
によって最良の概算値を求めることができる。従って、i番目のマクロブロックの速度および歪みは、以下の方程式(8)及び(9)においてρの関数としてモデル化することができる。
例えば、速度は以下の式で表すことができる。
Figure 0005318424
ここで、A及びBは、一定のモデル作成パラメータであり、Aは、ゼロ以外の係数を符号化するために必要な平均ビット数であると考えることができ、Bは、非テクスチャ情報に起因するビットであると考えることができる。
さらに、歪みは以下の式で表すことができる。
Figure 0005318424
ここで、θは、未知の定数であり、σは、残存データの標準偏差である。ここで、選択されたρiから受け入れ可能な量子化器を生成するために利用可能な十分に正確なρ−QΡテーブルが存在すると仮定されているため、ビット割当て技術は、量子化器の代わりにρiを最適化する。一般的には、方程式(7)は、制約された問題が以下の式に従って制約されていない問題に変換されるラグランジュ緩和を用いることによって解くことができる。
Figure 0005318424
ここで、λ*は、
Figure 0005318424
を可能にする解である。方程式(10)において偏導関数をゼロに設定することによって、最適化されたρiに関する以下の式が得られる。
Figure 0005318424
すなわち、
Figure 0005318424
ゆえに、
Figure 0005318424
及び、
Figure 0005318424
他方、
Figure 0005318424
であるため、以下の関係が成り立つ。
Figure 0005318424
方程式(14)及び(16)から、ビット割当てモデルIが以下の式に従って得られる。
Figure 0005318424
結果的に得られたρは、対応するQPにマッピングされ、該当する符号化ビット数を各々のROIまたは非ROI MBに割り当てるために用いられる。
代替の歪みモデルを用いて他のビット割当てモデル(ビット割当てモデルII)を得ることができる。代替の歪みモデルにより、ステップサイズqを有する一様な量子化器を利用可能であると仮定すると、量子化に起因する歪みは、以下の式によって与えられ、
Figure 0005318424
ゼロの割合は以下の式によって与えられる。
Figure 0005318424
ゆえに、
Figure 0005318424
シャノンの情報源符号化定理により、T.M.カバー及びJ.A.トーマス"Elements of information theory"(情報要素理論), Wiley, New York, NY, 1991において説明されるように、ラプラシアンソースに関しては、シンボルを表すために必要な最小ビット数は以下の式によって与えられる。
Figure 0005318424
従って、
Figure 0005318424
であり、ここで384は、4:2:0映像に関するi番目のマクロブロックにおける係数の総数であるため、方程式(21)は、テイラー展開を用いることによって展開することができ、ビットレートとρの間の関係は、以下の式によって概算することができる。
Figure 0005318424
ここで、A及びBは、一定のモデル作成パラメータであり、Aは、ゼロ以外の係数を符号化するために必要な平均ビット数であると考えることができ、Bは、非テクスチャ情報に起因するビットであると考えることができる。
さらに、係数の分散は以下の式のよって表される。
Figure 0005318424
その結果、i番目のマクロブロックの歪みは、以下の式によって表すことができる。
Figure 0005318424
ビット割当てモデルIの導出における場合のように、最適なビット割当て方式は、最適化問題(7)、すなわち以下の問題、を解くことによって達成させることができる。
Figure 0005318424
一般的には、方程式(25)は、制約問題が以下の式に従って非制約問題に変換されるラグランジュ緩和を用いて解くことができる。
Figure 0005318424
ここで、λ*は、
Figure 0005318424
を可能にする解である。方程式(26)において偏導関数をゼロに設定することによって最適化されたρiに関する以下の式が得られる。
Figure 0005318424
すなわち、
Figure 0005318424
ゆえに、
Figure 0005318424
他方、次式であるため、
Figure 0005318424
ゆえに、
Figure 0005318424
方程式(28)及び(30)から、以下の式が得られる。
Figure 0005318424
ここで、ρbudgetは、フレームに関する総ρバジェットである。
歪みは、方程式(32)において別々にモデル化されるが、該モデルに基づき、以下のビット割当てモデルIIが得られる。
Figure 0005318424
方程式(33)は、例えばビット割当てモジュール48によって実装することができる。
映像フレームの非ROIエリアの符号化をスキップできることは、ビット割当ての有意な節約を行うことが可能になる。非ROIエリアが符号化されない、すなわちスキップされる場合は、スキップされない場合に非ROIに対して割り当てられるビットは、現在のフレームまたは将来のフレームのROIを符号化するために割り当てることによってROI内のMBの視覚上の品質を向上させることができる。所定のフレームに関して非ROIがスキップされる場合は、先行フレームに関して符号化された非ROIが繰り返されるか又は現在のフレーム内の内挿された非ROIエリアに代えられる。非ROIエリアのスキップは、ROI符号化のためにビットを保存することに加えて、現在のフレームの時間上の品質を向上させることができる。特に、2つ以上の連続するフレームにおいて同じ非ROIエリアを提示することは、非ROIエリア内における時間的ちらつきを低減させる傾向がある。
非常に低いビットレート、例えば32kbpsにおいては、非ROI領域は、ビットがMB間で一様に分布されている場合でさえも通常は粗く符号化され、ちらつき等の時間的な視覚上の品質問題が顕著になる。他方、背景が非ROIであるビデオテレフォニー用途のほとんどの場合においては、背景における動きは非常に限定されている。従って、映像忠実度を大幅に低下させない限りにおいて、背景をスキップすることが、ROI領域及び符号化された非ROI領域の品質を向上させるためにビットを再割り当てする上での解決方法となる。
超低ビットレート用途においては、符号化ビットを保存するためにフレームをスキップすることが非常に一般的な手法である。非ROIのスキップとフレームのスキップとの間の相違点は、非ROIスキップ手法ではROIの良好な視覚上の品質を保証するために各フレームに関するROIが符号化されることである。フレームのスキップは、多くの用途において非常に有用である。しかしながら、ROI映像符号化においては、ROIの歪みが大きな影響を受けて全体的な性能を低下させる可能性があるため、特に方程式(1)においてαが大きい値に設定されているときには、フレームのスキップは顔の表情等の重要情報を失わせる危険性がある。従って、通常の映像フレームにおいては背景MBの数が圧倒的であるため、非ROIをスキップするほうがより良い選択肢であり、一般的にはROIの品質を向上させるための有意な数のビットを節約することができる。
本開示は、コンテンツ適応型非ROIスキップ技術を企図している。さらに、本開示は、代替の「ユニットに基づく」非ROIスキップ技術を企図しており、以下ではコンテンツ適応型非ROIスキップ技術との比較を目的として該技術が詳細に説明される。ユニットに基づく非ROIスキップ技術は、連続するフレームを、該フレームに関するROIエリアと該フレーム間で共有される共通の非ROIエリアを含むユニットにグループ分けすることを含む。特に、2つの連続するフレームが1つのグループに分けられる。非ROI背景スキップモジュール50は、ユニットに基づく非ROIスキップ技術を用いるように構成されているときには、フレームi及びi+1をフレームユニットにグループ分けし、非ROIエリアがスキップされるフレームを映像符号器58に通知する。映像符号器58は、前記通知に応じて、ビット割当てモジュール48によって提供された重み付きビット割当てを用いて、フレームi及びi+1の各々のROIエリアを符号化する。さらに、映像符号器58は、重み付きビット割当てを用いてフレームiの非ROIエリアを符号化する。しかしながら、映像符号器58は、フレームi+1の非ROIエリアは符号化しない。代わりに、フレームi+1の非ROIエリアはスキップされ、先行フレームiの非ROIエリアがその代わりに提供される。スキップされた非ROIを定義するためにその他の技術、例えば前フレーム及び後続フレームの非ROI間における内挿、を用いることができる。
ユニットに基づく非ROIスキップ技術は、常時で提供することができる。例えば、交互方式で非ROIを連続的に常時スキップするために2つのフレームずつを1つのユニットにグループ分けすることができる。換言すると、第2のフレームごとの非ROIを常時でスキップすることができる。代替として、ユニットに基づくスキップは、適応方式で起動及び停止させることができる。スキップは、前フレームによって生み出された非ROI歪みが歪みしきい値を超えるときに停止させることができる。例えば、前フレームの非ROIエリア内の歪みがしきい値よりも小さい場合は、フレームi+1に関する非ROIがスキップされ、プロセスは、フレーム増分1=i+2によって表される次の2つの連続するフレームのグループに進む。この場合は、非ROIの歪みのレベルは受け入れ可能であり、スキップが起動される。しかしながら、非ROI歪みが歪みしきい値よりも大きい場合は、フレームi+1の非ROIエリアが重み付きビット割当てを用いて符号化される。この場合は、非ROIの過度の歪み、すなわち、該当する映像シーンの非ROIエリア内における過度の歪み、に起因してスキップが停止される。
ユニットに基づく非ROIスキップの一例として、フレーム0、1、2及び3は、映像シーケンス内の連続するフレームを表す。この例においては、フレーム0及びフレーム1は、ユニット1にグループ分けされ、フレーム2及び3は、ユニット2にグループ分けされる。各ユニットは、共通の非ROIエリアを共有する。特に、常時スキップ又は受入可能な歪みによる適応型スキップの場合は、フレーム0の非ROIエリアがフレーム1に関して繰り返される。フレーム0の非ROIエリアはフレーム1に関して繰り返されるため、フレーム1の非ROIエリアは符号化する必要がない。フレームをユニットにグループ分けすることは、映像シーケンス全体を通じて適用することができる。例えば、2つのフレームが1つのユニットにグループ分けされる。しかしながら、幾つかの用途においては、2つ以上のフレームを1つのユニットにグループ分けすることができ、非ROIはユニット内のフレームのうちの1つ以外のすべてにおいてスキップされる。
連続するフレーム0及び1をユニットにグループ分けした時点で、フレーム0及び1内のROIエリアが各々符号化される。しかしながら、フレーム0の非ROIエリアはフレーム0及びフレーム1の両方に関して繰り返され、このためフレーム1に関する非ROIがスキップされる。この方法により、本来であればフレーム1の非ROIを符号化するために要求されるビット消費を回避することができる。この例においては、非ROIエリアは「背景」と呼ばれるが、人の肩、等の前景の造作を含むことができる。従って、背景は、本開示においてはROI外のあらゆるエリアを指すことを目的として一般的用いられており、映像シーン内の背景画像に厳密に限定されるとはみなすべきでない。以下において非ROIのスキップがさらに詳細に説明される。
今度は、ユニットに基づく非ROIスキップ技術を実装するための典型的原型システムが説明される。原型システムにおいては、上述されるように2つのフレームごとに1つのユニットにグループ分けされる。各ユニットにおいては、例えばゼロの動きベクトルを有する予測MBを用いて、第1の非ROIエリアが符号化され、第2の非ROIエリアがスキップされる。各ユニットに関するビット割当ては、シーケンス内の映像フレームのコンテンツの複雑さがフレーム全体にわたって一様に分散されていると仮定し、「貪欲な」フレームレベルのビット割当てと同じ論理に基づくことができる。この仮定により、以下の式のように2つのフレームユニット間で均一にビットを割り当てるべきである。
Figure 0005318424
ここで、ρsequenceは、映像シーケンス内のMの連続フレームのグループに関する総ρバジェットであり、ρunit iは、i番目のユニットに関するρ割当てであり、ρusedは、第1の(i−1)/2のユニットのρ消費である。ユニット内においては、ROIエリア及び非ROIエリア内のMBにビットを割り当てるためにどちらかのビット割当てモデル(I又はII)を用いることができる。
ユニットに基づく非ROIスキップを用いる場合と用いない場合における重み付きビット割当てによって生み出された歪みは、以下に示されるように、明示で比較することができる。
Figure 0005318424
ここで、DSkip_onは、非ROIスキップモードがオンのときのユニット総歪みであり、DSkip_offは、背景スキップがオフのときのユニット総歪みであり、DNonROI_skipは、ユニットの第2のフレーム内の非ROIをスキップすることに起因する歪みであり、方程式(35)内のρ1及びρ2及び方程式(36)内のρ1'、ρ2'及びρ3'は、ROI及び非ROIに対して割り当てられたAC係数の数である。
方程式(35)及び(36)から、一般的には以下の式が成り立つため、
Figure 0005318424
である場合のみに
Figure 0005318424
が成り立つことがわかる。
Figure 0005318424
上記の観察結果に基づき、ユニットに基づく非ROIスキップモードをオン及びオフにするための基準を追求する作業は、DNonROI_skipの歪みに関するしきい値を探す作業に変換される。映像シーケンス内のユニット歪みは平滑な形で変化し、このことは一般的に当てはまると仮定され、従って、直近に処理されたユニット歪みの平均値を、歪みしきい値を導き出すために用いることができる。直近のnのユニットの平均歪みを
Figure 0005318424
とした場合、(35)及び(36)に基づき、
Figure 0005318424
が成り立つ場合は、
Figure 0005318424
にすることが非常に可能である。換言すると、ユニットに基づく非ROIスキップをオフにする判定基準は、
Figure 0005318424
として指定することができる。この判定基準は、適応型非ROIスキップアルゴリズムの基礎とすることができる。
適応型のユニットに基づく非ROIスキップアルゴリズムは、さらに以下のように説明することができる。
ステップ0: データを初期設定し、D n = 0、スキップモード = ONに設定する。
ステップ1: 方程式(33)を用いて現在のユニット(2つの連続するフレームFn及びFn+1のグループ)に関するρバジェットを割り当てる。
ステップ2: 現在のユニット内において、方程式(33)によって各マクロブロックに関するビットを割り当てる。スキップモードがONの場合は、ユニット内の第2のフレームに関する非ROIに関してはビットが割り当てられない。
ステップ3: 現在のユニットに関する歪みが得られた後に、
Figure 0005318424
を更新する。ここで、ηは、学習係数であり、[0, 1]の範囲内にある。
ステップ4: 次のユニットに関するデータを入手する。このユニットが最後のユニットである場合は、ステップ6に進む。
ステップ5: 新しいユニット(次の2つのフレームFn+2及びFn+3のグループ)に関するDNonROI_skipの歪みを計算する。
Figure 0005318424
である場合は、スキップモードをOFFにする。その他の場合は、スキップモードをONにする。ステップ1に戻る。
ステップ6: 適応型のユニットに基づくスキップアルゴリズムを終了させる。
この場合も、適応型のユニットに基づく非ROIスキップアルゴリズムは、本明細書において説明されるコンテンツ適応型非ROIスキップ技術に関する比較点を提供する。以下では、コンテンツ適応型非ROIスキップ技術がさらに詳細に説明される。コンテンツ適応型非ROIスキップ技術は、ρ領域フレームレベル速度制御アルゴリズムとともに、フレームごとの処理シーケンスにおいて用いることができる。パラメータρは、映像符号化におけるマクロブロック内のゼロ以外の量子化されたAC係数の数を表す。コンテンツ適応型非ROIスキップ技術は、本明細書において説明されるように、重み付きマクロブロックレベルビット割当てアルゴリズムとともに用いることができる。
フレームがフェッチされたときに、フレームレベル速度コントローラ54(図4)は、速度制御ウィンドー内の残りのビット及びフレーム数に基づき、貪欲フレームレベル速度制御アルゴリズムを用いてフレームに関する目標ρバジェットを割り当てる。貪欲モデルは、速度制御ウィンドー内の映像フレームのコンテンツの複雑さが一様に分散されているという仮定に基づいており、従って、残りのフレームで均一にビットを割り当てるべきである。目標ρバジェットがフレームに関して確立された後は、ROI MBマッパー52は、フレームのROIを検出又は追跡し、フレーム内のMBをROIマクロブロック及び非ROIマクロブロックに分類する。
映像符号器58は、現在のフレーム内の全MBに関する動き推定を行う。得られた動き情報は、コンテンツ適応型非ROIスキップモード決定におけるコンテンツキューの一部として用いることができる。非ROIスキップモード決定が行われた時点で、バジェット調整モジュール61は、現在のフレームに関するρ領域バジェットRBUDGETを調整する。次に、ビット割当てモジュール48は、調整されたバジェットを用いて優先的ROI符号化に関するMBレベルビット割当てを提供する。これで、DCT変換、量子化及びエントロピー符号化を行うことができる。
ユニットに基づく非ROIスキップに関しては、非ROIスキップのモードは、スキップされた非ROIエリアに起因する累積歪みによって決定される。対照的に、コンテンツ適応型非ROIスキップに関しては、背景活動及び前景活動等のコンテンツ情報が考慮に入れられる。コンテンツ適応型非ROIスキップに関しては、2つのフィルタF({xn}, M, Th)及びG({xn}, M, Th)が定義され、ここで、{xn}は、一組の実数であり、xnはn番目の項、Mは整数、Thは[0, 1]の範囲内のしきい値である。
Figure 0005318424
及び
Figure 0005318424
フィルタ(37)は、現在値xnが最上位置(Th*100%の項目よりも上方)にある場合にローカルウィンドー(固定長M)内において検出する。フィルタ(38)は、xn−Mからxnまでの増加がTh*100%超である場合に検出する。コンテンツ適応型非ROIスキップモジュール50は、スキップモード決定に対して間接的な影響を与える映像コンテンツ状態又は状態の変化を検出するためにフィルタ(37)及び(38)を適用するように構成される。
フレーム(又は最近のフレーム)内の合計された及び平均された動きベクトルの値は、フレームの動きを表すために用いることができる。動きがそれよりも高いときには、可能性があるコンテンツ遷移情報を保護するために非ROI符号化のスキップがより低い頻度で起動されるべきである。ROI映像符号化においては、ROI及び非ROI(背景)の両活動を考慮することができる。非ROIエリアにおいて大量の活動が生じるときには、上述されるように、非ROIスキップ頻度を下げるべきである。他方、ROIが大量の活動を含むときには、非ROIエリアをスキップすることは、ROIを符号化するためにより多くのビットを再度割り当てる上で有用である。
「活動」という表現は、動きのローカルな活動、及び形状のグローバルな活動を指す。動き活動は、結果的に目及び唇等の顔の要素の相対的動きとなる、フレームごとに変化する顔の表情である。形状活動は、結果的に形状の変化が生じることになる、フレーム間における人の頭又は他のオブジェクトの傾きであり、考慮すべき該当活動は、ROI内においては形状の変形又は動きとして、非ROI内においてはテクスチャの動きの複雑さとして生じる。非ROIスキップ決定においては、非ROIスキップに起因する累積歪みが考慮される。
非ROI活動量を値{Xn}とし、フレームシーケンスに関するROI活動量を{ζn}とすると以下の式のようになる。
Figure 0005318424
ここで、MVxi及びMVyiは、n番目のフレーム内のi番目のマクロブロックの動きベクトルのx成分及びy成分であり、さらに以下の式のようになる。
Figure 0005318424
ここで、{μn}は、ROI形状変形率であり、{kn}はROIローカル動き率である。
μn = (n−1)番目及びn番目のフレームのROIの非重複領域における画素数
n番目のフレームのROI内画素数
Figure 0005318424
及び
Figure 0005318424
n}はオブジェクトの動き/回転及び形状の変形等のグローバルな活動度を表し、{kn}は顔の表情の変化等のローカルな活動を表すため、値{ζn}はROI活動度を表すことができる。
図5は、映像シーンのROI内において示されるオブジェクトに関するオブジェクトの動き/回転及び形状変形の変化を示す。特に、図5のフレーム0及び1内に描かれた人の頭は、その位置を有意な量だけ変化させる。図6は、映像シーンのROI内の人に関する顔の表情の変化を示す。特に、フレーム0及び1において描かれた人の口が実質的に閉じた位置から大きく開いた位置に移行する。従って、図5及び6は、映像シーンのROI内における大きな活動の事例を表す。
値{σ2 Bn}は、フレームシーケンスに関するフレーム当たりの非ROIの残りの総エネルギーを表す。この値は、スキップされた非ROIに起因する歪みでもある。スキップモード決定は以下の式に従って表すことが可能である。
Figure 0005318424
ここで、Thσ、M1、Thx1、Thx2、M2及びThζ1は、ユーザーによって定義されたしきい値及びローカルウィンドーの大きさであり、p−1は、背景をスキップした現在のフレームの連続する先行フレームの数である。換言すると、(n−p)番目のフレームが非ROIエリアを符号化したが、(n−p+1)番目、(n−p+2)番目、…及び(n−1)番目のフレームは、非ROIエリアの符号化をスキップした。値Sn = 1のときは、現在のフレームの非ROIエリアの符号化がスキップされ、その他の場合は非ROIエリアが符号化される。方程式(43)から、非ROIスキップモジュール50は、ROI活動量が急増時又はROIが大量の動きを含むときに背景をスキップするのを選択することがわかる。他方、非ROIが大量の動きを含むか又はその他のフレーム内におけるスキップされた非ROIエリアに起因する累積歪みがかなり大きい場合は、非ROIエリアが符号化される。
図7は、コンテンツ適応型非ROIスキップに関する技術を例示する流れ図である。図7において示されるように、非ROIスキッププロセスが初期設定された時点で(62)、フレームレベル速度コントローラ54は、フレームレベルρバジェットを推定する(64)。次のフレームをフェッチした時点で(66)、ROI MBマッパー52は、フレームに関して指定されたROIを検出又は追跡する(68)。次に、映像符号器58は、フレーム内の全MBに関する動きを推定する(70)。フェッチされたフレームがシーケンス内の最初の2つのフレームのうちの1つである場合は、ビット割当てモジュール48は、MBレベルのビット割当てを適用する(78)。フェッチされたフレームが最初の2つのフレームのうちの1つでない場合は(72)、非ROIスキップモジュール50は、フレームの非ROIに関するスキップモードを決定する(74)。次に、バジェット調整モジュール61は、非ROIスキップモジュール50によって決定されたスキップモードに基づいてフレームレベルρバジェットを調整する(76)。
非ROIがスキップされる場合は、フレーム又は後続フレーム内のROIが追加の符号化ビットを利用できるようにフレームレベルρバジェットを調整することができる。フレームレベルρバジェットを調整した時点で(76)、ビット割当てモジュール48は、フレームのROIを優先的に符号化するためにMBレベルのビット割当てを適用する(78)。次に、映像符号器58は、ビット割当てを用いてフレーム内のMBを符号化する(80)。フレーム内の最後のMBに達していない場合は(82)、プロセスは、ブロック82のNO分岐による指示に従って繰り返す。最後のMBに達している(82)が映像シーケンス又はフレームレベル速度制御ウィンドー内の最後のフレームに達していない場合は(84)、新しいフレームレベルρバジェットが推定され(64)、次のフレームがフェッチされる(66)。最後のフレーム(84)の最後のMB(82)に達している場合は、プロセスは終了する(86)。
図7の例においては、フレームレベルρバジェット推定(64)は、フレーム全体が符号化されるという仮定に基づいて行うことができる。しかしながら、映像フレームのシーケンス内の幾つかの非ROIエリアがスキップされるため、フレームレベルρ領域バジェットの調整(76)が必要である。本開示においては、3つの異なるフレームレベルρバジェット調整戦略、すなわち、(1)「貪欲な」戦略、(2)「銀行家」戦略、及び(3)「投資家」戦略が考慮される。
「貪欲な」フレームレベル速度制御戦略は、単に、非ROIスキップモードがONのときにフレーム内のROIエリア及び非ROIエリアのテクスチャの複雑さに基づいてフレームレベルρバジェットを減らし、非ROIスキップモードがOFFの場合、すなわち、フレームに関する非ROIエリアが符号化される場合は何もしない。
「銀行家」フレームレベル速度制御戦略は、非ROIスキップモードがONのときにρバジェッを減らすが、これらの節約されたρを将来のフレームのために保存する。フレームの非ROIエリアが符号化される場合は、フレームは、非ROIエリアがスキップされた以前のフレームから節約されたすべてのρを得る。
「投資家」戦略は、映像シーケンス内の以前のフレームに関する前の非ROIスキップ歴の統計値及びパターンに基づいて将来のスキップイベントを推定し、次に該推定に基づいてρバジェットを決定する。以上のように、バジェットは、現在のフレーム及びその他のフレームに関する来歴的及び予測的なスキップ統計値に基づく。
フレームレベル速度制御戦略の各々は、フレームレベル速度制御コントローラ54によって生成されたρ領域値RBUDGETを調整するためにバジェット調整モジュール61内に実装することができる。ビット割当てモジュール48は、調整されたRBUDGET値を用いて、ROIと非ROIエリアとの間で符号化ビットを割り当てる(該当フレームに関してスキップがOFFの場合)。
値{ρn budget}は、フレームレベル速度コントローラから得られたρバジェットを表し、{ρn adjusted}は、調整されたρバジェットを表し、nは、現在のフレームのインデックスを表す。貪欲な戦略、銀行家戦略及び投資家戦略のさらなる詳細が以下において説明される。
1.貪欲な戦略 この戦略を用いたρn adjustedは、以下の式によって計算することができる。
Figure 0005318424
ここで、σiは、現在のフレーム内のi番目のマクロブロックのDCT係数の標準偏差を表し、wiは、ビット割当てモジュール48によって行われるマクロブロックレベルの重み付きビット割当てにおけるマクロブロックに関する関連する重みである。
方程式(44)は、方程式(33)の拡張である。方程式(33)において、ROI知覚的重要度係数αは、ROIエリア及び非ROIエリアの歪みをブリッジしてフレームに関する重み付き歪み測定値を形成するように定義される。従って、知覚的ピーク信号・雑音比(PSNR)は、以下のように定義される。
Figure 0005318424
ここで、f及びf~は、原フレーム及び再構築されたフレームであり、DR及びDNRは、ROIエリア及び非ROIエリアの正規化された画素当たりの歪みである。上記の方程式(5)において上述されるように、ρ領域ビット割当てに従った重みwiは以下のように定義される。
Figure 0005318424
ここで、Kは、ROI内のマクロブロック数であり、Nは、フレーム内のマクロブロック数である。
2.銀行家戦略 この戦略は、伝統的な銀行業務に類似する控え目な手法であり、顧客は、自己の口座の総預金額のうちの最高額を引き出すことができる。この場合、非ROIをスキップすることによってフレーム内のρを節約することは、非ROIエリアを符号化する最も近い将来のフレームのために資源を預託することに類似する。この場合は、調整されたρバジェットRBUDGETに関する計算は以下の式によって行うことができる。
Figure 0005318424
ここで、p−1は、非ROIエリアをスキップした現在のフレームの連続する先行フレーム数であり、(n−p)番目のフレームはその非ROIエリアを符号化する。
3.投資家戦略 投資家戦略は、将来起こりうるスキップイベントが予測されてその予測に基づいて資源が割り当てられるより積極的な手法である。この場合は、非ROIスキップがONである将来のフレームが現在のフレームと同じROIの複雑さを有すると仮定される。従って、現在のフレームの後にはスキップされた非ROIエリアを有するqのフレームが続くと推定された時点で、調整されたρバジェットを以下の式によって計算することができる。
Figure 0005318424
方程式(47)において、投資家戦略は、一連の最初のフレーム、例えば映像シーケンス内の最初の50フレーム、に関しては銀行家戦略とまったく同じに機能する。この期間においては、将来のq推定のための統計値が収集される。n>50及びSn=0である場合は、前回のρの節約及び非ROIのスキップに起因する予測される将来の節約を考慮した平均値がρに割り当てられる。
q値は、様々な予測法によって決定することができる。一例として、ベイジアンモデルを用いてq値予測問題をマルチクラス分類問題に変換することができる。この場合は、クラスは、qのすべての可能性によって表され、例えば、qが6未満に限定される場合はクラス0、1、2、3、4、5である。分類決定を行う際に用いられる機能ベクトルは、xn = (Xn, ζn, σBn 2)である。前述されるように、値{σBn 2}は、フレームシーケンスに関する1つのフレーム当たりの非ROIの残りの総エネルギーを表す。ベイジアンモデルは、最初のフレームから得られた統計値から学習し、スキップする/スキップしない決定を利用して後続フレームに関してより良いρ割当てを行う。Xn, ζn,及びσBn 2に関するしきい値を定義することによって、{xn}のスペースを8つのクラス{yn}(yn=0, 1,…, 又は7)にマッピングすることができる。従って、検討対象となっている現在のフレームに関しては、qに関する最良の選択は、以下の確率を最大にする選択である。
Figure 0005318424
方程式(48)により、qに関する最良の選択は、P(yn|q)P(q)を最大にするq値である。P(yn|q)及びP(q)の確率は、以前に処理されたフレームの統計値に基づいてヒストグラム法によって得ることができる。Hq(y)の値が、機能ベクトルyを有するスキップされた背景を持つqのフレームに後続する符号化された背景を有するフレームカウント数を表すとすると、以下の式のようになり、
Figure 0005318424
P(q)は、類似の手法によって得ることができる。
図8は、コンテンツ適応型非ROIスキップに関する技術をより詳細に示した流れ図である。特に、図8は、投資家戦略を用いた場合における非ROIスキップモジュール50及びρバジェット調整モジュール61の動作を示す。図8に示されるように、フレームアナライザ60からフレーム情報を検索することで、非ROIスキップモジュール50は、フレームのROI内におけるコンテンツの活動が適用しきい値を超えるかどうかを決定する(90)。繰り返しになるが、「活動」という表現は、一般的には、動き等のローカル活動、及び形状変形等のグローバル活動を指す。ROIコンテンツ活動がしきい値を超えている場合は、バジェット調整モジュール61は、フレームに関する非ROI符号化をスキップし(91)、例えば非ROIスキップの結果として再取得された符号化ビット数に比例してρ領域フレームレベルバジェットRBUDGETを再計算する(100)。ROIコンテンツ活動がしきい値を超える場合は(90)、ROI内での活動は活発であり、ROI内における受け入れ可能な視覚上の品質を保証するための符号化ビットの再割り当てを行うために非ROIのスキップを要求する。
ROIコンテンツ活動がしきい値を超えていない場合は(90)、非ROIスキップモジュール50は、フレームの非ROIエリア内におけるコンテンツ活動が該当するしきい値を超えているかどうかを決定する(92)。非ROIエリア内におけるコンテンツ活動は、動き及びテクスチャの複雑さを含む。非ROIエリア内におけるコンテンツ活動が該当するしきい値を超えていない場合は、非ROI符号化をスキップし(91)、フレームレベルバジェットRBUDGETの調整を後続させることができる。この場合は、非ROI活動は相対的に鈍い。従って、非ROIの符号化をスキップすることは、非ROIエリア内の視覚上の品質を大きく損なうことはない。しかしながら、同時に、非ROIのスキップは、ROI符号化を大きく援助することができる。
非ROIコンテンツ活動が活発で、該当するしきい値を超えている場合でも、映像シーケンス中において非ROIのスキップによって生じた総累積歪みが高くない場合は依然として非ROIエリアをスキップすることができる。従って、累積されたスキップ歪みが該当するしきい値を超えない場合は(94)、非ROI符号化は非ROIスキップモジュール50によってスキップされ(91)、バジェット調整モジュール61によるフレームレベルバジェットRBUDGETの再計算が後続される(100)。非ROIスキップモジュールは、映像フレームの非ROIエリアの符号化をスキップするかどうかを、ROIのコンテンツ活動、非ROIエリアのコンテンツ活動、及び1つ以上のその他のフレーム内の非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定する。
累積されたスキップ歪みが高く(94)、該当するしきい値を超えている場合は、非ROIスキップモジュール50は、フレーム統計値を更新し(96)、映像シーケンス内の将来のスキップされるフレーム数を予測する(98)。この場合は、ROIと非ROIとの間のビット割当ては、非ROIのスキップを考慮せずに通常どおりに行われる。フレーム統計値は、例えば方程式(47)乃至(49)に関して投資家戦略について前述されるように、映像シーケンス内におけるスキップされたフレームの数及びパターンを表すことができる。バジェット調整モジュール61は、例えばベイジアン分類を用いて、フレーム統計値に基づいて将来のスキップされるフレーム数を予測する(98)。次に、バジェット調整モジュール61は、該予測に基づいてフレームバジェットRBUDGETを調整する(100)。
図8に示されるように、非ROIスキップモードの決定は、動き又は形状変形等のROIコンテンツ活動、動き又はテクスチャの複雑さ等の非ROIコンテンツ活動、及び1つ以上のその他のフレーム内での非ROIのスキップに起因する累積歪みの解析を含むことができる。スキップモード決定は、図8においてはしきい値に基づく決定として描かれているが、ROI活動対非ROI活動対スキップに起因する累積歪みの均衡化に基づくことも可能である。さらに、フレームレベル速度制御は、ρ領域内において起きるとして説明されているが、本明細書において説明されるコンテンツ適応型非ROIスキップ技術は、QPに基づく速度制御とともに採用することも可能である。従って、図8に示されるプロセスは典型例である。
図9は、異なるビット割当て戦略を用いた符号化技術の総合的な知覚上の品質を比較したグラフである。特に、図9は、ビット割当てに関する貪欲な戦略(102)、銀行家戦略(104)及び投資家戦略(106)を、標準的なカーフォンQCIF映像試験シーケンスに関する単位がキロビット/秒(kbps)の1つの範囲の符号化速度における単位がデシベル(dB)の知覚上のピーク信号・雑音比(PSNR)に基づいて比較する。図9の例においては、マクロブロックレベルビット割当てを目的とするユーザー優先度値αは、0.9である。図10乃至12に対しても同じα値が適用される。図9に示されるように、「投資家」戦略は、高い方のビットレートの最後の部分においては「銀行家」戦略よりもわずかに優れている。投資家戦略は、qを推定するためにさらなる計算上の複雑さを要求するが、繰り返しパターン又は自己相似性特性を有する映像シーケンスに関してより優れている。
毎秒15フレーム(fps)のカーフォン及びフォアマンQCIF映像試験シーケンスを用いた4つの異なる速度制御手法に関する実験結果が得られている。カーフォンシーケンス及びフォアマンシーケンスは、映像符号化技術の当業者によって用いられる標準的な試験シーケンスである。これらの4つの異なる速度制御手法は以下のとおりである。
1.貪欲 マクロブロックレベルの貪欲アルゴリズムであり、ビットが一様に分散された形でマクロブロックに割り当てられる。
2. フレームスキップ フレームスキップアルゴリズムであり、符号化中に1つおきにフレームをスキップする。
3. ユニットに基づく 本明細書において説明されるユニットに基づく非ROIスキップアルゴリズムであり、2つのフレームごとに1つのユニットにグループ分けし、各ユニット内の第2のフレームの背景をスキップする。
4.コンテンツ適応型 本明細書において説明されるコンテンツ適応型非ROIスキップアルゴリズムであり、非ROIをフレームごとにスキップすべきかどうかをフレームのコンテンツ及び累積歪みに基づいて動的に決定する。ビット割当てに関する「投資家」戦略が用いられた。
第1の実験は、標準的なカーフォン映像試験シーケンスに関して行われ、その結果が図10及び11に示されている。図10は、カーフォン映像試験シーケンスに関してフレーム及び非ROIのスキップがある場合とない場合の異なるビット割当て戦略を用いて符号化技術の全体的な知覚上の品質を比較したグラフである。図10においては、フレームスキップ、ユニットに基づく背景スキップ、貪欲な戦略、及びコンテンツ適応型(「提案手法」)に関する結果が、参照番号108、110、112、及び114によって各々特定されている。図11は、48Kbpsの速度におけるカーフォン映像シーケンスに関する非ROIスキップ及びその他の技術に起因する歪みを示したグラフである。図11において、貪欲な、ユニットに基づく背景スキップ、及び投資家戦略を用いたコンテンツ適応型(「提案手法」)が参照番号116、118及び120によって指定されている。図10及び11に示されるように、提案される手法、すなわち投資家戦略を用いたコンテンツ適応型非ROIスキップは、ビットレート範囲全体においてその他のすべての手法よりも優れていた。顕著なことに、性能利得は最高2dBであった。
図12は、他の典型的な映像シーケンス、すなわちα値が0.9の場合におけるフォアマンQCIF映像試験シーケンスの最初の180フレームに関するフレーム及び非ROIのスキップがある場合とない場合の異なるビット割当て戦略を用いた符号化技術の全体的な知覚上の品質を比較したグラフである。図12においては、フレームスキップ、ユニットに基づく背景スキップ、貪欲な戦略、及びコンテンツ適応型(「提案手法」)に関する結果が、参照番号122、124、126、及び128によって各々識別されている。図12は、投資家戦略ビット割当てを伴ったコンテンツ適応型非ROIスキップ案がその他のアルゴリズムよりも有利であることを示す。
図13は、α値が0.7の場合におけるカーフォン映像試験シーケンスに関するユニットに基づいた及びコンテンツに基づいた非ROIスキップを用いた符号化技術の全体的な知覚上の品質を比較したグラフである。図14は、α値が0.7の場合におけるフォアマン映像シーケンスに関するユニットに基づいた及びコンテンツに基づいた非ROIスキップを用いた符号化技術の全体的な知覚上の品質を比較したグラフである。図13及び14においては、ユニットに基づく非ROIスキップ手法は参照番号130によって示され、コンテンツに基づく非ROIスキップ手法は参照番号132によって示されている。図示されるように、コンテンツに基づく非ROIスキップ手法は、ユニットに基づく手法よりも優れている。
本開示においては、例えば無線ビデオテレフォニーにおいて超低ビットレートが要求されるときにビデオテレフォニー又は映像ストリーミング用途に関するROI符号化をサポートするための様々な技術が説明されている。本開示は、ROI映像符号化がより良い性能を達成させるために例えばρ領域において異なる最適化された重み付きビット割当て方式とともに採用することができるコンテンツ適応型非ROIスキップ技術を提示する。コンテンツ適応型非ROIスキップ方式は、現在のフレームのコンテンツ情報、例えばROIエリア及び非ROIエリアのコンテンツ活動、及び以前に処理されたフレームの統計値、例えば1つ以上の以前のフレームにおける非ROIスキップに起因する累積歪み、に基づいて非ROIスキップモードを動的に決定する。さらに、様々なフレームの異なる領域におけるより良いビット割り当てに関する幾つかの戦略が説明されている。
本明細書において説明される技術は、ハードウェア内、ソフトウェア内、又はその組合せ内に実装することができる。ソフトウェア内に実装する場合は、これらの技術は、部分的には、実行された時に上述される方法のうちの1つ以上を実施する命令を含むプログラムコードを具備するコンピュータ読み取り可能媒体によって実現させることができる。この場合、コンピュータ読み取り可能媒体は、同期ダイナミックランダムアクセスメモリ(SDRAM)等のランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、非揮発性ランダムアクセスメモリ(NVRAM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)、FLASHメモリ、磁気式又は光学式データ記憶媒体、等を具備することができる。
プログラムコードは、1つ以上のプロセッサ、例えば1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はその他の同等の集積回路又は個別論理回路、等であることができる。幾つかの実施形態においては、本明細書において説明される機能は、符号化及び復号のために構成される専用ソフトウェアモジュール又はハードウェア装置内において提供すること、又は結合された映像符号器−復号器(CODEC)内に組み入れることができる。
様々な実施形態が説明されている。これらの及びその他の実施形態は、上記の請求項の適用範囲内である。
ROIイネーブルド映像符号器−復号器(CODEC)を組み入れた映像符号化及び復号システムを示すブロック図である。 無線通信デバイスと関連するディスプレイ上に示される映像シーン内におけるROIの定義を示す図である。 図2において描かれる映像シーンのROIエリア及び非ROIエリアを示す図である。 図2において描かれる映像シーンのROIエリア及び非ROIエリアを示す図である。 コンテンツ適応型非ROIスキップモジュールを有するROIイネーブルド符号器を組み入れた映像通信デバイスを示すブロック図である。 映像シーンのROI内において示されるオブジェクトに関するオブジェクトの移動/回転及び形状の変形の変化を示す図である。 映像シーンのROI内における人の顔の表情の変化を示す図である。 コンテンツ適応型非ROIスキップ技術を示す流れ図である。 コンテンツ適応型非ROIスキップ技術をより詳細に示す流れ図である。 異なるビット割当て戦略を用いた符号化技術の全体的な知覚上の品質を比較したグラフである。 典型的映像シーケンスに関するフレーム及び非ROIのスキップ有り及び無しの場合における異なるビット割当て戦略を用いた符号化技術の全体的な知覚上の品質を比較したグラフである。 典型的映像シーケンスにおける非ROIのスキップ及びその他の技術によって生じる歪みを示すグラフである。 他の典型的映像シーケンスに関するフレーム及び非ROIのスキップ有り及び無しの場合における異なるビット割当て戦略を用いる符号化技術の全体的な知覚上の品質を比較したグラフである。 典型的映像シーケンスに関するユニットに基づく及びコンテンツに基づく非ROIスキップを用いる符号化技術の全体的な知覚上の品質を比較したグラフである。 他の典型的映像シーケンスに関するユニットに基づく及びコンテンツに基づく非ROIスキップを用いる符号化技術の全体的な知覚上の品質を比較したグラフである。

Claims (24)

  1. 映像取得手段が、映像フレームを得ることと、
    映像符号器が、前記映像フレーム内の関心領域(ROI)を符号化することと、
    スキップモジュールが、前記映像フレームの非ROIエリアの符号化をスキップするかどうかを、前記ROI及び前記非ROIエリアの活動及び1つ以上のその他のフレーム内の非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定することと、を具備する、方法。
  2. 前記活動は、前記ROI内における形状の変形、前記ROIにおける動き、前記非ROIエリアにおける動き、前記非ROIエリアにおけるテクスチャの複雑さ、の少なくとも1つである請求項1に記載の方法。
  3. 前記非ROIエリアの符号化がスキップされないときに、ビット割り当てモジュールが、前記ROIと前記非ROIエリアとの間において符号化ビットを割り当てることをさらに具備する請求項1に記載の方法。
  4. 前記ビット割り当てモジュールが、符号化ビットを割り当てることは、前記フレーム内の前記ROI及び非ROIエリアのテクスチャの複雑さに対応するビット割当て方式を実行することを含む請求項3に記載の方法。
  5. 前記ビット割り当てモジュールが、符号化ビットを割り当てることは、前記ROI及び非ROIエリアの前記テクスチャの複雑さ、及び以前のフレームからのρの平均に対応するビット割当て方式を実行することを含む請求項3に記載の方法。
  6. 前記スキップモジュールが、前記映像フレームの非ROIエリアの符号化をスキップするかどうかを決定することは、前記ROI内の前記活動がしきい値を上回る場合に前記非ROIエリアの符号化をスキップすることを具備する請求項1に記載の方法。
  7. 前記スキップモジュールが、前記映像フレームの非ROIエリアの符号化をスキップするかどうかを決定することは、
    前記ROI内の前記活動が第1のしきい値を超える場合は前記非ROIエリアの符号化をスキップすることと、
    前記ROI内の前記活動が前記第1のしきい値を超えないが前記非ROIエリア内の前記活動が第2のしきい値を超えない場合は前記非ROIエリアの符号化をスキップすること、とを具備する請求項1に記載の方法。
  8. 前記スキップモジュールが、前記映像フレームの非ROIエリアの符号化をスキップするかどうかを決定することは、
    前記ROI内の前記活動が第1のしきい値を超える場合は前記非ROIエリアの符号化をスキップすることと、
    前記ROI内の前記活動が前記第1のしきい値を超えないが前記非ROIエリア内の前記活動が第2のしきい値を超えず、その他の映像フレームの符号化のスキップに起因する累積歪みが第3のしきい値を超えない場合は前記非ROIエリアの符号化をスキップすること、とを具備する請求項1に記載の方法。
  9. 映像フレーム内の関心領域(ROI)の定義を生成する関心領域マッパーと、
    前記映像フレーム内の前記ROIを符号化する映像符号器と、
    前記符号器が前記映像フレームの非ROIエリアの符号化をスキップするかどうかを前記ROI及び前記非ROIエリアの活動及び1つ以上のその他のフレーム内の非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定するスキップモジュールと、を具備するデバイス。
  10. 前記活動は、前記ROI内における形状の変形、前記ROIにおける動き、前記非ROIエリアにおける動き、前記非ROIエリアにおけるテクスチャの複雑さ、の少なくとも1つである請求項9に記載の方法。
  11. 前記非ROIエリアの符号化がスキップされないときに前記ROIと前記非ROIエリアとの間において符号化ビットを割り当てるビット割当てモジュールをさらに具備する請求項9に記載のデバイス。
  12. 前記ビット割当てモジュールは、前記フレーム内の前記ROI及び非ROIエリアの前記テクスチャの複雑さに対応するビット割当て方式を実行する請求項11に記載のデバイス。
  13. 前記ビット割当てモジュールは、前記ROI及び非ROIエリアの前記テクスチャの複雑さ、及び以前のフレームからのρの平均に対応するビット割当て方式を実行する請求項11に記載のデバイス。
  14. 前記スキップモジュールは、前記ROI内における前記活動がしきい値を上回る場合は前記ROIエリアの符号化をスキップするように前記映像符号器に指示する請求項9に記載のデバイス。
  15. 前記スキップモジュールは、前記ROI内における前記活動が第1のしきい値を上回る場合は前記非ROIエリアの符号化をスキップし、前記ROI内の前記活動が前記第1のしきい値を下回るが前記非ROIエリア内における前記活動が第2のしきい値を下回る場合は前記非ROIエリアの符号化をスキップするように前記映像符号器に指示する請求項9に記載のデバイス。
  16. 前記スキップモジュールは、前記ROI内における前記活動が第1のしきい値を上回る場合は前記非ROIエリアの符号化をスキップし、前記ROI内における前記活動が前記第1のしきい値を下回るが前記非ROIエリア内における前記活動が第2のしきい値を下回りさらにその他の映像フレームの符号化のスキップに起因する累積歪みが第3のしきい値を下回る場合は前記非ROIエリアの符号化をスキップするように前記映像符号器に指示する請求項9に記載のデバイス。
  17. 映像フレームを得ること、前記映像フレーム内の関心領域(ROI)を符号化すること、及び前記映像フレームの非ROIエリアの符号化をスキップするかどうかを前記ROI及び前記非ROIエリアの活動及び1つ以上のその他のフレーム内の非ROIエリアの符号化のスキップに起因する累積歪みに基づいて決定することをプロセッサに行わせるための命令を具備するコンピュータ読取可能な記録媒体。
  18. 前記活動は、前記ROI内における形状の変形、前記ROIにおける動き、前記非ROIエリアにおける動き、前記非ROIエリアにおけるテクスチャの複雑さ、の少なくとも1つである請求項17記載のコンピュータ読取可能な記録媒体。
  19. 前記命令は、前記非ROIエリアの符号化がスキップされないときに前記ROIと前記非ROIエリアとの間において符号化ビットを割り当てることを前記プロセッサに行わせる請求項17に記載のコンピュータ読取可能な記録媒体。
  20. 前記命令は、前記フレーム内の前記ROI及び非ROIエリアの前記テクスチャの複雑さに対応するビット割当て方式を実行することを前記プロセッサに行わせる請求項19に記載のコンピュータ読取可能な記録媒体。
  21. 前記命令は、前記ROI及び非ROIエリアの前記テクスチャの複雑さ、及び以前のフレームからのρの平均に対応するビット割当て方式を実行することを前記プロセッサに行わせる請求項19に記載のコンピュータ読取可能な記録媒体。
  22. 前記命令は、前記ROI内における前記活動がしきい値を上回る場合に前記非ROIエリアの符号化をスキップすることを前記プロセッサに行わせる請求項17に記載のコンピュータ読取可能な記録媒体。
  23. 前記命令は、前記ROI内における前記活動が第1のしきい値を上回る場合は前記非ROIエリアの符号化をスキップし、前記ROI内における前記活動が前記第1のしきい値を下回るが前記非ROIエリア内における前記活動が第2のしきい値を下回る場合は前記非ROIエリアの符号化をスキップすることを前記プロセッサに行わせる請求項17に記載のコンピュータ読取可能な記録媒体。
  24. 前記命令は、前記ROI内における前記活動が第1のしきい値を上回る場合は前記非ROIエリアの符号化をスキップし、前記ROI内における前記活動が前記第1のしきい値を下回るが前記非ROIエリア内における前記活動が第2のしきい値を下回りさらにその他の映像フレームの符号化のスキップに起因する累積歪みが第3のしきい値を下回る場合は前記非ROIエリアの符号化をスキップすることを前記プロセッサに行わせる請求項17に記載のコンピュータ読取可能な記録媒体。
JP2007558171A 2005-03-01 2006-03-01 関心領域映像符号化に関するコンテンツ適応型背景スキップ Expired - Fee Related JP5318424B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US65800805P 2005-03-01 2005-03-01
US60/658,008 2005-03-01
US11/200,407 US9667980B2 (en) 2005-03-01 2005-08-09 Content-adaptive background skipping for region-of-interest video coding
US11/200,407 2005-08-09
PCT/US2006/007225 WO2006094035A1 (en) 2005-03-01 2006-03-01 Content-adaptive background skipping for region-of-interest video coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012001361A Division JP5453464B2 (ja) 2005-03-01 2012-01-06 関心領域映像符号化に関するコンテンツ適応型背景スキップ

Publications (2)

Publication Number Publication Date
JP2008532431A JP2008532431A (ja) 2008-08-14
JP5318424B2 true JP5318424B2 (ja) 2013-10-16

Family

ID=36408022

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007558171A Expired - Fee Related JP5318424B2 (ja) 2005-03-01 2006-03-01 関心領域映像符号化に関するコンテンツ適応型背景スキップ
JP2012001361A Expired - Fee Related JP5453464B2 (ja) 2005-03-01 2012-01-06 関心領域映像符号化に関するコンテンツ適応型背景スキップ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012001361A Expired - Fee Related JP5453464B2 (ja) 2005-03-01 2012-01-06 関心領域映像符号化に関するコンテンツ適応型背景スキップ

Country Status (5)

Country Link
US (1) US9667980B2 (ja)
EP (1) EP1864499A1 (ja)
JP (2) JP5318424B2 (ja)
KR (1) KR20070114798A (ja)
WO (1) WO2006094035A1 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8693537B2 (en) * 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US8224102B2 (en) * 2005-04-08 2012-07-17 Agency For Science, Technology And Research Method for encoding a picture, computer program product and encoder
WO2007035676A2 (en) 2005-09-19 2007-03-29 Veridex., Llc Methods and materials for identifying the origin of a carcinoma of unknown primary origin
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8149909B1 (en) 2005-10-13 2012-04-03 Maxim Integrated Products, Inc. Video encoding control using non-exclusive content categories
US8126283B1 (en) 2005-10-13 2012-02-28 Maxim Integrated Products, Inc. Video encoding statistics extraction using non-exclusive content categories
US8081682B1 (en) * 2005-10-13 2011-12-20 Maxim Integrated Products, Inc. Video encoding mode decisions according to content categories
US7692686B1 (en) * 2006-02-21 2010-04-06 Xfrm Incorporated Method and apparatus for coding format autodetection testing
WO2008019525A1 (en) * 2006-07-17 2008-02-21 Thomson Licensing Method and apparatus for adapting a default encoding of a digital video signal during a scene change period
US8515194B2 (en) * 2007-02-21 2013-08-20 Microsoft Corporation Signaling and uses of windowing information for images
US8594180B2 (en) * 2007-02-21 2013-11-26 Qualcomm Incorporated 3D video encoding
US8396118B2 (en) * 2007-03-19 2013-03-12 Sony Corporation System and method to control compressed video picture quality for a given average bit rate
US8446454B2 (en) * 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
EP2091205A1 (en) 2008-02-14 2009-08-19 NTT DoCoMo, Inc. Method and an apparatus for delivering a video stream
TWI470578B (zh) * 2008-06-26 2015-01-21 Mstar Semiconductor Inc 計算用於待插補影像區塊之目標移動向量的影像處理方法及其相關裝置
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
CN101742296B (zh) * 2008-11-14 2016-01-20 北京中星微电子有限公司 降低码流数据量波动的视频编解码方法及装置
CN102483849A (zh) * 2009-08-12 2012-05-30 汤姆森许可贸易公司 基于感兴趣区域来减少图像序列中的伪像的系统和方法
JPWO2011089982A1 (ja) * 2010-01-22 2013-05-23 ソニー株式会社 受信装置、送信装置、通信システム、受信装置の制御方法、及びプログラム
JP5583992B2 (ja) * 2010-03-09 2014-09-03 パナソニック株式会社 信号処理装置
US9185430B2 (en) * 2010-03-15 2015-11-10 Mediatek Singapore Pte. Ltd. Deblocking filtering method and deblocking filter
US8831094B2 (en) 2010-09-01 2014-09-09 Electronics And Telecommunications Research Institute Video processing method and apparatus based on multiple texture images
US9414086B2 (en) 2011-06-04 2016-08-09 Apple Inc. Partial frame utilization in video codecs
US9161012B2 (en) * 2011-11-17 2015-10-13 Microsoft Technology Licensing, Llc Video compression using virtual skeleton
US10205953B2 (en) 2012-01-26 2019-02-12 Apple Inc. Object detection informed encoding
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
GB2501675B (en) * 2012-03-27 2014-11-19 Microsoft Corp Encoding and transmitting video streams
WO2013145531A1 (ja) * 2012-03-29 2013-10-03 日本電気株式会社 解析システム
US9042441B2 (en) 2012-04-25 2015-05-26 At&T Intellectual Property I, Lp Apparatus and method for media streaming
US20130286227A1 (en) * 2012-04-30 2013-10-31 T-Mobile Usa, Inc. Data Transfer Reduction During Video Broadcasts
US10045032B2 (en) * 2013-01-24 2018-08-07 Intel Corporation Efficient region of interest detection
GB201301445D0 (en) * 2013-01-28 2013-03-13 Microsoft Corp Adapting robustness in video coding
TWI504240B (zh) 2013-05-31 2015-10-11 Vatics Inc 視訊處理方法、視訊顯示方法以及視訊處理裝置
US9473778B2 (en) * 2013-09-27 2016-10-18 Apple Inc. Skip thresholding in pipelined video encoders
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
US9479788B2 (en) * 2014-03-17 2016-10-25 Qualcomm Incorporated Systems and methods for low complexity encoding and background detection
FR3022095B1 (fr) * 2014-06-06 2017-09-01 Daniel Elalouf Dispositif et procede de transmission de donnees multimedia
KR102212762B1 (ko) * 2014-09-17 2021-02-05 삼성전자주식회사 코덱과 이를 포함하는 장치들
US9911061B2 (en) 2015-06-07 2018-03-06 Apple Inc. Fast histogram-based object tracking
US9875443B2 (en) * 2015-06-18 2018-01-23 TCL Research America Inc. Unified attractiveness prediction framework based on content impact factor
US10178414B2 (en) 2015-10-14 2019-01-08 International Business Machines Corporation Aggregated region-based reduced bandwidth video streaming
FR3064145A1 (fr) 2017-03-16 2018-09-21 Orange Procede de codage et decodage d'images, dispositif de codage et decodage et programmes d'ordinateur correspondants
US20190082182A1 (en) * 2017-09-08 2019-03-14 Université de Nantes Method and device for encoding dynamic textures
US11259035B2 (en) * 2019-03-15 2022-02-22 Ati Technologies Ulc Macroblock coding type prediction
US11533428B2 (en) 2020-01-23 2022-12-20 Samsung Electronics Co., Ltd. Electronic device and method for controlling electronic device
US20230217027A1 (en) * 2022-01-04 2023-07-06 Mediatek Inc. Video encoding apparatus for performing video compression with aid of content activity analysis and associated video encoding method

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2915248B2 (ja) 1993-05-07 1999-07-05 沖電気工業株式会社 画像通信システム
US5347311A (en) 1993-05-28 1994-09-13 Intel Corporation Method and apparatus for unevenly encoding error images
US6798834B1 (en) * 1996-08-15 2004-09-28 Mitsubishi Denki Kabushiki Kaisha Image coding apparatus with segment classification and segmentation-type motion prediction circuit
US5506844A (en) 1994-05-20 1996-04-09 Compression Labs, Inc. Method for configuring a statistical multiplexer to dynamically allocate communication channel bandwidth
JP3086396B2 (ja) 1995-03-10 2000-09-11 シャープ株式会社 画像符号化装置及び画像復号装置
US5969764A (en) 1997-02-14 1999-10-19 Mitsubishi Electric Information Technology Center America, Inc. Adaptive video coding method
US6496607B1 (en) * 1998-06-26 2002-12-17 Sarnoff Corporation Method and apparatus for region-based allocation of processing resources and control of input image formation
US6263021B1 (en) 1998-09-18 2001-07-17 Sarnoff Corporation Treating non-zero quantized transform coefficients as zeros during video compression processing
JP2002271799A (ja) 2001-03-09 2002-09-20 Seiko Epson Corp 動画像処理装置、動画像処理方法、及び動画像処理プログラム
JP3812808B2 (ja) 2001-03-19 2006-08-23 Kddi株式会社 スキップ領域検出型動画像符号化装置および記録媒体
US6671324B2 (en) 2001-04-16 2003-12-30 Mitsubishi Electric Research Laboratories, Inc. Estimating total average distortion in a video with variable frameskip
KR100643454B1 (ko) 2001-11-17 2006-11-10 엘지전자 주식회사 영상 데이터 전송 제어방법
US20060256867A1 (en) 2002-09-06 2006-11-16 Turaga Deepak S Content-adaptive multiple description motion compensation for improved efficiency and error resilience
US20040161034A1 (en) 2003-02-14 2004-08-19 Andrei Morozov Method and apparatus for perceptual model based video compression
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony

Also Published As

Publication number Publication date
JP2012114932A (ja) 2012-06-14
US9667980B2 (en) 2017-05-30
EP1864499A1 (en) 2007-12-12
JP5453464B2 (ja) 2014-03-26
KR20070114798A (ko) 2007-12-04
US20060204113A1 (en) 2006-09-14
JP2008532431A (ja) 2008-08-14
WO2006094035A1 (en) 2006-09-08

Similar Documents

Publication Publication Date Title
JP5318424B2 (ja) 関心領域映像符号化に関するコンテンツ適応型背景スキップ
JP5301720B2 (ja) ロー領域ビット割り振りを使用するテレビ電話における関心領域の符号化
JP5301645B2 (ja) テレビ電話のための背景のスキッピングを用いた関心領域の符号化
JP5410553B2 (ja) テレビ電話のための品質メトリックバイアス関心領域コーディング
CN101164343B (zh) 用于视频电话的具有背景跳过的关注区编码
JP2008532427A5 (ja)
JP2008532428A5 (ja)
JP4508029B2 (ja) 動画像情報の符号化装置
Wang et al. Joint adaptive background skipping and weighted bit allocation for wireless video telephony

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110428

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110601

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110630

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120106

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120221

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120518

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121114

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130121

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130710

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees