JP5301645B2 - テレビ電話のための背景のスキッピングを用いた関心領域の符号化 - Google Patents

テレビ電話のための背景のスキッピングを用いた関心領域の符号化 Download PDF

Info

Publication number
JP5301645B2
JP5301645B2 JP2011286337A JP2011286337A JP5301645B2 JP 5301645 B2 JP5301645 B2 JP 5301645B2 JP 2011286337 A JP2011286337 A JP 2011286337A JP 2011286337 A JP2011286337 A JP 2011286337A JP 5301645 B2 JP5301645 B2 JP 5301645B2
Authority
JP
Japan
Prior art keywords
region
interest
roi
video
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011286337A
Other languages
English (en)
Other versions
JP2012110002A (ja
Inventor
ハオホン・ワン
クハレド・ヘルミ・エル−マレー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2012110002A publication Critical patent/JP2012110002A/ja
Application granted granted Critical
Publication of JP5301645B2 publication Critical patent/JP5301645B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/198Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including smoothing of a sequence of encoding parameters, e.g. by averaging, by choice of the maximum, minimum or median value
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

優先権の主張
本出願は、2005年3月1日に出願された米国仮出願第60/658,008号の恩恵に対して権利を主張している。
本開示は、ディジタルビデオの符号化、より具体的には、テレビ電話(video telephony, VT)の応用のための関心領域(region-of-interest, ROI)情報を符号化する技術に関する。
多数の異なるビデオ符号化標準が、ディジタルビデオ系列を符号化するために制定された。例えば、MPEG(Moving Picture Experts Group)は、MPEG−1、MPEG−2、およびMPEG−4を含む多数の標準を開発した。他の例は、国際電気通信連合(International Telecommunication Union, ITU)のH.263標準および新しいITU H.264標準を含む。これらのビデオ符号化標準は、概して、データを圧縮して符号化することによって、ビデオ系列の向上した伝送効率を支援する。
テレビ電話(VT)は、ユーザがビデオおよびオーディオ情報を共有し、テレビ会議のような応用を支援することを可能にしている。例示的なテレビ電話の標準は、セッション開始プロトコル(Session Initiation Protocol, SIP)、ITU H.323標準、およびITU H.324標準によって定められた標準を含む。VTシステムにおいて、ユーザは、ビデオ情報を送信および受信するか、ビデオ情報を受信のみするか、またはビデオ情報を送信のみし得る。受信者は、通常、受信したビデオ情報を、それが送信者から送信された形式で見る。
ビデオ情報の選択された部分の優先的な符号化(preferential encoding)が提案された。例えば、送信者は、より高い品質で符号化される関心領域(region-of-interest, ROI)を指定して、受信者へ送信することができる。送信者は、ROIを遠隔の受信者に強調することを望み得る。ROIの典型的な例は人間の顔であるが、送信者は、ビデオシーン内の他のオブジェクトに焦点を合わせることを望み得る。ROIの優先的な符号化により、受信者は、ROIを非ROI領域よりもはっきりと見ることができる。
本開示は、テレビ電話(VT)のための関心領域(ROI)符号化技術に関する。開示された技術は、ビデオフレームの非ROI区域を適応的にスキップして(adaptive skipping)、ROIへ割り振る符号化ビットを残す技術を含む。開示された技術は、ρ領域内においてマクロブロック(macroblock, MB)レベルの重み付けビット割り振りモデル(weighted bit allocation model)を使用して、ROIへビットを割り振る技術も含む。さらに加えて、開示された技術は、ROIのビデオの品質メトリックを生成する技術を含む。これは、符号化されたビデオ系列の品質を評価するときのROIの知覚品質、ROIのビデオ忠実度、およびROIへのユーザの関心度を一緒に考慮する。
非ROIスキッピング技術は、非ROI領域の画像品質をあまり劣化することなく、ROIの画像品質を向上する役割を果たす。具体的には、非ROIスキッピング技術は、非ROIのビットを残して(conserve)、ROIへ割り振る追加のビットを与えることができる。品質メトリックは、ビット割り振り技術にバイアスをかけ、符号化されたビデオシーンにおける主観的な画像品質を向上するのに適用され得る。ρ領域におけるビットの割り振りは、向上した視覚品質のために、ROIの量子化のより正確で一貫した制御を与えることができる。非ROIのスキッピング、ρ領域のビット割り振り、および品質メトリックを一緒にまたは別々に使用して、ROIおよび非ROIの符号化の効率的な制御を達成することができる。
1つの実施形態において、開示は、前のフレームのビデオ忠実度、前のフレームの知覚品質、および関心領域におけるユーザ選好(user preference)に基づいて、関心領域を含む符号化されるビデオフレームの品質メトリックを生成することを含む方法を提供する。
別の実施形態において、開示は、関心領域を含むビデオフレームを符号化するビデオ符号化器と、前のフレームのビデオ忠実度、前のフレームの知覚品質、および関心領域におけるユーザ選好に基づいて、ビデオフレームの品質メトリックを生成する品質メトリック計算器とを含むデバイスを提供する。
他の実施形態において、開示は、ビデオフレーム内の関心領域の定義を得ることと、そのフレームに使用可能な符号化ビット数を定義するフレーム割り当て量(frame budget)を得ることと、フレーム割り当て量と、関心領域内のマクロブロックと関心領域外のビデオフレームの区域内のマクロブロックとの間における重み付けとに基づいて、フレーム内のマクロブロックにロー(rho)領域の値を割り振ることとを含む方法を提供する。
追加の実施形態において、開示は、ビデオフレーム内の関心領域の定義を生成する関心領域マッパと、そのフレームに使用可能な符号化ビット数を定義するフレーム割り当て量を生成するフレームレベル レート制御装置と、フレーム割り当て量と、関心領域内のマクロブロックと関心領域外のビデオフレームの区域内のマクロブロックとの間における重み付けとに基づいて、フレーム内のマクロブロックにロー領域の値を割り振るビット割り振りモジュールとを含むデバイスを提供する。
別の実施形態において、開示は、連続フレームをフレームユニットへグループ化することと、フレームユニット中のそれぞれのフレーム内の関心領域を符号化することと、フレームユニット中のフレームの少なくとも1つにおけるそれぞれの関心領域外の区域の符号化をスキップすることとを含む方法を提供する。
他の実施形態において、開示は、ビデオフレーム内の関心領域の定義を生成する関心領域マッパと、ビデオフレームを符号化するビデオ符号器と、連続フレームをフレームユニットへグループ化し、フレームユニット中のそれぞれのフレーム内の関心領域を符号化するようにビデオ符号器に指示し、フレームユニット中のフレームの少なくとも1つにおけるそれぞれの関心領域外の区域の符号化をスキップするようにビデオ符号器に指示するスキッピングモジュールとを含むデバイスを提供する。
本明細書に記載されている技術は、ハードウェア、ソフトウェア、ファームウェア、またはその任意の組合せで実施され得る。この技術は、ソフトウェアにおいて実施されるときは、実行時に、本明細書に記載されている方法の1つ以上を行う命令を含むプログラムコードを含むコンピュータ読み出し可能媒体によって部分的に実現され得る。
1つ以上の実施形態の詳細は、添付の図面および以下の記述に示されている。他の特徴、目的、および長所は、その記述、図面、および特許請求項から明らかになるであろう。
ROIを可能にする(ROI-enabled)ビデオ符号器−復号器(encoder-decoder, CODEC)を組込んだビデオ符号化および復号システムを示すブロック図。 無線通信デバイスと関係付けられたディスプレイ上で提示されるビデオシーン内のROIの定義を示す図。 図2に示されているビデオシーンのROI区域を示す図。 図2に示されているビデオシーンの非ROI区域を示す図。 非ROIスキッピングモジュール、ROIのρ領域ビット割り振りモジュール、およびROI重み計算器をもつROIを可能にする符号器を組み込んだビデオ通信デバイスを示すブロック図。 ROI品質メトリック計算器を示すブロック図。 ROI品質メトリックの計算のためのROIユーザ選好入力デバイスを組み込んだ無線通信デバイスをさらに示す図。 ROI品質メトリック計算器を使用し、ビデオ系列を解析し、ビデオ符号器によって適用される符号化パラメータを最適化することを示すブロック図。 ROI品質メトリック計算器を使用し、符号化されたビデオを解析し、ビデオ符号器によって適用される符号化パラメータを調整することを示すブロック図。 符号化されたビデオのROI品質メトリックの計算を示すフローチャート。 ビデオ系列のROI品質メトリックの計算を示すフローチャート。 ROIのρ領域のビット割り振りを示すフローチャート。 重み付けビット割り振りモデルおよび最適解を使用して、符号化技術の全体的な知覚品質を比較するグラフ。 非ROIスキッピング技術を示すフローチャート。 連続フレームをフレームユニットへグループ化して、非ROIのスキッピングを支援することを示す図。 共通の非ROI区域をもつ連続ROI区域を符号化して、非ROIのスキッピングを支援することを示す図。 ユーザ選好因子α=0.9の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。 ユーザ選好因子α=0.9の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の全体的なビデオ忠実度を比較するグラフ。 ユーザ選好因子α=0.9の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術のROIのビデオ忠実度を比較するグラフ。 ユーザ選好因子α=0.9の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の非ROIのビデオ忠実度を比較するグラフ。 ユーザ選好因子α=0.7の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。 ユーザ選好因子α=0.7の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の全体的なビデオ忠実度を比較するグラフ。 ユーザ選好因子α=0.5の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。 ユーザ選好因子α=0.5の標準のビット割り振り、重み付けビット割り振り、および背景のスキッピングを使用して、ROI符号化技術の全体的なビデオ忠実度を比較するグラフ。 種々のユーザ選好因子の値の標準のフレームスキッピングおよび非ROIスキッピングを使用して、ROI符号化技術の知覚品質を比較するグラフ。 非ROIスキッピングがオンおよびオフであるときのROI符号化技術の知覚品質を比較するグラフ。 例示的なビデオ系列における非ROIスキッピングによって生じる歪みを示すグラフ。 非ROIのスキッピング、非ROIのスキッピングのオフ、および適応非ROIスキッピングを使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。 一定の範囲の符号化レートで、例示的なビデオ系列に種々のビット割り振り技術を使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。 40キロビット/秒(kilobits per second, kps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。 40キロビット/秒(kps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術の全体的なビデオ忠実度を比較するグラフ。 40キロビット/秒(kps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術のROIのビデオ忠実度を比較するグラフ。 40キロビット/秒(kps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術の非ROIのビデオ忠実度を比較するグラフ。 一定の範囲の符号化レートで、別の例示的なビデオ系列に対して種々のビット割り振り技術を使用して、ROI符号化技術の全体的な知覚品質を比較するグラフ。
図1は、ROIを可能にする(ROI-enabled)ビデオ符号器−復号器(encoder-decoder, CODEC)を組込んだビデオ符号化および復号システム10を示すブロック図である。図1に示されているように、システム10は、第1のビデオ通信デバイス12と、第2のビデオ通信デバイス14とを含んでいる。通信デバイス12、14は、送信チャネル16によって接続されている。送信チャネル16は、有線または無線通信媒体であり得る。システム10は、テレビ電話のためにビデオ通信デバイス12、14間の双方向のビデオ送信を支援している。デバイス12、14は、実質的に対称に動作し得る。しかしながら、幾つかの実施形態では、一方または両方のビデオ通信デバイス12、14は、一方向のみの通信のために構成され、ROIを可能にするビデオストリーミングを支援することができる。
本明細書に記載されているように、ビデオ通信デバイス12、14の一方または両方は、テレビ電話(VT)のためのROI符号化技術を適用するように構成され得る。ROI符号化技術は、非ROI領域を適応的にスキップして(adaptive skipping)、ROIへ割り振る符号化ビットを残すことと、ρ領域内におけるビデオブロックのレベル、例えば、マクロブロック(macroblock, MB)のレベルで重み付けビット割り振りモデル(weighted bit allocation model)を使用して、ROIへビットを割り振ることと、符号化されたビデオ系列の品質を評価するときにROIの知覚品質、ROIのビデオ忠実度、およびROIへのユーザの関心度を一緒に考慮して、ROIのビデオのためのROIビデオ品質メトリックを生成することとを含む。ρ(rho)パラメータは、ビデオブロック、例えば、MBにおける非ゼロのAC係数の個数を表わす。ρ領域におけるレート制御は、QP領域におけるレート制御よりも正確である傾向がある。非ROIスキッピング、ρ領域のビット割り振り、および品質メトリックを一緒にまたは別々に使用して、ROIおよび非ROIの符号化の効果的な制御を達成することができる。
マクロブロックは、フレームの一部を形成しているビデオブロックである。MBのサイズは、16×16画素であり得る。しかしながら、他のMBサイズが可能である。マクロブロックは、本明細書において説明のために記載されており、マクロブロックまたは他のビデオブロックが種々の異なるサイズを持ち得ると理解される。
双方向の応用では、相互の符号化、復号、多重化(multiplexing, MUX)、およびデマルチプレクシング(demultiplexing, DEMUX)の構成要素が、チャネル16の両端部に与えられ得る。図1の例において、ビデオ通信デバイス12は、MUX/DEMUX構成要素18、ROIを可能にするビデオCODEC20、およびオーディオCODEC22を含んでいる。同様に、ビデオ通信デバイス14は、MUX/DEMUX構成要素26、ROIを可能にするビデオCODEC28、およびオーディオCODEC30を含んでいる。
システム10は、セッション開始プロトコル(Session Initiated Protocol, SIP)、ITU H.323標準、ITU H.324標準、または他の標準にしたがって、テレビ電話を支援し得る。各ビデオCODEC20、28は、MPEG−2、MPEG−4、ITU H.263、またはITU H.264のようなビデオ圧縮標準にしたがって、符号化されたビデオデータを生成する。図1にさらに示されているように、ビデオCODEC20、28は、それぞれのオーディオCODEC22、30と統合され、適切なMUX/DEMUX構成要素18、26を含み、データストリームのオーディオ部分およびビデオ部分を処理し得る。オーディオ部分は、音声または他のオーディオコンテンツを保持し得る。MUX/DEMUXユニット18、26は、ITU H.223のマルチプレクサプロトコル、または他のプロトコル、例えば、ユーザ データグラム プロトコル(user datagram protocol, UDP)に準拠し得る。
各ROIを可能にするビデオCODEC20、28は、それぞれのビデオ通信デバイス12、14のローカルユーザによってローカルに供給されるROI情報、または他方のビデオ通信デバイス12、14の遠隔ユーザから遠隔から(remotely)供給されるROI情報を処理することができ得る。例えば、ビデオ通信デバイス12のローカルユーザは、ビデオ通信デバイス12によってローカルに生成された“近端(near-end)”のビデオ内のROIを指定し、デバイス14の遠隔ユーザへの送信ビデオ領域を強調し得る。逆に、ビデオ通信デバイス12のローカルユーザは、ビデオ通信デバイス14によって遠隔で(remotely)生成された“遠端(far-end)”のビデオ内のROIを指定し、そのROIを遠隔のビデオ通信デバイスに送り得る。この場合に、ビデオ通信デバイス12のユーザは、ビデオ通信デバイス14によるROIの優先的な符号化(preferential coding)を遠隔制御して、例えば、ビデオ通信デバイス14から受信したビデオ内のROIをより明らかに見る。
ビデオ通信デバイス12、14は、ビデオストリーミング、テレビ電話、またはこの両者のために装備された無線移動端末または有線端末として実施され得る。そのために、ビデオ通信デバイス12、14は、適切な無線送信機、受信機、モデム、および処理電子機器(processing electronics)をさらに含み、無線通信を支援し得る。無線移動端末の例は、移動無線電話、移動パーソナル ディジタル アシスタント(personal digital assistant, PDA)、移動コンピュータ、あるいは無線通信能力およびビデオ符号化および/または復号能力を備えた他の移動デバイスを含む。有線端末の例は、デスクトップコンピュータ、テレビ電話、ネットワーク アプライアンス、セットトップ ボックス、インタラクティブ テレビジョン、等を含む。ビデオ通信デバイス12、14は、ビデオ情報を送信する、ビデオ情報を受信する、またはビデオ情報を送受信するように構成され得る。
テレビ電話の応用において、デバイス12は、一般に、ビデオ送信能力およびビデオ受信能力の両者を支援することが望ましい。しかしながら、ストリーミングビデオの応用も意図される。テレビ電話、とくに、無線通信による移動テレビ電話では、非常に低いビットレートが要求されることが多いので、帯域幅は重要な問題である。とくに、通信チャネル16は限られた帯域幅をもち、チャネル16上での高品質のビデオ系列の効率的な実時間送信を非常に難しくし得る。例えば、通信チャネル16は、チャネル16の物理的な制約のために限られた帯域幅をもつか、または、恐らくは、通信チャネル16のプロバイダによって課されたサービス品質(quality-of-service, QoS)の制限または帯域幅の割り振りの制約をもつ無線通信リンクであり得る。
したがって、ROIへの追加の符号化ビットの選択的な割り振り、より強力なエラー保護、または他の優先的な符号化のステップが、ビデオの一部の画像品質を向上し、一方で、全体的な符号化効率を維持することができる。優先的な符号化において、追加のビットがROIに割り振られ、一方で、低減した数のビットが非ROI領域、例えば、ビデオシーン内の背景に割り振られ得る。非ROI区域は、“背景”区域と呼ばれるが、非ROI区域は、より広く、ROI部分を形成していないビデオシーンのあらゆる区域を含む。したがって、非ROIという用語と、背景という用語は、本開示の全体にわたって交換可能に使用され、指定されたROIの外側の区域を指し得る。
概して、システム10は、テレビ電話(VT)の応用に関心領域(ROI)の処理技術を採用している。しかしながら、既に記載したように、このような技術は、ビデオストリーミングの応用にも適用可能であり得る。説明のために、各ビデオ通信デバイス12、14は、ビデオ情報の送信者および受信者の両者として動作することができ、それによって、VTセッションにおける完全な参加者として動作することができると仮定する。ビデオ通信デバイス12からビデオ通信デバイス14へ送信されるビデオ情報において、ビデオ通信デバイス12は、送信者デバイスであり、ビデオ通信デバイス14は、受信者デバイスである。逆に、ビデオ通信デバイス14からビデオ通信デバイス12へ送信されるビデオ情報において、ビデオ通信デバイス12は、受信者デバイスであり、ビデオ通信デバイス14は、送信者デバイスである。本明細書に記載されている技術は、そのようなビデオを送信のみ、または受信のみするデバイスに応用可能であり得る。ローカルのビデオ通信デバイス12、14によって符号化され、送信されたビデオ情報について記載するとき、そのビデオ情報は、既に記載したように、“近端”のビデオと呼ばれ得る。遠隔のビデオ通信デバイス12、14によって符号化され、そこから受信されたビデオ情報について記載するとき、そのビデオ情報は、“遠端”のビデオと呼ばれ得る。
開示されている技術にしたがうと、ビデオ通信デバイス12または14は、受信者デバイスとして動作するとき、送信者デバイスから受信した遠端のビデオ情報のROI情報を定義する。繰り返すが、送信者デバイスから受信したビデオ情報は、それが、通信チャネルの遠端に位置する他方(送信者)のデバイスから受信したという意味で、“遠端”のビデオ情報と呼ばれる。同様に、送信者デバイスから受信したビデオ情報に対して定義されたROI情報は、“遠端”のROI情報と呼ばれる。遠端のROIとは、通常、遠端のビデオの受信者が最も関心をもっている遠端のビデオ内の領域を指す。受信者デバイスは、遠端のビデオ情報を復号し、復号された遠端のビデオを、ディスプレイデバイスを介してユーザに提示する。ユーザは、遠端のビデオによって提示されたビデオシーン内でROIを選択する。その代わりに、ROIは、自動的に定義されることができる。
受信者デバイスが、受信者デバイスにおいてユーザが選択したROIに基づいて、遠端のROI情報を生成し、遠端のROI情報を送信者デバイスへ送ると、送信者デバイスは、その情報を使用することができる。遠端のROI情報は、ROIマクロブロック(MB)マップの形をとり、ROIを、ROI内に存在するMBで定義し得る。ROI MBマップは、ROI内のMBに1のフラグを立て、ROI外のMBに0のフラグを立て、ROI内に含まれるMB(1)と、ROIから除外されるMB(0)とを容易に識別し得る。
送信者デバイスは、受信者デバイスによって送信された遠端のROI情報を使用して、ビデオシーン内の対応するROIに対して、優先的な符号化を適用する。具体的には、追加の符号化ビットをROIに割り振り、一方で、低減した量の符号化ビットを非ROI領域に割り振り、それによって、ROIの画像品質を向上し得る。このように、受信者デバイスは、送信者デバイスによる遠端のビデオ情報のROIの符号化を遠隔制御することができる。
優先的な符号化は、例えば、ROI区域の優先的なビット割り振りまたは優先的な量子化によって、ビデオシーンの非ROI区域よりも、ROI区域に、より高品質の符号化を適用する。優先的に符号化されたROIは、受信者デバイスのユーザが、オブジェクトまたは領域をよりはっきりと見ることを可能にする。例えば、受信者デバイスのユーザは、顔、または何か他のオブジェクトを、ビデオシーンの背景領域よりもはっきりと見ることを希望することができる。
ビデオ通信デバイス12または14は、送信者デバイスとして動作するとき、送信者デバイスによって送信されるビデオ情報のROI情報も定義し得る。繰り返すが、送信者デバイスにおいて生成されたビデオ情報は、それが、通信チャネルの近端において生成されたという意味で、“近端”のビデオ情報と呼ばれる。送信者デバイスによって生成されたROI情報は、“近端”のROI情報と呼ばれる。
近端のROIは、一般に、送信者が受信者に強調したい近端のビデオ領域を指す。したがって、ROIは、受信者デバイスのユーザによって遠端のROI情報として、または送信者デバイスのユーザによって近端のROI情報として指定され得る。送信者デバイスは、近端のビデオを、ディスプレイデバイスを介してユーザに提示する。送信者デバイスに関連するユーザは、近端のビデオによって提示されたビデオシーン内でROIを選択する。送信者デバイスは、ユーザが選択したROIを使用して、近端のビデオを符号化し、近端のビデオ内のROIが、非ROI区域に対して、例えば、より高品質の符号化で、優先的に符号化されるようにする。
送信者デバイスのローカルユーザによって選択または定義された近端のROIは、送信者デバイスのユーザが、ビデオシーン内の領域またはオブジェクトを強調し、それによって、その領域またはオブジェクトに受信者デバイスのユーザの注意を向けさせることを可能にする。送信者デバイスのユーザによって選択された近端のROIは、受信者デバイスへ送信されなくてもよいことに注意すべきである。その代わりに、送信者デバイスは、選択された近端のROI情報が受信者デバイスに送信される前に、それを使用して、近端のビデオをローカルに符号化する。しかしながら、幾つかの実施形態では、送信者デバイスは、ROI情報を受信者デバイスに送って、優先的な復号技術、例えば、より高品質の誤り訂正または事後処理の応用を可能にし得る。
ROI情報が、送信者デバイスおよび受信者デバイスの両者によって与えられるとき、送信者デバイスは、受信者デバイスから受信した遠端のROI情報か、またはローカルに生成された近端のROI情報を適用して、近端のビデオを符号化する。送信者デバイスによって与えられた近端のROIか、受信者デバイスによって与えられた遠端のROIかの選択において、ROIの競合(conflict)が生じ得る。そのような競合は、ローカルユーザによるアクティブな解決か、または指定のアクセス権およびレベルにしたがう解決のような解決を必要とし得る。何れの場合も、送信者デバイスは、送信者デバイスによってローカルに与えられた近端のROI情報か、または受信者デバイスによって遠隔から与えられたものに基づいて、ROIを優先的に符号化する。
ROIがローカルユーザまたは遠隔ユーザの何れかによって指定されると仮定し、本開示は、全体的に、ROI符号化技術に焦点を当てる。具体的には、本開示は、ビデオシーン内のROIおよび非ROI区域間のビット割り振りに関して、ROIを優先的に符号化するやり方を扱う。ROIのビデオ品質メトリックは、ROI区域および非ROI区域間における重み付けビット割り振りにバイアスをかけるために適用され得る。ビデオ品質メトリックは、符号化されたビデオ系列の品質を評価するときのROIの知覚品質、ROIのビデオ忠実度、およびROIへのユーザの選好(preference)、すなわち、関心の度合いを考慮に入れる。重み付けビット割り振りは、ρ領域内で適用される。さらに加えて、非ROIまたは“背景”スキッピングアルゴリズムを適用し、ROIへ割り振る符号化ビットを残すことができる。
図2は、無線通信デバイス36と関係付けられたディスプレイ34上で提示されるビデオシーン32内のROIの定義を示す図である。図2の例では、ROIは、長方形のROI38または非長方形のROI40の何れかとして示されている。非長方形のROI40は、丸い形、または不定形であり得る。各場合において、ROI38またはROI40は、ビデオシーン32内に提示されている人の顔42を含んでいる。図3Aおよび3Bは、図2に示されているビデオシーン32のROI区域38および非ROI区域43を示す図である。非ROI区域43、すなわち、背景は、図3Bではシェーディング(shading)によって強調されている。
ROI38または40は、ユーザによって手入力で、デバイス36によって自動的に、またはユーザによる手入力のROIの書き込みとデバイス36による自動的なROIの定義との組み合わせを使用して定義され得る。長方形のROI38は、ユーザによって選択され得る。非長方形のROI40は、ユーザによって、例えば、スタイラスおよびタッチスクリーンを使用して描かれるか、またはデバイス36によって、種々のオブジェクト検出またはセグメント化技術の何れかを使用して自動的に選択され得る。VTの応用において、ROI38または40は、テレビ会議の参加者の顔42を含むビデオシーン32の一部を含み得る。ROI38または40のサイズ、形状、および位置は、一定であることも、または調整可能であることもでき、種々のやり方で定義され、記載され、調整され得る。
ROI38または40は、ビデオの送信者が、送信されるビデオシーン32内の個々のオブジェクト、例えば、人の顔42を強調することを可能にする。逆に、ROI38または40は、ビデオの受信者が、受信したビデオシーン32内の希望のオブジェクトをよりはっきりと見ることを可能にする。何れの場合においても、ROI38または40内の顔42は、非ROI区域、例えば、ビデオシーン32の背景領域に比べて、より高い画像品質で符号化される。このようにして、ユーザは、顔の表情、唇の動き、目の動き、等をよりはっきりと見ることができる。
しかしながら、ROI38または40は、顔以外のオブジェクトを指定するのに使用され得る。一般に、VTの応用におけるROIは、非常に主観的であり、ユーザごとに異なり得る。希望のROIは、VTの使われ方によって決まる。ある場合には、VTは、テレビ会議とは異なり、オブジェクトを見て、評価するために使用され得る。例えば、とくに、発表者の顔がカメラに背を向け、ホワイトボードに向いているとき、ユーザは、発表者の顔ではなく、式または図を含んでいるホワイトボードの一部に焦点を合わせることを望み得る。幾つかの場合において、ビデオシーンは、優先的な符号化として指定される2つ以上のROIを含み得る。
図4は、ビデオ通信デバイス12において使用されるROIを可能にするビデオ符号化システム44を示すブロック図である。図4に示されているように、システム44は、ROI重み計算器46、ROIのρ領域ビット割り振りモジュール48、非ROI(すなわち、背景)スキッピングモジュール50、ROIマクロブロック(MB)マッパ52、フレームレベル レート制御装置54、ρ対量子化パラメータ(ρ-to-quantization parameter, QP)マッパ56、ビデオ符号器58、および歪み解析器60を含む。図4において、MUX/DEMUXおよびオーディオの構成要素は、説明を容易にするために省かれている。
図4に示されている種々の構成要素は、ディスクリートな機能モジュールとして、または各モジュールに割り当てられた機能を含むモノリシックモジュールとして、種々のやり方で形成され得る。何れにしても、ビデオ符号化システム44の種々の構成要素は、ハードウェア、ソフトウェア、ファームウェア、またはその組合せで実現され得る。例えば、そのような構成要素は、1つ以上のマイクロプロセッサまたはディジタル信号プロセッサ(digital signal processor, DSP)、1つ以上の特定用途向け集積回路(application specific integrated circuits, ASIC)、1つ以上のフィールドプログラマブル ゲート アレイ(field programmable gate array, FPGA)、または他の同等の集積論理回路またはディスクリートな論理回路上で実行するソフトウェアプロセスとして動作し得る。
図4の例では、ROI重み計算器46は、ビデオ通信デバイス12のローカルユーザまたはビデオ通信デバイス14の遠隔ユーザによって入力されたユーザ選好因子(user preference factor)αを受信する。ユーザ選好αは、ROIの知覚重要度の因子であり、ROIの視覚品質の重要度を実際のユーザの観点から表現している。ユーザ選好αは、ユーザがROI内の視覚品質を評価する度合いを量子化している。ユーザが、ROIの視覚品質を強く評価するときは、αはより大きくなる。ROIの視覚品質が、比較的に重要でないときは、αはより小さくなる。選好αに基づいて、ROI重み計算器46は、1組の重みwを生成する。重みwは、ROIのρ領域ビット割り振りモジュール48に適用され、ビデオ符号器58によって符号化されるビデオフレームの非ROI区域とROI区域との間における重み付けビット割り振りにバイアスをかける。重みwは、ビデオフレーム内の個々のビデオブロック、例えば、マクロブロック(MB)ごとに指定され得る。ROI重み計算器46は、ROI MBマッパ52からROI MBマップを受信し、それぞれの重みwを、ROI MBマッパ52によって識別されたROIおよび非ROIのMBに割り当てる。より大きい重みwをもつマクロブロックは、より多数の符号化ビットを受信することになる。
ρ領域ビット割り振りモジュール48は、ROI重み計算器46から重み入力w、非ROI背景スキッピングモジュール50からスキッピングの指示(スキップのオン/オフ)、ROI MBマッパ52からROI MBマップ、フレームレベル レート制御装置54からレート割り当て量(rate budget)RBUDGET、およびビデオ符号器58から符号化されたMBの標準偏差σを受信する。標準偏差σは、動きの推定後に得られる実残差(actual residue)の標準偏差であるか、または前のフレームからの記憶された残差統計量(residual statistics)であり得る。ROI MBマッパ52によって与えられるROI MBマップは、所与のビデオフレーム内の、指定されたROI内に含まれているMBを識別する。ρ領域ビット割り振りモジュール48は、ROI MBマップを使用して、ROIのMBと非ROIのMBとを区別し、ROIのMBへ優先的にビットを割り振るために、ROI重み計算器46によって与えられた重みwを使用する。ビット割り振りモジュール48は、各MBに対するρパラメータを生成する。ρパラメータは、MBにおける非ゼロのAC係数の数を表わす。ρ領域のレート制御は、QP領域のレート制御よりも正確である傾向がある。
この開示の目的のために、ROI MBマップを生成するための適切なプロセスが使用可能であると仮定される。例えば、ROIマッピングプロセスは、ROIを定義するユーザからの手入力か、またはROIの自動定義または検出に基づき得る。ROIの自動定義または検出は、例えば、顔の検出、顔のセグメント化、およびターゲット追跡のような従来の技術を許容精度で使用する。この開示では、説明のために、頭、または頭および肩のビデオ系列を検討するが、本明細書に記載されている技術は、種々のオブジェクトを含んだ他のタイプのビデオ系列を、付加的にまたは代わりに人物に適用することができ得る。
フレームレベル レート制御装置54は、ビデオ系列内の個々のフレームへのビットの割り振りを生成する。具体的には、フレームレベル レート制御装置54は、現在のフレーム内のMBの全て、すなわち、ROIのMBおよび非ROIのMBの両者を符号化するのに使用可能なビット数を示す値RBUDGETを生成する。図4にさらに示されているように、ρ領域ビット割り振りモジュール48は、非ROI背景スキッピングモジュール50からスキップの指示(スキップのオン/オフ)を受信する。これは、現在のフレームにおける背景が符号化されるか、またはスキップされるかを示す。背景がスキップされると、ρ領域ビット割り振りモジュール48は、そうでなければ非ROIに割り振られていたであろうビットを、実際において、取り返し(recapture)、ROIを符号化するのに使用可能なビットのプールにそれらを再割り当てすることができる。したがって、スキッピングが特定のフレームにおいてオンであるとき、ρ領域ビット割り振りモジュール48は、ROIに割り振るためのより多くのビットをRBUDGET内にもつ。背景が特定のフレームにおいてスキップされるとき、前に符号化されたフレームからの背景が、その場所において代わりに使われ得る。その代わりに、スキップされた背景は、補間によって生成されることができる。
ρ領域ビット割り振りモジュール48は、重みw、ROI MBマップ、RBUDGET、スキップのオン/オフの指示、および標準偏差σを使用して、各MBに対するρの割り当て量(budget)を示すρ領域の出力を生成する。ρ領域の出力は、ρ対QPマッパ56に適用され、これは、各MBごとに、ρ値を対応するQP値にマップする。ビデオ符号器58は、フレーム内のMBのQP値を使用して、入力ビデオを符号化して、符号化されたビデオを生成する。さらに加えて、スキッピングモジュール50は、スキップの指示(スキップのオン/オフ)をビデオ符号器58に与え、連続フレームをフレームユニットへグループ化し、フレームのROI区域を符号化し、フレームユニット内のフレームの1つにおける非ROI区域の符号化をスキップするように、ビデオ符号器に指示する。前のフレームユニットに関連する歪み値が閾値未満であるときは、スキッピングモジュール50が、フレームユニット内のフレームの1つにおける非ROI区域の符号化をスキップするように、ビデオ符号器58に指示し得るという意味で、スキッピングは適応性(adaptive)であり得る。このように、スキッピングモジュール50は、視覚品質を維持するために、歪みのレベルに基づく適応スキッピング(adaptive skipping)を適用し得る。
入力ビデオは、ビデオ通信デバイス12と統合された、または動作可能に連結されたビデオ取り込みデバイス(video capture device)、例えば、ビデオカメラから得られ得る。幾つかの実施形態では、例えば、ビデオ取り込みデバイスは、移動電話に統合され、いわゆるカメラ付き電話またはテレビ電話を形成し得る。このように、ビデオ取り込みデバイス40は、移動VTの応用を支援し得る。ビデオは、ビデオ通信デバイス12上でローカルに、送信されるときはビデオ通信デバイス14上で、ディスプレイデバイスを介して提示される。このディスプレイデバイスは、例えば、液晶ディスプレイ(liquid crystal display, LCD)、プラズマスクリーン、等であり、ビデオ通信デバイス12または14と、統合されるか、または動作可能に連結され得るものである。
歪み解析器60は、符号化されたビデオを、元の入力ビデオに対して解析する。例えば、歪み解析器60は、元の入力ビデオフレームFを、再構成されたビデオフレームF'と比較する。歪み解析器60は、非ROI背景スキッピングモジュール50へ適用される歪み値DNONROI SKIPを生成する。歪み値DNONROI SKIPは、次のビデオフレームの非ROI区域がスキップされるべきかどうか示す。したがって、現在のフレームにおける適応非ROIスキッピングのために、非ROIスキッピングモジュール50は、通常、前のフレームか、または2つ以上のフレームを含むフレームユニットに関係する歪み情報に依存し得る。
歪み値DNONROI SKIPが希望の閾値を越えると、非ROI背景スキッピングモジュール50は、次のフレーム内の非ROIがスキップされるべきではないことを示す。この場合に、ROIおよび非ROI区域は、両者とも符号化される。しかしながら、歪み値が希望の閾値未満であるときは、過剰なレベルの歪みがなければ、非ROI区域をスキップすることができる。この場合は、前のフレームのために符号化された非ROI区域が、現在のフレームにおいて使用される。後述するように、非ROIスキッピングモジュール50は、連続フレームをフレームユニットにグループ化し、前のフレームユニット、すなわち、現在符号化されているフレームよりも前のフレームを含んでいるフレームユニットに対する歪み値DNONROI SKIPに応じて、フレームの1つにおける非ROIの符号化をスキップするように、ビデオ符号器58に指示し得る。
図5は、この開示の別の実施形態にしたがって、ROI品質メトリック計算器61を示すブロック図である。図4のROI重み計算器46は、ROI品質メトリック計算器61の一部を形成し得る。したがって、ROI品質メトリック計算器46の1つの生成物は、ユーザ選好因子αと、ビデオ忠実度、空間品質、および/または時間品質の値とに基づき得る1組の重みwであり得る。図5に示されているように、ROI品質メトリック計算器61は、ユーザ選好値αおよび1つ以上のビデオの歪み値を受信する。ビデオの歪み値は、ROI値と非ROI値とに分けられ、ビデオ忠実度値DRF、DNF、空間品質値DRS、DNS、および時間品質値DRT、DNTを含み得る。DRFは、ROI内のビデオ忠実度を表わし、一方で、DNFは、非ROI領域内のビデオ忠実度を表わす。DRSは、ROI区域内の空間品質を表わし、一方で、DNSは、非ROI区域内の空間品質を表わす。DRTは、ROI区域内の時間品質を表わし、一方で、DNTは、非ROI区域内の時間品質を表わす。ROI品質メトリックは、符号化されたビデオ系列の品質を評価するときの知覚品質(空間、時間、または両者)、ビデオ忠実度、およびユーザの関心を一緒に考慮する。幾つかの実施形態において、メトリックは、ρ領域ビット割り振りモジュール48によって適用されるビット割り振りアルゴリズムにバイアスをかけ、より良い主観的な視覚品質を達成するのに使用され得る。
ROIのビデオの符号化は、広く研究されてきたが、ROIのビデオの品質測定値は十分に詳しく扱われなかった。ほとんどの品質測定技術では、ピーク信号対雑音比(peak signal to noise ratio, PSNR)を歪み測定値として使用し、ビデオフレームのROIおよび非ROI部分の品質を評価している。ROIのビデオの品質メトリックは、解析のためだけでなく、主観的な視覚上の好ましい解のために、(例えば、図4のビット割り振りモジュール48によって適用される)重み付けビット割り振り技術にバイアスをかける入力としても有益である。一般に、既に記載したように、ROIのビデオ品質の評価は、少なくとも3つの観点、すなわち、ユーザのROIの視覚品質への関心または選好α、再構成されたビデオデータのビデオ忠実度、および再構成されたビデオデータの知覚品質(空間、時間、または両者)を考慮する。
ユーザ選好αは、ROI部分および非ROI部分へのビデオフレームの分類と、それらの関連する知覚重要度因子とを直接的に決める。テレビ電話の応用では、人間の顔の表情は非常に複雑であり、小さな変化が大量の情報を伝えることができるので、話者の顔領域は、典型的なROIである。ビデオ忠実度因子に関して、PSNRは、良い測定値であり、これは、元のフレームと比較される、再構成されたビデオフレームの歪みの総量を示す。再構成されたフレームは、符号化されたビデオフレームを復号することによって生成される。一方で、元のフレームは、符号化前のビデオフレームである。
多くの場合において、ビデオ忠実度は、ビデオの符号化のための最も重要な検討事項(consideration)であり、あらゆる改善が、より良い主観的な視覚品質を生み得る。しかしながら、場合によっては、知覚品質因子も考慮に入れるべきであるので、これは必ずしも当てはまるわけではない。知覚品質は、空間の誤差および時間の誤差の両者を考慮に入れる。空間の誤差は、ブロッキング(すなわち、ブロッキネス(blockiness))、リンギング(ringing)のアーチファクト、またはこの両者の存在を含み得る。時間の誤差は、時間的フリッカ(temporal flicker)の存在(すなわち、ビデオフレームの視覚品質が時間軸に沿って非一様に変化するとき)を含み得る。時間の誤差は、ビデオ系列における不規則に変化する動き(choppy motion)をもたらすことがあり、これは望ましくない。
およびDNRは、ROIおよび非ROIの画素当たりの正規化された歪みを示し、αは、ROIの知覚重要度因子を示す。上述の観点の関係性が、ビデオ品質の評価において、線形関数に簡素化できると仮定すると、ビデオ系列の全体的な歪みは、次のように表わすことができる。
Figure 0005301645
βおよびγは、重み付け因子であり、DおよびDNRは、ROIおよび非ROIの全体的な歪みであり、DRF、DRS、およびDRTは、忠実度、空間の知覚品質、および時間の知覚品質におけるROIの正規化された誤差であり、DNF、DNS、およびDNTは、非ROI区域の対応するものである。値α、β、およびγは、0ないし1の実数値を割り当てられる。結果の品質メトリックは、重み付けビット割り振りにおけるロー(rho)パラメータの最適化問題を式にする費用関数(cost function)として使用されるか、またはROIの処理における他の問題に使用されることができる。
無線テレビ電話のような、低ビットレートのビデオの応用において、ブロッキング(すなわち、ブロッキネス)のアーチファクトは、空間知覚品質の主要な問題である。この種のアーチファクトは、高周波係数のほとんどが取り除かれる、すなわち、ゼロに設定される場合の、量子化によって生じる。結果の影響は、滑らかにされた画像ブロックがブロックの境界を相当に目立たせる。極端に低いビットレートの場合、DC係数のみが符号化され、復号された画像を、区分的に一定のブロック(piece-wise constant block)にする。この開示において、ROIの空間品質の値DRS(DNSも同様)は、正規化されたブロッキネスの歪みとして定義される。これは、次のように表わされ得る。
Figure 0005301645
なお、ブロック間の境界は、知覚可能な不連続性が存在するかどうかを確かめるために検査される。適切な不連続性の検出アプローチでは、ブロック境界を横切る強度勾配の平均平方差の和を検査する。これは、文献(S. Minami, A. Zakhor, “An optimization approach for removing blocking effects in transform coding”, IEEE Trans. Circuits Systems for Video Technology, Vol. 5, No. 2, pp. 74-82, April 1995)に記載されており、その全内容は、参照によって本明細書に取り入れられる。このアプローチは、ブロック境界の両側部の勾配が同一であり、勾配の急な変化が量子化による可能性が高いと仮定している。
式(1)において、DRT(または、DNT)の値は、ビデオ系列の全フレームのDRS(または、DNS)の分散に基づく〔0,1〕の範囲内の割り当てられたスコア(assigned score)として定義される。このように、ビデオ忠実度、空間知覚品質、および時間知覚品質に関する項は正規化され、重み付けパラメータα、β、およびγによってブリッジされ(bridge)、制御可能なビデオ品質測定値を形成することができる。これらの重み付けパラメータの選択は、要件および期待に基づいて、ユーザが行う。繰り返すが、この測定値は、好ましい主観的な知覚のために、ビット割り振りプロセスにバイアスをかける入力として役立ち得る。その結果、ユーザは、ROIの符号化において、より視覚的に好ましい結果を達成し得る。
図6は、ROIの品質メトリックの計算のために、ROIユーザ選好入力デバイス62を組み込んだ無線通信デバイス36を示す図である。図6では、無線通信デバイス36は、ほぼ図2にしたがうが、さらに、ユーザ選好αを取り込むために、入力デバイス62を組み込んでいる。ユーザ選好αは、ビデオシーン32のROIおよび非ROI部分に割り当てられた相対的重要度を指定する。図6の例において、入力デバイス62は、スライダ64を備えたスライダバーの形で示されており、スライダ64は、スライダバーの長さに沿って動かされ、ユーザ選好αの度合いを示すことができる。
ユーザは、入力デバイス62を使用して、ユーザ選好αを選択的に調整し、例えば、品質メトリック計算器61によるROIのビット割り振りに動的に影響を与えることができる。ユーザ選好αが変わると、ビデオフレームのROI部分と非ROI部分との間におけるビット割り振りが変わり得る。水平方向のスライダバーが、図6に示されているが、入力デバイス62は、種々の同等の入力媒体の任意のもの、例えば、垂直方向のスライダバー、ボタン、ダイヤル、ドロップダウン パーセンテージ メニュー(drop-down percentage menu)、等によっても実現され得る。そのような入力媒体は、タッチスクリーン、または種々のハードキー、ソフトキー、ポインティングデバイス、等の任意のものを介して操作され得る。
図7は、ROI品質メトリック計算器61を使用して、ビデオ系列を解析し、ROIを可能にするビデオ符号器63によって適用される符号化パラメータを最適化するブロック図である。図7に示されているように、ROIを可能にするビデオ符号器63が、入力ビデオ系列を符号化する前に、ROI品質メトリック計算器61が、その入力ビデオ系列の歪み値を解析するのに適用される。したがって、ROI品質メトリック計算器は、例えば、図5を参照して記載したように、ビデオのビットストリームの歪み値を解析する。ROI品質メトリック計算器は、歪み値およびユーザ選好値αに基づいて、1組の最適化されたパラメータを生成する。これは、ビデオ符号器63によって、入力ビデオ系列を符号化するときに使用される。最適化されたパラメータは、ビデオフレームのROIおよび非ROI区域間で符号化ビットを割り振るためにビット割り振りモジュールによって使用される重みか、またはビット割り振りに使用される他のパラメータ、例えば、重み付け因子βおよびγの値を含み得る。ある意味で、図7は、ROI品質メトリック計算器61が、入力ビデオ系列を符号化前に解析するが、符号化されたビデオを解析しない開ループの実施を表わしている。品質メトリックは、符号器63によって使用される最適符号化パラメータの生成をもたらす。
図8は、ROI品質メトリック計算器61を使用して、符号化されたビデオを解析し、ROIを可能にするビデオ符号器63によって適用される符号化パラメータを調整することを示すブロック図である。図8の例において、ROI品質メトリック計算器61は、符号化されたビデオに関連する歪み値と、ユーザ選好値αとを解析して、ROIを可能にするビデオ符号器63によって使用される符号化パラメータを調整する。したがって、ビデオが、ROIを可能にするビデオ符号器63によって符号化された後で、ROI品質メトリック計算器61はそのビデオを解析し、閉ループベースで調整し、例えば、ビデオ符号器の性能および符号化されたビデオの品質を向上する。符号化パラメータの調整は、ビデオフレームのROI区域と非ROI区域との間で符号化ビットを割り振るためにビット割り振りモジュールによって使用される重みか、またはビット割り振りにおいて使用される他のパラメータの値、例えば、重み付け因子βおよびγの調整を含み得る。図8の例では、品質メトリックと閾値との比較が満たされるまで、品質メトリックを使用して、品質をループ内で反復的に符号化し、評価する。各反復において、品質メトリック計算器61は、符号化パラメータの向上した組を送る。最終的に、品質メトリックの閾値が満たされるか、または結果が収束することにより、反復は止まる。
図9は、ROI品質メトリックの計算を示すフローチャートである。図9に示されているように、ROI品質メトリック計算器46は、適用可能なROI MBマップを与えられ、ROIのユーザ選好αを得て(68)、ビデオフレームのROIおよび非ROI部分を符号化する(70)。符号化されたビデオフレームを再構成するとき、歪み解析器60は、前に符号化されたビデオフレームと元のビデオフレームとを解析し、前のビデオフレームのROIおよび非ROI部分のビデオ忠実度DRFおよびDNFをそれぞれ判断する。さらに加えて、歪み解析器60は、ROIおよび非ROIの知覚時間品質の値DRT、DNT、並びにROIおよび非ROIの知覚空間品質の値DRS、DNSをそれぞれ生成する。ROI品質メトリック計算器46は、歪み解析器60からビデオ忠実度の値(72)、ROIおよび非ROIの時間品質の値(74)、およびROIおよび非ROIの空間品質の値(76)を得る。
ユーザ選好α、ビデオ忠実度、空間品質、および時間品質に基づいて、ROI品質メトリック計算器46は、ROI品質メトリックを決める(78)。ビデオ忠実度は、元のフレームに対する再構成されたビデオフレームにおける、例えば、画素ごとの色の強さの値に関するビデオの誤差を測定する。空間品質は、元のフレームに対する再構成されたフレームにおける空間の誤差、例えば、ブロッキングおよびリンギングのアーチファクトを測定する。時間品質は、フレームの視覚品質が時間軸に沿って非一様に変化する時間的フリッカのような誤差を測定する。
ユーザ選好αは、ユーザによって適用される現在の値であり、一方で、ビデオ忠実度、空間品質、および時間品質は、ビット割り振りモジュール48によって処理される現在のフレームよりも前の1つ以上のフレームから得られることに注意すべきである。ユーザ選好αは、ユーザがその値を変更するときまで、フレームごとに一定であり得る。ユーザが値を指定しなかったときは、デフォルト値が、ユーザ選好因子αに割り当てられ得る。図5を参照して既に記載したように、ROIの品質メトリックは、現在のビデオフレームのROIおよび非ROI間のビットの割り振りにバイアスをかけるために適用され得る(80)。例えば、品質メトリックは、ROIのビット割り振りの重みを調整するために使用され得る。幾つかの実施形態において、図9に示されている機能は、図8の“閉ループ”の例におけるROI品質メトリック計算器61によって行われる動作を表わし得る。
図10は、ビデオ系列のROI品質メトリックの計算を示すフローチャートである。図10は、図9に実質的に対応しているが、品質メトリックの計算が、ビデオストリームが符号化される前のビデオストリームに対して行われる実施形態を表わしている。したがって、図10のプロセスは、ビデオストリームを得ること(67)をさらに含む。さらに加えて、図9とは対照的に、ビデオの符号化(70)は、ROI/非ROIのビット割り振りにバイアスをかけた(80)後で行われる。幾つかの実施形態において、図10に示されている機能は、図7の“開ループ”の例におけるROI品質メトリック計算器61によって行われる動作を表わし得る。
図11は、ROIのρ領域のビット割り振りを示すフローチャートである。図11に示されているように、ビット割り振りモジュール48は、ROIの定義(82)と、フレームに対するレート割り当て量(rate budget)(84)との両者を得る。ROIの定義は、ROI内に含まれるMBまたは他のビデオブロックを識別するROI MBマップの形をとり得る。レート割り当て量は、ROIおよび非ROI区域を含むフレーム全体を符号化するのに使用可能なビット数を与える。さらに加えて、ビット割り振りモジュール48は、ROI重み計算器46からROIの重みwを得る(86)。重みwは、ROIと非ROIとの間におけるビット割り振りにバイアスをかける。フレームに対して非ROIスキップモードを決めるとき(88)、すなわち、フレームに対してスキッピングがオンか、またはオフかを決めるとき、ビット割り振りモジュール48は、現在のフレームの統計値を得る(89)。次に、現在のフレームの統計値(89)を使用して、後の(1つ以上の)フレームに対してスキッピングモードを決めることができる。フレームの統計値は、例えば、動き推定後のフレームの残差(residue)の標準偏差を含み得る。その代わりに、フレームの統計値は、前の(1つ以上の)フレームに対して得られることができる。スキップモードの指示(88)により、ビット割り振りモジュール48は、全ての使用可能なビットをROIに宛てることができる(非ROIフレームのスキッピングはオンである)か、またはビットをROIと非ROIとの間で共有しなければならない(非ROIフレームのスキッピングはオフである)か、を決めることができる。
ROIの定義、フレームのレート割り当て量、品質メトリックのバイアス、非ROIスキップモードを使用して、ビット割り振りモジュール48は、ROIのMBと非ROIのMBとの間におけるビットの重み付けされたρ領域の割り振りを生成する(90)。ρ領域のビットの割り振りを決めると、マッパ56は、ρ対QPのマッピングを行い、MBのQP値を与え(92)、ビデオ符号器58に適用する(94)。マッパ56は、ρ対QPのマッピングテーブルか、あるいは特定のρに対するQPを生成する式または関数を適用し得る。ビデオ符号器58は、ビット割り振りモジュール48およびマッパ56によって与えられたQP値を使用し、適用可能なビデオフレーム内の個々のROIおよび非ROIのMBを符号化する。結果のビット割り振りは、適用可能なフレーム割り当て量だけでなく、非ROIスキッピングの使用可能性、およびビデオ系列内の前の(1つ以上の)フレームに関連する品質メトリックも考慮に入れ得る。ビット割り振りモジュール48の動作は、さらに詳しく別途記載される。
この開示に記載されているビット割り振り技術は、全体的に、十分なROIの検出または定義の使用可能性、および許容可能なフレームレベルのレート制御の使用可能性を仮定している。これに基づいて、ビット割り振り技術は、全体的に、ROIのMBと非ROIのMBとの間におけるMBレベルのレート制御に焦点を当てる。最も一般的なROIビット割り振りアルゴリズムは、ITU H.263+ TMN8モデルの重み付けバージョンに基づく。ここでは、費用関数が生成され、この関数における種々の領域上の歪み成分は、1組の予め設定された重みを使用することによって、別々に処分(punish)される。他のビデオ標準のほとんどのように、TMN8は、QPの関数でレートおよび歪みをモデル化したQ領域のレート制御方式を使用する。しかしながら、この開示に記載されているビット割り振り技術は、ρ領域のレート制御モジュールを使用する。なお、ρは、ビデオ符号化においてMB内の非ゼロの量子化されたAC係数の数を表わす。本明細書に記載されているように、ρ領域のビット割り振りを使用すると、QP領域のレート制御よりも正確である傾向があり、レート変動を効果的に低減し得る。
ビデオの符号化の応用において、典型的な問題は、ビデオ系列の所与のビット割り当て量に関する歪み値Dsequenceを最小化することである。この複雑な問題に対する最適解は、最適なフレームレベルのレート制御のアルゴリズム、および最適なマクロブロックレベルのビット割り振り方式に依存する。しかしながら、テレビ電話のような実時間の応用では、現在のフレームを符号化しているとき、将来のフレームに関する使用可能な情報は非常に限られており、最適なフレームレベルのレート制御を追跡することは実際的または実現可能ではない。通常は、一般的なアルゴリズム(“グリーディ(greedy)”アルゴリズム)が適用される。グリーディアルゴリズムは、ビデオ内容の複雑さが、ビデオ系列内のフレームに沿って一様に分散していると仮定する。これに基づいて、グリーディアルゴリズムは、使用可能なビットの一部を、系列内のフレームの各々に割り振る。実時間の応用では、将来のフレーム情報の使用可能性が限られていることが、レート制御において時間品質を考慮することを困難にしている。
この開示において、実用解(practical solution)を見付けて、ビット割り振り問題を単純化するために、全体的に、良いフレームレベルのレート制御が使用可能であると仮定する。この仮定は、ビット割り振り問題をマクロブロックレベルのビット割り振りに還元する。同時に、ビット割り振り方式は、非ROIスキッピングのアプローチを利用し得る。非ROIスキッピングは、スキップされた領域が、前のフレームの知覚品質と同じ知覚品質を示すので、時間の歪みの項
Figure 0005301645
の値を約す機会を増やす。したがって、非ROI区域のスキッピングは、連続フレーム間の知覚品質の変動を低減し得る。
説明のために、ビデオフレームの画像品質は、式(1)にしたがって評価される。しかしながら、単純化のために、βおよびγは、β+γ=1になるように設定される。Rbudgetを、所与のフレームfに対する総ビット割り当て量とし、Rを、フレームを符号化するためのビットレートとして示すと、問題は次の関数によって表わすことができる。
Figure 0005301645
上述の最適化問題は、ラグランジュ緩和(Lagrangian relaxation)、および動的なプログラミングによって解くことができる。しかしながら、そのようなアプローチの計算上の複雑さは、実時間システムが負い得る複雑さよりも相当に高いであろう。このため、この開示にしたがって、低複雑度のほぼ最適解(near-optimal solution)が好ましい。具体的には、この開示において、ρ領域における2段のビット割り振りアルゴリズムが適用される。第1段は、次の最適化問題に関わる。
Figure 0005301645
βが比較的に大きい数であるとき、この2段のアルゴリズムの結果は、最適解に非常に近くなり得る。β=1であるとき、問題(3)および(4)は同一である。この開示では、焦点を、第1段と、問題(4)に対する解とに当てる。
ROIのビデオ符号化において、Nは、フレーム中のMBの数であり、{ρ}、{σ}、{R}、および{D}は、それぞれ、i番目のマクロブロックにおけるρ、標準偏差、レート、および歪み(平方誤差の和)の組である。
Figure 0005301645
なお、Kは、ROI内のMB数である。式(5)は、例えば、ROI重み計算器46によって実施され得る。したがって、フレームの重み付けされた歪みは、式(6)である。
Figure 0005301645
したがって、問題(4)は次のように書き直すことができる。
Minimize D (7)
その結果、R≦Rbudget
式(7)は、モデリングに基づくビット割り振りアプローチを使用することによって解かれる。自然画像(nature image)のAC係数の分布は、ラプラシアン分布(Laplacian distribution)
Figure 0005301645
によって最も良く見積もることができる。したがって、i番目のマクロブロックのレートおよび歪みは、次の式(8)および(9)において、ρの関数としてモデル化することができる。
例えば、レートは、次のように表わすことができる。
=Aρ+B (8)
なお、AおよびBは、定数のモデル化パラメータであり、Aは、非ゼロ係数を符号化するのに必要とされるビットの平均数として考えることができ、Bは、非テキスト情報によるビットとして考えることができる。
さらに加えて、歪みは、次のように表わすことができる。
Figure 0005301645
なお、θは、未知の定数であり、σは、残差データ(residual data)の標準偏差である。なお、任意の選択されたρから許容量子化器(acceptable quantizer)を生成するのに使用可能な十分に正確なρ−QPのテーブルがあると仮定されているので、ビット割り振り技術では、量子化器の代わりに、ρを最適化する。一般に、式(7)は、次のように、制約付き問題を制約なし問題に変換するラグランジュ緩和を使用することによって解くことができる。
Figure 0005301645
式(14)および(16)から、次のような、ビット割り振りモデルIが得られる。
Figure 0005301645
次に、結果のρは、対応するQPにマップされ、適切な数の符号化ビットを、それぞれのROIまたは非ROIのMBに割り振るのに使用される。
別のビット割り振りモデル(ビット割り振りモデルII)は、別の歪みモデルを使用して得られ得る。別の歪みモデルにしたがって、ステップサイズqの一様量子化器(uniform quantizer)の使用可能性を仮定すると、量子化によって生じる歪みは、次の式によって与えられる。
Figure 0005301645
文献(T. M. Cover, J. A. Thomas, “Elements of information theory”, Wiley, New York, NY, 1991)に記載されているように、シャノンのソース符号化定理にしたがって、ラプラシアンのソースについて、シンボルを表わすのに必要とされる最少数のビットは、次の式によって与えられる。
Figure 0005301645
(なお、384は、4:2:0のビデオのi番目のマクロブロックにおける係数の総数である)、式(21)は、テーラー展開を使用することによって展開することができ、ビットレートとρとの関係性は、次の式によって見積もることができる。
=Aρ+B (22)
なお、AおよびBは、定数のモデル化パラメータであり、Aは、非ゼロ係数を符号化するのに必要な平均ビット数として考えることができ、Bは、非テキスト情報によるビットとして考えることができる。
さらに加えて、係数の分散は、式(23)によって表わされる。
Figure 0005301645
その結果、i番目のマクロブロックの歪みは、式(24)によって表わすことができる。
Figure 0005301645
ビット割り振りモデルIの導関数におけるように、最適ビット割り振り方式は、最適化問題(7)、すなわち、次の問題を解くことによって達成することができる。
Figure 0005301645
概して、式(25)は、次のように、制約付き問題を制約なし問題に変換するラグランジュ緩和を使用することによって解くことができる。
Figure 0005301645
式(26)において、偏導関数をゼロにすることによって、最適化されたρに対する次の式が得られる。
Figure 0005301645
Figure 0005301645
式(28)および(30)から、次の式が得られる。
Figure 0005301645
なお、ρbudgetは、フレームに対する全てのρの割り当て量である。
歪みは、式(32)において、別々にモデル化されているが、そのモデルに基づいて、次のビット割り振りモデルIIが得られる。
Figure 0005301645
式(33)は、例えば、ビット割り振りモジュール48によって実施され得る。
図12は、重み付けビット割り振りモデルIおよびIIと、最適解とを使用して、符号化技術の全体的な知覚品質を比較したグラフである。最適解は、ラグランジュ緩和によって達成され、一方で、ビット割り振りモデルIおよびIIは、既に記載したように実施される。図12は、標準のフォアマン(Foreman)のビデオ試験系列の最初の100フレームのROI符号化中における、PSNR(デシベル)対フレームナンバーを示している。図12において、最適解、ビット割り振りモデルI、およびビット割り振りモデルIIは、参照番号91、93、および95によってそれぞれ識別されている。ビット割り振りモデルIおよびIIでは、ビット割り振りに重み付けする式(5)の目的において、αの値は0.9である。図12に示されているように、ビット割り振りモデルIおよびIIの両者は、最適解と比較して、非常によく働く。
図13は、非ROI(“背景”)のスキッピングのための技術を示すフローチャートである。ビデオフレームの非ROI区域の符号化をスキップする能力は、ビットの割り振りにおいて相当な節約をもたらすことができる。非ROIが符号化されない、すなわち、スキップされるとき、さもなければ非ROIに割り振られたであろうビットは、その代りに、ROIを符号化するために再び割り振られ、ROI内のMBの視覚品質を向上することができる。非ROIが所与のフレームにおいてスキップされるとき、前のフレームにおいて符号化された非ROIが繰り返されるか、または現在のフレームにおいて補間された非ROI区域によって置換される。非ROI区域のスキッピングは、ROIの符号化のためのビットを残しておくことに加えて、現在のフレームの時間品質を向上し得る。具体的には、2つ以上の連続フレームにおいて同じ非ROI区域を提示すると、非ROI区域における時間的フリッカを低減する傾向がある。
非常に低いビットレート、例えば、32kbpsにおいて、フリッカリングが著しくなるような時間の視覚品質が生成されるときは、ビットがMB間で一様に分散していても、非ROI領域は、通常、粗く符号化される。他方で、背景が非ROIであるテレビ電話の応用のほとんどの場合において、背景の動きは非常に限られている。したがって、背景のスキッピングは、そのスキッピングがビデオ忠実度を著しく劣化しないならば、ビットを再割り振りし、ROIおよび符号化された非ROIの領域の品質を向上する解決案である。
フレームのスキッピングは、非常に低いビットレートの応用において、符号化ビットを残しておくのに使用される一般的なアプローチである。非ROIのスキッピングとフレームのスキッピングとの違いは、非ROIのスキッピングのアプローチでは、各フレームのROIが符号化され、ROIの良い視覚品質を保証することである。フレームのスキッピングは、多くの応用に非常に役立つ。しかしながら、ROIのビデオ符号化において、フレームのスキッピングは、とくに、式(1)においてαが大きい値に設定されるときは、ROIのあらゆる歪みがひどく処分され(punish)、全体的な性能を劣化し得るので、顔の表情のような重要な情報を損失する危険がある。したがって、標準のビデオフレームでは、背景のMBの数が支配的であるので、非ROIのスキッピングがより良い選択であり、相当な数のビットを残し、ROI品質を向上することができる。
図13に示されているように、非ROIスキッピング技術は、連続フレームを、フレームのROI区域と、フレーム間で共有される共通の非ROI区域とを含むユニットへグループ化することを含む。図13の例では、2つの連続フレームがグループ化される。非ROI背景スキッピングモジュール50は、フレームiおよびi+1をフレームユニットへグループ化し(96)、非ROI区域がスキップされるフレームをビデオ符号器58に知らせる。応答して、ビデオ符号器58は、ビット割り振りモジュール48によって与えられた重み付けビット割り振りを使用して、フレームiおよびi+1のそれぞれのROI区域を符号化する(98)。さらに加えて、ビデオ符号器58は、重み付け割り振りを使用して、フレームiの非ROI区域を符号化する(100)。しかしながら、ビデオ符号器58は、フレームi+1の非ROI区域を符号化しない。その代わりに、フレームi+1の非ROI区域をスキップし、前のフレームiの非ROI区域をその場所に与える。
非ROIスキッピングは、フルタイムで行われ得る。例えば、1つおきのフレームにおいて非ROIを連続的にフルタイムでスキップするために、2つごとのフレームがユニットへグループ化され得る。言い換えると、1つおきのフレーム内の非ROIが、フルタイムでスキップされ得る。その代わりに、スキッピングは、適応するように、アクティブおよび非アクティブにされることができる。直前のフレームによって生成された非ROIの歪みが、歪み閾値を越えると、スキッピングは非アクティブにされ得る。図13に示されているように、例えば、前のフレームの非ROI区域内の歪みが、閾値未満であるとき(102)、フレームi+1の非ROIがスキップされ(104)、プロセスは、2つの連続フレームを含む次のグループに進み、これは、フレームのインクリメントi=i+2によって表わされる(106)。この場合は、非ROIの歪みのレベルは許容可能であり、スキッピングはアクティブにされる。しかしながら、非ROIの歪みが歪み閾値より大きいときは(102)、フレームi+1の非ROI区域は、重み付けビット割り振りを使用して符号化される(108)。この場合は、スキッピングは、過剰な非ROIの歪み、すなわち、該当するビデオシーンの非ROI区域内の過剰な歪みのために、非アクティブにされる。
図14は、ユニット中の連続フレームをグループ化して、非ROIのスキッピングを支援することを示す図である。図14に示されているように、フレーム0、1、2、および3は、ビデオ系列内の連続フレームを表わす。この例において、フレーム0およびフレーム1は、ユニット1へグループ化され、フレーム2およびフレーム3は、ユニット2へグループ化される。各ユニットは、共通の非ROI区域を共有している。具体的には、フルタイムのスキッピング、または許容可能な歪みに対して適応スキッピングをする場合において、フレーム0の非ROI区域はフレーム1に対して繰り返される。フレーム0の非ROI区域がフレーム1に対して繰り返されるので、フレーム1の非ROI区域を符号化する必要はない。フレームのユニットへのグループ化は、ビデオ系列全体にわたって適用され得る。図14の例では、2つのフレームが、ユニットへグループ化される。しかしながら、幾つかの応用では、2つ以上のフレームが、ユニットへグループ化され、非ROIは、ユニット内のフレームの1つを除く全てでスキップされ得る。
図15は、共通の非ROI区域をもつ連続ROI区域の符号化を示す図である。具体的には、連続フレーム0および1をユニットへグループ化するとき、フレーム0および1内のROI区域110および112は、それぞれ符号化される。しかしながら、フレーム0の非ROI区域114は、フレーム0およびフレーム1の両者において繰り返され、したがって、フレーム1の非ROI区域(図示されていない)はスキップされる。このように、そうでなければフレーム1の非ROIを符号化するために必要とされたであろうビットの消費を避けることができる。図15の例では、非ROI区域114は、“背景”と呼ばれるが、人の肩のような前景の特徴(feature)を含み得ることに注意すべきである。したがって、この開示において、背景は、全体的に、ROIの外側のあらゆる区域を指し、ビデオシーン内の背景画像に厳密に制限されると見なすべきではない。非ROIスキッピングは、さらに詳しく別途記載される。
図4の非ROIスキッピングモジュール50を実施する例示的なプロトタイプのシステムをここで記載する。プロトタイプのシステムでは、図13ないし15を参照して既に記載したように、2つごとのフレームがユニットへグループ化される。各ユニットでは、第1の非ROI区域を符号化し、例えば、ゼロの動きベクトルをもつ予測MBを使用して、第2の非ROI区域をスキップする。系列内のビデオフレームの内容の複雑さが、フレーム全体にわたって一様に分布していると仮定すると、各ユニットに対するビットの割り振りは、‘グリーディ’なフレームレベルのビット割り振りと同じ論理に基づき得る。この仮定を使用するとき、ビットは、2フレームのユニット間で一様に割り振られるべきである。
Figure 0005301645
なお、ρsequenceは、ビデオ系列内のM個の連続フレームのグループに対する全てのρの割り当て量であり、ρunit iは、i番目のユニットに対するρの割り振りであり、ρusedは、第1の(i−1)/2ユニットのρの消費量である。ユニット内では、ビット割り振りモデル(IまたはII)が、ROIおよび非ROI区域内のMBにビットを割り振るために使用され得る。
本明細書に記載されているように、非ROIスキッピングの結果を評価するために、幾つかの試験が行われた。試験では、次のビット割り振り技術が比較された。すなわち、(a)モデルIIに基づく、フルタイムの非ROIスキッピングを用いた、重み付けビット割り振りアルゴリズム、(b)モデルIIに基づく、非ROIスキッピングを用いない、重み付けビット割り振りアルゴリズム、および(c)ビット割り振りにおいて、ROIおよび非ROIのMBを等しく扱う“グリーディ”アルゴリズムである。試験は、15フレーム/秒(frames per second, fps)のレートで、標準の“自動車電話(Carphone)”のQCIFのビデオ系列の最初の150フレームに対して行われた。比較の結果は、図16ないし23に示されている。
図16は、上述の符号化技術(a)、(b)、および(c)の全体的な(overall)知覚品質を比較するグラフである。具体的には、図16は、一定の範囲の符号化レート(キロビット/秒(kilobits per second, kbps))に対する、知覚のPSNR(デシベル(decibel, dB))をプロットしている。図17は、上述の符号化技術(a)、(b)、および(c)の全体的なビデオ忠実度を比較するグラフである。“全体的な(overall)”ビデオ忠実度という用語は、ROIおよび非ROI区域の両者の結合、すなわち、フレーム全体のビデオ忠実度を指し、その代わりに、“フレーム”のビデオ忠実度と呼ばれることができる。図17は、一定の範囲の符号化レート(キロビット/秒(kbps))に対する、 “フレーム”のPSNR(デシベル(dB))をプロットしている。
図18および19は、上述の符号化技術(a)、(b)、および(c)のROIのビデオ忠実度と非ROIのビデオ忠実度とをそれぞれ比較するグラフである。具体的には、図18および19は、一定の範囲の符号化レート(キロビット/秒(kbps))に対する、PSNR(デシベル(dB))をプロットしている。図18におけるROIのビデオ忠実度は、ビデオフレームのROI区域内のビデオ忠実度を指す。図19における非ROIのビデオは、ビデオフレームの非ROI区域内のビデオ忠実度を指す。図16ないし19は、重み付けビット割り振りアルゴリズムにおいて、ユーザ選好因子α=0.9の適用を表わしている。図16ないし19の各々において、(a)フルタイムの非ROIスキッピングを用いた重み付けビット割り振りの曲線、(b)スキッピングを用いない重み付けビット割り振りの曲線、および(c)グリーディアルゴリズムの曲線が、参照番号116、118、120によってそれぞれ識別されている。
図20および21は、それぞれ、上述の符号化技術(a)、(b)、(c)の全体的な知覚品質および全体的なビデオ忠実度を比較したグラフである。具体的には、図20は、一定の範囲の符号化レート(キロビット/秒(kbps))に対する、知覚のPSNR(デシベル(dB))をプロットしている。図21は、一定の範囲の符号化レート(キロビット/秒(kbps))に対する、PSNR(デシベル(dB))をプロットしている。図20および21は、重み付けビット割り振りアルゴリズムにおいて、ユーザ選好因子α=0.7の適用を表わしている。図22および23は、それぞれ、符号化技術(a)(b)、および(c)の全体的な知覚品質および全体的なビデオ忠実度を比較するグラフである。図22および23は、重み付けビット割り振りアルゴリズムにおいて、ユーザ選好因子α=0.5の適用を表わしている。図20ないし23において、(a)フルタイムの非ROIスキッピングを用いた重み付けビット割り振りの曲線、(b)スキッピングを用いない重み付けビット割り振りの曲線、および(c)グリーディアルゴリズムの曲線が、参照番号116、118、120によってそれぞれ識別されている。
図16ないし23に示されている試験結果において、ビデオ品質の測定値の4つの組、すなわち、知覚のPSNR、フレームのPSNR、ROIのPSNR、および非ROIのPSNRの4つの組は、次のように定義される。
Figure 0005301645
上述の式において、DFrameは、フレームの全体的な時間および空間の歪みであり、Dは、元のフレームと再構成されたフレームとの間におけるビデオ忠実度であり、DRFは、元のフレームのROI区域と再構成されたフレームのROI区域との間におけるビデオ忠実度であり、DNFは、元のフレームの非ROI区域と再構成されたフレームの非ROI区域との間におけるビデオ忠実度である。知覚のPSNRは、図16、20、および22に示されている。フレームのPSNRは、図17、21、および23に示されている。ROIのPSNRは、図18に示されており、非ROIのPSNRは、図19に示されている。図16ないし23に示されている結果は、全試験において、提案された非ROIスキッピングアプローチが、他のアプローチと比較して、知覚のPSNR(perceptual PSNR, PPSNR)において1dBよりも大きい利得をもっていることを示している。図18および19に示されているように、利得は、主として、フレームを符号化するときに、非ROIからROIへビットを再割り振りすることによって、ROIの品質が向上することから得られる。
興味深い観測結果は、図17、21、および23に示されているように、フレームのPSNRに関しても、非ROI(背景)スキッピングアプローチが、他のアプローチよりも、低ビットレートで性能が優れていることである。さらに加えて、グラフは、ユーザ選好因子αが小さくなるのに伴って、フレームのPSNRにおける利得が大きくなることを示している。これらの観測結果は、非ROIスキッピングアプローチが、ビデオ忠実度だけでなく、視覚品質に関しても、他のアプローチよりも性能が優れているので、無線VTのような非常に低いビットレートの応用にとって非常に魅力的であることを示している。αに、より大きい値、例えば、図16のα=0.9を割り当てるとき、重み付けビット割り振りのアプローチが、グリーディアルゴリズムよりも性能が優れると期待される。しかしながら、図20および22に示されているように、αが小さくなるのに伴って、この効果は低減する。
フレームスキッピングに依存する重み付けビット割り振り技術、すなわち、非ROI区域のみをスキップするのではなくフレーム全体をスキップする技術の性能に対して、非ROIのスキッピングを取り入れたビット割り振り技術の性能を評価するために、追加の試験が行われた。図24は、標準のフレームのスキッピングと背景のスキッピングとを使用して、ROIの符号化技術の知覚品質を比較するグラフである。各場合において、本明細書に記載した重み付けビット割り振りを適用した。1つの場合において、非ROI(背景)のスキッピングを適用した。他の場合において、フルタイムのフレームのスキッピングを適用し、1つおきのフレームを交互にスキップした。図24は、知覚のPSNR(デシベル)対レート(キロビット/秒(kbps))をプロットしている。図24において、参照番号122、124、および126は、それぞれ、フレームのスキッピングを用い、ユーザ選好因子がα=0.9、0.7、および0.5の、重み付けビット割り振りの曲線を識別している。参照番号128、130、132は、非ROIのスキッピングを用い、ユーザ選好因子がα=0.9、0.7、および0.5の、重み付けビット割り振りの曲線を識別している。図24に示されているように、非ROIのスキッピングを用いた重み付けビット割り振りは、αの全ての設定において、フレームのスキッピングを用いた重み付けビット割り振りよりも性能が優れている。αの値が大きくなるのに伴って、非ROIスキッッピングによって与えられる性能の利得は大きくなる。αが大きくなるのに伴って、フレームのスキッピングにおけるROIに対する処分(punishment)がより重くなるので、この結果は理にかなっている。
図16ないし24によって示されているように、とくに、非ROIが比較的に少ない動きを維持するときは、非ROI背景スキッピングアプローチは、良い性能になる。しかしながら、大きい動きを含む非ROI区域をもつビデオ系列では、性能の利得は低減し得る。同時に、重要な背景情報がスキップされ、システムの性能を劣化することになり得る。したがって、スキッピングがビデオ忠実度をひどく劣化するとき、例えば、背景の内容が重要な情報を含んでいるときは、背景のスキッピングをオフにすることが望ましい。一例として、背景が迅速に動く標準の自動車電話のビデオ試験系列の180ないし209番目のフレームに対して、非ROIのスキッピングをオンにした、およびオフにした重み付けビット割り振りによるROIの符号化を適用した。図25は、この解析の結果を示している。より具体的には、図25は、非ROIのスキッピングをオンにした、およびオフにしたときの、本明細書に記載されている重み付けビット割り振りのROI符号化技術の知覚品質を比較するグラフである。
図25は、知覚のPSNR(デシベル)対レート(キロビット/秒)をグラフにしている。図25において、参照番号134および136は、非ROIのスキッピングをオンにし、ユーザ選好因子がそれぞれα=0.9および0.5である重み付けビット割り振りの適用を表わす曲線を識別している。参照番号138、140は、非ROIのスキッピングをオフにし、ユーザ選好因子がそれぞれα=0.9および0.5である重み付けビット割り振りの適用を表わす曲線を識別している。図25の結果は、αが、例えば、0.9から0.5に下がるのに伴って、比較される非ROIのスキッピングの効果が低減することを示している。この結果は、ビデオ系列の内容、およびユーザ選好因子αによって表わされるユーザの関心レベルに基づいて、非ROIのスキッピングの動的な制御を可能にする適応非ROIスキッピングのアプローチを展開する値も示している。
非ROIのスキッピングを用いた重み付けビット割り振りによって生じる歪みと、非ROIのスキッピングを用いない重み付けビット割り振りによって生じる歪みとは、次に示されているように、はっきりと比較することができる。
Figure 0005301645
なお、DSkip onは、非ROIのスキッピングモードがオンであるときのユニットの全歪みであり、DSkip offは、背景のスキッピングモードがオフであるときのユニットの全歪みであり、DNonROI skipは、ユニットの第2のフレームにおいて非ROIのスキッピングにより生じる歪みであり、式(35)のρ、ρ、および式(36)のρ’、ρ’、ρ’は、ROIおよび非ROIに割り振られたAC係数の個数(ρ)である。
Figure 0005301645
図26に示されているように、自動車電話のビデオ試験系列のDNonROI skipの統計値から、この観測結果が真であることが確認された。図26は、例示的なビデオ系列における背景のスキッピングによって生じる歪みを示すグラフである。具体的には、図26は、自動車電話のビデオ試験系列の最初の240フレームにおける、平均の非ROI領域の残差エネルギ(reside energy)DNonROI Skip対フレームナンバーをプロットしている。図26から、フレーム180ないし209、すなわち、大きい度合いの動きによって特徴付けられるフレーム中において、DNonROI Skip値が他よりも相当に大きいことは明らかである。したがって、非ROIのスキッピングは、概ね、好ましいが、フレーム180ないし209によって示されている大きく動く部分の間は、好ましくない。
上述の観測結果に基づいて、背景のスキッピングモードをオンおよびオフにする基準を求めるタスクは、DNonROI Skipの歪みに対する閾値を求めるタスクに転換される。ビデオ系列におけるユニットの歪みが滑らかに変化すると仮定すると(これは、ほぼ真である)、一番最近処理されたユニットの歪みの平均値を、歪み閾値を求めるのに使用することができる。
Figure 0005301645
適応非ROIスキッピングアルゴリズムは、実質的に、図13に示されているプロセスに実質的に一致し、次のようにも記載することができる。
Figure 0005301645
図27は、非ROIスキッピング、非ROIのスキッピングのオフ、および適応非ROIスキッピングを使用して、ROI符号化技術の全体的な知覚品質を比較するグラフである。各場合において、本明細書に記載されている重み付けビット割り振りアルゴリズムを適用した。図27は、標準の自動車電話のビデオ試験系列のフレーム180ないし209のROIのビデオ符号化における、知覚のPSNR(デシベル)対レート(キロビット/秒)をプロットしている。参照番号142および144は、非ROIスキッピングがオンであり、ユーザ選好因子がそれぞれα=0.9および0.5である重み付けビット割り振りを表わす曲線を識別している。参照番号146および148は、非ROIスキッピングがオフであり、ユーザ選好因子がそれぞれα=0.9および0.5である重み付けビット割り振りを表わす曲線を識別している。参照番号150および152は、適応非ROIスキッピングであり、ユーザ選好因子がそれぞれα=0.9および0.5である重み付けビット割り振りを表わす曲線を識別している。この評価において、値ηは、η=0.25に設定された。図27の結果は、適応非ROIスキッピングアプローチの結果が、αの種々の値に対する最良の解(best solution)に最も近いことを示している。
図28ないし33は、この開示に記載されている重み付けビット割り振り技術を適用したROI符号化技術の追加の実験結果を示している。図28ないし32は、標準の自動車電話のビデオ試験系列への種々のROI符号化技術の適用を表わしている。図28ないし32において、重み付けビット割り振りのアプローチ(“提案されたアプローチ”、および“重み付けビット割り振り”)に使用されるユーザ選好因子αは、0.9に設定された。“提案されたアプローチ”の表示は、非ROIスキッピングを用いた重み付けビット割り振りを指す。“重み付けビット割り振り”の表示は、非ROIスキッピングを用いない重み付けビット割り振りを指す。
図28は、種々のビット割り振り技術を使用して、ROI符号化技術の全体的な知覚品質を比較するグラフであり、知覚のPSNR対レートをプロットしている。図28において、参照番号154、156、158、160、および162は、それぞれ、フレームスキッピングのアプローチ、非ROIスキッピングを用いた重み付けビット割り振りのアプローチ、グリーディアルゴリズム、一定のQPのアルゴリズム、および非ROIスキッピングを用いない重み付けビット割り振りのアプローチの適用を表わす曲線を識別している。
図29は、40キロビット/秒(kbps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術の全体的な知覚品質を比較するグラフである。具体的には、図29は、非ROIスキッピングを用いた重み付けビット割り振り、グリーディアルゴリズム、および一定のQPのアルゴリズムを用いた、知覚のPSNR対フレームナンバーをプロットしている。
図30は、40キロビット/秒(kbps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術の全体的なビデオ忠実度を比較するグラフであり、PSNR対フレームナンバーをプロットしている。図31は、40キロビット/秒(kps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術のROIのビデオ忠実度を比較するグラフであり、ROIのPSNR対フレームナンバーをプロットしている。図32は、40キロビット/秒(kps)の符号化レートで、種々のビット割り振り技術を使用して、ROI符号化技術の非ROIのビデオ忠実度を比較するグラフであり、非ROIのPSNR対フレームナンバーをプロットしている。
図29ないし32において、非ROIスキッピングを用いた重み付けビット割り振りは、参照番号164によって示され、グリーディアルゴリズムは、参照番号166によって示され、一定のQPのアルゴリズムは、参照番号168によって示されている。一定のQPのアルゴリズムは、フレーム内の全MBが同一の量子化器(quantizer)を割り当てられるフレームレベルのみのレート制御アルゴリズムである。グリーディアルゴリズムは、既に記載されており、MBレベルで動作する。フレームスキッピングのアルゴリズムは、1つおきのフレームの内容の符号化を交互に避ける標準のフレームのスキッピングを適用し、ROI区域および非ROI区域の両者をスキップする。非ROIスキッピングを用いない重み付けビット割り振り、および適応フレームスキッピングを用いた重み付けビット割り振り (“提案されたアプローチ”)は、上述で記載した。
図28は、提案されたアプローチが、ビットレートの範囲全体において、他の全てのアプローチよりも、性能が優れており、性能の利得が、2dB以内であることを示している。図29ないし32は、提案されたアプローチ、グリーディアルゴリズム、および一定のQPのアルゴリズムのフレームレベルの詳細が示されている。
図33は、一定の範囲の符号化レートで、別の例示的なビデオ系列に対して種々のビット割り振り技術を使用して、ROI符号化技術の全体的な知覚品質を比較するグラフである。具体的には、図33は、標準のフォアマン(Foreman)のビデオ試験系列の最初の180フレームにおける、知覚のPSNR対レートをプロットしている。図33において、参照番号154、156、158、160、および162は、それぞれ、フレームスキッピングのアプローチ、非ROIスキッピングを用いた重み付けビット割り振りのアプローチ、グリーディアルゴリズム、一定のQPのアルゴリズム、および非ROIスキッピングを用いない重み付けビット割り振りのアプローチの適用を表わす曲線を識別している。
図33に示されているように、フォアマンの系列の顔は、自動車電話の系列と比較して、相当により大きい動きを含んでいるので、フレームスキッピングのアプローチは、自動車電話の系列のときと同様に働かない。その結果、フレームスキッピングは、フォアマンの系列では過剰な量のROI情報を失い、不満足な性能になる。図33によって示されているように、適応非ROIスキッピングを用いた重み付けビット割り振りの提案されたアプローチは、フォアマンの系列において非常に良く働くことに注意すべきである。
この開示では、テレビ電話またはビデオストリーミングの応用のための、とくに、非常に低いビットレートの要件を提示されたときの、例えば、無線テレビ電話における、ROIの符号化を支援する種々の技術が記載された。この開示は、ROIのビデオ符号化のために、ρ領域における2つの異なる最適化された重み付けビット割り振り方式を提示している。この開示は、適応非ROI(“背景”)スキッピングのアプローチも提示し、これは、重み付けビット割り振りモデルと一緒に働いて、より良い性能を達成することができる。さらに加えて、この開示は、ROIのビデオの品質を測定するためのビデオ品質メトリックを提示している。ROIの品質メトリックは、ROIにおけるユーザ選好、ビデオ忠実度、空間知覚品質、および時間知覚品質を一緒に考慮することによって、より良い主観的な視覚品質を生成する最適化されたビット割り振り技術を導くのに使用することができる。ROIの品質メトリックは、ユーザのインタラクション(interaction)が、符号化パラメータにバイアスをかけ、主観的な知覚品質要件を満たすことを可能にする。
本明細書に記載されている技術は、ハードウェア、ソフトウェア、ファームウェア、またはその任意の組合せで実施され得る。この技術は、ソフトウェアにおいて実施されるときは、実行されたときに、上述の方法の1つ以上を行わせる命令を含むプログラムコードを含むコンピュータ読み出し可能媒体によって部分的に実現され得る。この場合に、コンピュータ読み出し可能媒体は、ランダム アクセス メモリ(random access memory, RAM)、例えば、同期ダイナミック ランダム アクセス メモリ(synchronous dynamic random access memory, SDRAM)、読み出し専用メモリ(read-only memory, ROM)、不揮発性ランダム アクセス メモリ(non-volatile random access memory, NVRAM)、電気的消去可能プログラム可能読み出し専用メモリ(electrically erasable programmable read-only memory, EEPROM)、フラッシュメモリ、磁気または光学データ記憶媒体、等を含み得る。
プログラムコードは、1つ以上のプロセッサ、例えば、1つ以上のディジタル信号プロセッサ(digital signal processor, DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(application specific integrated circuit, ASIC)、フィールドプログラム可能論理アレイ(field programmable logic array, FPGA)、または他の同等の集積またはディスクリートな論理回路によって実行され得る。幾つかの実施形態において、本明細書に記載されている機能は、符号化および復号のために構成された専用ソフトウェアモジュールまたはハードウェアユニット内に与えられるか、または結合されたビデオ符号器−復号器(encoder-decoder, CODEC)において組み込まれ得る。
種々の実施形態が記載された。これらの実施形態および他の実施形態は、特許請求項の範囲内である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]連続ビデオフレームをフレームユニットへグループ化することと、
前記フレームユニット中のそれぞれのフレーム内の関心領域を符号化することと、
前記フレームユニット中の前記フレームの少なくとも1つにおけるそれぞれの関心領域外の区域の符号化をスキップすることと、
を含む方法。
[2] 前記フレームユニット中のフレームの少なくとも1つにおけるそれぞれの関心領域外の区域を符号化することと、前記符号化された区域を、符号化がスキップされた他のフレーム中の区域の代わりに使うこととをさらに含む[1]記載の方法。
[3] 区域の符号化をスキップすることが、前のフレームユニットに関連する歪み値が閾値未満であるときは、符号化をスキップすることを含む[1]記載の方法。
[4] 前のフレームユニットの歪み値に基づいて、スキッピングを選択的にオンおよびオフにすることをさらに含む[1]記載の方法。
[5] 符号化が、フレーム割り当て量と、前記関心領域内のマクロブロックと前記関心領域外の前記ビデオフレームの区域内のマクロブロックとの間における重み付けとに基づいて、前記フレーム内のマクロブロックにロー領域値を割り振ることを含む[1]記載の方法。
[6] 前記ロー領域値を、対応する量子化パラメータ(QP)値にマップし、符号化ビットの数を前記マクロブロックの各々に割り振ることをさらに含む[5]記載の方法。
[7] 前記割り振られた符号化ビットを使用して、前記ビデオフレームの前記マクロブロックを符号化することをさらに含む[6]記載の方法。
[8] 前記割り振られたビットの数が、前記フレーム割り当て量によって指定されたビットの数以下である[7]記載の方法。
[9] 前記重み付けが、前のフレームの歪みに少なくとも部分的に基づく[5]記載の方法。
[10] 前記重み付けが、前のフレームのビデオ忠実度、前記前のフレームの知覚品質、および前記関心領域のユーザ選好に少なくとも部分的に基づく[5]記載の方法。
[11] 前記知覚品質が、前記前のフレームに関する時間品質値と空間品質値とを含む[10]記載の方法。
[12] 前記時間品質値が、前記関心領域に関する第1の時間品質値と、前記関心領域外の前記ビデオフレームの区域に関する第2の時間品質値とを含む[11]記載の方法。
[13] 前記空間品質値が、前記関心領域に関する第1の空間品質値と、前記関心領域外の前記ビデオフレームの区域に関する第2の空間品質値とを含む[11]記載の方法。
[14] 前記空間品質値が、前記前のフレームにおけるブロッキングアーチファクトの存在に少なくとも部分的に基づき、前記時間品質値が、前記前のフレームにおける時間的フリッカアーチファクトの存在に少なくとも部分的に基づく[11]記載の方法。
[15] ロー領域値を割り振ることが、前記関心領域外の前記区域の符号化がスキップされるかどうかの指示に基づいて、前記ロー領域値を割り振ることを含む[5]記載の方法。
[16] ビデオフレーム内の関心領域の定義を生成する関心領域マッパと、
前記ビデオフレームを符号化するビデオ符号器と、
連続フレームをフレームユニットへグループ化し、前記フレームユニット中のそれぞれのフレーム内の関心領域を符号化するように前記ビデオ符号器に指示し、前記フレームユニット中の前記フレームの少なくとも1つにおけるそれぞれの関心領域外の区域の符号化をスキップするように前記ビデオ符号器に指示するスキッピングモジュールとを含むデバイス。
[17] 前記スキッピングモジュールが、前記フレームユニット中の前記フレームの少なくとも1つにおけるそれぞれの関心領域外の区域を符号化するように前記ビデオ符号器に指示し、前記符号化された区域を、符号化がスキップされる他のフレーム中の区域の代わりに使うように前記ビデオ符号器に指示する[16]記載のデバイス。
[18] 前記スキッピングモジュールが、前のフレームユニットに関連する歪み値が閾値未満であるときは、スキッピングを指示する[16]記載のデバイス。
[19] 前記スキッピングモジュールが、前のフレームユニットの歪み値に基づいて、スキッピングを選択的にオンおよびオフにする[16]記載のデバイス。
[20] フレーム割り当て量と、前記関心領域内のマクロブロックと前記関心領域外の前記ビデオフレームの区域内のマクロブロックとの間における重み付けとに基づいて、前記フレーム内のマクロブロックにロー領域値を割り振るビット割り振りモジュールをさらに含み、前記ビデオ符号器が、前記ロー領域値に基づいて前記ビデオフレーム内のマクロブロックを符号化する[16]記載のデバイス。
[21] 前記ロー領域値を、対応する量子化パラメータ(QP)値にマップし、符号化ビットの数を前記マクロブロックの各々に割り振るマッパをさらに含み、前記ビデオ符号器が、前記割り振られた符号化ビットに基づいて、前記ビデオフレーム内のマクロブロックを符号化する[20]記載のデバイス。
[22] 前記割り振られたビットの数が、前記フレーム割り当て量によって指定されたビットの数以下である[21]記載のデバイス。
[23] 前記重み付けが、前のフレームの歪みに少なくとも部分的に基づく[20]記載のデバイス。
[24] 前記重み付けが、前のフレームのビデオ忠実度、前記前のフレームの知覚品質、および前記関心領域へのユーザ関心に少なくとも部分的に基づく[20]記載のデバイス。
[25]前記知覚品質が、前記前のフレームに関する時間品質値と空間品質値とを含む[24]記載のデバイス。
[26]前記時間品質値が、前記関心領域に関する第1の時間品質値と、前記関心領域外の前記ビデオフレームの区域に関する第2の時間品質値とを含む[25]記載のデバイス。
[27]前記空間品質値が、前記関心領域に関する第1の空間品質値と、前記関心領域外の前記ビデオフレームの区域に関する第2の空間品質値とを含む[25]記載のデバイス。
[28]前記空間品質値が、前記前のフレーム中のブロッキングアーチファクトの存在に少なくとも部分的に基づき、前記時間品質値が、前記前のフレーム中の時間的フリッカアーチファクトの存在に少なくとも部分的に基づく[25]記載のデバイス。
[29]前記関心領域外の区域の符号化をスキップするかどうかの指示に基づいて、前記フレーム内のマクロブロックにロー領域値を割り振るビット割り振りモジュールをさらに含む[26]記載のデバイス。
[30]無線通信チャネルを介して前記符号化されたビデオフレームを送信する無線送信機をさらに含み、デバイスが、移動テレビ電話を支援するように構成されている[26]記載のデバイス。
[31]連続ビデオフレームをフレームユニットへグループ化することと、
前記フレームユニット中のそれぞれのフレーム内の関心領域を符号化することと、
前記フレームユニット中の前記フレームの少なくとも1つにおけるそれぞれの関心領域外の区域の符号化をスキップすることと、をプロセッサにさせる命令を含むコンピュータ読み出し可能媒体。
[32]前記フレームユニット中の前記フレームの少なくとも1つにおけるそれぞれの関心領域外の区域を符号化することと、前記符号化された区域を、符号化がスキップされる他のフレーム中の区域の代わりに使うこととを、前記プロセッサにさせる命令をさらに含む[31]記載のコンピュータ読み出し可能媒体。
[33]前のフレームユニットに関連する歪み値が、閾値未満であるときは、符号化をスキップすることを、前記プロセッサにさせる命令をさらに含む[31]記載のコンピュータ読み出し可能媒体。
[34]前のフレームユニットの歪み値に基づいて、スキッピングを選択的にオンおよびオフにすることを、前記プロセッサにさせる命令をさらに含む[31]記載のコンピュータ読み出し可能媒体。
[35]フレーム割り当て量と、前記関心領域内のマクロブロックと前記関心領域外の前記ビデオフレームの区域内のマクロブロックとの間における重み付けとに基づいて、前記フレーム内のマクロブロックにロー領域値を割り振ることを、前記プロセッサにさせる命令をさらに含む[31]記載のコンピュータ読み出し可能媒体。
[36]前記ロー領域値を、対応する量子化パラメータ(QP)値にマップして、符号化ビットの数を前記マクロブロックの各々に割り振ることを、前記プロセッサにさせる命令をさらに含む[35]記載のコンピュータ読み出し可能媒体。
[37]前記割り振られた符号化ビットを使用して、前記ビデオフレームの前記マクロブロックを符号化することを、前記プロセッサにさせる命令をさらに含む[35]記載のコンピュータ読み出し可能媒体。
[38]前記割り振られたビットの数が、前記フレーム割り当て量によって指定されたビットの数以下である[37]記載のコンピュータ読み出し可能媒体。
[39]前記重み付けが、前のフレームの歪みに少なくとも部分的に基づく[35]記載のコンピュータ読み出し可能媒体。
[40]前記重み付けが、前のフレームのビデオ忠実度、前記前のフレームの知覚品質、および前記関心領域へのユーザ関心に少なくとも部分的に基づく
[35]記載のコンピュータ読み出し可能媒体。
[41]前記知覚品質が、前記前のフレームに関する時間品質値および空間品質値を含む[40]記載のコンピュータ読み出し可能媒体。
[42]前記時間品質値が、前記関心領域に関する第1の時間品質値と、前記関心領域外の前記ビデオフレームの区域に関する第2の時間品質値とを含む[41]記載のコンピュータ読み出し可能媒体。
[43]前記空間品質値が、前記関心領域に関する第1の空間品質値と、前記関心領域外の前記ビデオフレームの区域に関する第2の空間品質値とを含む[41]記載のコンピュータ読み出し可能媒体。
[44]前記空間品質値が、前記前のフレーム中のブロッキングアーチファクトの存在に少なくとも部分的に基づき、前記時間品質値が、前記前のフレーム中の時間的フリッカアーチファクトの存在に少なくとも部分的に基づく[41]記載のコンピュータ読み出し可能媒体。
[45]前記関心領域外の区域の符号化がスキップされるかどうかの指示に基づいて、前記ロー領域値を割り振ることを、前記プロセッサにさせる命令をさらに含む[35]記載のコンピュータ読み出し可能媒体。

Claims (34)

  1. ビデオ符号化システムに適用される方法であって、
    前記ビデオ符号化システムが、関心領域を含む符号化されるビデオフレームの品質メトリックを、前のフレームについてのピーク信号対雑音比に基づいた歪み値を含むビデオ忠実度、前記前のフレームにおける時間的フリッカのアーチファクトの存在に基づく時間品質値、前記前のフレームにおけるブロッキングのアーチファクトの存在に基づく空間品質値および前記関心領域についてのユーザ選好に基づいて生成すること、ここで、前記ユーザ選好は、ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、
    前記ビデオ符号化システムが、前記品質メトリックに少なくとも部分的に基づいて、ビデオフレーム内の関心領域(ROI)と前記ビデオフレーム内の前記関心領域外の区域(非関心領域)との間で、符号化ビットを割り振ること、
    を含み、前記符号化ビットを割り振ることは、
    前記ビデオフレームのレート割り当て量と、前記関心領域内のマクロブロックと前記非関心領域内のマクロブロックとの間における重み付けとに基づいて、フレーム内の各マクロブロックに対し、非ゼロの量子化されるAC係数の数を計算すること、
    各マクロブロックの前記非ゼロの量子化されるAC係数の数に基づき、前記関心領域と、前記非関心領域との間で、符号化ビットを割り振ること、
    現在のビデオフレームにおける前記非関心領域の符号化をスキップする場合には、スキップされなければ前記現在のビデオフレームにおける前記非関心領域に割り振られていたであろう符号化ビットを前記現在のビデオフレームにおける前記関心領域に再割り当てすること、
    を含む、方法。
  2. 前記時間品質値は、前記関心領域に対する第1の時間品質値と、前記非関心領域に対する第2の時間品質値とを含む請求項記載の方法。
  3. 前記空間品質値は、前記関心領域に対する第1の空間品質値と、前記非関心領域に対する第2の空間品質値とを含む請求項記載の方法。
  4. 符号化ビットを割り振ることは、さらに、前記非ゼロの量子化されるAC係数の数を、対応する量子化パラメータ(QP)の値にマップすること、
    を含む請求項1記載の方法。
  5. 前記品質メトリックは、前記ビデオフレームについて使用可能な符号化ビットの数を規定するレート割り当て量と、前記非関心領域の符号化がスキップされるかどうかの表示と、を含む請求項1記載の方法。
  6. 前記ビデオ符号化システムが、連続フレームをフレームユニットへグループ化することと、
    前記ビデオ符号化システムが、前記それぞれのフレームに関連する関心領域を符号化することと、
    前記ビデオ符号化システムが、前記フレームユニット中のフレームの少なくとも1つにおけるそれぞれの非関心領域の符号化をスキップすることと、
    をさらに含む請求項1記載の方法。
  7. 前のフレームユニットに関連する歪み値が閾値未満であるとき、前記フレームの少なくとも1つにおけるそれぞれの非関心領域の符号化を選択的にスキップすること、
    をさらに含む請求項記載の方法。
  8. 前記符号化されたビデオフレームは第1のビデオフレームであり、
    前記方法は、さらに、前記ビデオ符号化システムが、前記符号化ビットの割り振りに基づいて、第2のビデオフレームを符号化すること、を含む請求項1記載の方法。
  9. 関心領域を含むビデオフレームを符号化するビデオ符号化器と、
    前記ビデオフレームの品質メトリックを、前のフレームについてのピーク信号対雑音比に基づいた歪み値を含むビデオ忠実度、前記前のフレームにおける時間的フリッカのアーチファクトの存在に基づく時間品質値、前記前のフレームにおけるブロッキングのアーチファクトの存在に基づく空間品質値、および前記関心領域についてのユーザ選好に基づいて生成する品質メトリック計算器、ここで、前記ユーザ選好は、ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、
    前記品質メトリックに少なくとも部分的に基づいて、ビデオフレーム内の関心領域と、前記ビデオフレーム内の前記関心領域外のビデオフレームの区域(非関心領域)との間で、符号化ビットを割り振るビット割り振りモジュール、
    を備え、
    前記ビット割り振りモジュールは、
    前記ビデオフレームのレート割り当て量と、前記関心領域内のマクロブロックと前記非関心領域内のマクロブロックとの間における重み付けとに基づいて、フレーム内の各マクロブロックに対し、非ゼロの量子化されるAC係数の数を計算し、
    各マクロブロックの前記非ゼロの量子化されるAC係数の数に基づき、前記関心領域と前記非関心領域との間で、符号化ビットを割り振り、
    現在のビデオフレームにおける前記非関心領域の符号化をスキップする場合には、スキップされなければ前記現在のビデオフレームにおける前記非関心領域に割り振られていたであろう符号化ビットを前記現在のビデオフレームにおける前記関心領域に再割り当てする、
    デバイス。
  10. 前記時間品質値は、前記関心領域に対する第1の時間品質値と、前記非関心領域に対する第2の時間品質値とを含む請求項記載のデバイス。
  11. 前記空間品質値は、前記関心領域に対する第1の空間品質値と、前記非関心領域に対する第2の空間品質値とを含む請求項記載のデバイス。
  12. 前記ビット割り振りモジュールは、
    前記非ゼロの量子化されるAC係数の数を、対応する量子化パラメータ(QP)の値にマップする、
    請求項記載のデバイス。
  13. 前記品質メトリックは、前記ビデオフレームについて使用可能な符号化ビットの数を規定するレート割り当て量と、前記非関心領域の符号化がスキップされるかどうかの表示と、を含む請求項記載のデバイス。
  14. ビデオ符号化器に、連続フレームをフレームユニットへグループ化し、前記それぞれのフレームに関連する関心領域を符号化し、前記フレームユニット内のフレームの少なくとも1つにおけるそれぞれの非関心領域の符号化をスキップするように指示するスキッピングモジュールを、をさらに含む請求項に記載のデバイス。
  15. スキッピングモジュールは、前記ビデオ符号化器に、前のフレームユニットに関連する歪み値が閾値未満であるときは、前記フレームの少なくとも1つにおけるそれぞれの非関心領域の前記ビデオフレームの区域の符号化を選択的にスキップするように指示する、請求項14記載のデバイス。
  16. 無線通信チャネルを介して符号化されたビデオフレームを送信する無線送信機をさらに含み、前記デバイスは、移動テレビ電話を支援するように構成されている請求項記載のデバイス。
  17. 前記デバイスは、集積回路デバイスを備える、請求項に記載のデバイス。
  18. 前記符号化されたビデオフレームは第1のビデオフレームであり、前記ビデオ符号化器は、前記符号化ビットの割り振りに基づいて第2のビデオフレームを符号化する、請求項記載のデバイス。
  19. プロセッサに、関心領域を含む符号化されるビデオフレームの品質メトリックを、前のフレームについてのピーク信号対雑音比に基づいた歪み値を含むビデオ忠実度、前記前のフレームにおける時間的フリッカのアーチファクトの存在に基づく時間品質値、前記前のフレームにおけるブロッキングのアーチファクトの存在に基づく空間品質値、および前記関心領域についてのユーザ選好に基づいて生成させる命令と、ここで前記ユーザ選好は、ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、
    前記プロセッサに、前記品質メトリックに少なくとも部分的に基づいて、ビデオフレーム内の前記関心領域と、前記ビデオフレーム内の前記関心領域外の区域(非関心領域)との間で、符号化ビットを割り振らせる命令と、
    を含み、
    前記符号化ビットを割り振らせる命令は、
    前記プロセッサに、前記ビデオフレームのレート割り当て量と、前記関心領域内のマクロブロックと前記非関心領域内のマクロブロックとの間における重み付けとに基づいて、前記フレーム内の各マクロブロックに対し、非ゼロの量子化されるAC係数の数を計算させる命令と、
    前記プロセッサに、各マクロブロックの前記非ゼロの量子化されるAC係数の数に基づき、前記関心領域と前記非関心領域外のビデオフレームの区域との間で、符号化ビットを割り振らせる命令と、
    前記プロセッサに、現在のビデオフレームにおける前記非関心領域の符号化をスキップする場合には、スキップされなければ前記現在のビデオフレームにおける前記非関心領域に割り振られていたであろう符号化ビットを前記現在のビデオフレームにおける前記関心領域に再割り当てさせる命令と、
    を含む、コンピュータ読み出し可能記憶媒体。
  20. 前記時間品質値は、前記関心領域に対する第1の時間品質値と、前記非関心領域に対する第2の時間品質値とを含む請求項19記載のコンピュータ読み出し可能記憶媒体。
  21. 前記空間品質値は、前記関心領域に対する第1の空間品質値と、前記非関心領域に対する第2の空間品質値とを含む請求項19記載のコンピュータ読み出し可能記憶媒体。
  22. 前記非ゼロの量子化されるAC係数の数を、対応する量子化パラメータ(quantization parameter, QP)の値にマップさせる命令をさらに含む請求項19記載のコンピュータ読み出し可能記憶媒体。
  23. 前記品質メトリックは、前記ビデオフレームについて使用可能な符号化ビットの数を規定するレート割り当て量と、前記非関心領域の符号化がスキップされるかどうかの表示と、を含む請求項19記載のコンピュータ読み出し可能記憶媒体。
  24. 前記プロセッサに、
    連続フレームをフレームユニットへグループ化させ、
    前記それぞれのフレームに関連する関心領域を符号化させ、
    前記フレームユニットの少なくとも1つにおけるそれぞれの非関心領域の符号化をスキップさせる命令をさらに含む請求項19記載のコンピュータ読み出し可能記憶媒体。
  25. 前記プロセッサに、
    前のフレームユニットに関連する歪み値が閾値未満であるときは、前記フレームの少なくとも1つにおけるそれぞれの非関心領域の符号化を選択的にスキップさせる命令を、さらに含む請求項24記載のコンピュータ読み出し可能記憶媒体。
  26. 前記符号化されたビデオフレームは第1のビデオフレームであり、
    前記コンピュータ読み出し可能媒体は、前記プロセッサに、前記の符号化ビットの割り振りに基づいて第2のビデオフレームを符号化させる命令をさらに含む、
    請求項19記載のコンピュータ読み出し可能記憶媒体。
  27. 符号化されたビデオフレームについての関心領域を定義するための手段と、
    関心領域を含む前記符号化されるビデオフレームの品質メトリックを、前のフレームについてのピーク信号対雑音比に基づいた歪み値を含むビデオ忠実度、前記前のフレームにおける時間的フリッカのアーチファクトの存在に基づく時間品質値、前記前のフレームにおけるブロッキングのアーチファクトの存在に基づく空間品質値、および前記関心領域についてのユーザ選好に基づいて生成するための手段と、
    ユーザからユーザ選好値として前記ユーザ選好を得るための手段と、ここで前記ユーザ選好値は、前記ユーザの観点からの前記関心領域に対する重要度を示し、
    前記品質メトリックに少なくとも部分的に基づいて、ビデオフレーム内の関心領域と、前記ビデオフレーム内の前記関心領域外のビデオフレームの区域(非関心領域)との間で、符号化ビットを割り振るための手段と、
    を備え、
    前記符号化ビットを割り振るための手段は、
    前記ビデオフレームのレート割り当て量と、前記関心領域内のマクロブロックと前記非関心領域内のマクロブロックとの間における重み付けとに基づいて、前記フレーム内の各マクロブロックに対し、非ゼロの量子化されるAC係数の数を計算する手段と、
    各マクロブロックの前記非ゼロの量子化されるAC係数の数に基づき、前記関心領域と、前記非関心領域との間で、符号化ビットを割り振る手段と、
    現在のビデオフレームにおける前記非関心領域の符号化をスキップする場合には、スキップされなければ前記現在のビデオフレームにおける前記非関心領域に割り振られていたであろう符号化ビットを前記現在のビデオフレームにおける前記関心領域に再割り当てする手段と、
    を含む、デバイス。
  28. 前記時間品質値は、前記関心領域に対する第1の時間品質値と、前記非関心領域に対する第2の時間品質値とを含む請求項27記載のデバイス。
  29. 前記空間品質値は、前記関心領域に対する第1の空間品質値と、前記非関心領域に対する第2の空間品質値とを含む請求項27記載のデバイス。
  30. 前記符号化されたビデオフレームは第1のビデオフレームであり、前記デバイスは、前記割り振られたビットに基づいて第2のビデオフレームを符号化するための手段、をさらに備える請求項27記載のデバイス。
  31. 前記非ゼロの量子化されるAC係数の個数を、対応する量子化パラメータ(QP)の値にマップする手段、をさらに備える請求項27記載のデバイス。
  32. 前記品質メトリックは、前記ビデオフレームについて使用可能な符号化ビットの数を規定するレート割り当て量と、前記非関心領域の符号化がスキップされるかどうかの表示と、を含む請求項27記載のデバイス。
  33. 連続フレームをフレームユニットへグループ化し、それぞれのフレームに関連する関心領域を符号化し、前記フレームユニット中のフレームの少なくとも1つにおけるそれぞれの非関心領域の符号化をスキップする手段、をさらに備える請求項27記載のデバイス。
  34. 前のフレームユニットに関連する歪み値が閾値未満であるときは、前記フレームの少なくとも1つにおけるそれぞれの非関心領域の符号化を選択的にスキップする手段、をさらに備える請求項27記載のデバイス。
JP2011286337A 2005-03-01 2011-12-27 テレビ電話のための背景のスキッピングを用いた関心領域の符号化 Expired - Fee Related JP5301645B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US65800805P 2005-03-01 2005-03-01
US60/658,008 2005-03-01
US11/199,937 US8693537B2 (en) 2005-03-01 2005-08-09 Region-of-interest coding with background skipping for video telephony
US11/199,937 2005-08-09

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007558150A Division JP2008532429A (ja) 2005-03-01 2006-02-28 テレビ電話のための背景のスキッピングを用いた関心領域の符号化

Publications (2)

Publication Number Publication Date
JP2012110002A JP2012110002A (ja) 2012-06-07
JP5301645B2 true JP5301645B2 (ja) 2013-09-25

Family

ID=36560365

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007558150A Withdrawn JP2008532429A (ja) 2005-03-01 2006-02-28 テレビ電話のための背景のスキッピングを用いた関心領域の符号化
JP2011286337A Expired - Fee Related JP5301645B2 (ja) 2005-03-01 2011-12-27 テレビ電話のための背景のスキッピングを用いた関心領域の符号化

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007558150A Withdrawn JP2008532429A (ja) 2005-03-01 2006-02-28 テレビ電話のための背景のスキッピングを用いた関心領域の符号化

Country Status (5)

Country Link
US (1) US8693537B2 (ja)
EP (2) EP1854302A2 (ja)
JP (2) JP2008532429A (ja)
KR (1) KR100957472B1 (ja)
WO (1) WO2006094001A2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060062478A1 (en) * 2004-08-16 2006-03-23 Grandeye, Ltd., Region-sensitive compression of digital video
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US8693537B2 (en) 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US7583287B2 (en) * 2005-03-22 2009-09-01 Microsoft Corp. System and method for very low frame rate video streaming for face-to-face video conferencing
US7659920B2 (en) * 2005-03-22 2010-02-09 Microsoft Corp. System and method for very low frame rate teleconferencing employing image morphing and cropping
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US20100111163A1 (en) * 2006-09-28 2010-05-06 Hua Yang Method for p-domain frame level bit allocation for effective rate control and enhanced video encoding quality
WO2008057285A2 (en) * 2006-10-27 2008-05-15 Vidient Systems, Inc. An apparatus for image capture with automatic and manual field of interest processing with a multi-resolution camera
US8761248B2 (en) * 2006-11-28 2014-06-24 Motorola Mobility Llc Method and system for intelligent video adaptation
US8446454B2 (en) 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
US9239958B2 (en) 2007-11-09 2016-01-19 The Nielsen Company (Us), Llc Methods and apparatus to measure brand exposure in media streams
KR20090062049A (ko) * 2007-12-12 2009-06-17 삼성전자주식회사 영상 데이터 압축 전처리 방법 및 이를 이용한 영상 데이터압축 방법과, 영상 데이터 압축 시스템
EP2101503A1 (en) * 2008-03-11 2009-09-16 British Telecommunications Public Limited Company Video coding
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
EP2200319A1 (en) 2008-12-10 2010-06-23 BRITISH TELECOMMUNICATIONS public limited company Multiplexed video streaming
EP2219342A1 (en) 2009-02-12 2010-08-18 BRITISH TELECOMMUNICATIONS public limited company Bandwidth allocation control in multiple video streaming
CN102170552A (zh) * 2010-02-25 2011-08-31 株式会社理光 一种视频会议系统及其中使用的处理方法
FR2963190B1 (fr) 2010-07-23 2013-04-26 Canon Kk Procede et dispositif de codage d'une sequence d'images
US9247203B2 (en) 2011-04-11 2016-01-26 Intel Corporation Object of interest based image processing
KR101764372B1 (ko) * 2011-04-19 2017-08-03 삼성전자주식회사 휴대용 단말기에서 영상 합성 방법 및 장치
US9414086B2 (en) * 2011-06-04 2016-08-09 Apple Inc. Partial frame utilization in video codecs
US8525883B2 (en) * 2011-09-02 2013-09-03 Sharp Laboratories Of America, Inc. Methods, systems and apparatus for automatic video quality assessment
US20130286227A1 (en) * 2012-04-30 2013-10-31 T-Mobile Usa, Inc. Data Transfer Reduction During Video Broadcasts
US20140198838A1 (en) * 2013-01-15 2014-07-17 Nathan R. Andrysco Techniques for managing video streaming
US20140254659A1 (en) * 2013-03-11 2014-09-11 Mediatek Inc. Video coding method using at least evaluated visual quality and related video coding apparatus
GB2514540B (en) * 2013-04-10 2020-01-08 Microsoft Technology Licensing Llc Resource for encoding a video signal
WO2014175919A1 (en) 2013-04-26 2014-10-30 Intel IP Corporation Shared spectrum reassignment in a spectrum sharing context
TWI504240B (zh) 2013-05-31 2015-10-11 Vatics Inc 視訊處理方法、視訊顯示方法以及視訊處理裝置
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
US9386275B2 (en) * 2014-01-06 2016-07-05 Intel IP Corporation Interactive video conferencing
US9516220B2 (en) 2014-10-02 2016-12-06 Intel Corporation Interactive video conferencing
EP3029937B1 (en) 2014-12-03 2016-11-16 Axis AB Method and encoder for video encoding of a sequence of frames
US10021346B2 (en) 2014-12-05 2018-07-10 Intel IP Corporation Interactive video conferencing
US9729885B2 (en) * 2015-02-11 2017-08-08 Futurewei Technologies, Inc. Apparatus and method for compressing color index map
CN105407352A (zh) * 2015-11-23 2016-03-16 小米科技有限责任公司 图像压缩方法、装置及服务器
US20170359575A1 (en) * 2016-06-09 2017-12-14 Apple Inc. Non-Uniform Digital Image Fidelity and Video Coding
US10277914B2 (en) * 2016-06-23 2019-04-30 Qualcomm Incorporated Measuring spherical image quality metrics based on user field of view
RU2654126C2 (ru) * 2016-09-09 2018-05-16 Общество с ограниченной ответственностью "Спирит Корп" Способ и устройство высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности для запоминания в системах хранения данных
KR20180040451A (ko) * 2016-10-12 2018-04-20 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
US11019349B2 (en) * 2017-01-20 2021-05-25 Snap Inc. Content-based client side video transcoding
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
CN114245987A (zh) * 2019-08-07 2022-03-25 谷歌有限责任公司 用于视频通话的基于面部的帧速率上采样
CN111277827B (zh) 2020-02-24 2022-12-20 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及可读存储介质
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities
US11895336B2 (en) * 2021-04-02 2024-02-06 Qualcomm Incorporated Picture orientation and quality metrics supplemental enhancement information message for video coding

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04290088A (ja) 1991-03-19 1992-10-14 Seiko Epson Corp テレビ電話
JPH04354489A (ja) 1991-05-31 1992-12-08 Fujitsu Ltd 画像符号化装置
JP2915248B2 (ja) 1993-05-07 1999-07-05 沖電気工業株式会社 画像通信システム
US5347311A (en) 1993-05-28 1994-09-13 Intel Corporation Method and apparatus for unevenly encoding error images
US6798834B1 (en) * 1996-08-15 2004-09-28 Mitsubishi Denki Kabushiki Kaisha Image coding apparatus with segment classification and segmentation-type motion prediction circuit
US5506844A (en) 1994-05-20 1996-04-09 Compression Labs, Inc. Method for configuring a statistical multiplexer to dynamically allocate communication channel bandwidth
US5881176A (en) * 1994-09-21 1999-03-09 Ricoh Corporation Compression and decompression with wavelet style and binary style including quantization by device-dependent parser
JP3086396B2 (ja) * 1995-03-10 2000-09-11 シャープ株式会社 画像符号化装置及び画像復号装置
US6023301A (en) * 1995-07-14 2000-02-08 Sharp Kabushiki Kaisha Video coding device and video decoding device
GB2306831B (en) 1995-10-30 2000-05-24 Sony Uk Ltd Video data compression
WO1998011730A1 (en) 1996-09-12 1998-03-19 Btg International Limited Object-oriented video system
US6111991A (en) 1998-01-16 2000-08-29 Sharp Laboratories Of America Method and apparatus for optimizing quantizer values in an image encoder
FR2760872B1 (fr) 1997-03-17 2000-06-09 Alsthom Cge Alcatel Procede d'optimisation de la compression de donnees d'image, a selection automatique de conditions de compression
US5940124A (en) 1997-07-18 1999-08-17 Tektronix, Inc. Attentional maps in objective measurement of video quality degradation
SE512291C2 (sv) * 1997-09-23 2000-02-28 Ericsson Telefon Ab L M Inbäddad DCT-baserad stillbildskodningsalgoritm
JPH11136674A (ja) 1997-10-31 1999-05-21 Casio Comput Co Ltd 画像符号化方法及び記憶媒体
CN100481946C (zh) 1998-03-20 2009-04-22 三菱电机株式会社 编码和解码及压缩图像的方法和装置
CN1175373C (zh) 1998-03-20 2004-11-10 三菱电机株式会社 有损失/无损失感兴趣区域图像编码的方法和系统
US6396956B1 (en) * 1998-03-31 2002-05-28 Sharp Laboratories Of America, Inc. Method and apparatus for selecting image data to skip when encoding digital video
WO2000009993A1 (fr) * 1998-08-10 2000-02-24 Mitsubishi Denki Kabushiki Kaisha Dispositif de verification de cartes a circuit imprime
US6263021B1 (en) 1998-09-18 2001-07-17 Sarnoff Corporation Treating non-zero quantized transform coefficients as zeros during video compression processing
US6256423B1 (en) * 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
KR100323683B1 (ko) 1998-09-18 2002-02-07 구자홍 움직임 추정을 수행하지 않고 프레임 스킵핑하는 방법
US6215779B1 (en) 1998-09-22 2001-04-10 Qualcomm Inc. Distributed infrastructure for wireless data communications
US6493023B1 (en) * 1999-03-12 2002-12-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Method and apparatus for evaluating the visual quality of processed digital video sequences
JP3889178B2 (ja) 1999-03-25 2007-03-07 富士通株式会社 解像度変換画像圧縮復号装置
GB9912079D0 (en) 1999-05-24 1999-07-21 Motorola Ltd An image encoding method and apparatus
EP1101358B1 (en) * 1999-05-27 2009-07-01 IPG Electronics 503 Limited Encoding a video signal with high resolution encoding for regions of interest
US6263022B1 (en) * 1999-07-06 2001-07-17 Philips Electronics North America Corp. System and method for fine granular scalable video with selective quality enhancement
US6462264B1 (en) 1999-07-26 2002-10-08 Carl Elam Method and apparatus for audio broadcast of enhanced musical instrument digital interface (MIDI) data formats for control of a sound generator to create music, lyrics, and speech
JP2001045485A (ja) 1999-07-30 2001-02-16 Sony Corp 動画像符号化装置及び方法、復号装置及び方法、並びに画像記録再生装置
US6879723B1 (en) * 1999-11-12 2005-04-12 8X8, Inc. Method and apparatus for encoding frames of image data at a varying quality level
DE10006493C2 (de) * 2000-02-14 2002-02-07 Hilti Ag Verfahren und Vorrichtung zur optoelektronischen Entfernungsmessung
US7020335B1 (en) * 2000-11-21 2006-03-28 General Dynamics Decision Systems, Inc. Methods and apparatus for object recognition and compression
JP2002185966A (ja) 2000-12-15 2002-06-28 Matsushita Electric Ind Co Ltd 映像符号化装置
JP2002300581A (ja) 2001-03-29 2002-10-11 Matsushita Electric Ind Co Ltd 映像符号化装置、及び映像符号化プログラム
US7209519B2 (en) * 2001-04-16 2007-04-24 Mitsubishi Electric Research Laboratories, Inc. Encoding a video with a variable frame-rate while minimizing total average distortion
US6671324B2 (en) 2001-04-16 2003-12-30 Mitsubishi Electric Research Laboratories, Inc. Estimating total average distortion in a video with variable frameskip
KR100643454B1 (ko) * 2001-11-17 2006-11-10 엘지전자 주식회사 영상 데이터 전송 제어방법
GB2382940A (en) * 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
JP4153202B2 (ja) * 2001-12-25 2008-09-24 松下電器産業株式会社 映像符号化装置
DE10300048B4 (de) * 2002-01-05 2005-05-12 Samsung Electronics Co., Ltd., Suwon Verfahren und Vorrichtung zur Bildcodierung und -decodierung
AU2003280512A1 (en) 2002-07-01 2004-01-19 E G Technology Inc. Efficient compression and transport of video over a network
KR100484148B1 (ko) * 2002-07-27 2005-04-18 삼성전자주식회사 개선된 비트율 제어 방법과 그 장치
AU2003259487A1 (en) 2002-09-06 2004-03-29 Koninklijke Philips Electronics N.V. Content-adaptive multiple description motion compensation for improved efficiency and error resilience
JP4129913B2 (ja) 2002-12-12 2008-08-06 株式会社リコー 画像処理装置及び画像処理方法
US8693537B2 (en) 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US9667980B2 (en) * 2005-03-01 2017-05-30 Qualcomm Incorporated Content-adaptive background skipping for region-of-interest video coding
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US8019170B2 (en) * 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8208758B2 (en) * 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection

Also Published As

Publication number Publication date
KR20070114797A (ko) 2007-12-04
JP2012110002A (ja) 2012-06-07
KR100957472B1 (ko) 2010-05-14
WO2006094001A2 (en) 2006-09-08
EP2046048A2 (en) 2009-04-08
EP1854302A2 (en) 2007-11-14
US8693537B2 (en) 2014-04-08
EP2046048A3 (en) 2013-10-30
JP2008532429A (ja) 2008-08-14
WO2006094001A3 (en) 2007-01-04
US20060238445A1 (en) 2006-10-26

Similar Documents

Publication Publication Date Title
JP5301645B2 (ja) テレビ電話のための背景のスキッピングを用いた関心領域の符号化
JP5301720B2 (ja) ロー領域ビット割り振りを使用するテレビ電話における関心領域の符号化
JP5410553B2 (ja) テレビ電話のための品質メトリックバイアス関心領域コーディング
JP2008532427A5 (ja)
US9667980B2 (en) Content-adaptive background skipping for region-of-interest video coding
JP2008532428A5 (ja)
CN101164343B (zh) 用于视频电话的具有背景跳过的关注区编码
US20070031050A1 (en) Method and apparatus for bit rate control for image encoding
Wang et al. Joint adaptive background skipping and weighted bit allocation for wireless video telephony

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130619

R150 Certificate of patent or registration of utility model

Ref document number: 5301645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees