JP2007515097A

JP2007515097A - ビデオ符号化方法及び装置

Info

Publication number: JP2007515097A
Application number: JP2006537481A
Authority: JP
Inventors: オリファーミーテンス，シュテファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-11-07
Filing date: 2004-11-01
Publication date: 2007-06-07
Also published as: CN1894725A; EP1683110A1; WO2005045764A1; KR20060118459A; US20070025440A1

Abstract

本発明は、それぞれのフレームがブロックに分割される連続するフレームのグループからなる入力画像系列を符号化するために提供されるビデオ符号化方法、ｏｙｏｂｉ対応するビデオ符号化装置に関する。本方法及び装置は、それぞれのフレームについて計算された、コンテンツ変化強度（ＣＳＳ）に基づいて前記系列を前処理し、それぞれのブロックについて予測された動きベクトルを使用して予測されたフレームを生成し、現在のフレームと最後に予測されたフレームとの間の差信号に、複数の係数を生成する変換サブステップ、続いて前記係数の量子化サブステップを適用し、前記量子化された係数を符号化する。本発明によれば、ＣＳＳは、このサブステップで使用された量子化ファクタを変更するために前記量子化サブステップで使用され、ＣＳＳ及び量子化ファクタは、同時に増加又は減少する。

Description

本発明は、それ自身がブロックに分割される連続するフレームのグループからなる入力画像系列を符号化するために供給されるビデオ符号化方法に関し、当該方法は、ある予め決定されたルールを適用することでそれぞれのフレームについて計算された、いわゆるＣＣＳ（Content-Change Strength）に基づいて前記系列を前処理するステップ、現在のフレームのそれぞれのブロックについて動きベクトルを予測するステップ、現在のフレームのブロックにそれぞれ関連する動きベクトルを使用して予測されたフレームを生成するステップ、前記現在のフレームと最後に予測されたフレームとの間の差信号に、複数の係数を生成する変換サブステップ、続いて前記係数の量子化サブステップを適用するステップ、及び前記量子化された係数を符号化するステップを含んでいる。

本発明は、たとえば、たとえば（動き予測及び補償装置のような）時間的な冗長度を低減するための基準フレームを必要とするビデオ符号化装置に適用することができる。かかる動作は、現在のビデオ符号化規格の一部であり、将来的な符号化規格の類似の部分としても期待される。ビデオ符号化技術は、たとえば、デジタルカメラ、モバイルフォン又はデジタルビデオ記録装置のような装置で使用される。さらに、ビデオを符号化又はコード変換するための用途は、本発明に係る技術を使用して拡張される。

ビデオ圧縮では、符号化されたビデオ系列の送信のための低いビットレートは、（とりわけ）連続するピクチャの間の時間的な冗長度の低減により得られる場合がある。かかる低減は、動き予測（ＭＥ）及び動き補償（ＭＣ）技術に基づいている。しかし、ビデオ系列の現在のフレームについてＭＥ及びＭＣを実行することは、基準フレーム（いわゆるアンカーフレーム）を必要とする。ＭＰＥＧ−２を例としてとると、異なるフレームタイプ、すなわちＩ、Ｐ及びＢフレームが定義されており、このためにＭＥ及びＭＣは異なって実行される。Ｉフレーム（イントラフレーム）は、過去又は将来のフレームを参照することなしに（すなわちＭＥ及びＭＣなしに）、それ自身により独立に符号化され、Ｐフレーム（又は前方予測ピクチャ）は、過去のフレームにそれぞれ１つが相対的に符号化され（すなわち前の基準フレームからの動き補償により）、さらに、Ｂフレーム（又は双方向予測フレーム）は、２つの参照フレーム（過去のフレーム及び将来のフレーム）と相対的に符号化される。Ｉフレーム及びＰフレームは、参照フレームとしての役割を果たす。

良好なフレーム予測を得るため、これらの基準フレームは、高い品質である必要があり、すなわち多くのビットがそれらを符号化するための費やされる必要があり、基準フレーム以外のフレームは、低品質である（この理由のため、多くの数の基準フレーム以外のフレーム、ＭＰＥＧ−２のケースではＢフレームが一般に低いビットレートとなる）。どの入力フレームがＩフレーム、Ｐフレーム又はＢフレームとして処理されるかを示すため、グループ・オブ・ピクチャ（ＧＯＰ）に基づいた構造は、ＭＰＥＧ−２で定義される。より正確には、ＧＯＰは、２つのパラメータＮ、Ｍを使用し、ここでＮは２つのＩフレーム間の時間的な距離であり、Ｍは基準フレーム間の時間的な距離である。たとえば、（Ｎ，Ｍ）−ＧＯＰ（Ｎ＝１２及びＭ＝４）が一般に使用され、“ＩＢＢＢＰＢＢＢＰＢＢＢ”構造を定義する。

連続するフレームは、フレーム間のより大きな時間的な距離を有するフレームよりも高い時間的な相関を一般に有する。それゆえ、一方で基準フレームと現在予測されるフレームとの間の短い時間距離は、高い予測品質につながるが、他方で、基準フレーム以外のフレームが使用されなくなることを意味する。高い予測品質及び多くの数の基準フレーム以外のフレームの両者により。低いビットレートとなるが、フレーム予測品質が短い時間的な距離のみから生じるので互いに機能する。

しかし、かかる品質は、基準として実際に役割を果たすために基準フレームの有効性に依存する。たとえば、シーン変化のちょうど前に位置される基準フレームにより、シーン変化の直後に位置されるフレームの予測は、たった１つのフレーム距離を有する場合があるが、前記基準フレームに関して可能ではないことが明らかである。他方で、（ビデオ会議又はニュースのような）定常状態又はほぼ定常状態のシーンでは、１００を超えるフレーム距離でさえも、高い品質予測となる。

先に記載された例から、一般に使用される（１２，４）−ＧＯＰのような固定されたＧＯＰ構造は、ビデオ系列を符号化するために効率的ではない。これは、シーン変化のちょうど前に位置される場合に、定常状態のコンテンツのケースで、又は不適切な位置で、基準フレームが余りに頻繁に導入されるためである。シーン変化の検出は、公知の技術であり、（この位置でＩフレームが位置されない場合）良好なフレーム予測がシーン変化のために可能ではない位置でＩフレームを導入するために利用することができる。しかし、シーン変化を全くなしで（たとえば、テニスプレーヤが１つのシーンに連続して続くシーケンスでは）、フレームコンテンツが高い動きを有するフレームの後に完全に異なる場合には、系列はかかる技術から利益を得ない。前の欧州特許出願は、出願番号０３３００１５５．３（ＰＨＦＲ０３０１２４）により２００３年１０月１４日に出願人により既に提出されており、良好な基準フレームを発見するための新たな方法を記載している。この方法は、以下に再び引用される。

したがって、本発明の目的は、基準フレームとしての役割を果たすことができる良好なフレームを発見し、符号化コストを著しく低減することができる、先の方法に基づいたビデオ符号化方法を提案することにある。

上記目的を達成するため、本発明は、明細書の導入節で定義されたようなビデオ符号化方法に関するものであって、前記ＣＣＳは、前記量子化サブステップで使用される量子化ファクタを変更するために前記量子化サブステップで使用され、前記ＣＣＳ及び前記量子化ファクタは、同時に増加又は減少する。
また、本発明は、かかる方法を実現するための装置に関する。

本発明は、添付図面を参照して、例示を介して記載される。
先に引用された文献は、符号化コストを低減するため、入力系列におけるどのフレームが基準フレームとしての役割を果たすかを発見するための方法を記載する。この方法の原理は、以下に示され図１に例示されるように、幾つかのシンプルなルールに基づいてコンテンツ変化の強度を測定することであり、図１では、水平軸は、関与するフレームの数に対応し、垂直軸は、コンテンツ変化の強度のレベルに対応し、測定されたコンテンツ変化の強度は、複数のレベルの量子化され（たとえば５レベル、かかる数は制約ではない）、Ｉフレームはレベル０のコンテンツ変化の強度（ＣＣＳ）を有するフレーム系列の開始で挿入され、Ｐフレームは、ＣＣＳのレベル増加が生じる前、又はＣＣＳのレベル減少が生じる後に挿入される。測定は、たとえば、水平及び垂直エッジ、ルミナンス、動きベクトル等に基づいた他のタイプの速度を検出するシンプルなブロック分類である場合がある。

ＭＰＥＧ符号化ケースにおけるこの前の方法の実現は、図２に示される。エンコーダは、符号化ブランチ１０１及び予測ブランチ１０２を有する。ブランチ１０１により受信され、符号化されるべき信号は、係数に変換され、ＤＣＴ及び量子化モジュール１１で量子化され、量子化された係数は、動きベクトルＭＶと共に符号化モジュール１３で符号化される。予測ブランチ１０２は、ＤＣＴ及び量子化モジュール１１の出力で利用可能な信号を入力信号として受け、直列で、逆量子化及び逆ＤＣＴモジュール２１、加算器２３、フレームメモリ２４、動き補償（ＭＣ）回路２５及び減算器２６を有している。ＭＣ回路２５は、記録されたフレーム（以下に説明されるように定義される）の入力、及びフレームメモリ２４の出力からの動き予測（ＭＥ）回路２７により生成された動きベクトルＭＶ（多くのタイプの動き予測器が使用される場合がある）を受信し、これらの動きベクトルは、符号化モジュール１３に向けて送出され、その出力“ＭＰＥＧ出力”は、多重化されたビットストリームの形式で送信される。

エンコーダのビデオ入力（連続するフレームＸ_n）は、前処理ブランチ１０３で前処理される。はじめに、回路３１を定義するＧＯＰ構造は、ＧＯＰの構造を連続するフレームから定義するために設けられる。フレームメモリ３２ａ，３２ｂ，．．．は、回路３１の出力で利用可能なＩ，Ｐ，Ｂフレームの系列を再び順序付けするために設けられる（基準フレームは、基準フレーム以外のフレーム基準フレームに依存する前に符号化及び送信される必要がある）。これら再び順序付けされたフレームは、減算器２６の正の入力で送出される（その負の入力は、先に記載されたように、ＭＣ回路２５の出力で利用可能な出力予測フレームを受け、これら出力予測フレームは、加算器２３の第二の入力に送出される）。減算器２６の出力は、符号化ブランチ１０１により処理される、符号化されるべき信号であるフレームの差を伝達する。ＧＯＰ構造の定義について、ＣＣＳ計算回路３３が定義される。

動きから生じるＣＣＳが高くなると、視聴者が提供されるビデオに追従できないことが観察される。本発明によれば、ＣＣＳの機能としてモジュール１１で使用される量子化ファクタを増加又は減少することが結果的に提案され、前記ＣＣＳ及び量子化ファクタは、同時に増加又は減少し、これは、符号化ブランチのＤＣＴ及び量子化モジュール１１に向けてＣＣＳ計算回路の出力情報を送出することで得られる。図３の従来の部分で記載されるように（図３は本発明の説明に関して次のパラグラフで導入される）、確かに、符号化モジュール１３は、バッファメモリと直列に配置される可変長符号化（ＶＬＣ）回路から構成され、前記メモリの出力は、量子化ファクタを変更するためにレート制御回路１３３に向かって送出される。

本発明によれば、図３に示されるように、類似の回路は図２におけるのと同じ参照符号により示され、量子化ファクタの提案される変更を実現するのを可能とすることが意図される更なるコネクション２００は、ＣＣＳ計算回路３３とレート制御回路１３３との間、前記回路３３と符号化ブランチのＤＣＴ及び量子化モジュール１１との間に設けられる。このコネクション２００は、符号化システムの２つの符号化モードである、いわゆる（ビットレート制御をもたない）開ループ符号化モードと、（ビットレート制御をもつ）閉ループ符号化モードを拡張する。

たとえな、開ループ符号化モードでは、量子化器の設定が通常は固定される。符号化されたストリームの結果的に得られるビットレートは、（符号化されるべき残りの必要が高い）複雑なシーンについてよりも（符号化されるべき残りの必要な低い）シンプルなシーンについて自動的に低い。系列が高い動きを含む先に記載された符号化領域は、高いビットレートで符号化される複雑なシーンが得られる。高い動きのシーンのビットレートは、高い量子化により低減することができ、観察者が動きのために追従することができないこれらのシーンの空間的な詳細を除く。量子化は、量子化ファクタｑ＿ｃｃｓを定義することで制御することができ、このファクタは、ＣＳＳと、オリジナルの固定された量子化器ファクタ、いわゆるｑ＿ｆｉｘｅｄとからなる関数である
ｑ＿ｃｃｓ＝ｑ＿ｆｉｘｅｄ＋ｆ（ＣＳＳ）
ここで、ｆ（）は、ｑ＿ｆｉｘｅｄから許容される最大値ｑ＿ｍａｘにまでｑ＿ｃｃｓを増加するため、正の整数０，．．．（ｑ＿ｍａｘ−ｑ＿ｆｉｘｅｄ）となる関数である。ｆ（）の例は、ＣＣＳ＝０〜ＣＣＳ＿ｍａｘについて、ｆ１（ＣＣＳ）＝ｒｏｕｎｄ（ＣＣＳ*（ｑ＿ｍａｘ−ｑ＿ｆｉｘｅｄ）／（ＣＣＳ＿ｍａｘ））、又はｆ２（ＣＣＳ）＝ｒｏｕｎｄ（（ｑ＿ｍａｘ−ｑ＿ｆｉｘｅｄ＋１））＾（ＣＣＳ／ＣＣＳ＿ｍａｘ）−１）である。

閉ループ符号化では、量子化ファクタｑ＿ａｄａｐｔは、所望の予め定義されたビットレートを達成するために調整される。閉ループ符号化について必要とされるビットレートコントローラは、ビットバジェット（予算）で基本的に機能し、利用可能なバジェットバジェットに基づいてｑ＿ａｄａｐｔを選択する。これは、開ループ符号化について記載されたような量子化ファクタｑ＿ｃｓｓを使用することができ、ｑ＿ｆｉｘｅｄのみがｑ＿ａｄａｐｔと置き換えられる必要があることを意味する。次いで、変更されないレートコントローラに比較して、ビットバジェットは高いＣＣＳと共に増加し、これら更なるビットは、ｑ＿ａｄａｐｔ値は増加されたビットバジェットのために減少するため、より低いＣＣＳをもつフレームで自動的に費やされる。

前に引用された先の欧州特許出願で与えられる記載に従って、符号化されるべきビデオ系列の基準フレームの位置を定義するために使用されるルールを例示する図である。例としてＭＰＥＧ−２を採用した、先の欧州特許出願で記載される符号化方法を実行するエンコーダを示す図である。本発明に係る符号化方法を実行するエンコーダを示す図である。

Claims

それ自身がブロックに分割される連続するフレームのグループからなる入力画像系列を符号化するために提供されるビデオ符号化方法であって、
当該方法は、
予め決定されたルールを適用することでそれぞれのフレームについて計算された、コンテンツ変化強度（CSS：Content-Change Strength）に基づいて前記系列を前処理するステップと、
フレームのそれぞれのブロックについて動きベクトルを予測するステップと、
現在のフレームのブロックにそれぞれ関連する前記動きベクトルを使用して予測されたフレームを生成するステップと、
前記現在のフレームと最後に予測されたフレームとの間の差信号に、複数の係数を生成する変換サブステップ、続いて前記係数の量子化サブステップを適用するステップと、
前記量子化された係数を符号化するステップとを含み、
前記ＣＳＳは、前記量子化サブステップで使用された量子化ファクタを変更するために前記量子化サブステップで使用され、
前記ＣＳＳ及び量子化ファクタは、同時に増加又は減少する、
ことを特徴とするビデオ符号化方法。
それ自身がブロックに分割される連続するフレームのグループからなる入力画像系列を符号化するために提供されるビデオ符号化装置であって、
当該装置は、
予め決定されたルールを適用することでそれぞれのフレームについて計算された、コンテンツ変化強度（CSS：Content-Change Strength）に基づいて前記系列を前処理するために設けられる前処理手段と、
フレームのそれぞれのブロックについて動きベクトルを予測するために設けられる予測手段と、
現在のフレームのブロックにそれぞれ関連する前記動きベクトルに基づいて予測されたフレームを生成するために設けられる生成手段と、
前記現在のフレームと最後に予測されたフレームとの間の差信号に、複数の係数を生成する変換を適用し、続いて前記係数の量子化を適用するために設けられる変換及び量子化手段と、
前記量子化された係数を符号化するために設けられている符号化手段とを有し、
前記処理手段の出力は、前記量子化で使用された量子化ファクタを前記ＣＳＳに基づいて変更するために前記変換及び量子化手段の入力で受信され、
前記ＣＳＳ及び量子化ファクタは、同時に増加又は減少する、
ことを特徴とするビデオ符号化装置。