JP2004289796A - 画像のシーケンスを適応的に符号化するシステムおよび方法 - Google Patents

画像のシーケンスを適応的に符号化するシステムおよび方法 Download PDF

Info

Publication number
JP2004289796A
JP2004289796A JP2003401795A JP2003401795A JP2004289796A JP 2004289796 A JP2004289796 A JP 2004289796A JP 2003401795 A JP2003401795 A JP 2003401795A JP 2003401795 A JP2003401795 A JP 2003401795A JP 2004289796 A JP2004289796 A JP 2004289796A
Authority
JP
Japan
Prior art keywords
field
frame
encoding
image
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003401795A
Other languages
English (en)
Other versions
JP4391810B2 (ja
Inventor
Ximin Zhang
シーミン・ジャン
Vetro Anthony
アンソニー・ヴェトロ
Huifang Sun
ハイファン・スン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2004289796A publication Critical patent/JP2004289796A/ja
Application granted granted Critical
Publication of JP4391810B2 publication Critical patent/JP4391810B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/112Selection of coding mode or of prediction mode according to a given display mode, e.g. for interlaced or progressive display mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】動きのアクティビティを考慮した効果的なレート制御を有する適応型フィールド/フレーム符号化方法を提供する。
【解決手段】画像は2つのフィールドからなる映像信号である。まず、トップフィールドとボトムフィールドとに分離される。次に動きアクティビティが、トップフィールドおよびボトムフィールドから抽出され、各画像は、抽出された動きアクティビティに応じてフレーム符号化またはフィールド符号化のいずれかのモードで符号化される。
【選択図】図7

Description

この発明は、包括的には、ビデオ圧縮の分野に関し、詳細には、インタレースされたビットストリームのフィールドレベル符号化またはフレームレベル符号化を内容に基づいて選択することに関する。
ビデオ圧縮は、視聴覚情報の記憶、送信、および処理を、より少ない記憶リソース、ネットワークリソース、およびプロセッサリソースで可能にする。最も広く使用されているビデオ圧縮の標準規格には、動画の記憶および検索用のMPEG−1、ディジタルテレビ用のMPEG−2、ならびに低ビットレートのビデオ通信用のMPEG−4およびH.263が含まれる。これらについては、ISO/IEC 11172-2:1991「Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbps」、ISO/IEC 13818-2:1994「Information technology - generic coding of moving pictures and associated audio」、ISO/IEC 14496-2:1999「Information technology - coding of audio/visual objects」、およびITU-T「Video Coding for Low Bitrate Communication」Recommendation H.263, March 1996を参照されたい。
こられの標準規格は、画像またはフレームの空間圧縮、ならびにフレームのシーケンスの空間圧縮および時間圧縮を主に取り扱う比較的低レベルの仕様である。共通の特徴として、これらの標準規格は、各画像単位で圧縮を実行する。これらの標準規格により、広範囲のアプリケーションに対して高い圧縮率を達成することができる。
インタレースビデオは、一般に、走査形式のテレビシステムに使用される。インタレースビデオでは、ビデオの各画像は、トップフィールドとボトムフィールドに分割される。これら2つのインタレースされたフィールドは、画像の奇数番号の画素(ピクセル)行または画素ライン、および、偶数番号の画素行または画素ラインを表す。これら2つのフィールドは、異なった時間にサンプリングされ、これにより、再生中のビデオの時間的なスムーズさが改善される。プログレッシブビデオ走査形式と比較して、インタレースビデオは、異なる特性を有し、より多くの符号化オプションを提供する。
図1に示すように、1つの16×16のフレームベースのマクロブロック110は、2つの16×8のフィールドベースのブロック111および112に分割することができる。この点で、離散コサイン変換(DCT)(discrete cosine transform)をビデオのフレームまたはフィールドのいずれかに適用することができる。また、現フレームまたは現フィールドのブロックが、前フレームまたは前フィールドから予測される点で、大幅な柔軟性も得られる。これらのさまざまな符号化オプションが、さまざまな圧縮効果を提供するので、フレーム符号化モードまたはフィールド符号化モードを選択する適応型方法は、望ましい方法である。
MPEG−2標準規格に含まれるフレームおよびフィールドの符号化ツールは、Puri等著の「Adaptive Frame/Field Motion Compensated Video Coding」Signal Processing: Image Communications, 1993およびNetravali等著の「Digital Pictures: Representation Compression and Standards」Second Edition, Plenum Press, New York, 1995に記載されている。映像レベル符号化モードを選択する適応型方法は、それらの2つの参考文献には記載されていない。
1992年12月1日にKutkaに交付された「Method for a calculation of a decision result for a field/frame data compression method」という発明の名称の米国特許第5,168,357号は、HDTVビデオの各16×16マクロブロックの変換タイプを判定する方法を記載しており、具体的には、16×16フレームブロックDCTまたは16×8フィールドブロックDCTの選択を記載している。その方法では、同じフィールドの2つのラインのフィールドピクセル対の差の絶対値の総和が求められ、フィールド総和が作成される。同様に、フレームの2つのラインのフレームピクセル対の差の絶対値の総和が求められ、フレーム総和が作成される。フレーム合計にフレームの重み係数を乗算したものを、フィールド合計から差し引くことにより、判定結果が形成される。判定結果が正の場合には、フレームが符号化され、そうでない場合には、2つのフィールドが別々に符号化される。
1993年7月13日にPuri他に交付された「Adaptive coding and decoding of frames and fields of video」という発明の名称の米国特許第5,227,878号は、ビデオの符号化および復号化の方法を記載している。その方法では、フレームの符号化用に、4つの8×8輝度サブブロックが、マクロブロックから作成される。フィールドの符号化用に、各サブブロックが1つのフィールドのラインのみを含むように2つのフィールドのラインを分離することによって、4つの8×8輝度サブブロックが、マクロブロックから得られる。隣接する走査ライン間の差が、交互の奇数の走査ラインと偶数の走査ラインとの差より大きい場合には、フィールド符号化が選択される。そうでない場合には、フレーム符号化が選択される。その後、8×8DCTが、選択されたモードに従って、各フレームサブブロックまたは各フィールドサブブロックに適用される。
1995年7月18日にLimに交付された「Image signal encoding apparatus using adaptive frame/field format compression」という発明の名称の米国特許第5,434,622号は、ブロック単位でのフレーム形式の圧縮とフィールド形式の圧縮との間の選択を行う手順を記載している。その手順では、選択は、指定された符号化形式に対応して各ブロックに使用されるビット数に基づいている。対応するブロックの歪みは考慮されない。圧縮方式は提供されない。
1998年4月7日にHall他に交付された「Adaptive field/frame encoding of discrete cosine transform」という発明の名称の米国特許第5,737,020号は、ディジタルビデオ画像のDCT圧縮の方法を記載している。その方法では、フィールドの分散およびフレームの分散が計算される。フィールドの分散が、フレームの分散よりも小さい場合には、フィールドDCTタイプの圧縮が実行される。あるいは、フレームの分散が、フィールドの分散よりも小さいならば、フレームDCT圧縮が実行される。
1999年3月2日にLegallに交付された「Field frame macroblock encoding decision」という発明の名称の米国特許第5,878,166号は、フィールドフレームマクロブロック符号化の判定を行う方法を記載している。マクロブロックのフレームベースアクティビティは、水平方向のピクセル対の差の絶対値の総和と垂直方向のピクセル対の差の絶対値との総和を求めることにより得られる。その結果は、マクロブロック内のブロック全体にわたって合計される。第1のフィールドベースアクティビティおよび第2のフィールドベースアクティビティが、同様に得られる。小さなアクティビティを有するモードが選択される。
2001年5月1日にIgarashi他に交付された「Video coding method and apparatus which select between frame-based and field-based predictive modes」という発明の名称の米国特許第6,226,327号は、画像を、モザイクの領域として記載している。各領域は、最小量の動き補償データをもたらす結果に応じて、事前に符号化された領域のフレームベースの動き補償または事前に符号化された領域のフィールドベースの動き補償のいずれかを使用して符号化される。各領域は、最小量の動き補償データをもたらす結果に応じて、フレームベースの変換またはフィールドベースの変換のいずれかを使用して直交変換される。
上記引用した特許は、すべて、マクロブロックベースの符号化方法を使用してインタレースビデオ信号の圧縮を改善するために、適応型フィールド/フレームモードの判定を使用する方法を記載している。しかしながら、局所的な画像情報または符号化に必要なビット数しか、DCTタイプの選択に、および局所的なマクロブロックの動き予測モードの選択に使用されない。それらの方法のいずれも、符号化の判定を行う際に、全体の内容を考慮していない。
図2は、MPEG−2符号化標準規格に従ってビデオを符号化する周知のアーキテクチャ200を示している。入力されたビデオのフレームは、事前に復号されている、フレームバッファに記憶されたフレームと比較される。動き補償(MC)(motion compensation)および動き推定(ME)(motion estimation)が、前フレームに適用される。予測誤差または差分信号が、DCT変換され、量子化(Q)(quantized)された後、可変長符号化(VLC)(variable length coded)されて、出力ビットストリームが生成される。
MPEG−2標準規格モードの符号化300に関する図3に示すように、各フレームの動き推定は、フレーム符号化モードまたはフィールド符号化モードのいずれかによって符号化される。所与のフレームレベルのモードに対して、関連したさまざまなマクロブロックのモードが存在する。図3は、映像符号化モードと、映像レベルおよびブロックレベルのマクロブロック符号化モードとの間の関係を示している。
MPEG−2ビデオ符号器は、フレームのみの符号化またはフィールドのみの符号化のいずれかを使用することができる。フレームのみの符号化では、ビデオのすべてのフレームが、フレームとして符号化される。フィールドのみの符号化では、各フレームは、2つのフィールドとして符号化され、フレームのこれら2つのフィールドが、順次符号化される。映像レベルの選択に加えて、マクロブロックレベルの選択手順が使用されて、最良のマクロブロック符号化モード、すなわちイントラモード、DMVモード、フィールドモード、フレームモード、16×8モード、またはスキップモードが選択される。重要となる1つのポイントは、フレームレベルの判定が最適化されていない場合には、マクロブロックモードが最適化されないということである。
図4Aおよび図4Bは、Iフィールド、Pフィールド、およびBフィールドに対して、それぞれ、フレーム映像のフィールド予測モードまたはフィールド映像のフィールド予測モードを使用して、現(cur)フレームのマクロブロックをどのように予測できるかを示している。図4Aのオプションに基づく適応型モード判定は、適応型フィールド/フレーム符号化と呼ばれる。しかしながら、その点で、この符号化は、マクロブロックレベルにおいてのみであり、モードの制限のために、最適なものではない。
例えば、そのマクロブロックベースの選択では、2番目のIフィールドは、イントラモード(intra mode)でのみ符号化でき、PフィールドおよびBフィールドは、前フレームのみから予測できる。一方で、フレームレベルのモードが、フィールドのみである場合には、たとえ、フィールドが同じフレーム内に位置していても、2番目のIフィールドは、インターモード(inter mode)で符号化でき、かつ、1番目のIフィールドから予測でき、2番目のPフィールドは、1番目のPフィールドから予測できる。
図5は、図4による符号化に関連した問題を解決する2パスのマクロブロックフレーム/フィールド符号化方法500を示している。その方法は、ジョイントビデオチーム(JVT(Joint Video Team))の参照符号によって採用されている。これについては、ISO/IEC JTC1/SC29/WG11およびITU-T SG16 Q.6のJVT-B071の「Adaptive Frame/Field Coding for JVT」を参照されたい。その方法では、入力は、まず、フレームモードによって符号化される。歪みおよびビットレート(R/D)が抽出されて、保存される。次に、フレームは、フィールドモードによって符号化される。対応する歪みおよびビットレートも、記録される。その後、関数(F)が、2つの符号化モードのコストを比較する。次に、より小さなコストを有するモードが選択され、出力としてのビデオを符号化する。
方法500は、いくつかの問題を有する。この方法は、2パスを必要とし、予め定められた一定の量子化(Q)を使用する。その結果、このJVT標準規格の方法は、各フレームに対してかなりの計算量を必要とし、実時間でビデオを符号化するのに適していない。
2002年10月15日にCougnard他に交付された「Video coding method and corresponding video coder」という発明の名称の米国特許第6,466,621号は、異なるタイプの2パス符号化方法600を記載している。その方法のブロック図が、図6に示されている。第1のパスでは、入力の各フレームが、フィールド符号化モードおよびフレーム符号化モードを使用する並行経路で符号化される。第1のパスの間、各経路で、統計値が抽出される。統計値とは、すなわち、各モードにおいて共通の位置にある各マクロブロックによって使用されるビット数、および、フィールド動き補償されたマクロブロックの個数である。これらの統計値は比較され、フィールドモードまたはフレームモードのいずれで出力を符号化するかの判定がなされる。第2のパスでは、その判定および抽出された統計値に従って、フレームが再符号化される。
従来技術のフィールド/フレーム符号化方法は、レート制御または動きのアクティビティに取り組んでいない。
したがって、動きのアクティビティを考慮した効果的なレート制御を有する適応型フィールド/フレーム符号化方法が必要である。
方法は、画像のシーケンスを含むビデオを適応的に符号化する。このビデオでは、各画像は、2つのフィールドからなる映像である。各画像は、まず、トップフィールドとボトムフィールドとに分離される。動きアクティビティが、トップフィールドおよびボトムフィールドから抽出され、各画像は、抽出された動きアクティビティに応じてフレーム符号化またはフィールド符号化のいずれかを使用して符号化される。
序論
インタレースビデオは、異なる時間に走査される2つのフィールドを含む。MPEG−2標準規格によるフレーム符号化またはフィールド符号化では、インタレースビデオは、通常、その内容に関係なく、フレームのみの構造またはフィールドのみの構造として符号化される。
一方で、フレームのみの符号化は、ビデオのあるセグメントにはより良く適していることがあるが、他のセグメントには、フィールドのみの符号化の方が好ましいことがある。したがって、従来技術で行われていたように、フレームのみの符号化またはフィールドのみの符号化のいずれかを行うことは、符号化を非効率なものにする。
本発明による適応型のフレーム符号化およびフィールドの符号化では、フレーム符号化またはフィールド符号化の判定が、画像レベルで行われる。入力画像は、内容の歪み特性と、例えばビットレートなどの外因的な任意の制約とを共に考慮することによって、1つのフレームとして符号化することもできるし、2つのフィールドとして符号化することもできる。
本発明による適応型符号化では、ヘッダは、現画像が1つのフレームとして符号化されるのか、2つのフィールドとして符号化されるのかを示す。フィールドのみの符号化では、フレームの2つのフィールドが、順次、符号化される。フレームのタイプが、イントラ(Iタイプ)である場合には、そのフレームは、1つのIフィールドおよび1つのPフィールドに分割される。フレームのタイプが、インター(PタイプまたはBタイプ)である場合には、そのフレームは、2つのPフィールドまたは2つのBフィールドに分割される。
以下では、我々は、まず、ビットレートの制約下での適応型フィールド/フレーム符号化方法を記載する。
2パス方法では、我々は、フィールドのみのモードまたはフレームのみのモードのいずれかを使用して、インタレースビデオの各画像を符号化する。レート歪み(R−D)制御が各パスに適用され、次に、対応するR−D値のコスト関数が構成され、そして、符号化の判定がR−D値に基づいて行われる。
1パス方法では、符号化の前に、2つのフィールドの内容特性が抽出されて、共に考慮される。符号化モードの判定が行われた後、フレームが符号化される。この方法では、1パスのみが必要とされる。
結果は、我々の1パス適応型符号化方法および2パス適応型符号化方法の両方が、従来技術のフレームのみの符号化方法およびフィールドのみの符号化方法よりも良好な性能を保証することを示している。
2パス適合型フィールド/フレーム符号化方法
図7は、我々の発明による2パス適応型フィールド/フレーム符号化方式700を示している。この方法では、入力ビデオ701の最初の画像が、例えば、画像のサイズ、ならびに、GOP(映像のグループ)(group of picture)に残っているPフレームおよびBフレームの個数といった符号化パラメータの初期化(710)に使用される。
その後、動き推定用の参照フレーム、2つのビットストリームバッファ770に残されたビットの数、および使用されるビットの数が求められる。次に、現画像が、2つの経路711および712を使用して、出力709として符号化される。2つの経路のうち、一方はフレーム用であり、他方はフィールド用である。
フレーム経路およびフィールド経路の双方において、パラメータは、連続して適応していく(720)。パラメータのすべてが固定された後、現画像は、フレーム経路711でフレームのみの符号化を使用して符号化され、フィールド経路712でフィールドのみの符号化を使用して符号化される。
経路711では、フレームレート制御730が適用され、経路712では、フィールドレート制御731が適用される。これらのレート制御は、現画像のビットレートバジェット(bit rate budget)に応じて適用される。生成されたビットストリームは、2つのバッファ770の別々に記憶される。現画像に使用されるビット数が、2つの経路に対してそれぞれ記録される。
我々は、再構成された画像から2つの経路のレートおよび歪みを抽出する(740)。2つの歪みの値および対応する使用ビットによって、コスト関数のパラメータλが求められ(780)、判定(D)がコスト関数の形で構成される(750)。その後、コスト関数の値は、現画像に対して、フレーム符号化761またはフィールド符号化762を選択するために使用される。
判定750が行われた後、フレーム符号化が行われたビットストリーム763またはフィールド符号化が行われたビットストリーム764が、出力709として選択される。出力709は、次のフレームの符号化用に、パラメータ適応ブロック720にフィードバックされる。我々の2パス方法700では、画像ごとのフレーム符号化またはフィールド符号化の判断基準が、ビデオの内容の共同したレート−歪み(R−D)特性に完全に基づいている。
レート−歪み判定
レート割り当てに基づく従来技術の符号化方法は、歪み制約上のレートまたはレート制約上の歪みを最小にする試みを行なっていた。
ラグランジェ乗数の技法を使用することによって、我々は、方程式(1)のコスト関数J(λ)により、全体の歪みを最小化する。
Figure 2004289796
ここで、Nは、入力ビデオ701のフレーム総数である。
フィールドのみのモードが、1つの画像を符号化するのに使用される場合には、フレームのみのモードで符号化を行うよりも、必要とされるビットは、少なくなることがある。しかしながら、この画像の歪みは、フレームのみのモードが使用された場合よりも悪くなることがある。我々の最適な判定は、ビデオの全体的な内容の歪みおよびレートの双方に基づいている。
我々の発明では、我々は、レート割り当てに対して類似のアプローチを使用する。コストが、以下の方程式(2)によって定義される。
Figure 2004289796
コスト(フレーム)<コスト(フィールド)である場合には、我々は、フレーム符号化761を選択し、そうでない場合には、フィールド符号化762を選択する。適切なパラメータλを求める(780)ために、我々は、R−Dの関係をモデル化する。我々は、方程式(3)によって与えられる指数モデルを使用する。
Figure 2004289796
上記関係についてさらに情報を得るには、JayantおよびNoll著のDigital Coding of Waveforms, Prentice Hall, 1984を参照されたい。
このモデルを上記コスト関数J(λ)に適用すると、以下の方程式(4)によって、パラメータλを得ることができる。
Figure 2004289796
ここで、Rは、フレームiに割り当てられた最適なレートを示す。
したがって、我々は、符号化された現フレームの歪みを使用して、パラメータλの値を推定する。我々の発明では、方程式(5)を使用して、最初のフレームのコスト関数のパラメータλが推定される。
Figure 2004289796
次に、我々は、方程式(6)に従って、次のフレーム用にパラメータλを更新する。
Figure 2004289796
方程式(6)において、現パラメータλcurrentは、方程式(5)を使用することにより計算され、前パラメータλpreviousは、前フレームの推定値λであり、WおよびWは、重みである。ここで、W+W=1である。Iフレームの計算は、方程式(5)にのみ基づいていることに留意されたい。
従来技術の方法と我々の新規な方法との重要な相違は、以下の通りである。
図5に示すような従来技術の方法では、一定の量子化が使用されるのに対して、本発明による方法では、適応性のある量子化が使用される。また、従来技術の方法では、コスト関数のパラメータλは、量子化の知識に依存するのに対して、我々の方法では、コスト関数のパラメータλは、量子化に依存しない。
従来技術は、符号化の前に、動き情報およびテクスチャ情報を推定できないので、一定の量子化により実時間のレート制御を実行することができない。我々の方法のパラメータは、符号化の結果から得られ、この方法では、量子化器のスケールが、さらに以下に記載するレート制御戦略に従って適応することができる。したがって、本発明は、効果的なレート制御を達成する。
以下に、我々は、2パス適応型フィールド/フレーム方法700のレート制御手順を記載する。
適応型2パス符号化方法のレート制御
MPEG符号化技法について、多くのレート制御方法が記載されている。これらの方法には、第1のパスを使用して情報を収集し、第2のパスを使用してレート制御を適用する従来技術の2パスレート制御方法が含まれる。その方法は、我々の2パス方法とは、まったく異なる。我々の2パス方法では、レート制御は、双方のパスに同時に適用され、前フレームから転送された同じ組のパラメータに基づいている。
従来技術のレート制御方法は、符号化プロセス中の符号化モードの変移を考慮していなかった。例えば、周知のTM5レート制御方法は、フレームからフィールドへ変移した場合、または、フィールドからフレームへ変移した場合に、そのパラメータを採用しない。したがって、従来技術の技法では、フィールドごとの最適なビット割り当ても、フレームごとの最適なビット割り当ても達成することができない。
我々の発明によると、我々は、我々の2パス方法に量子化情報を使用しない。その結果、我々は、我々の方法という状況の中で、効果的なレート制御を提供する。以下に、我々は、我々の2パス方法の効果的な固定ビットレート(CBR)(constant bit-rate)のレート制御手順を記載する。
レートバジェット(rate budget)R、IフレームアクティビティX、PフレームアクティビティX、BフレームアクティビティX、Iフレームバッファフルd0、Pフレームバッファフルd0、およびBフレームバッファフルd0が、フレーム符号化761を使用することにより初期化される。上記レート制御パラメータのすべては、レートコントローラ(RC)(rate controller)708に記憶される。レートコントローラ708は、初期化ブロック710によってアクセス可能である。
現フレームが、GOPの最初のフレームである場合には、現GOPのPフレームの個数N、現GOPのBフレームの個数Nが求められ、その後、以下のステップが実行される。
フレーム経路711では、フレーム符号化761、TM5レート制御、およびレートコントローラに記憶されたパラメータを使用することによって、現フレームが符号化される。更新されたレート制御パラメータが、バッファBuframeに記憶される。
フィールド経路712では、N=2×N+1、N=2×Nとされ、フィールド符号化762、TM5レート制御、およびレートコントローラ708に記憶されたパラメータを使用することによって、現フレームが符号化される。更新されたレート制御パラメータが、バッファBufieldに記憶される。
フレーム符号化が選択された場合には、レートコントローラのパラメータは、Buframeに記憶されたデータを使用することによって更新される。フィールド符号化が選択された場合には、レートコントローラのパラメータは、Bufieldに記憶されたデータを使用することによって更新される。
現フレームが、GOPの最初のフレームでない場合には、以下のステップが実行される。
フレーム経路711では、前映像が、フレームモードを採用している場合には、NおよびNの現在の値が使用されるか、または、N=N/2、N=N/2とされ、フレーム符号化、TM5レート制御、およびレートコントローラに記憶されたパラメータを使用することによって、現フレームが符号化され、Buframeの内容が、更新されたレート制御パラメータに置き換えられる。
フィールド経路712では、前画像が、フィールドモードで符号化されている場合には、NおよびNの現在の値が使用されるか、または、N=(N+1)×2、N=(N+1)×2とされ、フィールド符号化、TM5レート制御、およびレートコントローラに記憶されたパラメータを使用することによって、現フレームが符号化され、Bufieldの内容が、更新されたレート制御パラメータに置き換えられる。
フレーム符号化モードが選択される場合には、レートコントローラに記憶されたパラメータは、Buframeのデータを使用することによって更新される。フィールド符号化モードが選択される場合には、レートコントローラに記憶されたパラメータは、Bufieldのデータを使用することによって更新される。
我々の2パス適応型フィールド/フレーム符号化方法を使用することによって、改善された符号化効率が得られる。しかしながら、この2パス方法では、符号化時間が、これまでのMPEG−2符号器のほとんど2倍になる。リソースが制限され、かつ、遅延に対して過敏ないくつかのアプリケーションにとっては、あまり複雑でない適応型フィールド/フレーム符号化方法が望ましい。
1パス適応型フィールド/フレーム符号化方法
上記分析によると、フィールドを符号化するか、または、フレームを符号化するかの判定は、各フレームの動きに直接関係している。また、動きの量も、ピクセルの特性間の差、特に、トップフィールドとボトムフィールドとの間の相関によって概算することができる。これらの知見が動機となって、我々は、1パス適応型フィールド/フレーム符号化方法を記載する。
MPEG−2標準規格では、Iフレームは、2つのフィールドからなる。我々は、それら2つのフィールドをIトップおよびIボトムと表記する。ここで、Iトップは、奇数の走査ラインのすべてを含み、Iボトムは、偶数の走査ラインのすべてを含む。これについては、図1を参照されたい。現画像が、フィールドモードに設定されている場合には、トップフィールドまたはボトムフィールドのいずれかが、1番目のフィールドとして設定され、ヘッダが付加されて、これにより、現フィールドが1番目であるのか、2番目であるのかが示される。
フィールドモードを使用することによって、2番目のフィールドは、1番目のフィールドからインターとして符号化することができ、かつ、予測することができる。我々は、Iフレーム全体をイントラとして符号化するのではなく、1番目のIフィールドから2番目のIフィールドを予測する方が、常により効率的であることを見出した。この知見に基づいて、Iフレームのフレーム符号化モードは、常に、我々の1パス方法のフィールドに設定される。これは、2番目のフィールドのマクロブロックのすべてが、インターモードを使用して符号化されることを意味するものではない。マクロブロックベースのモード判定に従って、イントラの方がより効率的に符号化されるブロックは、イントラで符号化することができる。
図8は、本発明による1パス適応型フィールド/フレーム符号化方法800を示している。入力ビデオ801の画像は、トップ−フィールド811およびボトム−フィールド812を生成するフィールド分離器810に送られる。図1を参照されたい。各フィールドの動きアクティビティが推定される(820)。なお、動きアクティビティは、以下により詳細に記載される。各フィールドの動きアクティビティは、フィールドベースの動き推定831またはフレームベースの動き推定832のいずれかを選択して(830)、入力ビデオ801のフレームを符号化するのに使用される。
フレーム符号化選択830に応じて、フィールドベースの符号化の残りの部分またはフレームベースの符号化の残りの部分が、後続のDCT840、ならびに量子化(Q)および可変長符号化(VLC)プロセス850を介して符号化される。
したがって、Pフレームは、符号化されたデータから再構成され、後のフレームの符号化の参照フレームとして使用される。
PフレームおよびBフレームについて、我々は、現フレームの各16×16マクロブロックを考慮する。各マクロブロックは、そのトップ−フィールドおよびボトム−フィールドに分割される。トップ−フィールドは、8つの奇数ラインからなる16×8ブロックであり、ボトム−フィールドは、8つの偶数ラインからなる16×8ブロックである。次に、我々の方法は、以下のステップを実施する。
まず、我々は、2つのカウンタMB_fieldおよびMB_frameをゼロに初期化する。各16×16マクロブロックに対して、トップ−フィールドの分散およびボトム−フィールドの分散が、以下の式により計算される。
Figure 2004289796
ここで、Pは、ピクセルの値を示し、E(P)は、対応する16×8フィールドの平均値を示す。
それらの分散の比が求められる。次に、以下の処理が行われる。
Figure 2004289796
すべてのマクロブロックに対して繰り返し処理をした後、次のフレームの符号化判定が行われる。
MB_field>MB_frameの場合には、フィールドモードが選択される。それ以外の、MB_field≦MB_frameの場合には、フレームモードが選択される。これら2つの閾値の値は、通常のビデオを収集したものから得られる。
要約すると、我々は、我々の1パス方法において現フレームの動きアクティビティを推定する効果的なブロックベースの相関を記載する。動きアクティビティは、各フィールドのブロックベースの分散の比から推定される。それを行う際に、計算上高価である正確な動き推定は避けられる。画像をフレームとして符号化するのか、2つのフィールドとして符号化するのかの判定は、現フレームの過半数のマクロブロックの動きアクティビティによって決まる。
1パス適応型符号化方法のレート制御
上述したように、従来技術の方法は、符号化プロセス中の符号化モードの変移を考慮しない。しかしながら、我々の適応型1パス方法では、フレームからフィールドへのモード変移またはフィールドからフレームへのモード変移は、よく起こる。これらの状況下、レート制御パラメータは、適応しなければならない。
我々の1パス方法のレート制御プロセスは、以下の手順によって実施される。我々は、TM5プロセスを使用して、Iフレーム、すなわちGOPの最初のフレームの符号化を制御する。このIフレームは、常に、フィールド符号化によって符号化される。
現フレームが、フレーム符号化を使用する場合において、前フレームが、フレーム符号化832を使用するときは、TM5の標準的な手順が使用され、前フレームが、フィールド符号化831を使用するときは、N=N/2、N=N/2とされて、TM5が使用される。
現フレームが、フィールド符号化を使用する場合において、前フレームが、フレーム符号化を使用するときは、N=2×N、N=2×Nとされて、TM5が使用され、前フレームが、フィールド符号化を使用するときは、TM5の標準的な手順が使用される。
結果
我々の適応型方法の有効性を確認するために、我々は、2つのインタレースビデオを標準規格のMPEG−2符号器で符号化する。Footballは、インタレーステスト用の共通のビデオである。Stefan_Footballは、StefanおよびFootballがGOPごとに連結されたビデオである。すなわち、Stefanの1つのGOP、Footballの1つのGOP、Stefanの1つのGOP等々と、ビデオが連結されている。Footballは、高い動きアクティビティを有するのに対して、Stefanは、ゆっくりとした動きアクティビティおよびパン(カメラの首振り)を有する。
フレーム符号化、フィールド符号化、および適応型符号化が、ビデオのそれぞれに対して別々に実行された。1つの符号化方法および1つのビデオにつき、5つのレートの組、すなわち2Mbps、3Mbps、4Mbps、5Mbps、および6Mbpsがテストされた。
図9Aおよび図9Bは、我々の2パス適応型フィールド/フレーム符号化方法の性能を、フレームのみのモードおよびフィールドのみのモードと比較している。PSNRは、120個のフレームの平均であり、異なるレートにわたってプロットされている。この結果は、我々の方法が、フィールドのみのモードおよびフレームのみのモードのうちの優れた方以上の性能を得ていることを示している。
図10Aおよび図10Bは、我々の2パス適応型フィールド/フレーム符号化方法および1パス適応型フィールド/フレーム符号化方法の性能を比較している。シミュレーションが、我々の最適化されたMPEG−2符号器上で、上記と同じ条件で行われている。我々の1パス方法は、我々の2パス方法と同様の性能を与えている。
本発明を好ましい実施の形態の例によって記載してきたが、さまざまな他の適合および変更を、本発明の精神および範囲内において行い得ることが理解されるべきである。したがって、添付した特許請求の範囲の目的は、本発明の真の精神および範囲内に入るこのようなすべての変形および変更をカバーすることである。
フレームおよびフィールドベースのマクロブロックのブロック図である。 従来技術のビデオ符号器のブロック図である。 従来技術のMPEG−2符号化モードのオプションのブロック図である。 フレーム映像によるフィールド予測およびフィールド映像によるフィールド予測のモードのオプションの表である。 フレーム映像によるフィールド予測およびフィールド映像によるフィールド予測のモードのオプションの表である。 従来技術の2パス直列符号化方法のブロック図である。 従来技術の2パス並列符号化方法のブロック図である。 本発明による適応型フィールド/フレーム符号化による2パスビデオ符号器のブロック図である。 本発明による適応型フィールド/フレーム符号化による1パスビデオ符号器のブロック図である。 標準的なFootballビデオのさまざまなビットレートにわたった復号品質について、図7の2パス符号器により達成される復号品質と従来技術の方法により達成される復号品質とを比較したグラフである。 標準的なStefan−Footballビデオシーケンスのさまざまなビットレートにわたった復号品質について、図7の2パス符号器により達成される復号品質と従来技術の方法により達成される復号品質とを比較したグラフである。 Footballビデオシーケンスのさまざまなビットレートにわたった復号品質について、本発明による2パス符号器により達成される復号品質と本発明による1パス符号器により達成される復号品質とを比較したグラフである。 Stefan−Footballビデオシーケンスのさまざまなビットレートにわたった復号品質について、本発明による2パス符号器により達成される復号品質と本発明による1パス符号器により達成される復号品質とを比較したグラフである。

Claims (10)

  1. 画像のシーケンスを適応的に符号化する方法であって、
    ビデオの各画像をトップフィールドとボトムフィールドとに分離することと、
    前記トップフィールドおよび前記ボトムフィールドから動きアクティビティを抽出することと、
    前記抽出された動きアクティビティに応じてフレーム符号化またはフィールド符号化のいずれかを使用して、各画像を符号化することと
    を含む方法。
  2. 前記トップフィールドは、画像の奇数のすべての走査ラインを含み、前記ボトムフィールドは、画像の偶数のすべての走査ラインを含む請求項1に記載の方法。
  3. 各画像を、離散コサイン変換および可変長符号化により符号化することをさらに含む請求項1に記載の方法。
  4. 前記画像のシーケンスは、PフレームおよびBフレームを含み、
    前記分離することを行う前に、前記Pフレームおよび前記Bフレームをマクロブロックに分割して、該マクロブロックから前記動きアクティビティを抽出することをさらに含む請求項1に記載の方法。
  5. MB_fieldカウンタおよびMB_frameカウンタをゼロに初期化することと、
    前記トップフィールドの分散および前記ボトムフィールドの分散を
    Figure 2004289796
    の数式によって求めることと(ここで、Pは、ピクセルの値を示し、E(P)は、対応するフィールドの平均値を示す)、
    前記2つの分散の比を求めることと、
    Figure 2004289796
    の処理を行うことと
    をさらに含む請求項4に記載の方法。
  6. MB_field>MB_frameの場合には、フィールド符号化を選択し、そうでない場合には、フレーム符号化を選択することをさらに含む請求項5に記載の方法。
  7. 符号化された各画像のレートをレート制御により制御することをさらに含む請求項1に記載の方法。
  8. 各画像は、複数のマクロブロックを含み、前記レート制御は、各マクロブロックに対して適応できる量子化パラメータを提供する請求項7に記載の方法。
  9. 前記レート制御は、前記画像のシーケンスにおけるPフレームの個数NおよびBフレームの個数Nを適応させる請求項7に記載の方法。
  10. 画像のシーケンスを適応的に符号化するシステムであって、
    ビデオの各画像をトップフィールドとボトムフィールドとに分離する手段と、
    前記トップフィールドおよび前記ボトムフィールドから動きアクティビティを抽出する手段と、
    前記抽出された動きアクティビティに応じてフレーム符号化またはフィールド符号化のいずれかを使用して、各画像を符号化する手段と
    を備えるシステム。
JP2003401795A 2002-12-19 2003-12-01 画像のシーケンスを適応的に符号化するシステムおよび方法 Expired - Fee Related JP4391810B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/325,986 US7092442B2 (en) 2002-12-19 2002-12-19 System and method for adaptive field and frame video encoding using motion activity

Publications (2)

Publication Number Publication Date
JP2004289796A true JP2004289796A (ja) 2004-10-14
JP4391810B2 JP4391810B2 (ja) 2009-12-24

Family

ID=32593908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003401795A Expired - Fee Related JP4391810B2 (ja) 2002-12-19 2003-12-01 画像のシーケンスを適応的に符号化するシステムおよび方法

Country Status (2)

Country Link
US (1) US7092442B2 (ja)
JP (1) JP4391810B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003227230A1 (en) * 2002-04-04 2003-10-20 Sharp Kabushiki Kaisha Semiconductor laser device
KR101006851B1 (ko) * 2003-01-28 2011-01-12 톰슨 라이센싱 강력한 모드의 스태거캐스팅
JP4470431B2 (ja) * 2003-10-01 2010-06-02 ソニー株式会社 データ処理装置およびその方法
US20050111545A1 (en) 2003-11-25 2005-05-26 Ram Prabhakar Dynamic packet size control for MPEG-4 data partition mode
CN101023679B (zh) * 2004-09-16 2012-01-11 汤姆逊许可证公司 用于快速视频帧和场编码的方法和装置
US20060176953A1 (en) * 2005-02-04 2006-08-10 Nader Mohsenian Method and system for video encoding with rate control
US7609766B2 (en) * 2005-02-08 2009-10-27 Vixs Systems, Inc. System of intra-picture complexity preprocessing
US20060198439A1 (en) * 2005-03-01 2006-09-07 Qin-Fan Zhu Method and system for mode decision in a video encoder
US20060209954A1 (en) * 2005-03-16 2006-09-21 Limin Wang Method and apparatus for providing a rate control for interlace coding
US20060222251A1 (en) * 2005-04-01 2006-10-05 Bo Zhang Method and system for frame/field coding
WO2006129280A2 (en) * 2005-06-03 2006-12-07 Nxp B.V. Video decoder with hybrid reference texture
KR20080092372A (ko) * 2006-01-09 2008-10-15 엘지전자 주식회사 영상 신호의 레이어 간 예측 방법
US8705630B2 (en) * 2006-02-10 2014-04-22 Nvidia Corporation Adapting one type of encoder to another type of encoder
US8670484B2 (en) * 2007-12-17 2014-03-11 General Instrument Corporation Method and apparatus for selecting a coding mode
US9602821B2 (en) * 2008-10-01 2017-03-21 Nvidia Corporation Slice ordering for video encoding
US8681858B2 (en) * 2009-12-23 2014-03-25 General Instrument Corporation Rate control for two-pass encoder
US9338463B2 (en) 2011-10-06 2016-05-10 Synopsys, Inc. Visual quality measure for real-time video processing
US9781449B2 (en) * 2011-10-06 2017-10-03 Synopsys, Inc. Rate distortion optimization in image and video encoding
DE102011119177A1 (de) * 2011-11-23 2013-05-23 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum Verfahren zum Erstellen eines ersten Parametersatzes
US9247196B1 (en) 2012-08-30 2016-01-26 Ambarella, Inc. High efficiency video coding for video with interlaced and progressive content using lookahead

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3917567A1 (de) * 1989-05-30 1990-12-06 Siemens Ag Verfahren zu einer ermittlung eines entscheidungsergebnisses fuer ein halbbild/vollbild-datenkompressionsverfahrens
IT1249895B (it) * 1991-06-05 1995-03-30 Fiat Auto Spa Dispositivo di avvitatura, provvisto di mezzi per la misurazione del tiro di serraggio di una vite.
US5227878A (en) * 1991-11-15 1993-07-13 At&T Bell Laboratories Adaptive coding and decoding of frames and fields of video
US6226327B1 (en) 1992-06-29 2001-05-01 Sony Corporation Video coding method and apparatus which select between frame-based and field-based predictive modes
JPH06197334A (ja) * 1992-07-03 1994-07-15 Sony Corp 画像信号符号化方法、画像信号復号化方法、画像信号符号化装置、画像信号復号化装置及び画像信号記録媒体
KR970005831B1 (ko) * 1992-09-09 1997-04-21 대우전자 주식회사 적응적 프레임/필드 변환 부호화를 이용한 영상 부호화기
JPH08275160A (ja) * 1995-03-27 1996-10-18 Internatl Business Mach Corp <Ibm> 離散余弦変換方法
US5878166A (en) * 1995-12-26 1999-03-02 C-Cube Microsystems Field frame macroblock encoding decision
EP0921683B1 (en) * 1997-12-02 2010-09-08 Daewoo Electronics Corporation Method and apparatus for encoding mode signals for use in a binary shape coder
KR100281462B1 (ko) * 1998-03-30 2001-02-01 전주범 격행 부호화에서 이진 형상 신호의 움직임 벡터 부호화 방법
US6445828B1 (en) * 1998-09-28 2002-09-03 Thomson Licensing S.A. Transform domain resizing of an image compressed with field encoded blocks
KR100720842B1 (ko) * 1999-03-26 2007-05-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 코딩 방법 및 대응 비디오 코더

Also Published As

Publication number Publication date
US20040120397A1 (en) 2004-06-24
JP4391810B2 (ja) 2009-12-24
US7092442B2 (en) 2006-08-15

Similar Documents

Publication Publication Date Title
JP4391809B2 (ja) 画像のシーケンスを適応的に符号化するシステムおよび方法
JP4391810B2 (ja) 画像のシーケンスを適応的に符号化するシステムおよび方法
KR20070007295A (ko) 비디오 인코딩 방법 및 장치
Joch et al. A performance analysis of the ITU-T draft H. 26L video coding standard
US20070098064A1 (en) Effective rate control for video encoding and transcoding
KR100359819B1 (ko) 압축영상의 공간 도메인에서의 효율적인 엣지 예측 방법
JP4292659B2 (ja) 画像情報変換装置及び画像情報変換方法
JP6222756B2 (ja) 復号化方法
KR100733991B1 (ko) Mpeg2에서 h.264로의 트랜스코딩 방법
KR20040093253A (ko) 16×16 인트라 휘도 예측 모드 결정방법 및 장치
JP6735370B2 (ja) 復号化方法
Zhang et al. Adaptive field/frame selection for high-compression coding
Xin Improved standard-conforming video transcoding techniques
JP6434172B2 (ja) 復号化方法
Beuschel Video compression systems for low-latency applications
Vyas et al. Error concealment techniques using intra-modes and weighted interpolation in H. 264 decoder
Mamatha et al. BIT RATE REDUCTION FOR H. 264/AVC VIDEO BASED ON NOVEL HEXAGON SEARCH ALGORITHM.
JP6364462B2 (ja) 復号化装置及び復号化方法
Liu et al. MPEG video transcoding with joint temporal-spatial rate control
JP4243472B2 (ja) 画像符号化装置、画像符号化方法および画像符号化プログラム
JP6117302B2 (ja) 復号化方法
JP4292658B2 (ja) 画像情報変換装置及び画像情報変換方法
JP5236088B2 (ja) 画像の符号化/復号化装置、符号化/復号化プログラム及び符号化/復号化方法
JP5055419B2 (ja) 画像の復号化装置、復号化プログラムおよび復号化方法
JP5380594B2 (ja) 画像の復号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees