JP2009094644A

JP2009094644A - 動画像符号化装置及びその制御方法

Info

Publication number: JP2009094644A
Application number: JP2007261243A
Authority: JP
Inventors: Katsumi Otsuka; 克己大塚
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-10-04
Filing date: 2007-10-04
Publication date: 2009-04-30
Anticipated expiration: 2027-10-04
Also published as: US20090092191A1; US8792562B2; JP5032936B2

Abstract

【課題】画質の劣化具合を表す指標であるブロック歪み量に応じて、シーン目標符号量を制御することで、符号化難易度が高いシーンにおいても良好な画質の符号化動画像データを得る。
【解決手段】シーン分割部４１２は、シーンの区切りを示す信号を出力する。符号化部４００は、与えられたパラメータに従って符号化する。発生符号量累積部４１５は、符号化部４００で生成されるピクチャの符号量を算出する。ブロック歪み算出部４１１は、ピクチャ間のブロック歪みを算出する。シーン目標符号量算出部４１３は、余剰符号量及びブロック歪み量から、次のシーンに対する初期の目標符号量を算出する。１つのシーンの最初のピクチャの符号量から、２番目以降の目標符号量を算出する。ピクチャ目標符号量算出部４１６は、ピクチャの目標符号量を算出する。符号化パラメータ決定部４０７は、Ｑスケールを算出し、量子化部４０５に対してＱスケールを設定する。
【選択図】図４

Description

本発明は、可変ビットレートでリアルタイム符号化する動画像符号化技術、特に、蓄積メディアへ符号化ストリームを記録する際に、予め記録時間を保証する技術に関するものである。

近年のデジタル信号処理技術の飛躍的な進歩により、従来ならば困難であった動画像の蓄積メディアへの記録や伝送路を介した動画像の伝送が行われている。この場合に、動画像を構成する各々のピクチャは圧縮符号化処理が施され、そのデータ量が大幅に削減される。この圧縮符号化処理として代表的な手法の一つが、例えばＭＰＥＧ（Moving Picture Experts Group）方式である。

ＭＰＥＧ方式に準拠して一連のピクチャを一定のビットレートという条件下で圧縮符号化する場合に、複数ピクチャからなるシーン、ピクチャの空間周波数特性、ピクチャ間の相関、及び量子化スケール値に応じて符号量が大きく異なる。この様な符号化特性をもつ装置を実現する上で符号化歪みを最小限にするための重要な技術が符号量制御である。

符号量制御を実現するためのアルゴリズムについては、固定ビットレート符号化方式（以後ＣＢＲ方式）、及び、可変ビットレート符号化方式（ＶＢＲ方式）の２つに大別出来る。一般にＶＢＲ方式では符号化難易度に応じて符号を適応的に割り当てるため、ＣＢＲ方式に比べて、復号ピクチャの画質が良い事が知られている。符号の適応的な割り当て方は、例えば符号化難易度が高いシーンには高いビットレートを割り当て、符号化難易度が低いシーンには低いビットレートを割り当てる事により実現される。

ＣＢＲ方式としては、ＭＰＥＧ−２符号化方式の標準化の過程で提案されたＴＭ５（Test Model 5(Test Model Editing Commitee: "Test Model 5", ISO/IEC JTC/SC29/WG11/N0400(Apr.1993))）や特許文献１の方式が知られている。

一方、リアルタイム（すなわち１パス）でＶＢＲ方式を実現する技術として特許文献２乃至６が知られている。

特許文献２は、ＣＢＲ方式の課題を解決する事で、ＶＢＲ方式で画質の向上を試みている。ＣＢＲ方式では、直前ＧＯＰの発生符号量が目標符号量を極端に超えた場合に、次のＧＯＰの目標符号量がこれを吸収し様とするため、画質劣化が生じてしまうという課題がある。特許文献２におけるＶＢＲ方式によるＧＯＰ単位の発生符号量の推移を図２に示す。図示では、ＧＯＰ５において符号化難易度が高いために発生符号量が急激に増加していることを示している。このため、後続するＧＯＰ６乃至ＧＯＰ９に至るまで段階的に生成する符号量を減少している。この様な段階的なＧＯＰの発生符号量を達成するため、ｊ番目のＧＯＰの目標符号量Ｒ（ｊ）を、次式を用いて求めている。
DIFF(j) ＝ DIFF(j-1) + B(j-1) − Tg …（１）
R(j) ＝ Tg − (1／T)×DIFF(j) …（２）
ただし、Ｂ（ｊ）はｊ番目のＧＯＰの発生符号量、Ｔｇは与えられた目標ビットレートから各ＧＯＰに対して均等配分した場合の目標符号量、Ｔは２以上の定数である。目標符号量Ｒ（ｊ）は、式（１）及び（２）からも自明な様に、過去のＧＯＰにおける発生符号量の累積であるＤＩＦＦ（ｊ）に応じて求めている事がわかる。

特許文献３又は４は、図３に示す通りに、複数のピクチャからなるピクチャ群及び符号化対象であるピクチャに対して、符号化難易度算出部(301及び302)と称する符号化難易度を検出する手段を用いる事で、フィード・フォワード型のＶＢＲ方式を実現している。この方法によれば、複数ピクチャからなるピクチャ群をピクチャ群分割部３００で分割し、シーケンス全体に対する、ピクチャ群の符号化難易度を符号化難易度情報算出部３０１において算出している。この算出した符号化難易度に応じて、該ピクチャ群の目標符号量を可変に割り当てられるので、復号ピクチャの画質のばらつきが抑えられる。
特許第３１１２０３５号公報特許第３１７３３６９号公報特許第３２６５８１８号公報特許第３３９９４７２号公報特許第３２６８３０６号公報特許第３３５８６２０号公報

しかしながら、上記従来技術には以下の問題がある。

先ず、特許文献２においては、次に符号化すべきＧＯＰの目標符号量Ｒ（ｊ）を求める際に、既に符号化した(０、１、…、ｊ−１番目）のＧＯＰの発生符号量のみを参照しているために、符号化難易度に応じて適切に目標符号量Ｒ（ｊ）を求めていない。更に、この特許文献１では、急激な発生符号量の増加が生じた後のＧＯＰの目標符号量に注目して、該目標符号量を段階的に減少させているに過ぎない。このため、局所的にはＣＢＲ方式に比べて復号ピクチャの画質劣化が改善されるが、シーケンスを通して復号ピクチャの画質劣化を改善する事は困難である。

特許文献３、４においては、平均ビットレート及び最大ビットレートは保証されるが、最大符号量は保証されない。すなわち、デジタルビデオカメラ等に代表される撮影機器において、蓄積メディアに録画する場合など録画時間が予め分らない場合がある。このとき、たとえユーザが撮影開始時にビットレートを指定しても、撮影時間によってはシーケンスの発生符号量が、ビットレートと撮影時間の積を超えてしまう状況が起きてしまう。

また、特許文献４によれば、符号化難易度情報算出部３０１及び３０２には、符号化部３０５と同様な符号化手段が必要となり、処理負荷が非常に重い。この特許文献４には、符号化難易度として空間アクティビティを用いる事が開示されているが、空間アクティビティでは符号化部305における符号化難易度を予測するには不十分である。

また、VBR方式を実現する方法を開示している特許文献５、６に開示されている様に、２パスで符号化を行う方法がある。この方法によれば、１パス目で各々のシーンの符号化難易度を抽出する。そして、２パス目で抽出した符号化難易度に応じて各々のシーンに対して目標符号量を割り当てるので、シーケンスを通じてＣＢＲ方式に比べて画質の改善が期待出来る。しかし、撮影機器においては、リアルタイム符号化が必須であり、２パスで符号化を行う事は困難である。

本発明はかかる課題に鑑みたものであり、画質の劣化具合を考慮しながら、シーンに対する目標符号量を制御する事で、与えられた目標ビットレートの条件下において符号化難易度が高いシーンにおいても良好な画質の符号化動画像データを得る事である。更には、符号化するシーケンスの長さに依存せずに、目標ビットレートとシーケンスの長さから定められる最大発生符号量を保証する事である。

かかる課題を解決するため、本発明の動画像符号化装置は以下の構成を備える。すなわち、
動画像を符号化する動画像符号化装置であって、
時間軸に並んだピクチャで構成される動画像を、予め設定された複数個のピクチャで構成されるシーンに分割する分割手段と、
与えられた量子化スケールを決定するパラメータに従って、入力したピクチャ中の複数画素で構成されるブロック単位に符号化し、符号化データを生成する符号化手段と、
前記符号化手段で生成されるピクチャの符号量を算出すると共に、シーンの総符号量を算出する符号量算出手段と、
前記符号化手段で生成された符号化データを復号し、復号後のピクチャと符号化前のピクチャとの間の、前記ブロックの境界位置における歪み量をピクチャ歪み量として算出すると共に、シーンを構成する各ピクチャ歪み量の平均値を算出するブロック歪み算出手段と、
前記符号量算出手段で算出した各ピクチャの符号量と、予め設定された目標ビットレートから、各シーンに均等に配分した符号量に対する余剰符号量を算出する余剰符号量算出手段と、
前記ブロック歪み算出手段で算出された平均値と、前記余剰符号量算出手段で算出した余剰符号量に基づいて目標符号量を算出し、算出した目標符号量に基づいて前記符号化手段に与える次に符号化するシーンの初期のパラメータを決定すると共に、
シーン内の最初のピクチャの符号量と予め設定した閾値範囲とを比較し、この比較の結果に従って前記初期のパラメータを修整することで、前記シーン内の２番目以降のピクチャの符号化のためのパラメータを決定するパラメータ決定手段とを備える。

本発明によれば、画質の劣化具合を表す指標であるブロック歪み量に応じて、シーン目標符号量を制御するので、与えられた目標ビットレートの条件下において符号化難易度が高いシーンにおいても良好な画質の符号化動画像データを得る事が出来る。更には、余剰符号量が存在するシーンに対してのみシーン目標符号量を増加させるので、目標ビットレートとシーケンスの長さから定められる最大発生符号量を保証する事が出来る。

以下、添付図面に従って本発明に係る実施形態を詳細に説明する。

実施形態では、フレーム間予測を利用した符号化方式を実現する動画像符号化装置に適用した例を説明する。例えば、フレーム間予測を利用した符号化方式としてはＭＰＥＧ−１、ＭＰＥＧ−２或いはＭＰＥＧ−４等が知られている。

図１は本実施形態の動画像符号化装置の概略構成図である。本装置は、シーン分割部１００、ブロック歪み算出部１０１、シーン目標符号量算出部１０２、符号化パラメータ決定部１０３、符号化部１０４、局所復号化部１０６、余剰符号量算出部１０７、シーン内符号量制御部１０８、発生符号量累積部１０９を有する。本実施形態では、図１における符号化部１０４は、ＭＰＥＧ−４符号化方式に従って符号化するものとする。

[構成の説明]
実施形態における、より具体的な装置構成を図４に示す。

ＭＰＥＧ−４符号化部４００は、図１の符号化部１０４及び局所復号化部１０６を含む構成となっている。更にＭＰＥＧ−４符号化部４００は、動き検出処理を行うＭＥ４０３、動き補償処理を行うＭＣ４１０、ブロック符号化部４０１及び局所ブロック復号化部４０２から構成される。ブロック符号化部４０１は、ＤＣＴ変換部４０４、量子化部（ＱＴＺ）部４０５、及びエントロピー符号化部（ＶＬＣ）４０６で構成される。

ＭＰＥＧ−４符号化部４００の処理内容については、例えばＩＳＯ／ＩＥＣ１４４９６−２に開示されており、ここでは詳細な説明は省略する。

シーン分割部４１２は、シーケンス全体（時間軸に並んだ複数のピクチャで構成される動画像）の入力ピクチャを対象として、複数個のピクチャからなるシーンに分割する。シーンを構成するピクチャ数Ｎは、シーケンスを通して固定でも可変でも良い。ここでは説明を簡略化するために、シーン分割部４１２は、図５に示す通りに、Ｎ＝３、つまり、３つのピクチャの入力する度に、そのシーンの区切りタイミングを示す信号をシーン目標量算出部４１３に出力する。

ブロック歪み算出部４１１は、ブロック局所復号化部４０２及びＭＣ４１０の出力を加算した再構成ピクチャの一部を随時入力する。そして、例えば複数画素で構成されるマクロブロック単位で、ＭＰＥＧ−４符号化部４００の入力ピクチャと同一ピクチャ内の同一座標のマクロブロックとでブロック歪みを算出する。これを各ブロック単位に積算することで、オリジナルのピクチャに対する符号化されたピクチャのピクチャ歪みを算出することができる。ここで、ピクチャ中のブロック歪みの度合いを表す量をブロック歪み量とする。つまり、ブロック歪み量は画質劣化の度合を示す指標と言える。なお、ブロック歪み算出部４１１は、少なくとも１つ以上のピクチャに対してブロック歪み量を算出し、そのブロック歪み量を示す情報をシーン目標符号量算出部４１３に出力する。

発生符号量累積部４１５は、ブロック符号化部４０１から出力される符号化ストリームの符号長を、随時累積する事でピクチャ単位の発生符号量を算出し、その符号量を余剰符号量算出部１０７に出力する。また、発生符号量累積部４１５は、算出したピクチャ単位の発生符号量をシーン内で累積し、そのシーン単位の発生符号量（シーンの総符号量）も余剰符号量算出部１０７に出力する。但し、発生符号量累積部４１５は、１シーン（実施形態では３ピクチャ）の入力に先立って、直前のシーンで算出したピクチャ、シーン単位の符号量をゼロクリアする。

余剰符号量算出部４１４は、発生符号量累積部４１５から入力されるシーン内の各ピクチャ単位の発生符号量、及び、与えられた目標ビットレートをＣＢＲ方式で符号化した場合のシーン単位の符号量から、余剰符号量を算出する。そして、余剰符号量算出部４１４は、シーン目標符号量算出部４１３に対して余剰符号量をシーン内の全ピクチャの符号化が完了した後に出力する。

シーン目標符号量算出部４１３は、余剰符号量算出部４１４から入力される余剰符号量及びブロック歪み算出部４１１から入力されるブロック歪み量から、次のシーンに対する初期の目標符号量を算出する。つまり、シーン目標符号量の算出は、シーンの先頭ピクチャがＭＰＥＧ−４符号化部４００に入力される前に、シーン毎に行う。算出するシーンの目標符号量は、ＣＢＲ方式で符号化を行うと仮定した場合の符号量を基準として、余剰符号量及びブロック歪み量に応じて適応的に算出される。シーン目標符号量算出部４１３は、１つのシーンの最初のピクチャの符号量から、そのシーンの２番目以降の目標符号量を算出する。

ピクチャ目標符号量算出部４１６は、シーン目標符号量算出部４１３から入力されるシーン目標符号量から、次のシーンを符号化を行う際のピクチャの目標符号量を算出する。シーン目標符号量を、シーン内の各々のピクチャに対してどの様に割り当てるかは、従来技術であるＣＢＲ方式又は本発によるＶＢＲ方式であるかには依存せず算出する事が出来る。例えば、ＣＢＲ方式の従来技術であるＴＭ５方式を用いてピクチャ目標符号量を算出するが可能である。本実施形態でも、ＴＭ５方式を用いる事とする。

符号化パラメータ決定部４０７は、ピクチャ目標符号量算出部４１６と同様に従来技術を用いる事が可能である。符号化パラメータ決定部４０７は、ＭＰＥＧ−４符号化部４００の符号化パラメータであるＱスケールを算出し、量子化部（ＱＴＺ）４０５に対してＱスケールを設定する。例えば、ＴＭ５方式を用いた場合には、ピクチャ目標符号量算出部４１６から入力されるピクチャ目標符号量、及び、ブロック符号化部４０１から出力される符号化ストリームの符号長を随時累積する事で、マクロブロック毎にＱスケールを算出する。なお、量子化部４０５は、ＤＣＴ変換部４０４で生成された各変換係数を、量子化スケールで示される量子化ステップ値で除算することになるので、除算後の値の取り得る値は量子化スケールが大きいほど小さな値となる。従って、量子化スケールが大きい程、エントロピー符号化部（ＶＬＣ）４０６で生成される符号化データのデータ量は少なくなる。

［処理フローの説明］
次に、図４に示す動画像符号化装置の処理フローについて詳細に説明する。

図６には、６つのシーンからなるシーケンスを本動画像符号化装置により符号化した場合のシーン目標符号量の推移を示している。図中、参照符号６１０は、従来技術であるＣＢＲ方式を用いた場合の各シーンに対するシーン目標符号量を示しており、各々のシーンにおける矩形の面積がシーン目標符号量に対応している。ＣＢＲ方式を用いた場合の、シーン目標符号量はシーン０〜５まで一定である事がわかる。

参照符号６１１は、本実施形態におけるシーン目標符号量の推移を示している。また参照符号６１２は、各々のピクチャにおけるブロック歪み量を表している。

ここで、ブロック歪み算出部４１１は、次の演算を行う事によりブロック歪み量Ｂ_cprevを求める。但し、ここで、ＭＰＥＧ−４符号化部４００の入力ピクチャの水平方向の画素数をx_size、垂直方向の画素数をy_sizとする。水平方向の座標をＪ、垂直方向の座標をＩとしたとき、ＭＰＥＧ−４符号化部４００の入力ピクチャの画素値をＣＩＮ（Ｊ，Ｉ）とする。また、同様にブロック局所復号化部４０２の出力ピクチャである再構成ピクチャの画素値をＣＯＵＴ（Ｉ，Ｊ）とする。また、「ｘ％ｙ」は、整数ｘを整数ｙで除算した際の余りを返す関数とする。
for (I＝0；I < y_size -1; I++){
for (J= 0; J < x_size -1; J++){
if (J % 8 == 7){
EDGEin = ABS (CIN(J,I)−CIN(J,I+1));
EDGEout = ABS (COUT(J,I) − COUT(J,I+1));
MSEblk ++ = POWER(EDGEin − EDGEout));}
else{
if( I % 8 == 7){
EDGEin = ABS(CIN(J,I) − CIN(J+1,I));
EDGEout = ABS(COUT(J,I) − COUT(J+1,I));
MSEblk++ = POWER(EDGEin − EDGEout));}
} }
Bcprev = MSEblk/MSEall; …（３）
ここで、ＭＳＥａｌｌはＣＩＮ（Ｊ，Ｉ）とＣＯＵＴ（Ｊ，Ｉ）とのピクチャ全体における差分二乗和である。
MSEall＝ΣΣ{CIN(J,I)-COUT(J,I)}²

上記に示した処理（３）は簡単に説明すると次の通りである。なお、ＤＣＴ変換部４０４は８×８個の要素（画素or画素の差分）を単位に変換することになるので、ブロック境界位置は、水平、垂直方向の座標Ｉ，Ｊが「８ｎ−１」と「８ｎ」との間になる。上記「Ｊ％７＝７」や「Ｉ％７＝７」を満たすとき、ブロック境界を判定していることになる。

オリジナル画像中の水平方向に隣接する２つブロックのそれぞれの境界に位置する要素の差の絶対値と、ＩＤＣＴ４０９を介して得られた復号後の画像データ内の該当する２つブロックのそれぞれの境界に位置する要素の差の絶対値を求める。そして、その絶対値の差を変数MSEblk（Ｊ％８＝７場合）に足し込む。また、垂直方向にも２つのブロックが隣接するので、その境界（Ｉ％８＝７の場合）での歪み量を算出し、MSEblkに足し込む。変数ｉ，ｊは画像のサイズまで変化することになるわけであるから、最終的に得られるＢ_cprevは、符号化前のピクチャの各ブロック境界の差と、符号化した結果を復号して得られたピクチャの各ブロック境界の差の、「差」の総合計を表わす値と言える。より簡単には、Ｂ_cprevは、復号した画像におけるブロックの境界に、どの程度の歪みが発生しているかを示す指標値であると言える。

図６の説明に戻る。図示における閾値Bhigh及び閾値Blowは、共にブロック局所復号化部４０２（逆量子化部４０８と逆ＤＣＴ部４０９で構成される）から出力される再構成ピクチャの画質劣化の度合いを表す予めシーン目標符号量算出部４１３に設定する定数である。閾値Bhighは、ブロック歪みによる画質劣化が著しいために、シーン目標符号量算出部４１３において現在のシーンに対してシーン目標符号量を増加させるか否かを判断する基準値である。一方、閾値Blowは、ブロック歪みによる画質劣化が殆ど発生しておらず、現在のシーンに対してシーン目標符号量を減少させるか否かを判断する基準値である。

更に、参照符号６１３は、参照符号６１２で示される各々のピクチャのブロック歪み量をシーン内で平均した値である。シーン目標符号量算出部４１３において、参照符号６１３と同様に閾値Bhigh及びBlowを設ける。これら閾値と、シーン内ブロック歪み平均量とを比較することで、次のシーンに対するシーン目標符号量の増減を判断する。

参照番号６１４は、ＣＢＲ方式に対する本発明によるシーン目標符号量の余剰符号量の推移を示したものである。余剰符号量は、ＭＰＥＧ符号化部４００においてシーンの符号化が完了する毎に余剰符号量算出部４１４において算出さる。

次に、図６における矢印６０１乃至６０８で表される各処理について説明する。

矢印６０１は、シーン目標符号量算出部４１３において、シーン０の最後のピクチャであるピクチャＮｏ．２の符号化が完了した後に、シーン１の最初のシーン目標符号量を算出している事を表している。シーン目標符号量算出部４１３は、シーン０のシーン内平均ブロック歪み量が閾値範囲を下回る（閾値Blowで示される閾値以下）である事から、次のシーン１は、シーン０と同様に符号化難易度が低いピクチャから構成されると予測する。そのため、ＣＢＲ方式によるシーン目標符号量から、次式で示す通り、シーン内平均ブロック歪み量に応じた符号量を減算してシーン１のシーン目標符号量とする。
Ｔ（Ｎ）＝Ｔ_CBR − Ｔ_CBR×γ×Ｂ_scene …（４）
ここで、Ｔ（Ｎ）はシーンＮのシーン目標符号量、Ｔ_CBRはＣＢＲ方式によるシーン目標符号量、γは予めシーン目標符号量算出部４１３に設定する定数、Ｂ_scene は、シーンＮ−１における各ピクチャのブロック歪み量Ｂ_cprevの平均値である。

図６の参照番号６１４の余剰符号量が、ピクチャＮｏ．５の符号化が完了した後に式（４）中の右辺第二項で表されるＴ_CBR×γ×B_sceneの符号量分だけ増加している事が分る。なお、シーケンスの先頭シーンであるシーン０のシーン目標符号量には、それ以前のシーンは存在しないので、ＣＢＲ方式によるシーン目標符号量を用いる。

矢印６０２では、矢印６０１と同様にシーン２のシーン目標符号量がピクチャＮｏ．５の符号化が完了した後に式（４）を用いて算出され、シーン２の先頭ピクチャであるピクチャＮｏ．６がＭＰＥＧ−４符号化部４００において符号化される。しかし、ピクチャＮｏ．６のブロック歪み量Ｂ_cprevが閾値Blowより大きい。このため、矢印６０３において、シーン２のシーン目標符号量がＣＢＲ方式のシーン目標符号量に修正され、シーン目標符号量算出部４１３から新たにピクチャ目標符号量算出部４１６に出力される。すなわち、シーン２の残りのピクチャであるピクチャＮｏ．７及びＮｏ．８に対してはＣＢＲ方式のシーン目標符号量を用いてピクチャ目標符号量が算出される。

次に矢印６０４では、シーン２のシーン内平均ブロック歪み量が閾値Blowより大きく、閾値Bhighより小さいため、ＣＢＲ方式の目標符号量が適切であると予測し、シーン３のシーン目標符号量をＣＢＲ方式の目標符号量とする。更に矢印６０５においても、シーン４のシーン目標符号量が矢印６０４と同様に算出される。

矢印６０６では、ピクチャＮｏ．１２のブロック歪み量Bcprev が閾値Bhighより大きく、かつ余剰符号量が存在するためにシーン４のシーン目標符号量を増加（修整）させている。ただし、余剰符号量が存在しない場合には、たとえブロック歪み量Bcprev が閾値Bhighより大きい場合でも、シーン目標符号量を増加せずに、ＣＢＲ方式の目標符号量を用いる。

矢印６０７では、シーン４のシーン内平均ブロック歪み量が閾値Bhighより大きく、かつ余剰符号量が存在するためにシーン５の目標符号量を増加させる。ただし、この場合も矢印６０６と同様に余剰符号量が存在しない場合には、シーン目標符号量を増加せずＣＢＲ方式の目標符号量を用いる。更に、矢印６０８では、ピクチャＮｏ．１５のブロック歪み量Bcprev が閾値Bhighより小さく、かつ閾値Blowより大きいのでシーン５の残りのピクチャに対するシーン目標符号量として、ＣＢＲ方式の目標符号量を用いる。

以上説明したように本実施形態によれば、画質の劣化具合を表す指標であるブロック歪み量に応じて、シーン目標符号量を制御する。これにより、与えられた目標ビットレートの条件下において符号化難易度が高いシーンにおいても良好な画質の符号化動画像データを得る事が出来る。更には、余剰符号量が存在するシーンに対してのみシーン目標符号量を増加させるので、目標ビットレートとシーケンスの長さから定められる最大発生符号量を保証する事が出来る。

本発明による動画像符号化装置の概略ブロック図である。従来技術を説明するための図である。従来技術を説明するための図である。実施形態における具体的な動画像符号化装置のブロック図である。シーン分割部のシーン分割の例を示す図である。実施形態による動画像符号化装置のシーン目標符号量の推移を説明する図である。

Claims

動画像を符号化する動画像符号化装置であって、
時間軸に並んだピクチャで構成される動画像を、予め設定された複数個のピクチャで構成されるシーンに分割する分割手段と、
与えられた量子化スケールを決定するパラメータに従って、入力したピクチャ中の複数画素で構成されるブロック単位に符号化し、符号化データを生成する符号化手段と、
前記符号化手段で生成されるピクチャの符号量を算出すると共に、シーンの総符号量を算出する符号量算出手段と、
前記符号化手段で生成された符号化データを復号し、復号後のピクチャと符号化前のピクチャとの間の、前記ブロックの境界位置における歪み量をピクチャ歪み量として算出すると共に、シーンを構成する各ピクチャ歪み量の平均値を算出するブロック歪み算出手段と、
前記符号量算出手段で算出した各ピクチャの符号量と、予め設定された目標ビットレートから、各シーンに均等に配分した符号量に対する余剰符号量を算出する余剰符号量算出手段と、
前記ブロック歪み算出手段で算出された平均値と、前記余剰符号量算出手段で算出した余剰符号量に基づいて目標符号量を算出し、算出した目標符号量に基づいて前記符号化手段に与える次に符号化するシーンの初期のパラメータを決定すると共に、
シーン内の最初のピクチャの符号量と予め設定した閾値範囲とを比較し、この比較の結果に従って前記初期のパラメータを修整することで、前記シーン内の２番目以降のピクチャの符号化のためのパラメータを決定するパラメータ決定手段と
を備えることを特徴とする動画像符号化装置。
前記符号化手段は、ＭＰＥＧ−４に従って符号化することを特徴とする請求項１に記載の動画像符号化装置。
前記パラメータ決定手段は、前記ブロック歪み算出手段で算出された平均値が予め設定された閾値より大きく、前記余剰符号量算出手段で算出した余剰符号量が予め設定された閾値より大きい場合にのみ、次のシーンの目標符号量を前記平均値に基づいて増加させるための前記初期のパラメータを決定することを特徴とする請求項１又は２に記載の動画像符号化装置。
前記パラメータ決定手段は、前記ブロック歪み算出手段で算出された平均値が予め設定された閾値以下となった場合にのみ、次のシーンの目標符号量を前記平均値に基づいて減少させるための前記初期のパラメータを決定することを特徴とする請求項１又は２に記載の動画像符号化装置。
動画像を符号化する動画像符号化装置の制御方法であって、
時間軸に並んだピクチャで構成される動画像を、予め設定された複数個のピクチャで構成されるシーンに分割する分割工程と、
与えられた量子化スケールを決定するパラメータに従って、入力したピクチャ中の複数画素で構成されるブロック単位に符号化し、符号化データを生成する符号化工程と、
前記符号化工程で生成されるピクチャの符号量を算出すると共に、シーンの総符号量を算出する符号量算出工程と、
前記符号化工程で生成された符号化データを復号し、復号後のピクチャと符号化前のピクチャとの間の、前記ブロックの境界位置における歪み量をピクチャ歪み量として算出すると共に、シーンを構成する各ピクチャ歪み量の平均値を算出するブロック歪み算出工程と、
前記符号量算出工程で算出した各ピクチャの符号量と、予め設定された目標ビットレートから、各シーンに均等に配分した符号量に対する余剰符号量を算出する余剰符号量算出工程と、
前記ブロック歪み算出工程で算出された平均値と、前記余剰符号量算出工程で算出した余剰符号量に基づいて目標符号量を算出し、算出した目標符号量に基づいて前記符号化工程に与える次に符号化するシーンの初期のパラメータを決定すると共に、
シーン内の最初のピクチャの符号量と予め設定した閾値範囲とを比較し、この比較の結果に従って前記初期のパラメータを修整することで、前記シーン内の２番目以降のピクチャの符号化のためのパラメータを決定するパラメータ決定工程と
を備えることを特徴とする動画像符号化装置の制御方法。