JP2005303578A

JP2005303578A - 画像信号処理装置および方法、記録媒体、プログラム、並びにビデオカメラ

Info

Publication number: JP2005303578A
Application number: JP2004115229A
Authority: JP
Inventors: Kaname Ogawa; 要小川; Takahito Seki; 貴仁関
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-04-09
Filing date: 2004-04-09
Publication date: 2005-10-27

Abstract

【課題】画像信号をVBRを適用して符号化するに際し、発生符号量の最大レートを精度良く制御する。
【解決手段】 VBR割り当て部３１は、予測残差予想部からの予想予測残差PRED(n)に係数ｋを乗算するか、関数ｆ（PRED(n)）を用いてVBR目標符号量BIT_VBR(n)を算出する。CBR割り当て部３２は、発生符号量がGOP単位で所定の固定値となるように、ピクチャタイプに応じた計算式を用いてCBR目標符号量BIT_CBR(n)を算出する。比較部３３は、VBR目標符号量BIT_VBRがCBR目標符号量BIT_CBRよりも小さい場合にはVBR目標符号量BIT_VBRを、VBR目標符号量BIT_VBRがCBR目標符号量BIT_CBR以上である場合にはCBR目標符号量BIT_CBRを目標符号量BIT_TGTとして出力する。本発明は、ディジタルビデオカメラに適用することができる。
【選択図】図４

Description

本発明は、画像信号処理装置および方法、記録媒体、プログラム、並びにビデオカメラに関し、特に、画像信号を圧縮符号化するときの圧縮率を制御する場合に用いて好適な画像信号処理装置および方法、記録媒体、プログラム、並びにビデオカメラに関する。

例えば、動画像データをディジタル化して情報記録媒体に記録したり、インタネット等に代表されるネットワークを介して伝送したりする場合、そのデータ量が膨大であることから、動画像データを圧縮符号化することが行われている。動画像データの代表的な符号化方式としては、動き補償予測符号化方式を挙げることができる。

動き補償予測符号化方式の具体的なものとしては、MPEG（Moving picture experts group）符号化方式がある。MPEG方式では、１フレームまたは１フィールドが、１６ライン×１６画素で構成されるマクロブロックに分割され、このマクロブロック単位で、動き補償予測符号化が行われる。

動き補償予測符号化方式は、画像の時間軸方向の相関を利用する符号化方法であり、参照する画像（参照画像）に対する、符号化対象の画像（符号化対象画像）の動きベクトルを検出し、その動きベクトルにしたがって、既に符号化されて復号化された参照画像を動き補償することにより、予測画像を生成する。そして、この予測画像に対する、符号化対象画像の予測残差を求め、この予測残差と動きベクトルを符号化することにより、動画像の情報量が圧縮される。

動き補償予測符号化方式には、大別して、イントラ符号化と、インター符号化の２種類の符号化方式がある。イントラ符号化では、符号化対象のマクロブロックに関して、符号化対象画像の情報がそのまま符号化され、インター符号化では、符号化対象画像に時間的に前後する画像を参照画像として、その参照画像から生成される予測画像と、自身の情報との差分が符号化される。

MPEG方式では、各画像が、Ｉピクチャ（Intra coded picture）、Ｐピクチャ（Predictive coded picture）、またはＢピクチャ（Bidirectionally predictive picture）のうちのいずれかとして符号化される。また、MPEG方式では、GOP（Group of picture）単位で処理が行われる。

このGOP単位で符号化され、その結果得られた符号化データを情報記録媒体に記録したり、伝送したりするときには、符号化データを伸長復号したときの画質を高く保ちつつ、符号化データのデータ量が、情報記録媒体の記録容量以下、あるいは通信回線の伝送容量以下となるように、符号圧縮率を正確に制御する必要がある。

符号圧縮率の制御方法としては、CBR(Constant Bit Rate)とVBR(Variable Bit Rate)が知られている。

CBRを適用した場合、GOP単位でのビットレートが固定されているので、情報記録媒体に最大で何時間分の映像を記録できるかなどの情報を正確に見積もることができる。しかしながら、符号化する画像の複雑さ等に応じて符号量を増減させることができないので効率が悪く、画質的にも良好ではない場合があるという問題がある。

VBRを適用する場合、例えば、量子化スケールを固定して符号化する方法がある。この場合、圧縮率が固定されるため、仕上がりレートが画像の複雑さ等に応じて一意に決まってしまい、用途に応じた最大レートを保証することができない、したがって、情報記録媒体に最大で何時間分の映像を記録できるかなどの情報を正確に見積もることができないという問題がある。

この問題を解決するため、従来から、実際の符号化に先立ち、符号化しようとする画像の発生符号量を正確に見積もり、見積もり結果に基づいて圧縮率を制御することが行われている。

例えば、発生符号量を正確に見積もるためには、実際の符号化に先立って、圧縮率に関わるパラメータを仮に設定して、符号化を行う方法がある。しかしながら、このような方法を用いると、実際の符号化で必要とされる演算量の倍の演算を行う必要があるので効率が悪いという問題があった。

なお、実際の符号化で必要とされる演算量の倍の演算を行うことなく、画像の予測残差に基づいて発生符号量を見積もることのできる発明が、本出願人により既に提案済である（特許文献１参照）。

ところで、MPEGの一種としての、例えばMPEG２（ISO/IEC13818-2）は、汎用画像符号化方式として定義されており、飛び越し走査画像および順次走査画像の双方、並びに標準解像度画像および高精細画像を網羅する標準で、プロフェッショナル用途およびコンシューマ用途の広範なアプリケーションに現在広く用いられている。MPEG２方式を用いることにより、例えば７２０×４８０画素を持つ標準解像度の飛び越し走査画像であれば４乃至８Mbps、１９２０×１０８８画素を持つ高解像度の飛び越し走査画像であれば１８乃至２２Mbpsの符号量（ビットレート）を割り当てることで、高い圧縮率と良好な画質の実現が可能である。

MPEG２方式は、主としてテレビジョン放送用に適合する高画質符号化を対象としていたが、MPEG１方式よりも低い符号量（ビットレート）、換言すれば、MPEG１方式よりも高い圧縮率の符号化方式には対応していなかった。

そこで、MPEG１方式よりも高い圧縮率の符号化方式に対するニーズに応えるべくしてMPEG４符号化方式の標準化が行われ、１９９８年１２月にISO/IEC 14496-2としてその規格が国際標準に承認された。

更に、近年、当初テレビ会議用の画像符号化を目的として、Ｈ.２６４（ITU-T Q6/16VCEG）という標準の規格化が進んでいる。Ｈ．２６４は、MPEG２方式やMPEG４方式といった従来の符号化方式に比べ、その符号化、復号化により多くの演算量が要求されるものの、より高い符号化効率が実現されることが知られている。

また、現在、MPEG４の活動の一環として、このＨ．２６４をベースに、Ｈ．２６４ではサポートされない機能も取り入れて、より高い符号化効率を実現する標準化がJVT（Joint Video Team）によって行われている。以下、JVTにより標準化が行われている符号化方式を、JVT CodecまたはＨ．２６４｜MPEG４−AVC）と記述する。

ＷＯ９８／２６５９９（特願平１０−５２６５０５号）

ところで、MPEG４−AVCにおいてVBRを適用するためも、画像を実際に符号化したときの発生符号量を事前に見積もることが必要となる。しかしながら、特許文献１で提案されている発明では、MPEG４−AVCのように予測モードが多い符号化方式に対して、画像を実際に符号化したときの発生符号量を事前に正確に見積もることができなかった。したがって、MPEG４−AVCにVBRを適用した場合の発生符号量の最大レートを精度良く制御することができないという課題があった。

本発明はこのような状況に鑑みてなされたものであり、画像信号をVBRを適用して符号化するに際し、発生符号量の最大レートを精度良く制御できるようにするものである。

本発明の画像信号処理装置は、動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想手段と、予測残差予想手段によって予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出手段と、予測残差予想手段によって予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出手段と、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定手段と、設定手段によって設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化手段とを含むことを特徴とする。

前記設定手段は、符号化手段からフィードバックされる、符号化手段に内蔵された復号時を想定した仮想バッファの符号占有量に基づいて第３の発生符号量を算出し、第３の発生符号量が第１の発生符号量または第２の発生符号量のうちの目標符号量として設定された方よりも小さい場合には、第３の発生符号量を目標符号量に設定するようにすることができる。

前記符号化手段は、設定手段によって設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化するとき、異なるピクチャタイプで共通の仮想バッファを使用して、量子化スケールを決定するようにすることができる。

前記符号化手段は、ＰピクチャまたはＢピクチャによる単一の仮想バッファの占有量を、直近に圧縮符号化されたＩピクチャの発生符号量に基づいて補正するようにすることができる。

前記符号化手段は、単一の仮想バッファの占有量を量子スケールコードに変換する際、ピクチャタイプに応じて補正された変換式を用いるようにすることができる。

前記所定の符号化方式は、MPEG方式とすることができる。

前記所定の符号化方式は、MPEG4-AVC方式とすることができる。

本発明の画像信号処理方法は、動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップと、予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップと、予測残差予想ステップの処理で予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップと、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップと、設定ステップの処理で設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化ステップとを含むことを特徴とする。

本発明の記録媒体のプログラムは、動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップと、予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップと、予測残差予想ステップの処理で予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップと、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップと、設定ステップの処理で設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化ステップとを含むことを特徴とする。

本発明のプログラムは、動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップと、予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップと、予測残差予想ステップの処理で予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップと、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップと、設定ステップの処理で設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化ステップとを含む処理をコンピュータに実行させることを特徴とする。

本発明のビデオカメラは、被写体の動画像を撮影し、画像信号を生成する撮影手段と、撮影手段によって撮影された動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想手段と、予測残差予想手段によって予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出手段と、予測残差予想手段によって予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出手段と、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定手段と、設定手段によって設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化手段と、符号化手段によって圧縮符号化された画像信号を情報記録媒体に記録する記録手段とを含むことを特徴とする。

本発明の画像信号処理装置および方法、プログラム、並びにビデオカメラにおいては、動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差が予想され、予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量と、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量が算出される。さらに、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量が、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量が、静止画像に対応する画像信号が圧縮符号化されるときの目標符号量に設定され、設定された目標符号量に従い、静止画像に対応する画像信号が圧縮符号化される。

本発明によれば、画像信号をVBRを適用して符号化するに際し、発生符号量の最大レートを精度良く制御することが可能となる。

以下に本発明の実施の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると、次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項に全て記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割出願されたり、補正により追加されたりする発明の存在を否定するものではない。

請求項１に記載の画像信号処理装置（例えば、図１の画像信号処理装置１）は、動画像を構成する静止画像（フレーム画像またはフィールド画像）に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想手段（例えば、図１の予測残差予想部３）と、予測残差予想手段によって予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出手段（例えば、図４のVBR割り当て部３１）と、予測残差予想手段によって予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出手段（例えば、図４のＣBR割り当て部３２）と、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定手段（例えば、図４の比較部３３）と、設定手段によって設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化手段（例えば、図１の符号化部５）とを含むことを特徴とする。

請求項８に記載の画像信号処理方法は、動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップ（例えば、図５のステップＳ２）と、予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップ（例えば、図８のステップＳ３１）と、予測残差予想ステップの処理で予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップ（例えば、図８のステップＳ３２）と、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップ（例えば、図８のステップＳ３３乃至Ｓ３５）と、設定ステップの処理で設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化ステップ（例えば、図５のステップＳ４）とを含むことを特徴とする。

請求項１１に記載のビデオカメラ（例えば、図１８のディジタルビデオカメラ２００）は、被写体の動画像を撮影し、画像信号を生成する撮影手段（例えば、図１８のカメラ部２０１）と、撮影手段によって撮影された動画像を構成する静止画像に対して、静止画像に対応する画像信号が圧縮符号化される前に、静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想手段（例えば、図１の予測残差予想部３）と、予測残差予想手段によって予想された予想予測残差に基づき、可変ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出手段（例えば、図４のVBR割り当て部３１）と、予測残差予想手段によって予想された予想予測残差に基づき、固定ビットレート方式を採用して静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出手段（例えば、図４のＣBR割り当て部３２）と、第１の発生符号量が第２の発生符号量よりも小さい場合には第１の発生符号量を、第１の発生符号量が第２の発生符号量以上である場合には第２の発生符号量を、静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定手段（例えば、図４の比較部３３）と、設定手段によって設定された目標符号量に従い、静止画像に対応する画像信号を圧縮符号化する符号化手段（例えば、図１の符号化部５）と、符号化手段によって圧縮符号化された画像信号を情報記録媒体に記録する記録手段（例えば、図１８の媒体Ｉ／Ｆ２０４）とを含むことを特徴とする。

なお、本発明の記録媒体に記録されているプログラム、および本発明のプログラムの請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係は、上述した本発明の情報処理方法のものと同様であるので、その記載は省略する。

以下、本発明の一実施の形態について説明する。図１は、本発明を適用した画像信号処理装置の構成例を示している。この画像信号処理装置１は、入力される動画像信号（以下、被符号化画像信号と記述する）を圧縮符号化して、被符号化画像信号よりもデータ量やビットレートの小さな符号化画像信号を生成するものであり、疑似予測残差生成部２、予測残差予想部３、目標符号量決定部４、および符号化部５から構成される。

疑似予測残差生成部２は、入力される被符号化画像信号に基づき、後段の符号化部５において被符号化画像信号が実際に符号化されるときに算出される予測残差SADの擬似的な値（以下、疑似予測残差BDと記述する）を算出して予測残差予想部３に出力する。以下、ｎ番目の画像（フレーム画像またはフィールド画像）の被符号化画像信号に対応する疑似予測残差をBD(n)と記述する。

予測残差予想部３は、疑似予測残差生成部２から入力された、ｎ番目の画像に対応する疑似予測残差BD(n)を、ｎ−１番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-1)と、符号化部５から入力されるｎ−１番目の画像の被符号化画像信号に対応する予測残差SAD(n-1)に基づいて補正し、その補正結果として得られた予想予測残差PRED(n)を目標符号量決定部４に出力する。

目標符号量決定部４は、予測残差予想部３から入力された予想予測残差PRED(n)に基づき、ｎ番目の画像を符号化するときにVBR（Variable Bit Rate）を適用した場合における目標符号量（以下、VBR目標符号量BIT_VBR(n)と記述する）と、CBR（Constant Bit Rate）を適用した場合における目標符号量（以下、CBR目標符号量BIT_CBR(n)と記述する）とを算出し、これらの一方を目標符号量BIT_TGT(n)として符号化部５に出力する。

さらに、目標符号量決定部４に対して符号化部５から、VBVバッファ（またはCPBバッファ）を占めるデータ量を供給するようにして、目標符号量決定部４が、VBVバッファ（またはCPBバッファ）を占めるデータ量に基づいてVBV目標符号量BIT_VBV(n)を算出し、VBV目標符号量BIT_VBV(n)がVBR目標符号量BIT_VBR(n)およびCBR目標符号量BIT_CBR(n)よりも小さい場合、VBV目標符号量BIT_VBV(n)を目標符号量BIT_TGTに設定するようにすることもできる。ここで、VBVバッファ（またはCPBバッファ）とは、符号化部５に設けられている仮想的なバッファであり、符号化画像信号の復号時にオーバーフローやアンダーフローが発生しないように、実際の発生符号量を監視するものである。ここで、VBVバッファは、MPEG２における用語であり、CPBバッファは、MPEG４−AVC(Advanced Video Coding)における用語である。

符号化部５は、動き補償予測符号化方式を適用した、例えば、MPEG２方式、MPEG４方式、MPEG４-AVC方式等の符号化装置であり、入力された被符号化画像信号を、目標符号量決定部４から入力される目標符号量BIT_TGTに従って圧縮符号化し、符号化画像信号を生成する。また、符号化部５は、圧縮符号化の処理過程で算出した実際の予測残差SADを予測残差予想部３に出力する。

図２は、疑似予測残差生成部２の構成例を示している。図２の構成例において、イントラ予測部１１は、入力された被符号化画像信号にフレーム内予測を適用してイントラ予測画像を生成し、差分器１３に出力する。インター予測部１２は、入力された被符号化画像信号にフレーム間予測を適用してインター予測画像を生成し、差分器１４に出力する。なお、イントラ予測部１１およびインター予測部１２は、例えば、MPEG２方式やMPEG４方式、MPEG４-AVC方式等が適用される符号化部５に内蔵されたイントラ予測部およびインター予測部と同等の精度でイントラ予測画像あるいはインター予測画像を生成できるようなものである必要はなく、近似的にこれらと同様の傾向を示すイントラ予測画像あるいはインター予測画像を生成できればよい。

差分器１３は、イントラ予測部１１によって生成されたイントラ予測画像とそれに対応する被符号化画像信号の画像との差分を算出し、その結果をイントラ予測残差として比較部１５に出力する。差分器１４は、インター予測部１２によって生成されたインター予測画像とそれに対応する被符号化画像信号の画像との差分を算出し、その結果をインター予測残差として比較部１５に出力する。比較部１５は、差分器１３から入力されたイントラ予測残差と差分器１４から入力されたインター予測残差とをマクロブロック毎に比較し、その値の小さい方を疑似予測残差BDに採用して後段の予測残差予想部３に出力する。なおここでの比較はマクロブロックの単位に限定することなく、被符号化画像を任意の単位で分割した領域ごとに行ってもよい。

図３は、予測残差予想部３の構成例を示している。図３の構成例において、疑似予測残差生成部２からのｎ（ｎ＝１，２，…）番目の画像に対応する疑似予測残差BD(n)は、予測残差計算部２１および遅延部２２に入力される。予測残差計算部２１は、次式（１）に示されるように、遅延部２２によって１画像分だけ遅延されたｎ−１番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-1)と、符号化部５によって実際に計算されたｎ−１番目の画像の被符号化画像信号に対応する予測残差SAD(n-1)との差に調整係数Ｇを乗算した値Ｇ（SAD(n-1)−BD(n-1)）を、疑似予測残差生成部２から入力されたｎ番目の画像に対応する疑似予測残差BD(n)に加算することにより、ｎ番目の画像の被符号化画像信号に対応する予想予測残差PRED(n)を算出する。なお、調整係数Ｇは、１以下の正数であり、例えば０．９とする。
PRED(n)＝BD(n)＋Ｇ（SAD(n-1)−BD(n-1)） …（１）

なお、ｎ−１番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-1)と予測残差SAD(n-1)との代わりに、ｎ−１番目以前の例えばｎ−２番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-2)と予測残差SAD(n-2)とを用いるようにしてもよい。

ただし、０番目の画像が存在しないので、予測残差予想部３では、１番目の画像に対応する予想予測残差PRED(１)を算出することはできない。したがって、予測残差予想部３は、２番目以降の画像に対応する予想予測残差PREDを算出するものとする。なお、１番目の画像に対応する被符号化画像信号の圧縮率制御については後述する。

図４は、目標符号量決定部４の構成例を示している。図４の構成例において、VBR割り当て部３１は、例えば、次式（２）に示すように、予測残差予想部３から入力される予想予測残差PRED(n)に所定の係数ｋ（例えば、０．２）を乗算するか、または次式（３）に示すように、予測残差予想部３から入力される予想予測残差PRED(n)を独立変数とする、関数ｆ（PRED(n)）を用いてVBR目標符号量BIT_VBR(n)を算出する。
BIT_VBR(n)＝ｋ・PRED(n) …（２）
BIT_VBR(n)＝ｆ（PRED(n)） …（３）

なお、係数ｋおよび関数ｆ（ｘ）は、被符号化画像信号の画質や、符号化画像信号の用途に応じて任意に決定してもよい。また、係数ｋおよび関数ｆ（ｘ）は、画像のピクチャタイプに応じて変更するようにしてもよい。

CBR割り当て部３２は、予測残差予想部３から入力される予想予測残差PRED(n)に基づき、被符号化画像信号を符号化したときの発生符号量がGOP(Group Of Picture)単位で所定の固定値となるように、被符号化画像信号のピクチャタイプに応じて、次式（４−１）乃至（４−３）のうちの１式を用いてCBR目標符号量BIT_CBR(n)を算出して、比較部３３に出力する。

ｎ番目のピクチャがＩピクチャの場合のCBR目標符号量BIT_CBR(n)_I
＝Ｒ／(１＋(Ｎｐ・PREDp)／(PRED(n)・Ｋｐ)＋(Ｎｂ・PREDb)／(PRED(n)・Ｋｂ))
…（４−１）
ｎ番目のピクチャがＰピクチャの場合のCBR目標符号量BIT_CBR(n)_P
＝Ｒ／(Ｎｐ＋(Ｎｂ・PREDb・Ｋｐ)／(PRED(n)・Ｋｂ)) …（４−２）
ｎ番目のピクチャがＢピクチャの場合のCBR目標符号量BIT_CBR(n)_B
＝Ｒ／(Ｎｂ＋(Ｎｐ・PREDp・Ｋｂ)／(PRED(n)・Ｋｐ)) …（４−３）

ただし、式（４−１）乃至（４−３）において、Ｒは、GOPに対して予め割り当てられている符号量のうちのいずれの画像にも割り当てられていない未割り当ての符号量を示す仮想バッファの値であり、式（４−１）乃至（４−３）のうちの１式が演算される毎、演算結果がフィードバックされて、その分だけ減算された値となる。例えば、GOPを構成する画像のピクチャタイプがＩ，Ｂ，Ｂ，Ｐ，…の順である場合、符号化はＩ，Ｐ，Ｂ，Ｂ，Ｐ，…の順に行われるので、始めに、式（４−１）のＲに、その初期値を代入してBIT_CBR(n)_Iを演算し、次に、式（４−２）のＲに、その初期値から先に演算したBIT_CBR(n)_Iを減算した値を代入してBIT_CBR(n)_Pを演算する。すなわち、Ｒはピクチャを符号化するたびにそのピクチャの目標符号量で減じられる。

Ｎｐは、GOPを構成する全画像数のうち、目標符号量BIT_CBR(n)_Pがまだ演算されていないＰピクチャの数である。Ｎｂは、GOPを構成する全画像数のうち、目標符号量BIT_CBR(n)_Bがまだ演算されていないＢピクチャの数である。PREDpは、目標符号量BIT_CBR(n)を算出しようとする画像の以前であって最も近くのＰピクチャに対応する予想予測残差である。PREDbは、目標符号量BIT_CBR(n)を算出しようとする画像の以前であって最も近くのＢピクチャに対応する予想予測残差である。Ｋｐは、Ｐピクチャの重み付け係数である。Ｋｂは、Ｂピクチャの重み付け係数である。

なお、式（４−１）乃至（４−３）の代わりに、MPEG２ＴＭ(Test Model)５ Step１に採用されている次式（５−１）乃至（５−３）を用い、被符号化画像信号のピクチャタイプに応じてCBR目標符号量BIT_CBR(n)を算出するようにしてもよい。
ｎ番目のピクチャがＩピクチャの場合の目標符号量BIT_CBR(n)_I
＝Ｒ／(１＋(Ｎｐ・Ｘｐ)／(Ｘｉ・Ｋｐ)＋(Ｎｂ・Ｘｂ)／(Ｘｉ・Ｋｂ))
…（５−１）
ｎ番目のピクチャがＰピクチャの場合の目標符号量BIT_CBR(n)_P
＝Ｒ／(Ｎｐ＋(Ｎｂ・Ｘｂ・Ｋｐ)／(Ｘｐ・Ｋｂ)) …（５−２）
ｎ番目のピクチャがＢピクチャの場合の目標符号量BIT_CBR(n)_B
＝Ｒ／(Ｎｂ＋(Ｎｐ・Ｘｐ・Ｋｂ)／(Ｘｂ・Ｋｐ)) …（５−３）

ただし、式（５−１）乃至（５−３）において、Ｒは、GOPに対して予め割り当てられている符号量のうちの残りの符号量であり、式（５−１）乃至（５−３）が演算される毎、前回の演算結果が減算された値となる。例えば、GOPを構成する画像のピクチャタイプがＩ，Ｂ，Ｂ，Ｐ，…の順である場合、符号化はＩ，Ｐ，Ｂ，Ｂ，Ｐ，…の順に行われるので、始めに、式（５−１）のＲに、その初期値を代入してBIT_CBR(n)_Iを演算し、次に、式（５−２）のＲに、その初期値から先に符号化したＩピクチャの符号量を減算した値を代入してBIT_CBR(n)_Pを演算する。すなわち、Ｒはピクチャを符号化するたびにそのピクチャの実際の符号量で減じられる。

Ｎｐは、GOPを構成する全画像数のうち、目標符号量BIT_CBR(n)_Pがまだ演算されていないＰピクチャの数である。Ｎｂは、GOPを構成する全画像数のうち、目標符号量BIT_CBR(n)_Bがまだ演算されていないＢピクチャの数である。Ｘｉ，Ｘｐ，Ｘｂは、それぞれＩピクチャ、Ｐピクチャ、またはＢピクチャのコンプレクシティである。Ｋｐは、Ｐピクチャの重み付け係数である。Ｋｂは、Ｂピクチャの重み付け係数である。

比較部３３は、VBR割り当て部３１から入力されたVBR目標符号量BIT_VBRと、CBR割り当て部３２から入力されたCBR目標符号量BIT_CBRとを比較し、VBR目標符号量BIT_VBRがCBR目標符号量BIT_CBRよりも小さい場合、VBR目標符号量BIT_VBRを目標符号量BIT_TGTとして出力し、VBR目標符号量BIT_VBRがCBR目標符号量BIT_CBR以上である場合、CBR目標符号量BIT_CBRを目標符号量BIT_TGTとして出力する。

なお、比較部３３において、VBR割り当て部３１から入力されたVBR目標符号量BIT_VBRと、CBR割り当て部３２から入力されたCBR目標符号量BIT_CBRとを比較することなく、VBR目標符号量BIT_VBRまたはCBR目標符号量BIT_CBRの一方に固定して目標符号量BIT_TGTとして出力するようにしてもよい。

また、比較部３３において、符号化部５にから供給されるVBVバッファ（またはCPBバッファ）のデータ占有量に基づいて、目標符号量BIT_TGTを決定するようにしてもよい。

次に、画像信号処理装置１による、ｎ番目の画像に対応する被符号化画像信号を圧縮符号化する画像圧縮処理について、図５のフローチャートを参照して説明する。

ステップＳ１において、疑似予測残差生成部２は、入力されたｎ番目の画像に対応する被符号化画像信号に基づき、ｎ番目の画像に対応する疑似予測残差BD(n)を算出して予測残差予想部３に出力する。このステップＳ１の処理について、図６のフローチャートを参照して詳述する。

ステップＳ１１において、イントラ予測部１１は、入力されたｎ番目の画像の被符号化画像信号に対し、フレーム内予測を適用してイントラ予測画像を生成し、差分器１３に出力する。これと同時に、インター予測部１２は、入力されたｎ番目の画像の被符号化画像信号に対し、フレーム間予測を適用してインター予測画像を生成し、差分器１４に出力する。

ステップＳ１２において、差分器１３は、イントラ予測部１１によって生成されたイントラ予測画像とｎ番目の画像との差分を算出し、その結果をイントラ予測残差として比較部１５に出力する。これと同時に、差分器１４は、インター予測部１２によって生成されたインター予測画像とｎ番目の画像との差分を算出し、その結果をインター予測残差として比較部１５に出力する。

ステップＳ１３において、比較部１５は、差分器１３から入力されたイントラ予測残差と差分器１４から入力されたインター予測残差とを、画像のマクロブロック毎に比較して、その値の小さい方を疑似予測残差BD(n)に採用して後段の予測残差予想部３に出力する。以上で、ステップＳ１の処理の詳述を終了する。

図５に戻る。ステップＳ２において、予測残差予想部３は、疑似予測残差生成部２から入力された、ｎ番目の画像に対応する疑似予測残差BD(n)を、ｎ−１番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-1)と、符号化部５から入力された、ｎ−１番目の画像の被符号化画像信号に対する実際の予測残差SAD(n-1)に基づいて補正し、その補正結果として得られた予想予測残差PRED(n)を目標符号量決定部４に出力する。このステップＳ２の処理について、図７のフローチャートを参照して詳述する。

ステップＳ２１において、予測残差計算部２１は、ｎ−１番目の画像の被符号化画像信号に対する実際の予測残差SAD(n-1)を符号化部５から取得するとともに、ｎ−１番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-1)を遅延部２２から取得する。ステップＳ２２において、予測残差計算部２１は、ｎ番目の画像に対応する疑似予測残差BD(n)を疑似予測残差生成部２から取得する。

ステップＳ２３において、予測残差計算部２１は、式（１）に示されたように、遅延部２２によって１画像分だけ遅延されたｎ−１番目の画像の被符号化画像信号に対応する疑似予測残差BD(n-1)と、符号化部５から入力されているｎ−１番目の画像の被符号化画像信号に対応する予測残差SAD(n-1)との差に調整係数Ｇを乗算した値Ｇ（SAD(n-1)−BD(n-1)）を、疑似予測残差生成部２から入力されたｎ番目の画像に対応する疑似予測残差BD(n)に加算して、ｎ番目の画像の被符号化画像信号に対応する予想予測残差PRED(n)を算出する。以上で、ステップＳ２の処理の詳述を終了する。

図５に戻る。ステップＳ３において、目標符号量決定部４は、予測残差予想部３から入力された、ｎ番目の画像に対応する予想予測残差PRED(n)に基づき、ｎ番目の画像に対応する目標符号量BIT_TGT(n)を決定して符号化部５に出力する。ステップＳ３の処理について、図８のフローチャートを参照して詳述する。

ステップＳ３１において、VBR割り当て部３１は、式（２）または式（３）を用い、予測残差予想部３から入力された予想予測残差PRED(n)に基づいて、ｎ番目の画像に対応するVBR目標符号量BIT_VBR(n)を算出する。図９は、任意のシーケンス（所定の期間の被符号化画像信号）に対して、VBR割り当て部３１によって算出されるVBR目標符号量BIT_VBR(n)の一例を示している。図９において、横軸は、シーケンスの時間経過を示しており、縦軸は、複数の符号化されたピクチャの符号量によって決定されるビットレートである。VBR目標符号量BIT_VBR(n)は、図９に示す曲線５１のように、各画像のコンプレクシティ（符号化の難易度）等に依存してその値が変動し、後段の符号化部５の出力である符号化画像の符号量によって決定されるビットレートが、あらかじめ目標とするビットレートの最大値（上限レートＬ）を超越することがある。

ステップＳ３２において、CBR割り当て部３２は、予測残差予想部３から入力された予想予測残差PRED(n)に基づき、被符号化画像信号を符号化したときの発生符号量がGOP単位で固定値（図９の上限レートＬ）となるように、式（４−１）乃至（４−３）に示されたように、ｎ番目の画像に対応する被符号化画像信号のピクチャタイプに応じたCBR目標符号量BIT_CBR(n)を算出する。

なお、ステップＳ３１の処理とステップＳ３２の処理は、便宜上、異なるタイミングの処理のごとく説明したが、実際には同時に実行される。

ステップＳ３３において、比較部３３は、VBR割り当て部３１から入力されたVBR目標符号量BIT_VBR(n)が、CBR割り当て部３２から入力されたCBR目標符号量BIT_CBR(n)よりも小さいか否かを判定する。VBR目標符号量BIT_VBR(n)がCBR目標符号量BIT_CBR(n)よりも小さいと判定された場合、処理はステップＳ３４に進み、比較部３３は、VBR目標符号BIT_VBR(n)を目標符号量BIT_TGT(n)として後段の符号化部５に出力する。

反対に、ステップＳ３３において、VBR目標符号量BIT_VBR(n)がCBR目標符号量BIT_CBR(n)よりも小さくないと判定された場合には、処理はステップＳ３５に進む。ステップＳ３５において、比較部３３は、CBR目標符号量BIT_CBR(n)を目標符号量BIT_TGT(n)として後段の符号化部５に出力する。

なお、比較部３３から出力される目標符号量BIT_TGT(n)は、図９と同一のシーケンスを例とした場合、図１０の曲線７１に示すように、目標符号量BIT_TGT(n)は、各画像のコンプレクシティ（符号化の難易度）等に依存してその値が変動するが、後段の符号化部５の出力である符号化画像の符号量によって決定されるビットレートが、あらかじめ目標とするビットレートの最大値（上限レートＬ）に達した場合、その値は上限レートＬで頭打ちとなる。また、VBR目標符号量BIT_VBR(n)からCBR目標符号量BIT_CBR(n)への切り替えは、常にVBR目標符号量BIT_VBR(n)とCBR目標符号量BIT_CBR(n)が演算されていることに起因して速やかに行われる。

目標符号量決定部４では、目標符号量BIT_TGT(n)を、実際の符号化の前に得られる予想予測残差PREDを用いて算出しているので、符号化しようとするピクチャの符号量の多寡を前もって反映することができる。また、シーンチェンジやシーケンスの動きなどの傾向をそのピクチャの符号化前に反映することができるため、適切な符号量の割り当てができる。したがって、画質の劣化を抑制することができる。さらに、式（４−１）乃至（４−３）の手法を用いた場合には実際に符号化された後の発生符号をフィードバックして用いないので、目標符号量に対する実際の仕上がり符号量のズレが蓄積し難い性質をもつこととなり、動作が安定する。

図５に戻る。ステップＳ４において、符号化部５は、入力されたｎ番目の画像に対応する被符号化画像信号を、目標符号量決定部４から入力された、ｎ番目の画像に対応する目標符号量BIT_TGT(n)に従って圧縮符号化し、符号化画像信号を生成する。なお、目標符号量BIT_TGT(n)に従って圧縮符号化し、符号化画像信号を生成する方法については、任意の方法を適用することができる。例えば、MPEG２ TM５ Step２に採用されている、マクロブロック毎に発生符号量を逐一監視して圧縮率を調整し、目標符号量を達成しようとするアルゴリズムを用いて符号化を行う方法を適用することができる。

また例えば、MPEG２ TM５ Step２においてはピクチャタイプ毎に独立して設けられている仮想バッファ（目標とする符号量と発生符号量の差を示すもの）を単一の仮想バッファにまとめて、各ピクチャで共通な単一の仮想バッファが使用される方法等を適用すれば、符号化部５の動作を安定させることができるのでさらに効果的である。なお、この方法については、本出願人が既に提案済であって特開2003-230151号公報として開示されている。

ただし、特開2003-230151号公報では、特にピクチャのグローバルコンプレクシティの比に基づき、異なるピクチャタイプ間における発生ビット量の差を正規化しようとしているが、符号化部５では、予想された予測残差から直接的に目標符号量を算出している。

Ｉピクチャを符号化する場合、次式（６−１）を用いて仮想バッファ占有量ｄｊを算出し、次式（７−１）を用いて、仮想バッファ占有量ｄｊを量子化スケールコードＱｉに変換する。Ｐピクチャを符号化する場合、次式（６−２）を用いて仮想バッファ占有量ｄｊを算出し、次式（７−２）を用いて、仮想バッファ占有量ｄｊを量子化スケールコードＱｐに変換する。Ｂピクチャを符号化する場合、次式（６−３）を用いて仮想バッファ占有量ｄｊを算出し、次式（７−３）を用いて、仮想バッファ占有量ｄｊを量子化スケールコードＱｂに変換する。
ｄｊ＝ｄ０＋Ｂ(ｊ−１)−(Ｔｉ・(ｊ−１))／MB_COUNT
…（６−１）
ｄｊ＝ｄ０＋(Last_Ibit／Ｔｐ)・(Ｂ(ｊ−１)−(Ｔｐ・(ｊ−１))／MB_COUNT)
…（６−２）
ｄｊ＝ｄ０＋(Last_Ibit／Ｔｂ)・(Ｂ(ｊ−１)−(Ｔｂ・(ｊ−１))／MB_COUNT）
…（６−３）
Ｑｉ＝ｄｊ×ＱＰ／ｒ …（７−１）
Ｑｐ＝ｄｊ×ＱＰ／ｒ …（７−２）
Ｑｂ＝ｄｊ×ＱＰ／ｒ＋ｃ …（７−３）

ただし、ｄ０は、仮想バッファの初期占有量であり、Ｂ（ｊ−１）は、符号化する画像のｊ−１番目のマクロブロックまでの発生符号量の総和であり、Last_Ibitは最後に符号化されたＩピクチャの発生符号量であり、Ｔｉ，Ｔｐ，Ｔｂは、それぞれＩ，Ｐ，Ｂピクチャの目標符号量であり、MB_COUNTは、符号化する画像のマクロブロック数である。また、ＱＰは、MPEG２ TM５で推奨されている値（具体的には３１）であり、ｒは、リアクションパラメータであり、ｃは補正値（例えば、２）である。

なお、式（６−２）において（Last_Ibit／Ｔｐ）を乗算していること、および式（６−３）において（Last_Ibit／Ｔｂ）を乗算していることが、単一の仮想バッファを使用することに対する補正である。また、式（７−３）において、補正値ｃを加算しているように、ピクチャタイプに応じて符号化時の相対的な重み付けを変更するようにしてもよい。

次に、図１１は、符号化部５に入力される被符号化画像信号の符号化の難易度（画像の複雑さ）と、符号化部５から出力される符号化画像信号のビットレートとの関係を示している。

被符号化画像信号は、図１１の横軸によって示される画像の難易度が低いうちは、VBRが適用されて符号化され、難易度とビットレートの関係は直線８１Ａのような対応になる。したがって、符号化の難易度の増加とともに発生符号量も増加する。そしてさらに、画像の難易度が増加し、発生符号量が上限レートＬに達した場合、CBRが適用されて直線８１Ｂで示すように、頭打ちとなる。なお、図１１の直線８１Ａの傾きが式（２）の係数ｋに相当する。また、式（３）の関数ｆを用途に応じて任意にきめてやると、VBR時に、例えば曲線８２のような特性をもたせることができる。

したがって、符号化部５から出力される符号化画像信号の符号量は、その最大レートが保証される。よって、例えば、符号化部５から出力される符号化画像信号を情報記録媒体に記録する場合の最大記録可能時間を保証することが可能となる。

なお、CBRが適用されるときの上限レートＬを、現状よりも高い値に設定すれば、画像をより高画質で符号化することができる高画質モードとすることができる。反対に、上限レートＬを、現状よりも低い値に設定すれば、同一容量の記録媒体に記録できる時間をより長くすることができる長時間モードとすることができる。

また、式（２）の係数ｋの値を変更したり、式（３）の関数ｆを変更したりすることにより、高画質モードや長時間モードを実現するようにしてもよい。

以上で、ｎ番目の画像に対応する被符号化画像信号が符号化されたことになる。次に、ｎ＋１番目の画像に対応する被符号化画像信号に対する画像圧縮処理として、ステップＳ１以降の処理が行われることになる。以上で、画像圧縮処理の説明を終了する。

ところで、上述した画像圧縮処理では、予想予測残差PRED(n)の算出に１画像前の実際の予測残差SAD(n-1)を利用しているので、１番目の画像（例えば、シーケンスの先頭のＩピクチャ）に対する予想予測残差PRED(1)が算出されない。したがって、１番目の画像に対する目標符号量BIT_TGT(1)も算出されない。そこで、符号化部５は、１番目の画像に対しては、予め設定されている目標符号量BITの符号が発生されるような最適な量子化スケールＱＰを算出して、１番目の画像を符号化する。

図１２は、１番目の画像の符号化に関わる箇所に限定した符号化部５の構成例を示している。図１２において、全段からのＩピクチャの被符号化画像信号は、イントラ予測部４１、イントラ予測残差演算部４２、および直交変換部４４に入力される。

イントラ予測部４１は、入力されたＩピクチャの被符号化画像信号に対応するイントラ予測画像を生成してイントラ予測残差演算部４２に出力する。イントラ予測残差演算部４２は、イントラ予測部４１から入力されたイントラ予測画像と、原画であるＩピクチャとの差であるイントラ予測残差を演算して、レート制御部４３に出力する。レート制御部４３は、イントラ予測残差演算部４２から入力された、Ｉピクチャに対応するイントラ予測残差に基づき、量子化スケールＱＰを算出して量子化部４５に出力する。直交変換部４４は、入力されるＩピクチャの被符号化画像信号に対し、離散コサイン変換やカルーネン・レーベ変換等の直交変換処理を施し、その処理結果としてられる変換係数を量子化部４５に出力する。量子化部４５は、直交変換部４４から入力された変換係数を、レート制御部４３から入力される量子化スケールＱＰに従って量子化し、可逆符号化部４６に出力する。可逆符号化部４６は、量子化部４５から入力された、量子化された変換係数を符号化して符号化画像信号を生成する。

次に、Ｉピクチャに対応するイントラ予測残差に基づき、量子化スケールＱＰを算出しするレート制御部４３の処理について説明する。図１３の線分９１−Ａ，９１−Ｂ，９１−Ｃは、それぞれ異なるシーケンスの先頭のＩピクチャを、量子化スケールＱＰの値をいろいろに変えて符号化した際の、量子化スケールＱＰと発生符号量BITの関係を示している。図１３において、縦軸は、発生符号量BITの対数ln(BIT)であり、横軸は、量子化スケールＱＰである。

線分９１−Ａ乃至９１−Ｃから明らかなように、いずれのシーケンスでも、発生符号量の対数ln(BIT)は、量子化スケールＱＰの増加に対してほぼ直線的に減少することがわかる。なお、上述した発生符号量の対数ln(BIT)と量子化スケールＱＰとの関係は一般周知である。

ここで、各シーケンスの先頭のＩピクチャを符号化した際の発生符号量BITを、次式（８）に示すように、それぞれに対応するＩピクチャのイントラ予測残差ERRORで正規化した値NORM_BITの対数ln(NORM_BIT)を演算し、量子化スケールＱＰと対応付けてプロットすると、図１４に示すように、図１３においては互いに独立していた線分９１−Ａ，９１−Ｂ，９１−Ｃが、図１４に示されるように、１本の直線状に凝集されることが確認できる。
NORM_BIT＝BIT・(NORM／ERROR) …（８）

ただし、NORMは任意の定数である。また、図１４において、縦軸は、イントラ予測残差ERRORで正規化された発生符号量BITの対数ln（NORM_BIT）であり、横軸は、量子化スケールＱＰである。

この線分の凝集は、図１５に示すように、１本の直線（以下、代表直線と記述する）で近似することができる。この代表直線１０１を、量子化スケールＱＰを独立変数とする１次関数によって表記すれば、次式（９）に示す通りとなる。ただし、式（９）において、ａは代表直線１０１の傾き、ｂは代表直線１０１の縦軸との切片であり、図１４に示されたプロット結果に基づき、予め算出する必要がある。
ln（BIT・(NORM／ERROR)）＝ａ・ＱＰ＋ｂ …（９）

式（９）を変形すれば、発生符号量BITを実現するための量子化スケールＱＰを算出することが可能な次式（１０）となる。
ＱＰ＝（ln（BIT・(NORM／ERROR)）−ｂ）／ａ …（１０）

従って、レート制御部４３において、式（１０）を用いれば、シーケンスの先頭のＩピクチャを符号化した際に、所望の発生符号量BITを実現することができる量子化スケールＱＰを算出することができる。この操作は、図１５において、所望の発生符号量１０２から代表直線１０１をたどって量子化スケール１０３を求めたことになる。なお、レート制御部４３には、式（１０）のBIT，NORM，ａ、およびｂを予め供給しておくものとする。式（１０）のイントラ予測残差ERRORは、イントラ予測残差演算部４２からレート制御部４３に供給されているものを用いるが、必要ならば、擬似予測残差予測部３を構成するイントラ予測部１１で代用してもよい。

シーケンスの先頭のＩピクチャを符号化する符号化部５の動作について、図１６を参照して説明する。ステップＳ４１において、イントラ予測部４１は、入力されたＩピクチャの被符号化画像信号に対応するイントラ予測画像を生成してイントラ予測残差演算部４２に出力する。イントラ予測残差演算部４２は、イントラ予測部４１から入力されたイントラ予測画像と、原画であるＩピクチャとの差であるイントラ予測残差を演算して、レート制御部４３に出力する。

ステップＳ４２において、レート制御部４３は、式（８）に示されたように、予め設定されている目標符号量BITを、イントラ予測残差演算部４２から入力されたイントラ予測残差ERRORで正規化し、ステップＳ４３において、式（１０）に示されたように、正規化された目標符号量の対数からｂを減算し、その演算結果をａで除算することにより、量子化スケールＱＰを算出して量子化部４５に出力する。なお、ステップＳ４１乃至Ｓ４３の処理が実行されている間において、直交変換部４４は、入力されたＩピクチャの被符号化画像信号に対して直交変換処理を施し、その処理結果としてられる変換係数を量子化部４５に出力している。ステップＳ４４において、量子化部４５は、直交変換部４４から入力された変換係数を、レート制御部４３から入力される量子化スケールＱＰに従って量子化し、可逆符号化部４６に出力する。可逆符号化部４６は、量子化部４５から入力された、量子化された変換係数を符号化して符号化画像信号を生成する。以上で、シーケンスの先頭のＩピクチャを符号化する符号化部５の動作の説明を終了する。

また、以上説明した符号化部５の動作は、シーケンスの先頭のＩピクチャのみならず、例えば、シーンチェンジ直後のＩピクチャに対して適用してもよいし、通常のＩピクチャに対しても適用可能である。

以上説明した動作は、符号化部５において、特別に大きな計算量を必要とせず、また通号の符号化装置に備えられていないような特別な回路構成も必要としない、上述した動作は、適用できるシーケンスの幅が広く、当たり外れの差が小さい（最適ではない場合でも、その影響が小さい）、広範囲の圧縮率に適用することができるという効果を有する。

ところで、本発明は、ディジタルビデオカメラにも適用することができる。図１７は、本発明を適用したディジタルビデオカメラの構成例を示している。このディジタルビデオカメラ２００は、被写体を撮影して被符号化画像信号を取得し、取得した被符号化画像信号を、上述した画像信号処理装置１と同様に、圧縮符号化して符号化画像信号を生成し、生成した符号化画像信号を記録媒体に記録するものである。

ディジタルビデオカメラ２００は、大別すると、カメラ部２０１、カメラDSP(Digital Signal Processor)２０２、および制御部２０５から構成される。さらに、ディジタルビデオカメラ２００は、SDRAM(Synchronous Dynamic Random Access Memory２０３、媒体インタフェース(I/F)２０４、操作部２０６、LCD(Liquid Crystal Display)コントローラ２０７、LCD２０８、外部インタフェース(I/F)２０９、および着脱可能な記録媒体２１０から構成される。

記録媒体２１０は、半導体メモリを用いたいわゆるメモリカード、記録可能なDVD(Digital Versatile Disk)や記録可能なＣＤ(Compact Disc)等の光記録媒体、磁気ディスクなどの種々のものを用いるようにすることが考えられるが、本実施の形態においては、記録媒体２１０として例えばメモリカードを用いるものとして説明する。

カメラ部２０１は、光学ブロック２１１、CCD(Charge Coupled Device)２１２、前処理回路２１３、光学ブロック用ドライバ２１４、CCD用ドライバ２１５、およびタイミング生成回路２１６から構成される。ここで、光学ブロック２１１は、レンズ、フォーカス機構、シャッタ機構、絞り（アイリス）機構などを備えたものである。

制御部２０５は、CPU(Central Processing Unit)２５１、RAM(Random Access Memory)２５２、フラッシュROM(Read Only Memory)２５３、および時計回路２５４が、システムバス２５５を介して接続されているマイクロコンピュータであり、ディジタルビデオカメラ２００の各部を制御することができるものである。

RAM２５２は、処理の途中結果を一時記憶する等、主に作業領域として用いられるものである。フラッシュROM２５３は、CPU２５１において実行する種々のプログラムや、処理に必要になるデータなどが記憶されたものである。また、時計回路２５４は、現在年月日、現在曜日、現在時刻を出力することができるものである。

制御部２０５は、画像の撮影時においては光学ブロック用ドライバ２１４を制御し、光学ブロック２１１を動作させるための駆動信号を形成させて光学ブロック２１１を動作させる。これに対応して、光学ブロック２１１は、フォーカス機構、シャッタ機構、絞り機構を制御することにより、被写体の光画像を取得して、これをCCD２１２に集光する。

CCD２１２は、光学ブロック２１１からの画像を光電変換して出力するものであり、CCDドライバ２１５からの駆動信号に応じて動作し、光学ブロック２１１からの被写体の光画像を取り込むとともに、制御部２０５によって制御されるタイミング生成回路２１６からのタイミング信号に基づいて、取り込んだ被写体の画像（画像情報）を電気信号として前処理回路２１３に供給する。なお、上述のように、タイミング生成回路２１６は、制御部２０５からの制御に応じて、所定のタイミングを提供するタイミング信号を形成するものである。また、CCDドライバ２１５は、タイミング生成回路２１６からのタイミング信号に基づいて、CCD２１２に供給する駆動信号を形成するものである。

前処理回路２１３は、CCD２１２から入力された電気信号の画像情報に対して、CDS(Correlated Double Sampling)処理を行って、S/Nを良好に保つようにするとともに、AGC(Automatic Gain Control)処理を行って、利得を制御し、そして、A/D(Analog/Digital)変換を行って、ディジタル信号とされた画像データ（以下、被符号化画像信号と記述する）を形成し、DSP２０２に出力する。

DSP２０２のAF AE AWB処理部２２１は、カメラ部１から供給された被符号化画像信号に対して、ＡＦ(Auto Focus)、ＡＥ(Auto Exposure)、AWB(Auto White Balance)等のカメラ信号処理を施す。圧縮部２２２は、種々のカメラ信号処理が施された被符号化画像信号を圧縮符号化して符号化画像信号を生成する。なお、圧縮部２２２は、図１の画像信号処理装置１と同様に構成され、また同様に動作するものであるので、その詳細な説明は省略する。

圧縮部２２２によって生成された符号化画像信号は、システムバス２５５、および媒体I/F２０４を介して記録媒体２１０に記録される。解凍部２２３は、操作部２０６に対するユーザの操作入力に応じて記録媒体２１０から読み出された符号化画像信号の解凍処理（伸張処理）を行い、解凍後の画像信号を、システムバス２５５を介してLCDコントローラ２０７に供給する。LCDコントローラ２０７は、供給された画像信号をLCD２０８に適したフォーマットに変換してLCD２０８に供給する。これにより、記録媒体２１０に記録されている符号化画像信号に応じた画像が、LCD２０８の表示画面に表示される。

外部I/F２０９は、例えば外部のパーソナルコンピュータと接続して、パーソナルコンピュータから符号化画像信号の供給を受けたり、記録媒体２１０に記録されている符号化画像信号を外部のパーソナルコンピュータ等に供給したりする。また、外部I/F２０９に通信モジュールを接続することにより、例えば、インタネット等のネットワークに接続して、ネットワークを通じて種々のデータを授受したりする。なお、外部I/F２０９は、IEEE(Institute of Electrical and Electronics Engineers)1394、USB(Universal Serial Bus)などの有線用インタフェースとして設けることも可能であるし、光や電波による無線インタフェースとして設けることも可能である。すなわち、外部I/F２０９は、有線、無線のいずれのインタフェースであってもよい。

ところで、一連の処理は、画像信号処理装置１やディジタルビデオカメラ２００のようにハードウェアによって実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図１８に示されるように構成された汎用のパーソナルコンピュータ３００に、記録媒体等からインストールされる。

図１８に示されたパーソナルコンピュータ３００は、CPU３０１を内蔵している。CPU３０１にはバス３０４を介して、入出力インタフェース３０５が接続されている。バス３０４には、ROM３０２およびRAM３０３が接続されている。

入出力インタフェース３０５には、ユーザが操作コマンドを入力するキーボード、マウス、リモートコントローラなどの入力デバイスよりなる入力部３０６、映像や音声を出力する出力部３０７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部３０８、インタネットに代表されるネットワークを介して通信処理を実行する通信部３０９、および記録媒体３１１に対してデータを読み書きするドライブ３１０が接続されている。

上述した一連の処理をパーソナルコンピュータ３００に実行させるプログラムは、記録媒体３１１に格納された状態でパーソナルコンピュータに供給され、ドライブ３１０によって読み出されて記憶部３０８に内蔵されるハードディスクドライブにインストールされている。記憶部３０８にインストールされているプログラムは、入力部３０６に入力されるユーザの操作に対応するCPU３０１の指令によって、記憶部３０８からRAM３０３にロードされて実行される。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明を適用した画像信号処理装置の構成例を示すブロック図である。図１の疑似予測残差生成部の構成例を示すブロック図である。図１の予測残差予想部の構成例を示すブロック図である。図１の目標符号量決定部の構成例を示すブロック図である。画像信号処理装置による画像圧縮処理を説明するフローチャートである。図５のステップＳ１を詳細に説明するフローチャートである。図５のステップＳ２を詳細に説明するフローチャートである。図５のステップＳ３を詳細に説明するフローチャートである。任意のシーケンスに対するVBR目標符号量BIT_VBR(n)を示す図である。任意のシーケンスに対する目標符号量BIT_TGT(n)を示す図である。シーケンスの難易度に対する目標符号量BIT_TGTの変化を示す図である。図１の符号化部５の構成例を示すブロック図である。量子化スケールと発生符号量の対数との関係を示す図である。量子化スケールと予測残差により正規化された発生符号量の対数との関係を示す図である。量子化スケールと予測残差により正規化された発生符号量の対数との関係を２次関数で近似した図である。シーケンス先頭のＩピクチャに対する符号化処理を説明するフローチャートである。本発明を適用したディジタルビデオカメラの構成例を示すブロック図である。本発明を適用したパーソナルコンピュータの構成例を示すブロック図である。

符号の説明

１画像信号処理装置，２疑似予測残差生成部，３予測残差予想部，４目標符号量決定部，５符号化部，１１イントラ予測部，１２インター予測部，１３，１４差分器，１５比較部，２１予測残差計算部，３１ VBR割り当て部，３２ CBR割り当て部，３３比較部，４１イントラ予測部，４２イントラ予測残差演算部，４３レート制御部，４５量子化部，２０１カメラ部，２２２圧縮部，３０１ CPU，３１１記録媒体

Claims

動画像を表示するための画像信号を所定の符号化方式に従って圧縮符号化する画像信号処理装置において、
動画像を構成する静止画像に対して、前記静止画像に対応する画像信号が圧縮符号化される前に、前記静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想手段と、
前記予測残差予想手段によって予想された予想予測残差に基づき、可変ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出手段と、
前記予測残差予想手段によって予想された前記予想予測残差に基づき、固定ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出手段と、
前記第１の発生符号量が前記第２の発生符号量よりも小さい場合には前記第１の発生符号量を、前記第１の発生符号量が前記第２の発生符号量以上である場合には前記第２の発生符号量を、前記静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定手段と、
前記設定手段によって設定された前記目標符号量に従い、前記静止画像に対応する画像信号を圧縮符号化する符号化手段と
を含むことを特徴とする画像信号処理装置。
前記設定手段は、前記符号化手段からフィードバックされる、前記符号化手段において想定される仮想バッファの符号占有量に基づいて第３の発生符号量を算出し、前記第３の発生符号量が前記第１の発生符号量または前記第２の発生符号量のうちの前記目標符号量として設定された方よりも小さい場合には、前記第３の発生符号量を前記目標符号量に設定する
ことを特徴とする請求項１に記載の画像信号処理装置。
前記符号化手段は、前記設定手段によって設定された前記目標符号量に従い、前記静止画像に対応する画像信号を圧縮符号化するとき、異なるピクチャタイプで共通の仮想バッファを使用して、量子化スケールを決定する
ことを特徴とする請求項１に記載の画像信号処理装置。
前記符号化手段は、Ｐ(Predictive coded)ピクチャまたはＢ(Bidirectionally predictive coded)ピクチャによる前記共通の仮想バッファの占有量を、直近に圧縮符号化されたＩ(Intra coded)ピクチャの発生符号量に基づいて補正する
ことを特徴とする請求項３に記載の画像信号処理装置。
前記符号化手段は、前記共通の仮想バッファの占有量を量子スケールコードに変換する際、ピクチャタイプに応じて補正された変換式を用いる
ことを特徴とする請求項３に記載の画像信号処理装置。
前記所定の符号化方式は、MPEG(Moving Picture Experts Group)方式である
ことを特徴とする請求項１に記載の画像信号処理装置。
前記所定の符号化方式は、MPEG4-AVC(Advanced Video Coding)方式である
ことを特徴とする請求項１に記載の画像信号処理装置。
動画像を表示するための画像信号を所定の符号化方式に従って圧縮符号化する画像信号処理方法において、
動画像を構成する静止画像に対して、前記静止画像に対応する画像信号が圧縮符号化される前に、前記静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップと、
前記予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップと、
前記予測残差予想ステップの処理で予想された前記予想予測残差に基づき、固定ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップと、
前記第１の発生符号量が前記第２の発生符号量よりも小さい場合には前記第１の発生符号量を、前記第１の発生符号量が前記第２の発生符号量以上である場合には前記第２の発生符号量を、前記静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップと、
前記設定ステップの処理で設定された前記目標符号量に従い、前記静止画像に対応する画像信号を圧縮符号化する符号化ステップと
を含むことを特徴とする画像信号処理方法。
動画像を表示するための画像信号を所定の符号化方式に従って圧縮符号化するためのプログラムであって、
動画像を構成する静止画像に対して、前記静止画像に対応する画像信号が圧縮符号化される前に、前記静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップと、
前記予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップと、
前記予測残差予想ステップの処理で予想された前記予想予測残差に基づき、固定ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップと、
前記第１の発生符号量が前記第２の発生符号量よりも小さい場合には前記第１の発生符号量を、前記第１の発生符号量が前記第２の発生符号量以上である場合には前記第２の発生符号量を、前記静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップと、
前記設定ステップの処理で設定された前記目標符号量に従い、前記静止画像に対応する画像信号を圧縮符号化する符号化ステップと
を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
動画像を表示するための画像信号を所定の符号化方式に従って圧縮符号化するためのプログラムであって、
動画像を構成する静止画像に対して、前記静止画像に対応する画像信号が圧縮符号化される前に、前記静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想ステップと、
前記予測残差予想ステップの処理で予想された予想予測残差に基づき、可変ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出ステップと、
前記予測残差予想ステップの処理で予想された前記予想予測残差に基づき、固定ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出ステップと、
前記第１の発生符号量が前記第２の発生符号量よりも小さい場合には前記第１の発生符号量を、前記第１の発生符号量が前記第２の発生符号量以上である場合には前記第２の発生符号量を、前記静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定ステップと、
前記設定ステップの処理で設定された前記目標符号量に従い、前記静止画像に対応する画像信号を圧縮符号化する符号化ステップと
を含む処理をコンピュータに実行させることを特徴とするプログラム。
撮影した動画像に対応する画像信号を所定の符号化方式に従って圧縮符号化し、情報記録媒体に記録するビデオカメラにおいて、
被写体の動画像を撮影し、前記画像信号を生成する撮影手段と、
前記撮影手段によって撮影された前記動画像を構成する静止画像に対して、前記静止画像に対応する画像信号が圧縮符号化される前に、前記静止画像に対応する画像信号が圧縮符号化される過程で算出される予測残差を予想する予測残差予想手段と、
前記予測残差予想手段によって予想された予想予測残差に基づき、可変ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第１の発生符号量を算出する第１の発生符号量算出手段と、
前記予測残差予想手段によって予想された前記予想予測残差に基づき、固定ビットレート方式を採用して前記静止画像に対応する画像信号を圧縮符号化する場合の第２の発生符号量を算出する第２の発生符号量算出手段と、
前記第１の発生符号量が前記第２の発生符号量よりも小さい場合には前記第１の発生符号量を、前記第１の発生符号量が前記第２の発生符号量以上である場合には前記第２の発生符号量を、前記静止画像に対応する画像信号を圧縮符号化するときの目標符号量に設定する設定手段と、
前記設定手段によって設定された前記目標符号量に従い、前記静止画像に対応する画像信号を圧縮符号化する符号化手段と、
前記符号化手段によって圧縮符号化された前記画像信号を前記情報記録媒体に記録する記録手段と
を含むことを特徴とするビデオカメラ。