JP2006287864A

JP2006287864A - 符号化装置および符号化プログラム

Info

Publication number: JP2006287864A
Application number: JP2005108650A
Authority: JP
Inventors: Shinichi Sakaida; 慎一境田; Kazuhisa Iguchi; 和久井口; Seiichi Goshi; 清一合志
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-04-05
Filing date: 2005-04-05
Publication date: 2006-10-19
Anticipated expiration: 2025-04-05
Also published as: JP4572137B2

Abstract

【課題】シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる符号化装置および符号化プログラムを提供する。
【解決手段】符号化装置１は、ＧＯＰ構造予測決定手段３によって、ＧＯＰ構造を予測して、シーンチェンジを検出し、検出した結果からピクチャタイプを決定し、符号化処理手段５によって、このＧＯＰ構造予測決定手段３で、ピクチャタイプが決定されることで、動画像を符号化する符号化手段では、決定されたピクチャタイプに応じて、ビットレートを制御して、動画像を符号化する。
【選択図】図１

Description

本発明は、動画像のシーンチェンジの発生に応じて、ビットレートを変化させる符号化装置および符号化プログラムに関する。

従来、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）で規格化されたＭＰＥＧ−１，２，４（非特許文献１〜非特許文献３参照）や、ＩＴＵ−Ｔで勧告化されたＨ．２６１，２６３（非特許文献４，５）や、ＭＰＥＧとＩＴＵ−Ｔとで規格化されたＨ．２６４／ＭＰＥＧ−４ＡＶＣ（非特許文献６参照）といった規格の方式による動画像の圧縮符号化処理は、放送やネットワーク等の伝送系であれば、伝送するメディアの帯域に応じて、ＶＴＲや光ディスク等の蓄積系であれば、蓄積するメディアの容量に応じて、動画像の符号化によって発生する符号量、或いは、単位時間当たりの情報量を示すビットレート（１秒間当たりに伝送（蓄積）するビット数）を制御する必要がある。

特に、放送やネットワーク等の伝送系では、単位時間当たりに利用できるメディアの帯域に制限があるために、制限内に収まるように符号量（発生情報量）を制御しなければならない。そして、この制限内に収まるように制御される発生情報量は、定められた単位時間ごとに一定になるように計算される。このように計算して発生情報量を制御する制御方式は、ＣＢＲ（ＣｏｎｓｔａｎｔＢｉｔＲａｔｅ）方式と呼称されている。

逆に、制限内に収まるように制御される発生情報量が、定められた単位時間ごとに一定になるように計算せずに、当該発生情報量を制御する制御方式は、ＶＢＲ（ＶａｒｉａｂｌｅＢｉｔＲａｔｅ）方式と呼称されている。

ＣＢＲ方式の場合、発生情報量を一定にする単位時間の尺度として、通常複数のフレームから構成されているＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）を用いている。ちなみに、ＭＰＥＧ−２が用いられているデジタル放送では、ＧＯＰの時間長（以下、ＧＯＰ長と記載する）を０．５秒、フレーム数（ピクチャ数）で換算すると１５フレーム（ピクチャ）としている。

ＧＯＰは、通常、画面内で符号化したイントラピクチャであるＩピクチャ１枚と、画面間で符号化したインターピクチャであるＰピクチャ（前方向予測）およびＢピクチャ（双方向予測）の１４枚とからなる。一般的に、Ｉピクチャが必要とする情報量（Ｉピクチャによって発生する発生情報量）は、ＰピクチャやＢピクチャが必要とする情報量よりも多いので、制限内で許容される多めの情報量を予測してＩピクチャに割り当て、制限内で許容される残りの情報量をＰピクチャとＢピクチャとに割り当てている。

しかし、予めＧＯＰ内で情報量の割り当て（分配）を行っても、符号化する動画像によっては、予測した情報量よりもＩピクチャの必要とする情報量が増えたり減ったりするので、従来の符号化装置では、Ｉピクチャが必要とする情報量に応じて、ＰピクチャやＢピクチャに割り当てる、残りの情報量の配分を適宜見直している。

ここで、ビットレートを制御する方式の一例として、ＭＰＥＧ−２のテストモデルであるＴＭ５方式について説明する。このＴＭ５方式では、まず、符号化する動画像に含まれる画像のピクチャタイプ（Ｉピクチャ、ＰピクチャまたはＢピクチャ）によって、情報量がどの程度必要であるかを見積もる。

ＴＭ５方式では、符号化する動画像に含まれる画像のそれぞれのピクチャタイプにどの程度の情報量が必要であるのかを見積もるのに、符号化する際の複雑度を用いている。この複雑度の尺度として、Ｉピクチャの複雑さ指標Ｘｉ、Ｐピクチャの複雑さ指標Ｘｐ、Ｂピクチャの複雑さ指標Ｘｂを定義しており、これらの複雑さ指標を、既に符号化した結果を利用して、次に示す（１）式に従って更新する。

この（１）式において、Ｓｉ、Ｓｐ，Ｓｂは発生するビット数、Ｑｉ、Ｑｐ、Ｑｂは平均的な量子化パラメータを示している。量子化パラメータは、１フレーム（ピクチャ）中の全マクロブロックのＭＱＵＡＮＴ（量子化パラメータを表す変数）の平均値で表され、１から３１までの範囲に正規化されている数値である。複雑さ指標Ｘｉ、Ｘｐ、Ｘｂは、符号化した際の発生情報量（符号化情報量）が多くなるような画像に対しては大きくなり、符号化した際の発生情報量が少なくなるような画像に対しては小さくなる。
また、複雑さの指標Ｘｉ、Ｘｐ、Ｘｂの初期値は、次に示す（２）式で与えられる。

この（２）式において、ｂｉｔ＿ｒａｔｅはビットレート（ビット／秒）のことを指している。続いて、ＴＭ５方式では、ＧＯＰ内の次の画像について、目標とする発生情報量（目標情報量）Ｔｉ、Ｔｐ、Ｔｂを、次に示す（３）式により計算する。

この（３）式は、ＧＯＰ内で情報量の割り当てた結果、ＧＯＰ内の画像（フレーム）であるＩピクチャ、ＰピクチャおよびＢピクチャの画像数（フレーム数）を、それぞれのピクチャタイプに換算した値で、ＧＯＰの残りの情報量をビット数で表したＲを除算した目標情報量を得ることを示している。また、（３）式において、Ｋｐ、Ｋｂは量子化マトリクスに依存する定常的な定数であり、ＴＭ５方式では、Ｋｐ＝１．０、Ｋｂ＝１．４である。

また、ＧＯＰ内の画像（フレーム）であるＩピクチャ、ＰピクチャおよびＢピクチャの画像数（フレーム数）を、それぞれのピクチャタイプに換算した値について、この値の上限値を次に示す（４）式に従って抑制している。

この（４）式おいて、ｐｉｃｔｕｒｅ＿ｒａｔｅは、Ｉピクチャ、Ｐピクチャ、Ｂピクチャそれぞれに割り当てる情報量を指している。
また、（３）式において、ＧＯＰの残りの情報量をビット数で表したＲは、ある画像（フレーム）が符号化された後は、次に示す（５）式に従って更新されることになる。

この（５）式において、Ｓｉ、Ｓｐ、Ｓｂは、符号化した画像で発生した発生情報量である。ＧＯＰ内における最初の画像の場合は、次に示す（６）式に示したように設定されている。

この（６）式において、ＮはＧＯＰの画像の枚数である。なお、動画像のシーケンスの最初はＲ＝０である。
また、（３）式において、ＮｐはＰピクチャを、ＮｂはＢピクチャを符号化する順番に沿って、現在のＧＯＰの残りのＰピクチャとＢピクチャの枚数を数えた値を示している。

続いて、ＴＭ５方式では、各フレーム（各画像）のマクロブロックを符号化しつつ、量子化パラメータを求める。そして、符号化する画像に割り当てる情報量の差をマクロブロックごとにフィードバックして、実際の発生情報量が、計算した目標情報量よりも多い場合には発生情報量を減らすように量子化パラメータを大きくし、逆に、実際の発生情報量が、計算した目標情報量よりも小さい場合には発生情報量を増やすように量子化パラメータを小さくする。

なお、ＴＭ５方式では、マクロブロックを符号化する前に、仮想的なバッファ（仮想バッファ）の充満度をそれぞれのピクチャタイプごとに、次に示す（７）式に従って計算する。

この（７）式において、ｄⁱ ₀、ｄ^p ₀、ｄ^b ₀は、仮想バッファの初期充満度である。Ｂ_jはｊで表すマクロブロックを含む全マクロブロックの符号化発生ビット数であり、ＭＢ＿ｃｎｔはピクチャ内のマクロブロック数である。ｊ＝ＭＢ＿ｃｎｔとなった時の最終的な充満度（最終充満度）は同じピクチャタイプの次のピクチャの初期充満度にされる。

そして、マクロブロックｊの量子化パラメータＱ_jを次に示す（８）式に従って計算する。

この（８）式において、ｄ_jは実際のバッファの充満度である。
ｒは反作用パラメータであり、次に示す（９）式に従って計算する。

また、（７）式において、仮想バッファの初期充満度ｄⁱ ₀、ｄ^p ₀、ｄ^b ₀は、次に示す（１０）式で与えられている。

そして、ＴＭ５方式では、マクロブロックごとに算出するアクティビティａｃｔ_jによって、量子化パラメータの平均値を変化させる。マクロブロックｊの空間的アクティビティ値を原画像（符号化する前の画像）の画素値を用いて、４つの輝度フレーム構造のサブブロックと４つの輝度フィールド構造のサブブロックから、次に示す（１１）式に従って計算する。

この（１１）式において、各サブブロックｖｂｌｋ_nは次に示す（１２）式で与えられており、さらに（１２）式におけるｐ＿ｍｅａｎ_nはその次に示す（１３）式で与えられている。

この（１３）式において、Ｐⁿｋは、ｎ番目の原画像における８×８ブロック（サブブロック）のサンプル値である。平均的なアクティビティ値ａｖｇ＿ａｃｔからの偏りによって、アクティビティａｃｔ_jを、［２，１／２］の範囲内に正規化した係数Ｎ＿ａｃｔ_jを、次に示す（１４）式に従って計算する。

この（１４）式において、平均的なアクティビティ値ａｖｇ＿ａｃｔは、符号化する最後の画像のａｃｔ_jの平均値であり、最初の画像では、ａｖｇ＿ａｃｔ＝４００となっている。そして、このアクティビティａｃｔ_jを、［２，１／２］の範囲内に正規化した係数Ｎ＿ａｃｔ_jを用いて、ｍｑｕａｎｔ（量子化パラメータ）を次に示す（１５）式に従って計算する。

この（１５）式において、Ｑ_jは量子化パラメータであり、ｍｑｕａｎｔは［１，３１］の範囲に正規化される。アクティビティａｃｔ_jが小さいマクロブロックは、画像の平坦領域となる。この画像の平坦領域は、人間の視覚特性上、当該視覚によって検知されやすく、ノイズに敏感な領域であるといえるので、割り当てる情報量を多めにしないと、画質が劣化してしまう。このため、ＴＭ５方式では、画像の平坦領域に、ビットレートを高くするように量子化パラメータが割り当てられている（細かな量子化ステップが割り当てられている）。

逆に、アクティビティａｃｔ_jが大きいマクロブロックは、画像のテクスチャが細かい、輝度変化の激しい領域となる。この輝度変化の激しい領域は、多少、原画像との差が大きくても人間の視覚によって検知されにくいので、割り当てる情報量をそれほど多くしなくても画質が保てる。このため、ＴＭ５方式では、輝度変化の激しい領域に、ビットレートを低くするように量子化パラメータが割り当てられている（粗い量子化ステップが割り当てられている）。

これまで説明したＴＭ５方式のように、ＧＯＰを固定長にして、動画像の符号化を行う方式では、ＧＯＰ内でシーンチェンジがある場合、シーンチェンジ直後の画像がＩピクチャでない場合（ＰピクチャかＢピクチャ）、動き予測がほとんど当たらず、さらに、シーンチェンジ直後の画像は強制的にイントラ符号化されてしまう、つまり、本来ＩピクチャでないＰピクチャやＢピクチャであるにも拘わらずイントラ符号化されてしまうので、発生情報量が増大してしまう。このため、ＧＯＰ内でビットレート制御が破綻し、シーンチェンジ後の残りの画像に割り当てる情報量が極端に低下して、著しい画質の劣化が生じる。

こういった事態を回避するために、シーンチェンジを検出して、シーンチェンジ直後の画像をＩピクチャとして、新しいＧＯＰの始めの画像にして、ビットレートを制御する方法が開示されている（例えば、特許文献１、特許文献２、特許文献３）。
ＩＳＯ／ＩＥＣ１１１７２−２の規格書全頁ＩＳＯ／ＩＥＣ１３８１８−２の規格書全頁ＩＳＯ／ＩＥＣ１４４９６−２の規格書全頁ＩＴＵ−ＴＲｅｃ．Ｈ．２６１の規格書全頁ＩＴＵ−ＴＲｅｃ．Ｈ．２６３の規格書全頁ＩＴＵ−ＴＲｅｃ．Ｈ．２６４｜ＩＳＯ／ＩＥＣ１４４９６−１０ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇの規格書全頁特開平９−２８４７７０号公報特開２０００−１０２６３号公報特開２００３−３２６９１号公報

しかしながら、特許文献１、特許文献２、特許文献３に開示されている、シーンチェンジ直後の画像をＩピクチャとして、新しいＧＯＰの始めの画像にして、ビットレートを制御する方法（特許文献に開示されている従来方法）では、予め１ＧＯＰ分程度の画像を読み込んでおいて処理を行うので、遅延が生じ、完全なリアルタイム処理を行うことができないという問題がある。

また、特許文献に開示されている従来方法では、動画像中にシーンチェンジが頻発するような場合には、１ＧＯＰ分の画像の読み込みが間に合わない事態が生じ、動画像を符号化する処理に対応できないという問題がある。

さらに、特許文献に開示されている従来方法では、Ｉピクチャと、ＰピクチャおよびＢピクチャとの間の情報量の配分が考慮されておらず、画質劣化が生じてしまうという問題がある。

さらにまた、特許文献に開示されている従来方法では、シーンチェンジの発生頻度は動画像の特性や内容に依存することが多いにも拘わらず、動画像を符号化する際に当該動画像の特性や内容が考慮されておらず、符号化処理を行う際に、不必要な処理が発生してしまうおそれがあるという問題がある。

そこで、本発明では、前記した問題を解決し、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる符号化装置および符号化プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、当該動画像のシーンチェンジに応じてビットレートを制御して当該動画像を符号化する符号化装置において、ＧＯＰ構造予測決定手段を備える構成とした。

かかる構成によれば、符号化装置は、ＧＯＰ構造予測決定手段によって、シーンチェンジを検出した検出結果と、過去に符号化した結果から予め蓄積したＧＯＰの長さを示すＧＯＰ長、このＧＯＰ長に含まれているインターピクチャの数および挿入周期とに基づいて、符号化するピクチャタイプを決定する。このＧＯＰ構造予測決定手段で、ピクチャタイプ（Ｉピクチャ、ＰピクチャまたはＢピクチャ）が決定されることで、動画像を符号化する符号化手段では、決定されたピクチャタイプに応じて、ビットレートを制御して、動画像を符号化する。

請求項２に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、当該動画像のシーンチェンジに応じてビットレートを制御して当該動画像を符号化する符号化装置において、シーンチェンジ検出手段と、ＧＯＰデータ蓄積手段と、ＧＯＰ構造予測用データ解析手段と、ピクチャタイプ決定手段と、ピクチャタイプ情報蓄積手段とを備え、前記ＧＯＰ構造予測データ解析手段は、前記ピクチャタイプ情報蓄積手段から読み出したピクチャタイプに関する情報を参照して、前記ＧＯＰデータ蓄積手段に蓄積されている前記ＧＯＰデータを読み出し、前記シーンチェンジ検出手段は、前記ＧＯＰ構造予測用データ解析手段から出力されたＧＯＰデータを参照して、シーンチェンジを検出することを特徴とする。

かかる構成によれば、符号化装置は、シーンチェンジ検出手段によって、入力された動画像のシーンチェンジを検出する。シーンチェンジ検出手段は、例えば、動画像の輝度信号を用いて、つまり、予め設定した枚数連続する画像間の輝度差が予め設定した閾値を超えた場合にシーンチェンジであると検出している。続いて、符号化装置は、ＧＯＰデータ蓄積手段によって、ＧＯＰの長さを示すＧＯＰ長と、このＧＯＰ長に含まれているインターピクチャの数および挿入周期とからなるＧＯＰデータを蓄積する。

そして、符号化装置は、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰデータ蓄積手段に蓄積されているＧＯＰデータとＧＯＰ構造にかかる動画像の特性を示す入力情報とに基づいて、入力された動画像のＧＯＰ構造を予測する。つまり、符号化した画像それぞれについて、ＧＯＰ長を変更した結果を蓄積しておき、このＧＯＰ長と入力情報とに基づいて、ＧＯＰ構造を予測している。このＧＯＰ構造とは、ＧＯＰを構成するピクチャ（フレーム）の総枚数と、ＰピクチャおよびＢピクチャの枚数と、これらの挿入周期とを示したものである。

そして、符号化装置は、ピクチャタイプ決定手段によって、シーンチェンジ検出手段で検出された検出結果と、ＧＯＰ構造予測用データ解析手段で予測されたＧＯＰ構造とに基づいて、動画像のピクチャタイプを決定する。また、符号化装置は、ピクチャタイプ情報蓄積手段に、ピクチャタイプ決定手段で決定されたピクチャタイプに関する情報を蓄積する。

そして、符号化装置は、ＧＯＰ構造予測データ解析手段によって、符号化対象となる動画像が入力されると、この入力された動画像のＧＯＰ構造を予測するために、ピクチャタイプ情報蓄積手段からピクチャタイプに関する情報を読み出すと共に、読み出したピクチャタイプに関する情報を参照して、ＧＯＰデータ蓄積手段からＧＯＰデータを読み出す。

そして、符号化装置は、入力された動画像について、シーンチェンジ検出手段によって、ＧＯＰ構造予測用データ解析手段で予測されて出力されたＧＯＰデータを参照して、シーンチェンジを検出する。そしてさらに、このシーンチェンジ検出手段で検出された検出結果に基づいて、ピクチャタイプ決定手段によって、ピクチャタイプを決定する。つまり、ＧＯＰ構造予測用データ解析手段で予測されたＧＯＰ構造を、仮決定したＧＯＰ構造として、シーンチェンジを検出すると共に、ピクチャタイプを決定し、これらをＧＯＰ構造の予測にフィードバックさせて、ＧＯＰ構造を絞り込んでいく。

請求項３に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、ＧＯＰデータ蓄積手段と、ＧＯＰ構造予測用データ解析手段と、を備える構成とした。

かかる構成によれば、符号化装置は、ＧＯＰデータ蓄積手段に、動画像を符号化する際にＧＯＰ長が採用された頻度をヒストグラムとして蓄積しておき、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長を、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、符号化装置は、このレート制御されたレート（ビットレート）に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化する。

請求項４に記載の符号化装置は、請求項３に記載の符号化装置において、前記ＧＯＰ長の最小値を予め設定し、前記ＧＯＰ構造予測用データ解析手段が、この最小値より長いＧＯＰ長に応じてレート制御することを特徴とする。

かかる構成によれば、符号化装置は、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰ長を設定する際に、このＧＯＰ長が短くなりすぎないように、最小値より長いＧＯＰ長にして、レート制御を行う。つまり、ＧＯＰ長が極端に短くなると、動画像を符号化する際に発生する発生情報量が多くなり、符号化効率が悪化してしまうので、ＧＯＰ長の最小値を設けて、この最小値より長いＧＯＰ長で、動画像を符号化するようにしている。

請求項５に記載の符号化装置は、請求項３または請求項４に記載の符号化装置において、前記ＧＯＰ構造予測用データ解析手段が、前記ＧＯＰデータ蓄積手段が蓄積している、以前に符号化した動画像のデータに関するヒストグラムを対象にして、前記ＧＯＰ長を設定することを特徴とする。

かかる構成によれば、符号化装置は、ＧＯＰ構造予測用データ解析手段によって、以前に符号化した動画像のデータに関するヒストグラムを対象にして、ＧＯＰ長を設定しているので、様々な長さのＧＯＰ長から最頻度のものが設定されることになり、動画像を符号化する際の画質劣化の抑制につながる。

請求項６に記載の符号化装置は、請求項３から請求項５までのいずれか一項に記載の符号化装置において、前記ＧＯＰデータ蓄積手段が、以前に符号化した動画像に関して前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積する際に、予め設定したデータ量に達した場合は、蓄積した時刻が最古のものから順に除外する蓄積データ量制御手段を備えることを特徴とする。

かかる構成によれば、符号化装置は、蓄積データ量制御手段によって、蓄積した時刻が最古のものから順にヒストグラムが除外されるので、最新のヒストグラム（ＧＯＰ長の頻度）がＧＯＰデータ蓄積手段に残っていくことになる。

請求項７に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、前記ＧＯＰ長の変化を時間の関数として蓄積するＧＯＰデータ蓄積手段と、ＧＯＰ構造予測用データ解析手段とを備える構成とした。

かかる構成によれば、符号化装置は、ＧＯＰデータ蓄積手段に、以前符号化した動画像について、ＧＯＰ長の変化を時間の関数として蓄積しておき、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰデータ蓄積手段に蓄積されている関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をする。

請求項８に記載の符号化装置は、請求項３から請求項７までのいずれか一項に記載の符号化装置において、シーンチェンジ検出手段と、ピクチャタイプ決定手段と、を備える構成とした。

かかる構成によれば、符号化装置は、シーンチェンジ検出手段によって、ＧＯＰ構造予測用データ解析手段でＧＯＰ長に応じたレート制御を行う前に、動画像のシーンチェンジの検出を行って、ピクチャタイプ決定手段によって、シーンチェンジ検出手段でシーンチェンジであると検出された画像を、ＧＯＰ構造を成す先頭のイントラピクチャとして決定する。つまり、符号化装置は、シーンチェンジ直後の画像をイントラピクチャとして決定することで、何らかの符号化方式を採用した符号化手段によって、画面内符号化が行われることになる。

請求項９に記載の符号化装置は、請求項８に記載の符号化装置において、前記ピクチャタイプ決定手段が、前記シーンチェンジ検出手段でシーンチェンジであると検出された画像を、前記ＧＯＰ構造を成す先頭のイントラピクチャとして決定する際に、当該画像の位置より、直前に検出されたＧＯＰ構造のＧＯＰ長が予め設定したＧＯＰ長よりも長いか否かを判定する判定手段を備えることを特徴とする。

かかる構成によれば、符号化装置は、判定手段によって、ＧＯＰ構造における当該画像の位置より直前に検出されたＧＯＰ構造のＧＯＰ長が予め設定したＧＯＰ長よりも長いか否かを判定し、ＧＯＰ長よりも長いと判定されなかった場合（ＧＯＰ長が短い場合）には、ＧＯＰ構造の先頭としないことで、ＧＯＰ構造を成す先頭のイントラピクチャの多発を回避（防止）することができる。

請求項１０に記載の符号化装置は、請求項３から請求項９までのいずれか一項に記載の符号化装置において、前記ＧＯＰデータ蓄積手段が、前記ＧＯＰ構造を成す前記インターピクチャであるＰピクチャおよびＢピクチャの枚数と時間方向における位置とを蓄積し、前記ＧＯＰ構造予測用データ解析手段が、前記ＰピクチャおよびＢピクチャの枚数と時間方向における位置とを参照して、前記ＧＯＰ長を設定することを特徴とする。

かかる構成によれば、符号化装置は、ＧＯＰ構造としてＰピクチャおよびＢピクチャの枚数と時間方向における位置（挿入周期）とをＧＯＰデータ蓄積手段に蓄積しており、これらに基づいて、ＧＯＰ構造予測用データ解析手段がＧＯＰ長を設定している。

請求項１１に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、シーンチェンジ検出手段と、情報量配分手段と、を備える構成とした。

かかる構成によれば、符号化装置は、シーンチェンジ検出手段によって、動画像のシーンチェンジの検出を行って、情報量配分手段によって、このシーンチェンジ検出手段で検出されたシーンチェンジの頻度に基づいて、イントラピクチャであるＩピクチャと、インターピクチャであるＰピクチャおよびＢピクチャとの間の情報量の配分を変更する。

請求項１２に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、前記動画像を符号化する際に前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積すると共に、前記ＧＯＰ長の変化を時間の関数として蓄積するＧＯＰデータ蓄積手段と、ＧＯＰ構造予測用データ解析手段とを備える構成とした。

かかる構成によれば、符号化装置は、ＧＯＰデータ蓄積手段に、以前符号化した動画像について、ＧＯＰ長が採用された頻度をヒストグラムとして蓄積すると共に、ＧＯＰ長の変化を時間の関数として蓄積しており、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長および関数に基づいて、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。なお、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰ長を設定する際に、ヒストグラムの中で最頻度を示すＧＯＰ長と、関数から予測できるＧＯＰ長の平均値とを比較して、いずれかを選択して、採用すればよい。

請求項１３に記載の符号化装置は、請求項１から請求項１２までのいずれか一項に記載の符号化装置において、前記動画像が放送番組であることを特徴とする。
かかる構成によれば、動画像が放送番組であるので、当該放送番組を受信した受信側では、伝送路上に問題がなければ、例えば、シーンチェンジが頻発するような場合でも画質劣化の少ない放送番組を視聴することができる。

請求項１４に記載の符号化装置は、請求項１３に記載の符号化装置において、前記動画像が放送番組である場合に、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用し、前記ＧＯＰ構造予測用データ解析手段が、前記放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報に基づいて、ＧＯＰデータ蓄積手段から読み出すＧＯＰデータを変更することを特徴とする。

かかる構成によれば、符号化装置は、動画像が放送番組である場合に、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用し、ＧＯＰ長を変化させる情報とすることができる。なお、放送番組と性質が異なる動画像の挿入時間とに関する情報には、例えば、ＣＭ、広告の挿入時間や、当該放送番組の次回予告の時間に関する情報等が挙げられる。

請求項１５に記載の符号化装置は、請求項１３に記載の符号化装置において、前記動画像が放送番組であり、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用する場合に、当該入力情報をＥＰＧから抽出するＥＰＧ抽出手段を備え、前記ＧＯＰ構造予測用データ解析手段は、前記ＥＰＧ抽出手段で抽出された前記放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報に基づいて、ＧＯＰデータ蓄積手段から読み出すＧＯＰデータを変更することを特徴とする。

かかる構成によれば、符号化装置は、ＥＰＧ抽出手段によって、入力情報をＥＰＧから抽出し、抽出した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、ＧＯＰ長を変化させる情報として用いている。

請求項１６に記載の符号化装置は、請求項１３に記載の符号化装置において、前記動画像が放送番組であり、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用する場合に、当該入力情報を検出機能を用いて取得する取得手段を備え、前記ＧＯＰ構造予測用データ解析手段は、前記取得手段で取得された前記放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報に基づいて、ＧＯＰデータ蓄積手段から読み出すＧＯＰデータを変更することを特徴とする。

かかる構成によれば、符号化装置は、取得手段によって、検出機能を介して、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を取得し、取得した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、ＧＯＰ長を変化させる情報として用いている。なお、検出機能とは、放送番組の性質と異なる性質の動画像を検出する機能であり、例えば、ＣＭ検出機能である。

請求項１７に記載の符号化装置は、請求項１４から請求項１６までのいずれか一項に記載の符号化装置において、前記放送番組と性質が異なる動画像の挿入時間が、ＣＭ挿入時間であることを特徴とする。

かかる構成によれば、符号化装置は、放送番組の放送時間とＣＭ挿入時間とに関する情報を、ＧＯＰ長を変化させる情報として用いている。

請求項１８に記載の符号化プログラムは、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化するために、前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積するＧＯＰデータ蓄積手段を備えたコンピュータを、ＧＯＰ構造予測用データ解析手段として機能させる構成とした。

かかる構成によれば、符号化プログラムは、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長を、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。

請求項１９に記載の符号化プログラムは、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化するために、前記ＧＯＰ長の変化を時間の関数として蓄積するＧＯＰデータ蓄積手段を備えたコンピュータを、ＧＯＰ構造予測用データ解析手段として機能させる構成とした。

かかる構成によれば、符号化プログラムは、ＧＯＰ構造予測用データ解析手段によって、ＧＯＰデータ蓄積手段に蓄積されている関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をする。

請求項１に記載の発明によれば、予め蓄積したＧＯＰの長さを示すＧＯＰ長、このＧＯＰ長に含まれているインタピクチャの数および挿入周期に基づいて、ピクチャタイプ（Ｉピクチャ、ＰピクチャまたはＢピクチャ）を決定し、この決定したピクチャタイプに応じて、ビットレートを制御して、動画像を符号化するので、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項２に記載の発明によれば、予測されたＧＯＰ構造を、仮決定したＧＯＰ構造として、シーンチェンジを検出すると共に、ピクチャタイプを決定し、これらをＧＯＰ構造の予測にフィードバックさせて、ＧＯＰ構造を絞り込んでいくので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項３、１８に記載の発明によれば、以前符号化した動画像について、ＧＯＰ長が採用された頻度をヒストグラムとして蓄積しておき、蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長を、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、このレート制御されたレート（ビットレート）に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項４に記載の発明によれば、ＧＯＰ長を設定する際に、このＧＯＰ長が短くなりすぎないように、最小値より長いＧＯＰ長にして、レート制御を行うことで、動画像を符号化する際に発生する発生情報量を抑え、符号化効率の悪化を防止することができる。

請求項５に記載の発明によれば、以前に符号化した動画像のデータに関するヒストグラムを対象にして、ＧＯＰ長を設定しているので、様々な長さのＧＯＰ長から最頻度のものが設定されることになり、動画像を符号化する際の画質劣化を抑制することができる。

請求項６に記載の発明によれば、蓄積した時刻が最古のものから順にヒストグラムが除外されるので、最新のヒストグラム（ＧＯＰ長の採用された頻度）が残っていくことになり、このヒストグラムを反映して、レート制御を行うことで、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項７、１９に記載の発明によれば、以前符号化した動画像について、ＧＯＰ長の変化を時間の関数として蓄積しておき、蓄積されている関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、このレート制御されたレート（ビットレート）に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項８に記載の発明によれば、ＧＯＰ長に応じたレート制御を行う前に、動画像のシーンチェンジの検出を行って、シーンチェンジであると検出された画像を、ＧＯＰ構造を成す先頭のイントラピクチャとして決定する。つまり、シーンチェンジ直後の画像をイントラピクチャとして決定することで、何らかの符号化方式を採用した符号化手段によって、画面内符号化が行われるので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項９に記載の発明によれば、シーンチェンジと検出された画像の位置より、直前に検出したＧＯＰ構造のＧＯＰ長が予め設定したＧＯＰ長よりも長いか否かを判定し、ＧＯＰ長よりも長いと判定されなかった場合には、ＧＯＰ構造の先頭としないことで、ＧＯＰ構造を成す先頭のイントラピクチャの多発を回避（防止）することができる。

請求項１０に記載の発明によれば、ＧＯＰ構造としてＰピクチャおよびＢピクチャの枚数と時間方向における位置（挿入周期）とを蓄積しており、これらに基づいて、ＧＯＰ長を設定しているので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項１１に記載の発明によれば、動画像のシーンチェンジの検出を行って、検出されたシーンチェンジの頻度に基づいて、イントラピクチャであるＩピクチャと、インターピクチャであるＰピクチャおよびＢピクチャとの間の情報量の配分を変更するので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項１２に記載の発明によれば、以前符号化した動画像について、ＧＯＰ長が採用された頻度をヒストグラムとして蓄積すると共に、ＧＯＰ長の変化を時間の関数として蓄積しており、蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長および関数に基づいて、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、このレート制御されたレート（ビットレート）に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

請求項１３に記載の発明によれば、動画像が放送番組であるので、当該放送番組を受信した受信側では、伝送路上に問題がなければ、例えば、シーンチェンジが頻発するような場合でも画質劣化の少ない放送番組を視聴することができる。

請求項１４に記載の発明によれば、動画像が放送番組である場合に、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用し、ＧＯＰ長を変化させる情報とすることができる。

請求項１５に記載の発明によれば、入力情報をＥＰＧから抽出し、抽出した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、ＧＯＰ長を変化させる情報とすることができる。

請求項１６に記載の発明によれば、検出機能を介して、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を取得し、取得した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、ＧＯＰ長を変化させる情報とすることができる。

請求項１７に記載の発明によれば、放送番組の放送時間とＣＭ挿入時間とに関する情報を、ＧＯＰ長を変化させる情報とすることができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈符号化装置の構成〉
図１は、符号化装置のブロック図である。図１に示すように、符号化装置１は、動画像（映像入力信号）のＧＯＰ構造を予測し、当該動画像のシーンチェンジに応じて、レート制御（ビットレートを制御）して、当該動画像を符号化するもので、ＧＯＰ構造予測決定手段３と、符号化処理手段５とを備えている。

ＧＯＰ構造予測決定手段３は、入力された動画像（映像入力信号）のＧＯＰ構造を予測して、符号化する動画像のピクチャタイプを決定するもので、シーンチェンジ検出手段７と、外部入力手段９と、ＧＯＰデータ蓄積手段１１と、ＧＯＰ構造予測用データ解析手段１３と、ピクチャタイプ決定手段１５と、ピクチャタイプ情報蓄積手段１７と、蓄積データ量制御手段１９とを備えている。

ＧＯＰ構造とは、ＧＯＰを構成するフレーム数（Ｉピクチャ、ＰピクチャおよびＢピクチャの合計数）、つまり、長さ（ＧＯＰ長）と、インターピクチャであるＰピクチャおよびＢピクチャの数と、これらＰピクチャおよびＢピクチャの挿入周期とを意味している。

シーンチェンジ検出手段７は、ＧＯＰ構造予測用データ解析手段１３から出力されたＧＯＰ構造を記述したデータであるＧＯＰデータを参照して、入力された動画像のシーンチェンジを検出するものである。ＧＯＰ構造予測用データ解析手段１３から出力されたＧＯＰデータとは、ＧＯＰ長と、インターピクチャの数と、インターピクチャの挿入周期とからなる情報である。このＧＯＰデータは、ピクチャタイプ情報蓄積手段１７から読み出された、仮決定されたピクチャタイプ情報を参照すると共に、外部情報入力手段９からＧＯＰ構造予測用データ解析手段１３に出力された外部情報（外部入力１）に基づいて、ＧＯＰデータ蓄積手段１１から読み出されたものである。

このシーンチェンジ検出手段７は、ＧＯＰ構造予測用データ解析手段１３から出力されたＧＯＰデータを参照した結果、入力された動画像を構成する画像が、ＧＯＰの先頭の画像（ピクチャ）であるとした場合、すなわち、Ｉピクチャ（イントラピクチャ）で符号化される場合、シーンチェンジの検出処理は行わない。また、このシーンチェンジ検出手段７は、ＧＯＰ構造予測用データ解析手段１３から出力されたＧＯＰデータを参照した結果、入力された動画像を構成する画像が、ＧＯＰの先頭の画像でないとした場合、すなわち、Ｉピクチャで符号化されない場合、シーンチェンジの検出処理を行う。

ここでは、シーンチェンジ検出手段７によるシーンチェンジの検出処理として、画像全体（フレーム全体）の画素の平均値を２フレーム間で比較して、平均値の差が予め設定した閾値よりも大きい場合にシーンチェンジであると検出する方法を採用している。この方法では、閾値を当該装置１の外部から与えている。

また、この方法では、１フレームだけ連続するフレームとは性質の異なる画像が挿入される場合（例えば、フラッシュ等）は、シーンチェンジでないにも拘わらず、当該フレームを含む２フレーム間の平均値の差が閾値よりも大きくなって誤検出となってしまう。このため、この１フレーム（フラッシュ等）を区別するために、３フレーム以上の複数枚の画像それぞれで画素値の平均値を計算し、これらの差を計算して、３枚の真ん中フレームの前後フレームにおいて、画素値の平均値の差が小さい場合、フラッシュと判定する処理を行っている。

また、シーンチェンジ検出手段７は、シーンチェンジの検出処理を行った結果、シーンチェンジであるか否かの情報は、シーンチェンジ発生頻度データとして、ＧＯＰデータ蓄積手段１１に出力される。つまり、シーンチェンジの検出結果として、シーンチェンジ発生頻度データがＧＯＰデータ蓄積手段１１に出力される。

そして、シーンチェンジ検出手段７でシーンチェンジであると判定された画像は、ピクチャタイプ決定手段１５において、ＧＯＰ内の時間方向の位置等に応じて、Ｉピクチャ（イントラピクチャ）に変更される（詳細は後記する）。なお、最終的に決定されたピクチャタイプは、ピクチャタイプ情報蓄積手段１７と、符号化処理手段５のビットレート制御手段２１に供給されると共に、符号化処理手段５で、イントラ符号化とインター符号化の切替制御に用いられる（詳細は後記する）。

外部情報入力手段９は、外部入力α（入力情報）を入力するもので、ＥＰＧ抽出手段９ａと、取得手段９ｂとを備えている。この入力情報として用いる情報は、入力された動画像を符号化する際に、この符号化する動画像に関連したものである。

ＥＰＧ抽出手段９ａは、動画像が放送番組である場合に、ＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ）を入力して、当該ＥＰＧから、当該放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間（例えば、ＣＭ、広告の挿入時間）に関する情報を、入力情報として、抽出するものである。なお、放送番組と性質の異なる動画像の挿入時間に関する情報には、当該放送番組の次回予告の時間に関する情報も含まれている。以下、ここでは、放送番組と性質の異なる動画像の挿入時間として、ＣＭ挿入時間を用いており、このＣＭ挿入時間を例にして説明する。

取得手段９ｂは、動画像が放送番組であり、当該装置１が放送番組を受信する受信装置に内包されている場合に、この受信装置に備えられているＣＭ検出機能を介して、当該放送番組の放送時間とＣＭ挿入時間に関する情報を、入力情報として取得するものである。

なお、動画像が放送番組である場合、放送番組の性質（放送に割り当てられている時間配分等）が動画像の性質と類似していることが多く、放送局内で用いている番組情報、例えば、放送番組の放送時間や、ＣＭ挿入時間（広告挿入の時間）や、次回予告の時間に関する情報を、当該装置１の入力情報に用いることができる。特に、デジタル放送では、番組情報を放送局内で管理しているため、番組を符号化する際に、これらの番組情報を、入力情報に利用することは容易である。この外部情報入力手段９から入力情報として入力された番組情報の詳細と利用の仕方について説明する。

放送局から放送される番組（放送番組）は、通常、放送される時間枠（放送番組の送出時間＋α分間）が決められており、この放送番組の送出時間の前後や途中にＣＭ（広告）が挿入されることが多い。また、放送番組の冒頭はタイトル画面であったり、放送番組の終了後は次回番組の予告であったり、他番組の紹介等であったりする。これらの広告、タイトル画面、次回番組の予告または他番組の紹介の性質は、放送番組（番組の本編）の性質と異なっている。例えば、広告の動画像は短時間で多くの情報を提示するため、カット時間が短い傾向にあり、符号化する際には、ＧＯＰを短めにしたほうがレート制御の面で有利である。

そこで、ＧＯＰ構造予測決定手段３では、外部情報入力手段９から入力された入力情報（番組情報）を、ＧＯＰ長を変化させる情報の一つにしている。また、この入力情報として、ＥＰＧ抽出手段９ａにより、ＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ）を利用することも可能である。このＥＰＧを利用すると、放送局内だけでなく、放送番組を受信した受信側でも、放送番組を蓄積した後で、レート制御を利用して、再符号化する際にも適用することができる。

或いは、この外部情報入力手段９によって入力情報を直接入力する代わりに、放送番組を受信した受信側において、受信装置やビデオデッキに搭載されているＣＭ検出機能（検出機能の一種）を介して、取得手段９ｂにより、放送番組の放送時間とＣＭ挿入時間とを、入力情報として、取得することも可能である。なお、ＣＭ検出機能は、音声多重信号の変化を検出することで、放送番組（番組の本編）かＣＭ（広告）かどうかを検出する機能である。

ＧＯＰデータ蓄積手段１１は、ＧＯＰデータを蓄積するもので、一般的なハードディスクやメモリ等の記録媒体によって構成されている。ＧＯＰデータは、過去の（以前に）符号化された動画像について、ＧＯＰ長（ＧＯＰの長さ）を統計処理した統計情報であり、ＧＯＰ長と、インターピクチャの数と、インターピクチャの挿入周期とからなる情報を含み、且つ、当該ＧＯＰ長が採用された頻度を含むものである。

ＧＯＰ長は、例えば、動画像が放送番組の場合、チャンネル切替（チャンネルホッピング）時や受信側の受信装置で電源投入時に即座に画像再生できるようにするため、または、伝送路上での電波障害等によるエラーから即座に復帰できるようにするために、比較的短いものが多い。つまり、符号化した動画像には、比較的に短い周期でＩピクチャ（イントラピクチャ）が挿入されるものが多い。具体的なＩピクチャの挿入間隔としては、例えば、放送番組の中で、衛星波や地上波を用いたデジタル放送の放送番組の場合、ＭＰＥＧ−２符号化では、Ｉピクチャの挿入間隔は、０．５秒とされており、フレームレートが３０フレーム／秒であるので、フレーム数として、１５枚に固定されていることになる。

ちなみに、地上波を利用した携帯端末向けの低ビットレート小画面サービス（１セグメント放送）では、ＧＯＰ長に自由度があり、通常２秒間隔、少なくとも５秒に１回Ｉピクチャ（イントラピクチャ）を挿入する規定になっている。例えば、フレームレートが１５フレーム／秒であると、５秒に１回イントラピクチャが挿入される場合であっても、ＧＯＰ長は７５枚となる。

このＧＯＰデータ蓄積手段１１は、ＧＯＰデータを、ＧＯＰ長のヒストグラムとして蓄積しており、符号化処理手段５による符号化処理が実行されるたびに新たなＧＯＰデータを追加していく（蓄積していく）。

また、このＧＯＰデータ蓄積手段１１は、ＧＯＰデータとして、符号化した動画像のＧＯＰ長を時間順に蓄積することも可能である。
さらに、ＧＯＰデータ蓄積手段１１は、ＧＯＰデータとして、ＧＯＰ長だけでなく、ＧＯＰ内に配置されるＰピクチャおよびＢピクチャの数（枚数）と、時間方向での位置とを蓄積している。なお、これらのＧＯＰ内に配置されるＰピクチャおよびＢピクチャの数と、時間方向での位置とは、ＧＯＰ長と同様な方法で、ＧＯＰ構造予測用データ解析手段１３によって予測することができる。

さらにまた、ＧＯＰデータ蓄積手段１１は、Ｉピクチャ（イントラピクチャ）にしないものの、シーンチェンジと判定されたピクチャの情報、すなわち、各ＧＯＰ内のシーンチェンジの発生頻度の情報（シーンチェンジ発生頻度データ）も蓄積している。なお、このシーンチェンジの発生頻度の情報は、シーンチェンジの発生頻度に応じたＧＯＰ長の変更処理（後記する）で利用される。

ここで、図３および図４を参照（適宜、図１参照）して、ＧＯＰデータ蓄積手段１１に蓄積されているＧＯＰデータの例について説明する。図３は、ＧＯＰデータに含まれるＧＯＰ長の発生頻度をヒストグラムで示した図である。図４は、経過時間（時間推移）によって変化する、ＧＯＰデータに含まれるＧＯＰ長をグラフで示した図である。

図３に示した、発生頻度が最も高いＧＯＰ長、つまり、最頻度のＧＯＰ長が、ＧＯＰ構造予測用データ解析手段１３によって選択され出力される。なお、ＧＯＰ長があまり短いと、情報量を多く必要とするイントラピクチャの頻度が高くなる（イントラピクチャが増加してしまう）。そうすると、符号化処理手段５や、符号化された動画像を受信する受信側で復号化する装置（復号化装置［図示せず］）のバッファに大きな負担が生じてしまうか、送信される情報量が制限されかすることで、イントラピクチャの画質が低下してしまうことになる。

このため、ＧＯＰデータ蓄積手段１１では、蓄積データ量制御手段１９によって、ＧＯＰ長の最小値が設定されており、極端に短いＧＯＰ長が採用されないようにしている。なお、このＧＯＰ長のヒストグラム（ＧＯＰデータ）の更新の仕方には、単純に新しいＧＯＰデータを全て加えていく方法や、ある一定値にデータ数（データ量）を制限し、古い情報を削除する方法等がある。

ある一定値にデータ数（データ量）を制限し、古い情報を削除する方法の場合、例えば、データ数の制限を１ＧＯＰ分にして、古い情報（最古の情報）から削除するようにすると、直前のＧＯＰのＧＯＰデータのみを蓄積することが可能になる。つまり、動画像の性質上、時間的に近い情報が有効になるので、このような処理を実行すると、符号化する動画像の画質劣化を防止することができる。

図４に示した、動画像の経過時間（時間推移）によって変化するＧＯＰ長の平均値に基づいて、ＧＯＰ構造予測用データ解析手段１３によって、次のＧＯＰ長が予測されて出力される。つまり、ＧＯＰデータ蓄積手段１１は、ＧＯＰ長の変化を経過時間の関数として蓄積している。

図１に戻って符号化装置１の構成の説明を続ける。
ＧＯＰ構造予測用データ解析手段１３は、外部情報入力手段９やＧＯＰデータ蓄積手段１１から供給される情報（入力情報［外部入力α］、ＧＯＰデータ）を解析して、ＧＯＰ構造を仮決定するものである。ＧＯＰ構造予測用データ解析手段１３は、ＧＯＰデータ蓄積手段１１がＧＯＰ長のヒストグラム（図３）を蓄積している場合には、ＧＯＰ長のヒストグラムが過去（以前）に符号化した動画像がどの程度のＧＯＰ長を多く含んでいるのかを示すものであるので、次に符号化する動画像のＧＯＰを決定する際に、当該ヒストグラムの最頻値を利用することで、最も出現しやすいＧＯＰ長（ＧＯＰ構造）を予測することができる。

また、ＧＯＰ構造予測用データ解析手段１３は、ＧＯＰデータ蓄積手段１１が１つのＧＯＰ長（最新のＧＯＰ長、直前のＧＯＰ長）のみ蓄積している場合、このＧＯＰ長を利用することができる。なお、ＧＯＰ長の最頻値ではなく、ＧＯＰ長の平均値を利用することができる。

さらに、このＧＯＰ構造予測用データ解析手段１３では、ＧＯＰデータ蓄積手段１１が、ＧＯＰ長の変化を経過時間の関数（動画像の経過時間（時間推移）とともに変化するＧＯＰ長、図４）として蓄積している場合には、解析処理する手段として、カルマンフィルタ等を採用しており、このカルマンフィルタの予測を利用している。

ＧＯＰ構造予測用データ解析手段１３は、ＧＯＰ長のヒストグラムと、ＧＯＰ長の経過時間の関数とを組み合わせて、ＧＯＰ長（ＧＯＰ構造）を予測することも可能である。例えば、ＧＯＰ構造予測用データ解析手段１３は、カルマンフィルタによる予測を基本として、このカルマンフィルタによって予測された値が、ＧＯＰ長のヒストグラムによって、所定範囲内にあるか否かを検証することで、これまでのデータとかけ離れていることを防ぐことができる。

この実施形態では、このＧＯＰ構造予測用データ解析手段１３は、通常、外部入力１（入力情報）とＧＯＰデータとを併用することで、ＧＯＰ構造を予測している。つまり、ＧＯＰ構造予測用データ解析手段１３は、入力情報より動画像の大まかな傾向（例えば、シーチェンジは多いか否か等）によって、仮のＧＯＰ長を定めておき、ＧＯＰデータ蓄積手段１１に蓄積されている実際のＧＯＰデータで、仮のＧＯＰ長を修正することが可能である。

或いは、ＧＯＰ構造予測用データ解析手段１３は、予めＧＯＰデータ蓄積手段１１が外部情報（外部入力β）による分類に従って、ＧＯＰデータを分けて蓄積している場合、つまり、外部情報（外部入力β₁：ジャンル分類情報）が動画像を、当該動画像の種類（例えば、動画像が放送番組であった場合、放送番組のジャンル［ニュース番組、ドキュメンタリー、ドラマ、スポーツ番組等］）によって分類しており、この分類（ジャンル）に従って、ＧＯＰデータを分けて蓄積している場合、別の外部情報（外部入力β₂：ジャンル指定情報）によって、入力した動画像に対応したＧＯＰデータに切り替えることも可能である。
なお、符号化装置１は、ＧＯＰ長を一定に保つ場合、ＧＯＰデータや入力情報を無視して、予め設定したＧＯＰ長に固定することも可能である。

ピクチャタイプ決定手段１５は、シーンチェンジ検出手段７でシーンチェンジであると検出された画像をイントラ符号化するＩピクチャ（イントラピクチャ）と決定すると共に、それ以外の画像をインター符号化するＰピクチャおよびＢピクチャ（インターピクチャ）と決定するもので、判定手段１５ａと、情報量配分手段１５ｂとを備えている。

判定手段１５ａは、シーンチェンジ検出手段７でシーンチェンジであると検出された画像を、ＧＯＰ構造を成す先頭のＩピクチャ（イントラピクチャ）と決定する際に、当該画像の位置より、直前に検出されたＧＯＰ構造のＧＯＰ長が予め設定したＧＯＰ長よりも長いか否かを判定するものである。

この判定手段１５ａによって、シーンチェンジであると検出された画像の位置により、直前に検出されたＧＯＰのＧＯＰ長が予め設定したＧＯＰ長よりも長いと判定されない場合（直前に検出されたＧＯＰのＧＯＰ長が短い場合）、シーンチェンジ検出手段７でシーンチェンジであると検出された画像は、誤検出の場合があるとして、ＧＯＰ構造を成す先頭のＩピクチャ（イントラピクチャ）としない。つまり、ピクチャタイプ決定手段１５は、判定手段１５ａによる判定結果に従って、予め設定したＧＯＰ長が確保されるまで、Ｉピクチャと決定しない、すなわち、シーンチェンジとはみなさない。

情報量配分手段１５ｂは、シーンチェンジ検出手段７でシーンチェンジであると検出された画像の頻出度（シーンチェンジの頻出度）に基づいて、Ｉピクチャ（イントラピクチャ）と、ＰピクチャおよびＢピクチャ（インターピクチャ）との情報量の配分を行うものである。

このピクチャタイプ決定手段１５は、最終的に決定されたピクチャタイプ情報（ピクチャ［ピクチャタイプ］がＩピクチャであるか、Ｐピクチャであるか、Ｂピクチャであるかを示す情報）を、符号化処理手段５およびピクチャタイプ情報蓄積手段１７に出力すると共に、切替制御信号（ａ）（ｂ）（ｃ）を符号化処理手段５に出力するものである。

この切替制御信号は、ピクチャタイプ情報に従って、符号化処理手段５に設けられている３個のスイッチのオンオフを制御するためのもので、ピクチャタイプがＩピクチャである場合に、３個のスイッチがオフされることで、符号化処理手段５の動き推定手段２５および動き補償手段２７による動き補償処理を行わないようにするものである。

ピクチャタイプ情報蓄積手段１７は、ピクチャタイプ決定手段１５で最終的に決定されたピクチャタイプ情報（符号化する画像の各ピクチャタイプ）を蓄積するもので、一般的なハードディスクやメモリ等の記録媒体によって構成されている。そして、このピクチャタイプ情報蓄積手段１７に蓄積されているピクチャタイプ情報は、ＧＯＰ構造ごとにまとめられて、ＧＯＰ構造予測用データ解析手段１３によって読み出される。

蓄積データ量制御手段１９は、外部情報（外部入力β₃：データ量指定情報）によって、ＧＯＰデータ蓄積手段１１に蓄積するＧＯＰデータのデータ量を制御するものである。つまり、この蓄積データ量制御手段１９は、ＧＯＰデータ蓄積手段１１がＧＯＰ長の頻度をヒストグラムとして蓄積している際に、ＧＯＰデータが予め設定したデータ量に達した場合に、蓄積時間の長いものから順に削除するものである。

ここで、ＧＯＰ構造予測決定手段３におけるシーンチェンジの検出（シーンチェンジ検出手段７の処理）とイントラピクチャへの変更（ピクチャタイプ決定手段１５の処理）とについて説明する。なお、これらシーンチェンジ検出手段７とピクチャタイプ決定手段１５とは、ピクチャタイプ情報蓄積手段１７、ＧＯＰデータ蓄積手段１１およびＧＯＰ構造予測用データ解析手段１３を介在させたループを形成しており、入力された動画像に係る情報がこのループを循環することで、ピクチャタイプを決定している。

まず、シーンチェンジ検出手段７において、入力された動画像の中で、シーンチェンジであると判定された画像は、それ以前の画像（直前の画像）と性質が異なるため、それ以前の画像に基づいて動き推定がほとんど当たらず当該画像内のほとんどのブロックが符号化処理手段５にてイントラ符号化されることになる。

このような場合に、ピクチャタイプ決定手段１５において、ピクチャ自体をイントラピクチャに変更し、ＧＯＰの先頭として、この時点でＧＯＰ長を変更する場合と、ピクチャ自体をイントラピクチャに変更せず、ブロックごとにイントラ符号化またはインター符号化するかを判定する場合とを設定することができる。

例えば、シーンチェンジ検出手段７でシーンチェンジを検出するたびに、その都度、シーンチェンジと検出された画像をイントラピクチャに変更すると、ＧＯＰ長が短くなりすぎる場合があり、符号化処理手段５において、ビットレートの制御が困難になる事態が発生する。

こういった事態を防止するために、判定手段１５ａが設けられており、前記したように、ピクチャタイプ決定手段１５では、判定手段１５ａにより、予め設定したＧＯＰ長（ＧＯＰ長の最小値）よりも短いＧＯＰ長とならないように、シーンチェンジと検出された画像がイントラピクチャに決定される。

なお、ＧＯＰ構造予測決定手段３では、ＧＯＰデータ蓄積手段１１に、シーンチェンジの発生頻度の情報（シーンチェンジ発生頻度データ）が蓄積されており、このシーンチェンジの発生頻度の情報を利用して、入力された動画像の中（次のＧＯＰ長の画像の中）で発生するシーンチェンジの回数を予測し、例えば、入力された動画像（次のＧＯＰ）内で予測よりも多くシーンチェンジが発生した場合、その時点で、ＧＯＰの先頭とする処理が実行される。

ここまで、シーンチェンジが検出された画像をイントラピクチャに変更して、ＧＯＰ長を変更することについて説明したが、さらに、ピクチャタイプ決定手段１５において、情報量配分手段１５ｂによって、ＧＯＰ長を変更せずに、ビットレート制御の処理内でピクチャタイプごとの情報量（配分情報量）を変更することで、符号化処理手段５による符号化処理を効率よくする仕方もある。

この場合におけるＧＯＰ構造予測決定手段３は、ＴＭ５の処理で説明したＧＯＰ長を固定とした場合の固定値で利用しているＫｐ、Ｋｂ（数式（３）参照）の値を制御する。これらＫｐ、Ｋｂの値はＩピクチャ、ＰピクチャおよびＢピクチャの情報量配分比を決定するパラメータである。そして、このＧＯＰ構造予測決定手段３は、シーンチェンジ検出手段７で検出されるシーンチェンジの発生頻度が高くなった場合に、ＧＯＰの先頭のＩピクチャで配分情報量が多くなると、続くＰピクチャやＢピクチャへの配分情報量が減少してしまうため、Ｋｐ、Ｋｂの値を小さくしてＰピクチャおよびＢピクチャの配分情報量を増加させる。また、このＧＯＰ構造予測決定手段３は、シーンチェンジ検出手段７で検出されるシーンチェンジの発生頻度が変わらない場合には、Ｋｐ、Ｋｂの値を変更しないようにして、符号化処理手段５によるレート制御を実行させる。

符号化処理手段５は、ＧＯＰ構造予測決定手段３から出力されたピクチャタイプ情報と切替制御信号に基づいて、レート制御（ビットレート制御）を実行しつつ、入力された動画像（映像入力信号）を符号化するもので、ビットレート制御手段２１と、変換手段２３と、動き推定手段２５と、動き補償手段２７と、フレーム記憶手段２９と、量子化手段３１と、逆量子化手段３３と、逆変換手段３５と、エントロピー符号化手段３７と、減算手段３９と、加算手段４１とを備えている。

また、この符号化処理手段５内には、３個のスイッチが設けられており、ＧＯＰ構造予測決定手段３のピクチャタイプ決定手段１５から出力された切替制御信号（ａ）（ｂ）（ｃ）によって、入力される動画像のピクチャタイプをインターピクチャとする際に、これら３個のスイッチがオンにされて、符号化処理手段５の動き推定手段２５および動き補償手段２７による動き補償処理が行われる。

ビットレート制御手段２１は、ピクチャタイプ情報に基づいて、ビットレート制御を行うものである。このビットレート制御手段２１は、前記したＴＭ５のようなレート制御（ビットレート制御）のアルゴリズムによって、ピクチャタイプ情報に基づいて、量子化手段３１で用いる量子化パラメータを決定するものである。

変換手段２３は、入力された画像そのまま（Ｉピクチャにする場合）、または、動き補償手段２７から出力された動き補償画像が減算手段３９で入力された画像から減算された画像（ＰピクチャまたはＢピクチャにする場合）に、ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）処理やｗａｖｅｌｅｔ変換等の変換処理を施すものである。ＤＣＴ処理において、ＭＰＥＧ−２やＭＰＥＧ−４では８×８画素サイズのブロックタイプで行われることが多く、ＡＶＣ／Ｈ．２６４では４×４画素サイズや８×８画素サイズで行われる等、使用する方式によって、画素サイズや処理の仕方が異なる。この変換手段２３によって、入力された動画像は、係数信号に変換され、量子化手段３１に出力される。

動き推定手段２５は、ＧＯＰ構造予測決定手段３のピクチャタイプ決定手段１５でピクチャタイプがＰピクチャまたはＢピクチャ、すなわち、インターピクチャの場合にフレーム記憶手段２９に蓄積された既に符号化済みのピクチャが復号された復号画像を参照画像として、各マクロブロックやマクロブロックを分割したブロック単位で動きベクトルを推定するものである。

この動き推定手段２５による動きベクトルの推定は、ブロックマッチング法や勾配法が用いられている。また、この動き推定手段２５で推定された動きベクトルは、動き補償手段２７に出力される。さらに、動きベクトルは、動き補償手段２７、変換手段２３および量子化手段３１を介して、エントロピー符号化手段３７に入力され、量子化手段３１で量子化された係数と共に符号化されてビットストリームとして出力される。

動き補償手段２７は、動き推定手段２５から出力された動きベクトルに基づいて、動き補償を行って、動き補償画像を生成するものである。この動き補償画像は、ＧＯＰ内の画像内の被写体の動きを補償するための画像である。

フレーム記憶手段２９は、加算手段４１から出力された復号画像（参照画像）を記憶するもので、一般的なメモリ等によって構成されている。

量子化手段３１は、ビットレート制御手段２１から出力された量子化パラメータに基づいて、変換手段２３から出力された係数信号を量子化して、量子化した係数（以下、量子化係数という）として、エントロピー符号化手段３７に出力するものである。また、この量子化手段３１は、量子化係数を、画像をインターピクチャに符号化するインター符号化での動き推定、動き補償処理に用いるために、逆量子化手段３３に出力する。

逆量子化手段３３は、量子化手段３１から出力された量子化係数を逆量子化するものである。つまり、逆量子化手段３３は量子化係数を逆量子化した係数信号を逆変換手段３５に出力するものである。

逆変換手段３５は、逆量子化手段３３から出力された係数信号を逆変換するものである。つまり、逆変換手段３５は係数信号を逆変換した逆変換した画像を、加算手段４１に出力するものである。

エントロピー符号化手段３７は、量子化手段３１から出力された量子化係数を圧縮符号化し、ビットストリーム（ビットストリーム信号）として、外部に出力するものである。

減算手段３９は、入力された画像から、動き補償手段２７で生成された動き補償画像を減算して変換手段２３に出力するものである。つまり、入力された元々の画像（原画像）から動き補償画像を減算した残差となる信号（以下、残差画像とする）が変換手段２３に出力される。

加算手段４１は、動き補償手段２７から出力された動き補償画像と、逆変換手段３５から出力された逆変換した画像とを加算して、復号画像とするものである。なお、ＧＯＰ構造予測決定手段３のピクチャタイプ決定手段１５で決定されたピクチャがＢピクチャの場合、この加算手段４１で生成された復号画像が、動き推定手段２５において、動き推定を行う際に参照画像にならないことがあり、この場合、逆量子化手段３３および逆変換手段３５の処理を実行する必要はない。

符号化装置１によれば、ピクチャタイプ決定手段３によって、ピクチャタイプ（Ｉピクチャ、ＰピクチャまたはＢピクチャ）が決定されることで、動画像を符号化する符号化処理手段５では、決定されたピクチャタイプに応じて、ビットレートを制御して、動画像を符号化するので、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

また、符号化装置１によれば、ＧＯＰ構造予測用データ解析手段１３によって、予測されたＧＯＰ構造を、仮決定したＧＯＰ構造として、シーンチェンジ検出手段７によって、シーンチェンジを検出すると共に、ピクチャタイプ決定手段１５によって、ピクチャタイプを決定し、これらをＧＯＰ構造の予測にフィードバックさせて、ＧＯＰ構造を絞り込んでいくので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

さらに、符号化装置１によれば、以前符号化した動画像について、ＧＯＰデータ蓄積手段１１に、ＧＯＰ長が採用された頻度をヒストグラムとして蓄積しておき、ＧＯＰ構造予測用データ解析手段１３によって、蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長を、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、このレート制御されたレート（ビットレート）に従って、符号化処理手段５によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

さらに、符号化装置１によれば、ピクチャタイプ決定手段１５の判定手段１５ａによって、ＧＯＰ長を設定する際に、このＧＯＰ長が短くなりすぎないように、最小値より長いＧＯＰ長にして、レート制御を行うことで、動画像を符号化する際に発生する発生情報量を抑え、符号化効率の悪化を防止することができる。

さらにまた、符号化装置１によれば、以前に符号化した動画像のデータに関するヒストグラムを対象にして、ＧＯＰ構造予測用データ解析手段１３によって、ＧＯＰ長を設定しているので、様々な長さのＧＯＰ長から最頻度のものが設定されることになり、動画像を符号化する際の画質劣化を抑制することができる。

さらにまた、符号化装置１によれば、蓄積データ量制御手段１９によって、蓄積された時刻の最古のものから順にヒストグラムが除外されるので、最新のヒストグラム（ＧＯＰ長の頻度）が残っていくことになり、このヒストグラムを反映して、レート制御を行うことで、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

そしてまた、符号化装置１によれば、以前符号化した動画像について、ＧＯＰデータ蓄積手段１１に、ＧＯＰ長の変化を時間の関数として蓄積しておき、ＧＯＰ構造予測用データ解析手段１３によって、蓄積されている関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、このレート制御されたレート（ビットレート）に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

そしてまた、符号化装置１によれば、ＧＯＰ長に応じたレート制御を行う前に、動画像のシーンチェンジの検出を行って、シーンチェンジであると検出された画像を、ピクチャタイプ決定手段１５によって、ＧＯＰ構造を成す先頭のイントラピクチャとして決定する。つまり、シーンチェンジ直後の画像をイントラピクチャとして決定することで、符号化処理手段５によって、画面内符号化が行われるので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

さらに、符号化装置１によれば、ＧＯＰデータ蓄積手段１１に、ＧＯＰ構造としてＰピクチャおよびＢピクチャの枚数と時間方向における位置（挿入周期）とを蓄積しており、これらに基づいて、ＧＯＰ長を設定しているので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

また、符号化装置１によれば、ピクチャタイプ決定手段１５の情報量配分手段１５ｂによって、動画像のシーンチェンジの検出を行って、検出されたシーンチェンジの頻度に基づいて、イントラピクチャであるＩピクチャと、インターピクチャであるＰピクチャおよびＢピクチャとの間の情報量の配分を変更するので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

さらに、符号化装置１によれば、ＧＯＰデータ蓄積手段１１に、以前符号化した動画像について、ＧＯＰ長が採用された頻度をヒストグラムとして蓄積すると共に、ＧＯＰ長の変化を時間の関数として蓄積しており、ＧＯＰ構造予測用データ解析手段１３によって、蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長および関数に基づいて、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をする。そして、このレート制御されたレート（ビットレート）に従って、符号化処理手段５によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。

また、符号化装置１によれば、動画像が放送番組であるので、当該放送番組を受信した受信側では、伝送路上に問題がなければ、例えば、当該放送番組にシーンチェンジが頻発するような場合でも画質劣化の少ない放送番組を視聴することができる。さらに、符号化装置１によれば、放送番組を有する特性を放送局内で管理する情報、つまり、放送局内で用いている番組情報、例えば、放送番組の放送時間や、ＣＭ挿入時間（広告挿入の時間）や、次回予告の時間等を入力情報として利用することで、これらの入力情報を、ＧＯＰ長を変化させる情報とすることができる。

さらにまた、符号化装置１によれば、ＥＰＧ抽出手段９ａによって、ＥＰＧから抽出した放送番組の放送時間や、ＣＭ挿入時間（広告挿入の時間）や、次回予告の時間等を入力情報として、利用することで、これらの入力情報を、ＧＯＰ長を変化させる情報とすることができる。また、符号化装置１によれば、取得手段９ｂによって、ＣＭ検出機能（図示せず）を介して、放送番組の放送時間や、ＣＭ挿入時間（広告挿入の時間）や、次回予告の時間等を取得して、入力情報とすることで、これらの入力情報を、ＧＯＰ長を変化させる情報とすることができる。

〈符号化装置の動作〉
次に、図２に示すフローチャートを参照して、符号化装置１の動作を説明する（適宜、図１参照）。
まず、符号化装置１は、ＧＯＰ構造予測決定手段３のＧＯＰ構造予測用データ解析手段１３によって、外部情報入力手段９に入力された外部情報とＧＯＰデータ蓄積手段１１に蓄積されているＧＯＰデータとに基づいて、ＧＯＰ構造を予測する（ステップＳ１）。続いて、符号化装置１は、ＧＯＰ構造予測用データ解析手段１３によって、予測したＧＯＰ構造において、ＧＯＰ先頭（イントラピクチャ）であるか否かを判定し（ステップＳ２）、ＧＯＰ先頭（イントラピクチャ）でないと判定した場合（ステップＳ２、Ｎｏ）、シーンチェンジ検出手段７によって、シーンチェンジを検出する（ステップＳ３）。

そして、符号化装置１は、ＧＯＰ構造予測決定手段３のピクチャタイプ決定手段１５によって、ピクチャタイプ（ＰピクチャまたはＢピクチャ）を決定する（ステップＳ４）。また、ステップＳ２にて、符号化装置１は、ＧＯＰ先頭（イントラピクチャ）であると判定した場合（ステップＳ２、Ｙｅｓ）、ピクチャタイプ（Ｉピクチャ）を決定する（ステップＳ４）。

そして、符号化装置１は、符号化処理手段５によって、符号化処理を実行し（ステップＳ５）、ＧＯＰ内の画像（ピクチャ）の符号化が終了したか否かを判定する（ステップＳ６）。符号化装置１は、ＧＯＰ内の画像（ピクチャ）の符号化が終了したと判定しなかった場合（ステップＳ６、Ｎｏ）、ＧＯＰ構造予測決定手段３のＧＯＰ構造予測用データ解析手段１３によりピクチャタイプ情報の解析を実行し、ステップＳ２に戻る。つまり、ＧＯＰ構造予測決定手段３において、ピクチャタイプ情報蓄積手段１７、ＧＯＰデータ蓄積手段１１、ＧＯＰ構造予測用データ解析手段１３、シーンチェンジ検出手段７およびピクチャタイプ決定手段１５のループによる処理が繰り返される。

その後、符号化装置１は、入力されたすべての動画像について、符号化が終了したか否かを判定し（ステップＳ８）、符号化が終了していないと判定された場合（ステップＳ８、Ｎｏ）、ステップＳ１に戻り、符号化が終了したと判定された場合（ステップＳ８、Ｙｅｓ）、動作を終了する。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、符号化装置１について説明したが、当該装置１の各構成の処理を実行可能に一般的または特殊なコンピュータ言語で記述した符号化プログラムとすることも可能である。

本発明の実施形態に係る符号化装置のブロック図である。図１に示した符号化装置の動作を説明したフローチャートである。ＧＯＰデータに含まれるＧＯＰ長の発生頻度をヒストグラムで示した図である。経過時間（時間推移）によって変化する、ＧＯＰデータに含まれるＧＯＰ長のグラフを示した図である。

符号の説明

１符号化装置
３ＧＯＰ構造予測決定手段
５符号化処理手段
７シーンチェンジ検出手段
９外部情報入力手段
９ａＥＰＧ抽出手段
９ｂ取得手段
１１ＧＯＰデータ蓄積手段
１３ＧＯＰ構造予測用データ解析手段
１５ピクチャタイプ決定手段
１７ピクチャタイプ情報蓄積手段
１９蓄積データ量制御手段
２１ビットレート制御手段
２３変換手段
２５動き推定手段
２７動き補償手段
２９フレーム記憶手段
３１量子化手段
３３逆量子化手段
３５逆変換手段
３７エントロピー符号化手段
３９減算手段
４１加算手段

Claims

動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅ）構造にして、当該動画像のシーンチェンジに応じてビットレートを制御して当該動画像を符号化する符号化装置において、
前記シーンチェンジの検出結果と、過去に符号化した結果から予め蓄積した前記ＧＯＰの長さを示すＧＯＰ長、このＧＯＰ長に含まれているインターピクチャの数および挿入周期とに基づいて、符号化するピクチャタイプを決定するＧＯＰ構造予測決定手段を備えたことを特徴とする符号化装置。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、当該動画像のシーンチェンジに応じてビットレートを制御して当該動画像を符号化する符号化装置において、
入力された動画像のシーンチェンジを検出するシーンチェンジ検出手段と、
前記ＧＯＰの長さを示すＧＯＰ長と、このＧＯＰ長に含まれているインターピクチャの数および挿入周期とからなるＧＯＰデータを蓄積するＧＯＰデータ蓄積手段と、
このＧＯＰデータ蓄積手段に蓄積されているＧＯＰデータと前記ＧＯＰ構造にかかる前記動画像の特性を示す入力情報とに基づいて、入力された動画像のＧＯＰ構造を予測するＧＯＰ構造予測用データ解析手段と、
前記シーンチェンジ検出手段で検出された検出結果と、前記ＧＯＰ構造予測用データ解析手段で予測されたＧＯＰ構造とに基づいて、前記動画像のピクチャタイプを決定するピクチャタイプ決定手段と、
このピクチャタイプ決定手段で決定されたピクチャタイプに関する情報を蓄積するピクチャタイプ情報蓄積手段とを備え、
前記ＧＯＰ構造予測データ解析手段は、前記ピクチャタイプ情報蓄積手段から読み出したピクチャタイプに関する情報を参照して、前記ＧＯＰデータ蓄積手段に蓄積されている前記ＧＯＰデータを読み出し、
前記シーンチェンジ検出手段は、前記ＧＯＰ構造予測用データ解析手段から出力されたＧＯＰデータを参照して、シーンチェンジを検出することを特徴とする符号化装置。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、
前記動画像を符号化する際に前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積するＧＯＰデータ蓄積手段と、
このＧＯＰデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長を、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をするＧＯＰ構造予測用データ解析手段と、
を備えることを特徴とする符号化装置。
前記ＧＯＰ長の最小値を予め設定し、
前記ＧＯＰ構造予測用データ解析手段は、この最小値より長いＧＯＰ長に応じてレート制御することを特徴とする請求項３に記載の符号化装置。
前記ＧＯＰ構造予測用データ解析手段は、前記ＧＯＰデータ蓄積手段が蓄積している、以前に符号化した動画像のデータに関するヒストグラムを対象にして、前記ＧＯＰ長を設定することを特徴とする請求項３または請求項４に記載の符号化装置。
前記ＧＯＰデータ蓄積手段が、以前に符号化した動画像に関して前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積する際に、予め設定したデータ量に達した場合は、蓄積した時刻が最古のものから順に除外する蓄積データ量制御手段を備えることを特徴とする請求項３から請求項５までのいずれか一項に記載の符号化装置。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、
前記ＧＯＰ長の変化を時間の関数として蓄積するＧＯＰデータ蓄積手段と、
このＧＯＰデータ蓄積手段に蓄積されている関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をするＧＯＰ構造予測用データ解析手段と、
を備えることを特徴とする符号化装置。
前記ＧＯＰ構造予測用データ解析手段でＧＯＰ長に応じたレート制御を行う前に、前記動画像のシーンチェンジの検出を行うシーンチェンジ検出手段と、
このシーンチェンジ検出手段でシーンチェンジであると検出された画像を、前記ＧＯＰ構造を成す先頭のイントラピクチャとして決定するピクチャタイプ決定手段と、
を備えることを特徴とする請求項３から請求項７までのいずれか一項に記載の符号化装置。
前記ピクチャタイプ決定手段は、前記シーンチェンジ検出手段でシーンチェンジであると検出された画像を、前記ＧＯＰ構造を成す先頭のイントラピクチャとして決定する際に、当該画像の位置より、直前に検出されたＧＯＰのＧＯＰ長が予め設定したＧＯＰ長よりも長いか否かを判定する判定手段を備え、
この判定手段の判定結果によって、当該ＧＯＰ長が予め設定したＧＯＰ長よりも短いと判定された場合には、シーンチェンジと検出した画像を、ＧＯＰ構造の先頭のイントラピクチャとしないことを特徴とする請求項８に記載の符号化装置。
前記ＧＯＰデータ蓄積手段は、前記ＧＯＰ構造を成す前記インターピクチャであるＰピクチャおよびＢピクチャの枚数と時間方向における位置とを蓄積し、
前記ＧＯＰ構造予測用データ解析手段は、前記ＰピクチャおよびＢピクチャの枚数と時間方向における位置とを参照して、前記ＧＯＰ長を設定することを特徴とする請求項３から請求項９までのいずれか一項に記載の符号化装置。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、
前記動画像のシーンチェンジの検出を行うシーンチェンジ検出手段と、
このシーンチェンジ検出手段で検出されたシーンチェンジの頻度に基づいて、前記イントラピクチャであるＩピクチャと、前記インターピクチャであるＰピクチャおよびＢピクチャとの情報量の配分を変更する情報量配分手段と、
を備えることを特徴とする符号化装置。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化する符号化装置において、
前記動画像を符号化する際に前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積すると共に、前記ＧＯＰ長の変化を時間の関数として蓄積するＧＯＰデータ蓄積手段と、
この蓄積手段に蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長および関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をするＧＯＰ構造予測用データ解析手段と、
を備えることを特徴とする符号化装置。
前記動画像が放送番組であることを特徴とする請求項１から請求項１２までのいずれか一項に記載の符号化装置。
前記動画像が放送番組である場合に、前記入力情報として、当該放送番組の放送時間と
当該放送番組と性質の異なる動画像の挿入時間とに関する情報を使用し、
前記ＧＯＰ構造予測用データ解析手段は、前記放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間とに関する情報に基づいて、ＧＯＰデータ蓄積手段から読み出すＧＯＰデータを変更することを特徴とする請求項１３に記載の符号化装置。
前記動画像が放送番組であり、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間とに関する情報を使用する場合に、当該入力情報をＥＰＧから抽出するＥＰＧ抽出手段を備え、
前記ＧＯＰ構造予測用データ解析手段は、前記ＥＰＧ抽出手段で抽出された前記放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間とに関する情報に基づいて、ＧＯＰデータ蓄積手段から読み出すＧＯＰデータを変更することを特徴とする請求項１３に記載の符号化装置。
前記動画像が放送番組であり、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間とに関する情報を使用する場合に、当該入力情報を検出機能を介して取得する取得手段を備え、
前記ＧＯＰ構造予測用データ解析手段は、前記取得手段で取得された前記放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間とに関する情報に基づいて、ＧＯＰデータ蓄積手段から読み出すＧＯＰデータを変更することを特徴とする請求項１３に記載の符号化装置。
前記放送番組と性質の異なる動画像の挿入時間は、ＣＭ挿入時間であることを特徴とする請求項１４から請求項１６までのいずれか一項に記載の符号化装置。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化するために、前記ＧＯＰ長が採用された頻度をヒストグラムとして蓄積するＧＯＰデータ蓄積手段を備えたコンピュータを、
前記ＧＯＰデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すＧＯＰ長を、符号化する動画像のＧＯＰ長として設定し、この設定したＧＯＰ長に応じたレート制御をするＧＯＰ構造予測用データ解析手段、
として機能させることを特徴とする符号化プログラム。
動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くＧＯＰ構造にして、このＧＯＰの長さを示すＧＯＰ長を可変にして、当該動画像を符号化するために、前記ＧＯＰ長の変化を時間の関数として蓄積するＧＯＰデータ蓄積手段を備えたコンピュータを、
前記ＧＯＰデータ蓄積手段に蓄積されている関数に基づいて、符号化する動画像のＧＯＰ長を設定し、この設定したＧＯＰ長に応じたレート制御をするＧＯＰ構造予測用データ解析手段、
として機能させることを特徴とする符号化プログラム。