従来、ISO/IEC JTC1/SC29/WG11(MPEG)で規格化されたMPEG−1,2,4(非特許文献1〜非特許文献3参照)や、ITU−Tで勧告化されたH.261,263(非特許文献4,5)や、MPEGとITU−Tとで規格化されたH.264/MPEG−4 AVC(非特許文献6参照)といった規格の方式による動画像の圧縮符号化処理は、放送やネットワーク等の伝送系であれば、伝送するメディアの帯域に応じて、VTRや光ディスク等の蓄積系であれば、蓄積するメディアの容量に応じて、動画像の符号化によって発生する符号量、或いは、単位時間当たりの情報量を示すビットレート(1秒間当たりに伝送(蓄積)するビット数)を制御する必要がある。
特に、放送やネットワーク等の伝送系では、単位時間当たりに利用できるメディアの帯域に制限があるために、制限内に収まるように符号量(発生情報量)を制御しなければならない。そして、この制限内に収まるように制御される発生情報量は、定められた単位時間ごとに一定になるように計算される。このように計算して発生情報量を制御する制御方式は、CBR(Constant Bit Rate)方式と呼称されている。
逆に、制限内に収まるように制御される発生情報量が、定められた単位時間ごとに一定になるように計算せずに、当該発生情報量を制御する制御方式は、VBR(Variable Bit Rate)方式と呼称されている。
CBR方式の場合、発生情報量を一定にする単位時間の尺度として、通常複数のフレームから構成されているGOP(Group Of Picture)を用いている。ちなみに、MPEG−2が用いられているデジタル放送では、GOPの時間長(以下、GOP長と記載する)を0.5秒、フレーム数(ピクチャ数)で換算すると15フレーム(ピクチャ)としている。
GOPは、通常、画面内で符号化したイントラピクチャであるIピクチャ1枚と、画面間で符号化したインターピクチャであるPピクチャ(前方向予測)およびBピクチャ(双方向予測)の14枚とからなる。一般的に、Iピクチャが必要とする情報量(Iピクチャによって発生する発生情報量)は、PピクチャやBピクチャが必要とする情報量よりも多いので、制限内で許容される多めの情報量を予測してIピクチャに割り当て、制限内で許容される残りの情報量をPピクチャとBピクチャとに割り当てている。
しかし、予めGOP内で情報量の割り当て(分配)を行っても、符号化する動画像によっては、予測した情報量よりもIピクチャの必要とする情報量が増えたり減ったりするので、従来の符号化装置では、Iピクチャが必要とする情報量に応じて、PピクチャやBピクチャに割り当てる、残りの情報量の配分を適宜見直している。
ここで、ビットレートを制御する方式の一例として、MPEG−2のテストモデルであるTM5方式について説明する。このTM5方式では、まず、符号化する動画像に含まれる画像のピクチャタイプ(Iピクチャ、PピクチャまたはBピクチャ)によって、情報量がどの程度必要であるかを見積もる。
TM5方式では、符号化する動画像に含まれる画像のそれぞれのピクチャタイプにどの程度の情報量が必要であるのかを見積もるのに、符号化する際の複雑度を用いている。この複雑度の尺度として、Iピクチャの複雑さ指標Xi、Pピクチャの複雑さ指標Xp、Bピクチャの複雑さ指標Xbを定義しており、これらの複雑さ指標を、既に符号化した結果を利用して、次に示す(1)式に従って更新する。
この(1)式において、Si、Sp,Sbは発生するビット数、Qi、Qp、Qbは平均的な量子化パラメータを示している。量子化パラメータは、1フレーム(ピクチャ)中の全マクロブロックのMQUANT(量子化パラメータを表す変数)の平均値で表され、1から31までの範囲に正規化されている数値である。複雑さ指標Xi、Xp、Xbは、符号化した際の発生情報量(符号化情報量)が多くなるような画像に対しては大きくなり、符号化した際の発生情報量が少なくなるような画像に対しては小さくなる。
また、複雑さの指標Xi、Xp、Xbの初期値は、次に示す(2)式で与えられる。
この(2)式において、bit_rateはビットレート(ビット/秒)のことを指している。続いて、TM5方式では、GOP内の次の画像について、目標とする発生情報量(目標情報量)Ti、Tp、Tbを、次に示す(3)式により計算する。
この(3)式は、GOP内で情報量の割り当てた結果、GOP内の画像(フレーム)であるIピクチャ、PピクチャおよびBピクチャの画像数(フレーム数)を、それぞれのピクチャタイプに換算した値で、GOPの残りの情報量をビット数で表したRを除算した目標情報量を得ることを示している。また、(3)式において、Kp、Kbは量子化マトリクスに依存する定常的な定数であり、TM5方式では、Kp=1.0、Kb=1.4である。
また、GOP内の画像(フレーム)であるIピクチャ、PピクチャおよびBピクチャの画像数(フレーム数)を、それぞれのピクチャタイプに換算した値について、この値の上限値を次に示す(4)式に従って抑制している。
この(4)式おいて、picture_rateは、Iピクチャ、Pピクチャ、Bピクチャそれぞれに割り当てる情報量を指している。
また、(3)式において、GOPの残りの情報量をビット数で表したRは、ある画像(フレーム)が符号化された後は、次に示す(5)式に従って更新されることになる。
この(5)式において、Si、Sp、Sbは、符号化した画像で発生した発生情報量である。GOP内における最初の画像の場合は、次に示す(6)式に示したように設定されている。
この(6)式において、NはGOPの画像の枚数である。なお、動画像のシーケンスの最初はR=0である。
また、(3)式において、NpはPピクチャを、NbはBピクチャを符号化する順番に沿って、現在のGOPの残りのPピクチャとBピクチャの枚数を数えた値を示している。
続いて、TM5方式では、各フレーム(各画像)のマクロブロックを符号化しつつ、量子化パラメータを求める。そして、符号化する画像に割り当てる情報量の差をマクロブロックごとにフィードバックして、実際の発生情報量が、計算した目標情報量よりも多い場合には発生情報量を減らすように量子化パラメータを大きくし、逆に、実際の発生情報量が、計算した目標情報量よりも小さい場合には発生情報量を増やすように量子化パラメータを小さくする。
なお、TM5方式では、マクロブロックを符号化する前に、仮想的なバッファ(仮想バッファ)の充満度をそれぞれのピクチャタイプごとに、次に示す(7)式に従って計算する。
この(7)式において、di 0、dp 0、db 0は、仮想バッファの初期充満度である。Bjはjで表すマクロブロックを含む全マクロブロックの符号化発生ビット数であり、MB_cntはピクチャ内のマクロブロック数である。j=MB_cntとなった時の最終的な充満度(最終充満度)は同じピクチャタイプの次のピクチャの初期充満度にされる。
そして、マクロブロックjの量子化パラメータQjを次に示す(8)式に従って計算する。
この(8)式において、djは実際のバッファの充満度である。
rは反作用パラメータであり、次に示す(9)式に従って計算する。
また、(7)式において、仮想バッファの初期充満度di 0、dp 0、db 0は、次に示す(10)式で与えられている。
そして、TM5方式では、マクロブロックごとに算出するアクティビティactjによって、量子化パラメータの平均値を変化させる。マクロブロックjの空間的アクティビティ値を原画像(符号化する前の画像)の画素値を用いて、4つの輝度フレーム構造のサブブロックと4つの輝度フィールド構造のサブブロックから、次に示す(11)式に従って計算する。
この(11)式において、各サブブロックvblknは次に示す(12)式で与えられており、さらに(12)式におけるp_meannはその次に示す(13)式で与えられている。
この(13)式において、Pnkは、n番目の原画像における8×8ブロック(サブブロック)のサンプル値である。平均的なアクティビティ値avg_actからの偏りによって、アクティビティactjを、[2,1/2]の範囲内に正規化した係数N_actjを、次に示す(14)式に従って計算する。
この(14)式において、平均的なアクティビティ値avg_actは、符号化する最後の画像のact
jの平均値であり、最初の画像では、avg_act=400となっている。そして、このアクティビティact
jを、[2,1/2]の範囲内に正規化した係数N_act
jを用いて、mquant(量子化パラメータ)を次に示す(15)式に従って計算する。
この(15)式において、Qjは量子化パラメータであり、mquantは[1,31]の範囲に正規化される。アクティビティactjが小さいマクロブロックは、画像の平坦領域となる。この画像の平坦領域は、人間の視覚特性上、当該視覚によって検知されやすく、ノイズに敏感な領域であるといえるので、割り当てる情報量を多めにしないと、画質が劣化してしまう。このため、TM5方式では、画像の平坦領域に、ビットレートを高くするように量子化パラメータが割り当てられている(細かな量子化ステップが割り当てられている)。
逆に、アクティビティactjが大きいマクロブロックは、画像のテクスチャが細かい、輝度変化の激しい領域となる。この輝度変化の激しい領域は、多少、原画像との差が大きくても人間の視覚によって検知されにくいので、割り当てる情報量をそれほど多くしなくても画質が保てる。このため、TM5方式では、輝度変化の激しい領域に、ビットレートを低くするように量子化パラメータが割り当てられている(粗い量子化ステップが割り当てられている)。
これまで説明したTM5方式のように、GOPを固定長にして、動画像の符号化を行う方式では、GOP内でシーンチェンジがある場合、シーンチェンジ直後の画像がIピクチャでない場合(PピクチャかBピクチャ)、動き予測がほとんど当たらず、さらに、シーンチェンジ直後の画像は強制的にイントラ符号化されてしまう、つまり、本来IピクチャでないPピクチャやBピクチャであるにも拘わらずイントラ符号化されてしまうので、発生情報量が増大してしまう。このため、GOP内でビットレート制御が破綻し、シーンチェンジ後の残りの画像に割り当てる情報量が極端に低下して、著しい画質の劣化が生じる。
こういった事態を回避するために、シーンチェンジを検出して、シーンチェンジ直後の画像をIピクチャとして、新しいGOPの始めの画像にして、ビットレートを制御する方法が開示されている(例えば、特許文献1、特許文献2、特許文献3)。
ISO/IEC 11172−2の規格書 全頁
ISO/IEC 13818−2の規格書 全頁
ISO/IEC 14496−2の規格書 全頁
ITU−T Rec.H.261の規格書 全頁
ITU−T Rec.H.263の規格書 全頁
ITU−T Rec.H.264|ISO/IEC 14496−10 Advanced Video Codingの規格書 全頁
特開平9−284770号公報
特開2000−10263号公報
特開2003−32691号公報
しかしながら、特許文献1、特許文献2、特許文献3に開示されている、シーンチェンジ直後の画像をIピクチャとして、新しいGOPの始めの画像にして、ビットレートを制御する方法(特許文献に開示されている従来方法)では、予め1GOP分程度の画像を読み込んでおいて処理を行うので、遅延が生じ、完全なリアルタイム処理を行うことができないという問題がある。
また、特許文献に開示されている従来方法では、動画像中にシーンチェンジが頻発するような場合には、1GOP分の画像の読み込みが間に合わない事態が生じ、動画像を符号化する処理に対応できないという問題がある。
さらに、特許文献に開示されている従来方法では、Iピクチャと、PピクチャおよびBピクチャとの間の情報量の配分が考慮されておらず、画質劣化が生じてしまうという問題がある。
さらにまた、特許文献に開示されている従来方法では、シーンチェンジの発生頻度は動画像の特性や内容に依存することが多いにも拘わらず、動画像を符号化する際に当該動画像の特性や内容が考慮されておらず、符号化処理を行う際に、不必要な処理が発生してしまうおそれがあるという問題がある。
そこで、本発明では、前記した問題を解決し、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる符号化装置および符号化プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、当該動画像のシーンチェンジに応じてビットレートを制御して当該動画像を符号化する符号化装置において、GOP構造予測決定手段を備える構成とした。
かかる構成によれば、符号化装置は、GOP構造予測決定手段によって、シーンチェンジを検出した検出結果と、過去に符号化した結果から予め蓄積したGOPの長さを示すGOP長、このGOP長に含まれているインターピクチャの数および挿入周期とに基づいて、符号化するピクチャタイプを決定する。このGOP構造予測決定手段で、ピクチャタイプ(Iピクチャ、PピクチャまたはBピクチャ)が決定されることで、動画像を符号化する符号化手段では、決定されたピクチャタイプに応じて、ビットレートを制御して、動画像を符号化する。
請求項2に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、当該動画像のシーンチェンジに応じてビットレートを制御して当該動画像を符号化する符号化装置において、シーンチェンジ検出手段と、GOPデータ蓄積手段と、GOP構造予測用データ解析手段と、ピクチャタイプ決定手段と、ピクチャタイプ情報蓄積手段とを備え、前記GOP構造予測データ解析手段は、前記ピクチャタイプ情報蓄積手段から読み出したピクチャタイプに関する情報を参照して、前記GOPデータ蓄積手段に蓄積されている前記GOPデータを読み出し、前記シーンチェンジ検出手段は、前記GOP構造予測用データ解析手段から出力されたGOPデータを参照して、シーンチェンジを検出することを特徴とする。
かかる構成によれば、符号化装置は、シーンチェンジ検出手段によって、入力された動画像のシーンチェンジを検出する。シーンチェンジ検出手段は、例えば、動画像の輝度信号を用いて、つまり、予め設定した枚数連続する画像間の輝度差が予め設定した閾値を超えた場合にシーンチェンジであると検出している。続いて、符号化装置は、GOPデータ蓄積手段によって、GOPの長さを示すGOP長と、このGOP長に含まれているインターピクチャの数および挿入周期とからなるGOPデータを蓄積する。
そして、符号化装置は、GOP構造予測用データ解析手段によって、GOPデータ蓄積手段に蓄積されているGOPデータとGOP構造にかかる動画像の特性を示す入力情報とに基づいて、入力された動画像のGOP構造を予測する。つまり、符号化した画像それぞれについて、GOP長を変更した結果を蓄積しておき、このGOP長と入力情報とに基づいて、GOP構造を予測している。このGOP構造とは、GOPを構成するピクチャ(フレーム)の総枚数と、PピクチャおよびBピクチャの枚数と、これらの挿入周期とを示したものである。
そして、符号化装置は、ピクチャタイプ決定手段によって、シーンチェンジ検出手段で検出された検出結果と、GOP構造予測用データ解析手段で予測されたGOP構造とに基づいて、動画像のピクチャタイプを決定する。また、符号化装置は、ピクチャタイプ情報蓄積手段に、ピクチャタイプ決定手段で決定されたピクチャタイプに関する情報を蓄積する。
そして、符号化装置は、GOP構造予測データ解析手段によって、符号化対象となる動画像が入力されると、この入力された動画像のGOP構造を予測するために、ピクチャタイプ情報蓄積手段からピクチャタイプに関する情報を読み出すと共に、読み出したピクチャタイプに関する情報を参照して、GOPデータ蓄積手段からGOPデータを読み出す。
そして、符号化装置は、入力された動画像について、シーンチェンジ検出手段によって、GOP構造予測用データ解析手段で予測されて出力されたGOPデータを参照して、シーンチェンジを検出する。そしてさらに、このシーンチェンジ検出手段で検出された検出結果に基づいて、ピクチャタイプ決定手段によって、ピクチャタイプを決定する。つまり、GOP構造予測用データ解析手段で予測されたGOP構造を、仮決定したGOP構造として、シーンチェンジを検出すると共に、ピクチャタイプを決定し、これらをGOP構造の予測にフィードバックさせて、GOP構造を絞り込んでいく。
請求項3に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、このGOPの長さを示すGOP長を可変にして、当該動画像を符号化する符号化装置において、GOPデータ蓄積手段と、GOP構造予測用データ解析手段と、を備える構成とした。
かかる構成によれば、符号化装置は、GOPデータ蓄積手段に、動画像を符号化する際にGOP長が採用された頻度をヒストグラムとして蓄積しておき、GOP構造予測用データ解析手段によって、GOPデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すGOP長を、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。そして、符号化装置は、このレート制御されたレート(ビットレート)に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化する。
請求項4に記載の符号化装置は、請求項3に記載の符号化装置において、前記GOP長の最小値を予め設定し、前記GOP構造予測用データ解析手段が、この最小値より長いGOP長に応じてレート制御することを特徴とする。
かかる構成によれば、符号化装置は、GOP構造予測用データ解析手段によって、GOP長を設定する際に、このGOP長が短くなりすぎないように、最小値より長いGOP長にして、レート制御を行う。つまり、GOP長が極端に短くなると、動画像を符号化する際に発生する発生情報量が多くなり、符号化効率が悪化してしまうので、GOP長の最小値を設けて、この最小値より長いGOP長で、動画像を符号化するようにしている。
請求項5に記載の符号化装置は、請求項3または請求項4に記載の符号化装置において、前記GOP構造予測用データ解析手段が、前記GOPデータ蓄積手段が蓄積している、以前に符号化した動画像のデータに関するヒストグラムを対象にして、前記GOP長を設定することを特徴とする。
かかる構成によれば、符号化装置は、GOP構造予測用データ解析手段によって、以前に符号化した動画像のデータに関するヒストグラムを対象にして、GOP長を設定しているので、様々な長さのGOP長から最頻度のものが設定されることになり、動画像を符号化する際の画質劣化の抑制につながる。
請求項6に記載の符号化装置は、請求項3から請求項5までのいずれか一項に記載の符号化装置において、前記GOPデータ蓄積手段が、以前に符号化した動画像に関して前記GOP長が採用された頻度をヒストグラムとして蓄積する際に、予め設定したデータ量に達した場合は、蓄積した時刻が最古のものから順に除外する蓄積データ量制御手段を備えることを特徴とする。
かかる構成によれば、符号化装置は、蓄積データ量制御手段によって、蓄積した時刻が最古のものから順にヒストグラムが除外されるので、最新のヒストグラム(GOP長の頻度)がGOPデータ蓄積手段に残っていくことになる。
請求項7に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、このGOPの長さを示すGOP長を可変にして、当該動画像を符号化する符号化装置において、前記GOP長の変化を時間の関数として蓄積するGOPデータ蓄積手段と、GOP構造予測用データ解析手段とを備える構成とした。
かかる構成によれば、符号化装置は、GOPデータ蓄積手段に、以前符号化した動画像について、GOP長の変化を時間の関数として蓄積しておき、GOP構造予測用データ解析手段によって、GOPデータ蓄積手段に蓄積されている関数に基づいて、符号化する動画像のGOP長を設定し、この設定したGOP長に応じたレート制御をする。
請求項8に記載の符号化装置は、請求項3から請求項7までのいずれか一項に記載の符号化装置において、シーンチェンジ検出手段と、ピクチャタイプ決定手段と、を備える構成とした。
かかる構成によれば、符号化装置は、シーンチェンジ検出手段によって、GOP構造予測用データ解析手段でGOP長に応じたレート制御を行う前に、動画像のシーンチェンジの検出を行って、ピクチャタイプ決定手段によって、シーンチェンジ検出手段でシーンチェンジであると検出された画像を、GOP構造を成す先頭のイントラピクチャとして決定する。つまり、符号化装置は、シーンチェンジ直後の画像をイントラピクチャとして決定することで、何らかの符号化方式を採用した符号化手段によって、画面内符号化が行われることになる。
請求項9に記載の符号化装置は、請求項8に記載の符号化装置において、前記ピクチャタイプ決定手段が、前記シーンチェンジ検出手段でシーンチェンジであると検出された画像を、前記GOP構造を成す先頭のイントラピクチャとして決定する際に、当該画像の位置より、直前に検出されたGOP構造のGOP長が予め設定したGOP長よりも長いか否かを判定する判定手段を備えることを特徴とする。
かかる構成によれば、符号化装置は、判定手段によって、GOP構造における当該画像の位置より直前に検出されたGOP構造のGOP長が予め設定したGOP長よりも長いか否かを判定し、GOP長よりも長いと判定されなかった場合(GOP長が短い場合)には、GOP構造の先頭としないことで、GOP構造を成す先頭のイントラピクチャの多発を回避(防止)することができる。
請求項10に記載の符号化装置は、請求項3から請求項9までのいずれか一項に記載の符号化装置において、前記GOPデータ蓄積手段が、前記GOP構造を成す前記インターピクチャであるPピクチャおよびBピクチャの枚数と時間方向における位置とを蓄積し、前記GOP構造予測用データ解析手段が、前記PピクチャおよびBピクチャの枚数と時間方向における位置とを参照して、前記GOP長を設定することを特徴とする。
かかる構成によれば、符号化装置は、GOP構造としてPピクチャおよびBピクチャの枚数と時間方向における位置(挿入周期)とをGOPデータ蓄積手段に蓄積しており、これらに基づいて、GOP構造予測用データ解析手段がGOP長を設定している。
請求項11に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、このGOPの長さを示すGOP長を可変にして、当該動画像を符号化する符号化装置において、シーンチェンジ検出手段と、情報量配分手段と、を備える構成とした。
かかる構成によれば、符号化装置は、シーンチェンジ検出手段によって、動画像のシーンチェンジの検出を行って、情報量配分手段によって、このシーンチェンジ検出手段で検出されたシーンチェンジの頻度に基づいて、イントラピクチャであるIピクチャと、インターピクチャであるPピクチャおよびBピクチャとの間の情報量の配分を変更する。
請求項12に記載の符号化装置は、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、このGOPの長さを示すGOP長を可変にして、当該動画像を符号化する符号化装置において、前記動画像を符号化する際に前記GOP長が採用された頻度をヒストグラムとして蓄積すると共に、前記GOP長の変化を時間の関数として蓄積するGOPデータ蓄積手段と、GOP構造予測用データ解析手段とを備える構成とした。
かかる構成によれば、符号化装置は、GOPデータ蓄積手段に、以前符号化した動画像について、GOP長が採用された頻度をヒストグラムとして蓄積すると共に、GOP長の変化を時間の関数として蓄積しており、GOP構造予測用データ解析手段によって、GOPデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すGOP長および関数に基づいて、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。なお、GOP構造予測用データ解析手段によって、GOP長を設定する際に、ヒストグラムの中で最頻度を示すGOP長と、関数から予測できるGOP長の平均値とを比較して、いずれかを選択して、採用すればよい。
請求項13に記載の符号化装置は、請求項1から請求項12までのいずれか一項に記載の符号化装置において、前記動画像が放送番組であることを特徴とする。
かかる構成によれば、動画像が放送番組であるので、当該放送番組を受信した受信側では、伝送路上に問題がなければ、例えば、シーンチェンジが頻発するような場合でも画質劣化の少ない放送番組を視聴することができる。
請求項14に記載の符号化装置は、請求項13に記載の符号化装置において、前記動画像が放送番組である場合に、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用し、前記GOP構造予測用データ解析手段が、前記放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報に基づいて、GOPデータ蓄積手段から読み出すGOPデータを変更することを特徴とする。
かかる構成によれば、符号化装置は、動画像が放送番組である場合に、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用し、GOP長を変化させる情報とすることができる。なお、放送番組と性質が異なる動画像の挿入時間とに関する情報には、例えば、CM、広告の挿入時間や、当該放送番組の次回予告の時間に関する情報等が挙げられる。
請求項15に記載の符号化装置は、請求項13に記載の符号化装置において、前記動画像が放送番組であり、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用する場合に、当該入力情報をEPGから抽出するEPG抽出手段を備え、前記GOP構造予測用データ解析手段は、前記EPG抽出手段で抽出された前記放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報に基づいて、GOPデータ蓄積手段から読み出すGOPデータを変更することを特徴とする。
かかる構成によれば、符号化装置は、EPG抽出手段によって、入力情報をEPGから抽出し、抽出した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、GOP長を変化させる情報として用いている。
請求項16に記載の符号化装置は、請求項13に記載の符号化装置において、前記動画像が放送番組であり、前記入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用する場合に、当該入力情報を検出機能を用いて取得する取得手段を備え、前記GOP構造予測用データ解析手段は、前記取得手段で取得された前記放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報に基づいて、GOPデータ蓄積手段から読み出すGOPデータを変更することを特徴とする。
かかる構成によれば、符号化装置は、取得手段によって、検出機能を介して、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を取得し、取得した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、GOP長を変化させる情報として用いている。なお、検出機能とは、放送番組の性質と異なる性質の動画像を検出する機能であり、例えば、CM検出機能である。
請求項17に記載の符号化装置は、請求項14から請求項16までのいずれか一項に記載の符号化装置において、前記放送番組と性質が異なる動画像の挿入時間が、CM挿入時間であることを特徴とする。
かかる構成によれば、符号化装置は、放送番組の放送時間とCM挿入時間とに関する情報を、GOP長を変化させる情報として用いている。
請求項18に記載の符号化プログラムは、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、このGOPの長さを示すGOP長を可変にして、当該動画像を符号化するために、前記GOP長が採用された頻度をヒストグラムとして蓄積するGOPデータ蓄積手段を備えたコンピュータを、GOP構造予測用データ解析手段として機能させる構成とした。
かかる構成によれば、符号化プログラムは、GOP構造予測用データ解析手段によって、GOPデータ蓄積手段に蓄積されているヒストグラムの中で最頻度を示すGOP長を、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。
請求項19に記載の符号化プログラムは、動画像を、画面内符号化を行うイントラピクチャを先頭に、動き予測処理を伴う画面間符号化を行うインターピクチャが続くGOP構造にして、このGOPの長さを示すGOP長を可変にして、当該動画像を符号化するために、前記GOP長の変化を時間の関数として蓄積するGOPデータ蓄積手段を備えたコンピュータを、GOP構造予測用データ解析手段として機能させる構成とした。
かかる構成によれば、符号化プログラムは、GOP構造予測用データ解析手段によって、GOPデータ蓄積手段に蓄積されている関数に基づいて、符号化する動画像のGOP長を設定し、この設定したGOP長に応じたレート制御をする。
請求項1に記載の発明によれば、予め蓄積したGOPの長さを示すGOP長、このGOP長に含まれているインタピクチャの数および挿入周期に基づいて、ピクチャタイプ(Iピクチャ、PピクチャまたはBピクチャ)を決定し、この決定したピクチャタイプに応じて、ビットレートを制御して、動画像を符号化するので、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項2に記載の発明によれば、予測されたGOP構造を、仮決定したGOP構造として、シーンチェンジを検出すると共に、ピクチャタイプを決定し、これらをGOP構造の予測にフィードバックさせて、GOP構造を絞り込んでいくので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項3、18に記載の発明によれば、以前符号化した動画像について、GOP長が採用された頻度をヒストグラムとして蓄積しておき、蓄積されているヒストグラムの中で最頻度を示すGOP長を、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。そして、このレート制御されたレート(ビットレート)に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項4に記載の発明によれば、GOP長を設定する際に、このGOP長が短くなりすぎないように、最小値より長いGOP長にして、レート制御を行うことで、動画像を符号化する際に発生する発生情報量を抑え、符号化効率の悪化を防止することができる。
請求項5に記載の発明によれば、以前に符号化した動画像のデータに関するヒストグラムを対象にして、GOP長を設定しているので、様々な長さのGOP長から最頻度のものが設定されることになり、動画像を符号化する際の画質劣化を抑制することができる。
請求項6に記載の発明によれば、蓄積した時刻が最古のものから順にヒストグラムが除外されるので、最新のヒストグラム(GOP長の採用された頻度)が残っていくことになり、このヒストグラムを反映して、レート制御を行うことで、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項7、19に記載の発明によれば、以前符号化した動画像について、GOP長の変化を時間の関数として蓄積しておき、蓄積されている関数に基づいて、符号化する動画像のGOP長を設定し、この設定したGOP長に応じたレート制御をする。そして、このレート制御されたレート(ビットレート)に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項8に記載の発明によれば、GOP長に応じたレート制御を行う前に、動画像のシーンチェンジの検出を行って、シーンチェンジであると検出された画像を、GOP構造を成す先頭のイントラピクチャとして決定する。つまり、シーンチェンジ直後の画像をイントラピクチャとして決定することで、何らかの符号化方式を採用した符号化手段によって、画面内符号化が行われるので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項9に記載の発明によれば、シーンチェンジと検出された画像の位置より、直前に検出したGOP構造のGOP長が予め設定したGOP長よりも長いか否かを判定し、GOP長よりも長いと判定されなかった場合には、GOP構造の先頭としないことで、GOP構造を成す先頭のイントラピクチャの多発を回避(防止)することができる。
請求項10に記載の発明によれば、GOP構造としてPピクチャおよびBピクチャの枚数と時間方向における位置(挿入周期)とを蓄積しており、これらに基づいて、GOP長を設定しているので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項11に記載の発明によれば、動画像のシーンチェンジの検出を行って、検出されたシーンチェンジの頻度に基づいて、イントラピクチャであるIピクチャと、インターピクチャであるPピクチャおよびBピクチャとの間の情報量の配分を変更するので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項12に記載の発明によれば、以前符号化した動画像について、GOP長が採用された頻度をヒストグラムとして蓄積すると共に、GOP長の変化を時間の関数として蓄積しており、蓄積されているヒストグラムの中で最頻度を示すGOP長および関数に基づいて、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。そして、このレート制御されたレート(ビットレート)に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
請求項13に記載の発明によれば、動画像が放送番組であるので、当該放送番組を受信した受信側では、伝送路上に問題がなければ、例えば、シーンチェンジが頻発するような場合でも画質劣化の少ない放送番組を視聴することができる。
請求項14に記載の発明によれば、動画像が放送番組である場合に、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を使用し、GOP長を変化させる情報とすることができる。
請求項15に記載の発明によれば、入力情報をEPGから抽出し、抽出した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、GOP長を変化させる情報とすることができる。
請求項16に記載の発明によれば、検出機能を介して、入力情報として、当該放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を取得し、取得した放送番組の放送時間と当該放送番組と性質が異なる動画像の挿入時間とに関する情報を、GOP長を変化させる情報とすることができる。
請求項17に記載の発明によれば、放送番組の放送時間とCM挿入時間とに関する情報を、GOP長を変化させる情報とすることができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈符号化装置の構成〉
図1は、符号化装置のブロック図である。図1に示すように、符号化装置1は、動画像(映像入力信号)のGOP構造を予測し、当該動画像のシーンチェンジに応じて、レート制御(ビットレートを制御)して、当該動画像を符号化するもので、GOP構造予測決定手段3と、符号化処理手段5とを備えている。
GOP構造予測決定手段3は、入力された動画像(映像入力信号)のGOP構造を予測して、符号化する動画像のピクチャタイプを決定するもので、シーンチェンジ検出手段7と、外部入力手段9と、GOPデータ蓄積手段11と、GOP構造予測用データ解析手段13と、ピクチャタイプ決定手段15と、ピクチャタイプ情報蓄積手段17と、蓄積データ量制御手段19とを備えている。
GOP構造とは、GOPを構成するフレーム数(Iピクチャ、PピクチャおよびBピクチャの合計数)、つまり、長さ(GOP長)と、インターピクチャであるPピクチャおよびBピクチャの数と、これらPピクチャおよびBピクチャの挿入周期とを意味している。
シーンチェンジ検出手段7は、GOP構造予測用データ解析手段13から出力されたGOP構造を記述したデータであるGOPデータを参照して、入力された動画像のシーンチェンジを検出するものである。GOP構造予測用データ解析手段13から出力されたGOPデータとは、GOP長と、インターピクチャの数と、インターピクチャの挿入周期とからなる情報である。このGOPデータは、ピクチャタイプ情報蓄積手段17から読み出された、仮決定されたピクチャタイプ情報を参照すると共に、外部情報入力手段9からGOP構造予測用データ解析手段13に出力された外部情報(外部入力1)に基づいて、GOPデータ蓄積手段11から読み出されたものである。
このシーンチェンジ検出手段7は、GOP構造予測用データ解析手段13から出力されたGOPデータを参照した結果、入力された動画像を構成する画像が、GOPの先頭の画像(ピクチャ)であるとした場合、すなわち、Iピクチャ(イントラピクチャ)で符号化される場合、シーンチェンジの検出処理は行わない。また、このシーンチェンジ検出手段7は、GOP構造予測用データ解析手段13から出力されたGOPデータを参照した結果、入力された動画像を構成する画像が、GOPの先頭の画像でないとした場合、すなわち、Iピクチャで符号化されない場合、シーンチェンジの検出処理を行う。
ここでは、シーンチェンジ検出手段7によるシーンチェンジの検出処理として、画像全体(フレーム全体)の画素の平均値を2フレーム間で比較して、平均値の差が予め設定した閾値よりも大きい場合にシーンチェンジであると検出する方法を採用している。この方法では、閾値を当該装置1の外部から与えている。
また、この方法では、1フレームだけ連続するフレームとは性質の異なる画像が挿入される場合(例えば、フラッシュ等)は、シーンチェンジでないにも拘わらず、当該フレームを含む2フレーム間の平均値の差が閾値よりも大きくなって誤検出となってしまう。このため、この1フレーム(フラッシュ等)を区別するために、3フレーム以上の複数枚の画像それぞれで画素値の平均値を計算し、これらの差を計算して、3枚の真ん中フレームの前後フレームにおいて、画素値の平均値の差が小さい場合、フラッシュと判定する処理を行っている。
また、シーンチェンジ検出手段7は、シーンチェンジの検出処理を行った結果、シーンチェンジであるか否かの情報は、シーンチェンジ発生頻度データとして、GOPデータ蓄積手段11に出力される。つまり、シーンチェンジの検出結果として、シーンチェンジ発生頻度データがGOPデータ蓄積手段11に出力される。
そして、シーンチェンジ検出手段7でシーンチェンジであると判定された画像は、ピクチャタイプ決定手段15において、GOP内の時間方向の位置等に応じて、Iピクチャ(イントラピクチャ)に変更される(詳細は後記する)。なお、最終的に決定されたピクチャタイプは、ピクチャタイプ情報蓄積手段17と、符号化処理手段5のビットレート制御手段21に供給されると共に、符号化処理手段5で、イントラ符号化とインター符号化の切替制御に用いられる(詳細は後記する)。
外部情報入力手段9は、外部入力α(入力情報)を入力するもので、EPG抽出手段9aと、取得手段9bとを備えている。この入力情報として用いる情報は、入力された動画像を符号化する際に、この符号化する動画像に関連したものである。
EPG抽出手段9aは、動画像が放送番組である場合に、EPG(Electric Program Guide)を入力して、当該EPGから、当該放送番組の放送時間と当該放送番組と性質の異なる動画像の挿入時間(例えば、CM、広告の挿入時間)に関する情報を、入力情報として、抽出するものである。なお、放送番組と性質の異なる動画像の挿入時間に関する情報には、当該放送番組の次回予告の時間に関する情報も含まれている。以下、ここでは、放送番組と性質の異なる動画像の挿入時間として、CM挿入時間を用いており、このCM挿入時間を例にして説明する。
取得手段9bは、動画像が放送番組であり、当該装置1が放送番組を受信する受信装置に内包されている場合に、この受信装置に備えられているCM検出機能を介して、当該放送番組の放送時間とCM挿入時間に関する情報を、入力情報として取得するものである。
なお、動画像が放送番組である場合、放送番組の性質(放送に割り当てられている時間配分等)が動画像の性質と類似していることが多く、放送局内で用いている番組情報、例えば、放送番組の放送時間や、CM挿入時間(広告挿入の時間)や、次回予告の時間に関する情報を、当該装置1の入力情報に用いることができる。特に、デジタル放送では、番組情報を放送局内で管理しているため、番組を符号化する際に、これらの番組情報を、入力情報に利用することは容易である。この外部情報入力手段9から入力情報として入力された番組情報の詳細と利用の仕方について説明する。
放送局から放送される番組(放送番組)は、通常、放送される時間枠(放送番組の送出時間+α分間)が決められており、この放送番組の送出時間の前後や途中にCM(広告)が挿入されることが多い。また、放送番組の冒頭はタイトル画面であったり、放送番組の終了後は次回番組の予告であったり、他番組の紹介等であったりする。これらの広告、タイトル画面、次回番組の予告または他番組の紹介の性質は、放送番組(番組の本編)の性質と異なっている。例えば、広告の動画像は短時間で多くの情報を提示するため、カット時間が短い傾向にあり、符号化する際には、GOPを短めにしたほうがレート制御の面で有利である。
そこで、GOP構造予測決定手段3では、外部情報入力手段9から入力された入力情報(番組情報)を、GOP長を変化させる情報の一つにしている。また、この入力情報として、EPG抽出手段9aにより、EPG(Electric Program Guide)を利用することも可能である。このEPGを利用すると、放送局内だけでなく、放送番組を受信した受信側でも、放送番組を蓄積した後で、レート制御を利用して、再符号化する際にも適用することができる。
或いは、この外部情報入力手段9によって入力情報を直接入力する代わりに、放送番組を受信した受信側において、受信装置やビデオデッキに搭載されているCM検出機能(検出機能の一種)を介して、取得手段9bにより、放送番組の放送時間とCM挿入時間とを、入力情報として、取得することも可能である。なお、CM検出機能は、音声多重信号の変化を検出することで、放送番組(番組の本編)かCM(広告)かどうかを検出する機能である。
GOPデータ蓄積手段11は、GOPデータを蓄積するもので、一般的なハードディスクやメモリ等の記録媒体によって構成されている。GOPデータは、過去の(以前に)符号化された動画像について、GOP長(GOPの長さ)を統計処理した統計情報であり、GOP長と、インターピクチャの数と、インターピクチャの挿入周期とからなる情報を含み、且つ、当該GOP長が採用された頻度を含むものである。
GOP長は、例えば、動画像が放送番組の場合、チャンネル切替(チャンネルホッピング)時や受信側の受信装置で電源投入時に即座に画像再生できるようにするため、または、伝送路上での電波障害等によるエラーから即座に復帰できるようにするために、比較的短いものが多い。つまり、符号化した動画像には、比較的に短い周期でIピクチャ(イントラピクチャ)が挿入されるものが多い。具体的なIピクチャの挿入間隔としては、例えば、放送番組の中で、衛星波や地上波を用いたデジタル放送の放送番組の場合、MPEG−2符号化では、Iピクチャの挿入間隔は、0.5秒とされており、フレームレートが30フレーム/秒であるので、フレーム数として、15枚に固定されていることになる。
ちなみに、地上波を利用した携帯端末向けの低ビットレート小画面サービス(1セグメント放送)では、GOP長に自由度があり、通常2秒間隔、少なくとも5秒に1回Iピクチャ(イントラピクチャ)を挿入する規定になっている。例えば、フレームレートが15フレーム/秒であると、5秒に1回イントラピクチャが挿入される場合であっても、GOP長は75枚となる。
このGOPデータ蓄積手段11は、GOPデータを、GOP長のヒストグラムとして蓄積しており、符号化処理手段5による符号化処理が実行されるたびに新たなGOPデータを追加していく(蓄積していく)。
また、このGOPデータ蓄積手段11は、GOPデータとして、符号化した動画像のGOP長を時間順に蓄積することも可能である。
さらに、GOPデータ蓄積手段11は、GOPデータとして、GOP長だけでなく、GOP内に配置されるPピクチャおよびBピクチャの数(枚数)と、時間方向での位置とを蓄積している。なお、これらのGOP内に配置されるPピクチャおよびBピクチャの数と、時間方向での位置とは、GOP長と同様な方法で、GOP構造予測用データ解析手段13によって予測することができる。
さらにまた、GOPデータ蓄積手段11は、Iピクチャ(イントラピクチャ)にしないものの、シーンチェンジと判定されたピクチャの情報、すなわち、各GOP内のシーンチェンジの発生頻度の情報(シーンチェンジ発生頻度データ)も蓄積している。なお、このシーンチェンジの発生頻度の情報は、シーンチェンジの発生頻度に応じたGOP長の変更処理(後記する)で利用される。
ここで、図3および図4を参照(適宜、図1参照)して、GOPデータ蓄積手段11に蓄積されているGOPデータの例について説明する。図3は、GOPデータに含まれるGOP長の発生頻度をヒストグラムで示した図である。図4は、経過時間(時間推移)によって変化する、GOPデータに含まれるGOP長をグラフで示した図である。
図3に示した、発生頻度が最も高いGOP長、つまり、最頻度のGOP長が、GOP構造予測用データ解析手段13によって選択され出力される。なお、GOP長があまり短いと、情報量を多く必要とするイントラピクチャの頻度が高くなる(イントラピクチャが増加してしまう)。そうすると、符号化処理手段5や、符号化された動画像を受信する受信側で復号化する装置(復号化装置[図示せず])のバッファに大きな負担が生じてしまうか、送信される情報量が制限されかすることで、イントラピクチャの画質が低下してしまうことになる。
このため、GOPデータ蓄積手段11では、蓄積データ量制御手段19によって、GOP長の最小値が設定されており、極端に短いGOP長が採用されないようにしている。なお、このGOP長のヒストグラム(GOPデータ)の更新の仕方には、単純に新しいGOPデータを全て加えていく方法や、ある一定値にデータ数(データ量)を制限し、古い情報を削除する方法等がある。
ある一定値にデータ数(データ量)を制限し、古い情報を削除する方法の場合、例えば、データ数の制限を1GOP分にして、古い情報(最古の情報)から削除するようにすると、直前のGOPのGOPデータのみを蓄積することが可能になる。つまり、動画像の性質上、時間的に近い情報が有効になるので、このような処理を実行すると、符号化する動画像の画質劣化を防止することができる。
図4に示した、動画像の経過時間(時間推移)によって変化するGOP長の平均値に基づいて、GOP構造予測用データ解析手段13によって、次のGOP長が予測されて出力される。つまり、GOPデータ蓄積手段11は、GOP長の変化を経過時間の関数として蓄積している。
図1に戻って符号化装置1の構成の説明を続ける。
GOP構造予測用データ解析手段13は、外部情報入力手段9やGOPデータ蓄積手段11から供給される情報(入力情報[外部入力α]、GOPデータ)を解析して、GOP構造を仮決定するものである。GOP構造予測用データ解析手段13は、GOPデータ蓄積手段11がGOP長のヒストグラム(図3)を蓄積している場合には、GOP長のヒストグラムが過去(以前)に符号化した動画像がどの程度のGOP長を多く含んでいるのかを示すものであるので、次に符号化する動画像のGOPを決定する際に、当該ヒストグラムの最頻値を利用することで、最も出現しやすいGOP長(GOP構造)を予測することができる。
また、GOP構造予測用データ解析手段13は、GOPデータ蓄積手段11が1つのGOP長(最新のGOP長、直前のGOP長)のみ蓄積している場合、このGOP長を利用することができる。なお、GOP長の最頻値ではなく、GOP長の平均値を利用することができる。
さらに、このGOP構造予測用データ解析手段13では、GOPデータ蓄積手段11が、GOP長の変化を経過時間の関数(動画像の経過時間(時間推移)とともに変化するGOP長、図4)として蓄積している場合には、解析処理する手段として、カルマンフィルタ等を採用しており、このカルマンフィルタの予測を利用している。
GOP構造予測用データ解析手段13は、GOP長のヒストグラムと、GOP長の経過時間の関数とを組み合わせて、GOP長(GOP構造)を予測することも可能である。例えば、GOP構造予測用データ解析手段13は、カルマンフィルタによる予測を基本として、このカルマンフィルタによって予測された値が、GOP長のヒストグラムによって、所定範囲内にあるか否かを検証することで、これまでのデータとかけ離れていることを防ぐことができる。
この実施形態では、このGOP構造予測用データ解析手段13は、通常、外部入力1(入力情報)とGOPデータとを併用することで、GOP構造を予測している。つまり、GOP構造予測用データ解析手段13は、入力情報より動画像の大まかな傾向(例えば、シーチェンジは多いか否か等)によって、仮のGOP長を定めておき、GOPデータ蓄積手段11に蓄積されている実際のGOPデータで、仮のGOP長を修正することが可能である。
或いは、GOP構造予測用データ解析手段13は、予めGOPデータ蓄積手段11が外部情報(外部入力β)による分類に従って、GOPデータを分けて蓄積している場合、つまり、外部情報(外部入力β1:ジャンル分類情報)が動画像を、当該動画像の種類(例えば、動画像が放送番組であった場合、放送番組のジャンル[ニュース番組、ドキュメンタリー、ドラマ、スポーツ番組等])によって分類しており、この分類(ジャンル)に従って、GOPデータを分けて蓄積している場合、別の外部情報(外部入力β2:ジャンル指定情報)によって、入力した動画像に対応したGOPデータに切り替えることも可能である。
なお、符号化装置1は、GOP長を一定に保つ場合、GOPデータや入力情報を無視して、予め設定したGOP長に固定することも可能である。
ピクチャタイプ決定手段15は、シーンチェンジ検出手段7でシーンチェンジであると検出された画像をイントラ符号化するIピクチャ(イントラピクチャ)と決定すると共に、それ以外の画像をインター符号化するPピクチャおよびBピクチャ(インターピクチャ)と決定するもので、判定手段15aと、情報量配分手段15bとを備えている。
判定手段15aは、シーンチェンジ検出手段7でシーンチェンジであると検出された画像を、GOP構造を成す先頭のIピクチャ(イントラピクチャ)と決定する際に、当該画像の位置より、直前に検出されたGOP構造のGOP長が予め設定したGOP長よりも長いか否かを判定するものである。
この判定手段15aによって、シーンチェンジであると検出された画像の位置により、直前に検出されたGOPのGOP長が予め設定したGOP長よりも長いと判定されない場合(直前に検出されたGOPのGOP長が短い場合)、シーンチェンジ検出手段7でシーンチェンジであると検出された画像は、誤検出の場合があるとして、GOP構造を成す先頭のIピクチャ(イントラピクチャ)としない。つまり、ピクチャタイプ決定手段15は、判定手段15aによる判定結果に従って、予め設定したGOP長が確保されるまで、Iピクチャと決定しない、すなわち、シーンチェンジとはみなさない。
情報量配分手段15bは、シーンチェンジ検出手段7でシーンチェンジであると検出された画像の頻出度(シーンチェンジの頻出度)に基づいて、Iピクチャ(イントラピクチャ)と、PピクチャおよびBピクチャ(インターピクチャ)との情報量の配分を行うものである。
このピクチャタイプ決定手段15は、最終的に決定されたピクチャタイプ情報(ピクチャ[ピクチャタイプ]がIピクチャであるか、Pピクチャであるか、Bピクチャであるかを示す情報)を、符号化処理手段5およびピクチャタイプ情報蓄積手段17に出力すると共に、切替制御信号(a)(b)(c)を符号化処理手段5に出力するものである。
この切替制御信号は、ピクチャタイプ情報に従って、符号化処理手段5に設けられている3個のスイッチのオンオフを制御するためのもので、ピクチャタイプがIピクチャである場合に、3個のスイッチがオフされることで、符号化処理手段5の動き推定手段25および動き補償手段27による動き補償処理を行わないようにするものである。
ピクチャタイプ情報蓄積手段17は、ピクチャタイプ決定手段15で最終的に決定されたピクチャタイプ情報(符号化する画像の各ピクチャタイプ)を蓄積するもので、一般的なハードディスクやメモリ等の記録媒体によって構成されている。そして、このピクチャタイプ情報蓄積手段17に蓄積されているピクチャタイプ情報は、GOP構造ごとにまとめられて、GOP構造予測用データ解析手段13によって読み出される。
蓄積データ量制御手段19は、外部情報(外部入力β3:データ量指定情報)によって、GOPデータ蓄積手段11に蓄積するGOPデータのデータ量を制御するものである。つまり、この蓄積データ量制御手段19は、GOPデータ蓄積手段11がGOP長の頻度をヒストグラムとして蓄積している際に、GOPデータが予め設定したデータ量に達した場合に、蓄積時間の長いものから順に削除するものである。
ここで、GOP構造予測決定手段3におけるシーンチェンジの検出(シーンチェンジ検出手段7の処理)とイントラピクチャへの変更(ピクチャタイプ決定手段15の処理)とについて説明する。なお、これらシーンチェンジ検出手段7とピクチャタイプ決定手段15とは、ピクチャタイプ情報蓄積手段17、GOPデータ蓄積手段11およびGOP構造予測用データ解析手段13を介在させたループを形成しており、入力された動画像に係る情報がこのループを循環することで、ピクチャタイプを決定している。
まず、シーンチェンジ検出手段7において、入力された動画像の中で、シーンチェンジであると判定された画像は、それ以前の画像(直前の画像)と性質が異なるため、それ以前の画像に基づいて動き推定がほとんど当たらず当該画像内のほとんどのブロックが符号化処理手段5にてイントラ符号化されることになる。
このような場合に、ピクチャタイプ決定手段15において、ピクチャ自体をイントラピクチャに変更し、GOPの先頭として、この時点でGOP長を変更する場合と、ピクチャ自体をイントラピクチャに変更せず、ブロックごとにイントラ符号化またはインター符号化するかを判定する場合とを設定することができる。
例えば、シーンチェンジ検出手段7でシーンチェンジを検出するたびに、その都度、シーンチェンジと検出された画像をイントラピクチャに変更すると、GOP長が短くなりすぎる場合があり、符号化処理手段5において、ビットレートの制御が困難になる事態が発生する。
こういった事態を防止するために、判定手段15aが設けられており、前記したように、ピクチャタイプ決定手段15では、判定手段15aにより、予め設定したGOP長(GOP長の最小値)よりも短いGOP長とならないように、シーンチェンジと検出された画像がイントラピクチャに決定される。
なお、GOP構造予測決定手段3では、GOPデータ蓄積手段11に、シーンチェンジの発生頻度の情報(シーンチェンジ発生頻度データ)が蓄積されており、このシーンチェンジの発生頻度の情報を利用して、入力された動画像の中(次のGOP長の画像の中)で発生するシーンチェンジの回数を予測し、例えば、入力された動画像(次のGOP)内で予測よりも多くシーンチェンジが発生した場合、その時点で、GOPの先頭とする処理が実行される。
ここまで、シーンチェンジが検出された画像をイントラピクチャに変更して、GOP長を変更することについて説明したが、さらに、ピクチャタイプ決定手段15において、情報量配分手段15bによって、GOP長を変更せずに、ビットレート制御の処理内でピクチャタイプごとの情報量(配分情報量)を変更することで、符号化処理手段5による符号化処理を効率よくする仕方もある。
この場合におけるGOP構造予測決定手段3は、TM5の処理で説明したGOP長を固定とした場合の固定値で利用しているKp、Kb(数式(3)参照)の値を制御する。これらKp、Kbの値はIピクチャ、PピクチャおよびBピクチャの情報量配分比を決定するパラメータである。そして、このGOP構造予測決定手段3は、シーンチェンジ検出手段7で検出されるシーンチェンジの発生頻度が高くなった場合に、GOPの先頭のIピクチャで配分情報量が多くなると、続くPピクチャやBピクチャへの配分情報量が減少してしまうため、Kp、Kbの値を小さくしてPピクチャおよびBピクチャの配分情報量を増加させる。また、このGOP構造予測決定手段3は、シーンチェンジ検出手段7で検出されるシーンチェンジの発生頻度が変わらない場合には、Kp、Kbの値を変更しないようにして、符号化処理手段5によるレート制御を実行させる。
符号化処理手段5は、GOP構造予測決定手段3から出力されたピクチャタイプ情報と切替制御信号に基づいて、レート制御(ビットレート制御)を実行しつつ、入力された動画像(映像入力信号)を符号化するもので、ビットレート制御手段21と、変換手段23と、動き推定手段25と、動き補償手段27と、フレーム記憶手段29と、量子化手段31と、逆量子化手段33と、逆変換手段35と、エントロピー符号化手段37と、減算手段39と、加算手段41とを備えている。
また、この符号化処理手段5内には、3個のスイッチが設けられており、GOP構造予測決定手段3のピクチャタイプ決定手段15から出力された切替制御信号(a)(b)(c)によって、入力される動画像のピクチャタイプをインターピクチャとする際に、これら3個のスイッチがオンにされて、符号化処理手段5の動き推定手段25および動き補償手段27による動き補償処理が行われる。
ビットレート制御手段21は、ピクチャタイプ情報に基づいて、ビットレート制御を行うものである。このビットレート制御手段21は、前記したTM5のようなレート制御(ビットレート制御)のアルゴリズムによって、ピクチャタイプ情報に基づいて、量子化手段31で用いる量子化パラメータを決定するものである。
変換手段23は、入力された画像そのまま(Iピクチャにする場合)、または、動き補償手段27から出力された動き補償画像が減算手段39で入力された画像から減算された画像(PピクチャまたはBピクチャにする場合)に、DCT(Discrete Cosine Transform)処理やwavelet変換等の変換処理を施すものである。DCT処理において、MPEG−2やMPEG−4では8×8画素サイズのブロックタイプで行われることが多く、AVC/H.264では4×4画素サイズや8×8画素サイズで行われる等、使用する方式によって、画素サイズや処理の仕方が異なる。この変換手段23によって、入力された動画像は、係数信号に変換され、量子化手段31に出力される。
動き推定手段25は、GOP構造予測決定手段3のピクチャタイプ決定手段15でピクチャタイプがPピクチャまたはBピクチャ、すなわち、インターピクチャの場合にフレーム記憶手段29に蓄積された既に符号化済みのピクチャが復号された復号画像を参照画像として、各マクロブロックやマクロブロックを分割したブロック単位で動きベクトルを推定するものである。
この動き推定手段25による動きベクトルの推定は、ブロックマッチング法や勾配法が用いられている。また、この動き推定手段25で推定された動きベクトルは、動き補償手段27に出力される。さらに、動きベクトルは、動き補償手段27、変換手段23および量子化手段31を介して、エントロピー符号化手段37に入力され、量子化手段31で量子化された係数と共に符号化されてビットストリームとして出力される。
動き補償手段27は、動き推定手段25から出力された動きベクトルに基づいて、動き補償を行って、動き補償画像を生成するものである。この動き補償画像は、GOP内の画像内の被写体の動きを補償するための画像である。
フレーム記憶手段29は、加算手段41から出力された復号画像(参照画像)を記憶するもので、一般的なメモリ等によって構成されている。
量子化手段31は、ビットレート制御手段21から出力された量子化パラメータに基づいて、変換手段23から出力された係数信号を量子化して、量子化した係数(以下、量子化係数という)として、エントロピー符号化手段37に出力するものである。また、この量子化手段31は、量子化係数を、画像をインターピクチャに符号化するインター符号化での動き推定、動き補償処理に用いるために、逆量子化手段33に出力する。
逆量子化手段33は、量子化手段31から出力された量子化係数を逆量子化するものである。つまり、逆量子化手段33は量子化係数を逆量子化した係数信号を逆変換手段35に出力するものである。
逆変換手段35は、逆量子化手段33から出力された係数信号を逆変換するものである。つまり、逆変換手段35は係数信号を逆変換した逆変換した画像を、加算手段41に出力するものである。
エントロピー符号化手段37は、量子化手段31から出力された量子化係数を圧縮符号化し、ビットストリーム(ビットストリーム信号)として、外部に出力するものである。
減算手段39は、入力された画像から、動き補償手段27で生成された動き補償画像を減算して変換手段23に出力するものである。つまり、入力された元々の画像(原画像)から動き補償画像を減算した残差となる信号(以下、残差画像とする)が変換手段23に出力される。
加算手段41は、動き補償手段27から出力された動き補償画像と、逆変換手段35から出力された逆変換した画像とを加算して、復号画像とするものである。なお、GOP構造予測決定手段3のピクチャタイプ決定手段15で決定されたピクチャがBピクチャの場合、この加算手段41で生成された復号画像が、動き推定手段25において、動き推定を行う際に参照画像にならないことがあり、この場合、逆量子化手段33および逆変換手段35の処理を実行する必要はない。
符号化装置1によれば、ピクチャタイプ決定手段3によって、ピクチャタイプ(Iピクチャ、PピクチャまたはBピクチャ)が決定されることで、動画像を符号化する符号化処理手段5では、決定されたピクチャタイプに応じて、ビットレートを制御して、動画像を符号化するので、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
また、符号化装置1によれば、GOP構造予測用データ解析手段13によって、予測されたGOP構造を、仮決定したGOP構造として、シーンチェンジ検出手段7によって、シーンチェンジを検出すると共に、ピクチャタイプ決定手段15によって、ピクチャタイプを決定し、これらをGOP構造の予測にフィードバックさせて、GOP構造を絞り込んでいくので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
さらに、符号化装置1によれば、以前符号化した動画像について、GOPデータ蓄積手段11に、GOP長が採用された頻度をヒストグラムとして蓄積しておき、GOP構造予測用データ解析手段13によって、蓄積されているヒストグラムの中で最頻度を示すGOP長を、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。そして、このレート制御されたレート(ビットレート)に従って、符号化処理手段5によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
さらに、符号化装置1によれば、ピクチャタイプ決定手段15の判定手段15aによって、GOP長を設定する際に、このGOP長が短くなりすぎないように、最小値より長いGOP長にして、レート制御を行うことで、動画像を符号化する際に発生する発生情報量を抑え、符号化効率の悪化を防止することができる。
さらにまた、符号化装置1によれば、以前に符号化した動画像のデータに関するヒストグラムを対象にして、GOP構造予測用データ解析手段13によって、GOP長を設定しているので、様々な長さのGOP長から最頻度のものが設定されることになり、動画像を符号化する際の画質劣化を抑制することができる。
さらにまた、符号化装置1によれば、蓄積データ量制御手段19によって、蓄積された時刻の最古のものから順にヒストグラムが除外されるので、最新のヒストグラム(GOP長の頻度)が残っていくことになり、このヒストグラムを反映して、レート制御を行うことで、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
そしてまた、符号化装置1によれば、以前符号化した動画像について、GOPデータ蓄積手段11に、GOP長の変化を時間の関数として蓄積しておき、GOP構造予測用データ解析手段13によって、蓄積されている関数に基づいて、符号化する動画像のGOP長を設定し、この設定したGOP長に応じたレート制御をする。そして、このレート制御されたレート(ビットレート)に従って、何らかの符号化方式を採用した符号化手段によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
そしてまた、符号化装置1によれば、GOP長に応じたレート制御を行う前に、動画像のシーンチェンジの検出を行って、シーンチェンジであると検出された画像を、ピクチャタイプ決定手段15によって、GOP構造を成す先頭のイントラピクチャとして決定する。つまり、シーンチェンジ直後の画像をイントラピクチャとして決定することで、符号化処理手段5によって、画面内符号化が行われるので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
さらに、符号化装置1によれば、GOPデータ蓄積手段11に、GOP構造としてPピクチャおよびBピクチャの枚数と時間方向における位置(挿入周期)とを蓄積しており、これらに基づいて、GOP長を設定しているので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
また、符号化装置1によれば、ピクチャタイプ決定手段15の情報量配分手段15bによって、動画像のシーンチェンジの検出を行って、検出されたシーンチェンジの頻度に基づいて、イントラピクチャであるIピクチャと、インターピクチャであるPピクチャおよびBピクチャとの間の情報量の配分を変更するので、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
さらに、符号化装置1によれば、GOPデータ蓄積手段11に、以前符号化した動画像について、GOP長が採用された頻度をヒストグラムとして蓄積すると共に、GOP長の変化を時間の関数として蓄積しており、GOP構造予測用データ解析手段13によって、蓄積されているヒストグラムの中で最頻度を示すGOP長および関数に基づいて、符号化する動画像のGOP長として設定し、この設定したGOP長に応じたレート制御をする。そして、このレート制御されたレート(ビットレート)に従って、符号化処理手段5によって、動画像を符号化するので、シーンチェンジが頻発するような場合でも対応することができ、符号化する際に遅延や不要な処理が生じることなく、符号化後の画像に画質劣化が生じることなく、動画像を符号化することができる。
また、符号化装置1によれば、動画像が放送番組であるので、当該放送番組を受信した受信側では、伝送路上に問題がなければ、例えば、当該放送番組にシーンチェンジが頻発するような場合でも画質劣化の少ない放送番組を視聴することができる。さらに、符号化装置1によれば、放送番組を有する特性を放送局内で管理する情報、つまり、放送局内で用いている番組情報、例えば、放送番組の放送時間や、CM挿入時間(広告挿入の時間)や、次回予告の時間等を入力情報として利用することで、これらの入力情報を、GOP長を変化させる情報とすることができる。
さらにまた、符号化装置1によれば、EPG抽出手段9aによって、EPGから抽出した放送番組の放送時間や、CM挿入時間(広告挿入の時間)や、次回予告の時間等を入力情報として、利用することで、これらの入力情報を、GOP長を変化させる情報とすることができる。また、符号化装置1によれば、取得手段9bによって、CM検出機能(図示せず)を介して、放送番組の放送時間や、CM挿入時間(広告挿入の時間)や、次回予告の時間等を取得して、入力情報とすることで、これらの入力情報を、GOP長を変化させる情報とすることができる。
〈符号化装置の動作〉
次に、図2に示すフローチャートを参照して、符号化装置1の動作を説明する(適宜、図1参照)。
まず、符号化装置1は、GOP構造予測決定手段3のGOP構造予測用データ解析手段13によって、外部情報入力手段9に入力された外部情報とGOPデータ蓄積手段11に蓄積されているGOPデータとに基づいて、GOP構造を予測する(ステップS1)。続いて、符号化装置1は、GOP構造予測用データ解析手段13によって、予測したGOP構造において、GOP先頭(イントラピクチャ)であるか否かを判定し(ステップS2)、GOP先頭(イントラピクチャ)でないと判定した場合(ステップS2、No)、シーンチェンジ検出手段7によって、シーンチェンジを検出する(ステップS3)。
そして、符号化装置1は、GOP構造予測決定手段3のピクチャタイプ決定手段15によって、ピクチャタイプ(PピクチャまたはBピクチャ)を決定する(ステップS4)。また、ステップS2にて、符号化装置1は、GOP先頭(イントラピクチャ)であると判定した場合(ステップS2、Yes)、ピクチャタイプ(Iピクチャ)を決定する(ステップS4)。
そして、符号化装置1は、符号化処理手段5によって、符号化処理を実行し(ステップS5)、GOP内の画像(ピクチャ)の符号化が終了したか否かを判定する(ステップS6)。符号化装置1は、GOP内の画像(ピクチャ)の符号化が終了したと判定しなかった場合(ステップS6、No)、GOP構造予測決定手段3のGOP構造予測用データ解析手段13によりピクチャタイプ情報の解析を実行し、ステップS2に戻る。つまり、GOP構造予測決定手段3において、ピクチャタイプ情報蓄積手段17、GOPデータ蓄積手段11、GOP構造予測用データ解析手段13、シーンチェンジ検出手段7およびピクチャタイプ決定手段15のループによる処理が繰り返される。
その後、符号化装置1は、入力されたすべての動画像について、符号化が終了したか否かを判定し(ステップS8)、符号化が終了していないと判定された場合(ステップS8、No)、ステップS1に戻り、符号化が終了したと判定された場合(ステップS8、Yes)、動作を終了する。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、符号化装置1について説明したが、当該装置1の各構成の処理を実行可能に一般的または特殊なコンピュータ言語で記述した符号化プログラムとすることも可能である。