(発明の基礎となった知見)
従来の画像符号化方式においては、予測画像の生成には、イントラ予測では隣接ブロックの画素情報が利用され、インター予測では平行移動に関する情報が利用されている。そのため、イントラ予測では同一画面内に似たような領域があっても、その領域が対象ブロックの周辺に位置しない場合、その領域の情報を利用できない。また、インター予測では拡大縮小又は回転などの変形を行うことで画像が類似する場合であっても、その情報を利用できない。
また、インター予測においては、動き情報としてアフィン変換などの高次な動き情報を利用する手法が検討されている。これにより、幾何変換を動き情報に適用することで、被写体の拡大縮小又は回転変形なども表現できる。これにより、生成される予測画像の品質が向上する。また、予測単位が大きくなることにより、符号化効率が向上される。
しかしながら、アフィン変換では平行移動の他に拡大縮小、回転及びせん断の3種類の変形を表現する必要があるため、少なくとも6次元の情報が必要である。また、射影変換を表現するためには少なくとも8次元の情報が必要である。これらのように、高次元な動き情報を活用する場合、動き情報の推定処理に必要な計算量の増加sるという問題が生じる。
本実施の形態では、コンピュータビジョンで活用されている技術を応用することで、このような課題の解決を図る。
近年、コンピュータビジョンに関連する技術が進歩してきており、SIFT(Scale−Invariant FeatureTransform)及びORB(Oriented FAST and Rotated BREIF)などの手法を代表とする特徴点及び特徴量抽出手法が数多く提案されている。これらの特徴点及び特徴量抽出手法は、信頼度の高い画像中のエッジ又はコーナー部分に関して特徴点を抽出し、抽出された特徴点の周辺の画素情報及び勾配情報などの大きさ又は分布を利用して特徴量と呼ばれる情報を生成する。以下では、このような特徴量を局所特徴量とも呼ぶ。
これらの特徴量抽出手法は、拡大縮小及び回転などにロバストであるという特徴を持っているものが多い。そのため、特徴点情報は、回転量(回転角)及びスケール値と言われるパラメータを含む。また、各特徴点での特徴量を比較し、特徴量間のユークリッド距離などの距離が小さい場合、対応点と呼ばれる関係が設定される。この特徴点群から対応点を探索する特徴点マッチング処理は、パノラマ画像の生成などの処理にも活用されている。これらの特徴量に関する技術を応用することで、予測画像生成手法において、既存手法より高精度の予測画像生成できる。
本発明の一態様に係る予測画像生成方法は、対象ブロックの予測画像を生成する予測画像生成方法であって、再構築画像に含まれる、各々が局所特徴量を有する複数の第1特徴点を抽出する抽出ステップと、前記複数の第1特徴点から、前記対象ブロックに対応する第2特徴点の局所特徴量に類似する局所特徴量を有し、前記第2特徴点との関係が、非平行移動成分を含む情報で表現される対応点を探索する探索ステップと、前記関係に基づき、前記再構築画像から前記予測画像を生成する生成ステップとを含む。
これにより、当該予測画像生成方法は、特徴点及び特徴量を用いて、例えば、拡大縮小及び回転などの非平行移動成分を含む変形を加味した参照領域の画像を用いて予測画像を生成できる。これにより、当該予測画像生成方法は、符号化効率を向上できる。
例えば、前記第2特徴点は、前記対象ブロックに含まれ、前記生成ステップでは、前記再構築画像内の前記対応点を含む領域の画素値を用いて前記予測画像を生成してもよい。
例えば、前記第2特徴点は、前記対象ブロックの周辺の特徴点であり、前記生成ステップでは、前記再構築画像内の前記対応点を含まない領域の画素値を用いて前記予測画像を生成してもよい。
例えば、前記再構築画像は、前記対象ブロックを含む対象ピクチャの再構築画像であってもよい。
例えば、前記再構築画像は、前記対象ブロックを含む対象ピクチャとは異なるピクチャの再構築画像であってもよい。
また、本発明の一態様に係る画像符号化方法は、前記予測画像生成方法を行う画像符号化方法であって、前記予測画像を用いて前記対象ブロックを符号化する画像符号化ステップを含む。
これにより、当該画像符号化方法は、特徴点及び特徴量を用いて、非平行移動成分を含む変形を加味した参照領域を探索し、当該参照領域の画像を用いて予測画像を生成できる。これにより、当該予測画像生成方法は、符号化効率を向上できる。
例えば、前記抽出ステップでは、さらに、前記対象ブロックに対応する複数の第3特徴点を抽出し、前記探索ステップでは、前記複数の第3特徴点から前記第2特徴点を選択し、前記画像符号化方法は、さらに、前記複数の第3特徴点のうち前記第2特徴点を特定するための特徴点情報を符号化する特徴点情報符号化ステップを含んでもよい。
例えば、前記特徴点情報は、前記第2特徴点の座標を示してもよい。
例えば、前記特徴点情報は、前記第2特徴点が有する回転量又はスケール値を示してもよい。
例えば、前記画像符号化方法は、さらに、前記複数の第1特徴点のうち前記対応点を特定するための対応点情報を符号化する対応点情報符号化ステップを含んでもよい。
例えば、前記対応点情報は、前記第2特徴点の座標を示してもよい。
例えば、前記特徴点情報符号化ステップでは、前記複数の第1特徴点に所定の順序でインデックスを割り当て、前記対応点情報は、前記対応点に割り当てられた前記インデックスを示してもよい。
例えば、前記生成ステップでは、前記関係に基づき、動き推定処理の初期値を設定し、前記初期値を用いて、動き推定処理を行うことで前記予測画像を生成してもよい。
また、本発明の一態様に係る画像復号方法は、前記予測画像生成方法を行う画像復号方法であって、前記予測画像を用いて前記対象ブロックを復号する画像復号ステップを含む。
これにより、当該画像符号化方法は、特徴点及び特徴量を用いて、非平行移動成分を含む変形を加味した参照領域を探索し、当該参照領域の画像を用いて予測画像を生成できる。これにより、当該予測画像生成方法は、符号化効率を向上できる。
例えば、前記抽出ステップでは、さらに、前記対象ブロックに対応する複数の第3特徴点を抽出し、前記画像復号方法は、さらに、前記複数の第3特徴点のうち前記第2特徴点を特定するための特徴点情報を復号する特徴点情報復号ステップを含み、前記探索ステップでは、前記特徴点情報を用いて、前記複数の第3特徴点から前記第2特徴点を選択してもよい。
例えば、前記特徴点情報は、前記第2特徴点の座標を示してもよい。
例えば、前記特徴点情報は、前記第2特徴点が有する回転量又はスケール値を示してもよい。
例えば、前記画像復号方法は、さらに、前記複数の第1特徴点のうち前記対応点を特定するための対応点情報を復号する対応点情報復号ステップを含み、前記探索ステップでは、前記対応点情報を用いて、前記複数の第1特徴点から前記対応点を探索してもよい。
例えば、前記特徴点情報復号ステップでは、前記複数の第1特徴点に所定の順序でインデックスを割り当て、前記対応点情報は、前記対応点に割り当てられた前記インデックスを示してもよい。
また、本発明の一態様に係る予測画像生成装置は、対象ブロックの予測画像を生成する予測画像生成装置であって、再構築画像に含まれる、各々が局所特徴量を有する複数の第1特徴点を抽出する抽出部と、前記複数の第1特徴点から、前記対象ブロックに対応する第2特徴点の局所特徴量に類似する局所特徴量を有し、前記第2特徴点との関係が、非平行移動成分を含む情報で表現される対応点を探索する探索部と、前記関係に基づき、前記再構築画像から前記予測画像を生成する生成部とを備える。
これにより、当該予測画像生成装置は、特徴点及び特徴量を用いて、非平行移動成分を含む変形を加味した参照領域を探索し、当該参照領域の画像を用いて予測画像を生成できる。これにより、当該予測画像生成装置は、符号化効率を向上できる。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、既によく知られた事項の詳細な説明、及び実質的に同一の構成に対する重複する説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
本実施の形態に係る画像符号化方式を用いた画像符号化装置の実施の形態の一つに関して説明する。本実施の形態に係る画像符号化装置は、局所特徴量を用いてイントラ予測処理及びインター予測処理を行う。これにより、当該画像符号化装置は、平行移動成分以外の非平行移動成分を含む情報で表現される参照ブロックを用いて予測画像を生成できるので符号化効率を向上できる。
図1は、本実施の形態に係る画像符号化装置100の一例を示すブロック図である。画像符号化装置100は、特徴量抽出部101、ブロック分割部102、減算部103、周波数変換部104、量子化部105、エントロピー符号化部106、逆量子化部107、逆周波数変換部108、加算部109、特徴量抽出部110、イントラ予測部111、ループフィルタ112、特徴量抽出部113、フレームメモリ114、インター予測部115及び切替部116を含む。
画像符号化装置100は、入力画像121を符号化することでビットストリーム126を生成する。
図2は、本実施の形態における画像符号化装置100による画像符号化処理のフローチャートである。
まず、特徴量抽出部101は、SIFTを代表とする特徴点及び特徴量抽出手法により、1以上のピクチャを含む静止画又は動画である入力画像121に含まれる特徴点及びその特徴点の特徴量を抽出する(S101)。
次に、画像符号化装置は、入力画像121を符号化処理単位である符号ブロック122に分割する(S102)。
次に、イントラ予測部111又はインター予測部115は、符号ブロック122ごとに復号ブロック129又は復号画像131を利用して予測ブロック134を生成する(S103)。なお、この処理の詳細は後述する。
次に、減算部103は、符号ブロック122と予測ブロック134との差分である差分ブロック123を生成する(S104)。次に、周波数変換部104は、差分ブロック123を周波数変換することで係数ブロック124を生成する。次に、量子化部105は、係数ブロック124を量子化することにより係数ブロック125を生成する(S105)。
次にエントロピー符号化部106は、係数ブロック125をエントロピー符号化することによりビットストリーム126を生成する(S106)。
一方で、後続のブロック又はピクチャの予測ブロック134の生成時に利用する復号ブロック129及び復号画像131を生成するために、逆量子化部107は、係数ブロック125を逆量子化することで係数ブロック127を生成する。逆周波数変換部108は、係数ブロック127を逆周波数変換することで差分ブロック128を復元する(S107)。
次に、加算部109は、ステップS103で利用された予測ブロック134と、差分ブロック128とを加算することで復号ブロック129(再構築画像)を生成する(S108)。この復号ブロック129は、イントラ予測部111によるイントラ予測処理に利用される。
次に、特徴量抽出部110は、ステップS101と同様の手法で、その時点での入力画像121における符号化済領域の復号結果である復号ブロック129に含まれる特徴点及びその特徴点の特徴量を抽出する(S109)。ここで抽出された特徴点及び特徴量はイントラ予測の際に用いられる。
次に、画像符号化装置100は、1枚の画像全体の符号化処理が完了したかを判定する(S110)。画像全体の符号化処理が完了した場合(S110でYes)、ループフィルタ112は、1枚の画像に含まれる複数の復号ブロック129に、ブロック歪みによる画質劣化を緩和させるためのデブロッキングフィルタなどの画質改善のためのフィルタ処理を施すことで復号画像131を生成する(S111)。次に、特徴量抽出部113は、ステップS101及びS109と同様の手法を用いて、復号画像131の特徴点及びその特徴点の特徴量を抽出する(S112)。ここで抽出された特徴点及び特徴量はインター予測の際に用いられる。
また、フレームメモリ114は、復号画像131を格納する。この復号画像131は、インター予測部115によるインター予測処理に用いられる。
画像符号化装置100は、これら一連の処理を、入力された動画像である入力画像121全体に対する符号化処理が完了するまで繰り返して行う(S113)。
なお、ステップS105の周波数変換及び量子化処理は、それぞれ別処理として逐次行われてもよいし、一括して行われてもよい。同様に、ステップS107の逆量子化及び逆周波数変換処理は、それぞれ別処理として逐次行われてもよいし、一括して行われてもよい。
また量子化とは、予め定められた間隔でサンプリングした値を予め定められたレベルに対応づけてデジタル化する処理である。逆量子化とは、量子化で得られた値を元の区間の値に戻す処理である。データ圧縮分野では、量子化は、値をオリジナルよりも粗い区間に分ける処理を意味し、逆量子化は粗い区間をオリジナルの細かい区間に分けなおす処理を意味する。コーデック技術分野では、量子化及び逆量子化を、丸め、ラウンディング、又はスケーリングと呼ぶ場合もある。
次に、ステップS103の予測ブロック生成処理の詳細を、図3のフローチャートを用いて説明する。
まず、イントラ予測部111は、イントラ予測処理を行うことで予測ブロック130を生成する(S121)。続いて、インター予測部115は、インター予測処理を行うことで予測ブロック132を生成する(S122)。切替部116は、ステップS121及びS122で得られた予測ブロック130及び132の各々に対して、R−D最適化モデル(下記(式1))などを用いてコスト計算を行い、コストの小さい、つまり符号化効率の高い手法を選択し、選択された手法に対応する予測ブロックを予測ブロック134として出力する(S123)。
(式1)において、Dは符号化歪を表し、例えば、符号化対象ブロックの元の画素値と、生成された予測画像との差分絶対値和である。また、Rは発生符号量を表し、例えば、予測ブロックを生成するための動き情報などを符号化するのに必要な符号量である。また、λはラグランジュの未定乗数である。これにより、イントラ予測及びインター予測から適切な予測モードを選ぶことができるので、符号化効率を向上できる。
なお、ステップS121及びS122の処理を行う前に、画像符号化装置100は、どちらの予測処理を使用するかを決定し、決定された手法に対応する処理のみを行ってもよい。これにより、予測画像生成処理の処理量を削減できる。
また、画像符号化装置100は、イントラ予測及びインター予測のうちいずれが使用されるかを示す情報を符号化する。なお、符号化とは、当該情報を符号化情報に付与することであり、言い換えると、当該情報を含む符号化ビットストリームを生成することを意味する。
続いて、ステップS121のイントラ予測処理の詳細を、図4のフローチャートを用いて説明する。
まず、イントラ予測部111は、H.264/AVC方式及びH.265/HEVC方式で採用されているような、隣接する符号化済ブロックの情報を利用したイントラ予測処理を行うことで予測ブロックを生成する(S141)。なお、以下では、この処理を、通常イントラ予測と呼ぶ。
続いて、イントラ予測部111は、特徴点の対応点を利用したイントラ予測処理により予測ブロックを生成する(S142)。なお、以下では、この処理を、特徴点利用イントラ予測と呼ぶ。
次に、イントラ予測部111は、ステップS141及びS142で生成されたそれぞれの予測ブロックに対して、ステップS123と同様の処理を行うことで、ステップS141の手法とステップS142の手法との内、符号化効率の高い手法を選択し、選択した手法に対応する予測ブロックを予測ブロック130として出力する(S143)。
なお、イントラ予測部111は、ステップS141及びS142の処理を行う前に、どちらの予測処理を使用するかを決定し、決定された手法に対応する処理のみを行ってもよい。これにより、予測画像生成処理の処理量を削減できる。
また、画像符号化装置100は、通常イントラ予測及び特徴点利用イントラ予測のうちいずれが使用されるかを示す情報を符号化する。
続いて、ステップS142の特徴点利用イントラ予測処理の詳細を、図5のフローチャートを用いて説明する。
まず、イントラ予測部111は、予測処理の対象である対象ブロック内に含まれる特徴点を利用したイントラ予測処理を行うことで予測ブロックを生成する(S161)。なお、以下では、この予測処理を、ブロック内モードと呼ぶ。
次に、イントラ予測部111は、対象ブロックの周辺の符号化済領域に存在する特徴点を利用したイントラ予測処理を行う(S162)。なお、以下では、この予測処理を、周辺ブロックモードと呼ぶ。
次に、イントラ予測部111は、ステップS161及びS162で生成されたそれぞれの予測ブロックに対して、ステップS123と同様の処理を行うことで、ブロック内モードと、周辺ブロックモードとのうち、符号化効率の高い手法を選択する(S163)。
なお、イントラ予測部111は、ステップS161及びS162の処理を行う前に、どちらの予測モードを使用するかを決定し、決定された手法に対応する処理のみを行ってもよい。これにより、予測画像生成処理の処理量を削減できる。
次に、ステップS161のブロック内モードでのイントラ予測処理の詳細を、図6のフローチャートを用いて説明する。
まず、イントラ予測部111は、ステップS101で得られた、入力画像121の特徴点から、対象ブロック内に存在する特徴点を抽出する(S181)。特徴点が存在する場合(S182でYes)、イントラ予測部111は、対応点探索処理を行う(S183)。具体的には、イントラ予測部111は、ステップS109で得られた、対象ブロックと同一の画像内の符号化済領域の復号ブロックから抽出された特徴点の中から、ステップS181で抽出された特徴点の特徴量と類似する特徴量を有する特徴点である対応点を探索する。ここで類似するとは、例えば、特徴量間のユークリッド距離などの距離が小さいことである。
ステップS183において対応点が存在する場合(S184でYes)、イントラ予測部111は、対応点間の情報を用いた予測画像生成処理を行う(S185)。
図7は、この処理を説明するための図であり、予測処理の対象である対象ブロック153を含む対象画像150を示す。対象画像150は、既に符号化済みであり、復号ブロック129が生成されている符号化済領域151と、符号化が行われていない未符号化領域152とを含む。
イントラ予測部111は、ステップS181で抽出された特徴点154を中心とし、対象ブロック153を包括する領域を予測対象領域155に設定する。また、イントラ予測部111は、ステップS183で抽出された、特徴点154に対応する対応点156を中心とした領域を、予測画像生成に使用する参照領域157に設定する。次に、イントラ予測部111は、参照領域157に含まれる、予測対象領域155における対象ブロック153の位置に対応する位置の画像である参照ブロック158の画素情報を用いて予測画像(予測ブロック)を生成する。
ここで、参照領域157を決定する際に利用する特徴点抽出手法として用いられる、SIFT又はORBといった局所特徴量抽出手法は、拡大縮小及び回転などにロバストである。よって、イントラ予測部111は、図7に示すように予測対象領域155の回転や拡大なども考慮した予測画像を生成できる。
具体的には、各特徴点は、座標情報に加え、回転量及びスケール値の情報を有する。イントラ予測部111は、特徴点154の回転量及びスケール値と、と対応点156の回転量及びスケール値との差に基づき、参照ブロック158を変換することで予測画像(予測ブロック)を生成する。
なお、参照領域157が対象画像150外を含む場合、イントラ予測部111は、画像の終端付近の画素情報をコピーすることで画素情報がない領域を生成するパディング処理を行ってもよい。これにより、簡易な処理で参照領域157を設定でき、予測画像の品質劣化を抑制できる。
なお、イントラ予測部111は、上記パディング処理の代わりに、終端部を軸として画像内の画素情報を折り返すことで、画面外の画素情報を生成する折り返し処理を行ってもよい。または、イントラ予測部111は、予め設定した所定値で、画像外の画素を塗りつぶしてもよい。前者では、画像の細部情報を活用することができるので予測画像の品質を向上できる。後者では固定値を代入するという簡単な処理であるため、処理量の増加を抑制できる。
次に、イントラ予測部111は、ステップS185にて作成した予測画像を生成するために必要な情報である特徴点関連情報を符号化する(S186)。
また、対象ブロック内に特徴点が存在しない場合(S182でNo)、又は、対応点が存在しない場合(S184でNo)、イントラ予測部111は、対応点が存在しない場合における例外処理を行う(S187)。具体的には、イントラ予測部111は、この処理に対するコスト値を最大値に設定する。例えば、イントラ予測部111は、上記(式1)におけるD及びRを無限大に設定する。これにより、ステップS163において、ステップS161の手法が選択されないようになる。
続いて、ステップS186の符号化情報に特徴点関連情報を付与する処理の詳細を、図8のフローチャートを用いて説明する。
ここで、特徴点関連情報は、対応点の情報である対応点情報と、対象ブロック内の特徴点の情報である特徴点情報とを含む。
まず、イントラ予測部111は、対応点の探索に必要な情報である対応点情報を符号化情報に付与する(S201)。具体的には対象点情報は、対象ブロックに含まれる特徴点に対応する対応点の座標を示す。
続いて、イントラ予測部111は、対象ブロックに含まれる特徴点の情報である特徴点情報が規定値と一致するかを判定する(S202)。ここで特徴点情報とは、ブロック内における特徴点の座標、及び特徴点が保有する回転量並びにスケール値などである。また、例えば、座標の規定値は、対象ブロックの中心の座標であり、回転量の規定値は0度であり、スケール値の規定値は1である。
対象ブロックに含まれる特徴点情報が全て規定値と一致する場合(S202でYes)、イントラ予測部111は、特徴点の詳細情報が存在することを示す詳細情報フラグをOFFに設定し、当該詳細情報フラグを符号化情報に付与する(S203)。
一方、対象ブロックに含まれる特徴点情報の少なくとも一つが規定値と一致しない場合(S202でNo)、イントラ予測部111は、詳細情報フラグをONに設定し、当該詳細情報フラグを符号化情報に付与する(S204)。続いて、イントラ予測部111は、対象ブロックに含まれる特徴点のブロック内における座標及び回転量などの詳細情報を符号化情報に付与する(S205)。
なお、ステップS201における対応点情報は、前述した情報に限らない。対応点情報は、対応点を含む特徴点群(符号化済領域全体から抽出された特徴点)から、対応点を一意に決定できる指標(インデックス)でもよい。例えば、対象ブロックからの距離が近い特徴点ほど小さな値となるようにインデックスが設定される。または、特徴量に応じた信頼度が高い特徴点ほど小さな値となるようにインデックスが設定される。座標を用いる場合には2次元情報が必要であるが、インデックスを用いることで、1次元情報で対応点を示すことができる。
なお、ステップS202における規定値は、前述した値に限らない。例えば、座標の規定値は、対象ブロック左上端の座標であってもよい。回転量の規定値は、画像全体における回転量であってもよい。
また、詳細情報は、座標、回転量又はスケール値の絶対値を示してもよいし、相対値を示してもよい。つまり、詳細情報は、座標、回転量又はスケール値の規定値と、使用される特徴点の座標、回転量又はスケール値との差分を示してもよい。または、詳細情報は、対応点と特徴点との座標、回転量又はスケール値の差分を示してもよい。また、ステップS202における規定値は、このような差分の規定値であってもよい。
なお、ステップS202における判定処理として、座標、回転量及びスケール値などの全ての要素が規定値と一致するかを判定する処理を述べたが、イントラ予測部111は、要素ごとに判定を行い、各要素のフラグを符号化してもよい。または、イントラ予測部111は、複数の要素をいくつかの要素ごとにグルーピングし、グループごとに判定を行い、各グループに対してフラグを符号化してもよい。フラグが2以上の場合は、イントラ予測部111は、ステップS202からステップS205の処理をフラグの個数分、行う。例えば、イントラ予測部111は、座標情報に対するフラグと、回転量及びスケール値の情報に対するフラグとを符号化してもよい。これにより、符号化時に柔軟な設定を実現できるので、符号化効率を向上できる。
続いて、ステップS162の周辺ブロックモードでのイントラ予測処理の詳細を、図9のフローチャートを用いて説明する。
まず、イントラ予測部111は、ステップS109で得られた特徴点から、対象ブロックに隣接している符号化済領域の復号画像である隣接領域に含まれる特徴点を抽出する(S221)。ステップS221で特徴点が1つでも抽出できた場合(S222でYes)、イントラ予測部111は、抽出された1つ以上の特徴点のそれぞれに対して、ステップS109で得られた特徴点のうち、対象ブロックと同一の画像内の符号化済領域の復号画像から抽出された特徴点を抽出し、抽出された特徴点の中から対応点を探索する(S223)。
ステップS223において1つでも対応点が存在する場合(S224でYes)、イントラ予測部111は、対応点の情報から予測画像を生成する(S225)。
図10は、この処理を説明するための図であり、予測処理の対象である対象ブロック153を含む対象画像150を示す。対象画像150は、既に符号化済みであり、復号ブロック129が生成されている符号化済領域151と、符号化が行われていない未符号化領域152とを含む。
イントラ予測部111は、ステップS221で得られた対象ブロックの周辺の領域に存在する特徴点群から1つ以上の特徴点164を選択し、それら特徴点164及び対象ブロック153の両方を含む予測対象領域165を設定する。次に、イントラ予測部111は、予測対象領域165に含まれる特徴点164の対応点166を含む領域を参照領域167に設定する。イントラ予測部111は、この参照領域167を設定する際に、複数の対応点166を活用してアフィン変換などの幾何変換を行う。これにより、予測画像の品質が向上されるので符号化効率が向上する。次に、イントラ予測部111は、参照領域167に含まれる、予測対象領域165における対象ブロック153の位置に対応する位置の画像である参照ブロック168の画素情報を用いて予測画像(予測ブロック)を生成する。
なお、イントラ予測部111は、対応点が見つかった特徴点を全て利用して予測画像を生成する必要はなく、使用する対応点の組み合わせを変更し、最も符号化効率の良くなる対応点の組み合わせを決定してもよい。これにより、更に符号化効率が向上される。なお、参照領域167が対象画像150外を含む場合、イントラ予測部111は、ステップS185で述べたパディング処理などの領域外処理を行ってもよい。これにより、符号化効率が改善される。
次に、イントラ予測部111は、ステップS225の処理を行うために必要な特徴点に関する情報である特徴点関連情報を符号化情報に付与する(S226)。
一方、対象ブロックの隣接領域に特徴点が存在しない場合(S222でNo)、又は対応点が存在しない場合(S224でNo)、イントラ予測部111は、対応点が存在しない場合における例外処理を行う(S227)。なお、このステップS227の処理は、ステップS187の処理と同様の処理であり、ステップS162の手法が選択されないようにする処理である。
次に、ステップS226の符号化情報に特徴点関連情報を付与する処理の詳細を、図11のフローチャートを用いて説明する。
ここで、特徴点関連情報は、対象ブロック153の周辺の特徴点174を含む抽出領域175を示す抽出範囲情報と、抽出領域175で抽出された特徴点174のうち使用された特徴点の数を示す個数情報と、抽出領域175で抽出された特徴点174のうち使用された特徴点を指定する特徴点指定情報とを含む。
まず、イントラ予測部111は、ステップS225で使用した対象ブロック153の周辺の特徴点174を全て含む矩形領域である抽出領域175を指定するために必要な抽出範囲情報を符号化情報に付与する(S241)。例えば、抽出範囲情報は、抽出領域175の幅及び高さを確定するため情報であり、図12に示す幅171及び高さ172を示す情報を含む。
続いて、イントラ予測部111は、ステップS225で使用した特徴点(対応点)の数を示す個数情報を符号化情報に付与する(S242)。言い換えると、個数情報は、使用された特徴点の組に含まれる特徴点(対応点)の数を示す。
ステップS241の情報で指定される抽出領域175で抽出された特徴点174が全て利用される場合(S243でYes)、イントラ予測部111は、特徴点に関する詳細情報が存在することを示す詳細情報フラグをOFFに設定し、当該詳細情報フラグを符号化情報に付与する(S244)。
一方、抽出領域175で抽出された特徴点のうち一つでも利用しない場合(S243でNo)、イントラ予測部111は、詳細情報フラグをONに設定し、当該詳細情報フラグを符号化情報に付与する(S245)。続いて、イントラ予測部111は、抽出領域175で抽出された特徴点174のうち、使用する特徴点を指定するための特徴点指定情報を特徴点の数分、符号化情報に付与する(S246)。例えば、この特徴点指定情報は、特徴点の座標を示す情報である。
なお、ステップS241と、ステップS242と、ステップS243〜S246の符号化処理の順序は、この順序である必要はなく、これらの順序は適宜入れ替えられてもよい。
なお、ステップS241における抽出領域175の幅及び高さなどの指定は、符号ブロック単位で指定されてもよいし、画像単位又はシーケンス単位で指定されてもよい。また、抽出領域175の幅及び高さとして固定値が利用されてもよい。ブロック単位で、これらを変化させる場合、柔軟な範囲設定が可能となるので、予測画像の品質を向上できる。また、画像単位などでこれらの情報を指定する場合、符号化情報が少なくなるため符号化効率が向上する。
また、抽出領域175の幅及び高さはそれぞれ別の値が指定されてもよいし、幅及び高さに同じ値が用いられてもよい。別の値を用いる場合、有効な特徴点を選択しやすくなることで予測画像の品質を向上できる。一方、同じ値を用いる場合、符号化に必要な情報が1つになるため符号量を削減できる。
なお、ステップS241における抽出範囲情報は、幅及び高さに対応する画素の数を示してよいし、幅及び高さに対応する符号化済ブロックの個数を示してもよい。また、この場合、幅方向のブロックの個数及び高さ方向のブロックの個数の指定は、個別に行われてもよいし、幅方向のブロックの個数及び高さ方向のブロックの個数として同じ値が用いられてもよい。このようにブロックの個数を用いることで、幅などの距離情報を小さい値で表現できるため符号量を削減できる。
次に、ステップS122のインター予測部115の処理の詳細を、図13のフローチャートを用いて説明する。
まず、インター予測部115は、既存の動画像符号化方式であるH.264/AVC方式又はH.265/HEVC方式で用いられている動き情報を利用したインター予測処理を行うことで予測画像を生成する(S261)。なお、以下では、この処理を、通常インター予測と呼ぶ。
次に、インター予測部115は、特徴点を利用したインター予測処理を行うことで予測画像を生成する(S262)。なお、以下では、この処理を、特徴点利用インター予測と呼ぶ。
次に、インター予測部115は、ステップS261及びS262で得られたそれぞれの予測画像に対して、ステップS123と同様の処理を行うことで、符号化効率の高い手法を選択する(S263)。
続いて、ステップS262の特徴点利用インター予測処理の詳細を、図14のフローチャートを用いて説明する。
まず、インター予測部115は、対象ブロック内の含まれる特徴点を利用したインター予測処理を行うことで予測画像を生成する(S281)。なお、以下では、この予測処理を、ブロック内モードと呼ぶ。
次に、インター予測部115は、対象ブロックの周辺の符号化済領域に存在する特徴点を利用したインター予測処理を行う(S282)。なお、以下では、この予測処理を、周辺ブロックモードと呼ぶ。
次に、インター予測部115は、ステップS281及びS282で生成された予測画像に対して、ステップS123と同様の処理を行うことで、符号化効率の高い手法を選択する(S283)。
続いて、ステップS281のブロック内モードでのインター予測処理の詳細を、図15のフローチャートを用いて説明する。
ステップS301、S302、S304及びS306の処理は、それぞれステップS181、S182、S184及びS186の処理と同様であるため、詳細は割愛する。
ステップS302で、対象ブロック内に特徴点が存在すると判定された場合(S302でYes)、インター予測部115は、ステップS112で得られた、1枚以上の参照画像から抽出された特徴点の中から、ステップS301で抽出された対象ブロック内の特徴点の対応点を探索する(S303)。
ステップS303において対応点が存在する場合(S304でYes)、インター予測部115は、ステップS303で得られた結果を利用して予測画像を生成する(S305)。
図16は、この処理を説明するための図であり、予測処理の対象である対象ブロック153を含む対象画像150と、対象画像150とは異なるピクチャであり、既に符号化済みのピクチャである参照画像180とを示す。対象画像150は、既に符号化済みであり、復号ブロック129が生成されている符号化済領域151と、符号化が行われていない未符号化領域152とを含む。
まず、インター予測部115は、ステップS185での予測対象領域155の設定手法と同様の手法で予測対象領域155を設定する。次に、インター予測部115は、ステップS303で発見した対応点182を中心として、ステップS185での参照領域157の設定手法と同様の手法にて、参照領域181を設定する。次に、インター予測部115は、ステップS185と同様の手法で、参照領域181から予測画像を生成する。つまり、インター予測部115は、参照領域181に含まれる、予測対象領域155における対象ブロック153の位置に対応する位置の画像である参照ブロック183の画素情報を用いて予測画像(予測ブロック)を生成する。
また、インター予測部115は、ステップS307において、ステップS187及びS227と同様の処理を行うことで、ステップS283においてステップS281の手法が選択されないようにする。
続いて、ステップS282の周辺ブロックモードでのインター予測処理の詳細を、図17のフローチャートを用いて説明する。
ステップS321、S322、S324及びS326の処理は、それぞれS221、S222、S224及びS226の処理と同様であるため、詳細は割愛する。
ステップS322で、周辺の符号化済ブロックに特徴点が存在すると判定された場合(S322でYes)、インター予測部115は、ステップS321で抽出された1つ以上の特徴点のそれぞれに対して、ステップS112で得られた、1枚以上の参照画像から抽出された特徴点の中から対応点を探索する(S323)。ステップS323において対応点が存在する場合(S324でYes)、インター予測部115は、ステップS323で得られた対応点の結果を利用して予測画像を生成する(S325)。
図18は、この処理を説明するための図であり、予測処理の対象である対象ブロック153を含む対象画像150と、対象画像150とは異なるピクチャであり、既に符号化済みのピクチャである参照画像180とを示す。対象画像150は、既に符号化済みであり、復号ブロック129が生成されている符号化済領域151と、符号化が行われていない未符号化領域152とを含む。
まず、インター予測部115は、ステップS225での予測対象領域165の設定手法と同様の手法で予測対象領域165を設定する。次に、インター予測部115は、ステップS323で発見した対応点192を用いて、ステップS225での参照領域167の設定手法と同様の手法にて、参照領域191を設定する。具体的には、インター予測部115は、予測対象領域165に含まれる特徴点164の対応点192を含む領域を参照領域191に設定する。
次に、インター予測部115は、ステップS225と同様の手法で、参照領域191から予測画像を生成する。具体的には、インター予測部115は、参照領域191に含まれる、予測対象領域165における対象ブロック153の位置に対応する位置の画像である参照ブロック193の画素情報を用いて予測画像(予測ブロック)を生成する。
また、インター予測部115は、ステップS327において、ステップS187、S227及びS307と同様の処理を行うことで、ステップS283においてステップS282の手法が選択されないようにする。
なお、ステップS321における対応点探索に必要な情報は、ステップS201でも述べたように、対応点を含む特徴点群(符号化済領域全体から抽出された特徴点)から、対応点を一意に決定できる指標でもよい。
(効果)
以上、本実施の形態によれば、局所特徴量に関する技術を応用することで、イントラ予測及びインター予測において、既存の手法と比較して少ない情報量で回転及び拡大といった高次な動き情報にも対応した予測画像を生成できる。
なお、本実施の形態では、ステップS101、S109及びS112で利用する特徴量抽出手法としてSIFTを例に説明を行っているが、使用できる特徴量及びその抽出手法はこれに限らない。他の局所特徴量に関連する技術である、ORB又はSURF(Speeded Up Robust Features)等が用いられてもよい。
また、特徴点の抽出手法と特徴量の算出手法とに異なる手法が用いられてもよい。具体的には、各手法には、処理量が少ないこと、又は、拡大縮小以外にもアフィン変換などにもロバストであるなど、それぞれ異なる性質がある。よって、符号化する動画像の種類などに応じて、利用する局所特徴量及びその抽出手法を変更することにより更に符号化効率を改善できる。
また、ステップS202からS205において、特徴点の詳細情報として座標以外に、特徴点の回転量及びスケール値などを挙げているが、詳細情報として利用できる情報はこれに限らない。
また、ここで挙げた情報を必ず符号化する必要もない。例えば、特徴点の位置のみを抽出する手法の1つであるFASTにおいては、拡大縮小及び回転に対するロバスト性はない。よって、画像符号化装置100は、これらの情報を符号化する必要はない。このように、画像符号化装置100は、利用する特徴量に応じて符号化する情報を変更することで、予測画像の生成に必要な情報のみを符号化できる。
なお、ステップS181及びS301で抽出される特徴点は、1つだけでなく、複数であってもよい。この場合、画像符号化装置100は、複数の特徴点の情報を利用して予測画像を生成してもよい。これにより、生成される予測画像の品質が向上することで符号化効率が改善する。この処理は、ステップS161及びS281内において、画像符号化装置100が、各特徴点の対応点を探索し(S183及びS303)、複数の特徴点及び複数の対応点の関係を利用して予測画像を生成し(S185及びS305)、それぞれの特徴点に関する情報を符号化情報に付与する(S186及びS306)ことで実現できる。例えば、画像符号化装置100は、図10及び図18に示す場合と同様の処理により、複数の特徴点に対応する複数の対応点を探索し、当該複数の対応点を含む参照領域及び参照ブロックを決定できる。なお、複数の特徴点及び対応点の関係を利用した予測画像生成処理は、前述した手法に限らない。
また、本実施の形態では、インター予測及びイントラ予測の両方で上記手法を用いる例を説明したが、インター予測のみ、又はイントラ予測のみで上記手法を用いてもよい。また、本実施の形態では、対象ブロック内の特徴点を用いる予測処理(インター予測又はイントラ予測)と、対象ブロック周辺の特徴点を用いる予測処理(インター予測又はイントラ予測)との両方を用いる例を説明したが、いずれか一方のみが用いられてもよい。
また、上記説明では、対応点は再構築画像(復号ブロック129又は復号画像131)に含まれる特徴点から選択されているが、入力画像121に含まれる特徴点から選択されてもよい。例えば、画像符号化装置100は、再構築画像内に対応点が存在しない場合に、入力画像121に含まれる特徴点から対応点を探索してもよい。
(実施の形態2)
本実施の形態では、上記実施の形態1に係る画像符号化装置100及び画像符号化方法の変形例について説明する。
なお、実施の形態1とステップS261の動き情報を利用した通常インター予測処理以外は同様であるため、ステップS261に関する説明以外は省略する。
ステップS261の動き情報を利用したインター予測処理の詳細を、図19のフローチャートを用いて説明する。
まず、インター予測部115は、動き情報の推定処理を行う(S341)。次に、インター予測部115は、ステップS341で得られた動き情報を利用して動き補償処理を行う(S342)。次に、インター予測部115は、符号化済みの時間的又は空間的な隣接ブロックの動き情報である予測動き情報と、ステップS342で決定した動き情報との差分である差分動き情報を生成する(S343)。
続いて、ステップS341の動き情報の推定処理の詳細を、図20のフローチャートを用いて説明する。
まず、インター予測部115は、ステップS101で入力画像から抽出された特徴点の中から、対象ブロックに含まれる特徴点を抽出する(S361)。次に、インター予測部115は、S101で得られた、インター予測で用いる参照画像が入力画像の時点で抽出された特徴点集合から、ステップS361で抽出された特徴点に対応する対応点を探索する(S362)。なお、この処理の詳細は、使用される特徴点が異なる点を除き、実施の形態1で説明した探索処理と同様である。
ステップS362において対応点の探索が成功した場合(S363でYes)、インター予測部115は、対応点の情報を用いて動き推定処理の初期値を設定する(S365)。この際、SIFT又はORBといった局所特徴量の対応点の関係からは、平行移動成分のみならず回転量及び拡大縮小に関する情報も取得できるため、それらに関する初期値も設定可能である。
一方、ステップS362において対応点の探索に失敗した場合(S363でNo)、インター予測部115は、動き推定処理の初期値に規定値を設定する(S364)。例えば、平行移動成分の規定値は0であり、拡大縮小のパラメータの規定値は1である。なお、インター予測部115は、低次元の情報に関して大まかに推定し、その結果を高次の動き情報の推定処理の初期値として利用してもよい。例えば、インター予測部115は、6次元のアフィン変換の動き情報を推定する際に、2次元の平行移動ベクトルの情報の推定結果を初期値に設定する。
次に、インター予測部115は、ステップS364又はS365で設定された初期値を用いて動き推定処理を行う(S366)。
(効果)
以上、本実施の形態によれば、特徴量の対応点の関係を活用することで、アフィン変換などを含む高次元の動き情報の推定処理に関して、効果的な初期値を設定できる。これにより動き情報推定処理の高速化及び推定結果による予測画像の品質向上を実現できる。
なお、ステップS362の処理においては、インター予測部115は、ステップS112で得られた、復号された参照画像から抽出された特徴点集合に対して、対応点の探索を行ってもよい。これにより、入力画像時に得られた特徴点集合情報を保存することが必要なくなり、処理中のメモリ量を削減できる。
また、本実施の形態では、上記実施の形態1の手法に加え、本実施の形態の処理を行う例を述べたが、本実施の形態に係る処理のみが行われてもよい。
(実施の形態3)
本実施の形態では、上記画像符号化装置100により生成されたビットストリームを復号する画像復号装置の実施の形態の1つを説明する。
図21は、本実施の形態に係る画像復号装置200の一例を示すブロック図である。画像復号装置200は、エントロピー復号部201、逆量子化部202、逆周波数変換部203、加算部204、特徴量抽出部205、イントラ予測部206、ループフィルタ207、フレームメモリ208、特徴量抽出部209、インター予測部210、切替部211を含む。
画像復号装置200は、入力されたビットストリーム221に対して復号処理を行うことで復号画像227を生成する。例えば、ビットストリーム221は、上記画像符号化装置100により生成される。なお、ビットストリーム221に含まれる各種情報の意味は、上述した実施の形態1と同様である。
図22は、本実施の形態における画像復号装置200による画像復号処理のフローチャートである。
まず、エントロピー復号部201は、1以上のピクチャを含む静止画又は動画が符号化されることで得られたビットストリーム221から予測情報を復号する(S401)。続いて、エントロピー復号部201は、ビットストリーム221から係数ブロック222を復号する(S402)。
次に、逆量子化部202は、係数ブロック222を逆量子化することで係数ブロック223を生成する。逆周波数変換部203は、係数ブロック223を逆周波数変換することで差分ブロック224を復元する(S403)。
次に、イントラ予測部206又はインター予測部210は、ステップS401で復号した予測情報と、復号ブロック225又は復号画像227を利用して、予測ブロック230を生成する(S404)。具体的には、イントラ予測部206は、イントラ予測処理により予測ブロック226を生成する。インター予測部210はインター予測処理により予測ブロック229を生成する。切替部211は、予測ブロック226及び229の一方を予測ブロック230として出力する。
次に、加算部204は、ステップS403で得られた差分ブロック224と、ステップS404で得られた予測ブロック230とを加算することで復号ブロック225を生成する(S405)。この復号ブロック225は、イントラ予測部206によるイントラ予測処理に利用される。
次に、特徴量抽出部205は、ステップS405までに復号された復号ブロック225の集合から特徴点及びその特徴点の特徴量を抽出する(S406)。ここで抽出された特徴点及び特徴量はイントラ予測の際に用いられる。なお、この処理の詳細は、上述したステップS109の処理と同様である。
次に、画像復号装置200は、画像一枚分の復号ブロック225が復号されたかを判定する(S407)。画像一枚分の復号処理が終了していないと判定された場合(S407でNo)、画像復号装置200は、次のブロックの復号処理を行うためにステップS401からの処理を行う。
一方、画像一枚分の復号ブロック225が復号されたと判定された場合(S407でYes)、ループフィルタ207は、復号された画像に対してフィルタ処理を行う(S408)。具体的には、ループフィルタ207は、1枚の画像に含まれる複数の復号ブロック225に、ブロック歪みによる画質劣化を緩和させるためのデブロッキングフィルタなどの画質改善のためのフィルタ処理を施すことで復号画像227を生成する。
また、フレームメモリ208は、復号画像227を格納する。この復号画像227は、インター予測部210によるインター予測処理に用いられる。
次に、特徴量抽出部209は、復号画像227から特徴点及びその特徴点の特徴量を抽出する(S409)。なお、この処理の詳細は、上述したステップS111の処理と同様である。
次に、画像復号装置200は、入力されたビットストリーム221に含まれる全ブロックが復号されたかを判定する(S410)。具体的には、画像復号装置200は、入力されたビットストリーム221が終了した場合に、全ブロックが復号されたと判定する。
全ブロックが復号されたと判定されなった場合(S410でNo)、画像復号装置200は、次のブロックの復号処理を行うためにステップS401からの処理を行う。一方、全ブロックが復号されたと判定された場合(S410でYes)、画像復号装置200は、復号処理を終了する。
なお、ステップS403の逆量子化及び逆周波数変換処理は、それぞれを別処理として逐次行われてもよいし、一括して行われてもよい。なお、HEVCなどの現在主流の符号化規格では、逆量子化及び逆周波数変換処理が一括して行われる。また、復号側においても、これらの処理に、実施の形態1と同様に、スケーリング等の表現が用いられる場合がある。
次に、ステップS401の予測情報復号処理の詳細を、図23のフローチャートを用いて説明する。
まず、画像復号装置200は、復号処理を行う対象のブロックである対象ブロックの予測手法がイントラ予測かインター予測かを判定する(S421)。
予測手法がイントラ予測と判定された場合(S421で「イントラ」)、画像復号装置200は、イントラ予測における予測モードが、復号済みの隣接ブロックの画素情報を利用する通常イントラ予測であるか、特徴点を利用する特徴点利用イントラ予測であるかを判定する(S422)。
予測モードが、通常モードである場合(S422で「通常」)、画像復号装置200は、隣接ブロックの利用法に関する情報をビットストリーム221から復号する(S424)。ここで、隣接ブロックの利用法に関する情報とは、H.265/HEVC方式におけるイントラ予測方向などを示す情報である。
一方、予測モードが特徴点を利用するモードである場合(S422で「特徴点利用」)、画像復号装置200は、特徴点に関する情報である特徴点関連情報をビットストリーム221から復号する(S425)。
また、ステップS421で、予測モードがインター予測であると判定された場合(S421で「インター」)、画像復号装置200は、インター予測における予測モードが、動き情報を利用する通常インター予測であるか、特徴点を利用する特徴点利用インター予測であるかを判定する(S423)。
予測モードが通常イントラ予測である場合(S423で「通常」)、画像復号装置200は、ビットストリーム221から動き情報を復号する(S426)。ここで、動き情報とはH.265/HEVC方式を代表とする動画像符号化方式で利用されている平行移動ベクトル及び高次なアフィン変換行列などである。
一方、予測モードが特徴点利用インター予測である場合(S423で「特徴点利用」)、画像復号装置200は、ビットストリーム221から特徴点に関する特徴点関連情報を復号する(S425)。
なお、ステップS425の特徴点関連情報の復号処理は、イントラ予測の場合と、インター予測の場合とで、異なる処理部により実行されてもよい。これにより、イントラ予測処理及びインター予測処理に対して、同時に実行する場合に、ステップS425の処理を並列に処理できるので、処理を高速化できる。
また、ステップS421〜S423の判定処理は、例えば、ビットストリーム221に含まれる情報に基づき行われる。具体的には、例えば、ビットストリーム221は、予測モードがイントラ予測であるか、インター予測であるかを示す情報を含む。また、ビットストリーム221は、予測モードが、通常イントラ予測であるか、特徴点利用イントラ予測であるかを示す情報、又は、予測モードが、通常インター予測であるか、特徴点利用インター予測であるかを示す情報を含む。
続いて、ステップS425の特徴点関連情報の復号処理の詳細を、図24のフローチャートを用いて説明する。
まず、画像復号装置200は、どのモードの特徴点関連情報が符号化されているかを判定する(S441)。対象ブロック内に存在する特徴点の情報であるブロック内モードの特徴量関連情報が符号化されていると判定された場合(S441で「ブロック内」)、画像復号装置200は、ビットストリーム221からブロック内モードの特徴量関連情報を復号する(S442)。
一方、対象ブロック周辺の復号済ブロックに含まれる特徴点の情報である周辺ブロックモードの特徴点関連情報が符号化されていると判定された場合(S441で「周辺ブロック」)、画像復号装置200は、ビットストリーム221から周辺ブロックモードの特徴点関連情報を復号する(S443)。
なお、ステップS441において、画像復号装置200は、ビットストリーム221に含まれる、ブロック内モード又は周辺ブロックモードを示すフラグを参照することで、上記判定処理を行う。このフラグはブロック単位で符号化されていてもよいし、画像単位又は動画像単位で符号化されていてもよい。このフラグがブロック単位で符号化される場合は、最適な符号化モードを選択可能となることで予測画像の品質が向上される。また、このフラグが画像単位などで符号化される場合は、フラグの数が減るため符号量が削減される。
なお、ここでは、2つのモードが切り替えられる例を述べたが、ブロック内モード又は周辺ブロックモードのどちらか一方のモードが常に利用されてもよい。
続いて、ステップS442のブロック内モードの特徴点関連情報の復号処理の詳細を、図25のフローチャートを用いて説明する。ここで、ブロック内モードの特徴点関連情報は、対応点の情報である対応点情報と、対象ブロック内の特徴点の情報である特徴点情報とを含む。
まず、画像復号装置200は、ビットストリーム221から、対象ブロック中の特徴点の対応点を決定するための対応点情報を復号する(S461)。具体的には、この対応点情報は対応点の座標を示す情報である。
次に、画像復号装置200は、ビットストリーム221が特徴点に関する詳細情報を含むことを示す詳細情報フラグがONであるかを判定する(S462)。なお、詳細情報フラグは、ビットストリーム221に含まれる。
詳細情報フラグがOFFである場合(S462でNo)、画像復号装置200は、詳細情報に規定値を設定する(S463)。
一方、詳細情報フラグがONである場合(S462でYes)、画像復号装置200は、ビットストリーム221から詳細情報を復号する(S464)。
ここで、詳細情報とは、符号化時において対象ブロック中に含まれていた特徴点の座標並びに特徴点のもつ回転量及びスケール値を示す情報である。
具体的には、特徴点の座標を示す詳細情報は、対象ブロックの中心から特徴点の位置を示すx及びy方向の2次元ベクトルである。また、回転量及びスケール値は、SIFTなどの局所特徴量抽出手法で算出された値である。これらの処理により、対象ブロック中の特徴点の座標と、その特徴点が持つ回転量及びスケール値などの情報と、対応点となる特徴点に関する情報とが復号される。
なお、この特徴量の回転量及びスケール値は、対応点の回転量及びスケール値との相対値が符号化されていてもよい。これにより、特徴点と対応点とで回転量又はスケール値が同一の場合、符号化すべき情報が0となるため、符号化効率が向上する。また、算出値と相対値とのうちどちらを用いるかを示すフラグが符号化されていてもよい。これにより、各ブロックにおいて最適な符号化手法を選択することができるので、更に符号化効率が改善する。
また、ステップS463の規定値は、例えば、特徴点の座標においては対象ブロックの中心であり、回転量においては0度であり、スケール値においては1である。
なお、この規定値は上記に限らない。例えばグローバルモーション情報から得られる回転角及び拡大率などが、それぞれ特徴点の回転量及びスケール値の設定に利用されてもよい。これにより、グローバルモーションに伴う画像の変形を利用することで、固定値を利用する場合よりも符号量を削減できる。
続いて、ステップS443の周辺ブロックモードの特徴点関連情報の復号処理の詳細を、図26のフローチャートを用いて説明する。
まず、画像復号装置200は、特徴点を抽出する抽出領域を設定するために必要な情報である抽出範囲情報を復号する(S481)。次に、画像復号装置200は、予測画像の生成の際に使用する特徴点の数を示す個数情報を復号する(S482)。
次に、画像復号装置200は、特徴点の詳細情報が存在するかを示す詳細情報フラグがONであるかを判定する(S483)。
詳細情報フラグがONである場合(S483でYes)、画像復号装置200は、予測画像生成時に利用する特徴点を識別するために必要な特徴点指定情報を復号する(S484)。例えば、この特徴点指定情報は、特徴点の座標を示す。
これらの処理により、特徴点を抽出する対象である、対象ブロックの周辺の抽出領域と、予測画像の生成に使用する特徴点の数と、使用する特徴点を指定する情報とが復号される。
なお、特徴点指定情報は、特徴点の座標情報である必要はなく、特徴点を一意に判別できる情報であればよい。例えば、特定点指定情報は、抽出領域内で抽出された特徴点をエッジの強度又は輝度成分の大きさなどでランク付けをした際の、順位を示してもよい。順位を用いた場合、1次元情報及び小さな数字で特徴量を指定できるため、符号量を削減できる。
次に、ステップS404の予測ブロック生成処理の詳細を、図27のフローチャートを用いて説明する。
まず、画像復号装置200は、予測ブロック生成処理にイントラ予測が用いられるかインター予測が用いられるかを判定する(S501)。なお、この判定は、ステップS421と同様に、ビットストリーム221に含まれる情報を用いて行われる。
イントラ予測が用いられると判定された場合(S501で「イントラ」)、画像復号装置200は、イントラ予測処理により予測ブロックを生成する(S502)。一方、インター予測が用いられると判定された場合(S501で「インター」)、画像復号装置200は、インター予測処理により予測ブロックを生成する(S503)。
続いて、ステップS502のイントラ予測処理の詳細を、図28のフローチャートを用いて説明する。
まず、画像復号装置200は、イントラ予測における予測モードが、通常イントラ予測であるか特徴点利用イントラ予測であるかを判定する(S521)。なお、この判定は、ステップS422と同様に、ビットストリーム221に含まれる情報を用いて行われる。
予測モードが通常イントラ予測である場合(S521で「通常」)、画像復号装置200は、H.265/HEVC方式などで採用されているイントラ予測処理を行うことで予測画像を生成する(S522)。一方、予測モードが特徴点利用イントラ予測である場合(S521で「特徴点利用」)、画像復号装置200は、特徴点利用イントラ予測により予測画像を生成する(S523)。
続いて、ステップS523の特徴点利用イントラ予測による予測画像生成処理の詳細を、図29のフローチャートを用いて説明する。
まず、画像復号装置200は、特徴点の利用モードが、ブロック内モードであるか、周辺ブロックモードであるかを判定する(S541)。なお、この判定は、ステップS441と同様に、ビットストリーム221に含まれる情報を用いて行われる。
利用モードがブロック内モードである場合(S541で「ブロック内」)、画像復号装置200は、対象ブロック内の特徴点を利用したイントラ予測処理であるブロック内モードで予測画像を生成する(S542)。
一方、利用モードが周辺ブロックモードである場合(S541で「周辺ブロック」)、画像復号装置200は、対象ブロックの周辺領域に含まれる特徴点情報を利用したイントラ予測処理である周辺ブロックモードで予測画像を生成する(S543)。
続いて、ステップS542のブロック内モードの処理の詳細を、図30のフローチャートを用いて説明する。
まず、画像復号装置200は、ステップS442で復号された、ブロック内モードの特徴点関連情報を利用して、ステップS406で抽出された特徴点から、対応点を探索する(S561)。
具体的には、画像復号装置200は、ステップS406で抽出された複数の特徴点から、特徴点関連情報に含まれる、対応点を特定するための対応点情報(例えば、対応点の座標)を用いて、対応点を特定する。なお、対応点情報がインデックスである場合には、画像復号装置200は、符号化側と同様の手順により、複数の特徴点にインデックスを割り当て、対応点情報で示されるインデックスを有する特徴点を対応点に決定する。
また、画像復号装置200は、対象ブロックに含まれる1以上の特徴点及びその特徴量を抽出し、抽出された特徴点から、特徴点関連情報に含まれる、特徴点を特定するための特徴点情報(例えば、特徴点の座標)を用いて、使用する特徴点を決定する。なお、特徴点情報が、回転量及びスケール値を示す場合には、画像復号装置200は、特徴点情報で示される回転量及びスケール値を有する特徴点を、使用する特徴点に決定する。
次に、画像復号装置200は、ステップS561で得られた特徴点及び対応点を利用して、ステップS185と同様の処理を行うことで予測画像を生成する(S562)。
続いて、ステップS543のブロック周辺モードの処理の詳細を、図31のフローチャートを用いて説明する。
まず、画像復号装置200は、ステップS481で復号された抽出範囲情報から決定される抽出領域に含まれる特徴点を、ステップS406で抽出された特徴点から抽出する。さらに、画像復号装置200は、抽出領域に含まれる特徴点から、ステップS482からS484で復号された個数情報及び特徴点指定情報で指定される特徴点を抽出する(S581)。
次に、画像復号装置200は、ステップS581で抽出された特徴点の対応点を、ステップS406で抽出された参照画像の特徴点群から探索する(S582)。つまり、画像復号装置200は、符号化側と同様に、特徴量を用いて、対象ブロックの周辺の特徴点の特徴量に類似する対応点を探索する。
次に、画像復号装置200は、ステップS582で得られた対応点の情報を利用して、ステップS225の処理と同様の処理により、予測画像を生成する(S583)。
次に、ステップS503のインター予測処理の詳細を、図32のフローチャートを用いて説明する。
まず、画像復号装置200は、インター予測の予測モードが通常インター予測であるか特徴点利用インター予測であるかを判定する(S601)。なお、この判定は、ステップS423と同様に、ビットストリーム221に含まれる情報を用いて行われる。
予測モードが通常インター予測である場合(S601で「通常」)、画像復号装置200は、H.265/HEVC方式で採用されているようなインター予測画像生成手法などの、動き情報を利用した予測画像生成処理を行うことで予測画像を生成する(S602)。この時、H.265/HEVCにおいては動き情報として平行移動ベクトルが使用されているが、アフィン変換行列又は射影変換行列などの高次元の情報を含む動き情報が利用されてもよい。
一方、予測モードが特徴点利用インター予測である場合(S601で「特徴点利用」)、画像復号装置200は、特徴点利用インター予測により予測画像を生成する(S603)。
続いて、ステップS603の特徴点利用インター予測による予測画像生成処理の詳細を、図33のフローチャートを用いて説明する。
まず、画像復号装置200は、特徴点の利用モードが、ブロック内モードであるか、周辺ブロックモードであるかを判定する(S621)。なお、この判定は、ステップS441と同様に、ビットストリーム221に含まれる情報を用いて行われる。
利用モードがブロック内モードである場合(S621で「ブロック内」)、画像復号装置200は、対象ブロック内の特徴点を利用したインター予測処理であるブロック内モードで予測画像を生成する(S622)。
一方、利用モードが周辺ブロックモードである場合(S621で「周辺ブロック」)、画像復号装置200は、対象ブロックの周辺領域に含まれる特徴点情報を利用したインター予測処理である周辺ブロックモードで予測画像を生成する(S623)。
続いて、ステップS622のブロック内モードの処理の詳細を、図34を用いて説明する。
まず、画像復号装置200、ステップS442において復号された、ブロック内モードの特徴点関連情報を利用して、ステップS409で抽出された特徴点から、対応点を探索する(S641)。なお、この処理の詳細は、参照先が符号化済みの他のピクチャである点を除き、上述したステップS561と同様である。
次に、画像復号装置200は、ステップS641で得られた特徴点及び対応点を利用して、ステップS305と同様の処理を行うことで予測画像を生成する(S642)。
続いて、ステップS623の周辺ブロックモードの処理の詳細を、図35を用いて説明する。
まず、画像復号装置200は、ステップS481で復号された抽出範囲情報から決定される抽出領域に含まれる特徴点を、ステップS409で抽出された特徴点から抽出する。さらに、画像復号装置200は、抽出領域に含まれる特徴点から、ステップS482からS484で復号された個数情報及び特徴点指定情報で指定される特徴点を抽出する(S661)。
次に、画像復号装置200は、ステップS661で抽出された特徴点の対応点を、ステップS409で抽出された参照画像の特徴点群から対応点を探索する(S662)。
次に、画像復号装置200は、ステップS662で得られた対応点の情報を利用して、ステップS325の処理と同様の処理により、予測画像を生成する(S663)。
(効果)
以上、本実施の形態によれば、特徴点を利用したイントラ及びインター予測手法に関する情報が符号化されたビットストリームを復号できる。この構成によると、特徴点の利用を考慮したビットストリームを、特徴点の対応点を利用した予測画像生成処理を用いて復号することができ、より高画質な画像を再生できる。
なお、実施の形態1で述べたように、局所特徴量として様々な特徴量を使用できる。他の局所特徴量に関連する技術である、ORB又はSURF等が用いられてもよい。また、特徴点の抽出手法と特徴量の算出手法とに異なる手法が用いられてもよい。
なお、実施の形態1で述べたように、ステップS561及びS641の処理で利用する対象ブロック内の特徴点は1つである必要はなく、複数の特徴点が使用されてもよい。この時、ステップS442における復号処理において、符号化している特徴点数に関する情報を復号する処理を追加し、ステップS461からS464の処理を符号化されている特徴点数だけ繰り返すことで、複数の特徴点を用いた処理を実現できる。このように複数の特徴点を利用することで、予測画像の精度が向上する。これにより残差成分が小さくなるので符号化効率が改善される。
また、本実施の形態では、インター予測及びイントラ予測の両方で上記手法を用いる例を説明したが、インター予測のみ、又はイントラ予測のみで上記手法を用いてもよい。また、本実施の形態では、対象ブロック内の特徴点を用いる予測処理(インター予測又はイントラ予測)と、対象ブロック周辺の特徴点を用いる予測処理(インター予測又はイントラ予測)との両方を用いる例を説明したが、いずれか一方のみが用いられてもよい。
また、上記説明では、ブロック内モード時には、対応点を示す対応点情報が復号側に送信され、周辺ブロックモード時には、対応点情報が、復号側に送信されないが、周辺ブロックモード時においても、対応点情報が、復号側に送信されてもよい。この場合、画像復号装置200は、特徴量を用いた対応点の探索処理は行わず、対応点情報を用いて、複数の特徴点から対応点を特定する。
また、ブロック内モード時に、対応点情報が復号側に送信されなくてもよい。この場合には、画像復号装置200は、符号化側と同様に、特徴量を用いた対応点の探索処理を行うことで、対応点を特定する。
以上のように、実施の形態に係る画像符号化方法及び画像復号方法は、図36に示す予測画像生成方法を含む。
本実施の形態に係る予測画像生成装置は、対象ブロックの予測画像を生成する。まず、予測画像生成装置は、再構築画像に含まれる、各々が局所特徴量を有する複数の第1特徴点を抽出する(S701)。ここで再構築画像とは、イントラ予測においては、対象ブロックを含む対象ピクチャに含まれる符号化又は復号済みのブロックであり、インター予測において、対象ピクチャと異なる符号化又は復号済みのピクチャである。
また、予測画像生成装置を備える画像符号化装置では、さらに、対象ブロックに対応する複数の第3特徴点が抽出される。具体的には、第3特徴点は、上記ブロック内モードにおいては、対象ブロックに含まれる特徴点であり、上記周辺ブロックモードにおいては、対象ブロックに含まれない、対象ブロック周辺の特徴点である。
次に、予測画像生成装置は、複数の第1特徴点から、対象ブロックに対応する第2特徴点の局所特徴量に類似する局所特徴量を有し、第2特徴点との関係が、非平行移動成分を含む情報で表現される対応点を探索する(S702)。具体的には、第2特徴点は、上記ブロック内モードにおいては、対象ブロックに含まれる特徴点であり、上記周辺ブロックモードにおいては、対象ブロックに含まれない、対象ブロック周辺の特徴点である。
具体的には、画像符号化装置では、対象ブロックに対応する複数の第3特徴点から第2特徴点が選択される。画像符号化装置は、局所特徴量の類似性を用いて、複数の第1特徴点から、第2特徴点に局所特徴量に類似する局所特徴量を有する対応点を探索する。また、画像符号化装置は、複数の第3特徴点のうち第2特徴点を特定するための特徴点情報を符号化し、当該特徴点情報を画像復号装置へ送信する。また、画像符号化装置は、複数の第1特徴点のうち対応点を特定するための対応点情報を符号化してもよい。
一方、画像復号装置では、上記特徴点情報が復号される。画像復号装置は、対象ブロックに対応する複数の第3特徴点を抽出し、特徴点情報を用いて、複数の第3特徴点から第2特徴点を選択する。また、画像復号装置は、符号化側と同様に、局所特徴量の類似性を用いて、複数の第1特徴点から、第2特徴点に局所特徴量に類似する局所特徴量を有する対応点を探索する。または、対応点情報がビットストリームに含まる場合には、画像復号装置は、当該対応点情報を復号し、当該対応点復号情報を用いて複数の第1特徴点から対応点を探索する。
次に、予測画像生成装置は、第2特徴点と対応点との関係に基づき、再構築画像から予測画像を生成する(S703)。具体的には、予測画像生成装置は、再構築画像内の対応点の周辺の画素値を用いて、上記関係に基づき予測画像を生成する。例えば、上記ブロック内モードでは、予測画像生成装置は、再構築画像内の対応点を含む領域の画素値を用いて予測画像を生成する。また、上記周辺ブロックモードでは、予測画像生成装置は、再構築画像内の対応点を含まない領域の画素値を用いて予測画像を生成する。
なお、画像符号化装置は、対応点の周辺の画素値を用いて予測画像を生成するのではなく、実施の形態2で説明したように、第2特徴点と対応点との関係に基づき、動き推定処理の初期値を設定し、当該初期値を用いて、動き推定処理を行うことで予測画像を生成してもよい。
また、画像符号化装置では、さらに、生成された予測画像を用いて対象ブロックが符号化され、画像復号装置では、さらに、生成された予測画像を用いて対象ブロックが復号される。
以上、実施の形態に係る予測画像生成方法、画像符号化方法に及び画像復号方法ついて説明したが、本発明は、この実施の形態に限定されるものではない。
また、上記実施の形態に係る予測画像生成装置、画像符号化装置及び画像復号装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
言い換えると、予測画像生成装置、画像符号化装置及び画像復号装置は、処理回路(processing circuitry)と、当該処理回路に電気的に接続された(当該制御回路からアクセス可能な)記憶装置(storage)とを備える。処理回路は、専用のハードウェア及びプログラム実行部の少なくとも一方を含む。また、記憶装置は、処理回路がプログラム実行部を含む場合には、当該プログラム実行部により実行されるソフトウェアプログラムを記憶する。処理回路は、記憶装置を用いて、上記実施の形態に係る予測画像生成方法、符号化方法又は復号方法を実行する。
さらに、本発明は上記ソフトウェアプログラムであってもよいし、上記プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。
また、上記の予測画像生成方法、符号化方法又は復号方法に含まれるステップが実行される順序は、本発明を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
以上、本発明の一つ又は複数の態様に係る予測画像生成装置、符号化装置及び復号装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の一つ又は複数の態様の範囲内に含まれてもよい。
(実施の形態4)
上記各実施の形態で示した動画像符号化方法(画像符号化方法)または動画像復号化方法(画像復号方法)の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ICカード、半導体メモリ等、プログラムを記録できるものであればよい。
さらにここで、上記各実施の形態で示した動画像符号化方法(画像符号化方法)や動画像復号化方法(画像復号方法)の応用例とそれを用いたシステムを説明する。当該システムは、画像符号化方法を用いた画像符号化装置、及び画像復号方法を用いた画像復号装置からなる画像符号化復号装置を有することを特徴とする。システムにおける他の構成について、場合に応じて適切に変更することができる。
図37は、コンテンツ配信サービスを実現するコンテンツ供給システムex100の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ex106、ex107、ex108、ex109、ex110が設置されている。
このコンテンツ供給システムex100は、インターネットex101にインターネットサービスプロバイダex102および電話網ex104、および基地局ex106からex110を介して、コンピュータex111、PDA(Personal Digital Assistant)ex112、カメラex113、携帯電話ex114、ゲーム機ex115などの各機器が接続される。
しかし、コンテンツ供給システムex100は図37のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ex106からex110を介さずに、各機器が電話網ex104に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。
カメラex113はデジタルビデオカメラ等の動画撮影が可能な機器であり、カメラex116はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、携帯電話ex114は、GSM(登録商標)(Global System for Mobile Communications)方式、CDMA(Code Division Multiple Access)方式、W−CDMA(Wideband-Code Division Multiple Access)方式、若しくはLTE(Long Term Evolution)方式、HSPA(High Speed Packet Access)の携帯電話機、またはPHS(Personal Handyphone System)等であり、いずれでも構わない。
コンテンツ供給システムex100では、カメラex113等が基地局ex109、電話網ex104を通じてストリーミングサーバex103に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラex113を用いて撮影するコンテンツ(例えば、音楽ライブの映像等)に対して上記各実施の形態で説明したように符号化処理を行い(即ち、本発明の一態様に係る画像符号化装置として機能する)、ストリーミングサーバex103に送信する。一方、ストリーミングサーバex103は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータex111、PDAex112、カメラex113、携帯電話ex114、ゲーム機ex115等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する(即ち、本発明の一態様に係る画像復号装置として機能する)。
なお、撮影したデータの符号化処理はカメラex113で行っても、データの送信処理をするストリーミングサーバex103で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバex103で行ってもよいし、互いに分担して行ってもよい。また、カメラex113に限らず、カメラex116で撮影した静止画像および/または動画像データを、コンピュータex111を介してストリーミングサーバex103に送信してもよい。この場合の符号化処理はカメラex116、コンピュータex111、ストリーミングサーバex103のいずれで行ってもよいし、互いに分担して行ってもよい。
また、これら符号化・復号化処理は、一般的にコンピュータex111や各機器が有するLSIex500において処理する。LSIex500は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータex111等で読み取り可能な何らかの記録メディア(CD−ROM、フレキシブルディスク、ハードディスクなど)に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、携帯電話ex114がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データは携帯電話ex114が有するLSIex500で符号化処理されたデータである。
また、ストリーミングサーバex103は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。
以上のようにして、コンテンツ供給システムex100では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムex100では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。
なお、コンテンツ供給システムex100の例に限らず、図38に示すように、デジタル放送用システムex200にも、上記各実施の形態の少なくとも動画像符号化装置(画像符号化装置)または動画像復号化装置(画像復号装置)のいずれかを組み込むことができる。具体的には、放送局ex201では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ex202に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである(即ち、本発明の一態様に係る画像符号化装置によって符号化されたデータである)。これを受けた放送衛星ex202は、放送用の電波を発信し、この電波を衛星放送の受信が可能な家庭のアンテナex204が受信する。受信した多重化データを、テレビ(受信機)ex300またはセットトップボックス(STB)ex217等の装置が復号化して再生する(即ち、本発明の一態様に係る画像復号装置として機能する)。
また、DVD、BD等の記録メディアex215に記録した多重化データを読み取り復号化する、または記録メディアex215に映像信号を符号化し、さらに場合によっては音楽信号と多重化して書き込むリーダ/レコーダex218にも上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタex219に表示され、多重化データが記録された記録メディアex215により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルex203または衛星/地上波放送のアンテナex204に接続されたセットトップボックスex217内に動画像復号化装置を実装し、これをテレビのモニタex219で表示してもよい。このときセットトップボックスではなく、テレビ内に動画像復号化装置を組み込んでもよい。
図39は、上記各実施の形態で説明した動画像復号化方法および動画像符号化方法を用いたテレビ(受信機)ex300を示す図である。テレビex300は、上記放送を受信するアンテナex204またはケーブルex203等を介して映像データに音声データが多重化された多重化データを取得、または出力するチューナex301と、受信した多重化データを復調する、または外部に送信する多重化データに変調する変調/復調部ex302と、復調した多重化データを映像データと、音声データとに分離する、または信号処理部ex306で符号化された映像データ、音声データを多重化する多重/分離部ex303を備える。
また、テレビex300は、音声データ、映像データそれぞれを復号化する、またはそれぞれの情報を符号化する音声信号処理部ex304、映像信号処理部ex305(本発明の一態様に係る画像符号化装置または画像復号装置として機能する)を有する信号処理部ex306と、復号化した音声信号を出力するスピーカex307、復号化した映像信号を表示するディスプレイ等の表示部ex308を有する出力部ex309とを有する。さらに、テレビex300は、ユーザ操作の入力を受け付ける操作入力部ex312等を有するインタフェース部ex317を有する。さらに、テレビex300は、各部を統括的に制御する制御部ex310、各部に電力を供給する電源回路部ex311を有する。インタフェース部ex317は、操作入力部ex312以外に、リーダ/レコーダex218等の外部機器と接続されるブリッジex313、SDカード等の記録メディアex216を装着可能とするためのスロット部ex314、ハードディスク等の外部記録メディアと接続するためのドライバex315、電話網と接続するモデムex316等を有していてもよい。なお記録メディアex216は、格納する不揮発性/揮発性の半導体メモリ素子により電気的に情報の記録を可能としたものである。テレビex300の各部は同期バスを介して互いに接続されている。
まず、テレビex300がアンテナex204等により外部から取得した多重化データを復号化し、再生する構成について説明する。テレビex300は、リモートコントローラex220等からのユーザ操作を受け、CPU等を有する制御部ex310の制御に基づいて、変調/復調部ex302で復調した多重化データを多重/分離部ex303で分離する。さらにテレビex300は、分離した音声データを音声信号処理部ex304で復号化し、分離した映像データを映像信号処理部ex305で上記各実施の形態で説明した復号化方法を用いて復号化する。復号化した音声信号、映像信号は、それぞれ出力部ex309から外部に向けて出力される。出力する際には、音声信号と映像信号が同期して再生するよう、バッファex318、ex319等に一旦これらの信号を蓄積するとよい。また、テレビex300は、放送等からではなく、磁気/光ディスク、SDカード等の記録メディアex215、ex216から多重化データを読み出してもよい。次に、テレビex300が音声信号や映像信号を符号化し、外部に送信または記録メディア等に書き込む構成について説明する。テレビex300は、リモートコントローラex220等からのユーザ操作を受け、制御部ex310の制御に基づいて、音声信号処理部ex304で音声信号を符号化し、映像信号処理部ex305で映像信号を上記各実施の形態で説明した符号化方法を用いて符号化する。符号化した音声信号、映像信号は多重/分離部ex303で多重化され外部に出力される。多重化する際には、音声信号と映像信号が同期するように、バッファex320、ex321等に一旦これらの信号を蓄積するとよい。なお、バッファex318、ex319、ex320、ex321は図示しているように複数備えていてもよいし、1つ以上のバッファを共有する構成であってもよい。さらに、図示している以外に、例えば変調/復調部ex302や多重/分離部ex303の間等でもシステムのオーバフロー、アンダーフローを避ける緩衝材としてバッファにデータを蓄積することとしてもよい。
また、テレビex300は、放送等や記録メディア等から音声データ、映像データを取得する以外に、マイクやカメラのAV入力を受け付ける構成を備え、それらから取得したデータに対して符号化処理を行ってもよい。なお、ここではテレビex300は上記の符号化処理、多重化、および外部出力ができる構成として説明したが、これらの処理を行うことはできず、上記受信、復号化処理、外部出力のみが可能な構成であってもよい。
また、リーダ/レコーダex218で記録メディアから多重化データを読み出す、または書き込む場合には、上記復号化処理または符号化処理はテレビex300、リーダ/レコーダex218のいずれで行ってもよいし、テレビex300とリーダ/レコーダex218が互いに分担して行ってもよい。
一例として、光ディスクからデータの読み込みまたは書き込みをする場合の情報再生/記録部ex400の構成を図40に示す。情報再生/記録部ex400は、以下に説明する要素ex401、ex402、ex403、ex404、ex405、ex406、ex407を備える。光ヘッドex401は、光ディスクである記録メディアex215の記録面にレーザスポットを照射して情報を書き込み、記録メディアex215の記録面からの反射光を検出して情報を読み込む。変調記録部ex402は、光ヘッドex401に内蔵された半導体レーザを電気的に駆動し記録データに応じてレーザ光の変調を行う。再生復調部ex403は、光ヘッドex401に内蔵されたフォトディテクタにより記録面からの反射光を電気的に検出した再生信号を増幅し、記録メディアex215に記録された信号成分を分離して復調し、必要な情報を再生する。バッファex404は、記録メディアex215に記録するための情報および記録メディアex215から再生した情報を一時的に保持する。ディスクモータex405は記録メディアex215を回転させる。サーボ制御部ex406は、ディスクモータex405の回転駆動を制御しながら光ヘッドex401を所定の情報トラックに移動させ、レーザスポットの追従処理を行う。システム制御部ex407は、情報再生/記録部ex400全体の制御を行う。上記の読み出しや書き込みの処理はシステム制御部ex407が、バッファex404に保持された各種情報を利用し、また必要に応じて新たな情報の生成・追加を行うと共に、変調記録部ex402、再生復調部ex403、サーボ制御部ex406を協調動作させながら、光ヘッドex401を通して、情報の記録再生を行うことにより実現される。システム制御部ex407は例えばマイクロプロセッサで構成され、読み出し書き込みのプログラムを実行することでそれらの処理を実行する。
以上では、光ヘッドex401はレーザスポットを照射するとして説明したが、近接場光を用いてより高密度な記録を行う構成であってもよい。
図41に光ディスクである記録メディアex215の模式図を示す。記録メディアex215の記録面には案内溝(グルーブ)がスパイラル状に形成され、情報トラックex230には、予めグルーブの形状の変化によってディスク上の絶対位置を示す番地情報が記録されている。この番地情報はデータを記録する単位である記録ブロックex231の位置を特定するための情報を含み、記録や再生を行う装置において情報トラックex230を再生し番地情報を読み取ることで記録ブロックを特定することができる。また、記録メディアex215は、データ記録領域ex233、内周領域ex232、外周領域ex234を含んでいる。ユーザデータを記録するために用いる領域がデータ記録領域ex233であり、データ記録領域ex233より内周または外周に配置されている内周領域ex232と外周領域ex234は、ユーザデータの記録以外の特定用途に用いられる。情報再生/記録部ex400は、このような記録メディアex215のデータ記録領域ex233に対して、符号化された音声データ、映像データまたはそれらのデータを多重化した多重化データの読み書きを行う。
以上では、1層のDVD、BD等の光ディスクを例に挙げ説明したが、これらに限ったものではなく、多層構造であって表面以外にも記録可能な光ディスクであってもよい。また、ディスクの同じ場所にさまざまな異なる波長の色の光を用いて情報を記録したり、さまざまな角度から異なる情報の層を記録したりなど、多次元的な記録/再生を行う構造の光ディスクであってもよい。
また、デジタル放送用システムex200において、アンテナex205を有する車ex210で衛星ex202等からデータを受信し、車ex210が有するカーナビゲーションex211等の表示装置に動画を再生することも可能である。なお、カーナビゲーションex211の構成は例えば図39に示す構成のうち、GPS受信部を加えた構成が考えられ、同様なことがコンピュータex111や携帯電話ex114等でも考えられる。
図42Aは、上記実施の形態で説明した動画像復号化方法および動画像符号化方法を用いた携帯電話ex114を示す図である。携帯電話ex114は、基地局ex110との間で電波を送受信するためのアンテナex350、映像、静止画を撮ることが可能なカメラ部ex365、カメラ部ex365で撮像した映像、アンテナex350で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ex358を備える。携帯電話ex114は、さらに、操作キー部ex366を有する本体部、音声を出力するためのスピーカ等である音声出力部ex357、音声を入力するためのマイク等である音声入力部ex356、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存するメモリ部ex367、又は同様にデータを保存する記録メディアとのインタフェース部であるスロット部ex364を備える。
さらに、携帯電話ex114の構成例について、図42Bを用いて説明する。携帯電話ex114は、表示部ex358及び操作キー部ex366を備えた本体部の各部を統括的に制御する主制御部ex360に対して、電源回路部ex361、操作入力制御部ex362、映像信号処理部ex355、カメラインタフェース部ex363、LCD(Liquid Crystal Display)制御部ex359、変調/復調部ex352、多重/分離部ex353、音声信号処理部ex354、スロット部ex364、メモリ部ex367がバスex370を介して互いに接続されている。
電源回路部ex361は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することにより携帯電話ex114を動作可能な状態に起動する。
携帯電話ex114は、CPU、ROM、RAM等を有する主制御部ex360の制御に基づいて、音声通話モード時に音声入力部ex356で収音した音声信号を音声信号処理部ex354でデジタル音声信号に変換し、これを変調/復調部ex352でスペクトラム拡散処理し、送信/受信部ex351でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex350を介して送信する。また携帯電話ex114は、音声通話モード時にアンテナex350を介して受信した受信データを増幅して周波数変換処理およびアナログデジタル変換処理を施し、変調/復調部ex352でスペクトラム逆拡散処理し、音声信号処理部ex354でアナログ音声信号に変換した後、これを音声出力部ex357から出力する。
さらにデータ通信モード時に電子メールを送信する場合、本体部の操作キー部ex366等の操作によって入力された電子メールのテキストデータは操作入力制御部ex362を介して主制御部ex360に送出される。主制御部ex360は、テキストデータを変調/復調部ex352でスペクトラム拡散処理をし、送信/受信部ex351でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex350を介して基地局ex110へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ex358に出力される。
データ通信モード時に映像、静止画、または映像と音声を送信する場合、映像信号処理部ex355は、カメラ部ex365から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し(即ち、本発明の一態様に係る画像符号化装置として機能する)、符号化された映像データを多重/分離部ex353に送出する。また、音声信号処理部ex354は、映像、静止画等をカメラ部ex365で撮像中に音声入力部ex356で収音した音声信号を符号化し、符号化された音声データを多重/分離部ex353に送出する。
多重/分離部ex353は、映像信号処理部ex355から供給された符号化された映像データと音声信号処理部ex354から供給された符号化された音声データを所定の方式で多重化し、その結果得られる多重化データを変調/復調部(変調/復調回路部)ex352でスペクトラム拡散処理をし、送信/受信部ex351でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex350を介して送信する。
データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナex350を介して受信された多重化データを復号化するために、多重/分離部ex353は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスex370を介して符号化された映像データを映像信号処理部ex355に供給するとともに、符号化された音声データを音声信号処理部ex354に供給する。映像信号処理部ex355は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し(即ち、本発明の一態様に係る画像復号装置として機能する)、LCD制御部ex359を介して表示部ex358から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ex354は、音声信号を復号し、音声出力部ex357から音声が出力される。
また、上記携帯電話ex114等の端末は、テレビex300と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という3通りの実装形式が考えられる。さらに、デジタル放送用システムex200において、映像データに音楽データなどが多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。
このように、上記各実施の形態で示した動画像符号化方法あるいは動画像復号化方法を上述したいずれの機器・システムに用いることは可能であり、そうすることで、上記各実施の形態で説明した効果を得ることができる。
また、本発明はかかる上記実施の形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。
(実施の形態5)
上記各実施の形態で示した動画像符号化方法または装置と、MPEG−2、MPEG4−AVC、VC−1など異なる規格に準拠した動画像符号化方法または装置とを、必要に応じて適宜切替えることにより、映像データを生成することも可能である。
ここで、それぞれ異なる規格に準拠する複数の映像データを生成した場合、復号する際に、それぞれの規格に対応した復号方法を選択する必要がある。しかしながら、復号する映像データが、どの規格に準拠するものであるか識別できないため、適切な復号方法を選択することができないという課題を生じる。
この課題を解決するために、映像データに音声データなどを多重化した多重化データは、映像データがどの規格に準拠するものであるかを示す識別情報を含む構成とする。上記各実施の形態で示す動画像符号化方法または装置によって生成された映像データを含む多重化データの具体的な構成を以下説明する。多重化データは、MPEG−2トランスポートストリーム形式のデジタルストリームである。
図43は、多重化データの構成を示す図である。図43に示すように多重化データは、ビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム(PG)、インタラクティブグラフィックスストリームのうち、1つ以上を多重化することで得られる。ビデオストリームは映画の主映像および副映像を、オーディオストリーム(IG)は映画の主音声部分とその主音声とミキシングする副音声を、プレゼンテーショングラフィックスストリームは、映画の字幕をそれぞれ示している。ここで主映像とは画面に表示される通常の映像を示し、副映像とは主映像の中に小さな画面で表示する映像のことである。また、インタラクティブグラフィックスストリームは、画面上にGUI部品を配置することにより作成される対話画面を示している。ビデオストリームは、上記各実施の形態で示した動画像符号化方法または装置、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠した動画像符号化方法または装置によって符号化されている。オーディオストリームは、ドルビーAC−3、Dolby Digital Plus、MLP、DTS、DTS−HD、または、リニアPCMのなどの方式で符号化されている。
多重化データに含まれる各ストリームはPIDによって識別される。例えば、映画の映像に利用するビデオストリームには0x1011が、オーディオストリームには0x1100から0x111Fまでが、プレゼンテーショングラフィックスには0x1200から0x121Fまでが、インタラクティブグラフィックスストリームには0x1400から0x141Fまでが、映画の副映像に利用するビデオストリームには0x1B00から0x1B1Fまで、主音声とミキシングする副音声に利用するオーディオストリームには0x1A00から0x1A1Fが、それぞれ割り当てられている。
図44は、多重化データがどのように多重化されるかを模式的に示す図である。まず、複数のビデオフレームからなるビデオストリームex235、複数のオーディオフレームからなるオーディオストリームex238を、それぞれPESパケット列ex236およびex239に変換し、TSパケットex237およびex240に変換する。同じくプレゼンテーショングラフィックスストリームex241およびインタラクティブグラフィックスex244のデータをそれぞれPESパケット列ex242およびex245に変換し、さらにTSパケットex243およびex246に変換する。多重化データex247はこれらのTSパケットを1本のストリームに多重化することで構成される。
図45は、PESパケット列に、ビデオストリームがどのように格納されるかをさらに詳しく示している。図45における第1段目はビデオストリームのビデオフレーム列を示す。第2段目は、PESパケット列を示す。図45の矢印yy1,yy2,yy3,yy4に示すように、ビデオストリームにおける複数のVideo Presentation UnitであるIピクチャ、Bピクチャ、Pピクチャは、ピクチャ毎に分割され、PESパケットのペイロードに格納される。各PESパケットはPESヘッダを持ち、PESヘッダには、ピクチャの表示時刻であるPTS(Presentation Time−Stamp)やピクチャの復号時刻であるDTS(Decoding Time−Stamp)が格納される。
図46は、多重化データに最終的に書き込まれるTSパケットの形式を示している。TSパケットは、ストリームを識別するPIDなどの情報を持つ4ByteのTSヘッダとデータを格納する184ByteのTSペイロードから構成される188Byte固定長のパケットであり、上記PESパケットは分割されTSペイロードに格納される。BD−ROMの場合、TSパケットには、4ByteのTP_Extra_Headerが付与され、192Byteのソースパケットを構成し、多重化データに書き込まれる。TP_Extra_HeaderにはATS(Arrival_Time_Stamp)などの情報が記載される。ATSは当該TSパケットのデコーダのPIDフィルタへの転送開始時刻を示す。多重化データには図46下段に示すようにソースパケットが並ぶこととなり、多重化データの先頭からインクリメントする番号はSPN(ソースパケットナンバー)と呼ばれる。
また、多重化データに含まれるTSパケットには、映像・音声・字幕などの各ストリーム以外にもPAT(Program Association Table)、PMT(Program Map Table)、PCR(Program Clock Reference)などがある。PATは多重化データ中に利用されるPMTのPIDが何であるかを示し、PAT自身のPIDは0で登録される。PMTは、多重化データ中に含まれる映像・音声・字幕などの各ストリームのPIDと各PIDに対応するストリームの属性情報を持ち、また多重化データに関する各種ディスクリプタを持つ。ディスクリプタには多重化データのコピーを許可・不許可を指示するコピーコントロール情報などがある。PCRは、ATSの時間軸であるATC(Arrival Time Clock)とPTS・DTSの時間軸であるSTC(System Time Clock)の同期を取るために、そのPCRパケットがデコーダに転送されるATSに対応するSTC時間の情報を持つ。
図47はPMTのデータ構造を詳しく説明する図である。PMTの先頭には、そのPMTに含まれるデータの長さなどを記したPMTヘッダが配置される。その後ろには、多重化データに関するディスクリプタが複数配置される。上記コピーコントロール情報などが、ディスクリプタとして記載される。ディスクリプタの後には、多重化データに含まれる各ストリームに関するストリーム情報が複数配置される。ストリーム情報は、ストリームの圧縮コーデックなどを識別するためストリームタイプ、ストリームのPID、ストリームの属性情報(フレームレート、アスペクト比など)が記載されたストリームディスクリプタから構成される。ストリームディスクリプタは多重化データに存在するストリームの数だけ存在する。
記録媒体などに記録する場合には、上記多重化データは、多重化データ情報ファイルと共に記録される。
多重化データ情報ファイルは、図48に示すように多重化データの管理情報であり、多重化データと1対1に対応し、多重化データ情報、ストリーム属性情報とエントリマップから構成される。
多重化データ情報は図48に示すようにシステムレート、再生開始時刻、再生終了時刻から構成されている。システムレートは多重化データの、後述するシステムターゲットデコーダのPIDフィルタへの最大転送レートを示す。多重化データ中に含まれるATSの間隔はシステムレート以下になるように設定されている。再生開始時刻は多重化データの先頭のビデオフレームのPTSであり、再生終了時刻は多重化データの終端のビデオフレームのPTSに1フレーム分の再生間隔を足したものが設定される。
ストリーム属性情報は図49に示すように、多重化データに含まれる各ストリームについての属性情報が、PID毎に登録される。属性情報はビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム、インタラクティブグラフィックスストリーム毎に異なる情報を持つ。ビデオストリーム属性情報は、そのビデオストリームがどのような圧縮コーデックで圧縮されたか、ビデオストリームを構成する個々のピクチャデータの解像度がどれだけであるか、アスペクト比はどれだけであるか、フレームレートはどれだけであるかなどの情報を持つ。オーディオストリーム属性情報は、そのオーディオストリームがどのような圧縮コーデックで圧縮されたか、そのオーディオストリームに含まれるチャンネル数は何であるか、何の言語に対応するか、サンプリング周波数がどれだけであるかなどの情報を持つ。これらの情報は、プレーヤが再生する前のデコーダの初期化などに利用される。
本実施の形態においては、上記多重化データのうち、PMTに含まれるストリームタイプを利用する。また、記録媒体に多重化データが記録されている場合には、多重化データ情報に含まれる、ビデオストリーム属性情報を利用する。具体的には、上記各実施の形態で示した動画像符号化方法または装置において、PMTに含まれるストリームタイプ、または、ビデオストリーム属性情報に対し、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示す固有の情報を設定するステップまたは手段を設ける。この構成により、上記各実施の形態で示した動画像符号化方法または装置によって生成した映像データと、他の規格に準拠する映像データとを識別することが可能になる。
また、本実施の形態における動画像復号化方法のステップを図50に示す。ステップexS100において、多重化データからPMTに含まれるストリームタイプ、または、多重化データ情報に含まれるビデオストリーム属性情報を取得する。次に、ステップexS101において、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成された多重化データであることを示しているか否かを判断する。そして、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成されたものであると判断された場合には、ステップexS102において、上記各実施の形態で示した動画像復号方法により復号を行う。また、ストリームタイプ、または、ビデオストリーム属性情報が、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠するものであることを示している場合には、ステップexS103において、従来の規格に準拠した動画像復号方法により復号を行う。
このように、ストリームタイプ、または、ビデオストリーム属性情報に新たな固有値を設定することにより、復号する際に、上記各実施の形態で示した動画像復号化方法または装置で復号可能であるかを判断することができる。従って、異なる規格に準拠する多重化データが入力された場合であっても、適切な復号化方法または装置を選択することができるため、エラーを生じることなく復号することが可能となる。また、本実施の形態で示した動画像符号化方法または装置、または、動画像復号方法または装置を、上述したいずれの機器・システムに用いることも可能である。
(実施の形態6)
上記各実施の形態で示した動画像符号化方法および装置、動画像復号化方法および装置は、典型的には集積回路であるLSIで実現される。一例として、図51に1チップ化されたLSIex500の構成を示す。LSIex500は、以下に説明する要素ex501、ex502、ex503、ex504、ex505、ex506、ex507、ex508、ex509を備え、各要素はバスex510を介して接続している。電源回路部ex505は電源がオン状態の場合に各部に対して電力を供給することで動作可能な状態に起動する。
例えば符号化処理を行う場合には、LSIex500は、CPUex502、メモリコントローラex503、ストリームコントローラex504、駆動周波数制御部ex512等を有する制御部ex501の制御に基づいて、AV I/Oex509によりマイクex117やカメラex113等からAV信号を入力する。入力されたAV信号は、一旦SDRAM等の外部のメモリex511に蓄積される。制御部ex501の制御に基づいて、蓄積したデータは処理量や処理速度に応じて適宜複数回に分けるなどされ信号処理部ex507に送られ、信号処理部ex507において音声信号の符号化および/または映像信号の符号化が行われる。ここで映像信号の符号化処理は上記各実施の形態で説明した符号化処理である。信号処理部ex507ではさらに、場合により符号化された音声データと符号化された映像データを多重化するなどの処理を行い、ストリームI/Oex506から外部に出力する。この出力された多重化データは、基地局ex107に向けて送信されたり、または記録メディアex215に書き込まれたりする。なお、多重化する際には同期するよう、一旦バッファex508にデータを蓄積するとよい。
なお、上記では、メモリex511がLSIex500の外部の構成として説明したが、LSIex500の内部に含まれる構成であってもよい。バッファex508も1つに限ったものではなく、複数のバッファを備えていてもよい。また、LSIex500は1チップ化されてもよいし、複数チップ化されてもよい。
また、上記では、制御部ex501が、CPUex502、メモリコントローラex503、ストリームコントローラex504、駆動周波数制御部ex512等を有するとしているが、制御部ex501の構成は、この構成に限らない。例えば、信号処理部ex507がさらにCPUを備える構成であってもよい。信号処理部ex507の内部にもCPUを設けることにより、処理速度をより向上させることが可能になる。また、他の例として、CPUex502が信号処理部ex507、または信号処理部ex507の一部である例えば音声信号処理部を備える構成であってもよい。このような場合には、制御部ex501は、信号処理部ex507、またはその一部を有するCPUex502を備える構成となる。
なお、ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。このようなプログラマブル・ロジック・デバイスは、典型的には、ソフトウェア又はファームウェアを構成するプログラムを、ロードする又はメモリ等から読み込むことで、上記各実施の形態で示した動画像符号化方法、又は動画像復号化方法を実行することができる。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
(実施の形態7)
上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データを復号する場合、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データを復号する場合に比べ、処理量が増加することが考えられる。そのため、LSIex500において、従来の規格に準拠する映像データを復号する際のCPUex502の駆動周波数よりも高い駆動周波数に設定する必要がある。しかし、駆動周波数を高くすると、消費電力が高くなるという課題が生じる。
この課題を解決するために、テレビex300、LSIex500などの動画像復号化装置は、映像データがどの規格に準拠するものであるかを識別し、規格に応じて駆動周波数を切替える構成とする。図52は、本実施の形態における構成ex800を示している。駆動周波数切替え部ex803は、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合には、駆動周波数を高く設定する。そして、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex801に対し、映像データを復号するよう指示する。一方、映像データが、従来の規格に準拠する映像データである場合には、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合に比べ、駆動周波数を低く設定する。そして、従来の規格に準拠する復号処理部ex802に対し、映像データを復号するよう指示する。
より具体的には、駆動周波数切替え部ex803は、図51のCPUex502と駆動周波数制御部ex512から構成される。また、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex801、および、従来の規格に準拠する復号処理部ex802は、図51の信号処理部ex507に該当する。CPUex502は、映像データがどの規格に準拠するものであるかを識別する。そして、CPUex502からの信号に基づいて、駆動周波数制御部ex512は、駆動周波数を設定する。また、CPUex502からの信号に基づいて、信号処理部ex507は、映像データの復号を行う。ここで、映像データの識別には、例えば、実施の形態5で記載した識別情報を利用することが考えられる。識別情報に関しては、実施の形態5で記載したものに限られず、映像データがどの規格に準拠するか識別できる情報であればよい。例えば、映像データがテレビに利用されるものであるか、ディスクに利用されるものであるかなどを識別する外部信号に基づいて、映像データがどの規格に準拠するものであるか識別可能である場合には、このような外部信号に基づいて識別してもよい。また、CPUex502における駆動周波数の選択は、例えば、図54のような映像データの規格と、駆動周波数とを対応付けたルックアップテーブルに基づいて行うことが考えられる。ルックアップテーブルを、バッファex508や、LSIの内部メモリに格納しておき、CPUex502がこのルックアップテーブルを参照することにより、駆動周波数を選択することが可能である。
図53は、本実施の形態の方法を実施するステップを示している。まず、ステップexS200では、信号処理部ex507において、多重化データから識別情報を取得する。次に、ステップexS201では、CPUex502において、識別情報に基づいて映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものであるか否かを識別する。映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合には、ステップexS202において、駆動周波数を高く設定する信号を、CPUex502が駆動周波数制御部ex512に送る。そして、駆動周波数制御部ex512において、高い駆動周波数に設定される。一方、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合には、ステップexS203において、駆動周波数を低く設定する信号を、CPUex502が駆動周波数制御部ex512に送る。そして、駆動周波数制御部ex512において、映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合に比べ、低い駆動周波数に設定される。
さらに、駆動周波数の切替えに連動して、LSIex500またはLSIex500を含む装置に与える電圧を変更することにより、省電力効果をより高めることが可能である。例えば、駆動周波数を低く設定する場合には、これに伴い、駆動周波数を高く設定している場合に比べ、LSIex500またはLSIex500を含む装置に与える電圧を低く設定することが考えられる。
また、駆動周波数の設定方法は、復号する際の処理量が大きい場合に、駆動周波数を高く設定し、復号する際の処理量が小さい場合に、駆動周波数を低く設定すればよく、上述した設定方法に限らない。例えば、MPEG4−AVC規格に準拠する映像データを復号する処理量の方が、上記各実施の形態で示した動画像符号化方法または装置により生成された映像データを復号する処理量よりも大きい場合には、駆動周波数の設定を上述した場合の逆にすることが考えられる。
さらに、駆動周波数の設定方法は、駆動周波数を低くする構成に限らない。例えば、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、LSIex500またはLSIex500を含む装置に与える電圧を高く設定し、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合には、LSIex500またはLSIex500を含む装置に与える電圧を低く設定することも考えられる。また、他の例としては、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、CPUex502の駆動を停止させることなく、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合には、処理に余裕があるため、CPUex502の駆動を一時停止させることも考えられる。識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合であっても、処理に余裕があれば、CPUex502の駆動を一時停止させることも考えられる。この場合は、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する映像データであることを示している場合に比べて、停止時間を短く設定することが考えられる。
このように、映像データが準拠する規格に応じて、駆動周波数を切替えることにより、省電力化を図ることが可能になる。また、電池を用いてLSIex500またはLSIex500を含む装置を駆動している場合には、省電力化に伴い、電池の寿命を長くすることが可能である。
(実施の形態8)
テレビや、携帯電話など、上述した機器・システムには、異なる規格に準拠する複数の映像データが入力される場合がある。このように、異なる規格に準拠する複数の映像データが入力された場合にも復号できるようにするために、LSIex500の信号処理部ex507が複数の規格に対応している必要がある。しかし、それぞれの規格に対応する信号処理部ex507を個別に用いると、LSIex500の回路規模が大きくなり、また、コストが増加するという課題が生じる。
この課題を解決するために、上記各実施の形態で示した動画像復号方法を実行するための復号処理部と、従来のMPEG−2、MPEG4−AVC、VC−1などの規格に準拠する復号処理部とを一部共有化する構成とする。この構成例を図55Aのex900に示す。例えば、上記各実施の形態で示した動画像復号方法と、MPEG4−AVC規格に準拠する動画像復号方法とは、エントロピー符号化、逆量子化、デブロッキング・フィルタ、動き補償などの処理において処理内容が一部共通する。共通する処理内容については、MPEG4−AVC規格に対応する復号処理部ex902を共有し、MPEG4−AVC規格に対応しない、本発明の一態様に特有の他の処理内容については、専用の復号処理部ex901を用いるという構成が考えられる。特に、本発明の一態様は、動き補償に特徴を有していることから、例えば、動き補償については専用の復号処理部ex901を用い、それ以外の逆量子化、エントロピー復号、デブロッキング・フィルタのいずれか、または、全ての処理については、復号処理部を共有することが考えられる。復号処理部の共有化に関しては、共通する処理内容については、上記各実施の形態で示した動画像復号化方法を実行するための復号処理部を共有し、MPEG4−AVC規格に特有の処理内容については、専用の復号処理部を用いる構成であってもよい。
また、処理を一部共有化する他の例を図55Bのex1000に示す。この例では、本発明の一態様に特有の処理内容に対応した専用の復号処理部ex1001と、他の従来規格に特有の処理内容に対応した専用の復号処理部ex1002と、本発明の一態様に係る動画像復号方法と他の従来規格の動画像復号方法とに共通する処理内容に対応した共用の復号処理部ex1003とを用いる構成としている。ここで、専用の復号処理部ex1001、ex1002は、必ずしも本発明の一態様、または、他の従来規格に特有の処理内容に特化したものではなく、他の汎用処理を実行できるものであってもよい。また、本実施の形態の構成を、LSIex500で実装することも可能である。
このように、本発明の一態様に係る動画像復号方法と、従来の規格の動画像復号方法とで共通する処理内容について、復号処理部を共有することにより、LSIの回路規模を小さくし、かつ、コストを低減することが可能である。