JP2012060611A

JP2012060611A - 画像処理装置、画像処理方法、および動画像ファイルのデータ構造

Info

Publication number: JP2012060611A
Application number: JP2010204805A
Authority: JP
Inventors: Tetsugo Inada; 徹悟稲田; Akio Oba; 章男大場; Hiroyuki Segawa; 博之勢川
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2010-09-13
Filing date: 2010-09-13
Publication date: 2012-03-22
Anticipated expiration: 2030-09-13
Also published as: JP5544253B2

Abstract

【課題】動画像表示において視点移動を精度よく行う。
【解決手段】動画像のデータは、図の上から下へ向かうｚ軸方向に、第０階層３０、第１階層３２、第２階層３４および第３階層３６からなる階層構造とする。各階層は１つの動画像を異なる解像度で表した動画データ、すなわち複数の画像フレームを時系列順に並べたデータで構成する。動画表示時の視点座標およびそれに対応する表示領域は、画像の左右方向を表すｘ軸、上下方向を表すｙ軸、解像度を表すｚ軸からなる仮想的な３次元空間で定まる。ｚ軸に対し階層の切り替え境界を設けておくことにより、フレーム座標のｚの値に応じて、フレーム描画に用いる動画データの階層を切り替える。
【選択図】図３

Description

本発明は、動画像を表示する画像処理装置および画像処理方法に関する。

ゲームプログラムを実行するだけでなく、動画を再生できる家庭用エンタテインメントシステムが提案されている。この家庭用エンタテインメントシステムでは、ＧＰＵがポリゴンを用いた三次元画像を生成する（例えば特許文献１参照）。

動画、静止画に関わらず、画像をいかに効率よく表示するかは常に重要な問題となる。そのため画像データの圧縮技術、伝送技術、画像処理技術、表示技術など多方面で様々な技術が開発、実用化され、高精細な画像を多様な場面で身近に楽しめるようになってきた。

米国特許第６５６３９９９号公報

高精細な画像をユーザの要求に従い応答性よく表示させたい、という要求は常に存在する。例えば表示させた全体画像のうちユーザが着目したい領域を拡大して表示させたり別の領域に移動したり、といった、ユーザの視点に対し自由度のある画像表示を応答性よく実現するためには、サイズの大きな画像データを短時間で処理しつつランダムアクセスをも可能にしなければならず、さらなる技術の進歩が求められている。

本発明はこのような課題に鑑みてなされたものであり、その目的はユーザによる表示領域に係る操作入力に対し応答性よく高精細な動画像を表示することのできる画像処理技術を提供することにある。

本発明のある態様は画像処理装置に関する。この画像処理装置は、一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列を解像度順に階層化してなる階層動画データを格納した動画データ記憶部と、ユーザによる表示領域に係る操作入力の情報を逐次取得する入力情報取得部と、入力情報取得部が取得した操作入力の情報に従い、動画のうち表示する領域を変化させながら、階層動画データを用いて、表示装置に表示する動画像を生成する表示画像処理部と、を備え、表示画像処理部は、操作入力の情報によって定まる解像度の変化に応じて、階層動画データのうち動画像の生成に用いる階層を切り替えることを特徴とする。

本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は、一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列を解像度順に階層化してなる階層動画データを記憶装置から読み出し、それを用いて表示装置に表示する動画像を生成するステップと、ユーザによる表示領域に係る操作入力の情報を取得するステップと、操作入力の情報に従い、動画のうち表示する領域を変化させるステップと、を含み、変化させるステップは、操作入力の情報によって定まる解像度の変化に応じて、階層動画データのうち動画像の生成に用いる階層を切り替えるステップを含むことを特徴とする。

本発明のさらに別の態様は動画像ファイルのデータ構造に関する。このデータ構造は、表示装置に表示するための動画像ファイルのデータ構造であって、ユーザによる表示領域に係る操作入力によって定まる解像度と、一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列であり、解像度に応じて切り替えて用いられる画像フレーム列と、を対応づけたことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によると、ユーザの操作入力に対し円滑に応答できる動画像表示を実現できる。

本実施の形態に適用できる画像処理システムの使用環境を示す図である。図１の画像処理システムに適用できる入力装置の外観構成例を示す図である。本実施の形態において処理対象とする動画像の階層データを概念的に示す図である。本実施の形態における画像処理装置の構成を示す図である。本実施の形態において、階層構造を有する動画データを用いて動画を表示する機能を有する制御部の構成を詳細に示す図である。本実施の形態において処理対象となる動画データの構造例を示す図である。本実施の形態において処理対象となる動画データの構造例を示す図である。本実施の形態において処理対象となる動画データの構造例を示す図である。本実施の形態において処理対象となる動画データの構造例を示す図である。本実施の形態において一部の階層の動画ストリームを別の階層の動画ストリームで代替させる場合の動画のデータ構造を模式的に示す図である。本実施の形態において、動画データ圧縮機能を有する制御部およびハードディスクドライブの構成を詳細に示す図である。図１１で示した制御部を含む画像処理装置が実施する動画ストリームの圧縮手順を模式的に示す図である。本実施の形態においてＹ画像列の符号化単位からパレットおよびインデックスのデータを生成する手法を模式的に示す図である。本実施の形態においてＣｂＣｒ画像列の符号化単位からパレットおよびインデックスのデータを生成する手法を模式的に示す図である。本実施の形態において１つの処理単位を分割するパターンのバリエーションを示す図である。本実施の形態における分割パターンマップのデータ構造例を示す図である。本実施の形態の圧縮データ記憶部における圧縮データの配列を説明するための図である。本実施の形態において圧縮符号化処理を動画ストリーム全体に施したときのデータの変遷を模式的に示す図である。本実施の形態において２つのパレットに分割パターンの識別番号を埋め込む手法を説明するための図である。

本実施の形態では動画像表示において、ユーザの視点移動要求に対応した表示領域の移動を可能にする。ここでの視点移動は、画像平面へ視点を近づけたり離したりすることを含み、それに応じて動画像は、再生されつつ拡大および縮小されることになる。そこで本実施の形態では処理対象の動画像データを、１つの動画像を異なる解像度で表した画像フレーム列からそれぞれ構成される複数の動画像ストリームを解像度順に階層化してなる階層構造とする。そして視点の遠近方向の移動要求に対し、表示に使用する動画ストリームを異なる階層へ切り替えることで、拡大表示や縮小表示を迅速に行う。以後、このような階層構造を有する動画像データを「階層データ」とも呼ぶ。

まず、このような階層データの基本的な表示態様について説明する。図１は、本実施の形態を適用できる画像処理システム１の使用環境を示す。画像処理システム１は、画像処理ソフトウェアを実行する画像処理装置１０と、画像処理装置１０による処理結果を出力する表示装置１２とを備える。表示装置１２は、画像を出力するディスプレイおよび音声を出力するスピーカを有するテレビであってよい。

表示装置１２は、画像処理装置１０に有線ケーブルで接続されてよく、また無線ＬＡＮ（Local Area Network）などにより無線接続されてもよい。画像処理システム１において、画像処理装置１０は、ケーブル１４を介してインターネットなどの外部ネットワークに接続し、階層データをダウンロードして取得してもよい。なお画像処理装置１０は、無線通信により外部ネットワークに接続してもよい。

画像処理装置１０は、たとえばゲーム装置やパーソナルコンピュータであってよく、画像処理用のアプリケーションプログラムをロードすることで画像処理機能を実現してもよい。画像処理装置１０は、ユーザからの視点移動要求に応じて、表示装置１２のディスプレイに表示する動画像の拡大／縮小処理や、上下左右方向へのスクロール処理などを行う。以後、このような拡大／縮小を含めた表示領域の変更処理を「表示領域の移動」と表現する。ユーザが、ディスプレイに表示された画像を見ながら入力装置を操作すると、入力装置が、表示領域移動要求信号を画像処理装置１０に送信する。

図２は、入力装置２０の外観構成例を示す。入力装置２０は、ユーザが操作可能な操作手段として、十字キー２１、アナログスティック２７ａ、２７ｂと、４種の操作ボタン２６を備える。４種の操作ボタン２６は、○ボタン２２、×ボタン２３、□ボタン２４および△ボタン２５から構成される。

画像処理システム１において、入力装置２０の操作手段には、表示画像の拡大／縮小要求、および上下左右方向へのスクロール要求を入力するための機能が割り当てられる。たとえば、表示画像の拡大／縮小要求の入力機能は、右側のアナログスティック２７ｂに割り当てられる。ユーザはアナログスティック２７ｂを手前に引くことで、表示画像の縮小要求を入力でき、また手前から押すことで、表示画像の拡大要求を入力できる。

また、スクロール要求の入力機能は、十字キー２１に割り当てられる。ユーザは十字キー２１を押下することで、十字キー２１を押下した方向へのスクロール要求を入力できる。なお、表示領域移動要求の入力機能は別の操作手段に割り当てられてもよく、たとえばアナログスティック２７ａに、スクロール要求の入力機能が割り当てられてもよい。

入力装置２０は、入力された表示領域移動要求の信号を画像処理装置１０に伝送する機能をもち、本実施の形態では画像処理装置１０との間で無線通信可能に構成される。入力装置２０と画像処理装置１０は、Bluetooth（ブルートゥース）（登録商標）プロトコルやIEEE802.11プロトコルなどを用いて無線接続を確立してもよい。なお入力装置２０は、画像処理装置１０とケーブルを介して接続して、表示領域移動要求の信号を画像処理装置１０に伝送してもよい。

図３は、本実施の形態において処理対象とする動画像の階層データを概念的に示している。階層データは、図の上から下へ向かうｚ軸方向に、第０階層３０、第１階層３２、第２階層３４および第３階層３６からなる階層構造を有する。なお同図においては４階層のみ示しているが、階層数はこれに限定されない。上述のとおり各階層は１つの動画像を異なる解像度で表した動画データ、すなわち複数の画像フレームを時系列順に並べたデータで構成される。同図においては各階層を４枚の画像フレームで象徴的に表しているが画像フレームの数は動画像の再生時間やフレームレートによって当然異なる。

なお後述するように本実施の形態は動画像データが有する画像平面および時間軸の３次元空間に対するランダムアクセス性に優れている。そのため例えば時間軸を「奥行き」とみなすことにより、動画像データに代えて３次元ボリュームデータを処理対象としてもよい。同様に３次元方向において冗長性を持ち得るデータであれば、パラメータの種類は特に限定されない。

階層データは例えば４分木の階層構造を有し、各階層を構成する画像フレームを同一サイズを有する「タイル画像」に分割した場合、第０階層３０は１個のタイル画像、第１階層３２は２×２個のタイル画像、第２階層３４は４×４個のタイル画像、第３階層は８×８個のタイル画像、などとなる。このとき第Ｎ階層の解像度（Ｎは０以上の整数）は、画像平面上で左右（ｘ軸）方向、上下（ｙ軸）方向ともに、第（Ｎ＋１）階層の解像度の１／２となる。階層データは、最高解像度をもつ第３階層３６の動画像をもとに、画像フレームを複数段階に縮小するなどして生成することができる。

動画表示時の視点座標およびそれに対応する表示領域は、図３に示すように、画像の左右方向を表すｘ軸、上下方向を表すｙ軸、解像度を表すｚ軸からなる仮想的な３次元空間で表すことができる。なお上述のとおり本実施の形態では複数の画像フレームが連なる動画データを階層として準備するため、実際に表示される画像は再生が開始されてからの時間にも依存し、同図では階層ごとに時間軸ｔを表している。

画像処理装置１０は、基本的には時間軸ｔに沿っていずれかの階層の画像フレームを所定のフレームレートで順次描画していく。例えば第０階層３０の解像度の動画像を基準画像として表示する。その過程で入力装置２０から表示領域移動要求信号が供給されたら、当該信号から表示画像の変更量を導出し、その変更量を用いて次のフレームの、仮想空間における４隅の座標（フレーム座標）を導出する。そして当該フレーム座標に対応する画像フレームを描画する。この際、ｚ軸に対し階層の切り替え境界を設けておくことにより、フレーム座標のｚの値に応じて適宜、フレーム描画に用いる動画データの階層を切り替える。

なお、仮想空間におけるフレーム座標の代わりに、画像処理装置１０は、階層を特定する情報と、その階層におけるテクスチャ座標（ＵＶ座標）を導出してもよい。以下、階層特定情報およびテクスチャ座標の組み合わせも、フレーム座標と呼ぶ。

画像処理装置１０において、階層データは、所定の圧縮形式で圧縮された状態で記憶装置に保持されている。そしてフレーム描画に必要なデータが記憶装置から読み出されてデコードされる。なお図３は階層データを概念的に表したものであり、記憶装置に格納されるデータの格納順やフォーマットを限定するものではない。例えば階層データの仮想空間における位置と実際の動画データの格納領域とが対応づけてあれば、動画データは任意の領域に格納することができる。また後に述べるように、各階層を構成する画像フレーム列に対し空間分割や時間分割を施し、その単位で圧縮符号化してもよい。

図４は画像処理装置１０の構成を示している。画像処理装置１０は、無線インタフェース４０、スイッチ４２、表示処理部４４、ハードディスクドライブ５０、記録媒体装着部５２、ディスクドライブ５４、メインメモリ６０、バッファメモリ７０および制御部１００を有して構成される。表示処理部４４は、表示装置１２のディスプレイに表示するデータをバッファするフレームメモリを有する。

スイッチ４２は、イーサネットスイッチ（イーサネットは登録商標）であって、外部の機器と有線または無線で接続して、データの送受信を行うデバイスである。スイッチ４２は、ケーブル１４を介して外部ネットワークに接続し、画像サーバから階層データを受信できるように構成される。またスイッチ４２は無線インタフェース４０に接続し、無線インタフェース４０は、所定の無線通信プロトコルで入力装置２０と接続する。入力装置２０においてユーザから入力された表示領域移動要求の信号は、無線インタフェース４０、スイッチ４２を経由して、制御部１００に供給される。

ハードディスクドライブ５０は、データを記憶する記憶装置として機能する。階層データはハードディスクドライブ５０に格納されてもよい。記録媒体装着部５２は、メモリカードなどのリムーバブル記録媒体が装着されると、リムーバブル記録媒体からデータを読み出す。ディスクドライブ５４は、読出専用のＲＯＭディスクが装着されると、ＲＯＭディスクを駆動して認識し、データを読み出す。ＲＯＭディスクは、光ディスクや光磁気ディスクなどであってよい。階層データはこれらの記録媒体に格納されていてもよい。

制御部１００は、マルチコアＣＰＵを備え、１つのＣＰＵの中に１つの汎用的なプロセッサコアと、複数のシンプルなプロセッサコアを有する。汎用プロセッサコアはＰＰＵ（Power Processing Unit）と呼ばれ、残りのプロセッサコアはＳＰＵ（Synergistic-Processing Unit）と呼ばれる。制御部１００はさらにＧＰＵ（Graphics Processing Unit）を備えていてもよい。

制御部１００は、メインメモリ６０およびバッファメモリ７０に接続するメモリコントローラを備える。ＰＰＵはレジスタを有し、演算実行主体としてメインプロセッサを備えて、実行するアプリケーションにおける基本処理単位としてのタスクを各ＳＰＵに効率的に割り当てる。なお、ＰＰＵ自身がタスクを実行してもよい。ＳＰＵはレジスタを有し、演算実行主体としてのサブプロセッサとローカルな記憶領域としてのローカルメモリを備える。ローカルメモリは、バッファメモリ７０として使用されてもよい。

メインメモリ６０およびバッファメモリ７０は記憶装置であり、ＲＡＭ（ランダムアクセスメモリ）として構成される。ＳＰＵは制御ユニットとして専用のＤＭＡ（Direct Memory Access）コントローラをもち、メインメモリ６０とバッファメモリ７０の間のデータ転送を高速に行うことができ、また表示処理部４４におけるフレームメモリとバッファメモリ７０の間で高速なデータ転送を実現できる。本実施の形態の制御部１００は、複数のＳＰＵを並列動作させることで、高速な画像処理機能を実現する。表示処理部４４は、表示装置１２に接続されて、ユーザからの要求に応じた画像処理結果を出力する。

画像処理装置１０は、表示画像の拡大／縮小処理やスクロール処理をスムーズに行うために、現在表示されているフレームに対し空間的、時間的に近接した動画データを逐次、ハードディスクドライブ５０からメインメモリ６０にロードしておく。また、メインメモリ６０にロードした動画データの一部をデコードしてバッファメモリ７０に格納しておく。これにより、動画再生を進捗させつつ表示領域を円滑に移動させることが可能となる。このときロードやデコードの対象となるデータは、それまでの表示領域の移動方向に基づき、以後、必要となる領域を先読みすることによって決定してもよい。

図３に示す階層データにおいて、ｚ軸方向における位置は解像度を示し、第０階層３０に近い位置ほど解像度が低く、第３階層３６に近い位置ほど解像度は高い。ディスプレイに表示される画像の大きさに注目すると、ｚ軸方向における位置は、縮尺率に対応し、第３階層３６の表示画像の縮尺率を１とすると、第２階層３４における縮尺率は１／４、第１階層３２における縮尺率は１／１６となり、第０階層３０における縮尺率は１／６４となる。

したがってｚ軸方向において、表示画像が第０階層３０側から第３階層３６側へ向かう方向に変化する場合、表示画像は拡大していき、第３階層３６側から第０階層３０側へ向かう方向に変化する場合は、表示画像は縮小していく。例えば表示画像の縮尺率が第２階層３４の近傍にある場合、表示画像は、第２階層３４の画像データを用いて作成される。

具体的には上述のとおり、各階層の中間の縮尺率などにそれぞれ切り替え境界を設ける。例えば表示する画像の縮尺率が、第１階層３２と第２階層３４の間の切り替え境界と、第２階層３４と第３階層３６の間の切り替え境界の間にある場合に、第２階層３４の画像データを利用してフレームを描画する。第１階層３２と第２階層３４の間の切り替え境界と、第２階層３４の間の縮尺率では、第２階層３４の画像フレームを縮尺して表示する。第２階層３４と第３階層３６の間の切り替え境界と、第２階層３４の間の縮尺率では、第２階層３４の画像フレームを拡大して表示する。

一方、表示領域移動要求信号から予測される将来必要な領域を特定してデコードする場合は、各階層の縮尺率などを先読み境界として設定しておく。例えば、表示領域移動要求信号による要求縮尺率が第２階層３４の縮尺率をまたいだときなどに、縮小方向にある第１階層３２の画像データの少なくとも一部をハードディスクドライブ５０またはメインメモリ６０から先読みしてデコードし、バッファメモリ７０に書き込む。

画像の上下左右方向の先読み処理についても同様である。具体的には、バッファメモリ７０に展開されている画像データに先読み境界を設定しておき、画像変更要求信号による表示位置が先読み境界をまたいだときに、先読み処理が開始されるようにする。このようにすることで、ユーザの表示領域移動の要求に応じ、円滑に解像度および表示位置を変化させつつ動画再生も進んでいく態様を実現できる。

図５は本実施の形態において、階層構造を有する動画データを用いて動画を表示する機能を有する制御部１００ａの構成を詳細に示している。制御部１００ａは、入力装置２０からユーザが入力した情報を取得する入力情報取得部１０２、新たに表示すべき領域のフレーム座標を決定するフレーム座標決定部１１０、新たにロードすべき動画ストリームの圧縮データを決定するロードストリーム決定部１０６、必要な動画ストリームをハードディスクドライブ５０からロードするロード部１０８を含む。制御部１００ａはさらに、動画ストリームの圧縮データをデコードするデコード部１１２、および画像フレームを描画する表示画像処理部１１４を含む。

図５および後述する図１０において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ（Central Processing Unit）、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。既述したように、制御部１００は１つのＰＰＵと複数のＳＰＵとを有し、ＰＰＵおよびＳＰＵがそれぞれ単独または協同して、各機能ブロックを構成できる。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

入力情報取得部１０２は、ユーザが入力装置２０に対して入力した、動画再生の開始／終了、表示領域の移動などの要求内容を取得し、フレーム座標決定部１１０に通知する。フレーム座標決定部１１０は、現在の表示領域のフレーム座標とユーザが入力した表示領域移動要求信号に従い、新たに表示すべき領域のフレーム座標を決定し、ロードストリーム決定部１０６、デコード部１１２、表示画像処理部１１４に通知する。

ロードストリーム決定部１０６は、フレーム座標決定部１１０から通知されたフレーム座標に基づき、ハードディスクドライブ５０からメインメモリ６０へ新たにロードすべき動画像の圧縮データを特定し、ロード部１０８にロード要求を発行する。後述するように本実施の形態の階層データは、各階層を構成するフレーム画像列を同じサイズに空間分割してなるタイル画像列ごとに動画ストリームを個別に保持する。

そのため、縮尺率とその表示に用いる階層との対応関係以外に、各階層における空間座標と、その座標に対応する画像データを含む動画ストリームの識別情報およびその格納領域とをあらかじめ対応づけておく。ロードストリーム決定部１０６はその情報を元に、必要な動画ストリームの識別情報を取得する。そして該当する動画ストリームの圧縮データがロード済みでなければ、ロード部１０８にロード要求を発行する。また、フレーム座標が変化しない場合であっても、動画の進捗に応じて逐次、必要な動画ストリームの圧縮データがロードされるように要求する。

ロードストリーム決定部１０６は、その時点のフレーム描画に必要な動画ストリームの他、以後必要と予測される動画ストリームを先に述べた先読み処理などにより特定し、ロード部１０８にロード要求を発行してよい。ロードストリーム決定部１０６は、ロード部１０８がロード処理中でない状態において、例えば所定の時間間隔、あるいは、ユーザが表示領域移動要求を入力した際など、所定のタイミングでロード要求を行ってもよい。ロード部１０８は、ロードストリーム決定部１０６からの要求に従い、ハードディスクドライブ５０からのロード処理を行う。具体的にはロードすべき動画ストリームの識別情報から格納領域を特定し、当該格納領域から読み出したデータをメインメモリ６０に格納する。

デコード部１１２は各時刻のフレーム座標に基づき、メインメモリ６０から必要な動画ストリームのデータを読み出しデコードし、バッファメモリ７０に逐次格納していく。デコード対象は動画ストリーム単位でよく、フレーム座標決定部１１０が決定したフレーム座標の領域が複数の動画ストリームにまたがる場合は当該複数の動画ストリームをデコードしていく。表示画像処理部１１４は、各時刻のフレーム座標に基づきバッファメモリ７０から対応する画像フレームのデータを読み出し、表示処理部４４のフレームメモリに描画していく。

一つの動画再生中に拡大縮小を含め表示領域の移動を許す態様においては、全ての階層が時間軸を共有し、利用される動画データの階層が切り替えられたか否かに関わらずシームレスにフレーム描画が進捗することが望ましい。そこで上述のとおり、画像フレームをタイル画像単位の動画ストリームとして階層データを生成しておく。これにより、一度の表示に必要な領域やその後に必要と予測されるデータを優先的にロード、デコードできるため、フレーム描画までに必要な処理の効率を向上させることができる。また時間的にもランダムアクセスが可能な状態でデータを準備することが望ましい。

本実施の形態で処理対象となる動画データは、縮尺率方向を含めた３次元のフレーム座標、および時間、という４次元のパラメータを有するため、動画ストリームを生成する単位や全体的な構成を、圧縮手法や動画の内容などに応じて適宜変化させることができる。図６から図９は本実施の形態において処理対象となる動画データの構造例を示している。

これらの図において三角形は動画の階層データを表し、直方体は１つの動画ストリームを表している。また各階層データは第０階層、第１階層、第２階層の３階層からなるが、階層の数をそれに限る趣旨ではない。上述のとおり１つの動画ストリームは各階層の画像フレームを同じサイズに分割してなるタイル画像ごとに生成され、これらの例では第０階層の画像のサイズをタイル画像のサイズとしている。

まず図６に示す動画データ構造２００は、各階層を、動画の開始から終了までを、各タイル画像に対し１つの動画ストリームとした１つの階層データ２０１からなる。ここで各動画ストリームの画像フレームであるタイル画像は上述のように同じサイズを有するため、第０階層は１個の動画ストリーム２０２ａ、第１階層は４個の動画ストリーム２０２ｂ、第２階層は１６個の動画ストリーム２０２ｃなどで構成される。

図６の動画データ構造２００の場合、動画ストリームの時間方向の長さは、元の動画の長さ、すなわち元の画像フレームの数に応じてが変化する。そのため元々画像フレームの数が少ない場合や、長時間データの圧縮が可能かつランダムアクセスが可能な圧縮方式、例えば全てのフレームをＩピクチャとするＭＰＥＧ（Moving Picture Experts Group）などを利用する場合に有利である。

図７に示す動画データ構造２０４は、動画データを所定の画像フレーム数で区切り、各階層を、各タイル画像に対し時間軸方向に複数の動画ストリームとした１つの階層データ２０５で構成される。すなわち同図の動画ストリームは、図６で示した各動画ストリームを、図の縦方向である時間軸に対し分割している。この例では、図６の動画ストリームがそれぞれ６個の動画ストリームに分割されている。したがって第０階層は１×６個の動画ストリーム２０６ａ、第１階層は４×６個の動画ストリーム２０６ｂ、第２階層は１６×６個の動画ストリーム２０６ｃなどで構成される。固定数の画像フレーム単位で圧縮を行う圧縮方式を利用する場合にこのような構造となる。

図８に示す動画データ構造２０８は、動画データを所定の画像フレーム数で区切り、その単位で生成した動画ストリームごとに別の階層データ２１０ａ、２１０ｂ、２１０ｃを生成した構成を有する。すなわち各階層データ２１０ａ、２１０ｂ、２１０ｃは、図６と同様に、階層ごとに時間軸方向に１つの動画ストリームで構成されるが、各動画ストリームは固定数の画像フレームを有する。例えば階層データ２１０ａは、第０階層が１個の動画ストリーム２１２ａ、第１階層が４個の動画ストリーム２１２ｂ、第２階層が１６個の動画ストリーム２１２ｃで構成されている。

図８の動画データ構造２０８の場合、時間軸方向に複数の階層データで構成されるため、あるシーンのみ別の階層データに差し替えたり、階層データを挿入、削除したり、というように、時間軸方向での動画編集が容易である。また各動画ストリームの画像フレーム数は固定となるため、データサイズが見積もりやすい。例えば後述する圧縮方式を適用すると、各動画ストリームのデータは静止画像を同様に階層構造としたときのタイル画像のデータと同様の構造とすることが可能であるため、静止画像の表示機構を動画像表示に利用したり、一部の領域を静止画にするなどの静止画像との共存が容易になる。

図９に示す動画データ構造２１４は、動画データを所定の画像フレーム数で区切り、その単位で生成した動画ストリームをさらに所定数ずつ分けて別の階層データ２１６ａ、２１６ｂ、２１６ｃとした構成を有する。すなわち各階層データ２１６ａ、２１６ｂ、２１６ｃは、図７と同様に、各階層につき時間軸方向に複数の動画ストリームで構成されるが、その数は動画の長さによらず固定とし、同図の場合は２個とすることで階層データを分けている。

例えば階層データ２１６ａは、第０階層が１×２個の動画ストリーム２１８ａ、第１階層は４×２個の動画ストリーム２１８ｂ、第２階層は１６×２個の動画ストリーム２１８ｃで構成されている。この場合も、１つの階層データを構成する各階層のデータサイズの見積もりおよび調整が容易であるとともに、階層データを差し替えることにより時間軸方向での動画編集が容易である。

図６から図９に示した動画データ構造は全て、各階層で画像フレームの全領域を網羅するように動画ストリームを保持していたが、動画像が有する冗長性に応じて一部の動画ストリームを動画データから省き、別の階層の動画ストリームで代替するようにしてもよい。図１０は一部の階層の動画ストリームを別の階層の動画ストリームで代替させる場合の動画のデータ構造を模式的に示している。データ構造の表し方は図６と同様である。同図に示す階層データ２２２は、領域２２４に対応する動画ストリームが省かれている。

図６に示した階層データ２０１と比較すると、第１階層２２８および第２階層２３０において動画ストリームの数が少なくなっている。この差分が省かれた動画ストリームである。この場合、省かれた動画ストリームが表す領域は、その階層にデータが存在しないことになる。そこでそのような階層のデータを用いるべき縮尺率で該当領域を表示するときは、該当領域のデータを保持する階層、同図の例では第０階層２２６まで階層を遡り、対応する領域を拡大して描画する。

このような態様は、画像フレーム中に詳細な情報を必要としない領域、例えば空、海、芝生などほぼ単色で構成される領域などが存在する場合に適用できる。このように画像フレームにおける冗長性の有無は、画像解析によって検出できる。例えば各時刻の画像フレームごとに、低解像度側の階層の画像フレームを拡大した画像と高解像度側の画像との差分画像を生成し、差分値が所定のしきい値以下となる領域を検出する。そしてその領域に含まれる動画ストリームのうち、高解像度側の階層の動画ストリームを動画データから除外する。

このようにすることで動画データのサイズを小さく抑えることができるとともに、動画ストリームのロード処理の一部を省略することができる。このような場合、前述の階層データが定める３次元座標と動画ストリームとを対応づけた情報において、除外した動画ストリームに対応する領域の座標に対し、拡大して用いる上の階層の動画ストリームの識別情報を対応づけ、さらに拡大倍率などの情報を付加することによって描画が可能となる。

図１０の例は、本実施の形態が、動画データを階層構造にする特徴と、フレーム画像を空間分割し、個別に動画ストリームを生成する、という特徴を併せ持つことによって成り立つ態様である。すなわちフレーム画像をタイル画像に分割することによって、局所的にデータの保持形式を異ならせることができ、さらに解像度の低い階層のデータを代替利用することができるため、一部のデータを省略してデータサイズを抑えることができる。同様の発想で、一部の動画ストリームのみ、構成する画像フレームを間引いてその数を減らし、データサイズを抑えてもよい。

このようにすると、当該動画ストリームが担当する領域は時間解像度が低下することになるが、背景など時間的に変化の少ない領域が含まれる動画では有効である。このときの時間冗長性も上述の空間冗長性と同様、例えば隣接する画像フレーム同士の差分画像のうち所定のしきい値以下の差分値を有する領域を検出するなどして特定できる。同様に、一部の動画ストリームを静止画像に置き換えることもできる。

また動画ストリームごとに圧縮方式を異ならせてもよい。さらに、階層データ内で時間軸を共有させず、階層ごと、動画ストリームごと、画像中の画素列ごと、など所定の単位で意図的に時間軸をずらすことによって様々な画像表現が可能となるようにしてもよい。

上述のとおり本実施の形態で表示対象となる動画データの階層構造は、個々の動画ストリームの圧縮方式については特に制限されず、ＪＰＥＧ（Joint Photographic Experts Group）、ＭＰＥＧ、Ｓ３ＴＣ（S3 Texture Compression）などの既存の方式のいずれを適用してもよい。ただし階層の切り替えを含む表示領域の移動がシームレスに行えるようにするためには、空間的、時間的にランダムアクセスが可能であること、高精細画像であっても画質とデコードスループットの双方を維持できることが望ましい。

次に、図７から図９で示した動画データ構造に適用できる、固定数の画像フレーム単位で動画ストリームを圧縮する手法について説明する。なお同圧縮手法は階層データを構成する複数の動画ストリームのみならず、単体の動画ストリームに対しても適用できる。本圧縮手法を実施する装置も、図４で示した画像処理装置１０と同様の構成で実現できる。以下、制御部１００の構成に主眼を置き説明する。

図１１は本実施の形態において、動画データ圧縮機能を有する制御部１００ｂおよびハードディスクドライブ５０の構成を詳細に示している。制御部１００ｂは圧縮対象の動画ストリームを構成する画像フレームの色空間をＹＣｂＣｒへ変換するＹＣｂＣｒ変換部１２０、変換後の画像列を時空間分割して符号化単位を生成する画像分割部１２２、および分割された符号化単位ごとに画像データを量子化することで圧縮符号化処理を行う圧縮符号化部１２４を含む。

ハードディスクドライブ５０は、個々の画像フレーム列からなる圧縮対象の動画ストリームを格納した動画ストリーム記憶部１２６、画像分割部１２２が画像列を分割する際の分割パターンを記憶する分割パターン記憶部１２８、および圧縮符号化部１２４が圧縮符号化して生成した圧縮データを格納する圧縮データ記憶部１３０を含む。

ＹＣｂＣｒ変換部１２０は、動画ストリーム記憶部１２６から圧縮対象の動画ストリームを構成する画像フレームのデータを順次読み出す。そして各画像フレームの画素値であるＲＧＢ値を輝度Ｙ、色差ＣｂおよびＣｒに変換することにより、それぞれの値を画素値とするＹ画像、Ｃｂ画像、Ｃｒ画像を生成する。ＲＧＢからＹＣｂＣｒへの色空間の変換は既存の手法を適用することができる。１つの画像フレームからＹ画像、Ｃｂ画像、Ｃｒ画像が生成されるため、動画ストリームを構成する複数の画像フレームに対し、Ｙ画像列、Ｃｂ画像列、Ｃｒ画像列が生成されることになる。

画像分割部１２２は、ＹＣｂＣｒ変換部１２０が生成したＹ画像列、Ｃｂ画像列、Ｃｒ画像列のうち、まず各Ｃｂ画像およびＣｒ画像を所定の割合で縮小する。そしてＹ画像列、Ｃｂ画像列、Ｃｒ画像列を、分割パターン記憶部１２８に格納された分割パターンで時空間分割する。分割によって生成された単位を「符号化単位」と呼ぶ。

詳細は後に述べるが、画像の内容によって最適な分割パターンが異なるため、画像分割部１２２は、分割パターン記憶部１２８に格納された複数の分割パターンから最適なパターンを選択する処理を行ってもよい。なお以後の処理において縮小されたＣｂ画像およびＣｒ画像は対応するフレームごとに組として扱う。以後、このようなＣｂ画像とＣｒ画像の組を単に「ＣｂＣｒ画像」と呼ぶ。

圧縮符号化部１２４は、Ｙ画像、ＣｂＣｒ画像の符号化単位ごとに、２つの代表値を表すパレット、および、それら２つの代表値と代表値を線形補間して得られる複数の中間値のうちいずれかを画素ごとに指定するインデックスを生成することにより、画像データを量子化して圧縮符号化する。これにより、Ｙ画像列の符号化単位、およびＣｂＣｒ画像列の符号化単位ごとに、パレットおよびインデックスが生成される。

図１２は、制御部１００ｂを含む画像処理装置１０が実施する動画ストリームの圧縮手順を模式的に示している。圧縮対象の動画ストリーム２５０は、例えば図６から図９において直方体で示した動画ストリームに対応してよい。動画ストリーム２５０はＲＧＢ画像の画像フレームによって構成される。本圧縮手法では、当該動画ストリーム２５０を所定枚数の画像フレーム、図１２の例では８フレームごとに圧縮する。

まずＹＣｂＣｒ変換部１２０は、８フレーム分の画像フレームをさらに所定のサイズに空間分割して画像平面（ｘ，ｙ）および時間軸ｔの３次元空間で処理単位を定める。図の例では８画素×８画素×８フレームのデータを処理単位２５２としている。次に当該処理単位２５２に含まれる８枚のＲＧＢ画像から、８枚のＹ画像列２５４、およびＣｂＣｒ画像列２５６を生成する（Ｓ１０）。

ここでＣｂＣｒ画像列２５６は上述のとおり、元のＲＧＢ画像から直接得られたＣｂ画像、Ｃｒ画像を縦横の両方向で１／２のサイズに縮小して得られた画像列である。従ってＹ画像列２５４は８画素×８画素の画像フレームが８フレーム、ＣｂＣｒ画像列２５６は４画素×４画素のＣｂ画像と４画素×４画素のＣｒ画像を連結した画像が８フレーム、となる。

次に画像分割部１２２は、Ｙ画像列２５４およびＣｂＣｒ画像列２５６を、分割パターン記憶部１２８に格納された分割パターンのうちいずれかのパターンで時空間分割して符号化単位を形成する（Ｓ１２）。同図の例では、Ｙ画像列２５４およびＣｂＣｒ画像列２５６の各画像フレームを横４画素×縦２画素の同じサイズで空間分割して得られた画像ブロックを、時間方向に隣接する２つの画像フレームごとに分割してなる、４画素×２画素×２枚のデータを符号化単位としている。

上述のとおりＹ画像列２５４は８画素×８画素であるため、各画像フレームは「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」の８個の画像ブロックに分割され、１番目のフレームの画像ブロック「Ａ」と２番目のフレームの画像ブロック「Ａ」とで符号化単位２５８を形成する（網掛けされた領域）。その他の画像ブロックおよび画像フレームも同様であり、結果としてＹ画像列２５４について空間分割数８×時間分割数４＝３２個の符号化単位が形成される。

一方、ＣｂＣｒ画像列２５６はＣｂ画像、Ｃｒ画像ともに４画素×４画素であるため、前者は「Ｉ」、「Ｊ」、後者は「Ｋ」、「Ｌ」の２個の画像ブロックに分割され、１番目のフレームの画像ブロック「Ｉ」および「Ｋ」と２番目のフレームの画像ブロック「Ｉ」および「Ｋ」とで符号化単位２６０を形成する（網掛けされた領域）。その他の画像ブロックおよび画像フレームも同様であり、結果としてＣｂＣｒ画像列２５６について空間分割数２×時間分割数４＝８個の符号化単位が形成される。

圧縮符号化部１２４は、各符号化単位に対しパレットおよびインデックスのデータを生成する。パレットおよびインデックスは、基本的にはＳ３ＴＣのテクスチャ圧縮方式においてＲＧＢ画像から生成されるパレットおよびインデックスと同様である。一方、本実施の形態では、パラメータの次元数が一般的なＳ３ＴＣと異なる。図１３はＹ画像列２５４の符号化単位２５８からパレットおよびインデックスのデータを生成する手法を模式的に示している。

図１２で示したパターンで分割した場合、符号化単位２５８は４×２×２＝１６画素を含む。同図において画素は円形で模式的に示されている。各画素が画素値として有する輝度Ｙのサンプル値を輝度Ｙの軸上に表すと分布２６２のようになる。その分布２６２でプロットされた１６個のサンプルのうち、２つの代表値を選択する。例えば最小値（ｍｉｎ）および最大値（ｍａｘ）を代表値として選択し、当該２値を保持するデータをパレットとする。さらに輝度Ｙの軸上、最小値と最大値の間の線分を１：２で内分する輝度Ｙの値を第１中間値（ｍｉｄ１）、２：１で内分する輝度Ｙの値を第２中間値（ｍｉｄ２）としたとき、最小値、第１中間値、第２中間値、最大値の４値のいずれかを指定する情報を画素ごとに保持するデータをインデックスとする。

すなわちＹ画像列２５４の１符号化単位２５８に対して、パレットは輝度Ｙを表す８ビット×２値＝２バイト、インデックスは４値の識別番号を０〜３で表す情報２ビット×１６画素＝４バイトのデータとなる。上述のとおり１つの処理単位であるＹ画像列２５４は３２個の符号化単位で構成されるため、Ｙ画像列２５４全体では、パレットは３２×２バイト＝６４バイト、インデックスは３２×４バイト＝１２８バイトのデータとなる。

図１４はＣｂＣｒ画像列２５６の符号化単位２６０からパレットおよびインデックスのデータを生成する手法を模式的に示している。図１２で示したパターンで分割した場合、符号化単位２６０は、Ｃｂ画像、Ｃｒ画像のそれぞれが４×２×２＝１６画素を含む。そこで、両画像の対応する画素が画素値として有する（色差Ｃｂ，色差Ｃｒ）を要素とする色差のサンプル値を、色差Ｃｂ、色差Ｃｒの軸を有する２次元平面上に表すと分布２６４のようになる。

この分布２６４にプロットされた１６個のサンプルのうち、２つの代表値を選択する。例えば分布２６４を直線で近似したときに、直線の左端、右端にある色差をそれぞれ最小値（ｍｉｎ）および最大値（ｍａｘ）として代表値とする。そして当該２値を保持するデータをパレットとする。このとき各代表値は、（色差Ｃｂ，色差Ｃｒ）を要素とする２次元パラメータである。また近似直線上で最小値と最大値との間の線分を１：２で内分する色差を第１中間値（ｍｉｄ１）、２：１で内分する色差を第２中間値（ｍｉｄ２）としたとき、最小値、第１中間値、第２中間値、最大値の４値のいずれかを指定する情報を画素ごとに保持するデータをインデックスとする。

すなわちＣｂＣｒ画像列２５６の１符号化単位２６０に対して、パレットは色差ＣｂおよびＣｒの２要素×各色差を表す８ビット×２値＝４バイト、インデックスは４値の識別番号を０〜３で表す情報２ビット×１６画素＝４バイトのデータとなる。上述のとおり１つの処理単位であるＣｂＣｒ画像列２５６は８個の符号化単位で構成されるため、ＣｂＣｒ画像列２５６全体では、パレットは８×４バイト＝３２バイト、インデックスは８×４バイト＝３２バイトのデータとなる。

このように圧縮すると、１処理単位の８画素×８画素×８フレームのＲＧＢ画像は、Ｙ画像列のパレット６４バイトとインデックス１２８バイト、ＣｂＣｒ画像列のパレット３２バイトとインデックス３２バイトの、合計２５６バイトとなる。すなわち１画素あたり０．５バイトのデータとなる。

Ｓ３ＴＣを用いて４画素×４画素のＲＧＢ画像を圧縮したとき、パレットはＲＧＢ値を表す２バイト×２値＝４バイト、インデックスはＲＧＢ値のうち４値の識別番号を０〜３で表す情報２ビット×１６画素＝４バイトのデータとなるため、圧縮後のデータは１画素あたり、８バイト／１６画素＝０．５バイトであり、上述の圧縮手法による圧縮後のデータサイズと同一となる。したがってこのような処理単位で動画データを圧縮していくことにより、ハードディスクドライブ５０からメインメモリ６０へロードするデータの単位やメインメモリ６０内でのキャッシュラインのサイズなどの観点で、静止画と動画を同等に扱うことができる。

また本実施の形態では、ＲＧＢ画像を１次元のパラメータを保持するＹ画像、および２次元のパラメータを保持するＣｂＣｒ画像に分解したうえでパレットおよびインデックスを生成した。そのため、１次元のＹ画像の場合は全てのサンプル値が直線上に分布し、２次元のＣｂＣｒ画像も、近似直線からはずれるサンプルは当該近似直線の法線方向のみとなる。したがって、３次元のパラメータを保持するＲＧＢ画像を直線で近似して量子化する一般的なＳ３ＴＣの手法と比較し、量子化誤差を小さく抑えることができる。

図１２の分割パターンでは、動画ストリームを横４画素×縦２画素×２フレーム分に分割して符号化単位とした。この分割パターンは上述のとおり、画像の内容によって適応的に変化させてもよい。図１５は１つの処理単位を分割するパターンのバリエーションを示している。同図左端からパターン（Ａ）、パターン（Ｂ）、パターン（Ｃ）、パターン（Ｄ）とし、上段のＹ画像列および下段のＣｂＣｒ画像列のいずれも、空間分割の区切りを直線で示し、１つの符号化単位を網掛けして代表的に表している。

パターン（Ａ）は横４画素×縦４画素×１フレームごとに分割するパターンである。パターン（Ｂ）は図１２に示したパターンと同一である。パターン（Ｃ）は横２画素×縦２画素×４フレームごとに分割するパターン、パターン（Ｄ）は横２画素×縦１画素×８フレームごとに分割するパターンである。

これらのパターンはいずれも、１処理単位がＹ画像列に対し１６画素、ＣｂＣｒ画像列に対し１６画素×２となるため、量子化する際のサンプル数は図１３および図１４で示したのと同じである。一方パターン（Ｄ）からパターン（Ａ）へ向かうほど、詳細な時間分割を行い、パターン（Ａ）からパターン（Ｄ）へ向かうほど詳細な空間分割を行う。このような分割パターンを準備し、空間方向で冗長性を有するか、時間方向で冗長性を有するか、という画像の特性に応じて分割パターンを選択する。

具体的には、空や芝など単色に近い領域が多く含まれるなど、画像が空間冗長性を有する場合、その画素値は空間に対してより一様となりやすく、空間分割数を少なくしても量子化による誤差が含まれにくいため、パターン（Ａ）に近い分割パターンを選択する。一方、動きの少ない景色を定点観測した場合など、画像が時間冗長性を有する場合、その画素値は時間方向で一様となりやすく、時間分割数を少なくしても量子化による誤差が含まれにくいため、パターン（Ｄ）に近い分割パターンを選択する。

例えばパターン（Ｄ）の場合、１つの符号化単位は空間方向には２画素のみを有する。同じ符号化単位に含まれる８フレーム分で時間変化がなければ、パレットで保持する２つの代表値がそのまま元の画素値を表していることになるため、量子化誤差は０となる。ＲＧＢ画像に対してＳ３ＴＣの手法で圧縮を行う場合、パレットに保持されるＲＧＢのデータは本来の２４ビットから１６ビットへ低下させるため、デコードした際に十分な階調が得られないなど画質の低下が起こる場合がある。本実施の形態では輝度Ｙ、色差Ｃｂ、Ｃｒのそれぞれに対し８ビットのパレットを準備するため元の画質を保持できる可能性が高い。

分割パターン記憶部１２８には、パターン（Ａ）〜パターン（Ｄ）の４種類の分割パターンと、それらを識別する情報、例えば０，１，２，３の４つの識別番号を対応づけて格納しておく。画像分割部１２２は、ＹＣｂＣｒ変換部１２０が生成した各画像列に対し分割パターン記憶部１２８に格納された分割パターンを全て実施して、原画像との誤差が最も少ない分割パターンを選択する。

この処理は実際には、各分割パターンで分割したときの画像列の圧縮符号化を圧縮符号化部１２４に実施させ、各圧縮データをデコードした画像と圧縮前の画像とを画像フレームごとに比較する。そして差分の少ない分割パターンを選択すればよい。画像分割部１２２は、選択した分割パターンの識別番号を圧縮符号化部１２４に通知し、圧縮符号化部１２４は、生成した圧縮データに当該識別番号の情報を含ませて最終的な圧縮データとし、圧縮データ記憶部１３０に格納する。

分割パターンは、画像内の領域で異ならせるようにしてもよい。領域ごとに分割パターンを選択する手順も上記と同様でよい。そして画像分割部１２２は選択した分割パターンの識別番号と領域とを対応づけたマップを生成し、最終的な圧縮データに含めるようにする。図１６は分割パターンマップのデータ構造例を示している。同図の例は、１つの動画ストリームを２５６画素×２５６画素の画像フレームで構成した場合を示している。図１５で示した４種類の分割パターンを設定可能とした場合、分割パターンを設定できる最小単位は１処理単位である８画素×８画素×８フレームとする。

もし最小単位ごとに分割パターンを設定する場合は図１６に示すように、２５６画素×２５６画素の画像フレームに対し、８画素×８画素の領域ごとに分割パターンの識別番号、すなわち０〜３の値を対応づける。結果として分割パターンマップ２７０は３２×３２×２ビット＝２５６バイトの情報となる。このような分割パターンマップ２７０を、８フレームごとにに付加すれば、時間方向に対しても分割パターンを異ならせることができる。

図１６の例は分割パターンの設定を最小単位の８画素×８画素ごとに行った場合であるが、同様にして、１６画素×１６画素ごと、６４画素×３２画素ごとなど、縦方向、横方向に８画素×８画素の領域を連結した領域ごとに分割パターンを設定するようにしてもい。また全ての領域に対し１つの分割パターンを設定するなど、設定単位自体を様々に設定することができる。分割パターンマップは上述のように実際に圧縮符号化したデータをデコードして元の画像との誤差の小ささによって生成できるほか、同様の内容を有するテスト画像によって設定単位やそこに設定する分割パターンを準備しておいてもよい。

次に圧縮符号化部１２４が、圧縮符号化したデータを圧縮データ記憶部１３０に格納する手順について説明する。本実施の形態において生成される圧縮データは、Ｓ３ＴＣのテクスチャ圧縮方式と同様に、パレットおよびインデックスによって構成される。そのためデコード処理は、図４の画像処理装置１０の制御部１００に含まれる、一般的なＧＰＵのシェーディング機能をそのまま利用することができる。

そのため、Ｙ画像列のデータを量子化して生成されたインデックスおよびパレットと、ＣｂＣｒ画像列のデータを量子化して生成されたインデックスおよびパレットが、通常のテクスチャ画像と同様に読み出されデコードできるようにすることが望ましい。そこで圧縮データを格納する際は、同じ領域を表すＹ画像列の量子化データとＣｂＣｒ画像列の量子化データを１つのまとまりとすることにより、少ないデータアクセスで画素を復元できるようにする。

図１７は圧縮データ記憶部１３０における圧縮データの配列を説明するための図である。上述のとおりＹ画像列、ＣｂＣｒ画像列に分解したのちに量子化したデータを、ＲＧＢ画像の圧縮データと同等に扱うためには、同じ領域を表すそれらのデータをまとめて格納することが望ましい。そこで本実施の形態では、Ｙ画像列に対する圧縮データ２８０と、同じ領域を表すＣｂＣｒ画像列に対する圧縮データ２８２とを１つの格納単位としてまとめる。

図中、Ｙ画像列に対する圧縮データ２８０のうち「Ｉ」と表記された直方体はそれぞれ１符号化単位から生成されたインデックス、「Ｐ」と表記された直方体はそれぞれ１符号化単位から生成されたパレットである。ＣｂＣｒ画像列に対する圧縮データ２８２も同様である。上述のとおり、Ｙ画像列のインデックスおよびパレットは、１符号化単位あたりそれぞれ４バイト、２バイトのデータである。ＣｂＣｒ画像列のインデックスおよびパレットはどちらも、１符号化単位あたり４バイトのデータである。

そこで図１７に示すように、同じ領域を表す、Ｙ画像列の４符号化単位とＣｂＣｒ画像列の１符号化単位のデータを、深さ４バイトの記憶領域に配列してまとめる。ここでＹ画像列に対する圧縮データ２８０のうち、パレットはそれぞれ２バイトのデータであるため、図のように深さ方向に２つ配置することにより、縦方向２×横方向４×４バイトのデータとなる。ここで同じ領域を表すＹ画像列とＣｂＣｒ画像列とは、例えば図１２におけるＹ画像の画像ブロック「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」と、Ｃｂ画像の画像ブロック「Ｉ」、Ｃｒ画像の画像ブロック「Ｋ」などである。

このように圧縮データをまとめると、縦方向２画素×横方向４画素分のＲＧＢＡ画像のデータを格納する記憶領域２８４にそのまま格納することができる。上述のとおり８画素×８画素×８フレームの処理単位あたり、Ｙ画像列は３２個、ＣｂＣｒ画像列は８個の符号化単位が形成されるため、１処理単位あたりこのような格納単位が８個形成される。１格納単位は縦方向２画素×横方向４画素分のＲＧＢＡ画像と同じデータサイズであるため、１処理単位あたり８画素×８画素のＲＧＢＡ画像分のデータとなる。この特徴は、図１５で示したどの分割パターンでも同様となる。

図１８は、これまで述べた圧縮符号化処理を動画ストリーム全体に施したときのデータの変遷を模式的に示している。動画ストリームは２５６画素×２５６画素のＲＧＢ画像の画像フレームで構成され、それを８フレーム単位で圧縮するとする。まず８枚の画像フレームを８画素×８画素の処理単位に分割する（Ｓ２０）。これにより縦方向および横方向に３２個の処理単位が形成される。

次にそれぞれの処理単位に対し、図１２に示すように、ＹＣｂＣｒ変換を施してＹ画像、縮小したＣｂＣｒ画像を生成し、それぞれを符号化単位に分割したうえインデックスおよびパレットを生成する。それをまとめて１処理単位あたり８個の格納単位を生成する（Ｓ２２）。結果として８フレーム分のＲＧＢ画像が、同じ画素数を有するＲＧＢＡ画像１フレームに圧縮されたことになる。

ここで上述の分割パターンマップを圧縮データに埋め込む手法について説明する。図１７に示すように１つの格納単位にはＹ画像列のパレットが４つ格納されている。各パレットには輝度Ｙの代表値である２値が格納されている。そこで、１つの格納単位に含まれる４つのパレットのうち、深さ方向に並べて配置された２つのパレットを用いて、４つの分割パターンを識別するための２ビットの情報を埋め込む。

図１９は当該２つのパレットに分割パターンの識別番号を埋め込む手法を説明するための図である。２つのパレットのうち第１のパレット２９０が保持する２値が、図の手前の先頭アドレスから順に「Ｐａ０」、「Ｐａ１」であり、第２のパレット２９２が保持する２値がアドレス順に「Ｐｂ０」、「Ｐｂ１」であるとする。ここで「Ｐａ０」と「Ｐａ１」の大小関係、「Ｐｂ０」と「Ｐｂ１」の大小関係によって合計２ビットの情報を表す。

例えば第１のパレット２９０の「Ｐａ０」が「Ｐａ１」より大きければ「１」、それ以外であれば「０」とすることで１ビットの情報を表す。同様に第２のパレット２９２の「Ｐｂ０」が「Ｐｂ１」より大きければ「１」、それ以外であれば「０」とすることでさらに１ビットの情報を表す。パレットが保持する２値は、どちらが先のアドレスに格納されていてもデコード処理には影響しない。そこで各パレットにおいて大きい方の値をどちらのアドレスに格納するかを、分割パターンの識別番号に応じて入れ替えることにより、分割パターンの識別番号をパレットに埋め込むことができる。

このようにすることで、分割パターンマップを圧縮データの本体とは別に生成することなく、圧縮データに含めることができ、全体としてデータサイズを抑えることができる。また対応する領域の圧縮データごとに埋め込むため参照する際の効率がよい。上述のとおり分割パターンは最小で１処理単位（＝８個の格納単位）であるため、８個の格納単位のうちいずれかのパレットの対に１つの分割パターンを埋め込めばよい。一方、８個の格納単位に含まれるパレットの対１６個全てに同じ分割パターンを埋め込んでもよい。

このように分割パターンが埋め込まれた圧縮データを復号する際は、まず処理単位ごとに、分割パターンが埋め込まれたＹ画像列のパレットを読み出して、当該処理単位に設定された分割パターンの識別番号を特定する。それにより画素と、当該画素を描画するのに必要なデータが含まれているインデックスおよびパレットの格納場所とを対応づけられる。それに従い、描画対象の画素に対応するＹ画像列のインデックスおよびパレット、ＣｂＣｒ画像列のインデックスおよびパレットを読み出してデコードすればよい。

デコード処理は基本的にＳ３ＴＣと同様に行える。すなわち各パレットが保持する代表値からそれを補間する中間値を生成し、インデックスにおける指定に従い、代表値または中間値を各画素の画素値とする。一方、本実施の形態では符号化単位ごとにパレットおよびインデックスを生成しているため、決定した画素値を、分割パターンに対応した、画像列における符号化単位の配列に基づき、空間方向および時間方向に画素の配列を再構成することによりＹ画像列、ＣｂＣｒ画像列を復元する。そしてＣｂＣｒ画像を拡大してＣｂ画像、Ｃｒ画像を生成することにより、元の画像フレームに対応するＹＣｂＣｒ画像が得られる。

以上述べた本実施の形態によれば、動画を構成する画像フレームを異なる解像度で表した複数の動画ストリームを階層化した階層データを生成し、ユーザからの視点移動要求に応じて表示領域を移動させながら動画を表示する。求められる縮尺率によってフレーム描画に用いるデータの階層を切り替えることにより、一般的な高精細画像やそれを超える解像度の動画像であっても、細部を確認するために拡大したり全体を俯瞰するために縮小したり、といった要求を逐次受け付け、反応性よく表示することができる。

階層データの各階層を構成する動画ストリームは、どの階層においても同じサイズの画像フレームで構成されるようにする。結果として高解像度の階層になるほど、１つの階層を構成する動画ストリームの数が増えることになる。このように画像フレームのサイズを揃えることで、表示時のロードやデコードなどの処理を階層によらず均一化できるとともに、表示対象領域の局所性に適合した効率的な描画処理を行える。

また１つの画像を複数の動画ストリームで構成することにより、動画ストリームごとにフレームレートを異ならせたり一部の領域を静止画像とするなどの調整を、画像の空間局所性に鑑み実施できる。またある解像度の階層の画像において、低解像度側の階層の画像を拡大して代用できる領域がある場合は、当該領域を担当する動画ストリーム自体をデータから省くこともできる。

動画像を全編にわたり１つの階層データで構成せず、時間軸上で分割して複数の階層データで構成するようにしてもよい。また１つの階層データに含まれる各階層の動画ストリームを全編にわたり１つの動画圧縮データとしてもよいし、所定数の画像フレームごとに異なる動画圧縮データとしてもよい。このように階層データの数や階層データ内の動画ストリームのデータ構造、圧縮符号化形式を、動画像の内容のや再生時間などによって適宜選択できるようにすることで、動画表示時の処理の負荷、求められる画質など多角的な観点から最適な表示態様を実現できる。

さらに本実施の形態では、所定数の画像フレームごとに動画ストリームを圧縮符号化する。このとき元の動画ストリームを構成する画像フレームのＲＧＢ画像を、輝度Ｙ、色差ＣｂおよびＣｒで表した画像をそれぞれ生成する。そしてＣｂ画像およびＣｒ画像を縮小したうえ、各画像列を所定サイズ、所定画像フレーム数ごとに分割して符号化単位を生成する。そのようにしてＹ画像列およびＣｂＣｒ画像列のそれぞれに対しパレットおよびインデックスのデータを生成する。パレットは各画像の代表値を表す２値のデータ、インデックスは、代表値を線形補間して得られる中間値および代表値のうちの１つを画素ごとに指定するデータである。

パレットおよびインデックスの概念は、テクスチャのＲＧＢ画像に対するＳ３ＴＣの圧縮手法で導入されているが、本実施の形態ではパレットの２値が輝度Ｙ、色差Ｃｂ、色差Ｃｒのいずれに対しても８ビットを保持するため画質が劣化しにくい。またＹ画像列、およびＣｂＣｒ画像列に対し別個に量子化を行うため、ＲＧＢの３次元パラメータを量子化するのと比較してパラメータの次元数が小さく量子化誤差が少ない。また符号化単位を形成する際の空間分割数、時間分割数の組み合わせを変化させ、画像の持つ空間方向の冗長性、時間方向の冗長性に適応するデータ構造を柔軟に提供できる。

上記の圧縮手法を用いれば、ＧＰＵによるテクスチャマッピングの処理と同様に描画処理を行えるため、階層を切り替えつつ表示領域の動画ストリームを読み込み所定のフレームレートで画像を描画していく、という本実施の階層構造の動画データにも適用できる高いスループットを見込める。既存の圧縮符号化方式と比較すると、例えばＪＰＥＧを用いて画像フレームごとにデコードする場合、画像の内容によってはデコードの処理負荷が増大しやすい。またＭＰＥＧは複数の動画ストリームのそれぞれについてＩピクチャの復号が必要となるため結果的に処理負荷が増大しやすく、Ｉピクチャを減らすと時間方向のランダムアクセスに対しレイテンシが生じやすい、という問題が生じる。

本実施の形態における圧縮符号化技術はＧＰＵでのデコードを実現することによって、上記の既存技術と比較し高速描画が可能である。結果としてＣＰＵにおける処理の負荷を抑えつつ高精細の動画を表示できる。そのためＣＰＵにおいてさらに付加的な処理を行うことも可能であるほか、携帯端末などＣＰＵの処理性能が劣る装置であってもコマ落ちなどのリスクが小さくなる。この特徴は、ＳＳＤ（Solid Sate Drive）の普及などに伴い記憶装置からのデータ読み出しが高速化され、デコード処理がボトルネックとなりやすい今後の技術動向に適合しているといえる。

結果として本圧縮符号化技術は、画質を保持したまま高スループット描画を実現でき、さらに低レイテンシでの時間的、空間的ランダムアクセスが可能であるため、表示領域を変化させながら高精細動画を表示するために用いる階層構造の動画像データへ適用することにより、より効果的な動画像表示技術を実現できる。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

１画像処理システム、１０画像処理装置、１２表示装置、２０入力装置、３０第０階層、３２第１階層、３４第２階層、３６第３階層、４４表示処理部、５０ハードディスクドライブ、６０メインメモリ、７０バッファメモリ、１００制御部、１０２入力情報取得部、１０６ロードストリーム決定部、１０８ロード部、１１０フレーム座標決定部、１１２デコード部、１１４表示画像処理部、１２０ＹＣｂＣｒ変換部、１２２画像分割部、１２４圧縮符号化部、１２６動画ストリーム記憶部、１２８分割パターン記憶部、１３０圧縮データ記憶部。

Claims

一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列を解像度順に階層化してなる階層動画データを格納した動画データ記憶部と、
ユーザによる表示領域に係る操作入力の情報を逐次取得する入力情報取得部と、
前記入力情報取得部が取得した前記操作入力の情報に従い、前記動画のうち表示する領域を変化させながら、前記階層動画データを用いて、表示装置に表示する動画像を生成する表示画像処理部と、
を備え、
前記表示画像処理部は、前記操作入力の情報によって定まる解像度の変化に応じて、前記階層動画データのうち動画像の生成に用いる階層を切り替えることを特徴とする画像処理装置。
前記階層動画データの各階層を構成する画像フレーム列は、画像平面を所定のサイズに区分けしてなるタイル画像単位の動画ストリームで構成され、
前記表示画像処理部は、前記操作入力の情報に従い、表示する領域に対応する動画ストリームのデータを前記動画データ記憶部から読み出して動画像を生成することを特徴とする請求項１に記載の画像処理装置。
前記階層動画データの各階層を構成する画像フレーム列は、画像平面を所定のサイズに区分けしてなるタイル画像ごと、所定のフレーム数ごとに圧縮符号化された動画ストリームで構成され、
前記表示画像処理部は、前記操作入力の情報および時間経過に応じて、対応する動画ストリームのデータを前記動画データ記憶部から読み出して動画像を生成することを特徴とする請求項１に記載の画像処理装置。
前記階層動画データは、前記一の動画を構成する画像フレームの一部の領域に対応する前記動画ストリームを構成から除外した階層を含み、
前記表示画像処理部は、動画像の生成に用いる階層において除外した動画ストリームに代えて、他の階層の動画ストリームの縮尺率を変化させて動画像を生成することを特徴とする請求項２または３に記載の画像処理装置。
前記階層動画データは、前記一の動画を構成する画像フレームの一部の領域に対応する前記動画ストリームのフレームレートが、その他の領域に対応する前記動画ストリームのフレームレートと異なる階層を含むことを特徴とする請求項２または３に記載の画像処理装置。
前記動画データ記憶部は、前記一の動画を時間分割してなる複数の動画ブロックごとに生成された複数の前記階層動画データを格納し、
前記表示画像処理部は、時間経過に応じて前記階層動画データを前記動画データ記憶部から順次読み出し、動画像を生成することを特徴とする請求項１から５のいずれかに記載の画像処理装置。
一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列を解像度順に階層化してなる階層動画データを記憶装置から読み出し、それを用いて表示装置に表示する動画像を生成するステップと、
ユーザによる表示領域に係る操作入力の情報を取得するステップと、
前記操作入力の情報に従い、前記動画のうち表示する領域を変化させるステップと、
を含み、
前記変化させるステップは、前記操作入力の情報によって定まる解像度の変化に応じて、前記階層動画データのうち動画像の生成に用いる階層を切り替えるステップを含むことを特徴とする画像処理方法。
一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列を解像度順に階層化してなる階層動画データを記憶装置から読み出し、それを用いて表示装置に表示する動画像を生成する機能と、
ユーザによる表示領域に係る操作入力の情報を取得する機能と、
前記操作入力の情報に従い、前記動画のうち表示する領域を変化させる機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラムであって、
前記変化させる機能は、前記操作入力の情報によって定まる解像度の変化に応じて、前記階層動画データのうち動画像の生成に用いる階層を切り替える機能を含むことを特徴とするコンピュータプログラム。
一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列を解像度順に階層化してなる階層動画データを記憶装置から読み出し、それを用いて表示装置に表示する動画像を生成する機能と、
ユーザによる表示領域に係る操作入力の情報を取得する機能と、
前記操作入力の情報に従い、前記動画のうち表示する領域を変化させる機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した記録媒体であって、
前記変化させる機能は、前記操作入力の情報によって定まる解像度の変化に応じて、前記階層動画データのうち動画像の生成に用いる階層を切り替える機能を含むことを特徴とするコンピュータプログラムを記録した記録媒体。
表示装置に表示するための動画像ファイルのデータ構造であって、
ユーザによる表示領域に係る操作入力によって定まる解像度と、
一の動画を構成する画像フレームを異なる解像度で表した複数の画像フレーム列であり、前記解像度に応じて切り替えて用いられる画像フレーム列と、
を対応づけたことを特徴とする動画像ファイルのデータ構造。
前記複数の画像フレーム列はそれぞれ、画像平面を所定のサイズに区分けしてなるタイル画像単位の動画ストリームで構成されることを特徴とする請求項１０に記載の動画像ファイルのデータ構造。
請求項１０または請求項１１に記載のデータ構造を有する動画像ファイルを記録した記録媒体。