JP6195179B2

JP6195179B2 - 画像復号化方法および画像復号化装置

Info

Publication number: JP6195179B2
Application number: JP2016194132A
Authority: JP
Inventors: ドリゥジョーンヴィルジニー; 陽司柴原; 西　孝啓; 孝啓西; 寿郎笹井; 京子谷川
Original assignee: サンパテントトラスト
Priority date: 2010-04-12
Filing date: 2016-09-30
Publication date: 2017-09-13
Anticipated expiration: 2031-04-11
Also published as: CA2794351C; US9602837B2; US8824817B2; AU2011241708A2; SG184518A1; EP2560388A1; EP2375751A1; CN105430402B; CN102835112B; US9961367B2; US20180220155A1; MY156119A; KR20130050288A; CN105338356B; EP3217664B1; AU2011241708B8; AU2011241708A1; JP5798550B2; US20160057451A1; CN102835112B8

Description

本発明は、画像の符号化および復号における空間予測方法に関し、特に、エッジ検出を伴う方向性空間補間、または、このような補間の効率的な実装に関する。

空間予測方法、つまり空間補間は、多くのアプリケーションで用いられてきている。空間補間は、特に、多くの画像および動画像の符号化および処理アプリケーションの本質的な部分を形成している。ハイブリッド画像または動画像（ビデオ）符号化アルゴリズムにおいて、すでに符号化／復号したブロックの画素に基づいて画像ブロックの予測を決定するには、空間予測を用いるのが一般的である。一方、空間補間は、復号された画像または動画像（ビデオ）信号の後処理の一部として、特にエラーコンシールメントのために用いられる可能性もある。

標準化された動画像符号化アルゴリズムのほとんどは、ハイブリッド動画像符号化に基づいている。ハイブリッド動画像符号化方法は、所望の圧縮ゲインに達するために、いくつかの異なる可逆および不可逆圧縮方式を組み合わせるのが一般的である。また、ハイブリッド動画像符号化は、ＩＳＯ／ＩＥＣ規格（ＭＰＥＧ−１、ＭＰＥＧ−２、およびＭＰＥＧ−４などのＭＰＥＧ−Ｘ規格）だけでなくＩＴＵ−Ｔ規格（Ｈ.２６１やＨ.２６３などのＨ.２６ｘ規格）の基礎でもある。最新かつ先端の動画像符号化規格は、今のところ、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ（ａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇ）として示されている規格である。この規格は、ＩＴＵ−ＴおよびＩＳＯ／ＩＥＣＭＰＥＧグループの共同チームであるＪＶＴ（ｊｏｉｎｔｖｉｄｅｏｔｅａｍ）による標準化活動の結果である。

エンコーダ（画像符号化装置）へ入力される画像信号（入力信号または入力動画像信号）はフレーム（ビデオフレーム）と呼ばれる画像の列であり、各フレームは画素の２次元行列である。ハイブリッド動画像符号化に基づく上記規格は全て、個々のフレームをそれぞれ、複数の画素からなるより小さなブロックに細かく分割する手段を含んでいる。一般的には、マクロブロック（１６×１６画素のブロックで通常表される）が基本的な画像要素であり、これに対して符号化が行われる。しかしながら、サブブロックや単純ブロックとして表される、８×８、４×４、１６×８などのサイズのより小さな画像要素に対しては、様々な特定の符号化ステップを行ってもよい。

Ｈ．２６４／ＭＰＥＧ−４ＡＶＣのイントラ符号化方式では、空間的冗長性を削減す
るために、サイズ４×４、８×８、１６×１６画素のサブブロックまたはマクロブロックに対して空間予測が行われる。なお、空間予測は、空間補間、イントラ予測、またはイントラフレーム予測ともいい、空間的な方向性を利用した空間予測を方向性空間予測という。そして、このような空間予測を用いた符号化をイントラ符号化または空間符号化といい、イントラ符号化された画像またはブロックをイントラ符号化画像またはイントラ符号化ブロックという。イントラフレーム予測は、すでに符号化された隣接ブロックの境界画素を用いて符号化対象（予測対象）ブロックを基本的に予測する、イントラ予測モード（方向性空間予測モードを含む空間予測のモード）の事前に定義したセットを用いる。

図１は、４×４画素のサブブロックに用いられる８つの方向性空間予測モードを概略的に示す図である。方向性空間予測のタイプ（モード）が異なれば、違うエッジ方向、つまり、図１に示すような、適用した２次元外挿の方向を参照する。サイズ４×４および８×８のサブブロックに対して空間予測には、８つの異なる方向性空間予測モードと、１つのＤＣ予測モードとがあり、１６×１６画素のマクロブロックに対しては、３つの異なる方向性空間予測モードと、１つのＤＣ予測モードとがある。

８つの方向性空間予測モードは、｛０，１，３，４，５，６，７，８｝の値３０２で示され、８つの異なる方向３０１の予測と対応付けられる。残り１つのイントラ予測モード（空間予測モード）は値２で示され、「ＤＣ予測モード」と呼ばれる。ＤＣ予測モードでは、ブロック内の画素全てを、周辺の参照画素の平均値１つで予測する。８つの方向性空間予測モードのそれぞれでは、参照画素を、対応する方向３０１に沿って繰り返しコピーするように、符号化対象ブロックが予測される。例えば、「０」で示された方向性空間予測モードである垂直モードでは、符号化対象ブロックのすぐ上の行の参照画素を垂直方向に繰り返しコピーする。「１」で示された方向性空間予測モードである水平モードでは、符号化対象ブロックのすぐ左の列の参照画素を水平方向に繰り返してコピーする。３から８までの値で示された残りの方向性空間予測モードは、斜め方向のイントラ予測モードであり、参照画素はそのモードに応じた斜め方向へ繰り返しコピーされる。

ビデオ符号化において、イントラ符号化されたブロックは、ビデオシーケンスのリフレッシュ、およびエラーが伝播しないようにすることに役立つ。しかしながら、空間符号化では、符号化効率が時間符号化（インター符号化）のパフォーマンスよりも低いので、結果として生じるビットレートが大きく変化するだけでなく、全体的な圧縮ゲインが低下することになる。

そこで、符号化効率を上げるために、ブロックの画素を予測する外挿方向の数を８つに制限しない改良型空間予測が提案されている（特許文献１参照）。より正確には、この特許文献１では、すでに復号された隣接ブロック内でエッジ検出が行われる。優位と判断されたエッジの検出に基づき、ブロックの画素が、隣接ブロックに属する画素間のサブピクセル位置から外挿または内挿される。

上記特許文献１では、予測方向をより精度よく決定することができる。これは、よい空間予測がより精度よくなる一方、予測誤差信号（符号化対象ブロックと予測ブロックとの差分）がより小さくなるので、よりよい圧縮となる。

欧州特許出願公開第２０８１３８６号明細書

しかしながら、エッジ検出および検出された優位エッジ方向への外挿または内挿には、除算などのかなり複雑な複数の計算が必要であるので、複雑度が増し、符号化および／または復号の実装の容易さを低減している。アプリケーションの多くにおいて、少なくともデコーダ（画像復号装置）の複雑度をできる限り少なくすることが必要である。特に、制限された電源および／または処理方法を有する装置内で用いるには、エンコーダおよび／またはデコーダの実装が低複雑度でなければならない。

そこで、本発明は、上記問題を解決するためになされたものであって、空間予測の複雑度を低減することができる画像復号化方法を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る画像復号化方法は、復号化対象ブロックごとに復号化する画像復号化方法であって、水平勾配および垂直勾配のうちの少なくとも１つに基づいて算出された、整数値で傾斜を示す整数傾斜を取得し、復号化対象ブロック内の画素位置を通る前記整数傾斜の線と、前記復号化対象ブロックに隣接する隣接ブロックの境界との交点である小数画素位置を決定し、前記復号化対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測することにより予測ブロックを生成し、予測誤差ブロックを取得し、前記予測誤差ブロックに前記予測ブロックを加算することにより、前記復号化対象ブロックを復号化し、前記整数傾斜は、予め定められた値ごとに、２のｃ乗（ｃは正の整数）によるスケーリングを行った値に対して、当該予め定められた値を除数として用いた除算の結果を示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて算出されており、前記画素値を予測する際には、スケーリングを行って生成された前記整数傾斜を、前記復号化対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算した上で、右にｃビットシフトすることにより、前記小数画素位置に補間された前記画素値を算出する。

また、上記目的を達成するために、本発明の一態様に係る画像符号化方法は、画像を構成する符号化対象ブロックごとに前記画像を符号化する画像符号化方法であって、水平勾配および垂直勾配のうちの少なくとも１つに基づいて、傾斜を整数値で示す整数傾斜を算出し、前記符号化対象ブロック内の画素位置を通る前記整数傾斜の線と、前記符号化対象ブロックに隣接する隣接ブロックの境界との交点である小数画素位置を決定し、前記符号化対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測することにより予測ブロックを生成し、前記符号化対象ブロックから、前記予測ブロックを減算することにより、前記符号化対象ブロックを符号化し、前記整数傾斜を算出する際には、予め定められた値ごとに、２のｃ乗（ｃは正の整数）によるスケーリングを行った値に対して、当該予め定められた値を除数として用いた除算の結果を示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて前記整数傾斜を算出し、前記画素値を予測する際には、スケーリングを行って生成された前記整数傾斜を、前記符号化対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算した上で、右にｃビットシフトすることにより、前記小数画素位置に補間された前記画素値を算出する。

上記目的を達成するために、本発明の一態様に係る空間予測方法は、画像を構成する予測対象ブロック内の各画素位置における画素値を予測する空間予測方法であって、水平勾配および垂直勾配のうちの少なくとも１つに基づいて、傾斜を整数値で示す整数傾斜を算出し、前記予測対象ブロック内の画素位置を通る前記整数傾斜の線と、前記予測対象ブロックに隣接する隣接ブロックの境界との交点である小数画素位置を決定し、前記予測対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測し、前記整数傾斜を算出する際には、予め定められた値ごとに、当該予め定められた値と、２のｃ乗（ｃは正の整数）によるスケーリングを行った値に対して、当該予め定められた値を除数として用いた除算の結果とを示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて前記整数傾斜を算出し、前記画素値を予測する際には、スケーリングを行って生成された前記整数傾斜を、前記予測対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算した上で、右にｃビットシフトすることにより、前記小数画素位置に補間された前記画素値を算出する。

また、上記目的を達成するために、本発明の一態様に係る空間予測方法は、画像を構成する予測対象ブロック内の各画素位置における画素値を予測する空間予測方法であって、前記予測対象ブロックに隣接する隣接ブロック内の画素間の水平勾配および垂直勾配を取得することによって、前記予測対象ブロックに重なるエッジを検出し、取得された前記水平勾配および前記垂直勾配のうちの少なくとも１つに基づいて、検出された前記エッジの傾斜を整数値で示す整数傾斜を算出し、前記予測対象ブロック内の画素位置ごとに、算出された前記整数傾斜があり、かつ、当該画素位置を通る線と、前記隣接ブロックの境界との交点である小数画素位置を決定し、前記予測対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測し、前記隣接ブロックの境界は、当該隣接ブロックに含まれる画素の複数の列または複数の行のうちの、前記予測対象ブロックに最も近い列または行である。

これにより、予測対象ブロックに重なるエッジ（予測対象ブロックに入るエッジ）の整数傾斜がまず算出され、その整数傾斜にしたがって、予測対象ブロック内の画素位置のそれぞれに対する小数画素位置（サブピクセル位置）が決定される。ここで、整数傾斜を用いれば、予測対象ブロック内の画素位置のそれぞれに対する小数画素位置を、除算することなく決定することができる。したがって、予測対象ブロック内の画素位置ごとに、除算を行うことを防ぐことができる。つまり、予測対象ブロック内の画素位置ごとに、その画素位置の水平方向または垂直方向の座標値と、エッジの水平成分および垂直成分のうちの一方の成分とを乗算し、さらに、その乗算の結果を、そのエッジの他方の成分で除算することを防ぐことができる。その結果、エッジの整数傾斜を算出するために除算が１回だけ必要であっても、予測対象ブロック内の画素位置のそれぞれに対して除算を行うことを防ぐことができ、空間予測の複雑度を低減することができる。つまり、複雑な演算を抑えることができる。

言い換えれば、本発明の一態様に係る空間予測方法では、まず、予測対象ブロックに対して一度、検出されたエッジの整数傾斜を垂直勾配および水平勾配のうちの少なくとも１つに基づいて算出し、この整数傾斜の線と、隣接ブロックの境界画素の行または列との交点を決定することを特徴としている。

また、前記整数傾斜を算出する際には、前記水平勾配または前記垂直勾配に対して、２のｃ乗（ｃは正の整数）によるスケーリングを行い、スケーリングされた前記水平勾配または前記垂直勾配を用いて前記整数傾斜を算出し、前記小数画素位置を決定する際には、スケーリングを行って生成された前記整数傾斜を、前記予測対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算することによって、前記画素位置に対する前記小数画素位置を算出する。

これにより、水平勾配または垂直勾配に対して２のｃ乗によるスケーリングが行われて整数傾斜が算出されるため、そのスケーリングの対象とされる勾配を示す値が被除数（分子）として用いられる除算を行って整数傾斜が算出される場合には、そのスケーリングによって整数傾斜の精度を高めることができる。さらに、２のｃ乗によるスケーリングが行われるため、左へのビットシフトによってこのスケーリングを簡単に行うことができる。さらに、このスケーリングによって算出される小数画素位置のリスケーリングを、右へのビットシフトによって簡単に行うことができる。また、整数傾斜の精度が高いため、小数画素位置の精度も高めることができる。

また、前記空間予測方法は、さらに、前記水平勾配または前記垂直勾配の関数によって、前記ｃを算出する。

これにより、適切なｃを用いたスケーリングを実現することができる。例えば、スケーリングの対象とされる勾配を示す値が被除数（分子）として用いられる除算を行って整数傾斜が算出され、そのスケーリングの対象とされる勾配を示す値が大きい場合には、その勾配に対して適用されるｃを小さい値にすることによって、整数傾斜のオーバーフローを防ぐことができる。

また、前記整数傾斜を算出する際には、予め定められた値ごとに、当該予め定められた値と、当該予め定められた値を除数として用いた除算の結果とを示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて前記整数傾斜を算出する。

これにより、除算テーブルには、予め定められた値ごとにその値を除数（分母）として用いた除算の結果が示され、その除算テーブルが参照されるため、水平勾配および垂直勾配のうちの一方の勾配を示す値を除数（分母）として用いた除算を実際に行うことなく、その除算の結果を簡単に得ることができる。そして、その除算の結果を用いて整数傾斜が算出されるため、その整数傾斜を簡単に、すなわち低複雑度で算出することができる。

なお、メモリは、画素値を予測する装置（イントラ予測部）の内部メモリでも外部メモリでもよい。また、除算テーブルに示される除算の結果では、被除数（分子）が２のａ乗（ａは正の整数）であることが好ましい。また、ａは水平勾配または垂直勾配の関数、特に、除数として用いられる勾配の関数であることが好ましい。これにより、大きな除数に対してはより大きなａを、小さな除数に対してはより小さなａを選択することができ、さらに予測精度を向上させることができる。

また、前記除算テーブルに示される前記予め定められた値の最大値は２のｂ乗（ｂは整数）であり、前記整数傾斜を算出する際には、前記垂直勾配および前記水平勾配のうちの除数として用いられる勾配を示す値が２のｂ乗を超える場合には、前記勾配を示す値を右にビットシフトすることによって、前記勾配をスケーリングし、スケーリングされた前記勾配を示す値を除数として用いた除算の結果を取得する。

これにより、垂直勾配および水平勾配のうちの除数として用いられる勾配を示す値が、２のｂ乗、つまり、除算テーブルに示される予め定められた値の最大値を超える場合には、その勾配を示す値が右にビットシフトされて、ビットシフトされた値を除数として用いた除算の結果が除算テーブルから取得される。したがって、除算テーブルに制限があっても、その制限を越えて除算の結果を簡単に得ることができる。

また、前記整数傾斜を算出する際には、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を他方の勾配を示す値で割ることによって、前記整数傾斜を算出し、前記予測対象ブロック内の画素位置ごとに当該画素位置の画素値を予測する際には、前記境界において、当該画素位置に対して決定された前記小数画素位置と、当該小数画素位置の隣にある複数の整数画素位置との間の距離に応じて重みを設定し、前記複数の整数画素位置の画素値のそれぞれに前記重みを付けて平均を算出することによって、前記小数画素位置における画素値を補間する。

これにより、小数画素位置における画素値を適切に補間することができる。

また、前記整数傾斜を算出する際には、前記予測対象ブロックに対して１つだけ前記整数傾斜を算出し、前記小数画素位置を決定する際には、前記予測対象ブロック内の全ての画素位置のそれぞれに対して、共通の前記整数傾斜を用いて前記小数画素位置を決定する。

これにより、予測対象ブロックに対して１つだけ整数傾斜が算出されるため、演算処理の負担を抑えることができる。

なお、本発明は、このような空間予測方法として実現することができるだけでなく、その空間予測方法によって空間を予測する装置、集積回路、コンピュータにその空間予測方法にしたがった予測をさせるためのプログラム、および、そのプログラムを格納する記録媒体としても実現することができる。さらに、その空間予測方法によって予測された空間を用いて画像を符号化する画像符号化装置、集積回路、画像符号化方法、コンピュータにその画像符号化方法にしたがった符号化をさせるためのプログラム、および、そのプログラムを格納する記録媒体としても実現することができる。さらに、その空間予測方法によって予測された空間を用いて画像を復号する画像復号装置、集積回路、画像復号方法、コンピュータにその画像復号方法にしたがった復号をさせるためのプログラム、および、そのプログラムを格納する記録媒体としても実現することができる。

上述の空間予測装置は、画像を構成する予測対象ブロック内の各画素位置における画素値を予測する空間予測装置であって、前記予測対象ブロックに隣接する隣接ブロック内の画素間の水平勾配および垂直勾配を取得することによって、前記予測対象ブロックに重なるエッジを検出する検出部と、取得された前記水平勾配および前記垂直勾配のうちの少なくとも１つに基づいて、検出された前記エッジの傾斜を整数値で示す整数傾斜を算出する算出部と、前記予測対象ブロック内の画素位置ごとに、算出された前記整数傾斜があり、かつ、当該画素位置を通る線と、前記隣接ブロックの境界との交点である小数画素位置を決定する決定部と、前記予測対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測する予測部とを備え、前記隣接ブロックの境界は、当該隣接ブロックに含まれる画素の複数の列または複数の行のうちの、前記予測対象ブロックに最も近い列または行である。

また、前記算出部は、前記水平勾配または前記垂直勾配に対して、２のｃ乗（ｃは正の整数）によるスケーリングを行い、スケーリングされた前記水平勾配または前記垂直勾配を用いて前記整数傾斜を算出し、前記決定部は、スケーリングを行って生成された前記整数傾斜を、前記予測対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算することによって、前記画素位置に対する前記小数画素位置を算出してもよい。

また、前記空間予測装置は、さらに、前記水平勾配（Gy）または前記垂直勾配（Gx）の関数によって、前記ｃを算出する係数算出部を備えてもよい。

また、前記算出部は、予め定められた値ごとに、当該予め定められた値と、当該予め定められた値を除数として用いた除算の結果とを示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配（Gx）および前記水平勾配（Gy）のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて前記整数傾斜を算出してもよい。

また、前記除算テーブルに示される前記予め定められた値の最大値は２のｂ乗（ｂは整数）であり、前記算出部は、前記垂直勾配（Gx）および前記水平勾配（Gy）のうちの除数として用いられる勾配を示す値が２のｂ乗を超える場合には、前記勾配を示す値を右にビットシフトすることによって、前記勾配をスケーリングし、スケーリングされた前記勾配を示す値を除数として用いた除算の結果を取得してもよい。

また、前記算出部は、前記垂直勾配（Gx）および前記水平勾配（Gy）のうちの一方の勾配を示す値を他方の勾配を示す値で割ることによって、前記整数傾斜を算出し、前記予測部は、前記境界において、当該画素位置に対して決定された前記小数画素位置と、当該小数画素位置の隣にある複数の整数画素位置との間の距離に応じて重みを設定し、前記複数の整数画素位置の画素値のそれぞれに前記重みを付けて平均を算出することによって、前記小数画素位置における画素値を補間してもよい。

また、前記算出部は、前記予測対象ブロックに対して１つだけ前記整数傾斜を算出し、前記決定部は、前記予測対象ブロック内の全ての画素位置のそれぞれに対して、共通の前記整数傾斜を用いて前記小数画素位置を決定してもよい。

本発明の画像符号化方法は、空間予測の複雑度を低減することができる。

図１は、４×４画素のサブブロックに用いられる８つの方向性空間予測モードを概略的に示す図である。図２は、本発明の実施の形態１における画像符号化装置の一例を示すブロック図である。図３は、本発明の実施の形態１における画像復号装置の一例を示すブロック図である。図４Ａは、本発明の実施の形態１における、エッジベクトルと、直交軸ＸおよびＹへのそのエッジベクトルの射影とを示す図である。図４Ｂは、本発明の実施の形態１における、外挿による予測の対象である外挿対象ブロックの４×４画素のラスタを示す図である。図４Ｃは、本発明の実施の形態１における、エッジが左側から予測対象ブロックに入る例を示す図である。図４Ｄは、本発明の実施の形態１における、エッジ方向のその他の例を示す図である。図５は、本発明の実施の形態１におけるイントラ予測部の処理を示すフローチャートである。図６は、本発明の実施の形態１におけるシステムの一例を示す図である。図７は、本発明の一態様に係る空間予測方法を示すフローチャートである。図８は、コンテンツ配信サービスを実現するコンテンツ供給システムの全体構成図である。図９は、デジタル放送用システムの全体構成図である。図１０は、テレビの構成例を示すブロック図である。図１１は、光ディスクである記録メディアに情報の読み書きを行う情報再生／記録部の構成例を示すブロック図である。図１２は、光ディスクである記録メディアの構造例を示す図である。図１３Ａは、携帯電話の一例を示す図である。図１３Ｂは、携帯電話の構成例を示すブロック図である。図１４は、多重化データの構成を示す図である。図１５は、各ストリームが多重化データにおいてどのように多重化されているかを模式的に示す図である。図１６は、ＰＥＳパケット列に、ビデオストリームがどのように格納されるかを更に詳しく示した図である。図１７は、多重化データにおけるＴＳパケットとソースパケットの構造を示す図である。図１８は、ＰＭＴのデータ構成を示す図である。図１９は、多重化データ情報の内部構成を示す図である。図２０は、ストリーム属性情報の内部構成を示す図である。図２１は、映像データを識別するステップを示す図である。図２２は、各実施の形態の動画像符号化方法および動画像復号方法を実現する集積回路の構成例を示すブロック図である。図２３は、駆動周波数を切り替える構成を示す図である。図２４は、映像データを識別し、駆動周波数を切り替えるステップを示す図である。図２５は、映像データの規格と駆動周波数を対応づけたルックアップテーブルの一例を示す図である。図２６Ａは、信号処理部のモジュールを共有化する構成の一例を示す図である。図２６Ｂは、信号処理部のモジュールを共有化する構成の他の一例を示す図である。

以下、本発明を実施するための形態について、図面を参照しながら説明する。

（実施の形態１）
図２は、本実施の形態における画像符号化装置であるエンコーダ１００の一例を示すブロック図である。このエンコーダ１００は、減算部１０５、変換／量子化部１１０、逆量子化／逆変換部１２０、加算部１２５、デブロッキングフィルタ１３０、メモリ１４０、補間フィルタ１５０、動き補償予測部１６０、動き検出部１６５、イントラ予測部１７０、イントラ／インター切替部１７５、ポストフィルタ設計部１８０、およびエントロピー符号化部１９０を備える。

まず、減算部１０５が、入力動画像信号（入力信号）の符号化対象ブロックと、符号化対象ブロックに対して予測された予測ブロック（予測信号）との差分（予測誤差信号、残差信号、または予測誤差ブロック）を決定する。予測信号（予測ブロック）は時間予測（インター予測）または空間予測で取得される。予測タイプはフレームごと、スライスごと、または、マクロブロックごとに変更可能である。

時間予測を用いた予測符号化はインター符号化と呼ばれ、空間予測を用いた予測符号化はイントラ符号化と呼ばれる。動画像のフレーム向けの予測タイプは、できるだけ高圧縮ゲインを達成できるように、ユーザによって設定可能か、または、エンコーダ１００により選択可能である。選択された予測タイプに応じて、イントラ／インター切替部１７５は対応する予測信号を減算部１０５に出力する。時間予測を用いた予測信号は、メモリ１４０に格納されているすでに符号化された画像から導出される。空間予測を用いた予測信号は、メモリ１４０に格納されているすでに符号化および復号された、同じフレームの隣接ブロックの境界画素値から導出される。このように、メモリ１４０は、符号化対象の信号値（画素値）と、前の信号値から生成された予測信号値（画素値）との比較を可能にする遅延部として機能する。メモリ１４０は、すでに符号化（および復号）された複数のフレームを格納する。変換／量子化部１１０は、予測誤差信号または残差信号として表される、入力信号と予測信号との差分を、係数（周波数係数）に変換して量子化する。そして、データ量を可逆圧縮方法でさらに削減するために、エントロピー符号化部１９０は、量子化された係数（符号化動画像または符号化動画像シーケンス）をエントロピー符号化する。これは、可変長のコードワードを符号に適用することによって主に実現される。コードワード長は出現確率に基づいて選択される。エントロピー符号化部１９０は、そのエントロピー符号化された符号化動画像を含む符号化信号（ビットストリーム）を出力する。

イントラ符号化画像（Ｉタイプ画像、ＩピクチャまたはＩフレームとも呼ばれる）は、イントラ符号化されたマクロブロックのみで構成される。つまり、イントラ符号化画像は、他のすでに復号された画像を参照せずに復号できる。イントラ符号化画像は、フレームからフレームへ伝播するおそれのある時間予測に起因したエラーから符号化動画像シーケンスをリフレッシュするため、符号化動画像シーケンス（符号化動画像）に誤り耐性を与える。さらに、Ｉフレームは、符号化動画像シーケンス内のランダムアクセスを可能にする。

イントラ予測部１７０は、イントラ予測モードの事前に定義されたセットを用いる。このセットには、すでに符号化された隣接ブロックの境界画素を用いて符号化対象ブロックを予測するイントラ予測モードもあれば、マッチングのテンプレートなどとして、すでに符号化された同じフレーム内の画素から構成される検索領域を用いるイントラ予測モードもある。

イントラ予測モードの事前に定義されたセットには、いくつかの方向性イントラ予測モードが含まれる。方向性イントラ予測モードが異なれば、それらのモードは、適用した２次元予測の違う方向を参照する。こうすることにより、様々なエッジ方向の場合でも、効率的に空間イントラ予測を行うことができる。そして、上述したように、減算部１０５は、このようなイントラ予測で取得した予測信号を入力信号から減算する。また、イントラ予測部１７０は、イントラ予測モードを示すイントラ予測モード情報をエントロピー符号化部１９０に出力する（図２には図示せず）。ここで、そのイントラ予測モード情報は、エントロピー符号化され、符号化信号とともに出力される。なお、本実施の形態におけるイントラ予測部１７０は、このような処理の他にも、特徴的な空間予測を行う。この特徴的な空間予測の詳細については後述する。

エンコーダ１００には、復号信号（局所復号信号）を得るために、復号部が組み込まれている。つまり、エンコーダ１００は、符号化処理に応じた復号処理が行われるように、逆量子化／逆変換部１２０を含んでいる。逆量子化／逆変換部１２０は、上述の予測誤差信号が直交変換（周波数変換）および量子化されて生成された量子化値に対して、逆量子化および逆直交変換（逆周波数変換）を行う。その結果、逆量子化／逆変換部１２０は、復号予測誤差信号を生成して出力する。

ここで、量子化ノイズとも呼ばれる量子化誤差のため、復号予測誤差信号は元の予測誤差信号とは異なっている。加算部１２５は、復号予測誤差信号を予測信号に加算することによって、再構成信号（再構成画像）を取得する。エンコーダ（画像符号化装置）１００側とデコーダ（画像復号装置）側とで互換性を維持するため、エンコーダ１００とデコーダの双方で把握できる、符号化に続いて復号された入力信号（復号信号）に基づき、補間フィルタ１５０、イントラ予測部１７０および動き補償予測部１６０からなる構成要素群は予測信号を取得する。量子化のため、量子化ノイズが再構成信号に重畳される。ブロック単位の符号化のため、重畳されたノイズにブロッキング特性がある場合が多く、その結果、特に、強い量子化では、再構成画像（再構成信号によって示される画像）のブロック境界が目に見えて分かってしまう。これらのアーチファクトを低減するために、デブロッキングフィルタ１３０は全ての再構成画像のブロックにデブロッキングフィルタ処理を適用する。デブロッキングフィルタ１３０は、デブロッキングフィルタ処理が適用された再構成信号を、復号信号としてメモリ１４０に格納する。

インター符号化によって符号化された画像（インター符号化画像）は、復号のために、予め符号化された後に復号された復号画像（復号信号によって示される画像）が必要である。時間予測（インター予測）は、片方向、つまり、符号化対象のフレームより前の時間順に並んでいるフレームのみを用いて行われても、双方向、つまり、符号化対象のフレームに続くフレームも用いて行われてもかまわない。片方向時間予測によって符号化される画像は、Ｐフレーム（Ｐピクチャ）と呼ばれるインター符号化画像であり、双方向時間予測によって符号化される画像は、Ｂフレーム（ピクチャ）と呼ばれるインター符号化画像である。通常、インター符号化画像は、Ｐタイプ、Ｂタイプ、または、Ｉタイプのマクロブロックのいずれかから成る。インター符号化マクロブロック（ＰまたはＢマクロブロック）は、動き補償予測部１６０を用いて予測される。まず、メモリ１４０に格納されている予め符号化および復号されたフレーム内から、符号化対象ブロックに対して、最もマッチングするブロックが動き検出部１６５によって見つけられる。そして、動き補償予測部１６０は、この最もマッチングするブロックを予測信号として出力する。また、動き検出部１６５は、符号化対象ブロックとそれに最も一致（マッチング）するブロックとの相対的なずれを示すデータであって、ビットストリームにおける符号化動画像シーケンス内の３次元（１時間軸、２空間軸）形状のデータを動きデータ（動きベクトル）として動き補償予測部１６０に出力する。補間フィルタ１５０は、予測精度を最適化するために、参照画像（復号画像）の解像度を、空間的サブピクセル解像度、例えば、１／２ピクセルまたは１／４ピクセル解像度に変換する。つまり、補間フィルタ１５０は参照画像にサブピクセルを補間する。これにより、動き検出部１６５は、サブピクセル精度（小数画素精度）の動きベクトルを検出する。

変換／量子化部１１０は、イントラ符号化でも、インター符号化でも、入力信号と予測信号との差である予測誤差信号を直交変換（周波数変換）して量子化することによって、量子化された係数（周波数係数）である量子化値を生成する。この周波数変換では、２次元のＤＣＴ（discrete cosine transformation）やその整数バージョンなどの直交変換を用いるのが普通である。なぜなら、直交変換は、加工前の動画像の相関を効率的に減らすからである。その変換後には、高周波数成分よりも低周波数成分の符号化により多くのビットを費やすことができるよう、ほとんどの場合、低周波数成分が高周波数成分よりも画質にとって重要になる。エントロピー符号化部１９０は、量子化値の２次元行列を１次元の配列に変換する。一般的に、いわゆるジグザグ走査で、この変換は行われる。ジグザグ走査は、２次元配列の左上の角にあるＤＣ係数からスタートして、右下の角にあるＡＣ係数に向かって所定の順序で２次元配列を走査する。通常、エネルギーは、低周波数に相当する、係数の２次元行列の左上部分に集中しているので、ジグザグ走査は結果的に最後の値が０の配列となる。これにより、実際のエントロピー符号化の部分／実際のエントロピー符号化の前の部分としてランレングスコードを用いた効率的な符号化が可能になる。

また、変換／量子化部１１０はスカラー量子化を採用している。このスカラー量子化は、量子化パラメータ（ＱＰ）とカスタマイズできる量子化マトリクス（ＱＭ）によって制御可能である。変換／量子化部１１０は、５２の量子化パラメータのうちの１つを、量子化される係数によってマクロブロックごとに選択する。さらに、量子化マトリクスは、ソース内の特定の周波数を維持して画質の損失を避けるよう具体的に設計される。量子化マトリクスは、符号化動画像シーケンスとあわせて、ビットストリームに含められて信号伝達される。

ビットストリーム（符号化信号）には、２つの機能レイヤ、つまり、ＶＣＬ（Video Coding Layer）とＮＡＬ（Network Abstraction Layer）とがある。ＶＣＬは、上で簡単に
説明したような符号化機能を提供する。ＮＡＬは、チャネルを介した伝送や記憶装置への格納などさらなるアプリケーションに応じて、ＮＡＬユニットと呼ばれる標準化ユニットに情報要素をカプセル化する。情報要素とは、例えば、符号化された予測誤差信号（符号化動画像）や、符号化動画像の復号に必要なその他の情報（例えば予測タイプ、量子化パラメータ、および動きベクトルなど）である。ビットストリームには、さらに、符号化動画像とその関連情報とを含むＶＣＬＮＡＬユニット、および、符号化動画像シーケンス全体に関連するパラメータセットなどの追加データをカプセル化する非ＶＣＬユニット、または、復号のパフォーマンスを向上させるのに用いることができる追加情報を提供するＳＥＩ（Supplemental Enhancement Information）が存在する。

ポストフィルタ設計部１８０は、復号信号と入力信号に基づいて、画質を改善するためのフィルタ係数などのポストフィルタ情報を設計し、そのポストフィルタ情報をエントロピー符号化部１９０に出力する。ポストフィルタ情報は、ビットストリームのＳＥＩ（ＳＥＩメッセージ）を介して送信される。つまり、ポストフィルタ設計部１８０は、ローカルの復号信号と、元の入力信号とを比較することにより、ポストフィルタ情報をエンコーダ１００側で判断する。通常、ポストフィルタ情報とは、デコーダが適切なフィルタを設定できるようにするための情報である。この情報は、フィルタ係数そのものであってもよく、またはフィルタ係数を設定可能にするための他の情報であってもよい。ポストフィルタ設計部１８０から出力されるポストフィルタ情報は、符号化されて符号化信号に挿入されるように、エントロピー符号化部１９０にも与えられる。

図３は、本実施の形態における画像復号装置であるデコーダ２００の一例を示すブロック図である。このデコーダ２００は、エンコーダ１００によって生成された符号化信号を復号する装置であって、逆量子化／逆変換部２２０、加算部２２５、デブロッキングフィルタ２３０、メモリ２４０、補間フィルタ２５０、動き補償予測部２６０、イントラ予測部２７０、イントラ／インター切替部２７５、ポストフィルタ２８０、およびエントロピー復号部２９０を備える。なお、逆量子化／逆変換部２２０、加算部２２５、デブロッキングフィルタ２３０、メモリ２４０、補間フィルタ２５０、動き補償予測部２６０、イントラ予測部２７０、およびイントラ／インター切替部２７５はそれぞれ、エンコーダ１００に備えられている、逆量子化／逆変換部１２０、加算部１２５、デブロッキングフィルタ１３０、メモリ１４０、補間フィルタ１５０、動き補償予測部１６０、イントラ予測部１７０、およびイントラ／インター切替部１７５と同様の処理動作を行う。

具体的には、エントロピー復号部２９０は、符号化信号であるビットストリーム（デコーダ２００への入力信号）を取得する。このエントロピー復号部２９０は、量子化値（符号化動画像）と、復号に必要な情報要素（動きデータや予測モードなど）と、ポストフィルタ情報とをエントロピー復号する。エントロピー復号部２９０は、復号対象のブロックに適用された空間予測のタイプ／モードを示すイントラ予測モード情報を必要に応じてビットストリームから抽出する。エントロピー復号部２９０は、抽出されたイントラ予測モード情報をイントラ予測部２７０に出力する。逆量子化／逆変換部２２０は、１次元に配列された量子化値を取得し、２次元行列を取得するために、その１次元に配列された量子化値を逆走査する。さらに、逆量子化／逆変換部２２０は、逆量子化および逆変換を行うことによって、エンコーダ１００における入力信号から予測信号を引いた差分に相当する、復号予測誤差信号を取得する。

加算部２２５は、予測信号を動き補償予測部２６０またはイントラ予測部２７０から取得する。これらの動き補償予測部２６０による時間予測およびイントラ予測部２７０による空間予測は、イントラ／インター切替部２７５によって切り替えられる。つまり、予測は、エンコーダ１００で適用した予測を信号伝達するための切替情報に応じて切り替えられる。この切替情報は、さらに、イントラ予測の場合には予測タイプ（イントラ予測モード情報）、動き補償予測の場合には動きデータなどの予測に必要な情報を含む。動き補償予測を行うために、動きベクトルの現在の値に応じて、画素値の補間が必要になるかもしれない。この補間は、補間フィルタ２５０によって行われる。そして、加算部２２５は、空間領域の復号予測誤差信号と、動き補償予測部２６０またはイントラ予測部２７０から取得した予測信号とを加算する。

デブロッキングフィルタ２３０は、その加算によって生成された再構成画像（再構成信号）を取得し、デブロッキングフィルタ処理を行い、その結果得られた復号信号をメモリ２４０に格納する。この復号信号は、後に続くブロックの時間予測または空間予測に適用されるものである。ポストフィルタ２８０は、ポストフィルタ処理を設定するためのポストフィルタ情報を取得する。ポストフィルタ２８０は、画質をさらに改善するために、ポストフィルタ処理を復号信号に適用する。これにより、符号化信号である入力信号が復号されて、復号結果が出力信号として出力される。

以下、本実施の形態におけるイントラ予測部１７０および２７０による特徴的な処理動作について詳細に説明する。

本発明の根底にある課題は、エッジ検出およびそれに続く予測の精度を改善することにより、画像および動画像符号化に適用する空間（イントラ）予測の効率を向上させることができるという見解に基づく。その一方で、エッジ検出および予測の改善には、より計算能力が必要であり、除算などのより複雑な演算を使用する必要がある。これにより、このような、より複雑な手法を効率的に実現することが難しくなるかもしれない。例えば、画像処理に対して整数演算のみを用いることにより、符号化および復号はスピードアップし、汎用プロセッサ、デジタル信号プロセッサ、または、特殊もしくはプログラム可能なハードウェアへの効率的な実装が可能になる。しかしながら、整数の精度に左右されて、乗算や除算などの演算がオーバーフローしたり、精度が低下したりするかもしれない。

本実施の形態におけるイントラ予測部１７０および２７０は、イントラ予測の予測性能を向上させるために、改良されたイントラ予測を用いる。特に、改良されたイントラ予測は、エッジ検出に依存しており、1ブロック境界（または複数のブロック境界）と、優位
として検出されたエッジとの交点を算出する。この交点はサブピクセル（小数画素）位置上でもよく、このようなサブピクセル位置に基づいて補間を行う。対応するイントラ予測方法の例は、例えば、上記特許文献１に開示されている。上記特許文献１に開示されたイントラ予測方法と比べて、本実施の形態におけるイントラ予測部１７０および２７０は、方向性空間予測を効率的に、かつ低複雑度で行うことができる。

一般的に、画像のエッジは、画像（画素間）の勾配ベクトルフィールド（勾配ベクトルまたは勾配フィールド）を決定することによって検出することができる。勾配ベクトルは、エッジ上でより大きく、エッジに対して垂直なものである。勾配フィールドを検出する最も一般的な手法の１つは、垂直および水平Ｓｏｂｅｌ演算子を用いた画像の畳み込みである。この演算子は以下のマスク（（式１）および（式２））で表される。

具体的には、特定の画素ｐ（ｘ，ｙ）における垂直勾配ベクトル座標（垂直座標または垂直勾配）Ｇｘと水平勾配ベクトル座標（水平座標または水平勾配）Ｇｙは、それぞれ、垂直ＳｏｂｅｌマスクＳｘと水平ＳｏｂｅｌマスクＳｙで画素ｐ（ｘ，ｙ）をフィルタリングすることによって得られる。ほとんどのアプリケーションは、Ｓｏｂｅｌ演算子を用いて勾配フィールドを得る。しかしながら、本発明は、Ｓｏｂｅｌ演算子の方法による勾配フィールドの検出に限定されるものではない。一般的に、勾配フィールドを提供するどんなエッジ検出方法を用いてもよい。例えば、２×２や４×４などのＳｏｂｅｌ演算子とは異なるサイズのマスクを用いてもよく、さらに大きなマスクを用いてもかまわない。どんな結果を望むか次第で、特定のマスクを選択する。より大きなマスクを用いることで、エッジ検出の精度を増し、小さな局所エッジの検出を抑えることができるかもしれないが、その一方で、計算の複雑度は増加することになる。代わりに、Ｓｃｈａｒｒ演算子やより高次な導関数に基づいた演算子など、Ｓｏｂｅｌマスク以外のマスクをエッジ検出に用いてもよい。

予測対象ブロックの周囲にあるブロックの複数の画素に対して、勾配ベクトルＧの垂直座標Ｇｘおよび水平座標Ｇｙを取得すると、優位勾配または優位エッジベクトルを決定することができる。水平座標（水平成分）Ｅｘおよび垂直座標（垂直成分）Ｅｙの優位エッジベクトル（単にエッジともいう）Ｅは、勾配ベクトルＧに対して垂直である。それに応じて、優位エッジベクトルＥの水平成分Ｅｘおよび垂直成分Ｅｙは、それぞれ、水平勾配Ｇｙおよび垂直勾配Ｇｘのサイズに対応する（例えば、反時計回りに対してＥｘ＝−Ｇｙ，Ｅｙ＝Ｇｘ）。通常、予測対象ブロックの優位エッジは、予測対象ブロックを横切るエッジ（予測対象ブロックに重なるエッジ）のうち最大ノルムを有するエッジだと判断される。しかしながら、エッジの重み付き平均を取ったり、大多数の画素に対して検出されたエッジ方向など、他の方法も用いることができる。

なお、勾配ベクトルの計算は、隣接ブロック（予測対象ブロックに隣接する周辺ブロック）の画素全てに対して必ずしも行うわけではない。一般的に、補間対象ブロック（予測対象ブロック）に隣接する周辺ブロックの境界近くの画素に対する勾配ベクトルの計算のみを行うほうが有利である。隣接ブロックの画素サブセットに対してのみ勾配ベクトルを算出することにより、複雑度は低減される。具体的には、マスクは隣接ブロックに部分的にのみ重なるため、予測対象ブロックに直接隣接する行および/または列は、Ｓｏｂｅｌ
マスク（または、その他の勾配ベクトル検出マスク）の適用にあまり適していない。ゆえに、予測対象ブロックに隣接する画素の第２および/または第３番目に近い行または列を
用いて勾配ベクトルを算出することが好ましい。しかしながら、本発明はそれに限定されたものではなく、隣接ブロックの他の画素も用いることができる。

さらに、予測にとって、予測対象ブロックに入ってくるエッジのみが重要なので、境界に近いエッジ検出は、誤ったエッジを検出するリスクも低減する。

図４Ａは、エッジベクトルＥと、直交軸ＸおよびＹへのそのエッジベクトルＥの射影ＥｘおよびＥｙ（それぞれ勾配ＧｙおよびＧｘに対応）とを示している。図４Ｂは、外挿による予測の対象である外挿対象（予測対象）ブロックの４×４画素のラスタを示している。具体的には、白丸および黒四角が外挿対象ブロックの画素を表している。黒四角４４０は、以下の例において値が外挿される予測対象画素ｐ（ｘ，ｙ）を表している。直交軸Ｘは、予測対象ブロックの上側で隣接するブロックに属する画素の一番下の行を貫通する。この行の画素は黒三角または黒丸で示される。直交軸Ｙは、予測対象ブロックの左側で隣接するブロックに属する画素の一番右の列を貫通する。この列の画素は黒丸で示される。

矢印４３０は、予測対象ブロックに入ってくる優位エッジ（優位エッジベクトル）Ｅとして検出されたエッジを示す。点線矢印は、優位エッジを予測対象画素ｐ（ｘ，ｙ）まで例示的に外挿している。優位エッジＥは、２つのフルピクセル（整数画素）４１０と４２０（黒三角で示されている２つ）との間にあるサブピクセル（小数画素）４５０において角度αで予測対象ブロックに入る。サブピクセル４５０は、最も近い２つのフルピクセル４１０，４２０までの距離に基づき補間される必要がある。

エッジの鮮鋭度、位置、および方向をできる限り失わないように、予測対象画素４４０は、エッジ方向に沿って、以下の（式３）に示すように、フルピクセル４１０および４２０の両方の画素値に基づいて外挿される。

ここで、ｗ_１とｗ_２は重みであり、この重みは、交点（サブピクセル）４５０からフルピクセル４１０および４２０のそれぞれまでの距離に基づいて決定されることが好ましい。ポイント（０，０）は、予測対象ブロックの左上角付近に置かれると仮定する。また、上記（式３）において、右辺第１項の重みｗ_１に乗算されている値は、フルピクセル４２０の画素値を示し、右辺第２項の重みｗ_２に乗算されている値は、フルピクセル４１０の画素値を示す。また、図４Ｂに示すエッジ４３０のように、左上から右下に向かう方向に沿うエッジの場合には、δxは正の値を示す。なお、右上から左下に向かう方向に沿うエ
ッジの場合には、δxは負の値を示す。例えば、重みｗ_１およびｗ_２は、以下の（式４）
に示すように算出することができる。

ここで、δxは、予測対象画素４４０のＸ座標と交点４５０のＸ座標との間の距離であ
る。（式５）に示す演算子は「床」演算を表し、被演算子に対して、それに最も近い小さいほうの整数を返す（この例では１に等しい）。（式６）に示す演算子は「天井」演算を表し、被演算子に対して、それに最も近い大きいほうの整数を返す（この例では２に等しい）。

図４Ｂに示すように、エッジ４３０の傾斜ｋは、以下の（式７）に示すように算出できる。

そして、距離δxは、以下の（式８）に示すように算出できる。

このように、δxの計算には除算が必要である。一般的に、予測対象ブロックの各画素に対して、予測対象画素のＸ座標から、エッジと上部周辺ブロックの画素の列との交点（その列にある画素間を補間する交点）までの距離δxを算出する。算出した距離δxに基づき、予測対象画素４４０、つまり予測対象画素４４０の画素値ｐ（ｘ，ｙ）を、ｐ（ｘ，ｙ)＝ｐ（ｘ−δｘ，０）として予測する。これは、予測対象画素４４０（予測対象画素
４４０の画素値）が、補間されたサブピクセル４５０の画素値として外挿されることを意味する。

本実施の形態では、上記のパラメータは全て、通常、任意の精度の整数値であり、適用された演算は整数演算である。例えば、パラメータＥｘおよびＥｙは、それぞれに対応する８ビット長変数で表すことができる。このような場合、距離δxも、整数の乗算（ｙ×
Ｅｘ）を行ってその結果を、Ｅｙで割ることにより、整数演算を用いて算出される。整数演算の除算では、その結果も整数となるため、整数除算は精度がわずかに低下する可能性がある。一般的に、被除数の値（ｙ×Ｅｘ）が小さいほど、除数の値（Ｅｙ）が大きいほど、精度の低下は大きくなる。

上述したような、ブロックの画素を予測するために行われる演算の数を減らすには、予測対象ブロックの全画素に共通のエッジＥの傾斜ｋをまず算出することによって、実行する除算の数を削減する。算出された傾斜ｋは、所定の精度の整数傾斜Ｋ＝ｉｎｔ（Ｅｘ／Ｅｙ）として格納される。そして、算出された整数傾斜Ｋを用いて、以下の（式９）に示すような予測対象画素に対する距離δxを算出する。

ここで、記号「ｉｎｔ」は、オペランドが所定の精度の整数であることを強調したものである。ゆえに、傾斜の算出に用いられる除算は、予測対象画素のブロック全体に対して一度行われるだけである。さらに、同じ行にある各画素では、予測対象画素のｙ座標は同じなので、距離δxは、補間対象（予測対象）ブロックの画素行ごとに一度だけ算出する
必要がある。整数の精度は、実装環境に応じて選択されるのが一般的である。その精度は、特に画像処理において、８ビットであることが多い。なぜなら、入力画素成分も通常８ビットでサンプリングされるからである。しかしながら、１２、１６、または、その他のビット数などより高い精度でも、８ビットより低い精度でもよい。

しかしながら、ブロックごとに１回だけ整数除算Ｅｘ／Ｅｙを実行して、行ごとに距離δxを得ることは、整数乗算（ｙ×Ｅｘ）をまず実行してその結果をＥｙで割るという解
に対する精度の低下につながるかもしれない。これは、被除数のＥｘがより小さいということにより生じる。さらに、整数傾斜に座標ｙをかけるその後の乗算は、別の行に対する不正確さをさらに倍増することになる。特に、精度は、ｙの値が大きいほど低くなるであろう。

ブロックごとに１回の除算という利点を持ち続けたまま、計算の精度をさらに向上させるためには、以下の（式１０）に示すように、被除数の数にスケーリング係数２^ｃをかけることによって整数傾斜を得る。ここで、ｃは整数である。δxblockは、スケーリング係数が乗算された整数傾斜である。

ｃは正の整数であることが好ましい。ｃの値は、例えば、１と４の間の値といったどんな値でもよい。しかしながら、その他の値も可能である。ブロックサイズを考慮して、特定の値を選択してもよい。例えば、ｃの値の候補は４である。なぜなら、最も大きなブロックサイズは１６×１６なので、ｙの最も大きな値は１６（２^４＝１６）ということになる。同様に、４×４サイズのブロックでは、ｃの値は２となり、８×８サイズのブロックでは、ｃの値は３となるであろう。この乗算は、被除数のＥｘをｃビット左シフトすることに等しい。これは被除数の値を大きくするので、除数Ｅｙによる除算の精度は増すであろう。そして、距離δxは、以下の（式１１）に示すように得られる。

この場合、重みｗ_１およびｗ_２はそれぞれ、以下の（式１２）および（式１３）に示すように算出される。

または、以下の（式１４）および（式１５）によって示される等式で算出される。

ここで、演算「＞＞」はｃビット分の右シフトを表し、これは、適用したスケーリング係数２^ｃで結果を割ることによって元の大きさにスケーリングしなおすことに相当する。演算「＜＜」は、ｃビット分の左シフトを表し、これは、スケーリング係数２^ｃで乗算することに相当する。演算「＆」は、ビット単位の論理演算子「ＡＮＤ」を表す。

δxの値ならびに重みｗ_１およびｗ_２はシフトされず、係数２^ｃでスケーリングされる
。サブピクセル位置を補間した後には、適用したスケーリング係数２^ｃで最終結果を割る右シフトを行わなければならない。つまり、画素ｐ（ｘ，ｙ）の画素値は、以下の（式１６）によって示される。

ここで、オフセット２^ｃ−１は、最終値を最も近い整数に丸める働きをする。２^ｐ（ただしｐは整数（６が適した値））を乗算することによって値Ｅｘの精度を予め増していた場合は、係数２^ｃで精度を増やすことは、ｙの乗算で生じた誤差を２^ｃで割る目的のみを有する。例えば、整数傾斜の値は、以下の（式１７）で得られる。

この場合、距離δxは、以下の（式１８）に示すように得ることができる。除算演算で
生じた誤差をｙ／２^ｃで乗算し、距離δxを係数２^ｐでスケーリングする。このスケーリ
ングは、交点がサブピクセル位置になる可能性を維持しながら、整数演算で距離を算出する必要がある。

重みｗ_１およびｗ_２は、以下の（式１９）および（式２０）に示すように得られる。

そして、予測値である予測対象画像ｐ（ｘ，ｙ）の画素値は、以下の（式２１）で得られる。

予測対象画素４４０のｘ座標から、予測対象ブロックの上部に隣接する画素の行とエッジとの交点までの距離δxのこの計算は、除算の精度向上を可能にする。しかしながら、
ｙで乗算するため、その乗算結果は必要以上に大きな値となり、コンピュータ環境がサポートする整数精度次第では、オーバーフローの原因になるかもしれない。

オーバーフローを避けながら除算の精度向上を維持するために、以下の（式２２）に示すように、Ｅｘの値に相当する垂直勾配Ｇｙの値に応じて、スケーリング係数２^ｃを選択する。本実施の形態では、イントラ予測部１７０および２７０は、ｃおよびスケーリング係数２^ｃを算出する係数算出部を備えてもよい。

ここで、関数ｆ（）は任意関数である。ｃの値は、Ｅｘの値が大きいほど小さいことが好ましい。関数ｆ（）の例として、以下の（式２３）を挙げる。

このような場合、Ｅｘが１ならばｃは８、Ｅｘが１２８ならばｃは１、Ｅｘが２５６ならばｃは０である。このシステムにおいて、より多くのビットを利用できる場合は、以下の関数（式２４）を定義できるであろう。

ここで、ｂは、システムで利用できる最大ビット数である。一般的に、Ｅｘが小さければ（例えば１）、とりうる最大精度を用いることができ、Ｅｘが大きければ（２５６に近い）、最大精度マイナス８ビットを用いることができるであろう。パラメータｃを算出する際には、エッジベクトル座標Ｅｘの符号は重要でないため、ｃもｃ＝ｆ（｜Ｅｘ｜）として算出できるのが一般的である。

本発明のその他の実施の形態によると、エッジの整数傾斜を算出する除算は全く行われない。これは、除算を、テーブル（除算テーブル）を参照する処理に置き換えることによって簡単に実現される。したがって、テーブルがメモリに格納される。そのメモリは、補間コンピューティングシステム（イントラ予測部）の内部メモリでも、外部メモリでもよい。テーブルは、限られた数の除数と、所定の値をその除数で割った結果からなる。例えば、このテーブルは、以下の（式２５）に示すような、Ｅｙの様々な値で数２^ａを割った結果を含んでいてもかまわない。

ここで、ａは正の整数である。例えば、ａは、前述した精度ｐの値に等しくなり得る。できる限りテーブルを用いた処理を除算の代わりに行うためには、テーブルの除算のスケーリング係数２^ａは、以下の（式２６）に示すように、除数サイズの関数｜Ｅｙ｜であることが好ましい。

関数ｇ（）は任意の関数である。スケーリングパラメータａの値は、Ｅｙのサイズ（絶対値）が大きいほど大きいことが好ましい。関数ｇ（）の例として、以下の（式２７）を挙げる。

ここで、ｂは、システムで利用できるビット数を（ｂ＋８）の値がオーバーフローしないように選択される。一般的には、大きい（２５６に近い）Ｅｙに対しては、とりうる最大精度を用い、小さな（１に近い）Ｅｙに対しては、より低い精度を用いるであろう。上記例の関数ｆ（）およびｇ（）は、図示目的だけのものである。これらの関数の値は、オンザフライで算出されても、メモリのテーブルに予め格納されていてもどちらでもよい。また、関数ｆ（）およびｇ（）は、解析ルールを参照しないテーブルで与えられてもよい。

そして、スケーリングされた整数傾斜は、以下の（式２８）のように得ることができる。

ここで、演算「ｓｉｇｎ」はオペランドの符号を返し、Ｔａｂｌｅ［］は、メモリのテーブルから検索した｜Ｅｙ｜による除算の結果を表す。そして、先述と同様に、つまり（式２９）に示すように、距離δxを得ることができる。

この場合、距離δxを係数２^ａでスケーリングする。重みの値と予測対象画素の予測画
素値は、ｐをａで置き換えることによって前述の式から推定することができる。その他の可能性は、距離δxを係数２^ｃ＋ａでスケーリングし続けることである。この場合、値を
２^ｃ＋ａで割るために、最終予測は右にシフトしなければならない。つまり、これらの処理は、以下の（式３０）〜（式３３）によって示される。

除算テーブルを格納するのに必要なメモリを制限するため、格納されるテーブルの登録数は２^ｂのみであることが好ましい。これは、｜Ｅｙ｜の登録数が０＜｜Ｅｙ｜≦２^ｂのみであることを意味する。つまり、除算テーブルに示されている除算に用いられる除数の最大値は２^ｂである。Ｅｙの値ごとにテーブルに登録値（除算の結果）があることが好ましい。しかしながら、本発明では、このことは必ずしも必要ではない。一般的に、Ｅｙの値の２つまたは３つおきにのみ、登録値がテーブルに記載されていてもよい。登録値が存在しなければ、そのテーブルにある最も近い登録値を検索する。しかしながら、いくつかの登録値のみ載せることは、正確さを失うことになる。

除数Ｅｙがテーブル内の最も大きな除数よりも大きければ、エッジベクトル座標ＥｙおよびＥｘの両方の値を、２で割ることに相当する、１ビット分右にシフトすることが好ましい。つまり、以下の（式３４）に示す処理が行われる。

つまり、シフトした後、除数Ｅｙの新たな値に基づき、除算の結果をテーブルから検索する。除算の結果が成功裏に検索されれば、距離δxを、上述と同様に算出する。Ｅｙの
値がまだ大きければ、除算の結果を得ることができるまで、シフトを繰り返す。テーブル登録数をこのように減らすと、エッジ方向の解像度はわずかに低下する。しかしながら、必要なメモリの容量を制限できることは有利である。パラメータｂを設定することにより、エッジ方向解像度と必要なメモリの容量とのトレードオフ関係を、補間対象ブロックのサイズだけでなく任意のコンピュータ環境に対しても適切に設定することができる。

上記の例は、予測対象ブロックに上部から入ってくるエッジ４３０に対して説明してきた。

図４Ｃは、エッジ４８３が左側から予測対象ブロックに入る、その他の例を示している。この例では、傾斜の算出も決められた勾配に基づく。しかしながら、ｘおよびｙ座標（ＥｘおよびＥｙ座標に相当する）は入れ替わっている。例えば、傾斜ｋ_１および距離δy
_１は、以下の（式３５）および（式３６）に示すように算出される。

その結果、距離δy_１の具体的な計算は、前述の例における距離δxの計算と同様である。しかしながら、ここでの除数はＥｙではなくＥｘであり、予測対象画素ｐ（ｘ、ｙ）の垂直座標ｙの変わりに、水平座標ｘが用いられる。さらに、距離δy_１は、予測対象ブロ
ックに隣接する周辺ブロック（隣接ブロック）の画素の行ではなく列に対して同じとなる。本発明およびその実施の形態を、対応する方法でこの例に適用してもよい。

図４Ｄは、可能性のあるエッジ方向のその他の例を示す。エッジは予測対象ブロックの左境界で交差する。しかしながら、図４Ｃに対して説明した例とは違って、予測対象ブロックの左の境界をカットするエッジ４８２は、そのブロックを通り続け、右上の周辺ブロックにおける下の境界をカットする（図４Ｄ中の矢印４８１）。この場合、予測は２方向からのエッジ補間となる。符号化／復号のためにブロックをラスタ走査するシステムにおいて本発明をイントラ予測に適用する場合、補間対象ブロックの右上周辺はすでに符号化および復号されているため、その画素も予測に利用することができる。前述の例では、交点周辺のフルピクセル位置における２つの画素を重み付けることにより予測が行われた。しかしながら、４つの画素、すなわち、予測対象ブロックの左の境界にある交点周辺の２つの画素と、右上の境界にある交点周辺の２つの画素とを重み付けることによっても予測を行うことができる。さらに、この係数の重み付けは、予測対象画素からの特定交点の距離とみなしてもかまわない。

単純化のため、上述した例では全て、４×４画素のブロックに対して説明している。しかしながら、本発明はこのようなブロックに制限されるものではない。一般的に、８×８、１６×１６、８×１６、４×８など、どんな正方形および長方形サイズのブロックでも上述したように補間することができる。

さらに、上記の例では、画像または動画像エンコーダおよびデコーダにおける展開を主に説明してきた。しかしながら、本発明はそれらに限定されるものではない。本発明は、空間的外挿または内挿を必要とする他の画像処理タスクへも容易に適用できる。例えば、本発明に係る外挿／内挿を、エラーコンシールメントなどの後処理に用いてもかまわない。

図５は、イントラ予測用に動画像符号化／復号に用いられた本発明に係る画素ブロック（ブロック）の空間予測をまとめたものである。まず、イントラ予測部１７０，２７０は、エッジ検出を行い（ステップＳ５１０）、エッジが検出されたか否かを判別する（ステップＳ５２０）。すなわち、外挿または内挿が行われるための優位エッジの検出が行われる。ここで、エッジが検出されなければ（ステップＳ５２０において「ｎｏ」）、予測対象ブロックの周辺が実質滑らかであるため、イントラ予測部１７０，２７０は、いわゆるＤＣ補間（ＤＣ予測モードによる予測）を予測対象ブロックに対して適用する（ステップＳ５３０）。このＤＣ補間は、予測対象ブロックの画素全てを隣接画素の平均値と同じ値に設定する補間である。一方、エッジが検出されれば（ステップＳ５２０において「ｙｅｓ」）、イントラ予測部１７０，２７０は、エッジの整数傾斜を算出する（ステップＳ５４０）。

そして、イントラ予測部１７０，２７０は、予測対象画素（次の画素）があるか否かを判別し（ステップＳ５５０）、あると判別したときには（ステップＳ５５０において「ｙｅｓ」）、ブロック境界とエッジの交点を決定する（ステップＳ５６０）。さらに、イントラ予測部１７０，２７０は、交点のサブピクセル位置（サブピクセルの画素値）を必要に応じて補間し（ステップＳ５７０）、そのサブピクセル位置の画素値を用いて、予測対象画素に対して適宜外挿または内挿を行う（ステップＳ５８０）。一方、イントラ予測部１７０，２７０は、ステップＳ５５０で予測対象画素がないと判別したときには（ステップＳ５５０において「ｎｏ」）、予測対象ブロックに対する空間予測を終了する。

図２および図３に示すように、本実施の形態では、エンコーダ１００におけるイントラ予測部１７０と、デコーダ２００におけるイントラ予測部２７０とが上述の空間予測を行う。具体的には、イントラ予測部１７０または２７０は、さらに、エッジ検出部（検出部）、交点決定部（決定部）、隣接ブロックのサブピクセル位置の補間部、および外挿／内挿部（予測部）を備えていてもよい。エッジ検出部は、予測対象ブロックをカットする優位エッジを検出する。交点決定部は、エッジ検出部により決定されたエッジの交点に対応するサブピクセル位置と、予測対象ブロックの周辺ブロックに属する画素の行または列を決定する。補間部は、最も近いフルピクセルの値に基づき、交点決定部により算出されたサブピクセル位置の画素値を補間する。外挿／内挿部は、交点決定部により算出されたサブピクセル位置に基づいて、対象画素（予測対象ブロック内の画素）の画素値を外挿／内挿する。

上記例では、ブロックのラスタ走査で画像は符号化および／または復号される。この場合、予測に利用できる隣接ブロックは、必ず、予測対象ブロックの上にあるブロックと、予測対象ブロックから左のブロックということになる。しかしながら、本発明は、予測対象ブロックに隣接するすでに符号化／復号されたブロックが少なくとも１つある限り、また、予測対象ブロックをカットして隣接ブロックを通るエッジがある限り、別の走査に対しても適用することができる。

また、上記の例では、１つの画素ブロックに対して説明してきた。実際は、複数のブロックに再分割された画像を、ブロックごとに異なる符号化方法を用いて符号化してもよい。エラーコンシールメントもブロック１つに適用することができる。しかしながら、また、本発明を適用して、ビデオシーケンスの１つの全体画像またはフレームを符号化してもよい。

図６は、符号化動画像を含むビットストリームをエンコーダ側からデコーダ側に送信する、本発明におけるシステムの一例を示す図である。このシステムは、エンコーダ１４０１、チャネル１４０２およびデコーダ１４０３を備える。エンコーダ１４０１は上述のエンコーダ１００に相当し、デコーダ１４０３は上述のデコーダ２００に相当する。

入力動画像信号はエンコーダ（送信機）１４０１によって符号化され、チャネル１４０２に送信される。エンコーダ１４０１は、上述の少なくとも１つのブロックのイントラ予測のために、本発明における実施の形態に基づく方向性空間予測を伴う符号化を行う。チャネル１４０２は、記録媒体であってもよく送信チャネルであってもよい。記録媒体は、例えば、揮発性または不揮発性のメモリであってもよく、磁気的または光学的な媒体であってもよく、記録媒体の集合であってもよい。伝送チャネルは、どのような伝送システムにおける物理的リソースによっても実現される。例えば、伝送チャネルは、ワイヤーレスチャネルやワイヤードチャネルであっても、固定チャネルや可動チャネルであってもよい。また、伝送チャネルは、ｘＤＳＬ、ＩＳＤＮ、ＷＬＡＮ、ＧＰＲＳ、ＵＭＴＳ、インターネット、または、規格化されたシステムや私有のシステムであってもよい。

エンコーダ１４０１は、入力動画像信号に対してフォーマット変換を行ってもよく、チャネル１４０２を介してビットストリームを送信するための送信機を備えてもよい。また、エンコーダ１４０１は、記録媒体にビットストリームを送信するためのアプリケーションを含んでいてもよい。

ビットストリームはチャネル１４０２を介してデコーダ（受信機）１４０３に取得される。デコーダ１４０３は、上述の本発明における実施の形態に基づく方向性空間予測を行い、そのビットストリームを復号する。

デコーダ１４０３は、チャネル１４０２を介してビットストリームを受信するための受信機を備えてもよく、記録媒体からビットストリームを抽出するためのアプリケーションを含んでもよい。さらに、デコーダ１４０３は、復号画像に対する後処理（例えばフォーマット変換など）を行うための後処理手段を備えていてもよい。

まとめると、本発明は、方向性空間予測の効率的な実装に関連するものである。この方向性空間予測では、隣接ブロックの垂直勾配および水平勾配を決定することによりエッジを検出し、予測対象画素ごとに、隣接ブロックの画素の行または列と検出エッジの交点を決定し、決定された交点に応じてブロックの各画素（予測対象画素）を外挿または内挿する。交点は、サブピクセル位置でもよい。具体的に、交点の算出には、予測対象ブロック全体で共通の整数傾斜を得るため、垂直勾配または水平勾配による除算が含まれる。これにより、除算の数を１ブロックあたり１つに減らすことができる。この除算の精度を向上させるため、水平勾配または垂直勾配の値それぞれに応じたスケーリング係数でスケーリングを適用することができる。つまり、本発明の空間予測方法では図７に示すように処理が行われる。

図７は、本発明の一態様に係る空間予測方法を示す図である。

本発明の一態様に係る空間予測方法は、画像を構成する予測対象ブロック内の各画素位置における画素値を予測する空間予測方法である。まず、イントラ予測部１７０は、予測対象ブロックに隣接する隣接ブロック内の画素間の水平勾配Ｇｙおよび垂直勾配Ｇｘを取得することによって、その予測対象ブロックに重なるエッジＥを検出する（ステップＳ１０）。次に、イントラ予測部１７０は、その取得された水平勾配Ｇｙおよび垂直勾配Ｇｘのうちの少なくとも１つに基づいて、その検出されたエッジの傾斜を整数値で示す整数傾斜を算出する（ステップＳ１１）。次に、イントラ予測部１７０は、その予測対象ブロック内の画素位置ごとに、算出された整数傾斜があり、かつ、その画素位置４４０を通る線４３０と、隣接ブロックの境界との交点である小数画素位置４５０を決定する（ステップＳ１２）。次に、イントラ予測部１７０は、その予測対象ブロック内の画素位置ごとに、その画素位置４４０に対して決定された小数画素位置４５０に補間された画素値に基づいて、その画素位置４４０の画素値を予測（外挿または内挿）する（ステップＳ１３）。ここで、その隣接ブロックの境界は、その隣接ブロックに含まれる画素の複数の列または複数の行のうちの、その予測対象ブロックに最も近い列または行である。このような処理は、イントラ予測部２７０でも同様に行われる。

なお、エッジの整数傾斜の算出では、水平勾配Ｇｙおよび垂直勾配Ｇｙのうちの少なくとも１つに基づいてその整数傾斜を算出すればよく、必ず水平勾配Ｇｙおよび垂直勾配Ｇｙの２つの勾配を用いなくてもよい。

また、本実施の形態では、画像符号化装置１００は、イントラ予測部１７０以外の他の構成要素として、動き補償予測部１６０などを備えたが、少なくとも減算部１０５およびイントラ予測部１７０を備えていればよく、他の構成要素を備えていなくてもよい。

また、本実施の形態では、画像復号装置２００は、イントラ予測部２７０以外の他の構成要素として、動き補償予測部２６０などを備えたが、少なくとも加算部２２５およびイントラ予測部２７０を備えていればよく、他の構成要素を備えていなくてもよい。

また、本実施の形態では、画像符号化装置１００は、イントラ予測モード情報をエントロピー符号化して出力し、画像復号装置２００は、そのイントラ予測モード情報をエントロピー復号する。ここで、イントラ予測モード情報は、方向性イントラ予測モードを示す情報であってもよく、その方向性イントラ予測モードを示さずに、符号化または復号対象ブロックに対してイントラ予測が適用されることだけを示す情報であってもよい。

（実施の形態２）
上記各実施の形態で示した動画像符号化方法または動画像復号化方法（画像符号化方法または画像復号方法）の構成を実現するためのプログラムを記憶メディアに記録することにより、上記各実施の形態で示した処理を独立したコンピュータシステムにおいて簡単に実施することが可能となる。記憶メディアは、磁気ディスク、光ディスク、光磁気ディスク、ＩＣカード、半導体メモリ等、プログラムを記録できるものであればよい。

さらにここで、上記各実施の形態で示した動画像符号化方法や動画像復号化方法の応用例とそれを用いたシステムを説明する。

図８は、コンテンツ配信サービスを実現するコンテンツ供給システムex１００の全体構成を示す図である。通信サービスの提供エリアを所望の大きさに分割し、各セル内にそれぞれ固定無線局である基地局ex１０６、ex１０７、ex１０８、ex１０９、ex１１０が設置されている。

このコンテンツ供給システムex１００は、インターネットex１０１にインターネットサービスプロバイダex１０２および電話網ex１０４、および基地局ex１０６からex１１０を介して、コンピュータex１１１、ＰＤＡ（Personal Digital Assistant）ex１１２、カメラex１１３、携帯電話ex１１４、ゲーム機ex１１５などの各機器が接続される。

しかし、コンテンツ供給システムex１００は図８のような構成に限定されず、いずれかの要素を組合せて接続するようにしてもよい。また、固定無線局である基地局ex１０６からex１１０を介さずに、各機器が電話網ex１０４に直接接続されてもよい。また、各機器が近距離無線等を介して直接相互に接続されていてもよい。

カメラex１１３はデジタルビデオカメラ等の動画撮影が可能な機器であり、カメラex１１６はデジタルカメラ等の静止画撮影、動画撮影が可能な機器である。また、携帯電話ex１１４は、ＧＳＭ（登録商標）（Global System for Mobile Communications）方式、Ｃ
ＤＭＡ（Code Division Multiple Access）方式、Ｗ−ＣＤＭＡ（Wideband-Code Division Multiple Access）方式、若しくはＬＴＥ（Long Term Evolution）方式、ＨＳＰＡ(High Speed Packet Access)の携帯電話機、またはＰＨＳ（Personal Handyphone System）等であり、いずれでも構わない。

コンテンツ供給システムex１００では、カメラex１１３等が基地局ex１０９、電話網ex１０４を通じてストリーミングサーバex１０３に接続されることで、ライブ配信等が可能になる。ライブ配信では、ユーザがカメラex１１３を用いて撮影するコンテンツ（例えば、音楽ライブの映像等）に対して上記各実施の形態で説明したように符号化処理を行い、ストリーミングサーバex１０３に送信する。一方、ストリーミングサーバex１０３は要求のあったクライアントに対して送信されたコンテンツデータをストリーム配信する。クライアントとしては、上記符号化処理されたデータを復号化することが可能な、コンピュータex１１１、ＰＤＡex１１２、カメラex１１３、携帯電話ex１１４、ゲーム機ex１１５等がある。配信されたデータを受信した各機器では、受信したデータを復号化処理して再生する。

なお、撮影したデータの符号化処理はカメラex１１３で行っても、データの送信処理をするストリーミングサーバex１０３で行ってもよいし、互いに分担して行ってもよい。同様に配信されたデータの復号化処理はクライアントで行っても、ストリーミングサーバex１０３で行ってもよいし、互いに分担して行ってもよい。また、カメラex１１３に限らず、カメラex１１６で撮影した静止画像および／または動画像データを、コンピュータex１１１を介してストリーミングサーバex１０３に送信してもよい。この場合の符号化処理はカメラex１１６、コンピュータex１１１、ストリーミングサーバex１０３のいずれで行ってもよいし、互いに分担して行ってもよい。

また、これら符号化・復号化処理は、一般的にコンピュータex１１１や各機器が有するＬＳＩex５００において処理する。ＬＳＩex５００は、ワンチップであっても複数チップからなる構成であってもよい。なお、動画像符号化・復号化用のソフトウェアをコンピュータex１１１等で読み取り可能な何らかの記録メディア（ＣＤ−ＲＯＭ、フレキシブルディスク、ハードディスクなど）に組み込み、そのソフトウェアを用いて符号化・復号化処理を行ってもよい。さらに、携帯電話ex１１４がカメラ付きである場合には、そのカメラで取得した動画データを送信してもよい。このときの動画データは携帯電話ex１１４が有するＬＳＩex５００で符号化処理されたデータである。

また、ストリーミングサーバex１０３は複数のサーバや複数のコンピュータであって、データを分散して処理したり記録したり配信するものであってもよい。

以上のようにして、コンテンツ供給システムex１００では、符号化されたデータをクライアントが受信して再生することができる。このようにコンテンツ供給システムex１００では、ユーザが送信した情報をリアルタイムでクライアントが受信して復号化し、再生することができ、特別な権利や設備を有さないユーザでも個人放送を実現できる。

なお、コンテンツ供給システムex１００の例に限らず、図９に示すように、デジタル放送用システムex２００にも、上記各実施の形態の少なくとも動画像符号化装置または動画像復号化装置（画像符号化装置または画像復号装置）のいずれかを組み込むことができる。具体的には、放送局ex２０１では映像データに音楽データなどが多重化された多重化データが電波を介して通信または衛星ex２０２に伝送される。この映像データは上記各実施の形態で説明した動画像符号化方法により符号化されたデータである。これを受けた放送衛星ex２０２は、放送用の電波を発信し、この電波を衛星放送の受信が可能な家庭のアンテナex２０４が受信する。受信した多重化データを、テレビ（受信機）ex３００またはセットトップボックス（ＳＴＢ）ex２１７等の装置が復号化して再生する。

また、ＤＶＤ、ＢＤ等の記録メディアex２１５に記録した多重化データを読み取り復号化する、または記録メディアex２１５に映像信号を符号化し、さらに場合によっては音楽信号と多重化して書き込むリーダ／レコーダex２１８にも上記各実施の形態で示した動画像復号化装置または動画像符号化装置を実装することが可能である。この場合、再生された映像信号はモニタex２１９に表示され、多重化データが記録された記録メディアex２１５により他の装置やシステムにおいて映像信号を再生することができる。また、ケーブルテレビ用のケーブルex２０３または衛星／地上波放送のアンテナex２０４に接続されたセットトップボックスex２１７内に動画像復号化装置を実装し、これをテレビのモニタex２１９で表示してもよい。このときセットトップボックスではなく、テレビ内に動画像復号化装置を組み込んでもよい。

図１０は、上記各実施の形態で説明した動画像復号化方法および動画像符号化方法を用いたテレビ（受信機）ex３００を示す図である。テレビex３００は、上記放送を受信するアンテナex２０４またはケーブルex２０３等を介して映像データに音声データが多重化された多重化データを取得、または出力するチューナex３０１と、受信した多重化データを復調する、または外部に送信する多重化データに変調する変調／復調部ex３０２と、復調した多重化データを映像データと、音声データとに分離する、または信号処理部ex３０６で符号化された映像データ、音声データを多重化する多重／分離部ex３０３を備える。

また、テレビex３００は、音声データ、映像データそれぞれを復号化する、またはそれぞれの情報を符号化する音声信号処理部ex３０４、映像信号処理部ex３０５を有する信号処理部ex３０６と、復号化した音声信号を出力するスピーカex３０７、復号化した映像信号を表示するディスプレイ等の表示部ex３０８を有する出力部ex３０９とを有する。さらに、テレビex３００は、ユーザ操作の入力を受け付ける操作入力部ex３１２等を有するインタフェース部ex３１７を有する。さらに、テレビex３００は、各部を統括的に制御する制御部ex３１０、各部に電力を供給する電源回路部ex３１１を有する。インタフェース部ex３１７は、操作入力部ex３１２以外に、リーダ／レコーダex２１８等の外部機器と接続されるブリッジex３１３、ＳＤカード等の記録メディアex２１６を装着可能とするためのスロット部ex３１４、ハードディスク等の外部記録メディアと接続するためのドライバex３１５、電話網と接続するモデムex３１６等を有していてもよい。なお記録メディアex２１６は、格納する不揮発性／揮発性の半導体メモリ素子により電気的に情報の記録を可能としたものである。テレビex３００の各部は同期バスを介して互いに接続されている。

まず、テレビex３００がアンテナex２０４等により外部から取得した多重化データを復号化し、再生する構成について説明する。テレビex３００は、リモートコントローラex２２０等からのユーザ操作を受け、ＣＰＵ等を有する制御部ex３１０の制御に基づいて、変調／復調部ex３０２で復調した多重化データを多重／分離部ex３０３で分離する。さらにテレビex３００は、分離した音声データを音声信号処理部ex３０４で復号化し、分離した映像データを映像信号処理部ex３０５で上記各実施の形態で説明した復号化方法を用いて復号化する。復号化した音声信号、映像信号は、それぞれ出力部ex３０９から外部に向けて出力される。出力する際には、音声信号と映像信号が同期して再生するよう、バッファex３１８、ex３１９等に一旦これらの信号を蓄積するとよい。また、テレビex３００は、放送等からではなく、磁気／光ディスク、ＳＤカード等の記録メディアex２１５、ex２１６から多重化データを読み出してもよい。次に、テレビex３００が音声信号や映像信号を符号化し、外部に送信または記録メディア等に書き込む構成について説明する。テレビex３００は、リモートコントローラex２２０等からのユーザ操作を受け、制御部ex３１０の制御に基づいて、音声信号処理部ex３０４で音声信号を符号化し、映像信号処理部ex３０５で映像信号を上記各実施の形態で説明した符号化方法を用いて符号化する。符号化した音声信号、映像信号は多重／分離部ex３０３で多重化され外部に出力される。多重化する際には、音声信号と映像信号が同期するように、バッファex３２０、ex３２１等に一旦これらの信号を蓄積するとよい。なお、バッファex３１８、ex３１９、ex３２０、ex３２１は図示しているように複数備えていてもよいし、１つ以上のバッファを共有する構成であってもよい。さらに、図示している以外に、例えば変調／復調部ex３０２や多重／分離部ex３０３の間等でもシステムのオーバフロー、アンダーフローを避ける緩衝材としてバッファにデータを蓄積することとしてもよい。

また、テレビex３００は、放送等や記録メディア等から音声データ、映像データを取得する以外に、マイクやカメラのＡＶ入力を受け付ける構成を備え、それらから取得したデータに対して符号化処理を行ってもよい。なお、ここではテレビex３００は上記の符号化処理、多重化、および外部出力ができる構成として説明したが、これらの処理を行うことはできず、上記受信、復号化処理、外部出力のみが可能な構成であってもよい。

また、リーダ／レコーダex２１８で記録メディアから多重化データを読み出す、または書き込む場合には、上記復号化処理または符号化処理はテレビex３００、リーダ／レコーダex２１８のいずれで行ってもよいし、テレビex３００とリーダ／レコーダex２１８が互いに分担して行ってもよい。

一例として、光ディスクからデータの読み込みまたは書き込みをする場合の情報再生／記録部ex４００の構成を図１１に示す。情報再生／記録部ex４００は、以下に説明する要素ex４０１、ex４０２、ex４０３、ex４０４、ex４０５、ex４０６、ex４０７を備える。光ヘッドex４０１は、光ディスクである記録メディアex２１５の記録面にレーザスポットを照射して情報を書き込み、記録メディアex２１５の記録面からの反射光を検出して情報を読み込む。変調記録部ex４０２は、光ヘッドex４０１に内蔵された半導体レーザを電気的に駆動し記録データに応じてレーザ光の変調を行う。再生復調部ex４０３は、光ヘッドex４０１に内蔵されたフォトディテクタにより記録面からの反射光を電気的に検出した再生信号を増幅し、記録メディアex２１５に記録された信号成分を分離して復調し、必要な情報を再生する。バッファex４０４は、記録メディアex２１５に記録するための情報および記録メディアex２１５から再生した情報を一時的に保持する。ディスクモータex４０５は記録メディアex２１５を回転させる。サーボ制御部ex４０６は、ディスクモータex４０５の回転駆動を制御しながら光ヘッドex４０１を所定の情報トラックに移動させ、レーザスポットの追従処理を行う。システム制御部ex４０７は、情報再生／記録部ex４００全体の制御を行う。上記の読み出しや書き込みの処理はシステム制御部ex４０７が、バッファex４０４に保持された各種情報を利用し、また必要に応じて新たな情報の生成・追加を行うと共に、変調記録部ex４０２、再生復調部ex４０３、サーボ制御部ex４０６を協調動作させながら、光ヘッドex４０１を通して、情報の記録再生を行うことにより実現される。システム制御部ex４０７は例えばマイクロプロセッサで構成され、読み出し書き込みのプログラムを実行することでそれらの処理を実行する。

以上では、光ヘッドex４０１はレーザスポットを照射するとして説明したが、近接場光を用いてより高密度な記録を行う構成であってもよい。

図１２に光ディスクである記録メディアex２１５の模式図を示す。記録メディアex２１５の記録面には案内溝（グルーブ）がスパイラル状に形成され、情報トラックex２３０には、予めグルーブの形状の変化によってディスク上の絶対位置を示す番地情報が記録されている。この番地情報はデータを記録する単位である記録ブロックex２３１の位置を特定するための情報を含み、記録や再生を行う装置において情報トラックex２３０を再生し番地情報を読み取ることで記録ブロックを特定することができる。また、記録メディアex２１５は、データ記録領域ex２３３、内周領域ex２３２、外周領域ex２３４を含んでいる。ユーザデータを記録するために用いる領域がデータ記録領域ex２３３であり、データ記録領域ex２３３より内周または外周に配置されている内周領域ex２３２と外周領域ex２３４は、ユーザデータの記録以外の特定用途に用いられる。情報再生／記録部ex４００は、このような記録メディアex２１５のデータ記録領域ex２３３に対して、符号化された音声データ、映像データまたはそれらのデータを多重化した多重化データの読み書きを行う。

以上では、１層のＤＶＤ、ＢＤ等の光ディスクを例に挙げ説明したが、これらに限ったものではなく、多層構造であって表面以外にも記録可能な光ディスクであってもよい。また、ディスクの同じ場所にさまざまな異なる波長の色の光を用いて情報を記録したり、さまざまな角度から異なる情報の層を記録したりなど、多次元的な記録／再生を行う構造の光ディスクであってもよい。

また、デジタル放送用システムex２００において、アンテナex２０５を有する車ex２１０で衛星ex２０２等からデータを受信し、車ex２１０が有するカーナビゲーションex２１１等の表示装置に動画を再生することも可能である。なお、カーナビゲーションex２１１の構成は例えば図１０に示す構成のうち、ＧＰＳ受信部を加えた構成が考えられ、同様なことがコンピュータex１１１や携帯電話ex１１４等でも考えられる。

図１３Ａは、上記実施の形態で説明した動画像復号化方法および動画像符号化方法を用いた携帯電話ex１１４を示す図である。携帯電話ex１１４は、基地局ex１１０との間で電波を送受信するためのアンテナex３５０、映像、静止画を撮ることが可能なカメラ部ex３６５、カメラ部ex３６５で撮像した映像、アンテナex３５０で受信した映像等が復号化されたデータを表示する液晶ディスプレイ等の表示部ex３５８を備える。携帯電話ex１１４は、さらに、操作キー部ex３６６を有する本体部、音声を出力するためのスピーカ等である音声出力部ex３５７、音声を入力するためのマイク等である音声入力部ex３５６、撮影した映像、静止画、録音した音声、または受信した映像、静止画、メール等の符号化されたデータもしくは復号化されたデータを保存するメモリ部ex３６７、又は同様にデータを保存する記録メディアとのインタフェース部であるスロット部ex３６４を備える。

さらに、携帯電話ex１１４の構成例について、図１３Ｂを用いて説明する。携帯電話ex１１４は、表示部ex３５８及び操作キー部ex３６６を備えた本体部の各部を統括的に制御する主制御部ex３６０に対して、電源回路部ex３６１、操作入力制御部ex３６２、映像信号処理部ex３５５、カメラインタフェース部ex３６３、ＬＣＤ（Liquid Crystal Display）制御部ex３５９、変調／復調部ex３５２、多重／分離部ex３５３、音声信号処理部ex３５４、スロット部ex３６４、メモリ部ex３６７がバスex３７０を介して互いに接続されている。

電源回路部ex３６１は、ユーザの操作により終話及び電源キーがオン状態にされると、バッテリパックから各部に対して電力を供給することにより携帯電話ex１１４を動作可能な状態に起動する。

携帯電話ex１１４は、ＣＰＵ、ＲＯＭ、ＲＡＭ等を有する主制御部ex３６０の制御に基づいて、音声通話モード時に音声入力部ex３５６で収音した音声信号を音声信号処理部ex３５４でデジタル音声信号に変換し、これを変調／復調部ex３５２でスペクトラム拡散処理し、送信／受信部ex３５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex３５０を介して送信する。また携帯電話ex１１４は、音声通話モード時にアンテナex３５０を介して受信した受信データを増幅して周波数変換処理およびアナログデジタル変換処理を施し、変調／復調部ex３５２でスペクトラム逆拡散処理し、音声信号処理部ex３５４でアナログ音声信号に変換した後、これを音声出力部ex３５６から出力する。

さらにデータ通信モード時に電子メールを送信する場合、本体部の操作キー部ex３６６等の操作によって入力された電子メールのテキストデータは操作入力制御部ex３６２を介して主制御部ex３６０に送出される。主制御部ex３６０は、テキストデータを変調／復調部ex３５２でスペクトラム拡散処理をし、送信／受信部ex３５１でデジタルアナログ変換処理および周波数変換処理を施した後にアンテナex３５０を介して基地局ex１１０へ送信する。電子メールを受信する場合は、受信したデータに対してこのほぼ逆の処理が行われ、表示部ex３５８に出力される。

データ通信モード時に映像、静止画、または映像と音声を送信する場合、映像信号処理部ex３５５は、カメラ部ex３６５から供給された映像信号を上記各実施の形態で示した動画像符号化方法によって圧縮符号化し、符号化された映像データを多重／分離部ex３５３に送出する。また、音声信号処理部ex３５４は、映像、静止画等をカメラ部ex３６５で撮像中に音声入力部ex３５６で収音した音声信号を符号化し、符号化された音声データを多重／分離部ex３５３に送出する。

多重／分離部ex３５３は、映像信号処理部ex３５５から供給された符号化された映像データと音声信号処理部ex３５４から供給された符号化された音声データを所定の方式で多重化し、その結果得られる多重化データを変調／復調回路部ex３５２でスペクトラム拡散処理をし、送信／受信部ex３５１でデジタルアナログ変換処理及び周波数変換処理を施した後にアンテナex３５０を介して送信する。

データ通信モード時にホームページ等にリンクされた動画像ファイルのデータを受信する場合、または映像およびもしくは音声が添付された電子メールを受信する場合、アンテナex３５０を介して受信された多重化データを復号化するために、多重／分離部ex３５３は、多重化データを分離することにより映像データのビットストリームと音声データのビットストリームとに分け、同期バスex３７０を介して符号化された映像データを映像信号処理部ex３５５に供給するとともに、符号化された音声データを音声信号処理部ex３５４に供給する。映像信号処理部ex３５５は、上記各実施の形態で示した動画像符号化方法に対応した動画像復号化方法によって復号化することにより映像信号を復号し、ＬＣＤ制御部ex３５９を介して表示部ex３５８から、例えばホームページにリンクされた動画像ファイルに含まれる映像、静止画が表示される。また音声信号処理部ex３５４は、音声信号を復号し、音声出力部ex３５７から音声が出力される。

また、上記携帯電話ex１１４等の端末は、テレビex３００と同様に、符号化器・復号化器を両方持つ送受信型端末の他に、符号化器のみの送信端末、復号化器のみの受信端末という３通りの実装形式が考えられる。さらに、デジタル放送用システムex２００において、映像データに音楽データなどが多重化された多重化された多重化データを受信、送信するとして説明したが、音声データ以外に映像に関連する文字データなどが多重化されたデータであってもよいし、多重化データではなく映像データ自体であってもよい。

このように、上記各実施の形態で示した動画像符号化方法あるいは動画像復号化方法を上述したいずれの機器・システムに用いることは可能であり、そうすることで、上記各実施の形態で説明した効果を得ることができる。

また、本発明はかかる上記実施形態に限定されるものではなく、本発明の範囲を逸脱することなく種々の変形または修正が可能である。

（実施の形態３）
上記各実施の形態で示した動画像符号化方法または装置と、ＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１など異なる規格に準拠した動画像符号化方法または装置とを、必要に応じて適宜切替えることにより、映像データを生成することも可能である。

ここで、それぞれ異なる規格に準拠する複数の映像データを生成した場合、復号する際に、それぞれの規格に対応した復号方法を選択する必要がある。しかしながら、復号する映像データが、どの規格に準拠するものであるか識別できないため、適切な復号方法を選択することができないという課題を生じる。

この課題を解決するために、映像データに音声データなどを多重化した多重化データは、映像データがどの規格に準拠するものであるかを示す識別情報を含む構成とする。上記各実施の形態で示す動画像符号化方法または装置によって生成された映像データを含む多重化データの具体的な構成を以下説明する。多重化データは、ＭＰＥＧ−２トランスポートストリーム形式のデジタルストリームである。

図１４は、多重化データの構成を示す図である。図１４に示すように多重化データは、ビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム（ＰＧ）、インタラクティブグラファイックスストリームのうち、１つ以上を多重化することで得られる。ビデオストリームは映画の主映像および副映像を、オーディオストリーム（ＩＧ）は映画の主音声部分とその主音声とミキシングする副音声を、プレゼンテーショングラフィックスストリームは、映画の字幕をそれぞれ示している。ここで主映像とは画面に表示される通常の映像を示し、副映像とは主映像の中に小さな画面で表示する映像のことである。また、インタラクティブグラフィックスストリームは、画面上にＧＵＩ部品を配置することにより作成される対話画面を示している。ビデオストリームは、上記各実施の形態で示した動画像符号化方法または装置、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠した動画像符号化方法または装置によって符号化されている。オーディオストリームは、ドルビーＡＣ−３、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓ、ＭＬＰ、ＤＴＳ、ＤＴＳ−ＨＤ、または、リニアＰＣＭのなどの方式で符号化されている。

多重化データに含まれる各ストリームはＰＩＤによって識別される。例えば、映画の映像に利用するビデオストリームには０ｘ１０１１が、オーディオストリームには０ｘ１１００から０ｘ１１１Ｆまでが、プレゼンテーショングラフィックスには０ｘ１２００から０ｘ１２１Ｆまでが、インタラクティブグラフィックスストリームには０ｘ１４００から０ｘ１４１Ｆまでが、映画の副映像に利用するビデオストリームには０ｘ１Ｂ００から０ｘ１Ｂ１Ｆまで、主音声とミキシングする副音声に利用するオーディオストリームには０ｘ１Ａ００から０ｘ１Ａ１Ｆが、それぞれ割り当てられている。

図１５は、多重化データがどのように多重化されるかを模式的に示す図である。まず、複数のビデオフレームからなるビデオストリームex２３５、複数のオーディオフレームからなるオーディオストリームex２３８を、それぞれＰＥＳパケット列ex２３６およびex２３９に変換し、ＴＳパケットex２３７およびex２４０に変換する。同じくプレゼンテーショングラフィックスストリームex２４１およびインタラクティブグラフィックスex２４４のデータをそれぞれＰＥＳパケット列ex２４２およびex２４５に変換し、さらにＴＳパケットex２４３およびex２４６に変換する。多重化データex２４７はこれらのＴＳパケットを１本のストリームに多重化することで構成される。

図１６は、ＰＥＳパケット列に、ビデオストリームがどのように格納されるかをさらに詳しく示している。図１６における第１段目はビデオストリームのビデオフレーム列を示す。第２段目は、ＰＥＳパケット列を示す。図１６の矢印ｙｙ１，ｙｙ２，ｙｙ３，ｙｙ４に示すように、ビデオストリームにおける複数のＶｉｄｅｏＰｒｅｓｅｎｔａｔｉｏｎＵｎｉｔであるＩピクチャ、Ｂピクチャ、Ｐピクチャは、ピクチャ毎に分割され、ＰＥＳパケットのペイロードに格納される。各ＰＥＳパケットはＰＥＳヘッダを持ち、ＰＥＳヘッダには、ピクチャの表示時刻であるＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ−Ｓｔａｍｐ）やピクチャの復号時刻であるＤＴＳ（ＤｅｃｏｄｉｎｇＴｉｍｅ−Ｓｔａｍｐ）が格納される。

図１７は、多重化データに最終的に書き込まれるＴＳパケットの形式を示している。ＴＳパケットは、ストリームを識別するＰＩＤなどの情報を持つ４ＢｙｔｅのＴＳヘッダとデータを格納する１８４ＢｙｔｅのＴＳペイロードから構成される１８８Ｂｙｔｅ固定長のパケットであり、上記ＰＥＳパケットは分割されＴＳペイロードに格納される。ＢＤ−ＲＯＭの場合、ＴＳパケットには、４ＢｙｔｅのＴＰ＿Ｅｘｔｒａ＿Ｈｅａｄｅｒが付与され、１９２Ｂｙｔｅのソースパケットを構成し、多重化データに書き込まれる。ＴＰ＿Ｅｘｔｒａ＿ＨｅａｄｅｒにはＡＴＳ（Ａｒｒｉｖａｌ＿Ｔｉｍｅ＿Ｓｔａｍｐ）などの情報が記載される。ＡＴＳは当該ＴＳパケットのデコーダのＰＩＤフィルタへの転送開始時刻を示す。多重化データには図１７下段に示すようにソースパケットが並ぶこととなり、多重化データの先頭からインクリメントする番号はＳＰＮ（ソースパケットナンバー）と呼ばれる。

また、多重化データに含まれるＴＳパケットには、映像・音声・字幕などの各ストリーム以外にもＰＡＴ（ＰｒｏｇｒａｍＡｓｓｏｃｉａｔｉｏｎＴａｂｌｅ）、ＰＭＴ（ＰｒｏｇｒａｍＭａｐＴａｂｌｅ）、ＰＣＲ（ＰｒｏｇｒａｍＣｌｏｃｋＲｅｆｅｒｅｎｃｅ）などがある。ＰＡＴは多重化データ中に利用されるＰＭＴのＰＩＤが何であるかを示し、ＰＡＴ自身のＰＩＤは０で登録される。ＰＭＴは、多重化データ中に含まれる映像・音声・字幕などの各ストリームのＰＩＤと各ＰＩＤに対応するストリームの属性情報を持ち、また多重化データに関する各種ディスクリプタを持つ。ディスクリプタには多重化データのコピーを許可・不許可を指示するコピーコントロール情報などがある。ＰＣＲは、ＡＴＳの時間軸であるＡＴＣ（ＡｒｒｉｖａｌＴｉｍｅＣｌｏｃｋ）とＰＴＳ・ＤＴＳの時間軸であるＳＴＣ（ＳｙｓｔｅｍＴｉｍｅＣｌｏｃｋ）の同期を取るために、そのＰＣＲパケットがデコーダに転送されるＡＴＳに対応するＳＴＣ時間の情報を持つ。

図１８はＰＭＴのデータ構造を詳しく説明する図である。ＰＭＴの先頭には、そのＰＭＴに含まれるデータの長さなどを記したＰＭＴヘッダが配置される。その後ろには、多重化データに関するディスクリプタが複数配置される。上記コピーコントロール情報などが、ディスクリプタとして記載される。ディスクリプタの後には、多重化データに含まれる各ストリームに関するストリーム情報が複数配置される。ストリーム情報は、ストリームの圧縮コーデックなどを識別するためストリームタイプ、ストリームのＰＩＤ、ストリームの属性情報（フレームレート、アスペクト比など）が記載されたストリームディスクリプタから構成される。ストリームディスクリプタは多重化データに存在するストリームの数だけ存在する。

記録媒体などに記録する場合には、上記多重化データは、多重化データ情報ファイルと共に記録される。

多重化データ情報ファイルは、図１９に示すように多重化データの管理情報であり、多重化データと１対１に対応し、多重化データ情報、ストリーム属性情報とエントリマップから構成される。

多重化データ情報は図１９に示すようにシステムレート、再生開始時刻、再生終了時刻から構成されている。システムレートは多重化データの、後述するシステムターゲットデコーダのＰＩＤフィルタへの最大転送レートを示す。多重化データ中に含まれるＡＴＳの間隔はシステムレート以下になるように設定されている。再生開始時刻は多重化データの先頭のビデオフレームのＰＴＳであり、再生終了時刻は多重化データの終端のビデオフレームのＰＴＳに１フレーム分の再生間隔を足したものが設定される。

ストリーム属性情報は図２０に示すように、多重化データに含まれる各ストリームについての属性情報が、ＰＩＤ毎に登録される。属性情報はビデオストリーム、オーディオストリーム、プレゼンテーショングラフィックスストリーム、インタラクティブグラフィックスストリーム毎に異なる情報を持つ。ビデオストリーム属性情報は、そのビデオストリームがどのような圧縮コーデックで圧縮されたか、ビデオストリームを構成する個々のピクチャデータの解像度がどれだけであるか、アスペクト比はどれだけであるか、フレームレートはどれだけであるかなどの情報を持つ。オーディオストリーム属性情報は、そのオーディオストリームがどのような圧縮コーデックで圧縮されたか、そのオーディオストリームに含まれるチャンネル数は何であるか、何の言語に対応するか、サンプリング周波数がどれだけであるかなどの情報を持つ。これらの情報は、プレーヤが再生する前のデコーダの初期化などに利用される。

本実施の形態においては、上記多重化データのうち、ＰＭＴに含まれるストリームタイプを利用する。また、記録媒体に多重化データが記録されている場合には、多重化データ情報に含まれる、ビデオストリーム属性情報を利用する。具体的には、上記各実施の形態で示した動画像符号化方法または装置において、ＰＭＴに含まれるストリームタイプ、または、ビデオストリーム属性情報に対し、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示す固有の情報を設定するステップまたは手段を設ける。この構成により、上記各実施の形態で示した動画像符号化方法または装置によって生成した映像データと、他の規格に準拠する映像データとを識別することが可能になる。

また、本実施の形態における動画像復号化方法のステップを図２１に示す。ステップexＳ１００において、多重化データからＰＭＴに含まれるストリームタイプ、または、多重化データ情報に含まれるビデオストリーム属性情報を取得する。次に、ステップexＳ１０１において、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成された多重化データであることを示しているか否かを判断する。そして、ストリームタイプ、または、ビデオストリーム属性情報が上記各実施の形態で示した動画像符号化方法または装置によって生成されたものであると判断された場合には、ステップexＳ１０２において、上記各実施の形態で示した動画像復号方法により復号を行う。また、ストリームタイプ、または、ビデオストリーム属性情報が、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠するものであることを示している場合には、ステップexＳ１０３において、従来の規格に準拠した動画像復号方法により復号を行う。

このように、ストリームタイプ、または、ビデオストリーム属性情報に新たな固有値を設定することにより、復号する際に、上記各実施の形態で示した動画像復号化方法または装置で復号可能であるかを判断することができる。従って、異なる規格に準拠する多重化データが入力された場合であっても、適切な復号化方法または装置を選択することができるため、エラーを生じることなく復号することが可能となる。また、本実施の形態で示した動画像符号化方法または装置、または、動画像復号方法または装置を、上述したいずれの機器・システムに用いることも可能である。

（実施の形態４）
上記各実施の形態で示した動画像符号化方法および装置、動画像復号化方法および装置は、典型的には集積回路であるＬＳＩで実現される。一例として、図２２に１チップ化されたＬＳＩex５００の構成を示す。ＬＳＩex５００は、以下に説明する要素ex５０１、ex５０２、ex５０３、ex５０４、ex５０５、ex５０６、ex５０７、ex５０８、ex５０９を備え、各要素はバスex５１０を介して接続している。電源回路部ex５０５は電源がオン状態の場合に各部に対して電力を供給することで動作可能な状態に起動する。

例えば符号化処理を行う場合には、ＬＳＩex５００は、ＣＰＵex５０２、メモリコントローラex５０３、ストリームコントローラex５０４、駆動周波数制御部ex５１２等を有する制御部ex５０１の制御に基づいて、ＡＶＩ／Ｏex５０９によりマイクex１１７やカメラex１１３等からＡＶ信号を入力する。入力されたＡＶ信号は、一旦ＳＤＲＡＭ等の外部のメモリex５１１に蓄積される。制御部ex５０１の制御に基づいて、蓄積したデータは処理量や処理速度に応じて適宜複数回に分けるなどされ信号処理部ex５０７に送られ、信号処理部ex５０７において音声信号の符号化および／または映像信号の符号化が行われる。ここで映像信号の符号化処理は上記各実施の形態で説明した符号化処理である。信号処理部ex５０７ではさらに、場合により符号化された音声データと符号化された映像データを多重化するなどの処理を行い、ストリームＩ／Ｏex５０６から外部に出力する。この出力された多重化データは、基地局ex１０７に向けて送信されたり、または記録メディアex２１５に書き込まれたりする。なお、多重化する際には同期するよう、一旦バッファex５０８にデータを蓄積するとよい。

なお、上記では、メモリex５１１がＬＳＩex５００の外部の構成として説明したが、ＬＳＩex５００の内部に含まれる構成であってもよい。バッファex５０８も１つに限ったものではなく、複数のバッファを備えていてもよい。また、ＬＳＩex５００は１チップ化されてもよいし、複数チップ化されてもよい。

また、上記では、制御部ex５１０が、ＣＰＵex５０２、メモリコントローラex５０３、ストリームコントローラex５０４、駆動周波数制御部ex５１２等を有するとしているが、制御部ex５１０の構成は、この構成に限らない。例えば、信号処理部ex５０７がさらにＣＰＵを備える構成であってもよい。信号処理部ex５０７の内部にもＣＰＵを設けることにより、処理速度をより向上させることが可能になる。また、他の例として、ＣＰＵex５０２が信号処理部ex５０７、または信号処理部ex５０７の一部である例えば音声信号処理部を備える構成であってもよい。このような場合には、制御部ex５０１は、信号処理部ex５０７、またはその一部を有するＣＰＵex５０２を備える構成となる。

なお、ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフ
ィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

（実施の形態５）
上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データを復号する場合、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠する映像データを復号する場合に比べ、処理量が増加することが考えられる。そのため、ＬＳＩex５００において、従来の規格に準拠する映像データを復号する際のＣＰＵex５０２の駆動周波数よりも高い駆動周波数に設定する必要がある。しかし、駆動周波数を高くすると、消費電力が高くなるという課題が生じる。

この課題を解決するために、テレビex３００、ＬＳＩex５００などの動画像復号化装置は、映像データがどの規格に準拠するものであるかを識別し、規格に応じて駆動周波数を切替える構成とする。図２３は、本実施の形態における構成ex８００を示している。駆動周波数切替え部ex８０３は、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合には、駆動周波数を高く設定する。そして、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex８０１に対し、映像データを復号するよう指示する。一方、映像データが、従来の規格に準拠する映像データである場合には、映像データが、上記各実施の形態で示した動画像符号化方法または装置によって生成されたものである場合に比べ、駆動周波数を低く設定する。そして、従来の規格に準拠する復号処理部ex８０２に対し、映像データを復号するよう指示する。

より具体的には、駆動周波数切替え部ex８０３は、図２２のＣＰＵex５０２と駆動周波数制御部ex５１２から構成される。また、上記各実施の形態で示した動画像復号化方法を実行する復号処理部ex８０１、および、従来の規格に準拠する復号処理部ex８０２は、図２２の信号処理部ex５０７に該当する。ＣＰＵex５０２は、映像データがどの規格に準拠するものであるかを識別する。そして、ＣＰＵex５０２からの信号に基づいて、駆動周波数制御部ex５１２は、駆動周波数を設定する。また、ＣＰＵex５０２からの信号に基づいて、信号処理部ex５０７は、映像データの復号を行う。ここで、映像データの識別には、例えば、実施の形態３で記載した識別情報を利用することが考えられる。識別情報に関しては、実施の形態３で記載したものに限られず、映像データがどの規格に準拠するか識別できる情報であればよい。例えば、映像データがテレビに利用されるものであるか、ディスクに利用されるものであるかなどを識別する外部信号に基づいて、映像データがどの規格に準拠するものであるか識別可能である場合には、このような外部信号に基づいて識別してもよい。また、ＣＰＵex５０２における駆動周波数の選択は、例えば、図２５のような映像データの規格と、駆動周波数とを対応付けたルックアップテーブルに基づいて行うことが考えられる。ルックアップテーブルを、バッファex５０８や、ＬＳＩの内部メモリに格納しておき、ＣＰＵex５０２がこのルックアップテーブルを参照することにより、駆動周波数を選択することが可能である。

図２４は、本実施の形態の方法を実施するステップを示している。まず、ステップexＳ２００では、信号処理部ex５０７において、多重化データから識別情報を取得する。次に、ステップexＳ２０１では、ＣＰＵex５０２において、識別情報に基づいて映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものであるか否かを識別する。映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合には、ステップexＳ２０２において、駆動周波数を高く設定する信号を、ＣＰＵex５０２が駆動周波数制御部ex５１２に送る。そして、駆動周波数制御部ex５１２において、高い駆動周波数に設定される。一方、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠する映像データであることを示している場合には、ステップexＳ２０３において、駆動周波数を低く設定する信号を、ＣＰＵex５０２が駆動周波数制御部ex５１２に送る。そして、駆動周波数制御部ex５１２において、映像データが上記各実施の形態で示した符号化方法または装置によって生成されたものである場合に比べ、低い駆動周波数に設定される。

さらに、駆動周波数の切替えに連動して、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を変更することにより、省電力効果をより高めることが可能である。例えば、駆動周波数を低く設定する場合には、これに伴い、駆動周波数を高く設定している場合に比べ、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を低く設定することが考えられる。

また、駆動周波数の設定方法は、復号する際の処理量が大きい場合に、駆動周波数を高く設定し、復号する際の処理量が小さい場合に、駆動周波数を低く設定すればよく、上述した設定方法に限らない。例えば、ＭＰＥＧ４−ＡＶＣ規格に準拠する映像データを復号する処理量の方が、上記各実施の形態で示した動画像符号化方法または装置により生成された映像データを復号する処理量よりも大きい場合には、駆動周波数の設定を上述した場合の逆にすることが考えられる。

さらに、駆動周波数の設定方法は、駆動周波数を低くする構成に限らない。例えば、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を高く設定し、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠する映像データであることを示している場合には、ＬＳＩex５００またはＬＳＩex５００を含む装置に与える電圧を低く設定することも考えられる。また、他の例としては、識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合には、ＣＰＵex５０２の駆動を停止させることなく、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠する映像データであることを示している場合には、処理に余裕があるため、ＣＰＵex５０２の駆動を一時停止させることも考えられる。識別情報が、上記各実施の形態で示した動画像符号化方法または装置によって生成された映像データであることを示している場合であっても、処理に余裕があれば、ＣＰＵex５０２の駆動を一時停止させることも考えられる。この場合は、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠する映像データであることを示している場合に比べて、停止時間を短く設定することが考えられる。

このように、映像データが準拠する規格に応じて、駆動周波数を切替えることにより、省電力化を図ることが可能になる。また、電池を用いてＬＳＩex５００またはＬＳＩex５００を含む装置を駆動している場合には、省電力化に伴い、電池の寿命を長くすることが可能である。

（実施の形態６）
テレビや、携帯電話など、上述した機器・システムには、異なる規格に準拠する複数の映像データが入力される場合がある。このように、異なる規格に準拠する複数の映像データが入力された場合にも復号できるようにするために、ＬＳＩex５００の信号処理部ex５０７が複数の規格に対応している必要がある。しかし、それぞれの規格に対応する信号処理部ex５０７を個別に用いると、ＬＳＩex５００の回路規模が大きくなり、また、コストが増加するという課題が生じる。

この課題を解決するために、上記各実施の形態で示した動画像復号方法を実行するための復号処理部と、従来のＭＰＥＧ−２、ＭＰＥＧ４−ＡＶＣ、ＶＣ−１などの規格に準拠する復号処理部とを一部共有化する構成とする。この構成例を図２６Ａのex９００に示す。例えば、上記各実施の形態で示した動画像復号方法と、ＭＰＥＧ４−ＡＶＣ規格に準拠する動画像復号方法とは、エントロピー符号化、逆量子化、デブロッキング・フィルタ、動き補償などの処理において処理内容が一部共通する。共通する処理内容については、ＭＰＥＧ４−ＡＶＣ規格に対応する復号処理部ex９０２を共有し、ＭＰＥＧ４−ＡＶＣ規格に対応しない、本発明特有の他の処理内容については、専用の復号処理部ex９０１を用いるという構成が考えられる。復号処理部の共有化に関しては、共通する処理内容については、上記各実施の形態で示した動画像復号化方法を実行するための復号処理部を共有し、ＭＰＥＧ４−ＡＶＣ規格に特有の処理内容については、専用の復号処理部を用いる構成であってもよい。

また、処理を一部共有化する他の例を図２６Ｂのex１０００に示す。この例では、本発明に特有の処理内容に対応した専用の復号処理部ex１００１と、他の従来規格に特有の処理内容に対応した専用の復号処理部ex１００２と、本発明の動画像復号方法と他の従来規格の動画像復号方法とに共通する処理内容に対応した共用の復号処理部ex１００３とを用いる構成としている。ここで、専用の復号処理部ex１００１、ex１００２は、必ずしも本発明、または、他の従来規格に特有の処理内容に特化したものではなく、他の汎用処理を実行できるものであってもよい。また、本実施の形態の構成を、ＬＳＩex５００で実装することも可能である。

このように、本発明の動画像復号方法と、従来の規格の動画像復号方法とで共通する処理内容について、復号処理部を共有することにより、ＬＳＩの回路規模を小さくし、かつ、コストを低減することが可能である。

本発明に係る画像符号化方法は、空間予測の複雑度を低減することができ、例えば、その空間予測の結果を用いて画像を符号化する画像符号化装置、その空間予測の結果を用いて画像を復号する画像復号装置、または、その画像符号化装置および画像復号装置のうちの少なくとも１つを備えた携帯電話、パーソナルコンピュータ、あるいは記録再生装置などに適用することができる。

１００画像符号化装置（エンコーダ）
１０５減算部
１１０変換／量子化部
１２０逆量子化／逆変換部
１２５加算部
１３０デブロッキングフィルタ
１４０メモリ
１５０補間フィルタ
１６０動き補償予測部
１６５動き検出部
１７０イントラ予測部
１７５イントラ／インター切替部
１８０ポストフィルタ設計部
１９０エントロピー符号化部
２００画像復号装置（デコーダ）
２２０逆量子化／逆変換部
２２５加算部
２３０デブロッキングフィルタ
２４０メモリ
２５０補間フィルタ
２６０動き補償予測部
２７０イントラ予測部
２７５イントラ／インター切替部
２８０ポストフィルタ
２９０エントロピー復号部

Claims

復号化対象ブロックごとに復号化する画像復号化方法であって、
水平勾配および垂直勾配のうちの少なくとも１つに基づいて算出された、整数値で傾斜を示す整数傾斜を取得し、
復号化対象ブロック内の画素位置を通る前記整数傾斜の線と、前記復号化対象ブロックに隣接する隣接ブロックの境界との交点である小数画素位置を決定し、
前記復号化対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測することにより予測ブロックを生成し、
予測誤差ブロックを取得し、前記予測誤差ブロックに前記予測ブロックを加算することにより、前記復号化対象ブロックを復号化し、
前記整数傾斜は、予め定められた値ごとに、２のｃ乗（ｃは正の整数）によるスケーリングを行った値に対して、当該予め定められた値を除数として用いた除算の結果を示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて算出されており、
前記画素値を予測する際には、
スケーリングを行って生成された前記整数傾斜を、前記復号化対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算した上で、右にｃビットシフトすることにより、前記小数画素位置に補間された前記画素値を算出する、
画像復号化方法。
復号化対象ブロックごとに復号化する画像復号化装置であって、
水平勾配および垂直勾配のうちの少なくとも１つに基づいて算出された、整数値で傾斜を示す整数傾斜を取得する取得部と、
復号化対象ブロック内の画素位置を通る前記整数傾斜の線と、前記復号化対象ブロックに隣接する隣接ブロックの境界との交点である小数画素位置を決定する決定部と、
前記復号化対象ブロック内の画素位置ごとに、当該画素位置に対して決定された前記小数画素位置に補間された画素値に基づいて、当該画素位置の画素値を予測することにより予測ブロックを生成する生成部と、
予測誤差ブロックを取得し、前記予測誤差ブロックに前記予測ブロックを加算することにより、前記復号化対象ブロックを復号化する復号化部とを備え、
前記整数傾斜は、予め定められた値ごとに、２のｃ乗（ｃは正の整数）によるスケーリングを行った値に対して、当該予め定められた値を除数として用いた除算の結果を示す、メモリに格納された除算テーブルを参照することによって、前記垂直勾配および前記水平勾配のうちの一方の勾配を示す値を除数として用いた除算の結果を取得し、取得された前記除算の結果を用いて算出されており、
前記画素値を予測する際には、
スケーリングを行って生成された前記整数傾斜を、前記復号化対象ブロック内で予測の対象とされる画素位置の水平方向または垂直方向の座標値で乗算した上で、右にｃビットシフトすることにより、前記小数画素位置に補間された前記画素値を算出する、
画像復号化装置。