JP6299202B2

JP6299202B2 - オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置

Info

Publication number: JP6299202B2
Application number: JP2013259524A
Authority: JP
Inventors: 洋平岸; 晃釜野; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2018-03-28
Anticipated expiration: 2033-12-16
Also published as: US20150170656A1; JP2015118123A

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラ及びオーディオ復号装置に関する。

従来より、３チャネル以上のチャネルを有するマルチチャネルオーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式の一つとして、Moving Picture Experts Group (MPEG)により標準化されたMPEG Surround方式が知られている。MPEG Surround方式では、例えば、符号化対象となる５．１チャネル(５．１ch)のオーディオ信号が時間周波数変換され、その時間周波数変換により得られた周波数信号がダウンミックスされることにより、一旦３チャネルの周波数信号が生成される。さらに、その３チャネルの周波数信号が再度ダウンミックスされることにより２チャネルのステレオ信号に対応する周波数信号が算出される。そしてステレオ信号に対応する周波数信号は、Advanced Audio Coding(AAC)符号化方式及び、必要に応じてSpectral Band Replication(SBR)符号化方式により符号化される。その一方で、MPEG Surround方式では、５．１chの信号を３チャネルの信号へダウンミックスする際、または、３チャネルの信号を２チャネルの信号へダウンミックスする際、音の広がり、または、定位を表す空間情報と残差信号が算出され、この空間情報と残差信号が符号化される。このように、MPEG Surround方式では、マルチチャネルオーディオ信号をダウンミックスすることにより生成されたステレオ信号とデータ量の比較的少ない空間情報が符号化される。これにより、MPEG Surround方式では、マルチチャネルオーディオ信号に含まれる各チャネルの信号を独立に符号化するよりも高い圧縮効率が得られる。

上述の残差信号は、ダウンミックス時における誤差成分を表した信号であり、復号時に当該残差信号を用いることで、ダウンミックス時の誤差を補正出来る為、ダウンミックス前のオーディオ信号を精度良く再現することが出来る。

特開２０１２−１４１４１２

近年においては、マルチチャネルオーディオ信号がマルチメディア放送等で採用され始めており、低遅延の伝達が求められている。特に、生放送における中継現場と放送局等との２点間の対話時に遅延が生じると、一方の発話が完了していないのにも係らず、他方が発話を開始する等の正常な対話が成り立たなくなる現象が発生する。この為、遅延量を低減させることが出来るオーディオ符号化装置の提供が望まれている。

本発明は、遅延量を低減させることが可能となるオーディオ符号化装置を提供することを目的とする。

本発明が開示するオーディオ符号化装置は、オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を第２の数のダウンミックス信号として混合するダウンミックス部を備える。更に、当該オーディオ符号化装置は、ダウンミックス信号と、第１の数のチャネル信号の誤差を表す残差信号を算出する算出部と、ダウンミックス信号の窓長を判定する判定部を備える。更に、当該オーディオ符号化装置は、窓長に基づいてダウンミックス信号と、残差信号を直交変換する変換部を備える。

なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示されるオーディオ符号化装置は、遅延量を低減させることが可能となる。

一つの実施形態によるオーディオ符号化装置の機能ブロック図である。予測係数に対する量子化テーブル（符号帳）の一例を示す図である。類似度に対する量子化テーブルの一例を示す図である。インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。強度差に対する量子化テーブルの一例を示す図である。符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。（а）は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号の窓長判定結果を示す図である。（ｂ）は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の窓長判定結果を示す図である。一つの実施形態（比較例）によるオーディオ符号化装置の機能ブロック図である。（а）は、実施例１におけるマルチチャネルオーディオ信号の遅延量の概念図である。（ｂ）は、比較例１におけるマルチチャネルオーディオ信号の遅延量の概念図である。（а）は、実施例１の符号化を適用した復号後のマルチチャネルオーディオ信号のスペクトル図である。（ｂ）は、比較例１の符号化を適用した復号後のマルチチャネルオーディオ信号のスペクトル図である。オーディオ符号化処理の動作フローチャートである。一つの実施形態によるオーディオ復号装置の機能ブロックを示す図である。一つの実施形態によるオーディオ符号化復号システムの機能ブロックを示す図（その１）である。一つの実施形態によるオーディオ符号化復号システムの機能ブロックを示す図（その２）である。一つの実施形態によるオーディオ符号化装置またはオーディオ復号装置として機能するコンピュータのハードウェア構成図である。

以下に、一つの実施形態によるオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム、ならびにオーディオ復号装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。

（実施例１）
図１は、一つの実施形態によるオーディオ符号化装置１の機能ブロック図である。図１に示す様に、オーディオ符号化装置１は、時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１３、空間情報符号化部１４、算出部１５、周波数時間変換部１６、判定部１７、変換部１８、多重化部１９を有する。

オーディオ符号化装置１が有するこれらの各部は、例えば、ワイヤードロジックによるハードウェア回路としてそれぞれ別個の回路として形成される。あるいはオーディオ符号化装置１が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置１に実装されてもよい。なお、集積回路は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの集積回路であれば良い。更に、オーディオ符号化装置１が有するこれらの各部は、オーディオ符号化装置１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

時間周波数変換部１１は、オーディオ符号化装置１に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号（例えば、5.1chの信号）をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。実施例１では、時間周波数変換部１１は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
（数１）

ここでnは時間を表す変数であり、１フレームのオーディオ信号を時間方向に１２８等分したときのn番目の時間を表す。なお、フレーム長は、例えば、１０〜８０ msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を６４等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのＱＭＦである。時間周波数変換部１１は、QMF(k,n)を入力されたチャネルの1フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。なお、時間周波数変換部１１は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号をそれぞれ周波数信号に変換してもよい。

時間周波数変換部１１は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号（例えば、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)、中央チャネルの周波数信号C(k,n)、重低音チャネルの周波数信号LFE(k,n）を第１ダウンミックス部１２と算出部１５へ出力する。

第１ダウンミックス部１２は、各チャネルの周波数信号を時間周波数変換部１１から受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの周波数信号を生成する。換言すると、第１ダウンミックス部１２は、オーディオ信号に含まれる複数のチャネルに含まれる第１の数の信号を第２の数のダウンミックス信号として混合する。具体的には、第１ダウンミックス部１２は、次式に従って、例えば、以下の３個のチャネルの周波数信号を算出する。
（数２）

上述の（数２）において、L_Re(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの実数部を表し、L_Im(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの虚数部を表す。またSL_Re(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの実数部を表し、SL_Im(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの虚数部を表す。そしてL_in(k,n)は、ダウンミックスにより生成される左チャネルの周波数信号である。なお、L_inRe(k,n)は、左チャネルの周波数信号のうちの実数部を表し、L_inIm(k,n)は、左チャネルの周波数信号のうちの虚数部を表す。

同様に、R_Re(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの実数部を表し、R_Im(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの虚数部を表す。またSR_Re(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの実数部を表し、SR_Im(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの虚数部を表す。そしてR_in(k,n)は、ダウンミックスにより生成される右チャネルの周波数信号である。なお、R_inRe(k,n)は、右チャネルの周波数信号のうちの実数部を表し、R_inIm(k,n)は、右チャネルの周波数信号のうちの虚数部を表す。

さらに、C_Re(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実数部を表し、C_Im(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚数部を表す。またLFE_Re(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実数部を表し、LFE_Im(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚数部を表す。そしてC_in(k,n)は、ダウンミックスにより生成される中央チャネルの周波数信号である。なお、C_inRe(k,n)は、中央チャネルの周波数信号C_in(k,n)のうちの実数部を表し、C_inIm(k,n)は、中央チャネルの周波数信号C_in(k,n)のうちの虚数部を表す。

また、第１ダウンミックス部１２は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報となる当該周波数信号間の類似度を周波数帯域ごとに算出する。第１ダウンミックス部１２が算出するこれらの空間情報は、３チャネル空間情報の一例である。実施例１では、第１ダウンミックス部１２は、次式に従って、例えば、左チャネルについての周波数帯域kの強度差CLD_L(k)と類似度ICC_L(k)を算出する。
（数３）

（数４）

ここで、Nは、１フレームに含まれる時間方向のサンプル点数であり、実施例１では、Nは１２８である。また、e_L(k)は、左前方チャネルの周波数信号L(k,n)の自己相関値であり、e_SL(k)は、左後方チャネルの周波数信号SL(k,n)の自己相関値である。またe_LSL(k)は、左前方チャネルの周波数信号L(k,n)と左後方チャネルの周波数信号SL(k,n)との相互相関値である。

同様に、第１ダウンミックス部１２は、次式に従って右チャネルについての周波数帯域kの強度差CLD_R(k)と類似度ICC_R(k)を算出する。
（数５）

（数６）

ここで、e_R(k)は、右前方チャネルの周波数信号R(k,n)の自己相関値であり、e_SR(k)は、右後方チャネルの周波数信号SR(k,n)の自己相関値である。またe_RSR(k)は、右前方チャネルの周波数信号R(k,n)と右後方チャネルの周波数信号SR(k,n)との相互相関値である。

さらに、第１ダウンミックス部１２は、次式に従って中央チャネルについての周波数帯域kの強度差CLDc(k)を算出する。
（数７）

ここで、e_C(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、e_LFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。なお、第１ダウンミックス部１２が算出する、強度差CLD_L(k)、CLD_R(k)、CLDc(k)と類似度ICC_L(k)、ICC_Ｒ(k)を
便宜上、纏めて第１空間情報SAC(k)と称しても良い。第１ダウンミックス部１２は、ダウンミックスにより生成した左チャネルの周波数信号L_in(k,n)、右チャネルの周波数信号R_in(k,n)、中央チャネルの周波数信号C_in(k,n)を、第２ダウンミックス部１３に出力し、第１空間情報SAC(k)を空間情報符号化部１４と算出部１５へ出力する。

第２ダウンミックス部１３は、第１ダウンミックス部１２によりそれぞれ生成される左チャネルの周波数信号L_in(k,n)、右チャネルの周波数信号R_in(k,n)、中央チャネルの周波数信号C_in(k,n)の３チャネルの周波数信号を受け取る。第２ダウンミックス部１３は、当該３チャネルの周波数信号から、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。更に、第２ダウンミックス部１３は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。第２ダウンミックス部１３は、例えば、次式に従ってステレオ周波数信号の左側周波数信号L₀(k,n)及び右側周波数信号R₀(k,n)を生成する。さらに第１ダウンミックス部１２は、例えば、符号帳に含まれる予測係数を選択する為に利用される中央チャネルの信号C₀(k,n)を次式に従って算出する。
（数８）

上述の（数８）において、L_in(k,n)、R_in(k,n)、C_in(k,n)は、それぞれ、第１ダウンミックス部１２により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。左側周波数信号L₀(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号R₀(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。なお、上述の（数８）の左側周波数信号L₀(k,n)と、右側周波数信号R₀(k,n)を展開すると次式の通りとなる。
（数９）

第２ダウンミックス部１３は、必要に応じて、第２ダウンミックス部１３においてダウンミックスされる二つのチャネルの周波数信号についての予測係数を符号帳から選択する。例えば、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)とから、中央チャネルの信号C₀(k,n)の予測符号化を行う場合は、第２ダウンミックス部１３は、右側周波数信号R₀(k,n)と左側周波数信号L₀(k,n)をダウンミックスすることにより、２チャネルのステレオ周波数信号を生成することになる。第２ダウンミックス部１３は、予測符号化を行う場合、周波数帯域ごとに、C₀(k,n)と、L₀(k,n)、R₀(k,n)から次式で定義される予測符号化前と予測符号化後の周波数信号の誤差d(k,n)が最小となる予測係数c₁(k)とc₂(k)を符号帳から選択する。この様にして第２ダウンミックス部１３は、予測符号化後の中央チャネルの信号C'₀(k,n)を予測符号化することが出来る。
（数１０）

また、上述の（数１０）は、実数部と虚数部を用いると次式の通りに表現できる。
（数１１）

なお、L_0Re(k,n)はL₀(k,n)の実数部、L_0Im(k,n)はL₀(k,n)の虚数部、R_0Re(k,n)はR₀(k,n)の実数部、R_0Im(k,n)はR₀(k,n)の虚数部を表す。

第２ダウンミックス部１３は、上述の通り、予測符号化前の中央チャネルの信号C₀(k,n)と予測符号化後の中央チャネルの信号C'₀(k,n)の周波数信号の誤差d(k,n)が最小となる予測係数c₁(k)とc₂(k)を符号帳から選択することで、中央チャネルの信号C₀(k,n)を予測符号化することが可能となる。なお、この概念を数式で表現したものが上述の（数１０）である。

第２ダウンミックス部１３は、符号帳に含まれる予測係数c₁(k)、c₂(k)を用いて、第２ダウンミックス部１３が有する予測係数c₁(k)、c₂(k)の代表値とインデックス値との対応関係を示した量子化テーブル（符号帳）を参照する。そして、第２ダウンミックス部１３は、量子化テーブルを参照することにより、各周波数帯域についての予測係数c₁(k)、c₂(k)に対して、最も値が近いインデックス値を決定する。ここで、具体例について説明する。図２は、予測係数に対する量子化テーブル（符号帳）の一例を示す図である。図２に示す量子化テーブル２００において、行２０１、２０３、２０５、２０７及び２０９の各欄はインデックス値を表す。一方、行２０２、２０４、２０６、２０８及び２１０の各欄は、それぞれ、同じ列の行２０１、２０３、２０５、２０７及び２０９の各欄に示されたインデックス値に対応する予測係数の代表値を表す。例えば、第２ダウンミックス部１３は、周波数帯域kに対する予測係数c₁(k)が１．２である場合、予測係数c₁(k)に対するインデックス値を１２に設定する。

次に、第２ダウンミックス部１３は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が２であり、周波数帯域(k-1)に対するインデックス値が４であれば、第２ダウンミックス部１３は、周波数帯域kに対するインデックスの差分値を−２とする。

次に、第２ダウンミックス部１３は、インデックス間の差分値と予測係数符号の対応を示した符号化テーブルを参照する。そして第２ダウンミックス部１３は、符号化テーブルを参照することにより、予測係数c_m(k)(m=1,2)の各周波数帯域kの差分値に対する予測係数符号idxc_m(k)(m=1,2)を決定する。予測係数符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め、第２ダウンミックス部１３が有する図示しないメモリに格納される。図１において、第２ダウンミックス部１３は、予測係数符号idxc_m(k) (m=1,2)を空間情報符号化部１４へ出力する。なお、予測係数符号idxc_m(k)(m=1,2)を第２空間情報と称しても良い。

第２ダウンミックス部１３は、上述の予測係数に基づく予測符号化に代えて、エネルギー比に基づく予測符号化を行っても良い。第２ダウンミックス部１３は、次式に基づいて、第１ダウンミックス部１２によりそれぞれ生成される左チャネルの周波数信号L_in(k,n)、右チャネルの周波数信号R_in(k,n)、中央チャネルの周波数信号C_in(k,n)の３チャネルの周波数信号に関する強度差CLD₁(k), CLD₂(k)を次式に基づいてそれぞれ算出する。
（数１２）

第２ダウンミックス部１３は、３チャネルの周波数信号に関する強度差CLD₁(k), CLD₂(k)を空間情報符号化部１４へ出力する。なお、強度差CLD₁(k), CLD₂(k)を予測係数符号idxc_m(k)(m=1,2)の代わりに第２空間情報と称しても良い。また、第２ダウンミックス部１３は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)を周波数時間変換部１６へ出力する。なお、換言すると、オーディオ信号に含まれる複数のチャネル（5.1ch）に含まれる任意の２つの第１チャネル信号と第２チャネル信号が、ダウンミックス信号として第１ダウンミックス部１２または、第２ダウンミックス部１３によって混合される。

空間情報符号化部１４は、第１ダウンミックス部１２から受け取った第１空間情報と、第２ダウンミックス部１４から受け取った第２空間情報からMPEG Surround符号（以下、空間情報符号と称する）を生成する。

空間情報符号化部１４は、第１空間情報と第２空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部１４は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICC_i(k)(i=L,R)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部１４が有する図示しないメモリ等に格納されれば良い。

図３は、類似度に対する量子化テーブルの一例を示す図である。図３に示す量子化テーブル３００において、上段の行３１０の各欄はインデックス値を表し、下段の行３２０の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は−０．９９〜＋１である。例えば、周波数帯域kに対する類似度が０．６である場合、量子化テーブル３００では、インデックス値３に対応する類似度の代表値が、周波数帯域ｋに対する類似度に最も近い。そこで、空間情報符号化部１４は、周波数帯域kに対するインデックス値を３に設定する。

次に、空間情報符号化部１４は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が３であり、周波数帯域(k-1)に対するインデックス値が０であれば、空間情報符号化部１４は、周波数帯域kに対するインデックスの差分値を３とする。

空間情報符号化部１４は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部１４は、符号化テーブルを参照することにより、類似度ICC_i(k)(i=L,R)の各周波数についてインデックス間の差分値に対する類似度符号idxicc_i(k)(i=L,R)を決定する。なお、符号化テーブルは、予め、空間情報符号化部１４が有するメモリ等に格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。

図４は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。図４に示す例では、類似度符号はハフマン符号である。図４に示す符号化テーブル４００において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICC_L(k)に対するインデックスの差分値が３である場合、空間情報符号化部１４は、符号化テーブル４００を参照することにより、周波数帯域kの類似度ICC_L(k)に対する類似度符号idxicc_L(k)を"111110"に設定する。

空間情報符号化部１４は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部１４は、量子化テーブルを参照することにより、各周波数についての強度差CLD_j(k)(j=L,R,C,1,2)と最も値が近いインデックス値を決定する。空間情報符号化部１４は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が２であり、周波数帯域(k-1)に対するインデックス値が４であれば、空間情報符号化部１４は、周波数帯域kに対するインデックスの差分値を−２とする。

空間情報符号化部１４は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部１４は、符号化テーブルを参照することにより、強度差CLD_j(k)の各周波数帯域kの差分値に対する強度差符号idxcld_j(k)(j=L,R,C,1,2)を決定する。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め空間情報符号化部１４が有するメモリに格納されれば良い。

図５は、強度差に対する量子化テーブルの一例を示す図である。図５に示す量子化テーブル５００において、行５１０、５３０及び５５０の各欄はインデックス値を表し、行５２０、５４０及び５６０の各欄は、それぞれ、同じ列の行５１０、５３０及び５５０の各欄に示されたインデックス値に対応する強度差の代表値を表す。例えば、周波数帯域kに対する強度差CLD_L(k)が１０．８dBである場合、量子化テーブル５００では、インデックス値５に対応する強度差の代表値がCLD_L(k)に最も近い。そこで、空間情報符号化部１４は、CLD_L(k)に対するインデックス値を５に設定する。

空間情報符号化部１４は、類似度符号idxicc_i(k)、強度差符号idxcld_j(k)及び、必要に応じて、予測係数符号idxc_m(k)を用いて空間情報符号を生成する。例えば、空間情報符号化部１４は、類似度符号idxicc_i(k)、強度差符号idxcld_j(k)及び、必要に応じて予測係数符号idxc_m(k)を所定の順序に従って配列することにより、空間情報符号を生成する。この所定の順序については、例えば、ＩＳＯ／ＩＥＣ２３００３−１:２００７に記述されている。空間情報符号化部１４は、生成した空間情報符号を多重化部１９へ出力する。

算出部１５は、時間周波数変換部１１から各チャネルの周波数信号（左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)）を受け取る。また、算出部１５は、第１ダウンミックス部１２から第１空間情報SAC(k)を受け取る。算出部１５は、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、ならびに第１空間情報SAC(k)から、例えば、左チャネルの残差信号res_L(k,n)を次式に従って算出する。
（数１３）

上述の（数１３）において、CLC_pL,ICC_pLは次式に基づいて算出することが出来る。
（数１４）
CLD_p(n) = (1-γ(n) )×CLD_L-prev(k) + γ(n)×CLD_L-cur(k)
ICC_p(n) = (1-γ(n) )×ICC_L-prev(k) + γ(n)×ICC_L-cur(k)
γ(n) = (n+1) / M = (n+1)/31
但し、上述の（数１４）において、nは時間であり、Mはフレーム内の時間サンプル数である。CLD_L-curは、現フレームの左チャネルについての周波数帯域kの強度差CLD_L(k)であり、CLD_L-prevは、現フレームより１フレーム前のフレームの左チャネルについての周波数帯域kの強度差CLD_L(k)である。また、ICC_L-curは、現フレームの左チャネルについての周波数帯域kの類似度ICC_L(k)であり、ICC_L-prevは、現フレームより１フレーム前のフレームの左チャネルについての周波数帯域kの類似度ICC_L(k)である。

次に、算出部１５は、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)、ならびに第１空間情報から右チャネルの残差信号res_R(k,n)を、上述の左チャネルの残差信号res_L(k,n)と同様の方法で算出する。算出部１５は、算出した左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)を周波数時間変換部１６へ出力する。なお、上述の（数１４）において、γ(n)は線形補間を意味し、当該線形補間により０．５フレーム時間分の遅延が発生する。この理由は以下の通りである。残差信号（左チャネルの残差信号res_L(k,n)または右チャネルの残差信号res_R(k,n)）は、上述の（数１３）、（数１４）から理解出来る通り、入力信号と復号時に用いられる第１空間情報から計算される。復号時に用いられる第１空間情報は、オーディオ符号化装置１から出力されるＮフレーム目の第１空間情報とＮ−１フレーム目の第１空間情報を線形補間することで算出される。ここで、オーディオ符号化装置１から出力される第１空間情報は、１フレーム１バンド（周波数帯域）毎に１つの値しか有さない。この為、第１空間情報は、計算範囲（フレーム）の中心の時間位置として扱われるため、線形補間により０．５フレームの遅延が発生する。この様に、復号時の第１空間情報の取り扱いにおいて０．５フレーム時間分の遅延が発生する為、算出部１５による残差信号の算出においても同様に０．５フレーム時間分の遅延が発生することになる。なお、換言すると、算出部１５は、オーディオ信号に含まれる複数のチャネル（5.1ch）に含まれる任意の２つの第１チャネル信号と第２チャネル信号の残差信号を算出する。

周波数時間変換部１６は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)を第２ダウンミックス部１３から受け取る。また、周波数時間変換部１６は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)を算出部１５から受け取る。周波数時間変換部１６は、（残差信号を含む）各周波数信号を受け取る度に、周波数信号を時間領域の信号に変換する。例えば、時間周波数変換部１１がＱＭＦフィルタバンクを用いる場合、周波数時間変換部１６は、次式に示す複素型のＱＭＦフィルタバンクを用いて周波数信号を周波数時間変換する。
（数１５）

ここでIQMF(k,n)は、時間n、周波数kを変数とする複素型のＱＭＦである。なお、時間周波数変換部１１が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、周波数時間変換部１６は、その時間周波数変換処理の逆変換を使用する。周波数時間変換部１６は、周波数時間変換することにより得られた左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を判定部１７と変換部１８に出力する。また、周波数時間変換部１６は、周波数時間変換することにより得られた左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を変換部１８に出力する。

判定部１７は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を周波数時間変換部１６から受け取る。判定部１７は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号から窓長を判定する。具体的には、判定部１７は、先ず、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号から心理聴覚エントロピー（ＰＥ；Perceptual Entropy）を算出する。なお、ＰＥは、リスナー（ユーザ）が雑音を知覚することがない様に、フレームのセグメントを量子化するために必要な情報量を表す。

上述のＰＥは、例えば、打楽器が発する音のようなアタック音など、信号レベルが短時間で急峻に変化する音に対して大きな値となる特性を有する。換言すると、判定部１７は、ダウンミックス信号にアタック音が含まれている場合は窓長を短窓長と判定し、ダウンミックス信号にアタック音が含まれていない場合は窓長を長窓長と判定することが出来る。そこで、判定部１７は、ＰＥの値が比較的大きくなるフレームのセグメント（アタック音が含まれるセグメント）に対しては、窓長を短くし（周波数分解能に対して時間分解能を高くする）。また、判定部１７は、ＰＥの値が比較的小さくなるセグメント（アタック音が含まれないセグメント）に対しては、窓長を長くする（時間分解能に対して周波数分解能を高くする）。例えば、短窓長は、１２８個のサンプルを含み、長窓長は、１０２４個のサンプルを含む。判定部１７は、窓長の判定として以下の判定式を用いて短窓長か長窓長を判定することが出来る。
（数１６）
δPow > Th , then short (短窓長)
δPow <= Th , then long (長窓長)
上述の（数１６）において、Thは、時間信号の電力（振幅）に対する任意の閾値（例えば、時間信号の平均電力の７０％）である。δPowは、例えば、同一フレーム内における隣接するセグメントの電力差である。なお、判定部１７は、例えば、特開平７−６６７３３に開示される窓長の判定方法を適用しても良い。判定部１７は、判定した窓長を変換部１８へ出力する。

変換部１８は、窓長を判定部１７から受け取り、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を周波数時間変換部１６から受け取る。また、変換部１８は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を周波数時間変換部１６から受け取る。

先ず、変換部１８は、判定部１７によって判定された窓長を用いて左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号に対して、直交変換の一例である修正離散コサイン変換（ＭＤＣＴ変換；Modified Discrete Cosine Transform）を実行することにより、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号をＭＤＣＴ係数の組に変換する。更に、変換部１８は、ＭＤＣＴ係数の組を量子化し、量子化されたＭＤＣＴ係数の組を可変長符号化する。変換部１８は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、例えば、ダウンミックス信号符号として多重化部１９へ出力する。なお、変換部１８は、例えば、次式に基づいて修正離散コサイン変換を行うことが出来る。
（数１７）

なお、上述の（数１７）において、MDCT_kは、変換部１８が出力する出力ＭＣＤＴ係数である。W_nは、窓係数である。また、In_nは、入力時間信号であり、左側周波数信号L₀(k,n)または右側周波数信号R₀(k,n)の時間信号である。nは、時間であり、kは、周波数帯域である。Nは、窓長に２を乗じた定数である。更に、N₀は、(N/2+1）/2で表現される定数である。なお、上述の窓係数W_nは、変換対象となる現フレームの窓長と、当該現フレームよりも１フレーム分先の（未来の）フレームの窓長の組み合わせで規定される４種類の窓（１.長窓長→長窓長、２．長窓長→短窓長、３．短窓長→短窓長、４．短窓長→長窓長）に応じた係数である。なお、変換部１８の直交変換においては、上述の通り、窓係数W_nの選定において、現フレームよりも１フレーム分先の（未来の）フレーム窓長の情報が必要となる為、１フレーム時間分の遅延が発生することになる。

次に、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を判定部１７によって判定された窓長を、そのまま用いて時間信号に対して、直交変換の一例である修正離散コサイン変換（ＭＤＣＴ変換）を実行することにより、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号をＭＤＣＴ係数の組に変換する。更に、変換部１８は、ＭＤＣＴ係数の組を量子化し、量子化されたＭＤＣＴ係数の組を可変長符号化する。変換部１８は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、例えば、残差信号符号として多重化部１９へ出力する。なお、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の修正離散コサイン変換を、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号と同様に上述の（数１７）を用いて、行うことが出来る。なお、この場合、入力時間信号In_nは、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号となる。更に、窓係数W_nは、左側周波数信号L₀(k,n)または右側周波数信号R₀(k,n)の修正離散コサイン変換で用いた窓係数W_nをそのまま用いる。この為、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の直交変換においては、現フレームよりも１フレーム分先の（未来の）フレーム窓長の情報を必要としない為、１フレーム時間分の遅延は発生しないことになる。

変換部１８は、ダウンミックス信号符号と残差信号符号へ変換する際、ダウンミックス信号符号と残差信号符号の遅延量が同期する様に、遅延量を合わせた上で直交変換を行う。この理由は以下の通りである。ダウンミックス信号符号と残差信号符号の遅延量が、オーディオ符号化装置１側で同期されなかった場合には、オーディオ復号装置にダウンミックス信号符号と残差信号符の遅延量が同期されないまま出力されることになる。通常のオーディオ復号装置では、時間位置の補正は実施しない。この為、本来の音源とは異なる時間位置のダウンミックス信号符号と残差信号符号を用いて復号される為、本来の音源を復号することが出来ない。この為、ダウンミックス信号符号と残差信号符号の遅延量をオーディオ符号化装置１側で同期させる必要がある。なお、ダウンミックス信号符号と残差信号符号の遅延量の同期は、変換部１８がダウンミックス信号符号と残差信号符号を多重化部１９に出力する際に同期させても良い。また、多重化部１９が後述する多重化を行う際に同期させても良い。更に、変換部１８は、ダウンミックス信号符号と残差信号符号の遅延量を同期させる為に、図示しないキャッシュやメモリなどのバッファを有しても良い。

多重化部１９は、ダウンミックス信号符号、残差信号符号を変換部１８から受け取る。また、多重化部１９は、空間情報符号を空間情報符号化部１４から受け取る。
多重化部１９は、ダウンミックス信号符号、空間情報符号、ならびに残差信号符号を所定の順序に従って配列することにより多重化する。そして多重化部１９は、多重化により生成された符号化オーディオ信号を出力する。図６は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。図６の例では、符号化オーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。図６に示される符号化データ列６００において、データブロック６１０にダウンミックス信号符号が格納される。またＡＤＴＳ形式のＦＩＬＬエレメントが格納されるブロック６２０の一部領域に空間情報符号、ならびに残差信号符号が格納される。

ここで、実施例１における技術的意義の一例について説明する。後述する比較例にて詳細に説明を行うが、通常、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号から、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の窓長を上述の（数１６）を用いて算出する必要がある。更に、当該窓長を用いて、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の直交変換（例えば、修正離散コサイン変換）を、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号と同様に上述の（数１７）を用いて行う必要がある。よって、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の直交変換では、窓係数W_nの選定において、現フレームよりも１フレーム分先の（未来の）フレーム窓長の情報が必要となる為、１フレーム時間分の遅延が発生することになる。

しかしながら、実施例１においては、上述の通り、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の修正離散コサイン変換において、窓係数W_nを左側周波数信号L₀(k,n)または右側周波数信号R₀(k,n)の修正離散コサイン変換で用いた窓係数W_nをそのまま用いている。この為、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の直交変換においては、現フレームよりも１フレーム分先の（未来の）フレーム窓長の情報を必要としない為、１フレーム時間分の遅延が発生しない利点を有する。

次に、実施例１における変換部１８が、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の修正離散コサイン変換において、窓係数W_nを左側周波数信号L₀(k,n)または右側周波数信号R₀(k,n)の修正離散コサイン変換で用いた窓係数W_nをそのまま用いることが可能である技術的理由について説明する。なお、当該技術的理由における知見は、本発明者らの鋭意検証の結果、新たに見出されたものである。図７（ａ）は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号の窓長判定結果を示す図である。図７（ｂ）は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の窓長判定結果を示す図である。図７（ａ）、図７（ｂ）は、上述の（数１７）に基づく窓長の判定結果を示し、横軸は時間であり、縦軸は判定結果を示しており、０は長窓長判定、１は短窓長判定を示す。図７（ａ）、図７（ｂ）において、各時刻における長窓長と短窓長の一致率を算出すると９０％以上となり、強相関の関係を有することが新たに見出された。換言すると、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号の窓長と、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の窓長は強相関を有する為、一方が他方の窓長（ならびに窓係数W_n）を流用することが出来る。

上述の新たな知見における本発明者らによる技術的な考察を以下に記述する。左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)は、入力音源に対する直接波をモデル化した信号である。一方、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)は入力音源に対する反射波（残響音、例えば、屋内環境で反射する響き）をモデル化した信号である。双方共に、元は同一の入力音源である為、周波数信号（左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)）と残差信号（左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)）には、位相差とパワー差は存在するものの、打楽器が発する音のようなアタック音など、信号レベルが短時間で急峻に変化する音に対して大きな値となる特性の音が双方に含まれ得る。この様な条件下において、上述の（数１６）の様な閾値を用いる窓長判定を実施した場合、位相差とパワー差の影響は閾値により収束されて、強相関の関係が有することになるものと推察される。

（比較例１）
図８は、一つの実施形態（比較例）によるオーディオ符号化装置２の機能ブロック図である。図８のオーディオ符号化装置２は、実施例１に対応する比較例となる。図８に示す様に、オーディオ符号化装置２は，時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１３、空間情報符号化部１４、算出部１５、周波数時間変換部１６、判定部１７、変換部１８、多重化部１９、残差信号窓長判定部２０を有する。図８において、時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１３、空間情報符号化部１４、算出部１５、判定部１７、多重化部１９の機能は図１と同様の為、詳細な説明は省略する。

図８において、周波数時間変換部１６は、実施例１と同様の方法で周波数時間変換することにより得られた左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を判定部１７と変換部１８に出力する。周波数時間変換部１６は、実施例１と同様の方法で周波数時間変換することにより得られた左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を変換部１８と残差信号窓長判定部２０に出力する。

残差信号窓長判定部２０は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を周波数時間変換部１６から受け取る。残差信号窓長判定部２０は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号から、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の窓長を上述の（数１６）を用いて算出する。残差信号窓長判定部２０は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の窓長を変換部１８に出力する。

変換部１８は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号ならびに、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を周波数時間変換部１６から受け取る。また、変換部１８は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号の窓長を判定部１７から受け取る。更に、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の窓長を残差信号窓長判定部２０から受け取る。

変換部１８は、実施例１と同様の方法を用いて、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を、直交変換によりＭＤＣＴ係数の組に変換する。更に、変換部１８は、ＭＤＣＴ係数の組を量子化し、量子化されたＭＤＣＴ係数の組を可変長符号化する。変換部１８は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、例えば、ダウンミックス信号符号として多重化部１９へ出力する。

変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を、直交変換によりＭＤＣＴ係数の組に変換する。更に、変換部１８は、ＭＤＣＴ係数の組を量子化し、量子化されたＭＤＣＴ係数の組を可変長符号化する。変換部１８は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、例えば、残差信号符号として多重化部１９へ出力する。具体的には、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の窓長を用いて、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の直交変換（例えば、修正離散コサイン変換）を、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号と同様に上述の（数１７）を用いて行う必要がある。よって、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の直交変換においても、窓係数W_nの選定において、現フレームよりも１フレーム分先の（未来の）フレーム窓長の情報が必要となる為、１フレーム時間分の遅延が発生することになる。比較例１における変換部１８は、実施例１と同様に、ダウンミックス信号符号と残差信号符号へ変換する際、ダウンミックス信号符号と残差信号符号の遅延量が同期する様に、遅延量を合わせた上で直交変換を行う必要がある。

ここで、比較例１と実施例１の遅延量を対比する。先ず、図１と図８の算出部１５において、上述の通り０．５フレーム時間分の遅延が発生する（当該遅延量を第２遅延量と称しても良い）。なお、当該０．５フレーム時間分の遅延は、残差信号符号の遅延に該当する。次に、図１の変換部１８においては、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を直交変換する際に、上述の通り、窓係数W_nの選定において１フレーム時間分の遅延が発生する（当該遅延量を第１遅延量と称しても良い）。なお、当該１フレーム時間分の遅延は、ダウンミックス信号符号の遅延に該当する。図８の変換部１８においては、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を直交変換する際の１フレーム時間分の遅延が発生する。更に当該遅延に加えて、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を直交変換する際の１フレーム時間分の遅延が発生する。なお、当該１フレーム時間分の遅延は、残差信号符号の遅延に該当する。付言すると、比較例１における残差信号符号の全体の遅延量は、算出部１５と変換部１８の遅延量の合計となる為、１．５フレーム時間分となる。

ダウンミックス信号符号と残差信号符号の遅延量を同期させる為には、ダウンミックス信号符号と残差信号符号の遅い方に合わせる必要がある。この為、実施例１の遅延量は１フレーム時間分であり、比較例１の遅延量は１．５フレーム時間分となる。この為、実施例１におけるオーディオ符号化装置１は、遅延量を低減させることが可能となる。図９（ａ）は、実施例１におけるマルチチャネルオーディオ信号の遅延量の概念図である。図９（ｂ）は、比較例１におけるマルチチャネルオーディオ信号の遅延量の概念図である。図９（ａ）、図９（ｂ）のスペクトル図の縦軸は周波数を示し、横軸はサンプリング時間を示している。実施例１においては、比較例１よりも20 msの速さの遅延量の低減が確認された。

図１０（ａ）は、実施例１の符号化を適用した復号後のマルチチャネルオーディオ信号のスペクトル図である。図１０（ｂ）は、比較例１の符号化を適用した復号後のマルチチャネルオーディオ信号のスペクトル図である。図１０（ａ）、図１０（ｂ）のスペクトル図の縦軸は周波数を示し、横軸はサンプリング時間を示している。図１０（ａ）と図１０（ｂ）をそれぞれ比較して理解出来る通り、実施例１を適用した符号化においては、比較例１のスペクトルとほぼ同様なオーディオ信号を再現（復号）出来ていることが確認された。この為、実施例１におけるオーディオ符号化装置１は、音質を低下させることなく、遅延量を低減させることが可能となる。更に、実施例１におけるオーディオ符号化装置１は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の窓長の算出処理が不要となる為、演算負荷を低減させることが出来る相乗的な効果も有する。

図１１は、オーディオ符号化処理の動作フローチャートを示す。なお、図１１に示されたフローチャートは、１フレーム分のマルチチャネルオーディオ信号に対する処理を表す。オーディオ符号化装置１は、マルチチャネルオーディオ信号を受信し続けている間、フレームごとに図１１に示されたオーディオ符号化処理の手順を繰り返し実行する。

時間周波数変換部１１は、オーディオ符号化装置１に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号（例えば、5.1chの信号）をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する（ステップＳ１１０１）。時間周波数変換部１１は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号（例えば、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)、中央チャネルの周波数信号C(k,n)、重低音チャネルの周波数信号LFE(k,n）を第１ダウンミックス部１２と算出部１５へ出力する。

第１ダウンミックス部１２は、各チャネルの周波数信号を時間周波数変換部１１から受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの周波数信号を生成する。また、第１ダウンミックス部１２は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報となる当該周波数信号間の類似度（第１空間情報SAC(k)と称しても良い）を周波数帯域ごとに算出する（ステップＳ１１０２）。第１ダウンミックス部１２が算出するこれらの空間情報は、３チャネル空間情報の一例である。実施例１では、第１ダウンミックス部１２は、上述の（数３）〜（数７）に従って、第１空間情報SAC(k)を算出する。第１ダウンミックス部１２は、ダウンミックスにより生成した左チャネルの周波数信号L_in(k,n)、右チャネルの周波数信号R_in(k,n)、中央チャネルの周波数信号C_in(k,n)を、第２ダウンミックス部１３に出力し、第１空間情報SAC(k)を空間情報符号化部１４と算出部１５へ出力する。

第２ダウンミックス部１３は、第１ダウンミックス部１２によりそれぞれ生成される左チャネルの周波数信号L_in(k,n)、右チャネルの周波数信号R_in(k,n)、中央チャネルの周波数信号C_in(k,n)の３チャネルの周波数信号を受け取る。第２ダウンミックス部１３は、当該３チャネルの周波数信号から、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号L₀(k,n)を生成する。更に、第２ダウンミックス部１３は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号R₀(k,n)を生成する（ステップＳ１１０３）。第２ダウンミックス部１３は、例えば、次式（数８）に従ってステレオ周波数信号の左側周波数信号L₀(k,n)及び右側周波数信号R₀(k,n)を生成する。更に、第２ダウンミックス部は、第２空間情報として、予測係数符号idxc_m(k)(m=1,2)または、強度差CLD₁(k), CLD₂(k)を上述の方法を用いて算出する（ステップＳ１１０４）。第２ダウンミックス部１３は、第２空間情報を空間情報符号化部１４へ出力する。また、第２ダウンミックス部１３は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)を周波数時間変換部１６へ出力する。

空間情報符号化部１４は、第１ダウンミックス部１２から受け取った第１空間情報と、第２ダウンミックス部１４から受け取った第２空間情報から空間情報符号を生成する（ステップＳ１１０５）。空間情報符号化部１４は、生成した空間情報符号を多重化部１９へ出力する。

算出部１５は、時間周波数変換部１１から各チャネルの周波数信号（左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)）を受け取る。また、算出部１５は、第１ダウンミックス部１２から第１空間情報SAC(k)を受け取る。算出部１５は、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、ならびに第１空間情報SAC(k)から、例えば、左チャネルの残差信号res_L(k,n)を上述の（数１３）、（数１４）に従って算出する。次に、算出部１５は、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号RL(k,n)、ならびに第１空間情報から右チャネルの残差信号res_R(k,n)を、上述の左チャネルの残差信号res_L(k,n)と同様の方法で算出する（ステップＳ１１０６）。算出部１５は、算出した左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)を周波数時間変換部１６へ出力する。

周波数時間変換部１６は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)を第２ダウンミックス部１３から受け取る。また、周波数時間変換部１６は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)を算出部１５から受け取る。周波数時間変換部１６は、（残差信号を含む）各周波数信号を受け取る度に、周波数信号を時間領域の信号に変換する（ステップＳ１１０７）。周波数時間変換部１６は、周波数時間変換することにより得られた左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を判定部１７と変換部１８に出力する。また、周波数時間変換部１６は、周波数時間変換することにより得られた左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を変換部１８に出力する。

判定部１７は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を周波数時間変換部１６から受け取る。判定部１７は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号から窓長を判定する（ステップＳ１１０８）。判定部１７は、判定した窓長を変換部１８へ出力する。

変換部１８は、窓長を判定部１７から受け取り、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を周波数時間変換部１６から受け取る。また、変換部１８は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を周波数時間変換部１６から受け取る。変換部１８は、判定部１７によって判定された窓長を用いて左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号に対して、直交変換の一例である修正離散コサイン変換（ＭＤＣＴ変換；Modified Discrete Cosine Transform）を実行することにより、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号をＭＤＣＴ係数の組に変換する（ステップＳ１１０９）。更に、変換部１８は、ＭＤＣＴ係数の組を量子化し、量子化されたＭＤＣＴ係数の組を可変長符号化する。変換部１８は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、例えば、ダウンミックス信号符号として多重化部１９へ出力する。なお、変換部１８は、例えば、次式（数１７）に基づいて修正離散コサイン変換を行うことが出来る。

次に、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号を判定部１７によって判定された窓長を、そのまま用いて時間信号に対して、直交変換の一例である修正離散コサイン変換（ＭＤＣＴ変換）を実行することにより、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号をＭＤＣＴ係数の組に変換する（ステップＳ１１１０）。更に、変換部１８は、ＭＤＣＴ係数の組を量子化し、量子化されたＭＤＣＴ係数の組を可変長符号化する。変換部１８は、可変長符号化されたＭＤＣＴ係数の組と、量子化係数など関連する情報を、例えば、残差信号符号として多重化部１９へ出力する。なお、変換部１８は、左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号の修正離散コサイン変換を、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号と同様に上述の（数１７）を用いて、行うことが出来る。なお、変換部１８は、ダウンミックス信号符号と残差信号符号へ変換する際、ダウンミックス信号符号と残差信号符号の遅延量が同期する様に、遅延量を合わせた上で直交変換を行う。

多重化部１９は、ダウンミックス信号符号、残差信号符号を変換部１８から受け取る。また、多重化部１９は、空間情報符号を空間情報符号化部１４から受け取る。
多重化部１９は、ダウンミックス信号符号、空間情報符号、ならびに残差信号符号を所定の順序に従って配列することにより多重化する（ステップＳ１１１１）。そして多重化部１９は、多重化により生成された符号化オーディオ信号を出力することで、オーディオ符号化装置１は、図１１に示すオーディオ符号化処理の動作フローチャートを終了する。

（実施例２）
実施例１においては、周波数信号（左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)）と残差信号（左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)）には強相関の関係が存在することを説明した。この技術的特徴を利用することで、オーディオ符号化装置の演算負荷を低減させることが出来る為、実施例２において説明する。図８において、判定部１７を削除したオーディオ符号化装置が実施例２におけるオーディオ符号化装置の機能ブロックである為、図示は省略する。

変換部１８は、残差信号窓長判定部２０によって判定された窓長を用いて左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号に対して、直交変換の一例である修正離散コサイン変換（ＭＤＣＴ変換；Modified Discrete Cosine Transform）を実行することにより、チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)の時間信号をＭＤＣＴ係数の組に変換する。

次に、変換部１８は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号を残差信号窓長判定部２０によって判定された窓長を、そのまま用いて時間信号に対して、直交変換の一例である修正離散コサイン変換（ＭＤＣＴ変換）を実行することにより、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号をＭＤＣＴ係数の組に変換する。これにより、判定部１７における左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)の時間信号の窓長の判定処理が不要になり、オーディオ符号化装置の演算負荷を低減させることが出来る。

（実施例３）
図１２は、一つの実施形態によるオーディオ復号装置３の機能ブロックを示す図である。図１２に示す様に、オーディオ復号装置３は、分離部３１、空間情報復号部３２、ダウンミックス信号復号部３３、時間周波数変換部３４、予測復号部３５、残差信号復号部３６、アップミックス部３７、周波数時間変換部３８を含んでいる。

オーディオ復号装置３が有するこれらの各部は、例えば、ワイヤードロジックによるハードウェア回路としてそれぞれ別個の回路として形成される。あるいはオーディオ復号装置３が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ復号装置３に実装されてもよい。なお、集積回路は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの集積回路であれば良い。更に、オーディオ復号装置３が有するこれらの各部は、オーディオ復号装置３が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

分離部３１は、多重化された符号化オーディオ信号を外部から受け取る。分離部３１は、符号化オーディオ信号に含まれる符号化された状態のダウンミックス信号符号、空間情報符号、ならびに残差信号符号を分離する。なお、分離部３１は、分離方法として、例えば、ＩＳＯ／ＩＥＣ１４４９６−３に記載の方法を用いることが出来る。分離部３１は、分離した空間情報符号を空間情報復号部３２へ、ダウンミックス信号符号をダウンミックス信号復号部３３へ、残差信号符号を残差信号復号部３６へ出力する。

空間情報復号部３２は、分離部３１から空間情報符号を受け取る。空間情報復号部３２は、空間情報符号から図３に示す類似度に対する量子化テーブルの一例を用いて類似度ICC_i(k)を復号し、アップミックス部３７に出力する。また、空間情報復号部３２は、図５に示す強度差に対する量子化テーブルの一例を用いて強度差CLD_j(k)を復号し、予測復号部３５または、アップミックス部３７に出力する。換言すると、空間情報復号部３２は、第１空間情報SAC(k)をアップミックス部３７に出力し、強度差CLD₁(k),CLD₂(k)を第２空間情報として復号した場合は、強度差CLD₁(k),CLD₂(k)を予測復号部３５へ出力する。また、空間情報復号部３２は、予測係数符号idxc_m(k)(m=1,2)を第２空間情報として分離部３１から受け取った場合は、空間情報符号から図２に示す予測係数に対する量子化テーブルの一例を用いて予測係数を復号し、必要に応じて予測復号部３５へ出力する。

ダウンミックス信号復号部３３は、分離部３１からダウンミックス信号符号を受け取り、各チャネルの信号（ダウンミックス信号）を、例えば、ＡＡＣ復号方式に従って復号し、時間周波数変換部３４へ出力する。なお、ダウンミックス信号復号部３３は、ＡＡＣ復号方法として、例えば、ＩＳＯ／ＩＥＣ１３８１８−７に記載の方法を用いることが出来る。

時間周波数変換部３４は、ダウンミックス信号復号部３３で復号された時間信号である各チャネルの信号を、例えば、ＩＳＯ／ＩＥＣ１４４９６−３記載のＱＭＦフィルタバンクを用いて周波数信号へ変換し、予測復号部３５へ出力する。また、時間周波数変換部３４は、次式に示す複素型のＱＭＦフィルタバンクを用いて時間周波数変換しても良い。
（数１８）

ここでQMF(k,n)は、時間n、周波数kを変数とする複素型のＱＭＦである。時間周波数変換部３４は、各チャネルの時間周波数信号を予測復号部３５へ出力する。

予測復号部３５は、空間情報復号部３２から必要に応じて受け取る予測係数と、時間周波数変換部３４から受け取る周波数信号から予測符号化された中央チャネル信号C₀(k,n)の予測復号を行う。例えば、予測復号部３５は、左側周波数信号L₀(k,n)と右側周波数信号R₀(k,n)のステレオ周波数信号と予測係数c₁(k)、c₂(k)から、中央チャネル信号C₀(k,n)を、次式により予測復号することができる。
（数１９）

また、予測復号部３５は、空間情報復号部３２から予測係数の代わりに、強度差CLD₁(k),CLD₂(k)を空間情報復号部３２から受け取っている場合は、上述の（数１９）を用いて中央チャネル信号C₀(k,n)を予測復号することができる。予測復号部３５は、左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネル信号C₀(k,n)をアップミックス部３７に出力する。

残差信号復号部３６は、残差信号符号を分離部３１から受け取る。残差信号復号部３６は、残差信号符号を復号し、復号した残差信号（左チャネルの残差信号res_L(k,n)と右チャネルの残差信号res_R(k,n)）をアップミックス部３７に出力する。

アップミックス部３７は、予測復号部３５から受け取った左側周波数信号L₀(k,n)、右側周波数信号R₀(k,n)、中央チャネル信号C₀(k,n)について、次式に従いマトリクス変換を行う。
（数２０）

ここで、L_out(k,n)、R_out(k,n)、C_out(k,n)は、それぞれ、左チャネル、右チャネル及び中央チャネルの周波数信号である。アップミックス部３７は、マトリクス変換した、左チャネルの周波数信号L_out(k,n)、右チャネルの周波数信号R_out(k,n)及び、中央チャネルの周波数信号C_out(k,n)と、空間情報復号部３２から受け取る第１空間情報SAC(k)ならびに残差信号復号部３６から受け取る残差信号(res_L(k,n),res_R(k,n))に基づいて、例えば、５．１chのオーディオ信号へアップミックスする。なお、アップミックス方法は、例えば、ＩＳＯ／ＩＥＣ２３００３―１に記載の方法を用いることが出来る。

周波数時間変換部３８は、アップミックス部３７から受け取る各信号を、次式に示すＱＭＦフィルタバンクを用いて周波数信号から時間信号に変換する。
（数２１）

この様に、実施例３に開示するオーディオ復号装置においては、遅延量を低減させた符号化オーディオ信号を、正確に復号することが出来る。

（実施例４）
図１３は、一つの実施形態によるオーディオ符号化復号システム４の機能ブロックを示す図（その１）である。図１４は、一つの実施形態によるオーディオ符号化復号システム４の機能ブロックを示す図（その２）である。図１３と図１４に示す様に、オーディオ符号化復号システム４は、時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１３、空間情報符号化部１４、算出部１５、周波数時間変換部１６、判定部１７、変換部１８、多重化部１９を有する。また、オーディオ符号化復号システム４は、分離部３１、空間情報復号部３２、ダウンミックス信号復号部３３、時間周波数変換部３４、予測復号部３５、残差信号復号部３６、アップミックス部３７、周波数時間変換部３８を有する。なお、オーディオ符号化復号システム４が含む各機能は、図１ならびに図１２に示す機能と同様となる為、詳細な説明は省略する。実施例４に開示するオーディオ符号化復号システム４においては、遅延量を低減させた符号化と復号が可能となる。

（実施例５）
図１５は、一つの実施形態によるオーディオ符号化装置１またはオーディオ復号装置３として機能するコンピュータのハードウェア構成図である。図１５に示す通り、オーディオ符号化装置１またはオーディオ復号装置３は、コンピュータ１００、およびコンピュータ１００に接続する入出力装置（周辺機器）を含んで構成される。

コンピュータ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２と複数の周辺機器が接続されている。なお、プロセッサ１０１は、マルチプロセッサであってもよい。また、プロセッサ１０１は、例えば、ＣＰＵ、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）である。更に、プロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。

なお、例えば、プロセッサ１０１は、図１に記載の時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１３、空間情報符号化部１４、算出部１５、周波数時間変換部１６、判定部１７、変換部１８、多重化部１９等の機能ブロックの処理を実行することが出来る。更に、プロセッサ１０１は、図１２に記載の分離部３１、空間情報復号部３２、ダウンミックス信号復号部３３、時間周波数変換部３４、予測復号部３５、残差信号復号部３６、アップミックス部３７、周波数時間変換部３８等の機能ブロックの処理を実行することが出来る。

ＲＡＭ１０２は、コンピュータ１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。

バス１０９に接続されている周辺機器としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、例えば、コンピュータ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。

グラフィック処理装置１０４には、モニタ１１０が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令にしたがって、各種画像をモニタ１１０の画面に表示させる。モニタ１１０としては、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード１１１とマウス１１２とが接続されている。入力インタフェース１０５は、キーボード１１１やマウス１１２から送られてくる信号をプロセッサ１０１に送信する。なお、マウス１１２は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク１１３に記録されたデータの読み取りを行う。光ディスク１１３は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク１１３には、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。可搬型の記録媒体となる光ディスク１１３に格納されたプログラムは光学ドライブ装置１０６を介してオーディオ符号化装置１またはオーディオ復号装置３にインストールされる。インストールされた所定のプログラムは、オーディオ符号化装置１またはオーディオ復号装置３より実行可能となる。

機器接続インタフェース１０７は、コンピュータ１００に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１０７には、メモリ装置１１４やメモリリーダライタ１１５を接続することが出来る。メモリ装置１１４は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ１１５は、メモリカード１１６へのデータの書き込み、またはメモリカード１１６からのデータの読み出しを行う装置である。メモリカード１１６は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク１１７に接続されている。ネットワークインタフェース１０８は、ネットワーク１１７を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

コンピュータ１００は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した画像処理機能を実現する。コンピュータ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、１つのまたは複数の機能モジュールから構成することが出来る。例えば、図１に記載の時間周波数変換部１１、第１ダウンミックス部１２、第２ダウンミックス部１３、空間情報符号化部１４、算出部１５、周波数時間変換部１６、判定部１７、変換部１８、多重化部１９等の処理を実現させた機能モジュールからプログラムを構成することが出来る。更に、図１２に記載の分離部３１、空間情報復号部３２、ダウンミックス信号復号部３３、時間周波数変換部３４、予測復号部３５、残差信号復号部３６、アップミックス部３７、周波数時間変換部３８等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ１００に実行させるプログラムをＨＤＤ１０３に格納しておくことができる。プロセッサ１０１は、ＨＤＤ１０３内のプログラムの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。また、コンピュータ１００に実行させるプログラムを、光ディスク１１３、メモリ装置１１４、メモリカード１１６などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ１０１からの制御により、ＨＤＤ１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。

また、上述の実施例において、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに他の実施形態によれば、オーディオ符号化装置のチャネル信号符号化は、ステレオ周波数信号を他の符号化方式に従って符号化してもよい。また、符号化または復号の対象となるマルチチャネルオーディオ信号は、５．１chオーディオ信号に限られない。例えば、符号化または復号の対象となるオーディオ信号は、２ch、３ch、３．１chまたは７．１chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。

また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装させることが可能である。

ここに挙げられた全ての例及び特定の用語は、当業者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を第２の数のダウンミックス信号として混合するダウンミックス部と、
前記ダウンミックス信号と、前記第１の数のチャネル信号の誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号の窓長を判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換する変換部）
を備えることを特徴とするオーディオ符号化装置。
（付記２）
前記変換部は、前記窓長の前記判定に基づく第１遅延量と前記残差信号の前記算出に基づく第２遅延量を同期して前記直交変換することを特徴とする付記１記載のオーディオ符号化装置。
（付記３）
前記判定部は、前記ダウンミックス信号にアタック音が含まれている場合は前記窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定することを特徴とする付記１または付記２記載のオーディオ符号化装置。
（付記４）
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を第２の数のダウンミックス信号として混合し、
前記ダウンミックス信号と、前記第１の数のチャネル信号の誤差を表す残差信号を算出し、
前記ダウンミックス信号の窓長を判定し、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換すること
を含むことを特徴とするオーディオ符号化方法。
（付記５）
前記変換することは、前記窓長の前記判定に基づく第１遅延量と前記残差信号の前記算出に基づく第２遅延量を同期して前記直交変換することを特徴とする付記４記載のオーディオ符号化方法。
（付記６）
前記判定することは、前記ダウンミックス信号にアタック音が含まれている場合は前記窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定することを特徴とする付記４または付記５記載のオーディオ符号化方法。
（付記７）
コンピュータに
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を第２の数のダウンミックス信号として混合し、
前記ダウンミックス信号と、前記第１の数のチャネル信号の誤差を表す残差信号を算出し、
前記ダウンミックス信号の窓長を判定し、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換すること
を実行させることを特徴とするオーディオ符号化プログラム。
（付記８）
前記変換することは、前記窓長の前記判定に基づく第１遅延量と前記残差信号の前記算出に基づく第２遅延量を同期して前記直交変換することを特徴とする付記７記載のオーディオ符号化プログラム。
（付記９）
前記判定することは、前記ダウンミックス信号にアタック音が含まれている場合は前記窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定することを特徴とする付記７または付記８記載のオーディオ符号化プログラム。
（付記１０）
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を第２の数のダウンミックス信号として混合するダウンミックス部と、
前記ダウンミックス信号と、前記第１の数のチャネル信号の誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号か前記残差信号の何れか一方の窓長を判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換する変換部
を備えることを特徴とするオーディオ符号化装置。
（付記１１）
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号が混合された第２の数のダウンミックス信号が、前記ダウンミックス信号の窓長に基づいて直交変換されたダウンミックス信号符号と、
前記ダウンミックス信号と、前記第１の数のチャネル信号の誤差を表す残差信号が、前記窓長に基づいて前記直交変換された残差信号符号と、
が多重化された入力信号を分離する分離部と、
復号された前記残差信号に基づいて、前記復号された前記ダウンミックス信号をアップミックスするアップミックス部
を備えることを特徴とするオーディオ復号装置。
（付記１２）
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を第２の数のダウンミックス信号として混合するダウンミックス部と、
前記ダウンミックス信号と、前記第１の数のチャネル信号の誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号の窓長を判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換する変換部と、
前記変換部が変換するダウンミックス信号符号と残差信号符号を分離する分離部と、
復号された前記残差信号に基づいて、前記復号された前記ダウンミックス信号をアップミックスするアップミックス部
を備えることを特徴とするオーディオ符号化復号システム。

１オーディオ符号化装置
３オーディオ復号装置
１１時間周波数変換部
１２第１ダウンミックス部
１３第２ダウンミックス部
１４空間情報符号化部
１５算出部
１６周波数時間変換部
１７判定部
１８変換部
１９多重化部
３１分離部
３２空間情報復号部
３３ダウンミックス信号復号部
３４時間周波数変換部
３５予測復号部
３６残差信号復号部
３７アップミックス部
３８周波数時間変換部

Claims

オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号をダウンミックス信号に混合するダウンミックス部と、
前記ダウンミックス信号と、前記第１の数の前記チャネル信号との誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号にアタック音が含まれている場合は窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を時間領域から周波数領域へ直交変換する変換部
を備えることを特徴とするオーディオ符号化装置。
前記変換部は、前記窓長の前記判定に基づく第１遅延量と前記残差信号の前記算出に基づく第２遅延量を同期して前記直交変換することを特徴とする請求項１記載のオーディオ符号化装置。
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号をダウンミックス信号に混合し、
前記ダウンミックス信号と、前記第１の数の前記チャネル信号との誤差を表す残差信号を算出し、
前記ダウンミックス信号にアタック音が含まれている場合は窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定し、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を時間領域から周波数領域へ直交変換すること
を含むことを特徴とするオーディオ符号化方法。
コンピュータに
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号をダウンミックス信号に混合し、
前記ダウンミックス信号と、前記第１の数の前記チャネル信号との誤差を表す残差信号を算出し、
前記ダウンミックス信号にアタック音が含まれている場合は窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定し、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を時間領域から周波数領域へ直交変換すること
を実行させることを特徴とするオーディオ符号化プログラム。
オーディオ信号に含まれる複数のチャネルに含まれる第１の数のチャネル信号を混合したダウンミックス信号が、前記ダウンミックス信号に含まれるアタック音の有無に応じて判定した窓長に基づいて時間領域から周波数領域へ直交変換されたダウンミックス信号符号と、
前記ダウンミックス信号と、前記第１の数の前記チャネル信号の誤差を表す残差信号が、前記窓長に基づいて前記直交変換された残差信号符号と、
が多重化された入力信号を分離する分離部と、
復号された前記残差信号に基づいて、前記復号された前記ダウンミックス信号を前記第１の数にアップミックスするアップミックス部
を備えることを特徴とするオーディオ復号装置。