JP5533502B2

JP5533502B2 - オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Info

Publication number: JP5533502B2
Application number: JP2010217263A
Authority: JP
Inventors: 美由紀白川; 洋平岸; 政直鈴木; 義照土永
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2014-06-25
Anticipated expiration: 2030-09-28
Also published as: JP2012073351A; US20120078640A1

Description

本発明は、例えば、オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムに関する。

従来より、3チャネル以上のチャネルを持つマルチチャネルオーディオ信号のデータ量を圧縮するためのオーディオ信号の符号化方式が開発されている。そのような符号化方式の一つとして、Moving Picture Experts Group (MPEG)により標準化されたMPEG Surround方式が知られている。MPEG Surround方式では、例えば、符号化対象となる5.1チャネル(5.1ch)のオーディオ信号が時間周波数変換され、その時間周波数変換により得られた周波数信号がダウンミックスされることにより、一旦3チャネルの周波数信号が生成される。さらに、その3チャネルの周波数信号が再度ダウンミックスされることにより2チャネルのステレオ信号に対応する周波数信号が算出される。そしてステレオ信号に対応する周波数信号は、Advanced Audio Coding(AAC)符号化方式及びSpectral Band Replication(SBR)符号化方式により符号化される。
その一方で、MPEG Surround方式では、5.1chの信号を3チャネルの信号へダウンミックスする際、及び3チャネルの信号を2チャネルの信号へダウンミックスする際、音の広がりまたは定位を表す空間情報が算出され、この空間情報が符号化される。このように、MPEG Surround方式では、マルチチャネルオーディオ信号をダウンミックスすることにより生成されたステレオ信号とデータ量の比較的少ない空間情報が符号化される。これにより、MPEG Surround方式では、マルチチャネルオーディオ信号に含まれる各チャネルの信号を独立に符号化するよりも高い圧縮効率が得られる。

MPEG Surround方式では、ステレオ周波数信号を生成する際に算出される空間情報を符号化するための方式として、エネルギーモード(energy-based mode)と予測モード(prediction mode)が採用されている。
エネルギーモードでは、空間情報は、周波数帯域ごとのチャネル間の電力比を表す2種類のパラメータとして算出される。一方、予測モードでは、空間情報は、周波数帯域ごとに3種類のパラメータにより表される。その3種類のパラメータのうちの二つは、3チャネル中の一つのチャネルの信号をその他の二つのチャネルの信号に基づいて予測するための予測係数である。残りの一つは、予測係数を用いて再生される音声の予測値である予測音と入力音の電力比である。

このように、エネルギーモードにおいて空間情報として算出されるパラメータの数は、予測モードにおいて空間情報として算出されるパラメータの数よりも少ないので、予測モードの圧縮効率よりもエネルギーモードの圧縮効率の方が高い。一方、予測モードはエネルギーモードよりも多くの情報を保持できるので、エネルギーモードで符号化されたオーディオ信号よりも予測モードで符号化されたオーディオ信号の方が再生音声の品質が高い。
そこで、符号化対象のオーディオ信号に応じて、このような2種類の符号化方式のうちの最適な方式が選択されることが好ましい。

一方、ステレオオーディオ信号の符号化方式に関して、符号化対象のオーディオ信号に基づいて、複数の符号化方式の中から適切な符号化方式を選択する技術が開発されている。このような技術では、選択可能な符号化方式には、例えば、チャネルの分離した符号化方式と、元のチャネル数よりも少ないチャネルの信号と信号分布を表す補助情報とを符号化する輝度−ステレオ符号化方式が含まれる（例えば、特許文献１を参照）。
このような公知技術の一例では、各チャネルの信号が周波数ドメインのスペクトル値に変換され、そのスペクトル値に基づいて精神音響計算によって決定される聴取閾値が計算される。そして聴取閾値を用いて選択または評価された実オーディオスペクトル成分に基づいて各チャネルの信号の類似度が算出される。類似度が所定の閾値を超えた場合、チャネルの分離した符号化方式が用いられ、一方、類似度が所定の閾値以下であれば、輝度−ステレオ符号化方式が用いられる。

特表平８−５０７４２４号公報

しかしながら、上記の公知技術が選択対象とする符号化方式は、エネルギーモード及び予測モードと異なっているため、上記の公知技術を用いても、必ずしもエネルギーモードと予測モードのうちで適切な符号化方式が選択されない。また、各チャネルの信号の類似度のみが符号化方式を選択するための指標として用いられると、必ずしも最適な符号化方式が選択されないおそれがあった。その結果、符号化データ量が十分に削減されなかったり、あるいは、符号化されたオーディオ信号を再生した場合の音質がリスナーに知覚可能なほど劣化してしまうおそれがあった。

そこで、本明細書は、再生されるオーディオ信号の音質の劣化を抑制しつつ、オーディオ信号の符号化データ量を削減可能なオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムを提供することを目的とする。

一つの実施形態によれば、オーディオ符号化装置が提供される。このオーディオ符号化装置は、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより第３のチャネルの周波数信号を生成するとともに、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出する第１の空間情報算出部と、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより第３のチャネルの周波数信号を生成するとともに、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報よりも情報量が少ない第２の空間情報を算出する第２の空間情報算出部と、少なくとも一つの第１のチャネルの信号と少なくとも一つの第２のチャネルの信号の類似度を算出する類似度算出部と、少なくとも一つの第１のチャネルの信号と少なくとも一つの第２のチャネルの信号の位相差を算出する位相差算出部と、類似度及び位相差が所定の判定条件を満たす場合に第１の空間情報算出部に第１の空間情報を算出させ、一方、類似度及び位相差がその所定の判定条件を満たさない場合に第２の空間情報算出部に第２の空間情報を算出させる制御部と、第３のチャネルの周波数信号を符号化するチャネル信号符号化部と、第１の空間情報または第２の空間情報を符号化する空間情報符号化部とを有する。

また他の実施形態によれば、オーディオ符号化方法が提供される。このオーディオ符号化方法は、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換し、複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の類似度を算出し、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の位相差を算出し、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成し、類似度及び位相差が所定の判定条件を満たす場合に、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出し、一方、類似度及び位相差がその所定の判定条件を満たさない場合に、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報よりも情報量が少ない第２の空間情報を算出し、第３のチャネルの周波数信号を符号化し、第１の空間情報または第２の空間情報を符号化することを含む。

さらに他の実施形態によれば、コンピュータに入力された複数のチャネルを持つオーディオ信号を符号化させるオーディ符号化用コンピュータプログラムが提供される。このコンピュータプログラムは、複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、各チャネルの信号を、それぞれ周波数信号に変換し、複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の類似度を算出し、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の位相差を算出し、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成し、類似度及び位相差が所定の判定条件を満たす場合に、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出し、一方、類似度及び位相差がその所定の判定条件を満たさない場合に、少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報よりも情報量が少ない第２の空間情報を算出し、第３のチャネルの周波数信号を符号化し、第１の空間情報または第２の空間情報を符号化することをコンピュータに実行させる命令を有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示されたオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムは、再生されるオーディオ信号の音質の劣化を抑制しつつ、オーディオ信号の符号化データ量を削減することができる。

一つの実施形態によるオーディオ符号化装置の概略構成図である。予測係数として利用可能な量子化予測係数を格納した量子化テーブルの一例を示す図である。空間情報生成モード選択処理の動作フローチャートである。類似度に対する量子化テーブルの一例を示す図である。インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。強度差に対する量子化テーブルの一例を示す図である。予測係数に対する量子化テーブルの一例を示す図である。符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。オーディオ符号化処理の動作を示すフローチャートである。（ａ）は、オリジナルのマルチチャネルオーディオ信号の中央チャネルの信号の一例を示す図である。（ｂ）は、オリジナルのマルチチャネルオーディオ信号を符号化する際にエネルギーモードで空間情報を生成し、その空間情報を用いて復号された中央チャネルの再生信号の一例を示す図である。（ｃ）は、本実施形態によるオーディオ符号化装置により符号化されたマルチチャネルオーディオ信号の中央チャネルの再生信号の一例を示す図である。他の実施形態による空間情報生成モード選択処理の動作フローチャートである。さらに他の実施形態によるオーディオ符号化装置の概略構成図である。さらに他の実施形態による空間情報生成モード選択処理の動作フローチャートである。何れかの実施形態によるオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。

以下、図を参照しつつ、様々な実施形態による、オーディオ符号化装置について説明する。
発明者は、鋭意研究の結果、特定の条件下で録音されたマルチチャネルオーディオ信号をMPEG Surround方式で符号化する際、空間情報をエネルギーモードで符号化すると、その符号化された信号の再生音質が著しく劣化することを突き止めた。特に、ダウンミックスされる二つのチャネル間で信号の類似度が高く、かつ、位相差が大きい場合、その符号化された信号の再生音質が著しく劣化する。このような条件は、例えば、オーケストラによる演奏またはコンサートの音声など、前方のチャネルに信号が集中するような音源から発した音が録音されたマルチチャネルオーディオ信号で生じ易い。

このような条件下で録音されたマルチチャネルオーディオ信号については、そのオーディオ信号に含まれる二つのチャネルの信号がダウンミックスされることにより、各チャネルの信号が互いに打ち消しあって、ダウンミックス後の信号の振幅が減衰するためである。そのため、空間情報の情報量が少ないエネルギーモードが使用されると、復号されたオーディオ信号において各チャネルの信号が正確に再現されず、各チャネルの元の信号の振幅よりも再生された各チャネルの信号の振幅が小さくなってしまう。

そこでこのオーディオ符号化装置は、二つのチャネル間の信号の類似度が高く、かつ位相差が大きい場合には、空間情報の情報量が相対的に多い予測モードを使用する。一方、その他の場合には、このオーディオ符号化装置は、空間情報の情報量が相対的に少ないエネルギーモードを使用する。
なお、本実施形態では、符号化対象となるマルチチャネルオーディオ信号は、5.1chオーディオ信号である。

図１は、一つの実施形態によるオーディオ符号化装置１の概略構成図である。図１に示すように、オーディオ符号化装置１は、時間周波数変換部１１と、ダウンミックス部１２と、第２ダウンミックス部１３と、セレクタ１４、１５と、判定部１６と、チャネル信号符号化部１７と、空間情報符号化部１８と、多重化部１９とを有する。

オーディオ符号化装置１が有するこれらの各部は、それぞれ別個の回路として形成される。あるいはオーディオ符号化装置１が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置１に実装されてもよい。さらに、オーディオ符号化装置１が有するこれらの各部は、オーディオ符号化装置１が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

時間周波数変換部１１は、オーディオ符号化装置１に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。
本実施形態では、時間周波数変換部１１は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
ここでnは時間を表す変数であり、１フレームのオーディオ信号を時間方向に128等分したときのn番目の時間を表す。なお、フレーム長は、例えば、10〜80msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を64等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのQMFである。時間周波数変換部１１は、QMF(k,n)を入力されたチャネルの1フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。
なお、時間周波数変換部１１は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号を、それぞれ、周波数信号に変換してもよい。

時間周波数変換部１１は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号をダウンミックス部１２へ出力する。

ダウンミックス部１２は、各チャネルの周波数信号を受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの周波数信号を生成する。例えば、ダウンミックス部１２は、次式に従ってこれら3個のチャネルの周波数信号を算出する。
ここでL_Re(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの実部を表し、L_Im(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの虚部を表す。またSL_Re(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの実部を表し、SL_Im(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの虚部を表す。そしてL_in(k,n)は、ダウンミックスにより生成される左チャネルの周波数信号である。なお、L_inRe(k,n)は、左チャネルの周波数信号のうちの実部を表し、L_inIm(k,n)は、左チャネルの周波数信号のうちの虚部を表す。
同様に、R_Re(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの実部を表し、R_Im(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの虚部を表す。またSR_Re(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの実部を表し、SR_Im(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの虚部を表す。そしてR_in(k,n)は、ダウンミックスにより生成される右チャネルの周波数信号である。なお、R_inRe(k,n)は、右チャネルの周波数信号のうちの実部を表し、R_inIm(k,n)は、右チャネルの周波数信号のうちの虚部を表す。
さらに、C_Re(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実部を表し、C_Im(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚部を表す。またLFE_Re(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実部を表し、LFE_Im(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚部を表す。そしてC_in(k,n)は、ダウンミックスにより生成される中央チャネルの周波数信号である。なお、C_inRe(k,n)は、中央チャネルの周波数信号C_in(k,n)のうちの実部を表し、C_inIm(k,n)は、中央チャネルの周波数信号C_in(k,n)のうちの虚部を表す。

さらに、ダウンミックス部１２は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報であるその周波数信号間の類似度を周波数帯域ごとに算出する。ダウンミックス部１２が算出するこれらの空間情報は、3チャネル空間情報の一例である。本実施形態では、ダウンミックス部１２は、次式に従って左チャネルについての周波数帯域kの強度差CLD_L(k)と類似度ICC_L(k)を算出する。
ただしNは、１フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。またe_L(k)は、左前方チャネルの周波数信号L(k,n)の自己相関値であり、e_SL(k)は、左後方チャネルの周波数信号SL(k,n)の自己相関値である。またe_LSL(k)は、左前方チャネルの周波数信号L(k,n)と左後方チャネルの周波数信号SL(k,n)との相互相関値である。
同様に、ダウンミックス部１２は、次式に従って右チャネルについての周波数帯域kの強度差CLD_R(k)と類似度ICC_R(k)を算出する。
e_R(k)は、右前方チャネルの周波数信号R(k,n)の自己相関値であり、e_SR(k)は、右後方チャネルの周波数信号SR(k,n)の自己相関値である。またe_RSR(k)は、右前方チャネルの周波数信号R(k,n)と右後方チャネルの周波数信号SR(k,n)との相互相関値である。
さらに、ダウンミックス部１２は、次式に従って中央チャネルについての周波数帯域kの強度差CLD_C(k)を算出する。
e_C(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、e_LFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。

ダウンミックス部１２は、3チャネルの周波数信号を生成する度に、その3チャネルの周波数信号をセレクタ１４及び判定部１６へ出力し、一方、空間情報を空間情報符号化部１８へ出力する。

第２ダウンミックス部１３は、セレクタ１４を介して受け取った左、右、中央の3チャネルの周波数信号のうちの二つの周波数信号をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成する。さらに第２ダウンミックス部１３は、ダウンミックスされる二つの周波数信号についての空間情報を、エネルギーモードまたは予測モードの何れか一方に従って生成する。そのために、第２ダウンミックス部１３は、エネルギーモード合成部１３１と予測モード合成部１３２とを有する。なお、後述する判定部１６が、エネルギーモード合成部１３１と予測モード合成部１３２のうち、使用される合成部を選択する。

エネルギーモード合成部１３１は、第２の空間情報算出部の一例である。エネルギーモード合成部１３１は、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。またエネルギーモード合成部１３１は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。
エネルギーモード合成部１３１は、例えば、次式に従ってステレオ周波数信号の左側周波数信号L_e0(k,n)及び右側周波数信号R_e0(k,n)を生成する。
ここで、L_in(k,n)、R_in(k,n)、C_in(k,n)は、それぞれ、ダウンミックス部１２により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。なお、（２）式から明らかなように、L_in(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル及び左後方チャネルの周波数信号が合成されたものである。また、C_in(k,n)は、元のマルチチャネルオーディオ信号の中央チャネル及び重低音チャネルの周波数信号が合成されたものである。したがって、左側周波数信号L_e0(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号R_e0(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。

さらに、エネルギーモード合成部１３１は、エネルギーモードにより、ダウンミックスされる二つのチャネルの周波数信号についての空間情報を算出する。具体的には、エネルギーモード合成部１３１は、空間情報として、周波数帯域ごとの中央チャネルに対する左右のチャネルの信号電力比CLD₁(k)と、左右のチャネル間の信号電力比CLD₂(k)とを次式に従って算出する。
ここで、e_Lin(k)は周波数帯域kにおける、左チャネルの周波数信号L_in(k,n)の自己相関値である。またe_Rin(k)は周波数帯域kにおける、右チャネルの周波数信号R_in(k,n)の自己相関値である。そしてe_Cin(k)は周波数帯域kにおける、中央チャネルの周波数信号C_in(k,n)の自己相関値である。

エネルギーモード合成部１３１は、ステレオ周波数信号L_e0(k,n)、R_e0(k,n)を、セレクタ１５を介してチャネル信号符号化部１７へ出力する。またエネルギーモード合成部１３１は、空間情報CLD₁(k)、CLD₂(k)を、セレクタ１５を介して空間情報符号化部１８へ出力する。

予測モード合成部１３２は、第１の空間情報算出部の一例である。予測モード合成部１３２は、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。また予測モード合成部１３２は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。
予測モード合成部１３２は、例えば、次式に従ってステレオ周波数信号の左側周波数信号L_p0(k,n)及び右側周波数信号R_p0(k,n)を生成する。さらに予測モード合成部１３２は、空間情報を生成するために利用される中央チャネルの信号C_p0(k,n)を次式に従って算出する。
ここで、L_in(k,n)、R_in(k,n)、C_in(k,n)は、それぞれ、ダウンミックス部１２により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。エネルギーモード合成部１３１により生成されるステレオ周波数信号と同様に、左側周波数信号L_p0(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号R_p0(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。

さらに、予測モード合成部１３２は、予測モードにより、ダウンミックスされる二つのチャネルの周波数信号についての空間情報を算出する。具体的には、予測モード合成部１３２は、空間情報として、周波数帯域ごとに、C_p0(k,n)と、L_p0(k,n)、R_p0(k,n)から次式に従って算出したC_p0’(k,n)の誤差Error(k)が最も小さくなるような予測係数CPC₁(k)、CPC₂(k)を求める。
また、予測モード合成部１３２は、この予測係数CPC₁(k)、CPC₂(k)として、予め定められた複数の量子化予測係数の中から、誤差Error(k)が最小となるものを選択してもよい。

図２は、予測係数として利用可能な量子化予測係数を格納した量子化テーブルの一例を示す図である。図２に示されるように、量子化テーブル２００では、二つの行が一組となって予測係数が表されている。左端の列に"idx"と示された行の各欄の数値は、インデックスを表す。また左端の列に"CPC[idx]"と示された行の各欄の数値は、一つ上のインデックスに対応する予測係数を表す。例えば、欄２０１には、インデックスとして'-20'が格納されている。そして欄２０２には、インデックス値'-20'に対応する予測係数'-2.0'が格納されている。

予測モード合成部１３２は、空間情報として、さらに、周波数帯域ごとに、予測モード合成部１３２への入力音に対する予測音の電力比（類似度）ICC₀(k)を次式に従って算出する。
ここで、L_in(k,n)、R_in(k,n)、C_in(k,n)は、それぞれ、ダウンミックス部１２により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。また、e_Lin(k)、e_Rin(k)、e_Cin(k)は、それぞれ、周波数帯域kにおける、左チャネル、右チャネル、中央チャネルの周波数信号の自己相関値である。l(k,n)、r(k,n)、c(k,n)は、それぞれ、予測係数CPC₁(k)、CPC₂(k)及びステレオ周波数信号L_p0(k,n)、R_p0(k,n)を用いて算出される、周波数帯域kにおける、左チャネル、右チャネル、中央チャネルの推定復号信号である。そしてe_l(k)、e_r(k)、e_c(k)は、それぞれ、周波数帯域kにおける、l(k,n)、r(k,n)、c(k,n)の自己相関値である。

予測モード合成部１３２は、ステレオ周波数信号L_p0(k,n)、R_p0(k,n)を、セレクタ１５を介してチャネル信号符号化部１７へ出力する。また予測モード合成部１３２は、空間情報CPC₁(k)、CPC₂(k)、ICC₀(k)を、セレクタ１５を介して空間情報符号化部１８へ出力する。

セレクタ１４は、判定部１６からの制御信号に応じて、ダウンミックス部１２から出力された3チャネルの周波数信号を第２ダウンミックス部１３のエネルギーモード合成部１３１または予測モード合成部１３２の何れかへ渡す。
またセレクタ１５は、判定部１６からの制御信号に応じて、エネルギーモード合成部１３１または予測モード合成部１３２の何れかから出力されたステレオ周波数信号をチャネル信号符号化部１７へ渡す。またセレクタ１５は、判定部１６からの制御信号に応じて、エネルギーモード合成部１３１または予測モード合成部１３２の何れかから出力された空間情報を空間情報符号化部１８へ渡す。

判定部１６は、第２ダウンミックス部１３にて使用される空間情報生成モードを、予測モードとエネルギーモードの中から選択する。
上記のように、ダウンミックスされる二つのチャネルの信号の類似度が高く、かつ位相差が大きい場合に、その二つのチャネルの信号が互いに打ち消しあう可能性がある。そこで、判定部１６は、ダウンミックス部１２から受け取った3チャネルの周波数信号に基づいて、第２ダウンミックス部１３によりダウンミックスされる二つの信号間の類似度と位相差を求める。そして判定部１６は、その類似度と位相差がダウンミックスにより生成されるステレオ周波数信号の振幅が減衰する判定条件を満たすか否かに応じて、予測モードかエネルギーモードの何れかを選択する。そのために、判定部１６は、類似度算出部１６１と、位相差算出部１６２と、制御信号生成部１６３とを有する。

図３は、判定部１６により実行される、空間情報生成モード選択処理の動作フローチャートである。なお、判定部１６は、空間情報生成モード選択処理をフレームごとに実施する。本実施形態では、第２ダウンミックス部１３は、左チャネルと中央チャネルの周波数信号をダウンミックスし、かつ右チャネルと中央チャネルの周波数信号をダウンミックスすることでステレオ周波数信号を生成する。そこで判定部１６の類似度算出部１６１は、次式に従って、左チャネルの周波数信号と中央チャネルの周波数信号間の類似度α₁と、右チャネルの周波数信号と中央チャネルの周波数信号間の類似度α₂とを算出する（ステップＳ１０１）。
ただしNは、１フレームに含まれる時間方向のサンプル点数であり、本実施形態では、Nは128である。またKは、周波数帯域の総数であり、本実施形態では、Kは64である。またe_Lは、左チャネルの周波数信号L_in(k,n)の自己相関値であり、e_Rは、右チャネルの周波数信号R_in(k,n)の自己相関値である。さらにe_Cは、中央チャネルの周波数信号C_in(k,n)の自己相関値である。またe_LCは、左チャネルの周波数信号L_in(k,n)と中央チャネルの周波数信号C_in(k,n)との相互相関値である。さらに、e_RCは、右チャネルの周波数信号R_in(k,n)と中央チャネルの周波数信号C_in(k,n)との相互相関値である。
類似度算出部１６１は、類似度α₁及びα₂を制御信号生成部１６３へ出力する。

また判定部１６の位相差算出部１６２は、次式に従って、左チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ₁と、右チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ₂とを算出する（ステップＳ１０２）。
ここでRe(e_LC)は、相互相関値e_LCの実部を表し、Im(e_LC)は、相互相関値e_LCの虚部を表す。またRe(e_RC)は、相互相関値e_RCの実部を表し、Im(e_RC)は、相互相関値e_RCの虚部を表す。
位相差算出部１６２は、位相差θ₁及びθ₂を制御信号生成部１６３へ出力する。

判定部１６の制御信号生成部１６３は、制御部の一例であり、類似度α₁及び位相差θ₁が左側のステレオ周波数信号が減衰する判定条件を満たすか否か判定する。具体的には、制御信号生成部１６３は、左チャネルと中央チャネル間の周波数信号の類似度α₁が所定の類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ₁が所定の位相差範囲(Thb1〜Thb2)内か否か判定する（ステップＳ１０３）。類似度α₁が類似度閾値Thaより大きく、かつ位相差θ₁が所定の位相差範囲内であれば（ステップＳ１０３−Ｙｅｓ）、判定条件は満たされ、左チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部１６３は、第２ダウンミックス部１３が予測モードを用いるようセレクタ１４、１５への制御信号を作成する（ステップＳ１０５）。
なお、類似度閾値Thaは、例えば、エネルギーモードで生成された空間情報を用いてオーディオ信号が符号化され、かつ再生された場合において、リスナーがその再生されたオーディオ信号の音質の劣化に気付かない類似度の最大値、例えば0.7に設定される。また所定の位相差範囲は、例えば、エネルギーモードで生成された空間情報を用いてオーディオ信号が符号化され、かつ再生された場合において、リスナーがその再生されたオーディオ信号の音質の劣化に気付く位相差の最大範囲となるように設定される。例えば、下限Thb1は0.89πに設定され、上限Thb2は1.11πに設定される。

一方、類似度α₁が類似度閾値Tha以下であるか、または位相差θ₁が所定の位相差範囲外であれば（ステップＳ１０３−Ｎｏ）、判定条件は満たされず、左チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
この場合、制御信号生成部１６３は、類似度α₂及び位相差θ₂が右側のステレオ周波数信号が減衰する判定条件を満たすか否か判定する。具体的には、制御信号生成部１６３は、右チャネルと中央チャネル間の周波数信号の類似度α₂が所定の類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ₂が所定の位相差範囲(Thb1〜Thb2)内か否か判定する（ステップＳ１０４）。類似度α₂が所定の類似度閾値Thaより大きく、かつ位相差θ₂が所定の位相差範囲内であれば（ステップＳ１０４−Ｙｅｓ）、判定条件は満たされ、右チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部１６３は、第２ダウンミックス部１３が予測モードを用いるようセレクタ１４、１５への制御信号を作成する（ステップＳ１０５）。
一方、類似度α₂が類似度閾値Tha以下であるか、または位相差θ₂が所定の位相差範囲外であれば（ステップＳ１０４−Ｎｏ）、判定条件は満たされず、右チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
そこで制御信号生成部１６３は、第２ダウンミックス部１３がエネルギーモードを用いるようセレクタ１４、１５への制御信号を作成する（ステップＳ１０６）。

ステップＳ１０５またはＳ１０６の後、制御信号生成部１６３は、制御信号をセレクタ１４及び１５へ出力し、その後、判定部１６は空間情報生成モード選択処理を終了する。
このように、判定部１６は、ダウンミックスにより生成されるステレオ周波数信号の左側のチャネル及び右側のチャネルの何れか一方でも信号が減衰する可能性があれば、第２ダウンミックス部１３に予測モードで空間情報を生成させる。
なお、判定部１６は、ステップＳ１０１の処理とステップＳ１０２の処理を並列に実行してもよく、あるいは、ステップＳ１０１の処理とステップＳ１０２の処理の順序を入れ替えてもよい。また判定部１６は、ステップＳ１０３の処理とステップＳ１０４の処理の順序を入れ替えてもよい。

チャネル信号符号化部１７は、第２ダウンミックス部１３から出力され、セレクタ１５を介して受け取ったステレオ周波数信号を符号化する。そのために、チャネル信号符号化部１７は、SBR符号化部１７１と、周波数時間変換部１７２と、AAC符号化部１７３とを有する。

SBR符号化部１７１は、ステレオ周波数信号を受け取る度に、チャネルごとに、ステレオ周波数信号のうち、高周波数帯域に含まれる成分である高域成分を、SBR符号化方式にしたがって符号化する。これにより、SBR符号化部１７１は、SBR符号を生成する。
例えば、SBR符号化部１７１は、特開２００８−２２４９０２号公報に開示されているように、SBR符号化の対象となる高域成分と強い相関のある各チャネルの周波数信号の低域成分を複製する。なお、低域成分は、SBR符号化部１７１が符号化対象とする高域成分が含まれる高周波数帯域よりも低い低周波数帯域に含まれる各チャネルの周波数信号の成分であり、後述するAAC符号化部１７３により符号化される。そしてSBR符号化部１７１は、複製された高域成分の電力を、元の高域成分の電力と一致するように調整する。またSBR符号化部１７１は、元の高域成分のうち、低域成分との差異が大きく、低域成分を複写しても、高域成分を近似できない成分を補助情報とする。そしてSBR符号化部１７１は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報と、電力調整量と補助情報を量子化することにより符号化する。
SBR符号化部１７１は、上記の符号化された情報であるSBR符号を多重化部１９へ出力する。

周波数時間変換部１７２は、ステレオ周波数信号を受け取る度に、各チャネルのステレオ周波数信号を時間領域のステレオ信号に変換する。例えば、時間周波数変換部１１がQMFフィルタバンクを用いる場合、周波数時間変換部１７２は、次式に示す複素型のQMFフィルタバンクを用いて各チャネルのステレオ周波数信号を周波数時間変換する。
ここでIQMF(k,n)は、時間n、周波数kを変数とする複素型のQMFである。

なお、時間周波数変換部１１が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、周波数時間変換部１７２は、その時間周波数変換処理の逆変換を使用する。
周波数時間変換部１７２は、各チャネルの周波数信号を周波数時間変換することにより得られた各チャネルのステレオ信号をAAC符号化部１７３へ出力する。

AAC符号化部１７３は、各チャネルのステレオ信号を受け取る度に、各チャネルの信号の低域成分をAAC符号化方式にしたがって符号化することにより、AAC符号を生成する。そこで、AAC符号化部１７３は、例えば、特開２００７−１８３５２８号公報に開示されている技術を利用できる。具体的には、AAC符号化部１７３は、受け取った各チャネルのステレオ信号を離散コサイン変換することにより、再度ステレオ周波数信号を生成する。そしてAAC符号化部１７３は、再生成したステレオ周波数信号から心理聴覚エントロピー（Perceptual Entropy、PE）を算出する。PEは、リスナーが雑音を知覚することがないようにそのブロックを量子化するために必要な情報量を表す。そしてこのPEは、打楽器が発する音のようなアタック音など、信号レベルが短時間で変化する音に対して大きな値となる特性を持つ。そこで、AAC符号化部１７３は、PEの値が比較的大きくなるフレームに対しては、窓を短くし、PEの値が比較的小さくなるブロックに対しては、窓を長くする。例えば、短い窓は、256個のサンプルを含み、長い窓は、2048個のサンプルを含む。AAC符号化部１７３は、決定された長さを持つ窓を用いて各チャネルのステレオ信号に対して修正離散コサイン変換（Modified Discrete Cosine Transform、MDCT）を実行することにより、各チャネルのステレオ信号をMDCT係数の組に変換する。
そしてAAC符号化部１７３は、MDCT係数の組を量子化し、その量子化されたMDCT係数の組を可変長符号化する。
AAC符号化部１７３は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、AAC符号として多重化部１９へ出力する。

空間情報符号化部１８は、ダウンミックス部１２及び第２ダウンミックス部１３から受け取った空間情報を符号化することによりMPEG Surround符号（以下、MPS符号と呼ぶ）を生成する。

空間情報符号化部１８は、空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部１８は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICC_i(k)(i=L,R,0)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部１８が有するメモリに格納される。

図４は、類似度に対する量子化テーブルの一例を示す図である。図４に示す量子化テーブル４００において、上側の行４１０の各欄はインデックス値を表し、下側の行４２０の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は-0.99〜+1である。例えば、周波数帯域kに対する類似度が0.6である場合、量子化テーブル４００では、インデックス値3に対応する類似度の代表値が、周波数帯域kに対する類似度に最も近い。そこで、空間情報符号化部１８は、周波数帯域kに対するインデックス値を3に設定する。

次に、空間情報符号化部１８は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が3であり、周波数帯域(k-1)に対するインデックス値が0であれば、空間情報符号化部１８は、周波数帯域kに対するインデックスの差分値を3とする。

空間情報符号化部１８は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部１８は、符号化テーブルを参照することにより、類似度ICC_i(k)(i=L,R,0)の各周波数についてインデックス間の差分値に対する類似度符号idxicc_i(k)(i=L,R,0)を決定する。なお、符号化テーブルは、予め、空間情報符号化部１８が有するメモリに格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。

図５は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。この例では、類似度符号はハフマン符号である。図５に示す符号化テーブル５００において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICC_L(k)に対するインデックスの差分値が3である場合、空間情報符号化部１８は、符号化テーブル５００を参照することにより、周波数帯域kの類似度ICC_L(k)に対する類似度符号idxicc_L(k)を"111110"に設定する。

空間情報符号化部１８は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部１８は、量子化テーブルを参照することにより、各周波数についての強度差CLD_j(k)(j=L,R,C,1,2)と最も値が近いインデックス値を決定する。空間情報符号化部１８は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部１８は、周波数帯域kに対するインデックスの差分値を-2とする。

空間情報符号化部１８は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部１８は、符号化テーブルを参照することにより、強度差CLD_j(k)の各周波数帯域kの差分値に対する強度差符号idxcld_j(k)(j=L,R,C,1,2)を決定する。なお、idxcld₁(k)及びidxcld₂(k)は、エネルギーモードでステレオ周波数信号に対する空間情報が生成されている場合にのみ求められる。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
なお、量子化テーブル及び符号化テーブルは、予め、空間情報符号化部１８が有するメモリに格納される。

図６は、強度差に対する量子化テーブルの一例を示す図である。図６に示す量子化テーブル６００において、行６１０、６３０及び６５０の各欄はインデックス値を表し、行６２０、６４０及び６６０の各欄は、それぞれ、同じ列の行６１０、６３０及び６５０の各欄に示されたインデックス値に対応する強度差の代表値を表す。
例えば、周波数帯域kに対する強度差CLD_L(k)が10.8dBである場合、量子化テーブル６００では、インデックス値5に対応する強度差の代表値がCLD_L(k)に最も近い。そこで、空間情報符号化部１８は、CLD_L(k)に対するインデックス値を5に設定する。

さらに、空間情報符号化部１８は、予測モードでステレオ周波数信号が生成されている場合、予測係数CPC₁(k)、CPC₂(k)とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部１８は、量子化テーブルを参照することにより、各周波数帯域についての予測係数CPC₁(k)、CPC₂(k)と最も値が近いインデックス値を決定する。空間情報符号化部１８は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部１８は、周波数帯域kに対するインデックスの差分値を-2とする。

空間情報符号化部１８は、インデックス間の差分値と予測係数符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部１８は、符号化テーブルを参照することにより、予測係数CPC_m(k)(m=1,2)の各周波数帯域kの差分値に対する予測係数符号idxcpc_m(k)(m=1,2)を決定する。予測係数符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
なお、量子化テーブル及び符号化テーブルは、予め、空間情報符号化部１８が有するメモリに格納される。

図７は、予測係数に対する量子化テーブルの一例を示す図である。図７に示す量子化テーブル７００において、行７１０、７２０、７３０、７４０及び７５０の各欄はインデックス値を表す。一方、行７１５、７２５、７３５、７４５及び７５５の各欄は、それぞれ、同じ列の行７１０、７２０、７３０、７４０及び７５０の各欄に示されたインデックス値に対応する予測係数の代表値を表す。
例えば、周波数帯域kに対する予測係数CPC₁(k)が1.21である場合、量子化テーブル７００では、インデックス値12に対応する予測係数の代表値がCPC₁(k)に最も近い。そこで、空間情報符号化部１８は、CPC₁(k)に対するインデックス値を12に設定する。

空間情報符号化部１８は、類似度符号idxicc_i(k)、強度差符号idxcld_j(k)及び予測係数符号idxcpc_m(k)を用いてMPS符号を生成する。例えば、空間情報符号化部１８は、類似度符号idxicc_i(k)、強度差符号idxcld_j(k)及び予測係数符号idxcpc_m(k)を所定の順序に従って配列することにより、MPS符号を生成する。この所定の順序については、例えば、ISO/IEC 23003-1:2007に記述されている。
空間情報符号化部１８は、生成したMPS符号を多重化部１９へ出力する。

多重化部１９は、AAC符号、SBR符号及びMPS符号を所定の順序に従って配列することにより多重化する。そして多重化部１９は、その多重化により生成された符号化オーディオ信号を出力する。
図８は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。この例では、符号化されたオーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。
図８に示される符号化データ列８００において、データブロック８１０にAAC符号は格納される。またADTS形式のFILLエレメントが格納されるブロック８２０の一部領域にSBR符号及びMPS符号が格納される。

図９は、オーディオ符号化処理の動作フローチャートを示す。なお、図９に示されたフローチャートは、１フレーム分のマルチチャネルオーディオ信号に対する処理を表す。オーディオ符号化装置１は、マルチチャネルオーディオ信号を受信し続けている間、フレームごとに図９に示されたオーディオ符号化処理の手順を繰り返し実行する。

時間周波数変換部１１は、各チャネルの信号を周波数信号に変換する（ステップＳ２０１）。時間周波数変換部１１は、各チャネルの周波数信号をダウンミックス部１２へ出力する。

次に、ダウンミックス部１２は、各チャネルの周波数信号をダウンミックスすることにより右、左、中央の3チャネルの周波数信号を生成する。さらにダウンミックス部１２は、右、左、中央の各チャネルの空間情報を算出する（ステップＳ２０２）。ダウンミックス部１２は、3チャネルの周波数信号をセレクタ１４及び判定部１６へ出力する。またダウンミックス部１２は、空間情報を空間情報符号化部１８へ出力する。

判定部１６は、右、左、中央の各チャネル間の信号の類似度及び位相差に基づいて、空間情報生成モード選択処理を実行する（ステップＳ２０３）。なお、判定部１６は、例えば、図３に示された動作フローに従って空間情報生成モード選択処理を実行する。そして判定部１６は、選択した空間情報生成モードに応じた制御信号をセレクタ１４及び１５へ出力する。
セレクタ１４及び１５は、選択されたモードが予測モードか否かによって、エネルギーモード合成部１３１及び予測モード合成部１３２の何れか一方を、ダウンミックス部１２、チャネル信号符号化部１７及び空間情報符号化部１８と接続する（ステップＳ２０４）。選択されたモードが予測モードであれば（ステップＳ２０４−Ｙｅｓ）、セレクタ１４は、ダウンミックス部１２から受け取った3チャネルの周波数信号を第２ダウンミックス部１３の予測モード合成部１３２へ出力する。
そして予測モード合成部１３２は、3チャネルの周波数信号をダウンミックスすることによりステレオ周波数信号を生成する。また予測モード合成部１３２は、予測モードに従って空間情報を算出する（ステップＳ２０５）。そして予測モード合成部１３２は、セレクタ１５を介して、ステレオ周波数信号をチャネル信号符号化部１７へ出力する。また予測モード合成部１３２は、セレクタ１５を介して、空間情報を空間情報符号化部１８へ出力する。

一方、選択されたモードがエネルギーモードであれば（ステップＳ２０４−Ｎｏ）、セレクタ１４は、ダウンミックス部１２から受け取った3チャネルの周波数信号を第２ダウンミックス部１３のエネルギーモード合成部１３１へ出力する。
そしてエネルギーモード合成部１３１は、3チャネルの周波数信号をダウンミックスすることによりステレオ周波数信号を生成する。またエネルギーモード合成部１３１は、エネルギーモードに従って空間情報を算出する（ステップＳ２０６）。そしてエネルギーモード合成部１３１は、セレクタ１５を介して、ステレオ周波数信号をチャネル信号符号化部１７へ出力する。またエネルギーモード合成部１３１は、セレクタ１５を介して、空間情報を空間情報符号化部１８へ出力する。

ステップＳ２０５またはＳ２０６の後、チャネル信号符号化部１７は、受け取った各チャネルのステレオ周波数信号のうち、高域成分をSBR符号化する。またチャネル信号符号化部１７は、受け取った各チャネルのステレオ周波数信号のうち、SBR符号化されない低域成分をAAC符号化する（ステップＳ２０７）。
そしてチャネル信号符号化部１７は、複製に利用された低域成分と対応する高域成分の位置関係を表す情報などのSBR符号と、AAC符号を多重化部１９へ出力する。

また、空間情報符号化部１８は、受け取った空間情報を符号化することによりＭＰＳ符号を生成する（ステップＳ２０８）。そして空間情報符号化部１８は、MPS符号を多重化部１９へ出力する。

最後に、多重化部１９は、生成されたSBR符号、AAC符号及びMPS符号を多重化することにより、符号化されたオーディオ信号を生成する（ステップＳ２０９）。
多重化部１９は、符号化されたオーディオ信号を出力する。そしてオーディオ符号化装置１は、符号化処理を終了する。
なお、オーディオ符号化装置１は、ステップＳ２０７の処理とステップＳ２０８の処理を並列に実行してもよい。あるいは、オーディオ符号化装置１は、ステップＳ２０７の処理を行う前にステップＳ２０８の処理を実行してもよい。

図１０（ａ）は、コンサートの音を録音したオリジナルのマルチチャネルオーディオ信号の中央チャネルの信号の一例を示す図である。また図１０（ｂ）は、オリジナルのマルチチャネルオーディオ信号を符号化する際にエネルギーモードで空間情報を生成し、その空間情報を用いて復号された中央チャネルの再生信号の一例を示す図である。そして図１０（ｃ）は、本実施形態に係るオーディオ符号化装置１により符号化されたマルチチャネルオーディオ信号の中央チャネルの再生信号の一例を示す図である。
図１０（ａ）〜図１０（ｃ）において、横軸は時間を表し、縦軸は周波数を表す。そして輝線は中央チャネルの信号を表し、輝線の輝度が高いほど、強度が高いことを表す。

図１０（ａ）では、周波数帯域１０１０及び１０２０において、ある程度の強度を持つ信号が断続的に観察される。しかし、図１０（ｂ）では、周波数帯域１０１０及び１０２０における信号強度が、オリジナルの中央チャネルの信号の強度よりも明らかに低下している。そのため、この場合の再生音は、いわゆる「こもり音」となってしまい、リスナーが気付くほど、再生音の品質は、オリジナルの音声の品質よりも低下している。
これに対し、図１０（ｃ）では、周波数帯域１０１０及び１０２０においても、オリジナルの信号の強度と近い強度を持つ信号が観察される。そのため、この場合の再生音の品質は、図１０（ｂ）に示された信号による再生音の品質よりも良い。このように、オーディオ符号化装置１により符号化されたマルチチャネルオーディオ信号を復号することにより、オリジナルのマルチチャネルオーディオ信号を良好に再現できることが分かる。

表１に、図１０（ａ）に示されたマルチチャネルオーディオ信号に対する空間情報についての符号化ビットレートを示す。
表１において、左端の列は、ステレオ周波数信号を生成する際の空間情報の生成に利用される空間情報生成モードを表す。そして各行には、その行の左端に示した空間情報生成モードでマルチチャネルオーディオ信号が符号化された場合における、空間情報の符号化ビットレートが示される。なお、最下行に示した"エネルギーモード／予測モード"は、オーディオ符号化装置１により符号化されたことを示す。表１にされるように、オーディオ符号化装置１による符号化ビットレートは、エネルギーモードのみが用いられた場合の符号化ビットレートよりも大きいものの、予測モードのみが用いられた場合の符号化ビットレートよりも小さくできることが分かる。

以上に説明してきたように、このオーディオ符号化装置は、3チャネルの周波数信号からステレオ周波数信号を生成する際に、ダウンミックスされる二つの周波数信号間の類似度と位相差に応じて、空間情報の生成モードを選択する。そのため、このオーディオ符号化装置は、ダウンミックスによる信号の減衰が生じる特定の条件下で録音されたマルチチャネルオーディオ信号に対してのみ、予測モードを用い、その他の場合には、予測モードよりも圧縮効率が高いエネルギーモードを利用できる。このように、このオーディオ符号化装置は、空間情報生成モードを適切に選択できるので、再生されるマルチチャネルオーディオ信号の音質劣化を抑制しつつ、マルチチャネルオーディオ信号の符号化データ量を削減することができる。

なお、本発明は上記の実施形態に限定されるものではない。他の実施形態によれば、判定部の類似度算出部は、位相差算出部にて算出された位相差θ₁及びθ₂を用いて左チャネルの周波数信号L_in(k,n)及び右チャネルの周波数信号R_in(k,n)の位相を中央チャネルの周波数信号C_in(k,n)と一致するように補正してもよい。そして類似度算出部は、位相が補正された左チャネルの周波数信号L'_in(k,n)と右チャネルの周波数信号R'_in(k,n)を用いて類似度α₁及びα₂を算出する。
この場合、類似度算出部は、上記の（１３）式において、L_in(k,n)、R_in(k,n)の代わりに次式に従って算出される、位相補正された左チャネルの周波数信号L'_in(k,n)と右チャネルの周波数信号R'_in(k,n)を入力することにより類似度α₁及びα₂を算出する。
またこの実施形態では、図３に示された空間情報生成モード選択処理の動作フローにおいて、位相差を算出するステップＳ１０２の処理が類似度を算出するステップＳ１０１の処理よりも先に実行される。
類似度算出部は、このように位相補正された左チャネル及び右チャネルの周波数信号を用いることにより、中央チャネルと左チャネルまたは右チャネル間の位相のずれによる周波数信号の相違を打ち消せるので、より正確に類似度を算出することができる。

さらに他の実施形態によれば、判定部の類似度算出部は、周波数帯域ごとに、左チャネルまたは右チャネルと中央チャネル間の周波数信号の類似度を算出してもよい。同様に、判定部の位相差算出部は、周波数帯域ごとに、左チャネルまたは右チャネルと中央チャネル間の周波数信号の位相差を算出してもよい。この場合、判定部の制御信号生成部は、周波数帯域ごとに、類似度及び位相差がダウンミックスにより生成されるステレオ周波数信号が減衰する判定条件を満たすか否か判定する。そして何れか一つの周波数帯域において、類似度及び位相差がその判定条件を満たす場合、制御信号生成部は、第２ダウンミックス部に対して予測モードで空間情報を生成させるよう、制御信号を生成する。一方、全ての周波数帯域において、その判定条件が満たされない場合、制御信号生成部は、第２ダウンミックス部に対してエネルギーモードで空間情報を生成させるよう、制御信号を生成する。

この場合、類似度算出部は、例えば、次式に従って、周波数帯域ごとの左チャネルと中央チャネル間の周波数信号の類似度α₁(k)及び右チャネルと中央チャネル間の周波数信号の類似度α₂(k)を算出する。
e_L(k)、e_R(k)、e_R(k)は、それぞれ、周波数帯域kにおける、左チャネルの周波数信号L_in(k,n)の自己相関値、右チャネルの周波数信号R_in(k,n)の自己相関値及び中央チャネルの周波数信号C_in(k,n)の自己相関値である。またe_LC(k)は、周波数帯域kにおける、左チャネルの周波数信号L_in(k,n)と中央チャネルの周波数信号C_in(k,n)との相互相関値である。さらに、e_RC(k)は、周波数帯域kにおける、右チャネルの周波数信号R_in(k,n)と中央チャネルの周波数信号C_in(k,n)との相互相関値である。

また位相差算出部１６２は、次式に従って、周波数帯域ごとの左チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ₁(k)と、右チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ₂(k)とを算出する。
ここでRe(e_LC(k))は、相互相関値e_LC(k)の実部を表し、Im(e_LC(k))は、相互相関値e_LC(k)の虚部を表す。またRe(e_RC(k))は、相互相関値e_RC(k)の実部を表し、Im(e_RC(k))は、相互相関値e_RC(k)の虚部を表す。

図１１は、この実施形態による、空間情報生成モード選択処理の動作フローチャートである。類似度算出部は、周波数帯域ごとに、左チャネルの周波数信号と中央チャネルの周波数信号間の類似度α₁(k)と、右チャネルの周波数信号と中央チャネルの周波数信号間の類似度α₂(k)とを算出する（ステップＳ３０１）。類似度算出部は、類似度α₁(k)及びα₂(k)を制御信号生成部１６３へ出力する。

また位相差算出部は、周波数帯域ごとに、左チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ₁(k)と、右チャネルの周波数信号と中央チャネルの周波数信号間の位相差θ₂(k)とを算出する（ステップＳ３０２）。位相差算出部は、位相差θ₁(k)及びθ₂(k)を制御信号生成部へ出力する。

制御信号生成部は、所定の周波数範囲内の最小の周波数帯域を注目する周波数帯域kに設定する（ステップＳ３０３）。
制御信号生成部は、注目する周波数帯域kにおける、左チャネルと中央チャネル間の周波数信号の類似度α₁(k)が類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ₁(k)が位相差範囲(Thb1〜Thb2)内か否か判定する（ステップＳ３０４）。類似度α₁(k)が類似度閾値Thaより大きく、かつ位相差θ₁(k)が位相差範囲(Thb1〜Thb2)内であれば（ステップＳ３０４−Ｙｅｓ）、左チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部は、第２ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を作成する（ステップＳ３０８）。
なお、類似度閾値Thaは、上記の実施形態における類似度閾値と同様に、例えば0.7に設定される。また位相差範囲も、上記の実施形態における位相差範囲と同様に設定される。例えば、位相差範囲の下限Thb1は0.89πに設定され、位相差範囲の上限Thb2は1.11πに設定される。

一方、類似度α₁(k)が類似度閾値Tha以下であるか、または位相差θ₁(k)が位相差範囲外であれば（ステップＳ３０４−Ｎｏ）、左チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
この場合、制御信号生成部は、注目する周波数帯域kにおける、右チャネルと中央チャネル間の周波数信号の類似度α₂(k)が類似度閾値Thaより大きく、かつその二つのチャネル間の周波数信号の位相差θ₂(k)が位相差範囲内か否か判定する（ステップＳ３０５）。類似度α₂(k)が所定の類似度閾値Thaより大きく、かつ位相差θ₂(k)が位相差範囲内であれば（ステップＳ３０５−Ｙｅｓ）、右チャネルと中央チャネル間の周波数信号は互いに打ち消す可能性が高い。そこで制御信号生成部は、第２ダウンミックス部１３が予測モードを用いるよう各セレクタへの制御信号を作成する（ステップＳ３０８）。

一方、類似度α₂(k)が類似度閾値Tha以下であるか、または位相差θ₂(k)が位相差範囲外であれば（ステップＳ３０５−Ｎｏ）、右チャネルと中央チャネル間の周波数信号はダウンミックスされても互いに打ち消す可能性は低い。
この場合、制御信号生成部は、注目する周波数帯域kが所定の周波数範囲内の最大周波数帯域か否か判定する（ステップＳ３０６）。注目する周波数帯域kが所定の周波数範囲内の最大周波数帯域でなければ（ステップＳ３０６−Ｎｏ）、制御信号生成部は、注目する周波数帯域を一つ大きな周波数帯域に変更する（ステップＳ３０７）。その後制御信号生成部は、ステップＳ３０４以降の処理を繰り返す。
一方、注目する周波数帯域kが所定の周波数範囲内の最大周波数帯域であれば（ステップＳ３０６−Ｙｅｓ）、全ての周波数帯域について、予測モードを選択するためのステップＳ３０４及びＳ３０５の判定条件は満たされない。
そこで制御信号生成部は、第２ダウンミックス部がエネルギーモードを用いるよう各セレクタへの制御信号を作成する（ステップＳ３０９）。
ステップＳ３０８またはＳ３０９の後、制御信号生成部は、制御信号を各セレクタへ出力し、その後、判定部は空間情報生成モード選択処理を終了する。

なお、判定部は、ステップＳ３０１の処理とステップＳ３０２の処理を並列に実行してもよく、あるいは、ステップＳ３０１の処理とステップＳ３０２の処理の順序を入れ替えてもよい。また判定部は、ステップＳ３０４の処理とステップＳ３０５の処理の順序を入れ替えてもよい。
なお、所定の周波数範囲は、各チャネルの周波数信号が生成される全ての周波数帯域を含むように設定される。あるいは、所定の周波数範囲は、リスナーが音声の品質の劣化を感知し易い周波数帯域（例えば、0〜9000Hzあるいは、20〜9000Hz）のみを含むように設定されてもよい。

この実施形態によれば、オーディオ符号化装置は、周波数帯域ごとに、ダウンミックスによる信号の減衰が生じる可能性を調べるので、何れかの周波数帯域においてのみ信号の減衰が生じる場合でも、適切に空間情報生成モードを選択できる。
なお、変形例によれば、2以上の所定数の周波数帯域において、ステップＳ３０４またはステップＳ３０５の判定条件が満たされる場合に、制御信号生成部は第２ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を生成してもよい。
あるいは、制御信号生成部は、周波数帯域ごとに、予め人の聴覚特性に応じた重み係数を設定してもよい。この重み係数は、例えば、0〜1の間の何れかの値に設定され、かつ音声品質の劣化に感知し易い周波数帯域ほど大きなが値が設定される。
そして制御信号生成部は、所定の周波数範囲内の各周波数帯域についてステップＳ３０４またはステップＳ３０５の判定条件が満たされるか否か判定する。そして制御信号生成部は、ステップＳ３０４またはステップＳ３０５の判定条件が満たされた周波数帯域に設定された重み係数の合計を算出する。制御信号生成部は、その合計が所定の閾値（例えば、1または2）を超えた場合にのみ、第２ダウンミックス部に予測モードで空間情報を生成させる。
また変形例によれば、類似度算出部は、周波数帯域ごとに位相差算出部で算出された位相差を用いて左チャネル及び右チャネルの周波数信号の位相と中央チャネルの位相差を打ち消すように、左チャネル及び右チャネルの周波数信号の位相を補正してもよい。そして類似度算出部は、周波数帯域ごとに位相補正された左チャネル及び右チャネルの周波数信号を用いて類似度を算出してもよい。

さらに他の実施形態によれば、判定部は、左、右、中央の各チャネルの時間信号に基づいて、ダウンミックスされる二つの信号間の類似度及び位相差を算出してもよい。
図１２は、この実施形態によるオーディオ符号化装置の概略構成図である。図１２に示されるオーディオ符号化装置２の各構成要素には、図１に示されたオーディオ符号化装置１の対応する構成要素と同一の参照番号を付した。オーディオ符号化装置２は、オーディオ符号化装置１と比較して、第２周波数時間変換部２０を有する点で異なる。そこで、以下では、第２周波数時間変換部２０及び関連する各部について説明する。オーディオ符号化装置２のその他の点については、上述したオーディオ符号化装置１の説明を参照されたい。

第２周波数時間変換部２０は、ダウンミックス部１２から左、右、中央の3チャネルの周波数信号を受け取る度に、各チャネルの周波数信号を時間領域の信号に変換する。例えば、時間周波数変換部１１がQMFフィルタバンクを用いる場合、第２周波数時間変換部２０は、（１５）式に示された複素型のQMFフィルタバンクを用いて各チャネルの周波数信号を時間信号に変換する。

なお、時間周波数変換部１１が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、第２周波数時間変換部２０は、その時間周波数変換処理の逆変換を使用する。
第２周波数時間変換部２０は、左、右、中央の各チャネルの周波数信号を周波数時間変換することにより得られた各チャネルの時間信号を判定部１６へ出力する。

判定部１６の類似度算出部１６１は、次式に従って、左チャネルの時間信号と中央チャネルの時間信号をサンプル点数dだけずらしたときの類似度α₁(d)を算出する。同様に、類似度算出部１６１は、右チャネルの時間信号と中央チャネルの時間信号をサンプル点数dだけずらしたときの類似度α₂(d)を算出する。
ここでL_t(n)、R_t(n)、C_t(n)は、それぞれ、左チャネル、右チャネル及び中央チャネルの時間信号である。またNは、１フレームに含まれる時間方向のサンプル点数である。Dは二つの時間信号のずれ量の最大値に相当するサンプル点数であり、例えば、１フレームに相当するサンプル点数（例えば、128）に設定される。
類似度算出部１６１は、dを-DからDまで変化させつつ、それぞれのdの値について類似度α₁(d)及びα₂(d)を算出する。そして類似度算出部１６１は、α₁(d)の最大値α_1max(d)を、左チャネルの時間信号と中央チャネルの時間信号間の類似度α₁とする。同様に、類似度算出部１６１は、α₂(d)の最大値α_2max(d)を、右チャネルの時間信号と中央チャネルの時間信号間の類似度α₂とする。
そして類似度算出部１６１は、α₁及びα₂を制御信号生成部１６３へ出力する。また類似度算出部１６１は、α_1max(d)に対応するサンプル点のずれ量d₁及びα_2max(d)に対応するサンプル点のずれ量d₂を判定部１６の位相差算出部１６２へ渡す。

位相差算出部１６２は、左チャネルの時間信号と中央チャネルの時間信号間の類似度の最大値α_1max(d)に対応するサンプル点のずれ量d₁を、左チャネルの時間信号と中央チャネルの時間信号間の位相差とする。また位相差算出部１６２は、右チャネルの時間信号と中央チャネルの時間信号間の類似度の最大値α_2max(d)に対応するサンプル点のずれ量d₂を、右チャネルの時間信号と中央チャネルの時間信号間の位相差とする。
位相差算出部１６２は、d₁及びd₂を制御信号生成部１６３へ出力する。

判定部１６は、図３に示された空間情報生成モード選択処理の動作フローと同様の動作フローに従って、類似度α₁及びα₂と、位相差d₁及びd₂に基づいて、ステレオ周波数信号を生成する際に用いられる空間情報生成モードを選択する。その際、制御信号生成部１６３は、図３に示された空間情報生成モード選択処理の動作フローチャートにおけるステップＳ１０３及びステップＳ１０４において、位相差θ₁、θ₂の代わりにd₁及びd₂を用いる。またd₁及びd₂は、二つのチャネルの信号間の類似度が最大となる場合のその二つのチャネルの信号間の時間差に相当するサンプル点数であり、間接的に位相差を表す。そのため、d₁及びd₂が大きいほど、ダウンミックスされる二つのチャネルの信号間の位相差は大きい。そこで制御信号生成部１６３は、ステップＳ１０３において、位相差に関して、d₁の絶対値|d₁|が閾値Thcより大きいか否か判定する。なお、閾値Thcは、例えば、エネルギーモードで生成された空間情報を用いてオーディオ信号が符号化され、かつ再生された場合において、リスナーがその再生されたオーディオ信号の音質の劣化に気付かないサンプル点数のずれ量の最大値に設定される。１フレームのサンプル点数が128である場合、例えば、閾値Thcは5〜25に設定される。なお、類似度閾値Thaに関しては、上記の実施形態と同様に、例えば、0.7に設定される。

制御信号生成部１６３は、α₁が類似度閾値Thaより大きく、かつ、|d₁|が閾値Thcより大きい場合、あるいは、α₂が類似度閾値Thaより大きく、かつ、|d₂|が閾値Thcより大きい場合、予測モードが選択されるように制御信号を生成する。一方、それ以外の場合、制御信号生成部１６３は、エネルギーモードが選択されるように制御信号を生成する。そして制御信号生成部１６３は、各セレクタに対して、制御信号を送信することで、第２ダウンミックス部１３に対して、選択したモードで空間情報を生成させる。

オーディオ符号化装置２の変形例によれば、位相差算出部は、ダウンミックスすることによって信号が減衰する可能性のある周波数帯域を、d₁及びd₂の値に基づいて推定する。そして、判定部は、その周波数帯域の数と類似度に応じて、エネルギーモードと予測モードのうちの何れかを選択する。

図１３は、このオーディオ符号化装置２の変形例による、空間情報生成モード選択処理の動作フローチャートである。類似度算出部は、左チャネルの時間信号と中央チャネルの時間信号間の類似度α₁と、右チャネルの時間信号と中央チャネルの時間信号間の類似度α₂とを算出する（ステップＳ４０１）。類似度算出部は、類似度α₁及びα₂を制御信号生成部１６３へ出力する。また類似度算出部は、類似度α₁に対応する左チャネルと中央チャネルの時間信号間のずれ量に相当するサンプル点数d₁と、類似度α₂に対応する右チャネルと中央チャネルの時間信号間のずれ量に相当するサンプル点数d₂を位相差算出部へ出力する。

位相差算出部は、サンプル点数d₁を、左チャネルと中央チャネルの時間信号間の位相差とする。また位相差算出部は、サンプル点数d₂を、右チャネルと中央チャネルの時間信号間の位相差とする（ステップＳ４０２）。
次に、位相差算出部は、xを0から1ずつ増加させつつ、次式に従って、ダウンミックスにより信号が減衰する可能性のある周波数帯域θ₁(x)、θ₂(x)をそれぞれ算出する（ステップＳ４０３）。
ここでFsはサンプリング周波数である。またθ₁(x)、θ₂(x)は、それぞれ、左チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域及び右チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域を表す。なお、θ₁(x)、θ₂(x)は、Fs/2以下である。またxは0以上の整数である。d_i(i=1,2)は、位相差に相当するサンプル点数である。そのため、（２０）式により、左チャネルまたは右チャネルの信号と中央チャネルの信号の位相差が大きく、その結果として左チャネルまたは右チャネルの信号と中央チャネルの信号が打ち消しあう可能性のある周波数帯域が求められる。

位相差算出部は、xを0から1ずつ増加させつつ、θ₁(x)、θ₂(x)をそれぞれ算出する。そして位相差算出部は、θ₁(x)がFs/2以下の最大値となったときのxの値をX₁maxとする。同様に、位相差算出部は、θ₂(x)がFs/2以下の最大値となったときのxの値をX₂maxとする（ステップＳ４０４）。すなわち、xが0からX₁maxまで変化する間に（２０）式に従って算出された各周波数帯域θ₁(x)が、左チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域である。同様に、xが0からX₂maxまで変化する間に（２０）式に従って算出された各周波数帯域θ₂(x)が、右チャネルと中央チャネルのダウンミックスにより減衰する可能性のある周波数帯域である。
位相差算出部は、各周波数帯域θ₁(x)及びθ₂(x)を制御信号生成部へ通知する。

制御信号生成部は、所定の周波数範囲内に含まれる周波数帯域θ₁(x)の数cnt1を求める。また制御信号生成部は、所定の周波数範囲内に含まれる周波数帯域θ₂(x)の数cnt2を求める（ステップＳ４０５）。なお、所定の周波数範囲は、リスナーが音声の品質の劣化を感知し易い周波数帯域（例えば、0〜9000Hzあるいは、20〜9000Hz）のみを含むように設定されることが好ましい。しかし、所定の周波数範囲は、各チャネルの周波数信号が生成される全ての周波数帯域を含むように設定されてもよい。

制御信号生成部は、所定の周波数範囲内で信号が減衰する可能性のある周波数帯域の数cnt1が少なくとも1以上の所定数Thn以上であり、かつ、左チャネルと中央チャネル間の時間信号の類似度α₁が類似度閾値Thaより大きいか否か判定する（ステップＳ４０６）。
cnt1が所定数Thn以上であり、かつ、類似度α₁が類似度閾値Thaより大きい場合（ステップＳ４０６−Ｙｅｓ）、制御信号生成部は予測モードを選択する。そこで制御信号生成部は、第２ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を作成する（ステップＳ４０８）。
一方、cnt1が所定数Thn未満であるか、または、類似度α₁が類似度閾値Tha未満である場合（ステップＳ４０６−Ｎｏ）、左チャネルの時間信号と中央チャネルの時間信号が互いに打ち消す可能性は低い。そこで制御信号生成部は、所定の周波数範囲内で信号が減衰する可能性のある周波数帯域の数cnt2が所定数Thn以上であり、かつ、右チャネルと中央チャネル間の時間信号の類似度α₂が類似度閾値Thaより大きいか否か判定する（ステップＳ４０７）。cnt2が所定数Thn以上であり、かつ、類似度α₂が類似度閾値Thaより大きい場合（ステップＳ４０７−Ｙｅｓ）、制御信号生成部は予測モードを選択する。そこで制御信号生成部は、第２ダウンミックス部が予測モードを用いるよう各セレクタへの制御信号を作成する（ステップＳ４０８）。

一方、cnt2が所定数Thn未満であるか、または、類似度α₂が類似度閾値Tha未満である場合（ステップＳ４０７−Ｎｏ）、右チャネルの時間信号と中央チャネルの時間信号が互いに打ち消す可能性は低い。
そこで制御信号生成部は、第２ダウンミックス部がエネルギーモードを用いるよう各セレクタへの制御信号を作成する（ステップＳ４０９）。
ステップＳ４０８またはＳ４０９の後、制御信号生成部は、制御信号を各セレクタへ出力し、その後、判定部は空間情報生成モード選択処理を終了する。
なお、判定部は、ステップＳ４０６の処理とステップＳ４０７の処理の順序を入れ替えてもよい。
また所定数Thnは、cnt1またはcnt2が２以上の所定数である場合に限り、予測モードが選択されるように、2以上の値に設定されてもよい。また、類似度閾値Thaは、上記の実施形態における類似度閾値と同様に、例えば0.7に設定される。
この実施形態によれば、二つのチャネルの信号がダウンミックスされることにより互いに打ち消しあって信号が減衰する可能性のある周波数帯域が推定される。そのため、このオーディオ符号化装置は、そのような周波数帯域がリスナーが音質の劣化を感知できる周波数の範囲に含まれるか否かを調べることができる。したがって、このオーディオ符号化装置は、信号が減衰する可能性のある周波数帯域がリスナーが音質の劣化を感知できる周波数の範囲に含まれる場合にのみ予測モードで空間情報を生成できるので、より適切に空間情報の生成モードを選択できる。

また、上記の各実施形態において、類似度算出部及び位相差算出部は、元のマルチチャネルオーディオ信号の各チャネルの信号から、直接類似度及び位相差を算出してもよい。例えば、左チャネルまたは右チャネルと中央チャネル間の信号の類似度及び位相差が、左チャネルまたは右チャネルと中央チャネル間の周波数信号の類似度及び位相差として算出される場合、次式に従ってその類似度α₁、α₂及び位相差θ₁、θ₂が算出される。

さらに他の実施形態によれば、オーディオ符号化装置のチャネル信号符号化部は、ステレオ周波数信号を他の符号化方式に従って符号化してもよい。例えば、チャネル信号符号化部は、周波数信号全体をAAC符号化方式にしたがって符号化してもよい。この場合、図１に示されたオーディオ符号化装置において、SBR符号化部は省略される。

また、符号化の対象となるマルチチャネルオーディオ信号は、5.1chオーディオ信号に限られない。例えば、符号化の対象となるオーディオ信号は、3ch、3.1chまたは7.1chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。その際、オーディオ符号化装置は、何れかのチャネルについて、二つのチャネルの周波数信号をダウンミックスすることにより一つの周波数信号を生成するとともに、そのダウンミックスされる二つの周波数信号についての空間情報をエネルギーモードまたは予測モードの何れかで生成する。そしてオーディオ符号化装置は、その二つの周波数信号間の類似度と位相差を求め、類似度が大きく、かつ、位相差が大きい場合に予測モードを選択し、その他の場合にエネルギーモードを選択すればよい。特に、符号化の対象となるオーディオ信号が3chのオーディオ信号である場合、第２ダウンミックス部により直接ステレオ周波数信号を生成できるので、上記の各実施形態におけるダウンミックス部１２は省略されてもよい。

上記の各実施形態におけるオーディオ符号化装置が有する各部の機能をコンピュータに実現させるコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体などの記録媒体に記憶された形で提供されてもよい。

また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装される。

図１４は、上記の何れかの実施形態に係るオーディオ符号化装置が組み込まれた映像伝送装置の概略構成図である。映像伝送装置１００は、映像取得部１０１と、音声取得部１０２と、映像符号化部１０３と、音声符号化部１０４と、多重化部１０５と、通信処理部１０６と、出力部１０７とを有する。

映像取得部１０１は、動画像信号をビデオカメラなどの他の装置から取得するためのインターフェース回路を有する。そして映像取得部１０１は、映像伝送装置１００に入力された動画像信号を映像符号化部１０３へ渡す。

音声取得部１０２は、マルチチャネルオーディオ音声信号をマイクロフォンなどの他の装置から取得するためのインターフェース回路を有する。そして音声取得部１０２は、映像伝送装置１００に入力されたマルチチャネルオーディオ音声信号を音声符号化部１０４へ渡す。

映像符号化部１０３は、動画像信号のデータ量を圧縮するために、動画像信号を符号化する。そのために、映像符号化部１０３は、例えば、MPEG-2、MPEG-4、H.264 MPEG-4 Advanced Video Coding（H.264 MPEG-4 AVC）などの動画像符号化規格に従って動画像信号を符号化する。そして映像符号化部１０３は、符号化動画像データを多重化部１０５へ出力する。

音声符号化部１０４は、上記の何れかの実施形態のオーディオ符号化装置を有する。そして音声符号化部１０４は、マルチチャネルオーディオ信号からステレオ周波数信号と空間情報を生成する。音声符号化部１０４は、そのステレオ周波数信号をAAC符号化処理及びSBR符号化処理によって符号化する。また音声符号化部１０４は、空間情報を空間情報符号化処理によって符号化する。音声符号化部１０４は、生成されたAAC符号、SBR符号及びMPS符号を多重化することにより、符号化オーディオデータを生成する。そして音声符号化部１０４は、符号化オーディオデータを多重化部１０５へ出力する。

多重化部１０５は、符号化動画像データと符号化オーディオデータを多重化する。そして多重化部１０５は、MPEG-2トランスポートストリームなどの映像データの伝送用の所定の形式に従ったストリームを作成する。
多重化部１０５は、符号化動画像データと符号化オーディオデータが多重化されたストリームを通信処理部１０６へ出力する。

通信処理部１０６は、符号化動画像データと符号化オーディオデータが多重化されたストリームを、TCP/IPなどの所定の通信規格にしたがったパケットに分割する。また通信処理部１０６は、各パケットに、宛先情報などが格納された所定のヘッダを付す。そして通信処理部１０６は、パケットを出力部１０７へ渡す。

出力部１０７は、映像伝送装置１００を通信回線に接続するためのインターフェース回路を有する。そして出力部１０７は、通信処理部１０６から受け取ったパケットを通信回線へ出力する。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出する第１の空間情報算出部と、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、前記第３のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出する第２の空間情報算出部と、
前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号の類似度を算出する類似度算出部と、
前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号の位相差を算出する位相差算出部と、
前記類似度及び前記位相差が所定の判定条件を満たす場合に前記第１の空間情報算出部に前記第１の空間情報を算出させ、一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に前記第２の空間情報算出部に前記第２の空間情報を算出させる制御部と、
前記第３のチャネルの周波数信号を符号化するチャネル信号符号化部と、
前記第１の空間情報または前記第２の空間情報を符号化する空間情報符号化部と、
を有するオーディオ符号化装置。
（付記２）
前記所定の判定条件は、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、前記第３のチャネルの周波数信号が減衰する程度に前記類似度が高く、かつ前記位相差が大きいことである、付記１に記載のオーディオ符号化装置。
（付記３）
前記類似度算出部は、前記位相差算出部により算出された前記位相差を打ち消すように前記少なくとも一つの第１のチャネルの信号を補正し、当該補正された第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号間の前記類似度を算出する、付記１または２に記載のオーディオ符号化装置。
（付記４）
前記類似度算出部は、周波数帯域ごとに前記類似度を算出し、
前記位相差算出部は、周波数帯域ごとに前記位相差を算出し、
前記制御部は、所定の周波数範囲内において、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が１以上の所定数以上である場合に前記第１の空間情報算出部に前記第１の空間情報を算出させ、一方、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が前記所定数未満である場合、前記第２の空間情報算出部に前記第２の空間情報を算出させる、付記１〜３の何れか一項に記載のオーディオ符号化装置。
（付記５）
前記所定の周波数範囲は、リスナーが前記オーディオ信号の品質の劣化を感知できる周波数範囲である、付記４に記載のオーディオ符号化装置。
（付記６）
前記少なくとも一つの第１のチャネルの信号及び前記少なくとも一つの第２のチャネルの信号は、それぞれ、当該少なくとも一つの第１のチャネルの周波数信号及び当該少なくとも一つの第２のチャネルの周波数信号である、付記１〜５の何れか一項に記載のオーディオ符号化装置。
（付記７）
前記少なくとも一つの第１のチャネルの信号及び前記少なくとも一つの第２のチャネルの信号は、それぞれ、当該少なくとも一つの第１のチャネルの時間領域の信号及び当該少なくとも一つの第２のチャネルの時間領域の信号であり、
前記位相差算出部は、前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号が最も類似するときの時間のずれ量を前記位相差とするとともに、当該位相差に応じて前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより得られた第３の周波数信号が減衰する可能性のある減衰周波数帯域を前記時間のずれ量に応じて推定し、
前記所定の判定条件は、前記類似度が所定の類似度閾値より大きく、かつ前記減衰周波数帯域の数が少なくとも１つの所定数以上であることである、付記１に記載のオーディオ符号化装置。
（付記８）
少なくとも4以上のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記各チャネルの周波数信号をダウンミックスすることにより第１のチャネルの周波数信号、第２のチャネルの周波数信号及び第３のチャネルの周波数信号を生成し、かつダウンミックスされる各チャネル間の３チャネル空間情報を算出する第１のダウンミックス部と、
前記第１のチャネルの周波数信号と前記第２のチャネルの周波数信号をダウンミックスすることにより第４のチャネルの周波数信号を生成し、かつ、前記第１のチャネルの周波数信号と前記第３のチャネルの周波数信号をダウンミックスすることにより第５のチャネルの周波数信号を生成するとともに、前記第１のチャネルの周波数信号と前記第２のチャネルの周波数信号間及び前記第１のチャネルの周波数信号と前記第３のチャネルの周波数信号間で第１の空間情報を算出する第１の空間情報算出部と、
前記第１のチャネルの周波数信号と前記第２のチャネルの周波数信号をダウンミックスすることにより第４のチャネルの周波数信号を生成し、かつ、前記第１のチャネルの周波数信号と前記第３のチャネルの周波数信号をダウンミックスすることにより第５のチャネルの周波数信号を生成するとともに、前記第１のチャネルの周波数信号と前記第２のチャネルの周波数信号間及び前記第１のチャネルの周波数信号と前記第３のチャネルの周波数信号間で前記第１の空間情報よりも情報量の少ない第２の空間情報を算出する第２の空間情報算出部と、
前記第１のチャネルの周波数信号と前記第２のチャネルの周波数信号間の第１の類似度及び前記第１のチャネルの周波数信号と前記第３のチャネルの周波数信号間の第２の類似度を算出する類似度算出部と、
前記第１のチャネルの周波数信号と前記第２のチャネルの周波数信号間の第１の位相差及び前記第１のチャネルの周波数信号と前記第３のチャネルの周波数信号間の第２の位相差を算出する位相差算出部と、
前記第１の類似度及び前記第１の位相差が前記第４の周波数信号が減衰する条件を満たす場合、あるいは前記第２の類似度及び前記第２の位相差が前記第５の周波数信号が減衰する条件を満たす場合に前記第１の空間情報算出部に前記第１の空間情報を算出させ、一方、前記第４の周波数信号及び前記第５の周波数信号の何れについても前記条件が満たされない場合に前記第２の空間情報算出部に前記第２の空間情報を算出させる制御部と、
前記第４のチャネルの周波数信号及び前記第５のチャネルの周波数信号を符号化するチャネル信号符号化部と、
前記３チャネル空間情報と、前記第１の空間情報または前記第２の空間情報とを符号化する空間情報符号化部と、
を有するオーディオ符号化装置。
（付記９）
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の類似度を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号の位相差を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成し、
前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出し、
一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出し、
前記第３のチャネルの周波数信号を符号化し、
前記第１の空間情報または前記第２の空間情報を符号化する、
ことを含むオーディオ符号化方法。
（付記１０）
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の類似度を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号の位相差を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成し、
前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出し、
一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出し、
前記第３のチャネルの周波数信号を符号化し、
前記第１の空間情報または前記第２の空間情報を符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。
（付記１１）
入力された動画像信号を符号化する動画像符号化部と、
入力された複数のチャネルを持つオーディオ信号を符号化するオーディオ符号化部であって、
前記オーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出する第１の空間情報算出部と、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、前記第３のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出する第２の空間情報算出部と、
前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号の類似度を算出する類似度算出部と、
前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号の位相差を算出する位相差算出部と、
前記類似度及び前記位相差が所定の判定条件を満たす場合に前記第１の空間情報算出部に前記第１の空間情報を算出させ、一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に前記第２の空間情報算出部に前記第２の空間情報を算出させる制御部と、
前記第３のチャネルの周波数信号を符号化することによりチャネル信号符号を生成するチャネル信号符号化部と、
前記第１の空間情報または前記第２の空間情報を符号化することにより空間情報符号を生成する空間情報符号化部と、
前記チャネル信号符号と前記空間情報符号を多重化することにより、符号化されたオーディオ信号を生成する多重化部とを有するオーディオ符号化部と、
前記動画像符号化部により符号化された動画像信号と前記オーディオ符号化部により符号化されたオーディオ信号を多重化することにより映像ストリームを生成する多重化部と、
を有する映像伝送装置。

１、２オーディオ符号化装置
１１時間周波数変換部
１２ダウンミックス部
１３第２ダウンミックス部
１３１エネルギーモード合成部
１３２予測モード合成部
１４、１５セレクタ
１６判定部
１６１類似度算出部
１６２位相差算出部
１６３制御信号生成部
１７チャネル信号符号化部
１８空間情報符号化部
１９多重化部
２０第２周波数時間変換部
１７１ SBR符号化部
１７２周波数時間変換部
１７３ AAC符号化部
１００映像伝送装置
１０１映像取得部
１０２音声取得部
１０３映像符号化部
１０４音声符号化部
１０５多重化部
１０６通信処理部
１０７出力部

Claims

複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換する時間周波数変換部と、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出する第１の空間情報算出部と、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、前記第３のチャネルの周波数信号を生成するとともに、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出する第２の空間情報算出部と、
前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号の類似度を算出する類似度算出部と、
前記少なくとも一つの第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号の位相差を算出する位相差算出部と、
前記類似度及び前記位相差が所定の判定条件を満たす場合に前記第１の空間情報算出部に前記第１の空間情報を算出させ、一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に前記第２の空間情報算出部に前記第２の空間情報を算出させる制御部と、
前記第３のチャネルの周波数信号を符号化するチャネル信号符号化部と、
前記第１の空間情報または前記第２の空間情報を符号化する空間情報符号化部と、
を有するオーディオ符号化装置。
前記所定の判定条件は、前記類似度が所定の閾値より大きく、かつ前記位相差が所定の位相差範囲に含まれることである、請求項１に記載のオーディオ符号化装置。
前記類似度算出部は、前記位相差算出部により算出された前記位相差を打ち消すように前記少なくとも一つの第１のチャネルの信号を補正し、当該補正された第１のチャネルの信号と前記少なくとも一つの第２のチャネルの信号間の前記類似度を算出する、請求項１または２に記載のオーディオ符号化装置。
前記類似度算出部は、周波数帯域ごとに前記類似度を算出し、
前記位相差算出部は、周波数帯域ごとに前記位相差を算出し、
前記制御部は、所定の周波数範囲内において、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が１以上の所定数以上である場合に前記第１の空間情報算出部に前記第１の空間情報を算出させ、一方、前記類似度と前記位相差が前記所定の判定条件を満たす周波数帯域の数が前記所定数未満である場合、前記第２の空間情報算出部に前記第２の空間情報を算出させる、請求項１〜３の何れか一項に記載のオーディオ符号化装置。
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の類似度を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号の位相差を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成し、
前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出し、
一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出し、
前記第３のチャネルの周波数信号を符号化し、
前記第１の空間情報または前記第２の空間情報を符号化する、
ことを含むオーディオ符号化方法。
複数のチャネルを持つオーディオ信号に含まれる各チャネルの信号を所定の時間長を持つフレーム単位で時間周波数変換することにより、前記各チャネルの信号を、それぞれ周波数信号に変換し、
前記複数のチャネルのうちの少なくとも一つの第１のチャネルの周波数信号と少なくとも一つの第２のチャネルの周波数信号の類似度を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号の位相差を算出し、
前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号をダウンミックスすることにより、第３のチャネルの周波数信号を生成し、
前記類似度及び前記位相差が所定の判定条件を満たす場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で第１の空間情報を算出し、
一方、前記類似度及び前記位相差が当該所定の判定条件を満たさない場合に、前記少なくとも一つの第１のチャネルの周波数信号と前記少なくとも一つの第２のチャネルの周波数信号間で前記第１の空間情報よりも情報量が少ない第２の空間情報を算出し、
前記第３のチャネルの周波数信号を符号化し、
前記第１の空間情報または前記第２の空間情報を符号化する、
ことをコンピュータに実行させるオーディオ符号化用コンピュータプログラム。