JP5483813B2

JP5483813B2 - マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法

Info

Publication number: JP5483813B2
Application number: JP2007330311A
Authority: JP
Inventors: 真也飯塚
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2007-12-21
Filing date: 2007-12-21
Publication date: 2014-05-07
Anticipated expiration: 2027-12-21
Also published as: JP2009151183A

Description

本発明は、複数チャネルの入力音声音響信号を符号化するマルチチャネル音声音響信号符号化装置および方法、並びに、符号化されたデータを複数の出力音声音響信号に復号するマルチチャネル音声音響信号復号装置および方法に関するものである。

複数チャネルの入力音声音響信号を圧縮し符号化する、マルチチャネル音声音響信号符号化（以下「マルチチャネル符号化」という。）が知られている。多くのマルチチャネル符号化では、チャネル間の相関を利用することで、全ての入力信号を個別に符号化するよりも効率的な圧縮を実現している。

一方で、複数の入力信号を個別に再生するのではなく、ヘッドホンや複数のスピーカを用いて立体音として擬似的にマルチチャネル再生する場合、人間の聴覚特性を利用することで、より効率的な圧縮を実現するBCC(Binaural Cue Coding)がある（下記特許文献１参照）。

これら立体音再生を前提としたマルチチャネル符号化は、臨場感のある映画音声や音楽の再生や多地点音声通信のために有効な技術である。

BCCでは、複数チャネルの入力信号を、全ての入力信号を混合した混合信号と、聴覚情景パラメータと呼ばれる補助情報とに、符号化する。聴覚情景パラメータとは、例えば、それぞれの周波数帯域について、最も占有的なチャネルのインデックス情報である。復号装置では、混合信号と聴覚情景パラメータとから、立体再生音として復号する。すなわち、BCCでは各周波数帯域について、人間の耳が最も聞き取りやすいチャネルの聞こえるべき方向から混合音を流すことによって、擬似的に複数チャネルの音声音響信号に聞こえるように再生する。

このように、BCCでは複数チャネルの音を混合信号と補助情報に符号化できるため、大幅な情報圧縮が可能となる。つまり、例えば６４ｋｂｐｓの信号を４チャネル分伝送するためには２５６ｋｂｐｓのビットレートに対応した伝送帯域が必要となるが、１チャネルに混合するBCCを適用することで、ビットレートを（６４ｋｂｐｓ＋数ｋｂｐｓ）程度に抑えることが可能となる。

しかし、BCCは高い圧縮率で符号化を実現できる反面、再生品質の劣化が問題となる。すなわち、それぞれの周波数帯域において混合信号を最占有チャネルとして擬似的に再生するBCCでは、最占有チャネル以外のチャネルの利得が低い場合、歪は知覚されにくいが、最占有チャネル以外のチャネルの利得が高い場合には信号の欠落感や歪感が生じる。

そこで、特許文献２では、周波数帯域によってBCCの適用の有無を選択することで、全ての周波数帯域にBCCを適用する場合よりも聴感品質の高い再生を実現している。すなわち、例えば高周波帯域のように品質劣化が比較的許容される周波数帯域ではBCCの適用により複数チャネルの信号を混合し、低周波帯域のように品質劣化が比較的許容されない周波数帯域については、複数チャネルの信号を混合せずに符号化する。
米国特許公報第７１１６７８７号Ｂ２特開２００４−７８１８３号公報

しかし、上記従来技術に係るマルチチャネル符号化装置は、以下に示すような問題点があった。すなわち、BCCを適用しない周波数帯域に関しては複数チャネルの信号を符号化するために、ビットレートが増加するという問題があった。

そこで本発明は、上述の課題を解決するために、周波数帯域ごとに、最占有的なチャネルの信号と０個以上の可変数な準占有的チャネルの信号をそのチャネルインデックス情報とともに符号化することで、ビットレートを抑えながら聴感品質の高い再生を実現するよう符号化／復号することを目的とする。

本発明では、上記特許文献１や特許文献２のように複数チャネルの信号を混合しない。これは、混合された複数チャネルの信号を再生すると、本来の最占有チャネルの信号の音以外のチャネルの音が歪として知覚されやすいためである。本発明では、決定した最占有チャネル情報および準占有チャネル群情報を用い、該当する信号のみを選択し符号化するによって聴感品質の高い再生を実現することを特徴とする。すなわち、信号の混合を前提とするBCCとは本質的に異なった発明である。

上述の課題を解決するために、本発明のマルチチャネル音声音響信号符号化装置は、入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも１つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換手段と、前記時間周波数変換手段より出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定手段と、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定手段と、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化手段と、前記時間周波数変換手段より出力された各チャネルの変換係数と前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化手段とを備え、前記最占有チャネル決定手段、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも１つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とする。

この発明によれば、最占有チャネル決定手段および最占有チャネル変換係数符号化手段によって、人間の耳に最も聞こえやすい成分を効率的に符号化するとともに、準占有チャネル群決定手段および準占有チャネル群変換係数符号化手段によって、その他にも聴こえやすい成分を符号化することで、歪を抑えることができ、聴感品質の高い再生を実現できる。また、準占有チャネル群決定手段は、各周波数帯域について再生が必要と判断される占有チャネル群を０個以上可変数に決定することで、不必要なチャネルの符号化を省くことができ、ビットレートの増加を防ぐことができる。また、この発明によれば、最占有チャネル決定手段、準占有チャネル群決定手段、最占有チャネル変換係数符号化手段、準占有チャネル群変換係数符号化手段の少なくとも１つは、復号装置において入力された各チャネルの音声音響信号をどの位置に定位し、再生するかを表す音源定位位置情報を用いることができ、再生環境により即した符号化を行うことでより聴感品質の高い再生が実現できる。

なお、マルチチャネル音声音響信号符号化装置に係る発明は、方法に係る発明として捉えることもでき、図８の流れ図とともに以下のように記述することができる。本発明のマルチチャネル音声音響信号符号化方法は、音声音響信号を符号化する装置により実行されるマルチチャネル音声音響信号符号化方法であって、入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも１つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換ステップ（図８のステップＳ１）と、前記時間周波数変換ステップにより出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定ステップ（ステップＳ２）と、前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定ステップ（ステップＳ３）と、前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化ステップ（ステップＳ４）と、前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記準占有チャネル群決定ステップにより出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化ステップ（ステップＳ５）と、を備え、前記最占有チャネル決定ステップ、前記準占有チャネル群決定ステップ、前記最占有チャネル変換係数符号化ステップ、前記準占有チャネル群変換係数符号化ステップの少なくとも１つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とする。

また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、人間の聴覚におけるマスキング効果および聴覚感度の周波数依存性の少なくとも一方に基づいて、前記準占有的なチャネルを決定することが好ましい。

この発明によれば、準占有チャネル群決定手段は、人間の聴覚系において、大きい音成分によってその近傍の小さい音成分が聴こえなくなるマスキング効果や、周波数による聴覚感度の大小を準占有チャネル群の決定基準に反映することでより人間の聴覚特性に近い決定ができ、より聴感品質の高い再生が実現できる。

また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、各周波数帯域において最占有チャネルとの利得差分が所定値以内のチャネルを、前記準占有的なチャネルとして決定することが好ましい。

この発明によれば、準占有チャネル群決定手段は、各入力チャネルについて周波数帯域ごとの利得の比較により準占有チャネル群を決定することができ、より少ない演算量で準占有チャネル群を決定することができる。

また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、所定の周波数帯域についてのみ前記準占有的なチャネルを決定することが好ましい。

この発明によれば、準占有チャネル群決定手段は、所定の周波数帯域のみについて動作することができ、より少ない演算量で符号化することができる。

また、本発明のマルチチャネル音声音響信号符号化装置は、固定または可変の所定のビットレートで符号化を行うために、前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報に基づいて、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも１つの処理を制御するビットレート制御手段、をさらに備えることが好ましい。

この発明によれば、ビットレート制御手段は固定または可変の任意のビットレートを保つように、準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報に基づいて、準占有チャネル群決定手段、最占有チャネル変換係数符号化手段、準占有チャネル群変換係数符号化手段の少なくとも１つの処理を制御することができ、任意のビットレートで最良の符号化品質を得ることができる。

また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群変換係数符号化手段は、前記最占有チャネル変換係数符号化手段の中間情報および出力符号化データの、一部または全部を用いることが好ましい。

この発明によれば、準占有チャネル群変換係数符号化手段は、最占有チャネル変換係数符号化手段の中間情報および出力符号化データの、一部または全部を用いることができ、より効率的な符号化を行うことができる。

また、本発明のマルチチャネル音声音響信号符号化装置は、少なくとも前記最占有チャネル決定手段より出力される最占有チャネルインデックス情報を保持し、次回以降の処理時に前記最占有チャネルインデックス情報を出力する過去占有チャネル情報保持手段をさらに備え、前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数、前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報、および前記過去占有チャネル情報保持手段より出力された過去の占有チャネル情報に基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力することが好ましい。

この発明によれば、準占有チャネル群決定手段は準占有チャネル群の決定基準の際に、過去占有チャネル情報保持手段が保持していた過去の少なくとも最占有チャネルインデックス情報を利用することができ、符号化するチャネルの時間的不連続を防ぐことでより聴感品質の高い再生が実現できる。

また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報に加え、前記最占有チャネル変換係数符号化手段より出力された前記符号化後の最占有チャネル音響符号化データも基礎として、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定することが好ましい。

この発明によれば、最占有チャネル変換係数符号化手段より出力された符号化後の最占有チャネル音響符号化データも反映可能になるため、復号装置での再生環境により近い条件で、準占有的なチャネルを決定することができ、聴覚品質をより高めることができる。

本発明のマルチチャネル音声音響信号復号装置は、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定手段と、入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定手段と、入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号手段と、入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号手段と、前記最占有チャネル変換係数復号手段より出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定手段より出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御手段と、前記準占有チャネル群変換係数復号手段より出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定手段より出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御手段と、各再生チャネルについて、前記最占有チャネル音像制御手段より出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御手段より出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成手段と、前記各変換係数合成手段より出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換手段とを備えることを特徴とする。

この発明によれば、最占有チャネル変換係数復号手段および最占有チャネル音像制御手段によって、人間の耳に最も聞こえやすい成分を効率的に立体音像として復号するとともに、準占有チャネル群変換係数復号手段および準占有チャネル群音像制御手段によって、その他にも聴こえやすい成分を立体音像として復号することで、歪を抑えることができ、聴感品質の高い再生を実現できる。

なお、マルチチャネル音声音響信号復号装置に係る発明は、方法に係る発明として捉えることもでき、図９の流れ図とともに以下のように記述することができる。本発明のマルチチャネル音声音響信号復号方法は、音声音響信号を復号する装置により実行されるマルチチャネル音声音響信号復号方法であって、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定ステップ（図９のステップＳ１１）と、入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定ステップ（ステップＳ１３）と、入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号ステップ（ステップＳ１２）と、入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号ステップ（ステップＳ１４）と、前記最占有チャネル変換係数復号ステップにより出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定ステップにより出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御ステップ（ステップＳ１５）と、前記準占有チャネル群変換係数復号ステップにより出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定ステップにより出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御ステップ（ステップＳ１６）と、各再生チャネルについて、前記最占有チャネル音像制御ステップにより出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御ステップにより出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成ステップ（ステップＳ１７）と、前記各変換係数合成ステップにより出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換ステップ（ステップＳ１８）と、を備えることを特徴とする。

また、本発明のマルチチャネル音声音響信号復号装置では、前記準占有チャネル群変換係数復号手段は、前記最占有チャネル変換係数復号手段の中間情報および出力符号化データの、一部または全部を用いることが好ましい。

この発明によれば、準占有チャネル群変換係数復号手段は、最占有チャネル変換係数復号手段の中間情報および出力符号化データの、一部または全部を用いることができ、より効率的な復号を行うことができる。

本発明によれば、複数チャネルの音声音響信号に対して、ビットレートを抑えながら聴感品質の高い再生を実現するよう符号化／復号することができる。

本発明は、一実施形態のために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

［第１の実施形態］
まず、第１の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図１は第１の実施形態に係るマルチチャネル音声音響信号符号化装置１ａの構成を示すブロック図である。

図１に示すように、第１の実施形態に係るマルチチャネル音声音響信号符号化装置１ａは、入力された複数の音声音響信号を時間領域から周波数領域に変換し、少なくとも１つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換部１１a〜１１xと、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネル（以下「最占有チャネル」という）を決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定部１２と、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数と最占有チャネル決定部１２より出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネル（以下「準占有チャネル群」という）を決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定部１３と、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数と最占有チャネル決定部１２より出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化部１４と、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数と準占有チャネル群決定部１３より出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有チャネル群の変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化部１５と、を含んで構成されている。以下、各構成について詳細に説明する。

時間周波数変換部１１a〜１１xは、入力された時間領域の音声音響信号をそれぞれ周波数領域に変換し、少なくとも１つの周波数帯域に分割した形式で変換係数を出力する。この処理は、最占有チャネルおよび準占有チャネル群を少なくとも１つの周波数帯域ごとに決定するためのものである。周波数領域への変換方法として離散フーリエ変換（DFT：Discrete Fourier Transform）、修正離散コサイン変換（MDCT：Modified Discrete Cosine Transform）などの直交基底変換が考えられる。ただし、この処理の目的は任意の周波数帯域ごとに分割可能にすることであり、上述の直交基底変換に限らず、直交鏡像フィルタ（QMF：Quadrature Mirror Filter）や多相フィルタバンクなどのフィルタバンクでも良い。フィルタバンクを用いる場合は、以降の説明において、変換係数をフィルタ出力として読み替える。ここで、周波数帯域の設定方法としては、例えば、均一の周波数帯域幅で１６等分することや、人間の聴覚機構に近い臨界帯域幅に分割することが考えられるが、その設定方法は問わない。また、入力信号が既にこれらの処理を受けている場合は、時間周波数変換部１１a〜１１xの処理は省略することができる。

また、時間周波数変換部１１a〜１１xにおいて適用する変換法は一種類のみに限定されず、最占有チャネル決定部１２、準占有チャネル群決定部１３、最占有チャネル変換係数符号化部１４、準占有チャネル群変換係数符号化部１５の各部に対する出力を得るために、それぞれ異なる種類の変換法を適用することも考えられる。例えば、最／準占有チャネルの決定にはQMFの出力を、変換係数符号化にはMDCTの出力を用いることもできる。ただし、複数種類の変換法を用いる場合、当然に演算量は増大する。

最占有チャネル決定部１２は、入力された複数チャネルの変換係数に基づいて、各周波数帯域のそれぞれについて最も占有的なチャネルを決定する。最も占有的とは、最も聴覚的に重要であることを意味しており、そのチャネルの決定方法としては、各周波数帯域において、変換係数の絶対値の最大値が最も大きいチャネルを選択する方法や、変換係数の利得が最も大きいチャネルを選択する方法が挙げられるがこれに限らない。また、出力される情報は、各周波数帯域についての最占有チャネルがどれかを示す情報であればよく、チャネルのインデックスが一般的に考えられるが、これに限らない。

準占有チャネル群決定部１３は、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数と最占有チャネル決定部１２より出力された最占有チャネルインデックス情報に基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、準占有チャネル群インデックス情報を出力する。準占有的とは、最占有ではないが重要であるということを意味しており、そのチャネルの決定方法として以下に２つの例を示す。ただし、その決定方法はこれらに限らない。また、出力される情報は、各周波数帯域についての準占有チャネル群がどれかを示す情報であればよく、チャネルのインデックスが一般的に考えられるが、これに限らない。

チャネルの決定方法の第１の例は、最占有チャネルの成分によってマスキングされないチャネルを全て選択する方法である。この方法では、再生音声の聴感品質は高い反面、多くの情報を符号化する必要がある。また、厳密なマスキング判定を行うためには演算量が増大する可能性がある。

チャネルの決定方法の第２の例は、最占有チャネルの利得との利得差の小さいチャネルを選択する方法である。例えば、最占有チャネルの利得の（−３dＢ）より大きい利得のチャネルを準占有チャネルとして決定する。この方法では、マスキング判定を行う場合と比較して少ない演算量で処理可能である。

ここで、最占有チャネルの成分および利得に関する情報は、時間周波数変換部１１a〜１１xより出力された変換係数のほか、後述の最占有チャネル変換係数符号化部１４により量子化された後の出力変換係数を利用することも考えられる。これにより、最占有チャネル変換係数符号化部１４による最占有チャネルの成分および利得の値の変更を反映可能になるため、復号装置での再生環境により近い条件で準占有チャネル群を決定でき、聴覚品質を高めることができる。

また、準占有チャネル群の決定方法は、各周波数帯域について独立に行う必要はなく、全ての周波数帯域およびチャネルにわたって、上述の方法などにより聴覚的に重要な順位付けをし、重要なものから順に準占有チャネル群として選択することも考えられる。この際、人間の聴覚における感度の周波数依存性に基づいた重み付け判定を行うことで、より高い聴感品質の再生が可能となる。

準占有チャネル群決定部１３においては、各周波数帯域について０個以上の可変数分のチャネルを決定する。すなわち、周波数帯域によっては、準占有チャネルが存在しないこともあり得る。準占有チャネルの個数の上限については、入力チャネル数に対応するが、ビットレートを増大させないように予め任意の数に制限することも可能である。また、その制限数は周波数帯域によって異なっても当然に良い。

また、準占有チャネル群決定部１３において、所定の周波数帯域のみについて準占有チャネル群を決定することが考えられる。たとえば、高周波帯域においては人間の聴覚は感度が低下するため、複数のチャネルを忠実に再現しても聞き分けることができない。そこで、所定より低い周波数帯域についてのみ準占有チャネル群の存在を許すように限定することで、ビットレートや符号化にかかる演算量を抑えることが可能となる。

最占有チャネル変換係数符号化部１４は、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数と最占有チャネル決定部１２より出力された最占有チャネルインデックス情報に基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し最占有チャネル音響符号化データを出力する。この符号化方法としては、変換係数を任意の周波数帯域に分割し、スケーリングした後にスカラ量子化し、量子化値をエントロピー符号化するなどの一般的な音響符号化の手法を用いるなど、その形態は一切問わない。

準占有チャネル群変換係数符号化部１５は、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数と準占有チャネル群決定部１３より出力された準占有チャネル群インデックス情報に基づいて、該当する周波数帯域の準占有チャネル群の変換係数を符号化し準占有チャネル群音響符号化データを出力する。この符号化方法の形態は一切問わない。

以上の処理により、マルチチャネル音声音響信号符号化装置は、複数の入力信号を、最占有チャネルインデックス情報、準占有チャネル群インデックス情報、最占有チャネル音響符号化データ、準占有チャネル群音響符号化データに符号化することができる。実際の処理においては、出力された情報をさらにエントロピー符号化により圧縮したり、多重化により１系統のデータに集約したりすることもあるが、本発明の本質的な部分ではないため省略する。

上記第１の実施形態によれば、最占有チャネル決定部１２および最占有チャネル変換係数符号化部１４によって、人間の耳に最も聞こえやすい成分を効率的に符号化するとともに、準占有チャネル群決定部１３および準占有チャネル群変換係数符号化部１５によって、その他にも聴こえやすい成分を符号化することで、歪を抑えることができ、聴感品質の高い再生を実現できる。また、準占有チャネル群決定部１３は、各周波数帯域について再生が必要と判断される占有チャネル群を０個以上可変数に決定することで、不必要なチャネルの符号化を省くことができ、ビットレートの増加を防ぐことができる。

また、準占有チャネル群決定部１３は、人間の聴覚におけるマスキング効果および聴覚感度の周波数依存性の少なくとも一方に基づいて準占有的チャネル群を決定するため、準占有チャネル群決定部１３は、人間の聴覚系において、大きい音成分によってその近傍の小さい音成分が聴こえなくなるマスキング効果や、周波数による聴覚感度の大小を、準占有チャネル群の決定基準に反映することができ、より人間の聴覚特性に近い決定ができ、より聴感品質の高い再生が実現できる。

また、準占有チャネル群決定部１３は、各周波数帯域において最占有チャネルとの利得差分が所定値（一例として３dＢ）以内のチャネルを、準占有的チャネル群として決定するため、より少ない演算量で準占有チャネル群を決定することができる。

また、準占有チャネル群決定部１３が、所定の周波数帯域（例えば、所定より低い周波数帯域）のみについて準占有チャネル群を決定する場合、ビットレートや符号化にかかる演算量を抑えることが可能となる。

［第２の実施形態］
続いて、第２の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図２は第２の実施形態に係るマルチチャネル音声音響信号符号化装置１ｂの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置１ｂは、図１のマルチチャネル音声音響信号符号化装置１ａに対し、ビットレート制御部１６を加えた構成である。以下、ビットレート制御部１６の動作について説明する。

ビットレート制御部１６は、固定または可変の所定のビットレートで符号化を行うために、準占有チャネル群決定部１３より出力された準占有チャネル群インデックス情報に基づいて、準占有チャネル群決定部１３、最占有チャネル変換係数符号化部１４、準占有チャネル群変換係数符号化部１５の少なくとも１つの処理を制御する。次に、この制御の具体的方法に関しての例を挙げる。ただし、制御方法はこれに限ったものではない。

準占有チャネル群決定部１３における制御としては、例えば準占有チャネル群として決定されるチャネル数の制限が考えられる。例えば、準占有チャネル群の決定結果をビットレート制御部１６に出力し、ビットレート制御部１６は全体の符号化に必要なビット数を計算する。計算より求められた必要ビット数が所定値を超える場合、準占有チャネル群の数を減らすように準占有チャネル群決定部１３を制御する。

最占有チャネル変換係数符号化部１４および準占有チャネル群変換係数符号化部１５における制御としては、例えば符号化に要するビットの割り当てを制御することが考えられる。ビットレート制御部１６は、準占有チャネル群決定部１３の出力結果から、所定のビット量で最も高い聴感品質で符号化するために、最占有チャネル変換係数および準占有チャネル群変換係数をそれぞれ何ビットで符号化すべきかを判断する。

上記第２の実施形態によれば、ビットレート制御部１６は、固定または可変の任意のビットレートを保つように、準占有チャネル群決定部１３より出力された準占有チャネル群インデックス情報に基づいて、準占有チャネル群決定部１３、最占有チャネル変換係数符号化部１４、準占有チャネル群変換係数符号化部１５の少なくとも１つの処理を制御することができ、任意のビットレートで最良の符号化品質を得ることができる。

［第３の実施形態］
続いて、第３の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図３は第３の実施形態に係るマルチチャネル音声音響信号符号化装置１ｃの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置１ｃは、図１のマルチチャネル音声音響信号符号化装置１ａと同じ構成要素から成るが、最占有チャネル変換係数符号化部１４の中間情報および出力符号化データの、一部または全部が、準占有チャネル群変換係数符号化部１５に出力される構成である。以下、最占有チャネル変換係数符号化部１４および準占有チャネル群変換係数符号化部１５の動作について説明する。

準占有チャネル群変換係数符号化部１５は、符号化効率を高めるために最占有チャネル変換係数符号化部１４の中間情報および出力符号化データの、一部または全部を用いる。即ち、中間情報および出力符号化データのうち、一部を用いてもよいし、全部を用いてもよい。以下にその例を示す。

例えば、最占有チャネルの利得情報を、準占有チャネルの利得情報の符号化に用いる。上述の例において、最占有チャネルの利得の（−３ｄＢ）より大きい利得のチャネルを準占有チャネル群として決定した場合、準占有チャネル群と最占有チャネルの利得差は０〜３dＢの範囲に限定される。そこで、準占有チャネル群の利得を符号化する際は、準占有チャネル群の利得の絶対値を符号化する代わりに、準占有チャネル群と最占有チャネルとの利得差を符号化する。この場合、当該利得差は０〜３dＢの範囲に限定されるため、より効率的に圧縮可能である。

さらに情報量を減らすために、最占有チャネルの利得を準占有チャネルの利得として扱うことも考えられる。また、利得に限らず、最占有チャネルと準占有チャネルの間に相関がある場合、その相関を利用して符号化することで、より効率的に圧縮することが可能となる。

上記第３の実施形態によれば、準占有チャネル群変換係数符号化部１５は、最占有チャネル変換係数符号化部１４の中間情報および出力符号化データの、一部または全部を用いることで、より効率的な符号化を行うことができる。

［第４の実施形態］
続いて、第４の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図４は第４の実施形態に係るマルチチャネル音声音響信号符号化装置１ｄの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置１ｄは、図１のマルチチャネル音声音響信号符号化装置１ａと同じ構成要素から成るが、最占有チャネル決定部１２、準占有チャネル群決定部１３、最占有チャネル変換係数符号化部１４、準占有チャネル群変換係数符号化部１５の少なくとも１つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いる。以下、音源定位位置情報の扱いについて説明する。

音源定位位置情報とは、各チャネルの入力信号を再生時にどの位置に仮想定位させるかを決める情報であり、音の到来方位情報を含む１〜３次元の位置情報である。音源定位位置情報は、符号化装置または復号装置においてユーザが任意に設定したものを入力してもよいし、何からの法則に従って予め設定されたものでもよく、その生成方法は問わない。

次に、音源定位位置情報の影響について、例として２チャネルの入力信号ＡおよびＢを符号化する場合について述べる。簡単のため、ある周波数帯域についてのみ説明する。また、Ａの利得を８０dＢ、Ｂの利得を７６dＢとする。最占有チャネル決定部１２は、両チャネルの利得を比較し、Ａを最占有チャネルとして決定したとする。さらに、準占有チャネル群決定部１３は、最占有チャネルとの利得差が３dＢ以内のものを準占有チャネルとして決定するとする。この場合、Ｂは準占有チャネルとして選択されないため、Ｂの信号は符号化されない。ここで、復号装置において、Ａを３時方向、Ｂを３時方向に定位させようとしていた場合、ＢはＡの音によってかき消されやすいため、Ｂの欠落を知覚しにくいため、極端な品質劣化は生じない。しかし、Ａを３時方向、Ｂを９時方向に定位させようとしていた場合、音は左右正反対の位置に存在し、ＡおよびＢを分離して聞き取りやすいため、Ｂの欠落を知覚しやすくなり品質劣化の要因となる。また仮に、復号装置において、Ａを１ｋｍ遠方に、Ｂを１ｍ遠方に定位させようとしていた場合、Ｂの方が実際に聞こえる音は大きくなるため、最占有チャネルにＢを決定すべきだったことになる。

そこで、マルチチャネル音声音響信号符号化装置１ｄでは、音源定位位置情報に基づいて最占有チャネル決定部１２、準占有チャネル群決定部１３、最占有チャネル変換係数符号化部１４、準占有チャネル群変換係数符号化部１５の少なくとも１つを制御する。すなわち、最占有チャネル決定部１２および準占有チャネル群決定部１３では再生音の位置関係に基づいて、品質劣化が生じないように、符号化すべきチャネルを決定する。また、最占有チャネル変換係数符号化部１４および準占有チャネル群変換係数符号化部１５では、再生音の聴感品質をより高くするように符号化に必要なビット数の割り当てを行う。具体的制御方法はこれに限らず、各構成要素は、入力された音源定位位置情報に基づいて動作することで、再生時の位置関係によって生じる聴感品質への影響にも配慮した再生が実現できる。

上記第４の実施形態によれば、最占有チャネル決定部１２、準占有チャネル群決定部１３、最占有チャネル変換係数符号化部１４、準占有チャネル群変換係数符号化部１５の少なくとも１つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることで、再生環境により即した符号化を行うことでより聴感品質の高い再生が実現できる。

［第５の実施形態］
続いて、第５の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図５は第５の実施形態に係るマルチチャネル音声音響信号符号化装置１ｅの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置１ｅは、図１のマルチチャネル音声音響信号符号化装置１ａに対し、過去占有チャネル情報保持部１７を加えた構成である。以下、過去占有チャネル情報保持部１７および準占有チャネル群決定部１３の動作について説明する。

過去占有チャネル情報保持部１７は少なくとも最占有チャネル決定部１２より出力される最占有チャネルインデックス情報を保持し、次回以降の処理時に出力する。過去占有チャネル情報保持部１７は、この他、準占有チャネルインデックス情報、最占有チャネル変換係数、準占有チャネル群変換係数を保持することも考えられる。

準占有チャネル群決定部１３は、時間周波数変換部１１a〜１１xより出力された各チャネルの変換係数、最占有チャネル決定部１２より出力された最占有チャネルインデックス情報、および過去占有チャネル情報保持部１７より出力された過去の占有チャネル情報に基づいて、符号化するチャネルの時間的不連続を防ぐように、準占有チャネルの決定を行う。最占有または準占有として選択されるか否かは、そのチャネルの成分が再生音の中に存在するかしないかを意味しており、これらがフレーム間によって急に切り替わる場合、音の欠落感や歪感を生じやすい。このため、選択の不連続を生じにくくするために、各周波数帯域において、過去に選択されたチャネルは、次回以降の処理でも選択される又は選択されやすくする。具体的方法としては、準占有チャネル決定の際に過去に選択されたチャネルの利得には時間減衰定数を乗じた重みを加えることが考えられるが、これに限らない。これらの処理により、例えば、音の立ち下り区間において急に音が途切れるのを防ぎ、十分に小さい音量になるまで再生されることで聴感品質を高めることができる。

上記第５の実施形態によれば、準占有チャネル群決定部１３は、準占有チャネル群の決定基準の際に、過去占有チャネル情報保持部１７が保持していた過去の少なくとも最占有チャネルインデックス情報を利用することができ、符号化するチャネルの時間的不連続を防ぐことでより聴感品質の高い再生が実現できる。

［第６の実施形態］
続いて、第６の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図６は第６の実施形態に係るマルチチャネル音声音響信号復号装置２ａの構成を示すブロック図である。

第６の実施形態に係るマルチチャネル音声音響信号復号装置２ａは、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定部２１と、入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定部２２と、入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号部２３と、入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号部２４と、最占有チャネル変換係数復号部２３より出力された最占有チャネル変換係数に対し、最占有チャネル音像制御情報決定部２１より出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御部２５と、準占有チャネル群変換係数復号部２４より出力された準占有チャネル群変換係数に対し、準占有チャネル群音像制御情報決定部２２より出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御部２６と、各再生チャネルについて、最占有チャネル音像制御部２５より出力された最占有チャネル変形変換係数と、準占有チャネル群音像制御部２６より出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成部２７a〜２７yと、各変換係数合成部２７a〜２７yより出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換部２８a〜２８yと、を含んで構成されている。以下、各構成について詳細に説明する。

最占有チャネル音像制御情報決定部２１は、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域における最占有チャネルの音像を制御するための音像制御情報を決定する。音像制御情報とは、例えば再生チャネル間の時間差や強度差である。複数のスピーカで再生する場合、時間や強度に差をつけて再生することで、擬似的に音像を制御することができる。また、ステレオヘッドホンで再生する場合にも、右耳と左耳の間で時間や強度に差をつけて再生することで、擬似的に立体感のある再生が実現できる。ヘッドホン再生における音像制御情報として、より立体感のある再生のために頭部伝達関数（HRTF：Head Related Transfer Function）を用いることも可能である。音像制御情報は、演算により決定してもよいし、予め保持しているデータベースの中から選択してもよく、その生成方法は問わない。

準占有チャネル群音像制御情報決定部２２は、最占有チャネル音像制御情報決定部２１と同様に動作し、準占有チャネル群音像制御情報を出力する。

最占有チャネル変換係数復号部２３は、入力された最占有チャネル音響符号化データを復号し最占有チャネル変換係数を出力する。この復号処理は、符号化処理に対応したものであればよく、その形態は一切問わない。

準占有チャネル群変換係数復号部２４は、最占有チャネル変換係数復号部２３と同様に、符号化処理に対応した復号処理によって準占有チャネル群変換係数を出力する。

最占有チャネル音像制御部２５は、最占有チャネル変換係数復号部２３より出力された最占有チャネル変換係数に対し、最占有チャネル音像制御情報決定部２１より出力された最占有チャネル音像制御情報を付加することで音像制御を行う。具体的には、例えば変換係数がDFT係数であり、音像制御情報がHRTFのような伝達関数のDFT係数である場合、両者を複素乗算すればよい。音像制御情報が時間差や強度差である場合も、乗算や加算により変換係数に容易に付加することが可能である。また、ステレオヘッドホンの場合であれば、右耳および左耳についての伝達関数が存在するため、右耳再生用の変形変換係数および左耳再生用の変形変換係数の２チャネルを出力する。同様に、再生装置がM個のスピーカである場合は、Mチャネルの出力が得られる。

準占有チャネル群音像制御部２６は、最占有チャネル音像制御部２５と同様に音像制御を行い、準占有チャネル群変形変換係数を再生チャネル数、出力する。ただし、ある周波数帯域において複数個の準占有チャネルが存在する場合、それぞれのチャネルについて音像制御を行う。このとき、周波数帯域ごとに複数の変形変換係数を１つに合成してもよいし、個別に出力し後述の変換係数合成部２７a〜２７yにおいて合成してもよい。

変換係数合成部２７a〜２７yはそれぞれ、最占有チャネル音像制御部２５より出力された最占有チャネル変形変換係数と、準占有チャネル群音像制御部２６より出力された準占有チャネル群変形変換係数とを合成する。合成方法としては単純加算や、最占有チャネルを強調するような重み付け加算が考えられるが、これに限らない。

周波数時間変換部２８a〜２８yは、各変換係数合成部２７a〜２７yより出力された合成変換係数を周波数領域から時間領域に変換し、各再生チャネルの出力信号を出力する。また、符号化装置においてQMFなどのフィルタバンクが用いられていた場合は、合成フィルタにより出力信号を得る。

以上の処理により、マルチチャネル音声音響信号復号装置２ａは、最占有チャネルインデックス情報、準占有チャネル群インデックス情報、最占有チャネル音響符号化データ、準占有チャネル群音響符号化データを、複数の出力信号に復号することができる。実際の処理においては、出力された信号にさらに窓処理やオーバラップ処理を適用することもあるが、本発明の本質的な部分ではないため省略する。

上記第６の実施形態によれば、最占有チャネル変換係数復号部２３および最占有チャネル音像制御部２５によって、人間の耳に最も聞こえやすい成分を効率的に立体音像として復号するとともに、準占有チャネル群変換係数復号部２４および準占有チャネル群音像制御部２６によって、その他にも聴こえやすい成分を立体音像として復号することで、歪を抑えることができ、聴感品質の高い再生を実現できる。
［第７の実施形態］
続いて、第７の実施形態に係るマルチチャネル音声音響信号復号装置の構成について説明する。図７は第７の実施形態に係るマルチチャネル音声音響信号復号装置２ｂの構成を示すブロック図である。このマルチチャネル音声音響信号復号装置２ｂは、図６のマルチチャネル音声音響信号復号装置２ａと同じ構成要素から成るが、最占有チャネル変換係数復号部２３の中間情報および出力符号化データの、一部または全部が、準占有チャネル群変換係数復号部２４に出力される構成である。以下、最占有チャネル変換係数復号部２３および準占有チャネル群変換係数復号部２４の動作について説明する。

準占有チャネル群変換係数復号部２４は、符号化効率を高めるために、最占有チャネル変換係数復号部２３の中間情報および出力符号化データの、一部または全部を用いる。即ち、中間情報および出力符号化データのうち、一部を用いてもよいし、全部を用いてもよい。その動作例は、前述した図３のマルチチャネル音声音響信号符号化装置１ｃにおける最占有チャネル変換係数符号化部１４および準占有チャネル群変換係数符号化部１５の動作に対応した復号処理となる。

上記第７の実施形態によれば、準占有チャネル群変換係数復号部２４は、最占有チャネル変換係数復号部２３の中間情報および出力符号化データの、一部または全部を用いることで、より効率的な復号を行うことができる。

なお、上述した第１〜第７の実施形態におけるマルチチャネル音声音響信号符号化装置および復号装置は、CPU、RAM、ROM等から構成されるさまざまな情報処理装置（例えばコンピュータ、携帯電話、通信装置、音響機器など）に備えられ、ROM等のメモリに記憶されたプログラムをCPUが実行することによって、動作することになる。

第１の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。第２の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。第３の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。第４の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。第５の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。第６の実施形態に係るマルチチャネル音声音響信号復号装置の構成を示すブロック図である。第７の実施形態に係るマルチチャネル音声音響信号復号装置の構成を示すブロック図である。本発明に係るマルチチャネル音声音響信号符号化方法の基本の手順を示す流れ図である。本発明に係るマルチチャネル音声音響信号復号方法の基本の手順を示す流れ図である。

符号の説明

１ａ、１ｂ、１ｃ、１ｄ、１ｅ…マルチチャネル音声音響信号符号化装置、１１a−１１x…時間周波数変換部、１２…最占有チャネル決定部、１３…準占有チャネル群決定部、１４…最占有チャネル変換係数符号化部、１５…準占有チャネル群変換係数符号化部、１６…ビットレート制御部、１７…過去占有チャネル情報保持部、２ａ、２ｂ…マルチチャネル音声音響信号復号装置、２１…最占有チャネル音像制御情報決定部、２２…準占有チャネル群音像制御情報決定部、２３…最占有チャネル変換係数復号部、２４…準占有チャネル群変換係数復号部、２５…最占有チャネル音像制御部、２６…準占有チャネル群音像制御部、２６…準占有チャネル群音像制御部、２７a−２７y…変換係数合成部、２８a−２８y…周波数時間変換部。

Claims

入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも１つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換手段と、
前記時間周波数変換手段より出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定手段と、
前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定手段と、
前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化手段と、
前記時間周波数変換手段より出力された各チャネルの変換係数と前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化手段と
を備え、
前記最占有チャネル決定手段、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも１つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とするマルチチャネル音声音響信号符号化装置。
前記準占有チャネル群決定手段は、人間の聴覚におけるマスキング効果および聴覚感度の周波数依存性の少なくとも一方に基づいて、前記準占有的なチャネルを決定することを特徴とする
請求項１に記載のマルチチャネル音声音響信号符号化装置。
前記準占有チャネル群決定手段は、各周波数帯域において最占有チャネルとの利得差分が所定値以内のチャネルを、前記準占有的なチャネルとして決定することを特徴とする
請求項１に記載のマルチチャネル音声音響信号符号化装置。
前記準占有チャネル群決定手段は、所定の周波数帯域についてのみ前記準占有的なチャネルを決定することを特徴とする
請求項１〜３の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
前記マルチチャネル音声音響信号符号化装置は、
固定または可変の所定のビットレートで符号化を行うために、前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報に基づいて、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも１つの処理を制御するビットレート制御手段、をさらに備えることを特徴とする
請求項１〜４の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
前記準占有チャネル群変換係数符号化手段は、前記最占有チャネル変換係数符号化手段の中間情報および出力符号化データの、一部または全部を用いることを特徴とする
請求項１〜５の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
前記マルチチャネル音声音響信号符号化装置は、
少なくとも前記最占有チャネル決定手段より出力される最占有チャネルインデックス情報を保持し、次回以降の処理時に前記最占有チャネルインデックス情報を出力する過去占有チャネル情報保持手段をさらに備え、
前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数、前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報、および前記過去占有チャネル情報保持手段より出力された過去の占有チャネル情報に基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力することを特徴とする
請求項１〜６の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報に加え、前記最占有チャネル変換係数符号化手段より出力された前記符号化後の最占有チャネル音響符号化データも基礎として、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定することを特徴とする
請求項１〜７の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定手段と、
入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定手段と、
入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号手段と、
入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号手段と、
前記最占有チャネル変換係数復号手段より出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定手段より出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御手段と、
前記準占有チャネル群変換係数復号手段より出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定手段より出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御手段と、
各再生チャネルについて、前記最占有チャネル音像制御手段より出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御手段より出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成手段と、
前記各変換係数合成手段より出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換手段と
を備えることを特徴とするマルチチャネル音声音響信号復号装置。
前記準占有チャネル群変換係数復号手段は、前記最占有チャネル変換係数復号手段の中間情報および出力符号化データの、一部または全部を用いることを特徴とする
請求項９に記載のマルチチャネル音声音響信号復号装置。
音声音響信号を符号化する装置により実行されるマルチチャネル音声音響信号符号化方法であって、
入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも１つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換ステップと、
前記時間周波数変換ステップにより出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定ステップと、
前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ０個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定ステップと、
前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化ステップと、
前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記準占有チャネル群決定ステップにより出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化ステップと
を備え、
前記最占有チャネル決定ステップ、前記準占有チャネル群決定ステップ、前記最占有チャネル変換係数符号化ステップ、前記準占有チャネル群変換係数符号化ステップの少なくとも１つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とするマルチチャネル音声音響信号符号化方法。
音声音響信号を復号する装置により実行されるマルチチャネル音声音響信号復号方法であって、
入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定ステップと、
入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定ステップと、
入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号ステップと、
入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号ステップと、
前記最占有チャネル変換係数復号ステップにより出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定ステップにより出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御ステップと、
前記準占有チャネル群変換係数復号ステップにより出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定ステップにより出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも２つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御ステップと、
各再生チャネルについて、前記最占有チャネル音像制御ステップにより出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御ステップにより出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成ステップと、
前記各変換係数合成ステップにより出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換ステップと
を備えることを特徴とするマルチチャネル音声音響信号復号方法。