JP5483813B2 - マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法 - Google Patents

マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法 Download PDF

Info

Publication number
JP5483813B2
JP5483813B2 JP2007330311A JP2007330311A JP5483813B2 JP 5483813 B2 JP5483813 B2 JP 5483813B2 JP 2007330311 A JP2007330311 A JP 2007330311A JP 2007330311 A JP2007330311 A JP 2007330311A JP 5483813 B2 JP5483813 B2 JP 5483813B2
Authority
JP
Japan
Prior art keywords
occupied channel
channel
occupied
semi
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007330311A
Other languages
English (en)
Other versions
JP2009151183A (ja
Inventor
真也 飯塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2007330311A priority Critical patent/JP5483813B2/ja
Publication of JP2009151183A publication Critical patent/JP2009151183A/ja
Application granted granted Critical
Publication of JP5483813B2 publication Critical patent/JP5483813B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数チャネルの入力音声音響信号を符号化するマルチチャネル音声音響信号符号化装置および方法、並びに、符号化されたデータを複数の出力音声音響信号に復号するマルチチャネル音声音響信号復号装置および方法に関するものである。
複数チャネルの入力音声音響信号を圧縮し符号化する、マルチチャネル音声音響信号符号化(以下「マルチチャネル符号化」という。)が知られている。多くのマルチチャネル符号化では、チャネル間の相関を利用することで、全ての入力信号を個別に符号化するよりも効率的な圧縮を実現している。
一方で、複数の入力信号を個別に再生するのではなく、ヘッドホンや複数のスピーカを用いて立体音として擬似的にマルチチャネル再生する場合、人間の聴覚特性を利用することで、より効率的な圧縮を実現するBCC(Binaural Cue Coding)がある(下記特許文献1参照)。
これら立体音再生を前提としたマルチチャネル符号化は、臨場感のある映画音声や音楽の再生や多地点音声通信のために有効な技術である。
BCCでは、複数チャネルの入力信号を、全ての入力信号を混合した混合信号と、聴覚情景パラメータと呼ばれる補助情報とに、符号化する。聴覚情景パラメータとは、例えば、それぞれの周波数帯域について、最も占有的なチャネルのインデックス情報である。復号装置では、混合信号と聴覚情景パラメータとから、立体再生音として復号する。すなわち、BCCでは各周波数帯域について、人間の耳が最も聞き取りやすいチャネルの聞こえるべき方向から混合音を流すことによって、擬似的に複数チャネルの音声音響信号に聞こえるように再生する。
このように、BCCでは複数チャネルの音を混合信号と補助情報に符号化できるため、大幅な情報圧縮が可能となる。つまり、例えば64kbpsの信号を4チャネル分伝送するためには256kbpsのビットレートに対応した伝送帯域が必要となるが、1チャネルに混合するBCCを適用することで、ビットレートを(64kbps+数kbps)程度に抑えることが可能となる。
しかし、BCCは高い圧縮率で符号化を実現できる反面、再生品質の劣化が問題となる。すなわち、それぞれの周波数帯域において混合信号を最占有チャネルとして擬似的に再生するBCCでは、最占有チャネル以外のチャネルの利得が低い場合、歪は知覚されにくいが、最占有チャネル以外のチャネルの利得が高い場合には信号の欠落感や歪感が生じる。
そこで、特許文献2では、周波数帯域によってBCCの適用の有無を選択することで、全ての周波数帯域にBCCを適用する場合よりも聴感品質の高い再生を実現している。すなわち、例えば高周波帯域のように品質劣化が比較的許容される周波数帯域ではBCCの適用により複数チャネルの信号を混合し、低周波帯域のように品質劣化が比較的許容されない周波数帯域については、複数チャネルの信号を混合せずに符号化する。
米国特許公報第7116787号B2 特開2004−78183号公報
しかし、上記従来技術に係るマルチチャネル符号化装置は、以下に示すような問題点があった。すなわち、BCCを適用しない周波数帯域に関しては複数チャネルの信号を符号化するために、ビットレートが増加するという問題があった。
そこで本発明は、上述の課題を解決するために、周波数帯域ごとに、最占有的なチャネルの信号と0個以上の可変数な準占有的チャネルの信号をそのチャネルインデックス情報とともに符号化することで、ビットレートを抑えながら聴感品質の高い再生を実現するよう符号化/復号することを目的とする。
本発明では、上記特許文献1や特許文献2のように複数チャネルの信号を混合しない。これは、混合された複数チャネルの信号を再生すると、本来の最占有チャネルの信号の音以外のチャネルの音が歪として知覚されやすいためである。本発明では、決定した最占有チャネル情報および準占有チャネル群情報を用い、該当する信号のみを選択し符号化するによって聴感品質の高い再生を実現することを特徴とする。すなわち、信号の混合を前提とするBCCとは本質的に異なった発明である。
上述の課題を解決するために、本発明のマルチチャネル音声音響信号符号化装置は、入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも1つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換手段と、前記時間周波数変換手段より出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定手段と、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定手段と、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化手段と、前記時間周波数変換手段より出力された各チャネルの変換係数と前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化手段とを備え、前記最占有チャネル決定手段、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも1つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とする。
この発明によれば、最占有チャネル決定手段および最占有チャネル変換係数符号化手段によって、人間の耳に最も聞こえやすい成分を効率的に符号化するとともに、準占有チャネル群決定手段および準占有チャネル群変換係数符号化手段によって、その他にも聴こえやすい成分を符号化することで、歪を抑えることができ、聴感品質の高い再生を実現できる。また、準占有チャネル群決定手段は、各周波数帯域について再生が必要と判断される占有チャネル群を0個以上可変数に決定することで、不必要なチャネルの符号化を省くことができ、ビットレートの増加を防ぐことができる。また、この発明によれば、最占有チャネル決定手段、準占有チャネル群決定手段、最占有チャネル変換係数符号化手段、準占有チャネル群変換係数符号化手段の少なくとも1つは、復号装置において入力された各チャネルの音声音響信号をどの位置に定位し、再生するかを表す音源定位位置情報を用いることができ、再生環境により即した符号化を行うことでより聴感品質の高い再生が実現できる。
なお、マルチチャネル音声音響信号符号化装置に係る発明は、方法に係る発明として捉えることもでき、図8の流れ図とともに以下のように記述することができる。本発明のマルチチャネル音声音響信号符号化方法は、音声音響信号を符号化する装置により実行されるマルチチャネル音声音響信号符号化方法であって、入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも1つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換ステップ(図8のステップS1)と、前記時間周波数変換ステップにより出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定ステップ(ステップS2)と、前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定ステップ(ステップS3)と、前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化ステップ(ステップS4)と、前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記準占有チャネル群決定ステップにより出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化ステップ(ステップS5)と、を備え、前記最占有チャネル決定ステップ、前記準占有チャネル群決定ステップ、前記最占有チャネル変換係数符号化ステップ、前記準占有チャネル群変換係数符号化ステップの少なくとも1つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とする。
また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、人間の聴覚におけるマスキング効果および聴覚感度の周波数依存性の少なくとも一方に基づいて、前記準占有的なチャネルを決定することが好ましい。
この発明によれば、準占有チャネル群決定手段は、人間の聴覚系において、大きい音成分によってその近傍の小さい音成分が聴こえなくなるマスキング効果や、周波数による聴覚感度の大小を準占有チャネル群の決定基準に反映することでより人間の聴覚特性に近い決定ができ、より聴感品質の高い再生が実現できる。
また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、各周波数帯域において最占有チャネルとの利得差分が所定値以内のチャネルを、前記準占有的なチャネルとして決定することが好ましい。
この発明によれば、準占有チャネル群決定手段は、各入力チャネルについて周波数帯域ごとの利得の比較により準占有チャネル群を決定することができ、より少ない演算量で準占有チャネル群を決定することができる。
また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、所定の周波数帯域についてのみ前記準占有的なチャネルを決定することが好ましい。
この発明によれば、準占有チャネル群決定手段は、所定の周波数帯域のみについて動作することができ、より少ない演算量で符号化することができる。
また、本発明のマルチチャネル音声音響信号符号化装置は、固定または可変の所定のビットレートで符号化を行うために、前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報に基づいて、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも1つの処理を制御するビットレート制御手段、をさらに備えることが好ましい。
この発明によれば、ビットレート制御手段は固定または可変の任意のビットレートを保つように、準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報に基づいて、準占有チャネル群決定手段、最占有チャネル変換係数符号化手段、準占有チャネル群変換係数符号化手段の少なくとも1つの処理を制御することができ、任意のビットレートで最良の符号化品質を得ることができる。
また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群変換係数符号化手段は、前記最占有チャネル変換係数符号化手段の中間情報および出力符号化データの、一部または全部を用いることが好ましい。
この発明によれば、準占有チャネル群変換係数符号化手段は、最占有チャネル変換係数符号化手段の中間情報および出力符号化データの、一部または全部を用いることができ、より効率的な符号化を行うことができる。
また、本発明のマルチチャネル音声音響信号符号化装置は、少なくとも前記最占有チャネル決定手段より出力される最占有チャネルインデックス情報を保持し、次回以降の処理時に前記最占有チャネルインデックス情報を出力する過去占有チャネル情報保持手段をさらに備え、前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数、前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報、および前記過去占有チャネル情報保持手段より出力された過去の占有チャネル情報に基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力することが好ましい。
この発明によれば、準占有チャネル群決定手段は準占有チャネル群の決定基準の際に、過去占有チャネル情報保持手段が保持していた過去の少なくとも最占有チャネルインデックス情報を利用することができ、符号化するチャネルの時間的不連続を防ぐことでより聴感品質の高い再生が実現できる。
また、本発明のマルチチャネル音声音響信号符号化装置では、前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報に加え、前記最占有チャネル変換係数符号化手段より出力された前記符号化後の最占有チャネル音響符号化データも基礎として、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定することが好ましい。
この発明によれば、最占有チャネル変換係数符号化手段より出力された符号化後の最占有チャネル音響符号化データも反映可能になるため、復号装置での再生環境により近い条件で、準占有的なチャネルを決定することができ、聴覚品質をより高めることができる。
本発明のマルチチャネル音声音響信号復号装置は、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定手段と、入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定手段と、入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号手段と、入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号手段と、前記最占有チャネル変換係数復号手段より出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定手段より出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御手段と、前記準占有チャネル群変換係数復号手段より出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定手段より出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御手段と、各再生チャネルについて、前記最占有チャネル音像制御手段より出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御手段より出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成手段と、前記各変換係数合成手段より出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換手段とを備えることを特徴とする。
この発明によれば、最占有チャネル変換係数復号手段および最占有チャネル音像制御手段によって、人間の耳に最も聞こえやすい成分を効率的に立体音像として復号するとともに、準占有チャネル群変換係数復号手段および準占有チャネル群音像制御手段によって、その他にも聴こえやすい成分を立体音像として復号することで、歪を抑えることができ、聴感品質の高い再生を実現できる。
なお、マルチチャネル音声音響信号復号装置に係る発明は、方法に係る発明として捉えることもでき、図9の流れ図とともに以下のように記述することができる。本発明のマルチチャネル音声音響信号復号方法は、音声音響信号を復号する装置により実行されるマルチチャネル音声音響信号復号方法であって、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定ステップ(図9のステップS11)と、入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定ステップ(ステップS13)と、入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号ステップ(ステップS12)と、入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号ステップ(ステップS14)と、前記最占有チャネル変換係数復号ステップにより出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定ステップにより出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御ステップ(ステップS15)と、前記準占有チャネル群変換係数復号ステップにより出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定ステップにより出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御ステップ(ステップS16)と、各再生チャネルについて、前記最占有チャネル音像制御ステップにより出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御ステップにより出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成ステップ(ステップS17)と、前記各変換係数合成ステップにより出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換ステップ(ステップS18)と、を備えることを特徴とする。
また、本発明のマルチチャネル音声音響信号復号装置では、前記準占有チャネル群変換係数復号手段は、前記最占有チャネル変換係数復号手段の中間情報および出力符号化データの、一部または全部を用いることが好ましい。
この発明によれば、準占有チャネル群変換係数復号手段は、最占有チャネル変換係数復号手段の中間情報および出力符号化データの、一部または全部を用いることができ、より効率的な復号を行うことができる。
本発明によれば、複数チャネルの音声音響信号に対して、ビットレートを抑えながら聴感品質の高い再生を実現するよう符号化/復号することができる。
本発明は、一実施形態のために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
[第1の実施形態]
まず、第1の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図1は第1の実施形態に係るマルチチャネル音声音響信号符号化装置1aの構成を示すブロック図である。
図1に示すように、第1の実施形態に係るマルチチャネル音声音響信号符号化装置1aは、入力された複数の音声音響信号を時間領域から周波数領域に変換し、少なくとも1つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換部11a〜11xと、時間周波数変換部11a〜11xより出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネル(以下「最占有チャネル」という)を決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定部12と、時間周波数変換部11a〜11xより出力された各チャネルの変換係数と最占有チャネル決定部12より出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネル(以下「準占有チャネル群」という)を決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定部13と、時間周波数変換部11a〜11xより出力された各チャネルの変換係数と最占有チャネル決定部12より出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化部14と、時間周波数変換部11a〜11xより出力された各チャネルの変換係数と準占有チャネル群決定部13より出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有チャネル群の変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化部15と、を含んで構成されている。以下、各構成について詳細に説明する。
時間周波数変換部11a〜11xは、入力された時間領域の音声音響信号をそれぞれ周波数領域に変換し、少なくとも1つの周波数帯域に分割した形式で変換係数を出力する。この処理は、最占有チャネルおよび準占有チャネル群を少なくとも1つの周波数帯域ごとに決定するためのものである。周波数領域への変換方法として離散フーリエ変換(DFT:Discrete Fourier Transform)、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)などの直交基底変換が考えられる。ただし、この処理の目的は任意の周波数帯域ごとに分割可能にすることであり、上述の直交基底変換に限らず、直交鏡像フィルタ(QMF:Quadrature Mirror Filter)や多相フィルタバンクなどのフィルタバンクでも良い。フィルタバンクを用いる場合は、以降の説明において、変換係数をフィルタ出力として読み替える。ここで、周波数帯域の設定方法としては、例えば、均一の周波数帯域幅で16等分することや、人間の聴覚機構に近い臨界帯域幅に分割することが考えられるが、その設定方法は問わない。また、入力信号が既にこれらの処理を受けている場合は、時間周波数変換部11a〜11xの処理は省略することができる。
また、時間周波数変換部11a〜11xにおいて適用する変換法は一種類のみに限定されず、最占有チャネル決定部12、準占有チャネル群決定部13、最占有チャネル変換係数符号化部14、準占有チャネル群変換係数符号化部15の各部に対する出力を得るために、それぞれ異なる種類の変換法を適用することも考えられる。例えば、最/準占有チャネルの決定にはQMFの出力を、変換係数符号化にはMDCTの出力を用いることもできる。ただし、複数種類の変換法を用いる場合、当然に演算量は増大する。
最占有チャネル決定部12は、入力された複数チャネルの変換係数に基づいて、各周波数帯域のそれぞれについて最も占有的なチャネルを決定する。最も占有的とは、最も聴覚的に重要であることを意味しており、そのチャネルの決定方法としては、各周波数帯域において、変換係数の絶対値の最大値が最も大きいチャネルを選択する方法や、変換係数の利得が最も大きいチャネルを選択する方法が挙げられるがこれに限らない。また、出力される情報は、各周波数帯域についての最占有チャネルがどれかを示す情報であればよく、チャネルのインデックスが一般的に考えられるが、これに限らない。
準占有チャネル群決定部13は、時間周波数変換部11a〜11xより出力された各チャネルの変換係数と最占有チャネル決定部12より出力された最占有チャネルインデックス情報に基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、準占有チャネル群インデックス情報を出力する。準占有的とは、最占有ではないが重要であるということを意味しており、そのチャネルの決定方法として以下に2つの例を示す。ただし、その決定方法はこれらに限らない。また、出力される情報は、各周波数帯域についての準占有チャネル群がどれかを示す情報であればよく、チャネルのインデックスが一般的に考えられるが、これに限らない。
チャネルの決定方法の第1の例は、最占有チャネルの成分によってマスキングされないチャネルを全て選択する方法である。この方法では、再生音声の聴感品質は高い反面、多くの情報を符号化する必要がある。また、厳密なマスキング判定を行うためには演算量が増大する可能性がある。
チャネルの決定方法の第2の例は、最占有チャネルの利得との利得差の小さいチャネルを選択する方法である。例えば、最占有チャネルの利得の(−3dB)より大きい利得のチャネルを準占有チャネルとして決定する。この方法では、マスキング判定を行う場合と比較して少ない演算量で処理可能である。
ここで、最占有チャネルの成分および利得に関する情報は、時間周波数変換部11a〜11xより出力された変換係数のほか、後述の最占有チャネル変換係数符号化部14により量子化された後の出力変換係数を利用することも考えられる。これにより、最占有チャネル変換係数符号化部14による最占有チャネルの成分および利得の値の変更を反映可能になるため、復号装置での再生環境により近い条件で準占有チャネル群を決定でき、聴覚品質を高めることができる。
また、準占有チャネル群の決定方法は、各周波数帯域について独立に行う必要はなく、全ての周波数帯域およびチャネルにわたって、上述の方法などにより聴覚的に重要な順位付けをし、重要なものから順に準占有チャネル群として選択することも考えられる。この際、人間の聴覚における感度の周波数依存性に基づいた重み付け判定を行うことで、より高い聴感品質の再生が可能となる。
準占有チャネル群決定部13においては、各周波数帯域について0個以上の可変数分のチャネルを決定する。すなわち、周波数帯域によっては、準占有チャネルが存在しないこともあり得る。準占有チャネルの個数の上限については、入力チャネル数に対応するが、ビットレートを増大させないように予め任意の数に制限することも可能である。また、その制限数は周波数帯域によって異なっても当然に良い。
また、準占有チャネル群決定部13において、所定の周波数帯域のみについて準占有チャネル群を決定することが考えられる。たとえば、高周波帯域においては人間の聴覚は感度が低下するため、複数のチャネルを忠実に再現しても聞き分けることができない。そこで、所定より低い周波数帯域についてのみ準占有チャネル群の存在を許すように限定することで、ビットレートや符号化にかかる演算量を抑えることが可能となる。
最占有チャネル変換係数符号化部14は、時間周波数変換部11a〜11xより出力された各チャネルの変換係数と最占有チャネル決定部12より出力された最占有チャネルインデックス情報に基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し最占有チャネル音響符号化データを出力する。この符号化方法としては、変換係数を任意の周波数帯域に分割し、スケーリングした後にスカラ量子化し、量子化値をエントロピー符号化するなどの一般的な音響符号化の手法を用いるなど、その形態は一切問わない。
準占有チャネル群変換係数符号化部15は、時間周波数変換部11a〜11xより出力された各チャネルの変換係数と準占有チャネル群決定部13より出力された準占有チャネル群インデックス情報に基づいて、該当する周波数帯域の準占有チャネル群の変換係数を符号化し準占有チャネル群音響符号化データを出力する。この符号化方法の形態は一切問わない。
以上の処理により、マルチチャネル音声音響信号符号化装置は、複数の入力信号を、最占有チャネルインデックス情報、準占有チャネル群インデックス情報、最占有チャネル音響符号化データ、準占有チャネル群音響符号化データに符号化することができる。実際の処理においては、出力された情報をさらにエントロピー符号化により圧縮したり、多重化により1系統のデータに集約したりすることもあるが、本発明の本質的な部分ではないため省略する。
上記第1の実施形態によれば、最占有チャネル決定部12および最占有チャネル変換係数符号化部14によって、人間の耳に最も聞こえやすい成分を効率的に符号化するとともに、準占有チャネル群決定部13および準占有チャネル群変換係数符号化部15によって、その他にも聴こえやすい成分を符号化することで、歪を抑えることができ、聴感品質の高い再生を実現できる。また、準占有チャネル群決定部13は、各周波数帯域について再生が必要と判断される占有チャネル群を0個以上可変数に決定することで、不必要なチャネルの符号化を省くことができ、ビットレートの増加を防ぐことができる。
また、準占有チャネル群決定部13は、人間の聴覚におけるマスキング効果および聴覚感度の周波数依存性の少なくとも一方に基づいて準占有的チャネル群を決定するため、準占有チャネル群決定部13は、人間の聴覚系において、大きい音成分によってその近傍の小さい音成分が聴こえなくなるマスキング効果や、周波数による聴覚感度の大小を、準占有チャネル群の決定基準に反映することができ、より人間の聴覚特性に近い決定ができ、より聴感品質の高い再生が実現できる。
また、準占有チャネル群決定部13は、各周波数帯域において最占有チャネルとの利得差分が所定値(一例として3dB)以内のチャネルを、準占有的チャネル群として決定するため、より少ない演算量で準占有チャネル群を決定することができる。
また、準占有チャネル群決定部13が、所定の周波数帯域(例えば、所定より低い周波数帯域)のみについて準占有チャネル群を決定する場合、ビットレートや符号化にかかる演算量を抑えることが可能となる。
[第2の実施形態]
続いて、第2の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図2は第2の実施形態に係るマルチチャネル音声音響信号符号化装置1bの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置1bは、図1のマルチチャネル音声音響信号符号化装置1aに対し、ビットレート制御部16を加えた構成である。以下、ビットレート制御部16の動作について説明する。
ビットレート制御部16は、固定または可変の所定のビットレートで符号化を行うために、準占有チャネル群決定部13より出力された準占有チャネル群インデックス情報に基づいて、準占有チャネル群決定部13、最占有チャネル変換係数符号化部14、準占有チャネル群変換係数符号化部15の少なくとも1つの処理を制御する。次に、この制御の具体的方法に関しての例を挙げる。ただし、制御方法はこれに限ったものではない。
準占有チャネル群決定部13における制御としては、例えば準占有チャネル群として決定されるチャネル数の制限が考えられる。例えば、準占有チャネル群の決定結果をビットレート制御部16に出力し、ビットレート制御部16は全体の符号化に必要なビット数を計算する。計算より求められた必要ビット数が所定値を超える場合、準占有チャネル群の数を減らすように準占有チャネル群決定部13を制御する。
最占有チャネル変換係数符号化部14および準占有チャネル群変換係数符号化部15における制御としては、例えば符号化に要するビットの割り当てを制御することが考えられる。ビットレート制御部16は、準占有チャネル群決定部13の出力結果から、所定のビット量で最も高い聴感品質で符号化するために、最占有チャネル変換係数および準占有チャネル群変換係数をそれぞれ何ビットで符号化すべきかを判断する。
上記第2の実施形態によれば、ビットレート制御部16は、固定または可変の任意のビットレートを保つように、準占有チャネル群決定部13より出力された準占有チャネル群インデックス情報に基づいて、準占有チャネル群決定部13、最占有チャネル変換係数符号化部14、準占有チャネル群変換係数符号化部15の少なくとも1つの処理を制御することができ、任意のビットレートで最良の符号化品質を得ることができる。
[第3の実施形態]
続いて、第3の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図3は第3の実施形態に係るマルチチャネル音声音響信号符号化装置1cの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置1cは、図1のマルチチャネル音声音響信号符号化装置1aと同じ構成要素から成るが、最占有チャネル変換係数符号化部14の中間情報および出力符号化データの、一部または全部が、準占有チャネル群変換係数符号化部15に出力される構成である。以下、最占有チャネル変換係数符号化部14および準占有チャネル群変換係数符号化部15の動作について説明する。
準占有チャネル群変換係数符号化部15は、符号化効率を高めるために最占有チャネル変換係数符号化部14の中間情報および出力符号化データの、一部または全部を用いる。即ち、中間情報および出力符号化データのうち、一部を用いてもよいし、全部を用いてもよい。以下にその例を示す。
例えば、最占有チャネルの利得情報を、準占有チャネルの利得情報の符号化に用いる。上述の例において、最占有チャネルの利得の(−3dB)より大きい利得のチャネルを準占有チャネル群として決定した場合、準占有チャネル群と最占有チャネルの利得差は0〜3dBの範囲に限定される。そこで、準占有チャネル群の利得を符号化する際は、準占有チャネル群の利得の絶対値を符号化する代わりに、準占有チャネル群と最占有チャネルとの利得差を符号化する。この場合、当該利得差は0〜3dBの範囲に限定されるため、より効率的に圧縮可能である。
さらに情報量を減らすために、最占有チャネルの利得を準占有チャネルの利得として扱うことも考えられる。また、利得に限らず、最占有チャネルと準占有チャネルの間に相関がある場合、その相関を利用して符号化することで、より効率的に圧縮することが可能となる。
上記第3の実施形態によれば、準占有チャネル群変換係数符号化部15は、最占有チャネル変換係数符号化部14の中間情報および出力符号化データの、一部または全部を用いることで、より効率的な符号化を行うことができる。
[第4の実施形態]
続いて、第4の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図4は第4の実施形態に係るマルチチャネル音声音響信号符号化装置1dの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置1dは、図1のマルチチャネル音声音響信号符号化装置1aと同じ構成要素から成るが、最占有チャネル決定部12、準占有チャネル群決定部13、最占有チャネル変換係数符号化部14、準占有チャネル群変換係数符号化部15の少なくとも1つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いる。以下、音源定位位置情報の扱いについて説明する。
音源定位位置情報とは、各チャネルの入力信号を再生時にどの位置に仮想定位させるかを決める情報であり、音の到来方位情報を含む1〜3次元の位置情報である。音源定位位置情報は、符号化装置または復号装置においてユーザが任意に設定したものを入力してもよいし、何からの法則に従って予め設定されたものでもよく、その生成方法は問わない。
次に、音源定位位置情報の影響について、例として2チャネルの入力信号AおよびBを符号化する場合について述べる。簡単のため、ある周波数帯域についてのみ説明する。また、Aの利得を80dB、Bの利得を76dBとする。最占有チャネル決定部12は、両チャネルの利得を比較し、Aを最占有チャネルとして決定したとする。さらに、準占有チャネル群決定部13は、最占有チャネルとの利得差が3dB以内のものを準占有チャネルとして決定するとする。この場合、Bは準占有チャネルとして選択されないため、Bの信号は符号化されない。ここで、復号装置において、Aを3時方向、Bを3時方向に定位させようとしていた場合、BはAの音によってかき消されやすいため、Bの欠落を知覚しにくいため、極端な品質劣化は生じない。しかし、Aを3時方向、Bを9時方向に定位させようとしていた場合、音は左右正反対の位置に存在し、AおよびBを分離して聞き取りやすいため、Bの欠落を知覚しやすくなり品質劣化の要因となる。また仮に、復号装置において、Aを1km遠方に、Bを1m遠方に定位させようとしていた場合、Bの方が実際に聞こえる音は大きくなるため、最占有チャネルにBを決定すべきだったことになる。
そこで、マルチチャネル音声音響信号符号化装置1dでは、音源定位位置情報に基づいて最占有チャネル決定部12、準占有チャネル群決定部13、最占有チャネル変換係数符号化部14、準占有チャネル群変換係数符号化部15の少なくとも1つを制御する。すなわち、最占有チャネル決定部12および準占有チャネル群決定部13では再生音の位置関係に基づいて、品質劣化が生じないように、符号化すべきチャネルを決定する。また、最占有チャネル変換係数符号化部14および準占有チャネル群変換係数符号化部15では、再生音の聴感品質をより高くするように符号化に必要なビット数の割り当てを行う。具体的制御方法はこれに限らず、各構成要素は、入力された音源定位位置情報に基づいて動作することで、再生時の位置関係によって生じる聴感品質への影響にも配慮した再生が実現できる。
上記第4の実施形態によれば、最占有チャネル決定部12、準占有チャネル群決定部13、最占有チャネル変換係数符号化部14、準占有チャネル群変換係数符号化部15の少なくとも1つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることで、再生環境により即した符号化を行うことでより聴感品質の高い再生が実現できる。
[第5の実施形態]
続いて、第5の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図5は第5の実施形態に係るマルチチャネル音声音響信号符号化装置1eの構成を示すブロック図である。このマルチチャネル音声音響信号符号化装置1eは、図1のマルチチャネル音声音響信号符号化装置1aに対し、過去占有チャネル情報保持部17を加えた構成である。以下、過去占有チャネル情報保持部17および準占有チャネル群決定部13の動作について説明する。
過去占有チャネル情報保持部17は少なくとも最占有チャネル決定部12より出力される最占有チャネルインデックス情報を保持し、次回以降の処理時に出力する。過去占有チャネル情報保持部17は、この他、準占有チャネルインデックス情報、最占有チャネル変換係数、準占有チャネル群変換係数を保持することも考えられる。
準占有チャネル群決定部13は、時間周波数変換部11a〜11xより出力された各チャネルの変換係数、最占有チャネル決定部12より出力された最占有チャネルインデックス情報、および過去占有チャネル情報保持部17より出力された過去の占有チャネル情報に基づいて、符号化するチャネルの時間的不連続を防ぐように、準占有チャネルの決定を行う。最占有または準占有として選択されるか否かは、そのチャネルの成分が再生音の中に存在するかしないかを意味しており、これらがフレーム間によって急に切り替わる場合、音の欠落感や歪感を生じやすい。このため、選択の不連続を生じにくくするために、各周波数帯域において、過去に選択されたチャネルは、次回以降の処理でも選択される又は選択されやすくする。具体的方法としては、準占有チャネル決定の際に過去に選択されたチャネルの利得には時間減衰定数を乗じた重みを加えることが考えられるが、これに限らない。これらの処理により、例えば、音の立ち下り区間において急に音が途切れるのを防ぎ、十分に小さい音量になるまで再生されることで聴感品質を高めることができる。
上記第5の実施形態によれば、準占有チャネル群決定部13は、準占有チャネル群の決定基準の際に、過去占有チャネル情報保持部17が保持していた過去の少なくとも最占有チャネルインデックス情報を利用することができ、符号化するチャネルの時間的不連続を防ぐことでより聴感品質の高い再生が実現できる。
[第6の実施形態]
続いて、第6の実施形態に係るマルチチャネル音声音響信号符号化装置の構成について説明する。図6は第6の実施形態に係るマルチチャネル音声音響信号復号装置2aの構成を示すブロック図である。
第6の実施形態に係るマルチチャネル音声音響信号復号装置2aは、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定部21と、入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定部22と、入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号部23と、入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号部24と、最占有チャネル変換係数復号部23より出力された最占有チャネル変換係数に対し、最占有チャネル音像制御情報決定部21より出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御部25と、準占有チャネル群変換係数復号部24より出力された準占有チャネル群変換係数に対し、準占有チャネル群音像制御情報決定部22より出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御部26と、各再生チャネルについて、最占有チャネル音像制御部25より出力された最占有チャネル変形変換係数と、準占有チャネル群音像制御部26より出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成部27a〜27yと、各変換係数合成部27a〜27yより出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換部28a〜28yと、を含んで構成されている。以下、各構成について詳細に説明する。
最占有チャネル音像制御情報決定部21は、入力された最占有チャネルインデックス情報に基づいて、各周波数帯域における最占有チャネルの音像を制御するための音像制御情報を決定する。音像制御情報とは、例えば再生チャネル間の時間差や強度差である。複数のスピーカで再生する場合、時間や強度に差をつけて再生することで、擬似的に音像を制御することができる。また、ステレオヘッドホンで再生する場合にも、右耳と左耳の間で時間や強度に差をつけて再生することで、擬似的に立体感のある再生が実現できる。ヘッドホン再生における音像制御情報として、より立体感のある再生のために頭部伝達関数(HRTF:Head Related Transfer Function)を用いることも可能である。音像制御情報は、演算により決定してもよいし、予め保持しているデータベースの中から選択してもよく、その生成方法は問わない。
準占有チャネル群音像制御情報決定部22は、最占有チャネル音像制御情報決定部21と同様に動作し、準占有チャネル群音像制御情報を出力する。
最占有チャネル変換係数復号部23は、入力された最占有チャネル音響符号化データを復号し最占有チャネル変換係数を出力する。この復号処理は、符号化処理に対応したものであればよく、その形態は一切問わない。
準占有チャネル群変換係数復号部24は、最占有チャネル変換係数復号部23と同様に、符号化処理に対応した復号処理によって準占有チャネル群変換係数を出力する。
最占有チャネル音像制御部25は、最占有チャネル変換係数復号部23より出力された最占有チャネル変換係数に対し、最占有チャネル音像制御情報決定部21より出力された最占有チャネル音像制御情報を付加することで音像制御を行う。具体的には、例えば変換係数がDFT係数であり、音像制御情報がHRTFのような伝達関数のDFT係数である場合、両者を複素乗算すればよい。音像制御情報が時間差や強度差である場合も、乗算や加算により変換係数に容易に付加することが可能である。また、ステレオヘッドホンの場合であれば、右耳および左耳についての伝達関数が存在するため、右耳再生用の変形変換係数および左耳再生用の変形変換係数の2チャネルを出力する。同様に、再生装置がM個のスピーカである場合は、Mチャネルの出力が得られる。
準占有チャネル群音像制御部26は、最占有チャネル音像制御部25と同様に音像制御を行い、準占有チャネル群変形変換係数を再生チャネル数、出力する。ただし、ある周波数帯域において複数個の準占有チャネルが存在する場合、それぞれのチャネルについて音像制御を行う。このとき、周波数帯域ごとに複数の変形変換係数を1つに合成してもよいし、個別に出力し後述の変換係数合成部27a〜27yにおいて合成してもよい。
変換係数合成部27a〜27yはそれぞれ、最占有チャネル音像制御部25より出力された最占有チャネル変形変換係数と、準占有チャネル群音像制御部26より出力された準占有チャネル群変形変換係数とを合成する。合成方法としては単純加算や、最占有チャネルを強調するような重み付け加算が考えられるが、これに限らない。
周波数時間変換部28a〜28yは、各変換係数合成部27a〜27yより出力された合成変換係数を周波数領域から時間領域に変換し、各再生チャネルの出力信号を出力する。また、符号化装置においてQMFなどのフィルタバンクが用いられていた場合は、合成フィルタにより出力信号を得る。
以上の処理により、マルチチャネル音声音響信号復号装置2aは、最占有チャネルインデックス情報、準占有チャネル群インデックス情報、最占有チャネル音響符号化データ、準占有チャネル群音響符号化データを、複数の出力信号に復号することができる。実際の処理においては、出力された信号にさらに窓処理やオーバラップ処理を適用することもあるが、本発明の本質的な部分ではないため省略する。
上記第6の実施形態によれば、最占有チャネル変換係数復号部23および最占有チャネル音像制御部25によって、人間の耳に最も聞こえやすい成分を効率的に立体音像として復号するとともに、準占有チャネル群変換係数復号部24および準占有チャネル群音像制御部26によって、その他にも聴こえやすい成分を立体音像として復号することで、歪を抑えることができ、聴感品質の高い再生を実現できる。
[第7の実施形態]
続いて、第7の実施形態に係るマルチチャネル音声音響信号復号装置の構成について説明する。図7は第7の実施形態に係るマルチチャネル音声音響信号復号装置2bの構成を示すブロック図である。このマルチチャネル音声音響信号復号装置2bは、図6のマルチチャネル音声音響信号復号装置2aと同じ構成要素から成るが、最占有チャネル変換係数復号部23の中間情報および出力符号化データの、一部または全部が、準占有チャネル群変換係数復号部24に出力される構成である。以下、最占有チャネル変換係数復号部23および準占有チャネル群変換係数復号部24の動作について説明する。
準占有チャネル群変換係数復号部24は、符号化効率を高めるために、最占有チャネル変換係数復号部23の中間情報および出力符号化データの、一部または全部を用いる。即ち、中間情報および出力符号化データのうち、一部を用いてもよいし、全部を用いてもよい。その動作例は、前述した図3のマルチチャネル音声音響信号符号化装置1cにおける最占有チャネル変換係数符号化部14および準占有チャネル群変換係数符号化部15の動作に対応した復号処理となる。
上記第7の実施形態によれば、準占有チャネル群変換係数復号部24は、最占有チャネル変換係数復号部23の中間情報および出力符号化データの、一部または全部を用いることで、より効率的な復号を行うことができる。
なお、上述した第1〜第7の実施形態におけるマルチチャネル音声音響信号符号化装置および復号装置は、CPU、RAM、ROM等から構成されるさまざまな情報処理装置(例えばコンピュータ、携帯電話、通信装置、音響機器など)に備えられ、ROM等のメモリに記憶されたプログラムをCPUが実行することによって、動作することになる。
第1の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。 第2の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。 第3の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。 第4の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。 第5の実施形態に係るマルチチャネル音声音響信号符号化装置の構成を示すブロック図である。 第6の実施形態に係るマルチチャネル音声音響信号復号装置の構成を示すブロック図である。 第7の実施形態に係るマルチチャネル音声音響信号復号装置の構成を示すブロック図である。 本発明に係るマルチチャネル音声音響信号符号化方法の基本の手順を示す流れ図である。 本発明に係るマルチチャネル音声音響信号復号方法の基本の手順を示す流れ図である。
符号の説明
1a、1b、1c、1d、1e…マルチチャネル音声音響信号符号化装置、11a−11x…時間周波数変換部、12…最占有チャネル決定部、13…準占有チャネル群決定部、14…最占有チャネル変換係数符号化部、15…準占有チャネル群変換係数符号化部、16…ビットレート制御部、17…過去占有チャネル情報保持部、2a、2b…マルチチャネル音声音響信号復号装置、21…最占有チャネル音像制御情報決定部、22…準占有チャネル群音像制御情報決定部、23…最占有チャネル変換係数復号部、24…準占有チャネル群変換係数復号部、25…最占有チャネル音像制御部、26…準占有チャネル群音像制御部、26…準占有チャネル群音像制御部、27a−27y…変換係数合成部、28a−28y…周波数時間変換部。

Claims (12)

  1. 入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも1つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換手段と、
    前記時間周波数変換手段より出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定手段と、
    前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定手段と、
    前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化手段と、
    前記時間周波数変換手段より出力された各チャネルの変換係数と前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化手段と
    を備え
    前記最占有チャネル決定手段、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも1つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とするマルチチャネル音声音響信号符号化装置。
  2. 前記準占有チャネル群決定手段は、人間の聴覚におけるマスキング効果および聴覚感度の周波数依存性の少なくとも一方に基づいて、前記準占有的なチャネルを決定することを特徴とする
    請求項1に記載のマルチチャネル音声音響信号符号化装置。
  3. 前記準占有チャネル群決定手段は、各周波数帯域において最占有チャネルとの利得差分が所定値以内のチャネルを、前記準占有的なチャネルとして決定することを特徴とする
    請求項1に記載のマルチチャネル音声音響信号符号化装置。
  4. 前記準占有チャネル群決定手段は、所定の周波数帯域についてのみ前記準占有的なチャネルを決定することを特徴とする
    請求項1〜3の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
  5. 前記マルチチャネル音声音響信号符号化装置は、
    固定または可変の所定のビットレートで符号化を行うために、前記準占有チャネル群決定手段より出力された準占有チャネル群インデックス情報に基づいて、前記準占有チャネル群決定手段、前記最占有チャネル変換係数符号化手段、前記準占有チャネル群変換係数符号化手段の少なくとも1つの処理を制御するビットレート制御手段、をさらに備えることを特徴とする
    請求項1〜4の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
  6. 前記準占有チャネル群変換係数符号化手段は、前記最占有チャネル変換係数符号化手段の中間情報および出力符号化データの、一部または全部を用いることを特徴とする
    請求項1〜5の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
  7. 前記マルチチャネル音声音響信号符号化装置は、
    少なくとも前記最占有チャネル決定手段より出力される最占有チャネルインデックス情報を保持し、次回以降の処理時に前記最占有チャネルインデックス情報を出力する過去占有チャネル情報保持手段をさらに備え、
    前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数、前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報、および前記過去占有チャネル情報保持手段より出力された過去の占有チャネル情報に基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力することを特徴とする
    請求項1〜の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
  8. 前記準占有チャネル群決定手段は、前記時間周波数変換手段より出力された各チャネルの変換係数と前記最占有チャネル決定手段より出力された最占有チャネルインデックス情報に加え、前記最占有チャネル変換係数符号化手段より出力された前記符号化後の最占有チャネル音響符号化データも基礎として、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定することを特徴とする
    請求項1〜の何れか一項に記載のマルチチャネル音声音響信号符号化装置。
  9. 入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定手段と、
    入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定手段と、
    入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号手段と、
    入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号手段と、
    前記最占有チャネル変換係数復号手段より出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定手段より出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御手段と、
    前記準占有チャネル群変換係数復号手段より出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定手段より出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御手段と、
    各再生チャネルについて、前記最占有チャネル音像制御手段より出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御手段より出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成手段と、
    前記各変換係数合成手段より出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換手段と
    を備えることを特徴とするマルチチャネル音声音響信号復号装置。
  10. 前記準占有チャネル群変換係数復号手段は、前記最占有チャネル変換係数復号手段の中間情報および出力符号化データの、一部または全部を用いることを特徴とする
    請求項に記載のマルチチャネル音声音響信号復号装置。
  11. 音声音響信号を符号化する装置により実行されるマルチチャネル音声音響信号符号化方法であって、
    入力された時間領域の音声音響信号を周波数領域に変換し、少なくとも1つの周波数帯域に分割した形式で変換係数を出力する時間周波数変換ステップと、
    前記時間周波数変換ステップにより出力された各チャネルの変換係数に基づいて、各周波数帯域についてそれぞれ最も占有的なチャネルを決定し、決定したチャネルに関する最占有チャネルインデックス情報を出力する最占有チャネル決定ステップと、
    前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、各周波数帯域についてそれぞれ0個以上の準占有的なチャネルを決定し、決定したチャネルに関する準占有チャネル群インデックス情報を出力する準占有チャネル群決定ステップと、
    前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記最占有チャネル決定ステップにより出力された最占有チャネルインデックス情報とに基づいて、該当する周波数帯域の最占有チャネルの変換係数を符号化し、符号化後の最占有チャネル音響符号化データを出力する最占有チャネル変換係数符号化ステップと、
    前記時間周波数変換ステップにより出力された各チャネルの変換係数と前記準占有チャネル群決定ステップにより出力された準占有チャネル群インデックス情報とに基づいて、該当する周波数帯域の準占有的なチャネルの変換係数を符号化し、符号化後の準占有チャネル群音響符号化データを出力する準占有チャネル群変換係数符号化ステップと
    を備え
    前記最占有チャネル決定ステップ、前記準占有チャネル群決定ステップ、前記最占有チャネル変換係数符号化ステップ、前記準占有チャネル群変換係数符号化ステップの少なくとも1つは、入力された各チャネルの音声音響信号をどの位置に定位するかを表す音源定位位置情報を用いることを特徴とするマルチチャネル音声音響信号符号化方法。
  12. 音声音響信号を復号する装置により実行されるマルチチャネル音声音響信号復号方法であって、
    入力された最占有チャネルインデックス情報に基づいて、各周波数帯域について最占有チャネルの音声音響信号の音像を制御するための音像制御情報を決定する最占有チャネル音像制御情報決定ステップと、
    入力された準占有チャネル群インデックス情報に基づいて、各周波数帯域について準占有チャネル群の音声音響信号の音像を制御するための音像制御情報を決定する準占有チャネル群音像制御情報決定ステップと、
    入力された最占有チャネル音響符号化データを復号し、復号後の最占有チャネル変換係数を出力する最占有チャネル変換係数復号ステップと、
    入力された準占有チャネル群音響符号化データを復号し、復号後の準占有チャネル群変換係数を出力する準占有チャネル群変換係数復号ステップと、
    前記最占有チャネル変換係数復号ステップにより出力された最占有チャネル変換係数に対し、前記最占有チャネル音像制御情報決定ステップにより出力された最占有チャネル音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ最占有チャネル変形変換係数を出力する最占有チャネル音像制御ステップと、
    前記準占有チャネル群変換係数復号ステップにより出力された準占有チャネル群変換係数に対し、前記準占有チャネル群音像制御情報決定ステップにより出力された準占有チャネル群音像制御情報を付加することで音像制御を行い、少なくとも2つの再生チャネルについてそれぞれ準占有チャネル群変形変換係数を出力する準占有チャネル群音像制御ステップと、
    各再生チャネルについて、前記最占有チャネル音像制御ステップにより出力された最占有チャネル変形変換係数と、前記準占有チャネル群音像制御ステップにより出力された準占有チャネル群変形変換係数とを合成し、合成後の再生チャネルごとの合成変換係数を出力する変換係数合成ステップと、
    前記各変換係数合成ステップにより出力された合成変換係数を周波数領域から時間領域に変換し、変換後の各再生チャネルの出力信号を出力する周波数時間変換ステップと
    を備えることを特徴とするマルチチャネル音声音響信号復号方法。
JP2007330311A 2007-12-21 2007-12-21 マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法 Expired - Fee Related JP5483813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007330311A JP5483813B2 (ja) 2007-12-21 2007-12-21 マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007330311A JP5483813B2 (ja) 2007-12-21 2007-12-21 マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法

Publications (2)

Publication Number Publication Date
JP2009151183A JP2009151183A (ja) 2009-07-09
JP5483813B2 true JP5483813B2 (ja) 2014-05-07

Family

ID=40920368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007330311A Expired - Fee Related JP5483813B2 (ja) 2007-12-21 2007-12-21 マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法

Country Status (1)

Country Link
JP (1) JP5483813B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6243770B2 (ja) * 2014-03-25 2017-12-06 日本放送協会 チャンネル数変換装置
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58225751A (ja) * 1982-06-24 1983-12-27 Fujitsu Ltd 音声多重伝送方式
JP3285185B2 (ja) * 1995-06-16 2002-05-27 日本電信電話株式会社 音響信号符号化方法
JPH11262100A (ja) * 1998-03-13 1999-09-24 Matsushita Electric Ind Co Ltd オーディオ信号の符号化/復号方法および装置
JP2905191B1 (ja) * 1998-04-03 1999-06-14 日本放送協会 信号処理装置、信号処理方法および信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001144720A (ja) * 1999-11-18 2001-05-25 Sony Corp 多重化装置および方法、並びに記録媒体
JP2002236499A (ja) * 2000-12-06 2002-08-23 Matsushita Electric Ind Co Ltd 音楽信号圧縮装置、音楽信号圧縮伸張装置及び前処理制御装置
JP2002182699A (ja) * 2000-12-15 2002-06-26 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2003023683A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp 音声中継伝送システム
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法

Also Published As

Publication number Publication date
JP2009151183A (ja) 2009-07-09

Similar Documents

Publication Publication Date Title
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP5452936B2 (ja) 複素変調フィルタバンクを用いた効率的なフィルタリング
JP5081838B2 (ja) オーディオ符号化及び復号
RU2376726C2 (ru) Устройство и способ для формирования закодированного стереосигнала аудиочасти или потока данных аудио
JP5054035B2 (ja) 符号化/復号化装置及び方法
NO344091B1 (no) Kompatibel flerkanal-koding/dekoding.
CN101385075B (zh) 用于编码/解码信号的装置和方法
KR20080078882A (ko) 입체 오디오 신호 디코딩
WO2010017833A1 (en) Multichannel audio coder and decoder
JP2009531886A (ja) 多チャンネル信号のパラメータ表現からの空間ダウンミックスの生成
WO2013156814A1 (en) Stereo audio signal encoder
CN112567765B (zh) 空间音频捕获、传输和再现
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
JP5483813B2 (ja) マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
CN110556116B (zh) 计算下混信号和残差信号的方法和装置
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
JP5032921B2 (ja) 音像制御装置および音像制御方法
MX2008009565A (en) Apparatus and method for encoding/decoding signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140218

R150 Certificate of patent or registration of utility model

Ref document number: 5483813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees