JP2014529101A

JP2014529101A - 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置

Info

Publication number: JP2014529101A
Application number: JP2014528904A
Authority: JP
Inventors: ユェラン，; デイビッドヴィレット，; ジエンフェンシュ，
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2014-10-30
Anticipated expiration: 2032-02-17
Also published as: US20140098963A1; CN104246873B; KR101580240B1; JP5724044B2; EP2702776A1; ES2555136T3; US9401151B2; KR20140128423A; CN104246873A; WO2013120531A1; EP2702776B1

Abstract

本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は：前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作；前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；を実行するように構成されることを特徴とする。

Description

本発明はオーディオ信号の符号化処理と関係する。

ステレオまたは多重チャネルのオーディオ信号に対するパラメトリックな符号化処理の具体例に関しては、例えば、“Ｃ．ＦａｌｌｅｒとＦ．Ｂａｕｍｇａｒｔｅ著：「知覚的パラメータ化処理を使用した空間的なオーディオ信号の効率的な表現」、音声と音響に対する信号処理の応用に関するＩＥＥＥワークショップの研究会議事録、2001年10月発行、第199ページ〜202ページ”において説明されており、この技術は、通常はモノラル又はステレオであるダウン・ミキシングされたオーディオ信号から多重チャネルのオーディオ信号を合成するために、空間的なキューを使用する技術であり、ここで、当該多重チャネルのオーディオ信号は、当該ダウン・ミキシングされたオーディオ信号よりも多くのチャネルを有している。通常の場合、ダウン・ミキシングされたオーディオ信号とは、多重チャネル・オーディオ信号に含まれる複数のオーディオ・チャネル信号を重ね合わせた結果として、例えばステレオ・オーディオ信号などとして生成されるオーディオ信号である。このようなダウン・ミキシング処理によりチャネルの個数が少なくなったオーディオ・チャネルは、波形符号化され、符号化されたオーディオ・チャネルに対して、サイド情報、すなわち空間的なキューが符号化パラメータとして追加され、当該サイド情報は、ダウン・ミキシング処理される前の信号チャネル同士の間の相対関係と関連している。復号化装置は、復号化の結果として得られた波形符号化されたオーディオ・チャネル信号に基づいて、ダウン・ミキシング処理される前と同じ個数のオーディオ・チャネルを再生成するために、このサイド情報を使用する。

初歩的なパラメトリック型ステレオ符号化装置は、ダウン・ミキシング処理によりモノラル信号とされたオーディオ信号からステレオ信号を再生成するために必要とされるキューとして、チャネル同士の間におけるレベルの差分（ＩＣＬＤ：Inter-Channel Level Differences）を使用することが可能である。これよりも高機能なパラメトリック型ステレオ符号化装置は、チャネル同士の間のコヒーレンス（ＩＣＣ：Inter-Channel Coherence）をさらに使用することにより、オーディオ・チャネル信号（すなわち、オーディオ・チャンネル）同士の間の類似度を表現することが可能である。さらに、例えば、３次元オーディオまたはヘッドフォンに基づくサラウンド型音響再生などのためにバイノーラル録音されたステレオ信号を符号化する際に、チャネル同士の間の位相／遅延量の差を再生するために、チャネル同士の間における位相差（ＩＣＰＤ：Inter-Channel Phase Difference）もまた重要な役割を果たす。

ＩＣＣをキューとして使用した合成処理は、殆どのオーディオ・コンテンツや音楽コンテンツに関してアンビエンス音響成分、ステレオ残響音、音源の幅および空間的印象と関係したその他の知覚される音響を再生することと関連している場合があり得る。上記のように空間的印象と関連して知覚される音響については、“Ｊ．Ｂｌａｕｅｒｔ著：「空間的な聴取（人間の音響局所化に関する心理学）」、ＭＩＴ出版、ケンブリッジ、マサチューセッツ州、米国、1997年発行”において説明されている。

また、“Ｅ．Ｓｃｈｕｉｊｅｒｓ、Ｗ．Ｏｏｍｅｎ、Ｂ．ｄｅｎＢｒｉｎｋｅｒおよびＪ．Ｂｒｅｅｂａａｒｔ著：「高品質オーディオのためのパラメトリックな符号化処理の歩み」、オーディオ工学会第１１４回大会、2003年３月発行”において記述されているように、コヒーレンス合成の処理は、周波数領域で動作する逆相関回路を使用することにより実装することが可能である。しかしながら、空間的なキューを推定し、多重チャネル・オーディオ信号を合成するための合成処理に関する既知のアプローチは、信号処理の複雑度が増大してしまうという問題を引き起こす可能性がある。さらには、例えば、ＩＣＬＤ（チャネル同士の間におけるレベルの差分）やＩＣＰＤ（チャネル同士の間における位相差）などの他の符号化パラメータに加えて、ＩＣＣのパラメータを使用する場合には、ビットレートのオーバーヘッドが増大してしまう。

本発明の目的は、オーディオ信号の効率的な符号化のために、多重チャネル・オーディオ信号を構成するチャネル同士の間におけるチャネル間の相対関係を表現する符号化パラメータを推定するための発明概念を提供することにある。

上述した本発明の目的は、特許請求の範囲の独立請求項に記載された技術的特徴によって達成される。本発明に係る追加的な実装形態は、特許請求の範囲の従属請求項の記載、本願明細書中の実施例の記載および本明細書に添付した図面の記載から明らかである。

本発明を詳細に説明するために、以下に列挙する用語、略語および表記法が使用される。

＜ＢＣＣ＞：バイノーラル・キュー符号化（ＢＣＣ：Binaural Cues Coding）、すなわち、チャネル間の相対関係を記述するためにダウン・ミキシング処理およびバイノーラル・キュー（すなわち、空間パラメータ）を使用してステレオ信号または多重チャネル信号を符号化する技術。

＜バイノーラル・キュー＞：右耳から入った音響信号と左耳から入った音響信号との間におけるチャネル間キュー（ＩＴＤ、ＩＬＤおよびＩＣも参照されたい）。

＜ＣＬＤ＞：チャネル間のレベル差分であり、ＩＣＬＤと同じ意味である。

＜ＦＦＴ＞：ＤＦＴ演算を高速に実行するための実装形態であり、正確には高速フーリエ変換と表記される。

＜ＳＴＦＴ＞：短期間（Short-Time）フーリエ変換
＜ＨＲＴＦ＞：人間の頭の位置と関連した伝達関数（Head-Related Transfer Function）、すなわち、自由音場において音源から右耳と左耳にそれぞれ入った音のエネルギー変換をモデル化している伝達関数である。

＜ＩＣ＞：両耳の間のコヒーレンス、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における類似度であり、しばしば、ＩＡＣまたはＩＡＣＣ（両耳の間の相互相関（Interaural Cross-Correlation））とも呼ばれる。

＜ＩＣＣ＞：チャネル間のコヒーレンス、チャネル間の相関
＜ＩＣＰＤ＞：チャネル間の位相差、すなわち、信号対の間における位相差を平均した値
＜ＩＣＬＤ＞：チャネル間のレベル差
＜ＩＣＴＤ＞：チャネル間の時間差分
＜ＩＬＤ＞：両耳の間のレベル差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間におけるレベルの差分であり、しばしば、ＩＩＤ（両耳の間の強度の差分（Interaural Intensity Difference））とも呼ばれる。

＜ＩＰＤ＞：両耳の間の位相差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における位相の差分である。

＜ＩＴＤ＞：両耳の間の時間差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における時間の差分である。

＜ミキシング処理＞：多数の音源信号（例えば、別々に録音された複数の楽器による音源や多重トラック録音された音源など）を与えられた際に、空間的なオーディオ再生を目的としてステレオ又は多重チャネルのオーディオ信号を生成する処理過程を指してミキシング処理と呼ぶ。

＜空間的オーディオ＞：適切な再生システムにより再生された際に、聴覚的な空間イメージを想起させるようなオーディオ信号。

＜空間的キュー＞：空間的な知覚と関連したキューであり、この用語は、ステレオ又は多重チャネルのオーディオ信号の中のチャネル対の間のキューを指して呼ぶのに使用され（ＩＣＴＤ、ＩＣＬＤおよびＩＣＣも参照されたい）、空間パラメータまたはバイノーラル・キューとも呼ばれる。

本発明に係る第１の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は：
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作；
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；
を実行するように構成されることを特徴とする。

基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、２チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。

パラメトリック型のオーディオ符号化器は、コヒーレンスまたは相関を計算するための処理を必要としないので、符号化器の構造的な複雑度を低く抑えることが可能である。数個の量子化ステップしか必要としない粗い量子化器によってＩＣＣが量子化される場合には、それはさらに、複数のオーディオ・チャネル間の関係についての正確な推定結果を提供する。特に、音楽の信号についてだけでなく、会話の信号についても言えることであるが、出力された音楽の音は、音響シーン幅が正確であれば、より自然なものとなり、「ドライ」ではなくなるので、オーディオ信号の符号化のために符号化パラメータを使用することは重要である。ビットレートが非常に低いパラメトリック型のステレオ・オーディオ符号化方式に関しては、ビットの割り当て量は限定されており、唯一つのフル・バンドＩＣＣが送信され、当該符号化パラメータは、複数のチャネル間のグローバルな相関を表現している。

本発明に係る第１の側面に従うパラメトリック型オーディオ符号化器の第１の実現可能な実装形態においては、複数の符号化パラメータから成る第１パラメータ群は、以下に列挙する複数のパラメータの中の一つ以上により構成される。これら複数のパラメータは、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」である。

そのようなパラメータは、複数のオーディオ信号同士の間の類似度を表現するので、伝送される情報量を減少させるために符号化器によって使用されることが可能であり、その結果、計算の複雑さを軽減することが可能となる。

本発明に係る第１の側面または当該第１の側面の第１の実装形態に従うパラメトリック型オーディオ符号化器の第２の実現可能な実装形態においては、パラメータ生成器は、複数の符号化パラメータから成る第１パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される。

後続する複数のオーディオ・チャネル信号値同士の間の位相差分は、複数のチャネル同士の間における位相および／または遅延の差分を再生成するために必要とされ、位相差分が再生成された場合には、会話と音楽の音響内容はより自然なものとなる。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第３の実現可能な実装形態においては、オーディオ・チャネル信号と基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる。

使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。その結果、パラメトリック型のオーディオ符号化器は、人間の知覚に対して良好に適合することが可能となる。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第４の実現可能な実装形態においては、パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する。

チャネルのインパルス応答特性に対する等化処理は、周波数ドメインにおいて効率的に実行され得る。何故なら、時間ドメインにおける畳み込み積分演算が周波数ドメインでは乗算演算となるからである。従って、周波数ドメインにおいてパラメトリック型オーディオ符号化器の計算処理を実行することは、結果的に、計算の複雑性の観点からより高い効率を達成し、より高い計算精度を達成する。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第５の実現可能な実装形態においては、パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第１パラメータ群を決定するように構成される。

パラメトリック型オーディオ符号化器は、複数の符号化パラメータから成る第１パラメータ群の決定処理を、人間の耳によって知覚可能な周波数ビンすなわち周波数サブバンドに限定することが可能であるので、計算の複雑性を低く抑えることが出来る。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第６の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値を決定するように構成される。

上述した平均化処理により、パラメトリック型オーディオ符号化器は、全ての周波数成分を考慮に入れた場合におけるオーディオ信号の短期間平均値を提供する。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第７の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第２の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている。

上述した平均化処理により、パラメトリック型オーディオ符号化器は、オーディオ信号の長期間平均値を提供し、このとき、会話の信号または音楽の信号に関する特徴的な性質が考慮に入れられる。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第８の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第２の平均値とオーディオ・チャネル信号に関する符号化パラメータの第１の平均値との間の差分の絶対値を決定するように構成される。

上述した差分を計算することにより、パラメトリック型オーディオ符号化器は、上述した長期間平均値と上述した短期間平均値との間における差分の測度を提供し、会話又は音楽の振る舞いを予測することが可能となる。

本発明に係る第１の側面に関して上述した第８の実装形態に従うパラメトリック型オーディオ符号化器の第９の実現可能な実装形態においては、パラメータ生成器は、上記のとおりに決定された絶対値の関数として符号化パラメータを決定するように構成される。

上記のとおりに決定された絶対値の関数として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。

本発明に係る第１の側面に関して上述した第８の実装形態または第９の実装形態に従うパラメトリック型オーディオ符号化器の第１０の実現可能な実装形態においては、パラメータ生成器は、第１のパラメータ値と、上記のとおりに決定された絶対値に第２のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される。

第１のパラメータ値と上記のとおりに決定された絶対値との間における差分として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。

本発明に係る第１の側面に関して上述した第１０の実装形態に従うパラメトリック型オーディオ符号化器の第１１の実現可能な実装形態においては、パラメータ生成器は、第１のパラメータ値を１に設定し、第２のパラメータ値を１に設定するように構成され、このような設定に基づく関係性により、パラメトリック型オーディオ符号化器は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第１２の実現可能な実装形態においては、パラメトリック型オーディオ符号化器は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも２つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器、当該ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器（特にモノラル符号化器）および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器をさらに具備している。

当該ダウンミキシング済みオーディオ信号と当該符号化されたオーディオ信号とは、パラメータ生成器のための基準信号として使用することが可能である。これら２つの信号の両者は、複数のオーディオ・チャネル信号を含んでいるので、単一のチャネル信号が基準信号として採用された場合よりも高い精度を実現することが可能となる。

本発明に係る第１の側面または当該第１の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第１３の実現可能な実装形態においては、符号化パラメータの第１の平均値は、オーディオ・チャネル信号の現在のフレームを参照しており、符号化パラメータのさらに別の第１の平均値は、オーディオ・チャネル信号の以前のフレームを参照している。

オーディオ・チャネル信号に関して現在のフレームと以前のフレームを使用することにより、長期間にわたる平均化処理を効率的に実行することが可能となる。

本発明に係る第１の側面に関して上述した第１３の実装形態に従うパラメトリック型オーディオ符号化器の第１４の実現可能な実装形態においては、オーディオ・チャネル信号の現在のフレームは、オーディオ・チャネル信号の以前のフレームに対して連続的なものである。

これら２つのフレームが互いに連続的である場合、オーディオ・チャネル信号の鋭いピーク波形部分が平均化処理結果の中で検出され、パラメトリック型オーディオ符号化器において考慮に入れられる。その結果、鋭いピーク波形部分を検出することが出来ない場合と比較して、符号化処理をより高精度なものとすることが可能となる。

本発明に係る第２の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は：
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも２つから導出されたダウンミキシング済みオーディオ信号である、処理動作；
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；
を実行するように構成されることを特徴とする。

本発明に係る第２の側面に従うパラメトリック型オーディオ符号化器の第１の実現可能な実装形態においては、複数の符号化パラメータから成る第１パラメータ群は、以下に列挙する複数のパラメータの中の一つ以上により構成される。これら複数のパラメータは、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」である。

本発明に係る第２の側面または当該第２の側面の第１の実装形態に従うパラメトリック型オーディオ符号化器の第２の実現可能な実装形態においては、パラメータ生成器は、複数の符号化パラメータから成る第１パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第３の実現可能な実装形態においては、オーディオ・チャネル信号と基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第４の実現可能な実装形態においては、パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第６の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値を決定するように構成される。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第７の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第２の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第８の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第２の平均値とオーディオ・チャネル信号に関する符号化パラメータの第１の平均値との間の差分の絶対値を決定するように構成される。

本発明に係る第２の側面に関して上述した第８の実装形態に従うパラメトリック型オーディオ符号化器の第９の実現可能な実装形態においては、パラメータ生成器は、上記のとおりに決定された絶対値の関数として符号化パラメータを決定するように構成される。

本発明に係る第２の側面に関して上述した第８の実装形態または第９の実装形態に従うパラメトリック型オーディオ符号化器の第１０の実現可能な実装形態においては、パラメータ生成器は、第１のパラメータ値と、上記のとおりに決定された絶対値に第２のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される。

本発明に係る第２の側面に関して上述した第１０の実装形態に従うパラメトリック型オーディオ符号化器の第１１の実現可能な実装形態においては、パラメータ生成器は、第１のパラメータ値を１に設定し、第２のパラメータ値を１に設定するように構成され、このような設定に基づく関係性により、パラメトリック型オーディオ符号化器は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第１２の実現可能な実装形態においては、パラメトリック型オーディオ符号化器は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも２つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器、当該ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器（特にモノラル符号化器）および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器をさらに具備している。

本発明に係る第２の側面または当該第２の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第１３の実現可能な実装形態においては、符号化パラメータの第１の平均値は、オーディオ・チャネル信号の現在のフレームを参照しており、符号化パラメータのさらに別の第１の平均値は、オーディオ・チャネル信号の以前のフレームを参照している。

本発明に係る第２の側面に関して上述した第１３の実装形態に従うパラメトリック型オーディオ符号化器の第１４の実現可能な実装形態においては、オーディオ・チャネル信号の現在のフレームは、オーディオ・チャネル信号の以前のフレームに対して連続的なものである。

本発明に係る第３の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は：
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作；
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；
を具備することを特徴とする。

上述した方法は、プロセッサ上で効率的に実行することが可能である。

本発明に係る第４の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は：
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも２つから導出されたダウンミキシング済みオーディオ信号である、処理動作；
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；
を具備することを特徴とする。

本発明に係る第５の側面に従うならば、本発明は、コンピュータ上で実行された際に、本発明に関して上述した第３および第４の側面の何れか一つに従う方法を実装するように構成されたコンピュータ・プログラムと関係する。

当該コンピュータ・プログラムの複雑性は低く抑えられているので、バッテリー寿命を温存しなくてはならないモバイル型端末において効率的に実装することが可能である。当該コンピュータ・プログラムがモバイル型端末の上で実行された場合には、バッテリー寿命の長さは増加する。

本発明に関して上述した方法は、ＤＳＰ（ディジタル信号処理プロセッサ）内におけるソフトウェア、マイクロ・コントローラ内におけるソフトウェア、またはその他の任意の補助プロセッサ内におけるソフトウェアとして、またはＡＳＩＣ（特定用途向け集積回路）内に実装されたハードウェア回路として実施することが可能である。

本発明は、ディジタル電子回路内において実装することが可能であり、またはコンピュータのハードウェア、ファームウェア、ソフトウェアまたはこれらを組み合わせたものとして実装することも可能である。本発明に関するさらに追加の実施形態は、以下において簡単に説明する添付図面を参照しながら、本明細書中の「発明の実施するための形態」欄において具体的に後述する。

本発明に係る一実装形態に従うパラメトリック型オーディオ符号化器のブロック図本発明に係る一実装形態に従うパラメトリック型オーディオ復号化器のブロック図本発明に係る一実装形態に従うパラメトリック型のステレオ・オーディオ符号化器およびステレオ・オーディオ復号化器のブロック図本発明に係る一実装形態に従って、オーディオ・チャネル信号に関する符号化パラメータを生成するための方法を説明する動作ブロック図

図１は、本発明に係る一実装形態に従うパラメトリック型オーディオ符号化器１００のブロック図を示している。パラメトリック型オーディオ符号化器１００は、入力信号として、多重チャネルのオーディオ信号１０１を受信し、出力信号１０３としてビット・ストリームを出力する。パラメトリック型オーディオ符号化器１００は、多重チャネルのオーディオ信号１０１に結合し、符号化パラメータ１１５を生成するためのパラメータ生成器１０５、多重チャネルのオーディオ信号１０１に結合し、ダウンミキシング済みの信号１１１または合計の信号を生成するためのダウンミキシング済みの信号の生成器１０７、ダウンミキシング済みの信号の生成器１０７と結合し、ダウンミキシング済みの信号１１１を符号化することによって符号化されたオーディオ信号１１３を出力するためのオーディオ符号化器１０９およびパラメータ生成器１０５およびオーディオ符号化器１０９と結合し、符号化パラメータ１１５と符号化されたオーディオ信号１１３からビット・ストリーム１０３を形成するための（例えば、ビット・ストリーム形成器のような）合成器１１７を具備している。

パラメトリック型オーディオ符号化器１００は、ステレオ信号と多重チャネル・オーディオ信号のためのオーディオ符号化方式を実装し、当該オーディオ符号化方式は、例えば、ダウンミキシング処理された単一オーディオ・チャネルのような単一のオーディオ・チャネルに加えて、それに付随する複数のパラメータだけを送信する。その際、当該複数のパラメータは、複数のオーディオ・チャネル

同士の間における「知覚的に関連する差分」を記述している。上述したオーディオ符号化方式においては、両耳性のキュー（Binaural Cue）が重要な役割を果たすこととなるため、上述したオーディオ符号化方式は、ＢＣＣ符号化（Binaural Cue Coding）に従って実行される。添付図面において図示されているとおり、多重チャネルのオーディオ信号１０１を構成する複数のオーディオ・チャネルであって、符号化器１００に入力されるＭ個のオーディオ・チャネル

は、単一のオーディオ・チャネル１１１へとダウンミキシング処理され、当該単一のオーディオ・チャネルは、合計の信号とも表記される。ステレオのオーディオ信号を扱う場合においては、オーディオ・チャネルの個数Ｍの値は２に等しくなる。複数のオーディオ・チャネル

同士の間における「知覚的に関連する差分」と同様に、例えば「チャネル間の時間差分（ＩＣＴＤ：Inter-Channel Time Difference）」、「チャネル間のレベル差分（ＩＣＬＤ：Inter-Channel Level Difference）」および「チャネル間のコヒーレンス（ＩＣＣ：Inter-Channel Coherence）」等のような複数の符号化パラメータは時間と周波数の関数として推定され、図２に示す復号化器２００に対して補助情報として送信される。

パラメータ生成器１０５内において実装されているＢＣＣ（Binaural Cue Coding）符号化処理機能は、所定の時間分解能と周波数分解能の下で多重チャネルのオーディオ信号１０１を処理する。使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。送信される合計の信号１１１が多重チャネルのオーディオ信号１０１に含まれる全ての信号成分を含んでいることは重要である。本発明の目的とするところは、これら信号成分の各々がパラメトリック符号化の前後を通じて完全に維持されることである。

上述したように多重チャネルのオーディオ信号１０１を構成する複数のオーディオ入力チャネル

を単純に合計する場合、一部の信号成分が増幅されたり減衰させられたりする結果を時として生じ得る。言い換えれば、これらの信号成分を単純に合計した信号の電力は、

で表される複数のチャネルの各々にそれぞれ対応する信号成分の実際の合計電力よりも時として大きかったり小さかったりする。従って、合計の信号１１１を等化処理するためのダウンミキシング処理装置１０７を応用した信号処理を実行することによるダウンミキシング処理技法が使用され、その結果、合計の信号１１１に含まれる複数の信号成分の電力が、多重チャネルのオーディオ信号１０１を構成する全てのオーディオ入力チャネル

のそれぞれに関して対応する電力と近似的に同一となる。上述した複数のオーディオ入力チャネル

は、サブバンドｂに関するチャネル信号を表現している。周波数ドメイン表現のオーディオ入力チャネルは、

と表記され、ｋは周波数インデックス（周波数ビン）を表し、通常の場合、サブバンドｂは、幾つかの周波数ビンｋによって構成されている。

合計の信号１１１を与えられると、パラメータ生成器１０５は、ＩＣＴＤ、ＩＣＬＤおよび／またはＩＣＣが元々の多重チャネル・オーディオ信号１０１における対応するキューを近似するような態様でステレオのオーディオ信号又は多重チャネルのオーディオ信号１１５を合成する。

一つの音源に関する両耳性の室内インパルス応答特性（ＢＲＩＲ：Binaural Room Impulse Response）を考慮する場合、聴覚的事象、聴取環境およびＢＲＩＲの早い時期の部分と遅い時期の部分に関して推定されたＩＣＣの間には所定の関係性が存在する。しかしながら、（ＢＲＩＲに限らず）一般的な信号に関するこれらの性質とＩＣＣとの間における上述した関係性は、直進的に得られるものではない。通常の場合、ステレオまたは多重チャネルのオーディオ信号は、反射波の信号成分が重ね合わされ合成されることにより同時並列的にアクティブ状態となる複数の音源信号が混ざり合った複合的な信号を含んでおり、そのような反射波の信号成分の重ね合わせは、閉ざされた空間内での録音操作や空間的な音の印象を人工的に作り出すために、録音技師によって付加された結果として生じ得る。複数の異なる音源信号とその反射波信号成分は、時間／周波数の平面上において異なる領域を占有する。これは、時間と周波数の関数として変化するＩＣＴＤ、ＩＣＬＤおよびＩＣＣによって反映される。この場合、ＩＣＴＤ、ＩＣＬＤおよびＩＣＣの瞬時値、聴覚的事象の方向および空間的な印象の間の関係性は自明なものではない。パラメータ生成器１０５のパラメータ生成戦略は、元々の多重チャネル・オーディオ信号１０１における対応するキューをこれらのキューが近似するような態様で、これらのキューを盲目的に合成するものである。

一つの実装形態においては、パラメトリック型オーディオ符号化器１００は、等価な長方形の帯域幅の２倍に等しい帯域幅のサブバンドを有するフィルター・バンクを使用する。非公式の聞き取り試験の結果、ＢＣＣのオーディオ品質は、周波数分解能を高くしても、それほど顕著には改善されないことが判明した。それならむしろ、周波数分解能を低くする方が好適である。何故ならば、そのようにすることにより、復号化器に送信する必要があるＩＣＴＤ、ＩＣＬＤおよびＩＣＣの個数をより少なくすることができるので、ビット・レートを低く抑えることが出来るからである。時間分解能に関しては、ＩＣＴＤ、ＩＣＬＤおよびＩＣＣは、規則的な時間周期毎に考慮される。一つの実装形態においては、ＩＣＴＤ、ＩＣＬＤおよびＩＣＣは、約４ミリ秒〜約１６ミリ秒毎の周期で考慮される。非常に短い時間周期毎にキューが考慮されるのでない限り、先行して生じた効果は直接的には考慮されない。

上記のように合成された信号と基準信号との間における知覚的な差分が時として小さくなることは、規則的な時間周期毎にＩＣＴＤ、ＩＣＬＤおよびＩＣＣを合成することによって、広範囲にわたる聴覚的空間イメージ属性が暗黙裡に考慮されていることを意味している。これらの空間的なキューを伝送するのに必要とされるビット・レートは、数キロビット／秒に過ぎないので、パラメトリック型オーディオ符号化器１００は、単一のオーディオ・チャネル信号の伝送に必要とされるビット・レートと同程度のビット・レートでステレオ又は多重チャネルのオーディオ信号を伝送することが可能である。図４は、符号化パラメータ１１５の一つとしてＩＣＣを推定するための方法を図示している。

パラメトリック型オーディオ符号化器１００は、多重チャネルのオーディオ信号１０１を構成する複数のオーディオ・チャネル信号の中の少なくとも２つを重ね合わせて合成することによってダウンミキシング処理された信号１１１を取得するためのダウンミキシング済みの信号の生成器１０７、ダウンミキシング処理された信号１１１を符号化することによって符号化されたオーディオ信号１１３を取得するためのオーディオ符号化器（特にモノラルの符号化器）１０９および対応する符号化パラメータ１１５と符号化されたオーディオ信号１１３とを合成するための合成器１１７を具備している。

パラメトリック型オーディオ符号化器１００は、多重チャネルのオーディオ信号１０１を構成する複数のオーディオ・チャネル信号であって、符号化器１００に入力されるＭ個のオーディオ・チャネル信号

の中の一つのオーディオ・チャネル信号について符号化パラメータを生成する。複数のオーディオ・チャネル信号

の各々は、

と表記される周波数ドメインにおけるディジタル表現形式のオーディオ・チャネル信号を具備するディジタル信号とすることが可能である。

パラメトリック型オーディオ符号化器１００が符号化パラメータ１１５を生成する対象となるオーディオ・チャネル信号の一つの具体例は、信号値X₁[k]を有する第１のオーディオ・チャネル信号X₁[b]である。第１のオーディオ・チャネル信号X₁[b]に関して、パラメータ生成器１０５は、オーディオ・チャネル信号X₁[b]のオーディオ・チャネル信号値X₁[k]と基準オーディオ信号の基準オーディオ信号値から、複数の符号化パラメータを含む第１パラメータ群を決定し、これはＩＰＤ［ｂ］と表記される。

基準オーディオ信号として使用される一つのオーディオ・チャネル信号は、例えば、第２のオーディオ・チャネル信号X₂[b]とすることが可能である。同様に、複数のオーディオ・チャネル信号

に含まれる他の任意のオーディオ・チャネル信号が基準オーディオ信号としての役割を果たすようにすることも可能である。本発明に係る第１の側面に従うならば、基準オーディオ信号は、符号化パラメータ１１５が生成される対象となるオーディオ・チャネル信号X₁[b]とは等しくない複数のオーディオ・チャネル信号の中に含まれるさらに別のオーディオ・チャネル信号とすることが可能である。

本発明に係る第２の側面に従うならば、基準オーディオ信号は、多重チャネルのオーディオ信号１０１を構成する複数のオーディオ・チャネル信号の中の少なくとも２つから導出された（例えば、第１のオーディオ・チャネル信号X₁[b]と第２のオーディオ・チャネル信号X₂[b]から導出された）ダウンミキシング済みオーディオ信号である。一つの実装形態においては、基準オーディオ信号は、ダウンミキシング処理された信号１１１であり、以下の説明においては、ダウンミキシング済み信号の生成器１０７によって生成された合計の信号とも呼ぶことにする。一つの実装形態においては、基準オーディオ信号は、オーディオ符号化器１０９によって出力される符号化されたオーディオ信号１１３である。

パラメータ生成器１０５によって使用される基準オーディオ信号の一例は、信号値X₂[k]を有する第２のオーディオ・チャネル信号X₂[b]である。

オーディオ・チャネル信号X₁[b]に関して、パラメータ生成器１０５は、オーディオ・チャネル信号X₁[b]のための複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］に基づいて、符号化パラメータの第１の平均値を決定し、これはＩＰＤ_ｍｅａｎ［ｉ］と表記される。

オーディオ・チャネル信号X₁[b]に関して、パラメータ生成器１０５は、オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］とオーディオ・チャネル信号X₁[b]に関する符号化パラメータのさらに別の第１の平均値の少なくとも一つであって、ＩＰＤ_ｍｅａｎ［ｉ−１］と表記される平均値に基づいて、符号化パラメータの第２の平均値を決定し、これはＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}と表記される。一つの実装形態において、符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］は、オーディオ・チャネル信号X₁[b]の現在のフレームｉを参照しており、符号化パラメータのさらに別の第１の平均値ＩＰＤ_ｍｅａｎ［ｉ−１］は、オーディオ・チャネル信号X₁[b]の以前のフレームｉ−１を参照している。一つの実装形態において、オーディオ・チャネル信号X₁[b]の以前のフレームｉ−１は、他のフレーム受信を挟まないで現在のフレームｉの直前に受信されたフレームである。一つの実装形態において、オーディオ・チャネル信号X₁[b]の以前のフレームｉ−Ｎは、現在のフレームｉに先立って受信されたフレームであるが、その２つのフレームの受信時点を挟んで他の一つ以上のフレームが到着している。

オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］に基づき、かつ、オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第２の平均値ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}に基づいて、パラメータ生成器１０５は、ＩＣＣと表記される符号化パラメータを決定する。

複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］は、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」または「サブバンドに関するチャネル間の強度差分」などのパラメータ、あるいはこれらを組み合わせたパラメータから構成され得る。「チャネル間の位相差分（ＩＣＰＤ）」は、一対の信号間における位相差分の平均であり、「チャネル間のレベル差分（ＩＣＬＤ）」は、両耳の間におけるレベル差分（ＩＬＤ：Inter-Aural Level Difference）と同じものである。すなわち、「チャネル間のレベル差分（ＩＣＬＤ）」は、左耳と右耳にそれぞれ入ってくる２つの信号間におけるレベル差分としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間におけるレベル差分として定義される。「チャネル間のコヒーレンス」すなわち「チャネル間の相関」は、両耳の間におけるコヒーレンス（ＩＣ：Inter-Aural Coherence）と同じものである。すなわち、「チャネル間のコヒーレンス」は、左耳と右耳にそれぞれ入ってくる２つの信号同士の間の類似度としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間における類似度として定義される。「チャネル間の時間差分（ＩＣＴＤ）」は、両耳の間における時間差分（ＩＴＤ：Inter-Aural Time Difference）と同じものであり、「両耳の間における時間遅延量」とも呼ばれる。すなわち、「チャネル間の時間差分」は、左耳と右耳にそれぞれ入ってくる２つの信号同士の間の時間差分としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間における時間差分として定義される。「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」は、サブバンド帯域幅に関して上述したとおりに定義されるパラメータと関係付けられている。

パラメータ生成器１０５は、複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］を取得するために、後続するオーディオ・チャネル信号値X₁[k]の位相差分を決定する。一つの実装形態においては、オーディオ・チャネル信号X₁[b]と基準オーディオ信号X₂[b]とは、周波数ドメインの信号であり、オーディオ・チャネル信号値X₁[k]と基準オーディオ信号値X₂[k]とは、「ｋ」と表記される周波数ビン、すなわち「ｂ」と表記されるサブバンドと関係付けられる。一つの実装形態においては、パラメトリック型オーディオ符号化器１００は、複数の時間ドメインのオーディオ・チャネル信号

を周波数ドメインに変換することによって複数のオーディオ・チャネル信号

を取得するための変換器（例えば、ＦＦＴ（高速フーリエ変換）処理装置など）を具備している。一つの実装形態においては、パラメータ生成器１０５は、複数のオーディオ・チャネル信号

の周波数ビン［ｋ］の各々について、すなわちサブバンド［ｂ］の各々について、複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］を決定する。

第１の処理ステップにおいては、パラメータ生成器１０５は、時間ドメイン表現の入力チャネル（例えば、第１の入力チャネルX₁[n]）および時間ドメイン表現の基準チャネル（例えば、第２の入力チャネルX₂[n]）の上で時間／周波数変換処理を適用する。ステレオ信号の場合、左側チャネルと右側チャネルが存在する。好適な実施例においては、時間／周波数変換処理は、ＦＦＴ（高速フーリエ変換）処理である。代替的な実施例においては、時間／周波数変換処理は、コサイン変調されたフィルター・バンクまたは複素数型フィルター・バンクである。

第２の処理ステップにおいては、パラメータ生成器１０５は、ＦＦＴ処理における周波数ビン［ｂ］の各々について、以下の式に従って交差スペクトルを計算する。

上記の式において、ｃ［ｂ］は、周波数ビン［ｂ］の交差スペクトルであり、

は２つのチャネルに対応するＦＦＴ係数である。「＊」は複素共役を表す。この場合、サブバンド［ｂ］は、一つの周波数ビン［ｋ］と直接的に対応し、周波数ビン［ｂ］と［ｋ］とは全く同一の周波数ビンを表現している。

代替的に、パラメータ生成器１０５は、サブバンド［ｂ］の各々について、以下の式に従って交差スペクトルを計算する。

は２つのチャネルに対応するＦＦＴ係数である。「＊」は複素共役を表す。ｋ_ｂは、サブバンドｂにおける開始ビンであり、ｋ_ｂ＋１は、隣接するサブバンドｂ＋１における開始ビンである。従って、ＦＦＴ処理においてｋ_ｂとｋ_ｂ＋１−１との間に位置する複数の周波数ビン［ｋ］は、サブバンド［ｂ］を表現している。

「チャネル間の位相差分（ＩＣＰＤ）」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。

上記式において、∠は、ｃ［ｂ］の偏角を計算するための偏角演算子である。

一つの実装形態においては、パラメータ生成器１０５は、複数の周波数ビン［ｋ］に跨って、すなわち複数のサブバンド［ｂ］に跨って、オーディオ・チャネル信号X₁[b]に関する第１パラメータ群ＩＰＤ［ｂ］に含まれる複数の符号化パラメータを平均した値として、オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］を決定する。

複数の周波数ビン［ｋ］に跨って、すなわち複数のサブバンド［ｂ］に跨って平均化されたＩＰＤ（ＩＰＤ_ｍｅａｎ）は、以下の式で定義されるとおりに計算される。

上記の式において、Ｋは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。

一つの実装形態においては、パラメータ生成器１０５は、オーディオ・チャネル信号X₁[b]に関する複数のフレームに跨って符号化パラメータに関する複数の第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］を平均化した値として、オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第２の平均値ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}を決定し、この際、符号化パラメータに関する複数の第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］の各々は、多重チャネルのオーディオ信号の一つのフレーム［ｉ］と関係付けられている。

以前に算出されたＩＰＤ_ｍｅａｎの値に基づいて、パラメータ生成器１０５は、ＩＰＤの長期間平均値を算出する。ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}は、最新のＮ個のフレーム（例えば、Ｎ＝１０と設定することが可能である）に跨ってＩＰＤを平均化した値として以下の式に従って算出される。

一つの実装形態においては、パラメータ生成器１０５は、符号化パラメータの第２の平均値ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}と符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］との間における差分の絶対値ＩＰＤ_ｄｉｓｔを決定する。

ＩＰＤパラメータの安定性を評価するために、ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}と符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］との間の距離（すなわち、ＩＰＤ_ｄｉｓｔ）が計算され、これは、最新のＮ個のフレーム期間にわたるＩＰＤの漸進的変化を示している。好適な実施例においては、局所的なＩＰＤと長期間平均のＩＰＤとの間の距離は、ＩＰＤの局所平均とＩＰＤの長期間平均との間の差分の絶対値として、以下の式に従って計算される。

先行する複数のフレームに跨ってＩＰＤ_ｍｅａｎパラメータが安定であるならば、距離パラメータＩＰＤ_ｄｉｓｔの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。

一つの実装形態においては、パラメータ生成器１０５は、上記のとおりに決定された絶対値ＩＰＤ_ｄｉｓｔの関数として符号化パラメータＩＣＣの値を決定する。一つの実装形態においては、パラメータ生成器１０５は、第１のパラメータ値ｄと上記のとおりに決定された絶対値ＩＰＤ_ｄｉｓｔに第２のパラメータ値ｅを乗算した値との間における差分から、符号化パラメータＩＣＣの値を決定する。一つの実装形態においては、パラメータ生成器１０５は、第１のパラメータ値ｄを１に設定し、第２のパラメータ値ｅを１に設定する。

チャネル間のコヒーレンス、すなわちＩＣＣパラメータは、以下の式

に従って算出することも可能である。何故ならば、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ＩＣＣの値は１に近くなり、同時にこの時、ＩＰＤ_ｄｉｓｔの値は０に近くなる。

代替的に、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値との間の関係を定義する関係式は、以下の式

と定義することも可能であり、この場合、上述した２つのパラメータＩＣＣとＩＰＤ_ｄｉｓｔとの間の補数関係をより良好に表現することが出来るように係数ｄとｅの値が選ばれる。さらなる実施例においては、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、

と一般化することが可能である。

オーディオ信号において相関が強いセグメントの持続期間中は、ＩＰＤ_ｄｉｓｔの値は小さく、オーディオ入力の拡散部分の持続期間中（例えば、音楽に関するオーディオ入力期間）においては、このＩＰＤ_ｄｉｓｔの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、ＩＰＤ_ｄｉｓｔの値は１に近くなる。その結果、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値との間の関係は、間接的な補数の関係となる。

図２は、本発明に係る一実装形態に従うパラメトリック型オーディオ復号化器２００のブロック図を示している。パラメトリック型オーディオ復号化器２００は、通信チャネル上でビット・ストリーム２０３を入力信号として受信し、復号化された多重チャネル・オーディオ信号２０１を出力信号として出力する。パラメトリック型オーディオ復号化器２００は、ビット・ストリーム２０３と結合したビット・ストリーム復号化器２１７であって、ビット・ストリーム２０３を復号化することによって符号化パラメータ２１５と符号化された信号２１３とを生成するビット・ストリーム復号化器２１７と、ビット・ストリーム復号化器２１７と結合した復号化器２０９であって、当該符号化された信号２１３から合計の信号２１１を生成するための復号化器２０９と、ビット・ストリーム復号化器２１７と結合したパラメータ復号化器２０５であって、符号化パラメータ２１５からパラメータ値２２１を復号化するパラメータ復号化器２０５と、復号化器２０９およびパラメータ復号化器２０５に結合した合成器２０７であって、パラメータ値２２１および合計の信号２１１から復号化された多重チャネル・オーディオ信号を合成するための合成器２０７を具備している。

パラメトリック型オーディオ復号化器２００は、チャネル間におけるＩＣＴＤ、ＩＣＬＤおよび／またはＩＣＣの値が元々の多重チャネル・オーディオ信号におけるＩＣＴＤ、ＩＣＬＤおよび／またはＩＣＣの値を近似するような方法で、自身に入力された多重チャネル・オーディオ信号２０１を構成する複数の出力チャネルを生成する。上述した方式によって、モノラルのオーディオ信号を表現するのに必要とされるビット・レートよりも僅かに高いだけのビット・レートで多重チャネルのオーディオ信号を表現することが可能となる。その理由は、上述した方式に従ってチャネル対の間で推定されたＩＣＴＤ、ＩＣＬＤおよび／またはＩＣＣの値が、オーディオ波形を表す情報と比べておよそ２のべき乗のオーダーだけ少ない情報量を含んでいるからである。ビット・レートを低く抑えることだけでなく、後方互換性の側面も重要である。送信された合計の信号は、ステレオ又は多重チャネルのオーディオ信号をダウンミキシング処理することにより得られるモノラル信号に対応している。

図３は、本発明に係る一実装形態に従うパラメトリック型のステレオ・オーディオ符号化器３０１およびステレオ・オーディオ復号化器３０３のブロック図を示している。パラメトリック型のステレオ・オーディオ符号化器３０１は、図１に関して上述したパラメトリック型オーディオ符号化器１００に対応するが、多重チャネルのオーディオ信号１０１は、左側のオーディオ・チャネル３０５と右側のオーディオ・チャネル３０７を有するステレオ・オーディオ信号とされている。

パラメトリック型のステレオ・オーディオ符号化器３０１は、左側チャネルのオーディオ信号３０５と右側チャネルのオーディオ信号３０７を有するステレオ・オーディオ信号３０５、３０７を入力信号として受信し、一本のビット・ストリームを出力信号３０９として出力する。パラメトリック型のステレオ・オーディオ符号化器３０１は、ステレオ・オーディオ信号３０５、３０７と結合したパラメータ生成器３１１であって、空間パラメータ３１３を生成するためのパラメータ生成器３１１と、ステレオ・オーディオ信号３０５、３０７と結合したダウンミキシング済み信号の生成器３１５であって、ダウンミキシング済み信号３１７、すなわち合計の信号３１７を生成するためのダウンミキシング済み信号の生成器３１５と、ダウンミキシング済み信号の生成器３１５と結合したモノラル符号化器３１９であって、ダウンミキシング済み信号３１７を符号化することによって符号化されたオーディオ信号３２１を出力するためのモノラル符号化器３１９と、パラメータ生成器３１１およびモノラル符号化器３１９に結合したビット・ストリーム合成器３２３であって、符号化パラメータ３１３および符号化されたオーディオ信号３２１を一本のビット・ストリームに合成することによって出力信号３０９を出力するためのビット・ストリーム合成器３２３を具備している。パラメータ生成器３１１内において、空間パラメータ３１３は、ビット・ストリーム内に多重化されるのに先立って、まず抽出され、続いて量子化される。

パラメトリック型のステレオ・オーディオ復号化器３０３は、パラメトリック型ステレオ・オーディオ符号化器３０１から通信チャネルを介して伝送されて来た出力信号３０９であるビット・ストリームを入力信号として受信し、左側チャネルのオーディオ信号３２５と右側チャネルのオーディオ信号３２７を有するステレオ・オーディオ信号を出力する。パラメトリック型のステレオ・オーディオ復号化器３０３は、受信されたビット・ストリーム３０９と結合したビット・ストリーム復号化器３２９であって、ビット・ストリーム３０９を復号化することによって符号化パラメータ３３１と符号化された信号３３３とを生成するビット・ストリーム復号化器３２９と、ビット・ストリーム復号化器３２９と結合したモノラル復号化器３３５であって、当該符号化された信号３３３から合計の信号３３７を生成するためのモノラル復号化器３３５と、ビット・ストリーム復号化器３２９と結合した空間パラメータ復号化器３３９であって、符号化パラメータ３３１から空間パラメータ値３４１を復号化する空間パラメータ復号化器３３９と、モノラル復号化器３３５および空間パラメータ復号化器３３９（すなわちリゾルバ３３９）に結合した合成器３４３であって、空間パラメータ値３４１および合計の信号３３７から復号化されたステレオ・オーディオ信号３２５、３２７を合成するための合成器３４３を具備している。

パラメトリック型のステレオ・オーディオ符号化器３０１内における信号処理は、遅延を抽出し、時間／周波数領域内におけるオーディオ信号のレベルを適応的に計算することにより、空間パラメータ３１３（例えば、チャネル間の時間差分ＩＣＴＤやチャネル間のレベル差分ＩＣＬＤなど）を生成することが可能である。パラメトリック型のステレオ・オーディオ符号化器３０１は、ＩＣＣ（チャネル間のコヒーレンス）に関して時間適応的なフィルタリング処理動作を実行する。一つの実装形態においては、パラメトリック型のステレオ・オーディオ符号化器３０１は、計算の複雑性を低く抑えながらＢＣＣ（Binaural Cue Coding）符号化方式を効率的に実装するために、ＳＴＦＴ（短期間フーリエ変換）に基づくフィルター・バンクを使用する。パラメトリック型のステレオ・オーディオ符号化器３０１内における信号処理は、計算の複雑性を低く抑えながら時間遅延量を少なくすることを可能にしているので、パラメトリック型のステレオ・オーディオ信号の符号化処理動作をリアルタイム・アプリケーションのためのマイクロ・プロセッサやディジタル信号処理プロセッサの上において現状の実装技術で実現可能な形で実装するのに適している。

図３に示されるパラメータ生成器３１１は、空間的なキューの量子化処理と符号化処理が追加されている点を除いて、図１に関連して上述された対応するパラメータ生成器１０５と機能的に同一である。合計の信号３１７は、従来式のモノラル・オーディオ符号化器３１９を使用して符号化される。一つの実装形態においては、パラメトリック型のステレオ・オーディオ符号化器３０１は、ＳＴＦＴに基づく時間／周波数変換処理を使用して、ステレオのオーディオ・チャネル信号３０５、３０７を周波数ドメインへと変換する。上述したＳＴＦＴは、入力信号ｘ（ｎ）内におけるウィンドウ制御された部分区間内に対して離散フーリエ変換処理を適用する。Ｎ点ＤＦＴ変換処理が適用されるのに先立って、Ｎ個の信号サンプルから構成される一つの信号フレームは、長さＷを有するウィンドウ関数と乗算される。隣接するウィンドウ同士は互いに重複する関係にあり、隣接するウィンドウ同士は、Ｗ／２個分の信号サンプルに等しい幅だけ互いにシフトされている。上述したウィンドウは、互いに重複するウィンドウ関数同士の合計が１に等しい定数値となるように選択される。

従って、逆変換処理に関しては、追加のウィンドウ適用操作は全く必要ない。復号化器３０３内においては、Ｗ／２個分の信号サンプルに等しい幅だけ時間的に前方向にずれた複数の連続フレームに対してサイズがＮ点である通常の逆ＤＦＴ変換処理が使用される。スペクトルが修正されていなければ、フレーム同士の間の重複／加算によりフレームの完璧な再構成結果が得られる。

ＳＴＦＴにおいて見られる均一なスペクトル分解能は、人間の知覚に対して良好に適合していないので、ＳＴＦＴが出力する均一に離間配置されたスペクトル係数は、人間の知覚に対してより良好に適合した帯域幅を有する互いに重複しないＢ個の区間にグループ化される。図１に関連した上記説明に従うならば、上述した区間の各々は、概念的には一つのサブバンドに対応している。代替的な実装形態においては、パラメトリック型のステレオ・オーディオ符号化器３０１は、非均一なフィルター・バンクを使用することによって、ステレオのオーディオ・チャネル信号３０５、３０７を周波数ドメインへと変換する。

一つの実装形態においては、ダウンミキシング処理回路３１５は、等化処理された合計の信号３１７を表すＳ_ｍ（ｋ）について、一つの区間ｂ内に含まれる（すなわち、一つのサブバンドｂ内に含まれる）複数のスペクトル係数を以下の式に従って決定する。

上記式において、

は、入力されたオーディオ・チャネル３０５、３０７のスペクトル成分であり、

は、以下の式に従って算出される利得係数である。

また、その際、区間内に電力は、以下の式に従って推定される。

サブバンド信号の合計に対する減衰効果が著しい場合において利得係数の値を大きくした結果として生じるアーチファクトを防止するために、利得係数

の上限を６ｄＢに制限することが可能である。これを式で表すと、

となる。

一つの実装形態においては、パラメータ生成器３１１は、左側チャネル３０５と右側チャネル３０７から構成される複数の入力チャネルに対して、例えば、上述したＳＴＦＴやＦＦＴなどの時間／周波数変換処理を適用する。一つの実装形態においては、当該時間／周波数変換処理はＦＦＴ（高速フーリエ変換）であり、代替的な実装形態においては、当該時間／周波数変換処理はコサイン変調されたフィルター・バンクや複素数型フィルター・バンクなどである。

パラメータ生成器３１１は、ＦＦＴ処理またはＳＴＦＴ処理における周波数ビン［ｂ］の各々について、以下の式に従って交差スペクトルを計算する。

上記の式において、サブバンド［ｂ］は、一つの周波数ビン［ｋ］と直接的に対応しており、周波数ビン［ｂ］と［ｋ］とは全く同一の周波数ビンを表現している。

代替的に、パラメータ生成器３１１は、サブバンド［ｋ］の各々について、以下の式に従って交差スペクトルを計算する。

上記の式において、ｃ［ｂ］は、周波数ビン「ｂ」すなわちサブバンド「ｋ」の交差スペクトルであり、

は左側チャネル３０５と右側チャネル３０７に対応するＦＦＴ係数である。「＊」は複素共役を表す。ｋ_ｂは、サブバンドｂにおける開始ビンであり、ｋ_ｂ＋１は、隣接するサブバンドｂ＋１における開始ビンである。従って、ＦＦＴ処理またはＳＴＦＴ処理においてｋ_ｂとｋ_ｂ＋１−１との間に位置する複数の周波数ビン［ｋ］は、サブバンド［ｂ］を表現している。

一つの実装形態においては、パラメータ生成器３１１は、複数の周波数ビンに跨って、すなわち複数のサブバンドに跨って平均化されたＩＰＤ（ＩＰＤ_ｍｅａｎ）を算出する

続いて、以前に算出されたＩＰＤ_ｍｅａｎの値に基づいて、パラメータ生成器３１１は、ＩＰＤの長期間平均値を算出する。ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}は、最新のＮ個のフレーム（例えば、Ｎ＝１０と設定することが可能である）に跨ってＩＰＤを平均化した値として以下の式に従って算出される。

ＩＰＤパラメータの安定性を評価するために、ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}と符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］との間の距離（すなわち、ＩＰＤ_ｄｉｓｔ）がパラメータ生成器３１１によって計算され、これは、最新のＮ個のフレーム期間にわたるＩＰＤの漸進的変化を示している。好適な実施例においては、局所的なＩＰＤと長期間平均のＩＰＤとの間の距離は、ＩＰＤの局所平均とＩＰＤの長期間平均との間の差分の絶対値として、以下の式に従って計算される。

一つの実装形態においては、パラメータ生成器３１１は、チャネル間のコヒーレンス、すなわちＩＣＣパラメータを以下の式に従って算出することも可能である。

何故ならば、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ＩＣＣの値は１に近くなり、同時にこの時、ＩＰＤ_ｄｉｓｔの値は０に近くなる。

代替的に、パラメータ生成器３１１は、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値との間の関係を定義する関係式として以下の式

を使用することも可能であり、この場合、上述した２つのパラメータＩＣＣとＩＰＤ_ｄｉｓｔとの間の補数関係をより良好に表現することが出来るように係数ｄとｅの値が選ばれる。さらなる実施例においては、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、

と一般化することが可能である。

パラメータ生成器３１１は、ＩＣＣの概算値を推定するために、ＩＰＤ_ｄｉｓｔを使用する。交差スペクトルの算出は、相関の計算よりも必要とされる計算の複雑性が低い。さらに、パラメトリック型の空間オーディオ符号化器においてＩＰＤパラメータを算出する場合、この交差スペクトルは既に算出済みであり、その結果、全体の計算複雑性は低減される。

図４は、本発明に係る一実装形態に従って、オーディオ・チャネル信号に関する符号化パラメータを生成するための方法４００を説明する動作ブロック図を示している。方法４００は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号ｘ_１［ｎ］，ｘ_２［ｎ］の中のオーディオ・チャネル信号ｘ_１［ｎ］に関して符号化パラメータＩＣＣを生成するための方法である。複数のオーディオ・チャネル信号ｘ_１［ｎ］，ｘ_２［ｎ］の各々は、オーディオ・チャネル信号値を有している。図４は、当該複数のオーディオ・チャネル信号が、左側のオーディオ・チャネルｘ_１［ｎ］と右側のオーディオ・チャネルｘ_２［ｎ］を具備しているステレオ信号の場合を図示している。方法４００は以下の処理ステップを順に実行する。

左側のオーディオ・チャネル信号ｘ_１［ｎ］に対してＦＦＴ変換処理（処理ステップ４０１）を適用し、右側のオーディオ・チャネル信号ｘ_２［ｎ］に対してＦＦＴ変換処理（処理ステップ４０３）を適用することによって、周波数ドメイン表現のオーディオ・チャネル信号Ｘ_１［ｂ］，Ｘ_２［ｂ］を取得するステップであって、周波数ドメイン内における周波数ビン［ｂ］に関して、Ｘ_１［ｂ］は、左側のオーディオ・チャネル信号であり、Ｘ_２［ｂ］は、右側のオーディオ・チャネル信号である。代替的に、左側のオーディオ・チャネル信号ｘ_１［ｎ］と右側のオーディオ・チャネル信号ｘ_２［ｎ］に対してフィルター・バンクによる変換処理を適用することによって、周波数ドメイン表現のオーディオ・チャネル信号Ｘ_１［ｂ］，Ｘ_２［ｂ］を取得することも可能であり、その場合、［ｂ］は周波数サブバンドを表している。

左側のオーディオ・チャネル信号Ｘ_１［ｂ］と右側のオーディオ・チャネル信号Ｘ_２［ｂ］に関する周波数ビン［ｂ］の各々について、相互相関ｃ［ｂ］を決定するステップ４０５、または代替的に、左側のオーディオ・チャネル信号Ｘ_１［ｂ］と右側のオーディオ・チャネル信号Ｘ_２［ｂ］に関する周波数サブバンド［ｂ］の各々について、相互相関ｃ［ｂ］を決定するステップ４０５。

複数のオーディオ・チャネル信号の中のオーディオ・チャネル信号Ｘ_１［ｂ］に関して、オーディオ・チャネル信号Ｘ_１［ｂ］のオーディオ・チャネル信号値と基準オーディオ信号Ｘ_２［ｂ］の基準オーディオ信号値から、複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］を決定するステップ４０７であって、基準オーディオ信号は、複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号Ｘ_２［ｂ］とすることが可能であり、あるいは多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも２つから導出されたダウンミキシング済みのオーディオ信号とすることが可能である、ステップ４０７。ここで、図４の動作ブロック図は、ステレオ信号の場合を図示しており、この場合、上述した決定するステップ４０７における決定動作は、左側のオーディオ・チャネル信号Ｘ_１［ｂ］に関して複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］を決定する動作であり、同時に、基準オーディオ信号は、右側のオーディオ・チャネル信号Ｘ_２［ｂ］に相当する。

オーディオ・チャネル信号Ｘ_１［ｂ］に関する複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］に基づいて、オーディオ・チャネル信号Ｘ_１［ｂ］に関する符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］を決定するステップ４０９。

オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］とオーディオ・チャネル信号X₁[b]に関する符号化パラメータのさらに別の第１の平均値の少なくとも一つであって、ＩＰＤ_ｍｅａｎ［ｉ−１］と表記される平均値に基づいて、オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第２の平均値ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}を決定するステップ４１１であって、符号化パラメータのさらに別の第１の平均値ＩＰＤ_ｍｅａｎ［ｉ−１］は、オーディオ・チャネル信号X₁[b]に関するＮ個の先行するフレームから算出される、ステップ４１１。

オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第１の平均値ＩＰＤ_ｍｅａｎ［ｉ］に基づき、かつ、オーディオ・チャネル信号X₁[b]に関する符号化パラメータの第２の平均値ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}に基づいて、符号化パラメータＩＣＣを決定するステップ４１３。

一つの実装形態においては、オーディオ・チャネル信号X₁[b]に関する複数の符号化パラメータを含む第１パラメータ群ＩＰＤ［ｂ］は既に利用可能な状態であり、方法４００は、上述したように、ステップ４０９から実行開始して、ステップ４１１および４１３と実行して行くことが可能である。

図４には示されていないが、方法４００は、多重チャネルのオーディオ信号を扱う一般化された場合にも適用することが可能であり、その場合、基準オーディオ信号は、図１に関して上述したとおり、別のオーディオ・チャネル信号またはダウンミキシング済み信号とすることが可能である。

一つの実装形態においては、方法４００に従った信号処理は以下のように実行することが可能である。

第１の処理ステップ４０１および４０３においては、入力チャネル（例えば、ステレオ信号の場合なら、左側と右側のオーディオ・チャネル）に対して時間／周波数変換処理が適用される。好適な実施例においては、時間／周波数変換処理は、ＦＦＴ（高速フーリエ変換）処理である。代替的な実施例においては、時間／周波数変換処理は、コサイン変調されたフィルター・バンクまたは複素数型フィルター・バンクである。

第２の処理ステップ４０５においては、ＦＦＴ処理における周波数ビン［ｂ］の各々について、以下の式に従って交差スペクトルが計算される。

代替的に、サブバンド［ｋ］の各々について、以下の式に従って交差スペクトルを計算することも可能である。

は２つのチャネル（例えば、ステレオ信号の場合なら、左側チャネルと右側チャネル）に対応するＦＦＴ係数である。「＊」は複素共役を表す。ｋ_ｂは、サブバンドｂにおける開始ビンであり、ｋ_ｂ＋１は、隣接するサブバンドｂ＋１における開始ビンである。従って、ＦＦＴ処理またはＳＴＦＴ処理においてｋ_ｂとｋ_ｂ＋１−１との間に位置する複数の周波数ビン［ｋ］は、サブバンド［ｂ］を表現している。

第３の処理ステップ４０７においては、「チャネル間の位相差分（ＩＣＰＤ）」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。

第４の処理ステップ４０９においては、複数の周波数ビンに跨って、すなわち複数のサブバンドに跨って平均化されたＩＰＤ（ＩＰＤ_ｍｅａｎ）が以下の式に従って算出される。

処理ステップ４１１においては、以前に算出されたＩＰＤ_ｍｅａｎの値に基づいて、パラメータ生成器３１１は、ＩＰＤの長期間平均値を算出する。ＩＰＤ_{ｍｅａｎ_ｌｏｎｇ_ｔｅｒｍ}は、最新のＮ個のフレーム（例えば、Ｎ＝１０と設定することが可能である）に跨ってＩＰＤを平均化した値として以下の式に従って算出される。

処理ステップ４１３においては、チャネル間のコヒーレンス、すなわちＩＣＣパラメータを以下の式に従って算出することが可能である。

代替的に、処理ステップ４１３においては、ＩＣＣの値とＩＰＤ_ｄｉｓｔの値との間の関係を定義する関係式として以下の式

と一般化することが可能である。

本明細書中において上述した実施例の説明より、当該技術分野における当業者であれば、本発明に係る実施例を多種多様な方法、システム、記録媒体上に記録されたコンピュータ・プログラムなどとして実現することが可能である。

本明細書中の開示内容は、実行された際に、本明細書中において上述した処理ステップを少なくとも一つのコンピュータ装置に実行させ、計算させるコンピュータ実行可能なプログラム・コードやコンピュータ実行可能な命令を含んでいるコンピュータ・プログラム製品をさらにサポートしている。

本明細書中の開示内容は、本明細書中において上述した処理ステップを実行し、計算することができるように構成されたシステムをさらにサポートする。

本明細書中において上述した実施例の説明より、当該技術分野における当業者であれば、本発明に係る数多くの代替実施例や変形実施例を直ちに自明なものとして考え付くことが出来るだろう。当然のことであるが、当該技術分野における当業者であれば、本発明を応用すべき特定用途やアプリケーションは、本明細書に開示されたもの以外にも数多く存在し得ることを直ちに理解するだろう。本発明は、一つ以上の特定の実施例を参照しながら説明されて来たけれども、当該技術分野における当業者であれば、本発明の技術思想と技術的範囲を逸脱すること無しに、本発明の実施に際して、本明細書記載の実施例に対して数多くの変更や修正を加えることが可能である。従って、本明細書に添付した特許請求の範囲記載の発明とその均等物を含む範囲内において、本発明を実施することが可能であり、さもなければ、本明細書中において当業者が実施可能な程度に具体的に説明されていることが理解できる。

本発明に係る対応する実施例は、ＩＴＵ−ＴＧ．７２２，Ｇ．７２２のＡｎｎｅｘＢＧ．７１１．１および／またはＧ７１１．１のＡｎｎｅｘＤで仕様が規定されているステレオ拡張に関する符号化器において適用することが可能である。さらに、上述した方法は、３ＧＰＰＥＶＳ（Enhanced Voice Service）コーデックにおいて規定されているモバイル・アプリケーション用の会話とオーディオの符号化器のために応用することが可能である。

Claims

多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置であって、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は：
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作；
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；
を実行するように構成されることを特徴とする、パラメトリック型オーディオ符号化装置。
請求項１記載のパラメトリック型オーディオ符号化装置であって、
複数の符号化パラメータから成る前記第１パラメータ群に含まれるパラメータは：
チャネル間のレベル差分；
チャネル間の位相差分；
チャネル間のコヒーレンス；
チャネル間の強度差分；
サブバンドに関するチャネル間のレベル差分；
サブバンドに関するチャネル間の位相差分；
サブバンドに関するチャネル間のコヒーレンス；および、
サブバンドに関するチャネル間の強度差分、
の何れか一つ以であることを特徴とするパラメトリック型オーディオ符号化装置。
請求項１または請求項２記載のパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、複数の符号化パラメータから成る第１パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項３の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
前記オーディオ・チャネル信号と前記基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項４の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
前記パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項５の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第１パラメータ群を決定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項６の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る前記第１パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第１の平均値を決定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項７の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの前記第１の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第２の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの前記第１の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項８の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの前記第２の平均値とオーディオ・チャネル信号に関する符号化パラメータの前記第１の平均値との間の差分の絶対値を決定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項９記載のパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、前記決定された絶対値の関数として符号化パラメータを決定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項９または請求項１０に記載されたパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、第１のパラメータ値と、前記決定された絶対値に第２のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１１記載のパラメトリック型オーディオ符号化装置であって、
前記パラメータ生成器は、第１のパラメータ値を１に設定し、第２のパラメータ値を１に設定するように構成される、
ことを特徴とするパラメトリック型オーディオ符号化装置。
請求項１乃至請求項１２の中の何れか一項に記載されたパラメトリック型オーディオ符号化装置であって、
パラメトリック型オーディオ符号化器は：
多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも２つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器；
前記ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器；
をさらに具備していることを特徴とするパラメトリック型オーディオ符号化装置。
多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法であって、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は：
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第１パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作；
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第１パラメータ群に基づいて、符号化パラメータの第１の平均値を、前記オーディオ・チャネル信号について決定する処理動作；
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第１の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第２の平均値を決定する処理動作；および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第１の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第２の平均値とに基づいて前記符号化パラメータを決定する処理動作；
を具備することを特徴とする。
コンピュータ装置上で実行された際に、請求項１４記載の方法を実行するように構成されたコンピュータ・プログラム。