JP2008522244A

JP2008522244A - オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング

Info

Publication number: JP2008522244A
Application number: JP2007544408A
Authority: JP
Inventors: フォラー，クリストフ
Original assignee: Agere Systems LLC
Current assignee: Agere Systems LLC
Priority date: 2004-11-30
Filing date: 2005-11-22
Publication date: 2008-06-26
Anticipated expiration: 2025-11-22
Also published as: TWI427621B; TW200636677A; WO2006060279A1; EP1817767A1; KR101215868B1; KR20070086851A; JP5106115B2; US20080130904A1; EP1817767B1; US8340306B2

Abstract

オブジェクト・ベースのキュー・コードが、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表し、その特性が、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、１つまたは複数のオブジェクト・ベースのキュー・コードを用いるバイノーラル・キュー・コーディング方式。オブジェクト・ベースのキュー・コードの例には、オーディトリ・イベントの角度、オーディトリ・イベントの幅、オーディトリ・シーンのエンベロップメントの度合、およびオーディトリ・シーンの指向性が含まれる。

Description

関連出願の相互参照
本願は、その教示が参照によって本明細書に組み込まれている、弁理士整理番号Ｆａｌｌｅｒ１９として２００４年１１月３０日に出願した米国仮出願第６０／６３１７９８号の利益を主張するものである。
本願の主題は、次の米国特許出願の主題に関連し、これらの米国特許出願のすべての教示が、参照によって本明細書に組み込まれている。
○弁理士整理番号Ｆａｌｌｅｒ５として２００１年５月４日に出願した米国特許出願第０９／８４８８７７号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ１−６−８として２００１年１１月７日に出願した米国特許出願第１０／０４５４５８号（これ自体は、２００１年８月１０日に出願した米国仮出願第６０／３１１５６５号の利益を主張する）、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ２−１０として２００２年５月２４日に出願した米国特許出願第１０／１５５４３７号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ３−１１として２００２年９月１８日に出願した米国特許出願第１０／２４６５７０号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ７−１２として２００４年４月１日に出願した米国特許出願第１０／８１５５９１号、
○弁理士整理番号Ｂａｕｍｇａｒｔｅ８−７−１５として２００４年９月８日に出願した米国特許出願第１０／９３６４６４号、
○２００４年１月２０日に出願した米国特許出願第１０／７６２１００号（Ｆａｌｌｅｒ１３−１）、
○弁理士整理番号Ａｌｌａｍａｎｃｈｅ１−２−１７−３として２００４年１２月７日に出願した米国特許出願第１１／００６４９２号、
○弁理士整理番号Ａｌｌａｍａｎｃｈｅ２−３−１８−４として２００４年１２月７日に出願した米国特許出願第１１／００６４８２号、
○弁理士整理番号Ｆａｌｌｅｒ２２−５として２００５年１月１０日に出願した米国特許出願第１１／０３２６８９号、および、
○弁理士整理番号Ｆａｌｌｅｒ２０として２００５年２月１５日に出願した米国特許出願第１１／０５８７４７号（これ自体は、２００４年１１月３０日に出願した米国仮出願第６０／６３１９１７号の利益を主張する）。
本願の主題は、次の論文に記載の主題にも関連し、これらの論文のすべての教示が、参照によって本明細書に組み込まれている。
○Ｆ．ＢａｕｍｇａｒｔｅａｎｄＣ．Ｆａｌｌｅｒ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩ：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｆｕｎｄａｍｅｎｔａｌｓａｎｄｄｅｓｉｇｎｐｒｉｎｃｉｐｌｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月、
○Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月、および
○Ｃ．Ｆａｌｌｅｒ、「Ｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏｃｏｍｐａｔｉｂｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔｐｌａｙｂａｃｋｆｏｒｍａｔｓ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年１０月。
本発明は、オーディオ信号のエンコーディングと、エンコードされたオーディオ・データからのオーディトリ・シーン（ａｕｄｉｔｏｒｙｓｃｅｎｅ）の後続合成とに関する。

人が、特定のオーディトオ・ソースによって生成されたオーディオ信号（すなわち、サウンド）を聞く時に、そのオーディオ信号は、通常、その人の左右の耳に、２つの異なる時刻に２つの異なるオーディオ（たとえば、デシベル）レベルで到着し、ここで、この異なる時刻およびレベルは、それを介してオーディオ信号が移動してそれぞれ左右の耳に達する経路の差の関数である。その人の脳は、時刻およびレベルにおけるこれらの差を解釈して、その人に、受け取られたオーディオ信号がその人に対する相対的な特定の位置（たとえば、方向および距離）に置かれたオーディトオ・ソースによって生成されていることの知覚を与える。オーディトリ・シーンは、ある人に対して相対的な１つまたは複数の異なる位置に置かれた１つまたは複数の異なるオーディトオ・ソースによって生成されるオーディオ信号をその人が同時に聞くことの正味の影響である。

脳によるこの処理の存在を使用して、オーディトリ・シーンを合成することができ、ここで、１つまたは複数の異なるオーディトオ・ソースからのオーディオ信号は、異なるオーディトオ・ソースがリスナに対して相対的に異なる位置に置かれていることの知覚を与える左右のオーディオ信号を生成するために意図的に変更される。

図１に、従来のバイノーラル信号シンセサイザ１００の高水準ブロック図を示すが、このバイノーラル信号シンセサイザ１００は、単一のオーディトオ・ソース信号（たとえば、モノ信号）をバイノーラル信号の左右のオーディオ信号に変換し、ここで、バイノーラル信号は、リスナの鼓膜で受け取られる２つの信号と定義される。オーディトオ・ソース信号に加えて、シンセサイザ１００は、リスナに対する相対的なオーディトオ・ソースの所望の位置に対応する空間的キュー（ｓｐａｔｉａｌｃｕｅ）の組を受け取る。通常の実施態様では、空間的キューの組に、チャネル間レベル差（ｉｎｔｅｒ−ｃｈａｎｎｅｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅ、ＩＣＬＤ）値（それぞれ左右の耳で受け取られた左右のオーディオ信号の間のオーディオ・レベルの差を識別する）と、チャネル間時間差（ｉｎｔｅｒ−ｃｈａｎｎｅｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ、ＩＣＴＤ）値（それぞれ左右の耳で受け取られた左右のオーディオ信号の間の到着の時刻の差を識別する）とが含まれる。それに加えてまたは代替物として、いくつかの合成技法は、頭部伝達関数（ＨＲＴＦ）とも称する、信号源から鼓膜までのサウンドに関する方向依存の伝達関数のモデリングを用いる。たとえば、その教示が参照によって本明細書に組み込まれている、Ｊ．Ｂｌａｕｅｒｔ、「ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ」、ＭＩＴＰｒｅｓｓ、１９８３年を参照されたい。

図１のバイノーラル信号シンセサイザ１００を使用することによって、単一オーディトオ・ソースによって生成されたモノ・オーディオ信号を処理し、ヘッドホンを介して聞かれる時に、耳ごとのオーディオ信号を生成するために空間的キューの適当な組（たとえば、ＩＣＬＤ、ＩＣＴＤ、および／またはＨＲＴＦ）を適用することによって、オーディトオ・ソースが空間的に置かれるようにすることができる。たとえば、Ｄ．Ｒ．Ｂｅｇａｕｌｔ、「３−ＤＳｏｕｎｄｆｏｒＶｉｒｔｕａｌＲｅａｌｉｔｙａｎｄＭｕｌｔｉｍｅｄｉａ」、ＡｃａｄｅｍｉｃＰｒｅｓｓ、米国マイアミ州ケンブリッジ、１９９４年を参照されたい。

図１のバイノーラル信号シンセサイザ１００は、最も単純なタイプのオーディトリ・シーンすなわち、リスナに対して相対的に置かれた単一の音源を有するオーディトリ・シーンを生成する。リスナに対して相対的に異なる位置に置かれた２つ以上の音源を含むより複雑なオーディトリ・シーンは、本質的にバイノーラル信号シンセサイザの２つ以上のインスタンスを使用して実施されるオーディトリ・シーン・シンセサイザを使用して生成することができ、ここで、各バイノーラル信号シンセサイザ・インスタンスは、異なるオーディオ・ソースに対応するバイノーラル信号を生成する。各異なるオーディオ・ソースは、リスナに対して相対的に異なる位置を有するので、空間的キューの異なる組が、異なるオーディオ・ソースごとにバイノーラル・オーディオ信号を生成するのに使用される。
米国仮出願第６０／６３１７９８号米国特許出願第０９／８４８８７７号米国特許出願第１０／０４５４５８号米国仮出願第６０／３１１５６５号米国特許出願第１０／１５５４３７号米国特許出願第１０／２４６５７０号米国特許出願第１０／８１５５９１号米国特許出願第１０／９３６４６４号米国特許出願第１０／７６２１００号米国特許出願第１１／００６４９２号米国特許出願第１１／００６４８２号米国特許出願第１１／０３２６８９号米国特許出願第１１／０５８７４７号米国仮出願第６０／６３１９１７号Ｆ．ＢａｕｍｇａｒｔｅａｎｄＣ．Ｆａｌｌｅｒ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩ：Ｐｓｙｃｈｏａｃｏｕｓｔｉｃｆｕｎｄａｍｅｎｔａｌｓａｎｄｄｅｓｉｇｎｐｒｉｎｃｉｐｌｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ、「ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６、２００３年１１月Ｃ．Ｆａｌｌｅｒ、「Ｃｏｄｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏｃｏｍｐａｔｉｂｌｅｗｉｔｈｄｉｆｆｅｒｅｎｔｐｌａｙｂａｃｋｆｏｒｍａｔｓ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年１０月Ｊ．Ｂｌａｕｅｒｔ、「ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ」、ＭＩＴＰｒｅｓｓ、１９８３年Ｄ．Ｒ．Ｂｅｇａｕｌｔ、「３−ＤＳｏｕｎｄｆｏｒＶｉｒｔｕａｌＲｅａｌｉｔｙａｎｄＭｕｌｔｉｍｅｄｉａ」、ＡｃａｄｅｍｉｃＰｒｅｓｓ、米国マイアミ州ケンブリッジ、１９９４年Ｃ．Ｆａｌｌｅｒ、「Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．、２００３年Ｅ．Ｓｃｈｕｉｊｅｒｓ、Ｗ．Ｏｏｍｅｎ、Ｂ．ｄｅｎＢｒｉｎｋｅｒ、およびＪ．Ｂｒｅｅｂａａｒｔ、「Ａｄｖａｎｃｅｓｉｎｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｆｏｒｈｉｇｈ−ｑｕａｌｉｔｙａｕｄｉｏ」、Ｐｒｅｐｒｉｎｔ１１４ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００３年３月Ｊ．Ｅｎｇｄｅｇａｒｄ、Ｈ．Ｐｕｒｎｈａｇｅｎ、Ｊ．Ｒｏｄｅｎ、およびＬ．Ｌｉｌｊｅｒｙｄ、「Ｓｙｎｔｈｅｔｉｃａｍｂｉｅｎｃｅｉｎｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年５月

一実施形態によれば、本発明は、オーディオ・チャネルをエンコードする方法、装置、および機械可読媒体である。１つまたは複数のキュー・コードが、２つ以上のオーディオ・チャネルについて生成され、少なくとも１つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立であり、１つまたは複数のキュー・コードが、送出される。

もう１つの実施形態によれば、本発明は、Ｅ個の被送出オーディオ・チャネルを生成するためにＣ個の入力オーディオ・チャネルをエンコードする装置である。この装置には、コード・エスティメータとダウンミキサとが含まれる。コード・エスティメータは、２つ以上のオーディオ・チャネルの１つまたは複数のキュー・コードを生成し、少なくとも１つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である。ダウンミキサは、Ｅ個の被送出チャネルを生成するためにＣ個の入力チャネルをダウンミキシングし、Ｃ＞Ｅ≧１であり、この装置は、デコーダがＥ個の被送出チャネルのデコーディング中に合成処理を実行することを可能にするためにキュー・コードに関する情報を送出する。

もう１つの実施形態によれば、本発明は、オーディオ・チャネルをエンコードすることによって生成されるビットストリームである。１つまたは複数のキュー・コードが、２つ以上のオーディオ・チャネルについて生成され、少なくとも１つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である。Ｅ≧１である、２つ以上のオーディオ・チャネルに対応する１つまたは複数のキュー・コードおよびＥ個の被送出チャネルは、エンコードされたオーディオ・ビットストリームにエンコードされる。

もう１つの実施形態によれば、本発明は、Ｃ個の再生オーディオ・チャネルを生成するためにＥ個の被送出オーディオ・チャネルをデコードする方法、装置、および機械可読媒体であり、Ｃ＞Ｅ≧１である。Ｅ個の被送出チャネルに対応するキュー・コードが、受け取られ、少なくとも１つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である。Ｅ個の被送出チャネルのうちの１つまたは複数が、１つまたは複数のアップミキシングされたチャネルを生成するためにアップミキシングされる。Ｃ個の再生チャネルのうちの１つまたは複数が、１つまたは複数のアップミキシングされたチャネルにキュー・コードを適用することによって合成される。

本発明の他の態様、特徴、および利点は、次の詳細な説明、添付の特許請求の範囲、および添付図面からより十分に明白になり、添付図面では、類似する符号が類似する要素または同一の要素を識別する。

バイノーラル・キュー・コーディング（ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ、ＢＣＣ）では、エンコーダは、Ｃ個の入力オーディオ・チャネルをエンコードしてＥ個の被送出オーディオ・チャネルを生成し、ここでＣ＞Ｅ≧１である。具体的に言うと、Ｃ個の入力チャネルのうちの２つ以上が、周波数領域で供給され、１つまたは複数のキュー・コードが、周波数領域のその２つ以上の入力チャネル内の１つまたは複数の異なる周波数帯のそれぞれについて生成される。さらに、Ｃ個の入力チャネルが、Ｅ個の被送出チャネルを生成するためにダウンミキシングされる。いくつかのダウンミキシング実施態様では、Ｅ個の被送出チャネルのうちの少なくとも１つは、Ｃ個の入力チャネルのうちの２つ以上に基づき、Ｅ個の被送出チャネルのうちの少なくとも１つは、Ｃ個の入力チャネルのうちの単一の１つだけに基づく。

一実施形態で、ＢＣＣコーダは、２つ以上のフィルタ・バンク、コード・エスティメータ、およびダウンミキサを有する。２つ以上のフィルタ・バンクは、Ｃ個の入力チャネルのうちの２つ以上を時間領域から周波数領域に変換する。コード・エスティメータは、２つ以上の変換された入力チャネル内の１つまたは複数の異なる周波数帯のそれぞれについて１つまたは複数のキュー・コードを生成する。ダウンミキサは、Ｃ個の入力チャネルをダウンミキシングして、Ｅ個の被送出チャネルを生成し、ここで、Ｃ＞Ｅ≧１である。

ＢＣＣデコーディングでは、Ｅ個の被送出オーディオ・チャネルが、Ｃ個の再生（すなわち、合成された）オーディオ・チャネルを生成するためにデコードされる。具体的に言うと、１つまたは複数の異なる周波数帯のそれぞれについて、Ｅ個の被送出チャネルのうちの１つまたは複数が、周波数領域でアップミキシングされて、周波数領域のＣ個の再生チャネルのうちの２つ以上を生成し、ここで、Ｃ＞Ｅ≧１である。１つまたは複数のキュー・コードが、周波数領域の２つ以上の再生チャネル内の１つまたは複数の異なる周波数帯のそれぞれに適用されて、２つ以上の変更されたチャネルが生成され、これらの２つ以上の変更されたチャネルは、周波数領域から時間領域に変換される。いくつかのアップミキシング実施態様では、Ｃ個の再生チャネルのうちの少なくとも１つは、Ｅ個の被送出チャネルのうちの少なくとも１つおよび少なくとも１つのキュー・コードに基づき、Ｃ個の再生チャネルのうちの少なくとも１つは、Ｅ個の被送出チャネルのうちの単一の１つだけに基づき、どのキュー・コードからも独立である。

一実施形態で、ＢＣＣデコーダは、アップミキサ、シンセサイザ、および１つまたは複数の逆フィルタ・バンクを有する。１つまたは複数の異なる周波数帯のそれぞれについて、アップミキサは、周波数領域のＥ個の被送出チャネルのうちの１つまたは複数をアップミキシングして、周波数領域のＣ個の再生チャネルのうちの２つ以上を生成し、ここで、Ｃ＞Ｅ≧１である。シンセサイザは、１つまたは複数のキュー・コードを周波数領域の２つ以上の再生チャネル内の１つまたは複数の異なる周波数帯のそれぞれに適用して、２つ以上の変更されたチャネルを生成する。１つまたは複数の逆フィルタ・バンクは、２つ以上の変更されたチャネルを周波数領域から時間領域に変換する。

特定の実施態様に応じて、所与の再生チャネルを、２つ以上の被送出チャネルの組合せではなく、単一の被送出チャネルに基づくものとすることができる。たとえば、１つの被送出チャネルだけがある場合に、Ｃ個の再生チャネルのそれぞれは、その１つの被送出チャネルに基づく。これらの情況では、アップミキシングは、対応する被送出チャネルをコピーすることに対応する。したがって、１つの被送出チャネルだけがある応用例では、アップミキサを、再生チャネルごとに被送出チャネルをコピーするリプリケータを使用して実施することができる。

ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、たとえば、ディジタル・ビデオ・レコーダ／プレイヤ、ディジタル・オーディオ・レコーダ／プレイヤ、コンピュータ、衛星送信器／受信器、ケーブル送信器／受信器、地上波放送送信器／受信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムを含む２つ以上のシステムまたは応用例に組み込むことができる。

包括的なＢＣＣ処理
図２は、エンコーダ２０２とデコーダ２０４とを含む包括的なバイノーラル・キュー・コーディング（ＢＣＣ）オーディオ処理システム２００のブロック図である。エンコーダ２０２には、ダウンミキサ２０６とＢＣＣエスティメータ２０８とが含まれる。

ダウンミキサ２０６は、Ｃ個の入力オーディオ・チャネルｘ_ｉ（ｎ）をＥ個の被送出オーディオ・チャネルｙ_ｉ（ｎ）に変換し、ここで、Ｃ＞Ｅ≧１である。本明細書では、変数ｎを使用して表される信号は、時間領域信号であり、変数ｋを使用して表される信号は、周波数領域信号である。特定の実施態様に応じて、ダウンミキシングを、時間領域または周波数領域のいずれかで実施することができる。ＢＣＣエスティメータ２０８は、Ｃ個の入力オーディオ・チャネルからＢＣＣコードを生成し、これらのＢＣＣコードを、Ｅ個の被送出オーディオ・チャネルに対する帯域内サイド情報または帯域外サイド情報のいずれかとして送出する。通常のＢＣＣコードには、周波数および時間の関数として入力チャネルのある対の間で推定された、チャネル間時間差（ＩＣＴＤ）データ、チャネル間レベル差（ＩＣＬＤ）データ、およびチャネル間相関（ｉｎｔｅｒ−ｃｈａｎｎｅｌｃｏｒｒｅｌａｔｉｏｎ、ＩＣＣ）データのうちの１つまたは複数が含まれる。特定の実施態様は、入力チャネルのどの特定の対の間でＢＣＣコードが推定されるかを規定する。

ＩＣＣデータは、バイノーラル信号のコヒーレンスに対応し、このコヒーレンスは、オーディオ・ソースの知覚される幅に関連する。オーディオ・ソースが幅広いほど、結果のバイノーラル信号の左チャネルと右チャネルとの間のコヒーレンスは小さい。たとえば、公会堂のステージ全体に広がったオーケストラに対応するバイノーラル信号のコヒーレンスは、通常、単独で演奏される単一のバイオリンに対応するバイノーラル信号のコヒーレンスより小さい。一般に、より小さいコヒーレンスを有するオーディオ信号は、通常、聴覚空間内でより広がっているものとして知覚される。したがって、ＩＣＣデータは、通常、見かけのソース幅とリスナ・エンベロップメント（ｌｉｓｔｅｎｅｒｅｎｖｅｌｏｐｍｅｎｔ）の度合とに関連する。たとえば、Ｊ．Ｂｌａｕｅｒｔ、「ＴｈｅＰｓｙｃｈｏｐｈｙｓｉｃｓｏｆＨｕｍａｎＳｏｕｎｄＬｏｃａｌｉｚａｔｉｏｎ」、ＭＩＴＰｒｅｓｓ、１９８３年を参照されたい。

特定の応用例に応じて、Ｅ個の被送出オーディオ・チャネルおよび対応するＢＣＣコードを、デコーダ２０４に直接に送出するか、デコーダ２０４による後続アクセスのためにある適切なタイプのストレージ・デバイスに保管することができる。情況に応じて、用語「送出」は、デコーダへの直接送出またはデコーダへの後続供給のための保管のいずれかを指すことができる。どちらの場合でも、デコーダ２０４は、被送出オーディオ・チャネルとサイド情報とを受け取り、アップミキシングおよびＢＣＣコードを使用するＢＣＣ合成を実行して、Ｅ個の被送出オーディオ・チャネルを、オーディオ再生用のＥ個を超える（必ずではないが通常はＣ個の）再生オーディオ・チャネル

に変換する。特定の実施態様に応じて、アップミキシングを、時間領域または周波数領域のいずれかで実行することができる。

図２に示されたＢＣＣ処理に加えて、包括的なＢＣＣオーディオ処理システムには、さらに、それぞれ、エンコーダでオーディオ信号を圧縮し、デコーダでオーディオ信号を圧縮解除するために、追加のエンコーディング・ステージおよびデコーディング・ステージを含めることができる。これらのオーディオ・コーデックは、パルス符号変調（ＰＣＭ）、差分ＰＣＭ（ＤＰＣＭ）、または適応ＤＰＣＭ（ＡＤＰＣＭ）に基づくものなどの従来のオーディオ圧縮／圧縮解除技法に基づくものとすることができる。

ダウンミキサ２０６が単一の和信号を生成する（すなわち、Ｅ＝１）場合に、ＢＣＣコーディングは、モノ・オーディオ信号を表すのに必要なものよりごくわずかに高いビットレートでマルチチャネル・オーディオ信号を表すことができる。これがそうであるのは、チャネル対の間の推定されたＩＣＴＤデータ、ＩＣＬＤデータ、およびＩＣＣデータが、オーディオ波形より約２桁少ない情報を含むからである。

ＢＣＣコーディングの低いビットレートだけではなく、その後方互換性態様も、重要である。単一の被送出和信号は、オリジナルのステレオ信号またはマルチチャネル信号のモノ・ダウンミックスに対応する。ステレオ・サウンド再現またはマルチチャネル・サウンド再現をサポートしないレシーバについて、被送出和信号に聞き入ることは、低プロファイル・モノ再現機器でオーディオ素材を提示する有効な方法である。したがって、ＢＣＣコーディングは、モノ・オーディオ素材の配信を伴う既存サービスをマルチチャネル・オーディオに向かって機能強化するのに使用することもできる。たとえば、ＢＣＣサイド情報を既存送出チャネルに埋め込むことができる場合に、既存のモノ・オーディオ・ラジオ放送システムを、ステレオ再生またはマルチチャネル再生のために機能強化することができる。マルチチャネル・オーディオをステレオ・オーディオに対応する２つの和信号にダウンミキシングする場合に、類似する機能が存在する。

ＢＣＣは、ある時間および周波数の分解能を用いてオーディオ信号を処理する。使用される周波数分解能は、主に、人間の聴覚系の周波数分解能によって誘導される。音響心理学は、空間的知覚が、音響入力信号の臨界帯域表現に基づく可能性が最も高いことを示唆する。この周波数分解能は、人間の聴覚系の臨界帯域幅と等しいかこれに比例する帯域幅を有するサブバンドを有する可逆フィルタ・バンク（たとえば、高速フーリエ変換（ＦＦＴ）または直交ミラー・フィルタ（ＱＭＦ）に基づく）を使用することによって考慮される。

包括的なダウンミキシング
好ましい実施態様では、１つまたは複数の被送出和信号に、入力オーディオ信号の信号成分のすべてが含まれる。目標は、各信号成分が十分に維持されることである。オーディオ入力チャネルの単純な合計は、しばしば、信号成分の増幅または減衰をもたらす。言い換えると、「単純な」和の信号成分の電力は、しばしば、各チャネルの対応する信号成分の電力の和より大きいまたはこれより小さい。和信号の信号成分の電力が、全入力チャネルの対応する電力とほぼ同一になるように和信号を等化するダウンミキシング技法を、使用することができる。

図３に、ＢＣＣシステム２００のある種の実施態様による、図２のダウンミキサ２０６に使用できるダウンミキサ３００のブロック図を示す。ダウンミキサ３００は、入力チャネルｘ_ｉ（ｎ）ごとのフィルタ・バンク（ＦＢ）３０２、ダウンミキシング・ブロック３０４、任意選択のスケーリング／遅延ブロック３０６、およびエンコードされたチャネルｙ_ｉ（ｎ）ごとの逆ＦＢ（ＩＦＢ）３０８を有する。

各フィルタ・バンク３０２は、時間領域の対応するディジタル入力チャネルｘ_ｉ（ｎ）の各フレーム（たとえば、２０ミリ秒）を周波数領域の１組の入力係数

に変換する。ダウンミキシング・ブロック３０４は、Ｃ個の対応する入力係数の各サブバンドを、Ｅ個のダウンミキシングされた周波数領域係数の対応するサブバンドにダウンミキシングする。式（１）は、入力係数のｋ番目のサブバンド

の、次のようなダウンミキシングされた係数のｋ番目のサブバンド

を生成するためのダウンミキシングを表す。

ここで、Ｄ_ＣＥは、実数値を有するＣ×Ｅダウンミキシング行列である。

任意選択のスケーリング／遅延ブロック３０６には、乗算器３１０の組が含まれ、この乗算器３１０のそれぞれは、対応するダウンミキシングされた係数

に倍率ｅ_ｉ（ｋ）を乗じて、対応するスケーリングされた係数

を生成する。このスケーリング演算の動機付けは、チャネルごとの任意の重み付け因数を用いるダウンミキシングについて一般化された等化と同等である。入力チャネルが独立である場合に、各サブバンド内のダウンミキシングされた信号の電力

は、次の式（２）によって与えられる。

ここで、

は、Ｃ×Ｅダウンミキシング行列Ｄ_ＣＥの各行列要素を二乗することによって導出され、

は、入力チャネルｉのサブバンドｋの電力である。

サブバンドが独立でない場合に、ダウンミキシングされた信号の電力値

は、それぞれ信号成分が同相または位相外れである場合の信号増幅または信号打ち消しに起因して、式（２）を使用して計算される値より大きいまたはこれより小さい。これを防ぐために、式（１）のダウンミキシング動作が、サブバンドで適用され、これに、乗算器３１０によるスケーリング動作が続く。倍率ｅ_ｉ（ｋ）（１≦ｉ≦Ｅ）は、次の式（３）を使用して導出することができる。

ここで、

は、式（２）によって計算されるサブバンド電力であり、

は、対応するダウンミキシングされたサブバンド信号

の電力である。
任意選択のスケーリングを提供することに加えて、またはその代わりに、スケーリング／遅延ブロック３０６は、任意選択として信号に遅延を適用することができる。
各逆フィルタ・バンク３０８は、周波数領域の対応するスケーリングされた係数

を、対応するディジタルの被送出チャネルｙ_ｉ（ｎ）のフレームに変換する。

図３には、Ｃ個すべての入力チャネルが後続ダウンミキシングのために周波数領域に変換されることが示されているが、代替実施態様では、Ｃ個の入力チャネルのうちの１つまたは複数（ただし、Ｃ−１個未満）が、図３に示された処理の一部またはすべてを迂回し、同等の個数の変更されないオーディオ・チャネルとして送出されることができる。特定の実施態様に応じて、これらの変更されないオーディオ・チャネルは、被送出ＢＣＣコードを生成する際に図２のＢＣＣエスティメータ２０８によって使用されてもされなくてもよい。

単一の和信号ｙ（ｎ）を生成するダウンミキサ３００の実施態様では、Ｅ＝１であり、各入力チャネルｃの各サブバンドの信号

は、以下のように、次の式（４）に従って加算され、因数ｅ（ｋ）をかけられる。

因数ｅ（ｋ）は、次の式（５）によって、次のように与えられる。

ここで、

は、時間インデックスｋでの

の電力の短時間推定値であり、

は、

の電力の短時間推定値である。等化されたサブバンドは、時間領域に戻って変換され、和信号ｙ（ｎ）をもたらし、この和信号ｙ（ｎ）がＢＣＣデコーダに送出される。
包括的なＢＣＣ合成

図４に、ＢＣＣシステム２００のある種の実施態様による、図２のデコーダ２０４に使用できるＢＣＣシンセサイザ４００のブロック図を示す。ＢＣＣシンセサイザ４００は、被送出チャネルｙ_ｉ（ｎ）ごとのフィルタ・バンク４０２、アップミキシング・ブロック４０４、遅延４０６、乗算器４０８、デ・コリレーション（ｄｅ−ｃｏｒｒｅｌａｔｉｏｎ）ブロック４１０、および再生チャネル

ごとの逆フィルタ・バンク４１２を有する。

各フィルタ・バンク４０２は、時間領域の対応するディジタル被送出チャネルｙ_ｉ（ｎ）の各フレームを、周波数領域の入力係数

の組に変換する。アップミキシング・ブロック４０４は、Ｅ個の対応する被送出チャネル係数の各サブバンドを、Ｃ個のアップミキシングされた周波数領域係数の対応するサブバンドにアップミキシングする。式（４）は、被送出チャネル係数のｋ番目のサブバンド

の、アップミキシングされた係数のｋ番目のサブバンド

を生成するための、次のようなアップミキシングを表す。
ここで、Ｕ_ＥＣは、実数値を有するＥ×Ｃアップミキシング行列である。周波数領域でアップミキシングを実行することは、アップミキシングを各異なるサブバンドで個別に適用することを可能にする。

各遅延４０６は、ＩＣＴＤデータの対応するＢＣＣコードに基づく遅延値ｄ_ｉ（ｋ）を適用して、所望のＩＣＴＤ値が再生チャネルのある対の間に現れることを保証する。各乗算器４０８は、ＩＣＬＤデータの対応するＢＣＣコードに基づく倍率ａ_ｉ（ｋ）を適用して、所望のＩＣＬＤ値が再生チャネルのある対の間に現れることを保証する。デ・コリレーション・ブロック４１０は、ＩＣＣデータの対応するＢＣＣコードに基づくデ・コリレーション動作Ａを実行して、所望のＩＣＣ値が再生チャネルのある対の間に現れることを保証する。デ・コリレーション・ブロック４１０の動作のさらなる詳細は、Ｂａｕｍｇａｒｔｅ２−１０として２００２年５月２４日に出願した米国特許出願第１０／１５５４３７号に見出すことができる。

ＩＣＬＤ値の合成は、ＩＣＴＤ値およびＩＣＣ値の合成より面倒でない可能性がある。というのは、ＩＣＬＤ合成が、単にサブバンド信号のスケーリングを用いるからである。ＩＣＬＤキューは、最も一般的に使用されるディレクショナル・キュー（ｄｉｒｅｃｔｉｏｎａｌｃｕｅ）なので、通常は、ＩＣＬＤ値がオリジナル・オーディオ信号のＩＣＬＤ値を近似することが、より重要である。したがって、ＩＣＬＤデータを、すべてのチャネル対の間で推定することができる。各サブバンドの倍率ａ_ｉ（ｋ）（１≦ｉ≦Ｃ）は、各再生チャネルのサブバンド電力がオリジナル入力オーディオ・チャネルの対応する電力を近似するようになるように選択されることが好ましい。

１つの目標は、ＩＣＴＤ値およびＩＣＣ値の合成に関して相対的に少数の信号変更を適用することとすることができる。したがって、ＢＣＣデータに、すべてのチャネル対のＩＣＴＤ値およびＩＣＣ値を含めないものとすることができる。その場合に、ＢＣＣシンセサイザ４００は、あるチャネル対の間でのみＩＣＴＤ値およびＩＣＣ値を合成するはずである。

各逆フィルタ・バンク４１２は、周波数領域の対応する合成された係数

の組を、対応するディジタル再生チャネル

のフレームに変換する。

図４には、Ｅ個のすべての被送出チャネルが後続のアップミキシングおよびＢＣＣ処理のために周波数領域に変換されることが示されているが、代替実施態様では、Ｅ個の被送出チャネルのうちの１つまたは複数（ただし、すべてではない）が、図４に示された処理の一部またはすべてを迂回することができる。たとえば、１つまたは複数の被送出チャネルを、アップミキシングを一切受けない変更されないチャネルとすることができる。Ｃ個の再生チャネルのうちの１つまたは複数であることに加えて、これらの変更されないチャネルを、他の再生チャネルのうちの１つまたは複数を合成するためにＢＣＣ処理が適用される基準チャネルとして使用することができるが、そうする必要はない。どちらの場合でも、そのような変更されないチャネルは、残りの再生チャネルを生成するのに使用されるアップミキシングおよび／またはＢＣＣ処理に伴う処理時間を補償するために、遅延を受ける場合がある。

図４には、Ｃ個の再生チャネルがＥ個の被送出チャネルから合成されることが示され、Ｃは、オリジナル入力チャネルの個数でもあったが、ＢＣＣ合成が、再生チャネルのその個数に限定されないことに留意されたい。一般に、再生チャネルの個数は、Ｃより大きい個数またはＣより小さい個数を含む、おそらくは再生チャネルの個数が被送出チャネルの個数以下である情況さえ含む、チャネルの任意の個数とすることができる。

オーディオ・チャネルの間の「知覚的に関連する差」
単一の和信号を仮定すると、ＢＣＣは、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣがオリジナル・オーディオ信号の対応するキューを近似するように、ステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を合成する。次では、オーディトリ・スペイシャル・イメージ（ａｕｄｉｔｏｒｙｓｐａｔｉａｌｉｍａｇｅ）属性に関するＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの役割を述べる。

スペイシャル・ヒアリング（ｓｐａｔｉａｌｈｅａｒｉｎｇ）に関する知識は、１つのオーディトリ・イベントについて、ＩＣＴＤおよびＩＣＬＤが、知覚される方向に関連することを暗示する。１つのソースのバイノーラル・ルーム・インパルス応答（ｂｉｎａｕｒａｌｒｏｏｍｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ、ＢＲＩＲ）を考慮する場合に、オーディトリ・イベントの幅とリスナ・エンベロップメントとＢＲＩＲの早期の部分および後期の部分について推定されたＩＣＣデータとの間に関係がある。しかし、ＩＣＣと一般的な信号のこれらのプロパティ（ＢＲＩＲだけではなく）との間の関係は、単純ではない。

ステレオ・オーディオ信号およびマルチチャネル・オーディオ信号は、通常、囲まれた空間での録音から生じる反射信号成分によって重畳されるまたは空間的印象を人工的に作成するために録音エンジニアによって追加される同時にアクティブなソース信号の複雑な混合物を含む。異なるソース信号およびその反射は、時間−周波数平面内で異なる領域を占める。これは、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣによって反映され、この３つは、時間および周波数の関数として変化する。この場合に、瞬間的なＩＣＴＤ、ＩＣＬＤ、およびＩＣＣとオーディトリ・イベント方向と空間的印象との間の関係は、明白ではない。ＢＣＣのある種の実施形態の戦略は、これらのキューがオリジナル・オーディオ信号の対応するキューを近似するように、これらのキューを盲目的に合成することである。

等価長方形帯域幅（ｅｑｕｉｖａｌｅｎｔｒｅｃｔａｎｇｕｌａｒｂａｎｄｗｉｄｔｈ、ＥＲＢ）の２倍と等しい帯域幅のサブバンドを有するフィルタ・バンクが、使用される。インフォーマル・リスニング（ｉｎｆｏｒｍａｌｌｉｓｔｅｎｉｎｇ）は、ＢＣＣのオーディオ品質が、より高い周波数分解能を選択した時に顕著には改善されないことを明らかにする。より低い周波数分解能が望ましい可能性がある。というのは、より低い周波数分解能が、デコーダに送出される必要があるより少ないＩＣＴＤ値、ＩＣＬＤ値、およびＩＣＣ値をもたらし、したがってより低いビットレートをもたらすからである。

時間分解能に関して、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣは、通常、規則的な時間間隔で考慮される。ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣが約４ｍｓから約１６ｍｓおきに考慮される時に、高い性能が得られる。キューが非常に短い時間間隔で考慮されない限り、先行音効果が直接には考慮されないことに留意されたい。古典的なサウンド刺激のリード／ラグ対（ｌｅａｄ−ｌａｇｐａｉｒ）を仮定すると、リードおよびラグが、１組のキューだけが合成される時間間隔に含まれる場合に、リードの局所化優位（ｌｏｃａｌｉｚａｔｉｏｎｄｏｍｉｎａｎｃｅ）は、考慮されない。これにもかかわらず、ＢＣＣは、平均して約８７（すなわち、「優秀な」オーディオ品質）、およびある種のオーディオ信号についてほぼ１００までの平均ＭＵＳＨＲＡスコアに反映されるオーディオ品質を達成する。

基準信号と合成された信号との間のしばしば達成される知覚的に小さい差は、広範囲のオーディトリ・スペイシャル・イメージ属性に関連するキューが、規則的な時間間隔でＩＣＴＤ、ＩＣＬＤ、およびＩＣＣを合成することによって暗黙のうちに考慮されていることを暗示する。次では、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣが、ある範囲のオーディトリ・スペイシャル・イメージ属性にどのように関係し得るかに関するいくつかの議論を与える。

空間的キューの推定
次では、ＩＣＴＤ、ＩＣＬＤ、およびＩＣＣがどのように推定されるかを説明する。これらの（量子化され、コーディングされた）空間的キューの送出のビットレートは、２〜３ｋｂ／ｓに過ぎないものとすることができ、したがって、ＢＣＣを用いると、ステレオ・オーディオ信号およびマルチチャネル・オーディオ信号を、単一オーディオ・チャネルに必要なものに近いビットレートで送出することが可能である。

図５に、本発明の一実施形態による図２のＢＣＣエスティメータ２０８のブロック図を示す。ＢＣＣエスティメータ２０８には、図３のフィルタ・バンク３０２と同一とすることができるフィルタ・バンク（ＦＢ）５０２と、フィルタ・バンク５０２によって生成された異なる周波数サブバンドごとにＩＣＴＤ空間的キュー、ＩＣＬＤ空間的キュー、およびＩＣＣ空間的キューを生成する推定ブロック５０４とが含まれる。

ステレオ信号のＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの推定
次の測定値が、２つの（たとえば、ステレオ）オーディオ・チャネルの対応するサブバンド信号

および

のＩＣＴＤ、ＩＣＬＤ、およびＩＣＣに使用される。
○ＩＣＴＤ［サンプル単位］：

正規化された相互相関関数の短時間推定値は、次の式（８）によって与えられる。

ここで、
ｄ_１＝ｍａｘ｛−ｄ，０｝
ｄ_２＝ｍａｘ｛ｄ，０｝（９）
であり、

は、

の平均値の短時間推定値である。
○ＩＣＬＤ［ｄＢ］：

○ＩＣＣ：

正規化された相互相関の絶対値が考慮され、ｃ_１２（ｋ）が［０，１］の範囲を有することに留意されたい。

マルチチャネル・オーディオ信号のＩＣＴＤ、ＩＣＬＤ、およびＩＣＣの推定
３つ以上の入力チャネルがある場合には、通常、Ｃ＝５チャネルの場合について図６に示されているように、基準チャネル（たとえば、チャネル番号１）と他のチャネルとの間でＩＣＴＤおよびＩＣＬＤを定義することが十分であり、ここで、τ_１ｃ（ｋ）およびΔＬ_１ｃ（ｋ）は、それぞれ基準チャネル１とチャネルｃとの間のＩＣＴＤおよびＩＣＬＤを表す。

ＩＣＴＤおよびＩＣＬＤとは異なって、ＩＣＣは、通常、より多くの自由度を有する。定義されるＩＣＣは、すべての可能な入力チャネル対の間で異なる値を有することができる。Ｃ個のチャネルについて、Ｃ（Ｃ−１）／２個の可能なチャネル対があり、たとえば、５チャネルの場合には、図７（ａ）に示されているように１０個のチャネル対がある。しかし、そのような方式は、各時間インデックスに、サブバンドごとに、Ｃ（Ｃ−１）／２個のＩＣＣ値が推定され、送出されることを必要とし、高い計算的複雑さおよび高いビットレートをもたらす。

代替案では、サブバンドごとに、ＩＣＴＤおよびＩＣＬＤが、サブバンド内の対応する信号成分のオーディトリ・イベントがレンダリングされる方向を決定する。次に、サブバンドごとに１つの単一のＩＣＣパラメータを使用して、すべてのオーディオ・チャネルの間の全体的コヒーレンスを記述することができる。各時間インデックスに各サブバンド内で最大のエネルギを有する２つのチャネルの間でのみＩＣＣキューを推定し、送出することによって、よい結果を得ることができる。これが図７（ｂ）に示されており、図７（ｂ）では、時刻ｋ−１およびｋについて、それぞれチャネル対（３，４）および（１，２）が最も強い。ヒューリスティック・ルールを、他のチャネル対の間のＩＣＣを決定するのに使用することができる。

空間的キューの合成
図８に、単一の被送出和信号ｓ（ｎ）と空間的キューとを与えられてステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を生成するのにＢＣＣデコーダ内で使用できる、図４のＢＣＣシンセサイザ４００の実施態様のブロック図を示す。和信号ｓ（ｎ）は、サブバンドに分解され、ここで、

は、１つのそのようなサブバンドを表す。出力チャネルのそれぞれの対応するサブバンドを生成するために、遅延ｄ_ｃ、倍率ａ_ｃ、およびフィルタｈ_ｃが、和信号の対応するサブバンドに適用される（表記を単純にするために、時間インデックスｋは、遅延、倍率、およびフィルタでは無視される）。ＩＣＴＤは、遅延を課すことによって合成され、ＩＣＬＤは、スケーリングを課すことによって合成され、ＩＣＣは、デ・コリレーション・フィルタを課すことによって合成される。図８に示された処理は、各サブバンドに独立に適用される。

ＩＣＴＤ合成
遅延ｄ_ｃは、次の式（１２）に従って、ＩＣＴＤ τ_１ｃ（ｋ）から決定される。

基準チャネルの遅延ｄ_１は、遅延ｄ_ｃの最大の大きさが最小化されるように計算される。サブバンド信号がより小さく変更されるほど、アーチファクトが発生する危険が少ない。サブバンド・サンプリング・レートが、ＩＣＴＤ合成について十分に高い時間分解能を提供しない場合には、適切な全通過フィルタを使用することによって、遅延をより正確に課すことができる。

ＩＣＬＤ合成
出力サブバンド信号が、チャネルｃと基準チャネル１との間で所望のＩＣＬＤ ΔＬ_１２（ｋ）を有するためには、利得係数ａ_ｃが、次の式（１３）を満足しなければならない。

さらに、出力サブバンドは、全出力チャネルの電力の和が入力和信号の電力と等しくなるように正規化されることが好ましい。各サブバンドの総オリジナル信号電力が、和信号で保存されるので、この正規化は、各出力チャネルの絶対サブバンド電力がオリジナル・エンコーダ入力オーディオ信号の対応する電力を近似することをもたらす。これらの制約を与えられて、倍率ａ_ｃは、次の式（１４）によって与えられる。

ＩＣＣ合成
ある種の実施形態で、ＩＣＣ合成の目的は、ＩＣＴＤおよびＩＣＬＤに影響せずに、遅延およびスケーリングが適用された後のサブバンド間の相関を減らすことである。これは、ＩＣＴＤおよびＩＣＬＤが、平均変動が各サブバンド内で０になる（聴覚臨界帯域）ように周波数の関数として効果的に変更されるように、図８のフィルタｈ_ｃを指定することによって達成することができる。

図９に、ＩＣＴＤおよびＩＣＬＤが周波数の関数としてサブバンド内でどのように変更されるかを示す。ＩＣＴＤおよびＩＣＬＤの変動の振幅は、デ・コリレーションの度合を決定し、ＩＣＣの関数として制御される。ＩＣＴＤが、滑らかに変更される（図９（ａ）に示されているように）が、ＩＣＬＤが、ランダムに変更される（図９（ｂ）に示されているように）ことに留意されたい。ＩＣＬＤをＩＣＴＤのように滑らかに変更することができるが、これは、結果のオーディオ信号のより多くの相関をもたらすはずである。

ＩＣＣを合成する、特にマルチチャネルＩＣＣ合成に適する、もう１つの方法が、その教示が参照によって本明細書に組み込まれているＣ．Ｆａｌｌｅｒ、「Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉ−ｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：Ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ」、ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．、２００３年でより詳細に説明されている。時間および周波数の関数として、ある量の人工的な後期残響が、所望のＩＣＣを達成するために出力チャネルのそれぞれに追加される。さらに、結果の信号のスペクトル包絡がオリジナル・オーディオ信号のスペクトル包絡に近づくように、スペクトル変更を適用することができる。

ステレオ信号（またはオーディオ・チャネル対）に関する他の関連するおよび関連しないＩＣＣ合成技法が、その両方の教示が参照によって本明細書に組み込まれている、Ｅ．Ｓｃｈｕｉｊｅｒｓ、Ｗ．Ｏｏｍｅｎ、Ｂ．ｄｅｎＢｒｉｎｋｅｒ、およびＪ．Ｂｒｅｅｂａａｒｔ、「Ａｄｖａｎｃｅｓｉｎｐａｒａｍｅｔｒｉｃｃｏｄｉｎｇｆｏｒｈｉｇｈ−ｑｕａｌｉｔｙａｕｄｉｏ」、Ｐｒｅｐｒｉｎｔ１１４ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００３年３月と、Ｊ．Ｅｎｇｄｅｇａｒｄ、Ｈ．Ｐｕｒｎｈａｇｅｎ、Ｊ．Ｒｏｄｅｎ、およびＬ．Ｌｉｌｊｅｒｙｄ、「Ｓｙｎｔｈｅｔｉｃａｍｂｉｅｎｃｅｉｎｐａｒａｍｅｔｒｉｃｓｔｅｒｅｏｃｏｄｉｎｇ」、Ｐｒｅｐｒｉｎｔ１１７ｔｈＣｏｎｖ．Ａｕｄ．Ｅｎｇ．Ｓｏｃ．、２００４年５月とに提示されている。

Ｃ−ｔｏ−ＥＢＣＣ
前に説明したように、ＢＣＣは、２つ以上の送出チャネルを用いて実施することができる。Ｃ個のオーディオ・チャネルを１つの単一（被送出）チャネルではなくＥ個のチャネルとして表す、Ｃ−ｔｏ−ＥＢＣＣと表されるＢＣＣの変形形態を説明した。Ｃ−ｔｏ−ＥＢＣＣには、次の（少なくとも）２つの動機付けがある。

○１つの送出チャネルを用いるＢＣＣは、ステレオ・オーディオ再生またはマルチチャネル・オーディオ再生のために既存のモノ・システムをアップグレードする後方互換性経路を提供する。アップグレードされたシステムは、さらにＢＣＣサイド情報を送出しながら、既存のモノ・インフラストラクチャを介してＢＣＣダウンミキシングされた和信号を送出する。Ｃ−ｔｏ−ＥＢＣＣは、Ｃ個のチャネルのオーディオの、Ｅ個のチャネルの後方互換性コーディングに適用可能である。

○Ｃ−ｔｏ−ＥＢＣＣは、被送出チャネルの個数の削減の異なる度合に関するスケーラビリティを導入する。送出されるオーディオ・チャネルが多いほど、オーディオ品質がよりよくなることが期待される。
ＩＣＴＤキュー、ＩＣＬＤキュー、およびＩＣＣキューを定義する方法など、Ｃ−ｔｏ−ＥＢＣＣの信号処理の詳細は、２００４年１月２０日に出願した米国特許出願第１０／７６２１００号（Ｆａｌｌｅｒ１３−１）に記載されている。

オブジェクト・ベースのＢＣＣキュー
上で説明したように、従来のＣ−ｔｏ−ＥＢＣＣ方式では、エンコーダは、Ｃ個のオリジナル・チャネルから統計的なチャネル間差パラメータ（たとえば、ＩＣＴＤキュー、ＩＣＬＤキュー、および／またはＩＣＣキュー）を導出する。図６および７Ａ〜Ｂに表されているように、これらの特定のＢＣＣキューは、オーディトリ・スペイシャル・イメージの作成に使用されるラウドスピーカの個数および位置の関数である。これらのＢＣＣキューは、オーディトリ・スペイシャル・イメージの知覚的属性を直接には表さないので、「非オブジェクト・ベースの」ＢＣＣキューと呼ばれる。

１つまたは複数のそのような非オブジェクト・ベースのＢＣＣキューに加えてまたはその代わりに、ＢＣＣ方式に、マルチチャネル・サラウンド・オーディオ信号に固有のオーディトリ・スペイシャル・イメージの属性を直接に表す１つまたは複数の「オブジェクト・ベースの」ＢＣＣキューを含めることができる。本明細書で使用される時に、オブジェクト・ベースのキューとは、オーディトリ・シーンの特性であって、そのシーンの作成に使用されるラウドスピーカの個数および位置に独立な特性を直接に表すキューである。オーディトリ・シーン自体は、それを作成するのに使用されるスピーカの個数および位置に依存するが、オブジェクト・ベースのＢＣＣキュー自体は、これらに依存しない。

たとえば、（１）第１オーディオ・シーンが、スピーカの第１構成を使用して生成され、（２）第２オーディオ・シーンが、スピーカの第２構成（たとえば、第１構成と異なるスピーカの個数および／または位置を有する）を使用して生成されると仮定されたい。さらに、第１オーディオ・シーンが、第２オーディオ・シーンと同一である（少なくとも特定のリスナの展望から）と仮定されたい。その場合に、第１オーディオ・シーンの非オブジェクト・ベースのＢＣＣキュー（たとえば、ＩＣＴＤ、ＩＣＬＤ、ＩＣＣ）は、第２オーディオ・シーンの非オブジェクト・ベースのＢＣＣキューと異なるが、両方のオーディオ・シーンのオブジェクト・ベースのＢＣＣキューは、同一である。というのは、これらのキューが、オーディオ・シーンの特徴を直接に表すからである（すなわち、スピーカの個数および位置と独立）。

ＢＣＣ方式は、しばしば、特定の信号フォーマット（たとえば、５チャネル・サラウンド）の文脈で適用され、ラウドスピーカの個数および位置は、信号フォーマットによって指定される。そのような応用例では、すべての非オブジェクト・ベースのＢＣＣキューは、信号フォーマットに依存するが、すべてのオブジェクト・ベースのＢＣＣキューは、その信号フォーマットに関連するラウドスピーカの個数および位置と独立であるという点で、信号フォーマットと独立であると言うことができる。

図１０（ａ）に、ある角度で単一の比較的焦点を合わされたオーディトリ・イベント（影付きの円によって表される）を知覚するリスナを示す。そのようなオーディトリ・イベントは、オーディトリ・イベントを囲むラウドスピーカの対（すなわち、図１０（ａ）ではラウドスピーカ１および３）に「振幅パニング」を適用することによって生成することができ、ここで、同一の信号が、おそらくは異なる強度を伴って、２つのラウドスピーカに送られる。レベル差（たとえば、ＩＣＬＤ）は、オーディトリ・イベントがラウドスピーカ対の間に現れる場所を決定する。この技法を用いると、オーディトリ・イベントを、ラウドスピーカ対およびＩＣＬＤ値の適当な選択によって任意の方向でレンダリングすることができる。

図１０（ｂ）に、単一のより拡散したオーディトリ・イベント（影付きの楕円によって表される）を知覚するリスナを示す。そのようなオーディトリ・イベントは、図１０（ａ）について説明したものと同一の振幅パニング技法を使用して、任意の方向でレンダリングすることができる。さらに、信号対の間の類似性が減らされる（たとえば、ＩＣＣコヒーレンス・パラメータを使用して）。ＩＣＣ＝１の場合に、オーディトリ・イベントは、図１０（ａ）のように焦点を合わされ、ＩＣＣが減る時に、オーディトリ・イベントの幅は、図１０（ｂ）のように増える。

図１１（ａ）に、独立オーディオ信号が、リスナが音場に「包まれている」と感じるようにリスナを取り巻くラウドスピーカに印加される、しばしばリスナ・エンベロップメントと呼ばれるもう１つの種類の知覚を示す。この印象は、あるオーディオ信号の異なってデ・コリレートされた版を異なるラウドスピーカに印加することによって作成することができる。

図１１（ｂ）に、音場に包まれると同時に、ある角度である幅のオーディトリ・イベントを知覚するリスナを示す。このオーディトリ・シーンは、オーディトリ・イベントを囲むラウドスピーカ対（すなわち、図１１（ｂ）ではラウドスピーカ１および３）にある信号を印加すると同時に、同一の量の独立の（すなわち、デ・コリレートされた）信号をすべてのラウドスピーカに印加することによって作成することができる。

本発明の一実施形態によれば、オーディオ信号の空間的態様は、図１１（ｂ）に示されたものなどのシナリオについて、周波数（たとえば、サブバンド内の）および時間の関数としてパラメータ化される。ＩＣＴＤキュー、ＩＣＬＤキュー、およびＩＣＣキューなどの非オブジェクト・ベースのＢＣＣキューを推定し、送出するのではなく、この特定の実施形態は、ＢＣＣキューとしてオーディトリ・シーンの空間的態様をより直接に表すオブジェクト・ベースのパラメータを使用する。具体的に言うと、各時刻ｋに各サブバンドｂ内で、オーディトリ・イベントの角度α（ｂ，ｋ）、オーディトリ・イベントの幅ｗ（ｂ，ｋ）、およびオーディトリ・シーンのエンベロップメントの度合ｅ（ｂ，ｋ）が、ＢＣＣキューとして推定され、送出される。

図１２（ａ）〜（ｃ）に、３つの異なるオーディトリ・シーンと、それらに関連するオブジェクト・ベースのＢＣＣキューの値とを示す。図１２（ｃ）のオーディトリ・シーンには、局所化されたオーディトリ・イベントがない。したがって、幅ｗ（ｂ，ｋ）は、０であり、角度α（ｂ，ｋ）は、任意である。

エンコーダ処理
図１０〜１２に、１つの可能な５チャネル・サラウンド構成を示すが、図１１Ａでは、左ラウドスピーカ（＃１）が、中央ラウドスピーカ（＃３）の３０°左に置かれ、右ラウドスピーカ（＃２）が、中央ラウドスピーカの３０°右に置かれ、左後ラウドスピーカ（＃４）が、中央ラウドスピーカの１１０°左に置かれ、右後ラウドスピーカ（＃５）が、中央ラウドスピーカの１１０°右に置かれている。

図１３は、図１０〜１２の５つのラウドスピーカの方位を単位ベクトルｓ_ｉ＝（ｃｏｓφ_ｉ，ｓｉｎφ_ｉ）^Ｔとしてグラフ的に表し、ここで、Ｘ軸は、中央ラウドスピーカの方位を表し、Ｙ軸は、中央ラウドスピーカの９０°左の方位を表し、φ_ｉは、Ｘ軸に対する相対的なラウドスピーカ角度である。

各時刻ｋに、各ＢＣＣサブバンドｂ内で、サラウンド・イメージのオーディトリ・イベントの方向を、次の式（１５）に従って推定することができる。

ここで、α（ｂ，ｋ）は、図１３のＸ軸に関するオーディトリ・イベントの推定された角度であり、ｐ_ｉ（ｂ，ｋ）は、時間インデックスｋでのサブバンドｂ内のサラウンド・チャネルｉの電力または大きさである。大きさが使用される場合には、式（１５）は、スイート・スポット内の音場の粒子速度ベクトルに対応する。電力も、特に高周波数（音の強さおよびヘッド・シャドウイング（ｈｅａｄｓｈａｄｏｗｉｎｇ）が、より重要な役割を演じる）について、しばしば使用されてきた。
オーディトリ・イベントの幅ｗ（ｂ，ｋ）は、次の式（１６）に従って推定することができる。
ｗ（ｂ，ｋ）＝１−ＩＣＣ（ｂ，ｋ）（１６）
ここで、ＩＣＣ（ｂ，ｋ）は、角度α（ｂ，ｋ）によって定義される方向を囲む２つのラウドスピーカの信号の間のコヒーレンス推定値である。

オーディトリ・シーンのエンベロップメントの度合ｅ（ｂ，ｋ）は、すべてのラウドスピーカから出てくるデ・コリレートされたサウンドの総量を推定する。この尺度は、電力ｐ_ｉ（ｂ，ｋ）の関数としてのある考慮事項と組み合わされたさまざまなチャネル対の間のコヒーレンス推定値として計算することができる。たとえば、ｅ（ｂ，ｋ）を、異なるオーディオ・チャネル対の間で得られたコヒーレンス推定値の加重平均とすることができ、ここで、重み付けは、異なるオーディオ・チャネル対の相対電力の関数である。

オーディトリ・イベントの方向を推定するもう１つの可能な形は、各時刻ｋに各サブバンドｂ内で、２つの最も強いチャネルを選択し、これらの２つのチャネルの間のレベル差を計算することである。次に、振幅パニング・ローを使用して、２つの選択されたラウドスピーカの間でのオーディトリ・イベントの相対角度を計算することができる。次に、この２つのラウドスピーカの間での相対角度を、絶対角度α（ｂ，ｋ）に変換することができる。

この代替技法では、オーディトリ・イベントの幅ｗ（ｂ，ｋ）を、式（１６）を使用して推定することができ、ここで、ＩＣＣ（ｂ，ｋ）は、２つの最も強いチャネルの間のコヒーレンス推定値であり、オーディトリ・シーンのエンベロップメントの度合ｅ（ｂ，ｋ）は、次の式（１７）を使用して推定することができる。

ここで、Ｃは、チャネルの個数であり、ｉ_１およびｉ_２は、２つの選択された最も強いチャネルのインデックスである。

ＢＣＣ方式は、３つすべてのオブジェクト・ベースのパラメータ（すなわち、α（ｂ，ｋ）、ｗ（ｂ，ｋ）、およびｅ（ｂ，ｋ））を送出することができるが、代替のＢＣＣ方式は、たとえば非常に低いビットレートが必要である時に、より少数のパラメータを送出することができる。たとえば、２つのパラメータすなわち、方向α（ｂ，ｋ）および「指向性」ｄ（ｂ，ｋ）だけを使用することによって、かなりよい結果を得ることができ、ここで、指向性パラメータは、ｗ（ｂ，ｋ）とｅ（ｂ，ｋ）との間の加重平均に基づいて、ｗ（ｂ，ｋ）およびｅ（ｂ，ｋ）を１つのパラメータに組み合わせる。

ｗ（ｂ，ｋ）およびｅ（ｂ，ｋ）の組合せは、オーディトリ・イベントの幅およびエンベロップメントの度合が、多少関連する知覚であるという事実によって誘導される。この両方が、横に独立のサウンドによって喚起される。したがって、ｗ（ｂ，ｋ）およびｅ（ｂ，ｋ）の組合せは、オーディトリ・スペイシャル・イメージの諸属性の決定に関するごくわずかにより低い柔軟性をもたらす。１つの可能な実施態様では、ｗ（ｂ，ｋ）およびｅ（ｂ，ｋ）の重み付けは、ｗ（ｂ，ｋ）およびｅ（ｂ，ｋ）がそれを用いて計算された信号の総信号電力を反映する。たとえば、ｗ（ｂ，ｋ）の重みは、ｗ（ｂ，ｋ）を計算するために選択された２つのチャネルの電力に比例して選択することができ、ｗ（ｂ，ｋ）の重みは、全チャネルの電力に比例するものとすることができる。代替案では、α（ｂ，ｋ）およびｗ（ｂ，ｋ）を送出することができ、ｅ（ｂ，ｋ）は、デコーダでヒューリスティックに決定される。

デコーダ処理
デコーダ処理は、オブジェクト・ベースのＢＣＣキューを、レベル差（ＩＣＬＤ）およびコヒーレンス値（ＩＣＣ）などの非オブジェクト・ベースのＢＣＣキューに変換し、したがってこれらの非オブジェクト・ベースのＢＣＣキューを従来のＢＣＣデコーダで使用することによって実施することができる。

たとえば、オーディトリ・イベントの角度α（ｂ，ｋ）を使用して、振幅パニング・ロー（または他の可能な周波数依存の関係）を適用することによって、オーディトリ・イベントを囲む２つのラウドスピーカ・チャネルの間のＩＣＬＤを決定することができる。振幅パニングを適用する時に、倍率ａ_１およびａ_２を、次の式（１８）によって与えられるステレオフォニック正弦法則から推定することができる。

ここで、φ_０は、２つのラウドスピーカの間の角度の半分の大きさであり、φは、時計回りの方向（角度が反時計回りの方向で増加するように定義されている場合に）で最も近いラウドスピーカの角度に対する相対的なオーディオ・イベントの対応する角度であり、倍率ａ_１およびａ_２は、次の式（１９）に従ってレベル差キューＩＣＬＤに関係付けられる。
ΔＬ_１２（ｋ）＝２０ｌｏｇ_１０（ａ_２／ａ_１）（１９）
図１４に、角度φ_０およびφと倍率ａ_１およびａ_２とを示すが、ｓ（ｎ）は、振幅パニングが倍率ａ_１およびａ_２に基づいて適用される時に角度φに現れるモノ信号を表す。図１５は、φ_０＝３０°の標準的なステレオ構成に関する、式（１８）のステレオフォニック正弦法則によるＩＣＬＤとステレオ・イベント角度φとの間の関係をグラフ的に表す。

前に説明したように、倍率ａ_１およびａ_２は、オーディトリ・イベントの方向の関数として決定される。式（１８）は、比ａ_２／ａ_１だけを決定するので、ａ_１およびａ_２の全体的スケーリングについて、１つの自由度がある。このスケーリングは、他のキュー、たとえばｗ（ｂ，ｋ）およびｅ（ｂ，ｋ）にも依存する。

オーディトリ・イベントを囲む２つのラウドスピーカ・チャネルの間のコヒーレンス・キューＩＣＣは、幅パラメータｗ（ｂ，ｋ）からＩＣＣ（ｂ，ｋ）＝１−ｗ（ｂ，ｋ）として決定することができる。各残りのチャネルｉの電力は、エンベロップメントの度合パラメータｅ（ｂ，ｋ）の関数として計算され、ここで、ｅ（ｂ，ｋ）のより大きい値は、残りのチャネルに与えられるより大きい電力を暗示する。総電力は一定である（すなわち、総電力は、被送出チャネルの総電力と等しいかこれに比例する）ので、オーディトリ・イベント方向を囲む２つのチャネルに与えられる電力の和と、残りのすべてのチャネルの電力の和（ｅ（ｂ，ｋ）によって決定される）とを加えたものは、一定である。したがって、エンベロップメントの度合ｅ（ｂ，ｋ）が大きいほど、局所化されたサウンドにより少ない電力が与えられる、すなわち、より小さいａ_１およびａ_２が選択される（比ａ_２／ａ_１は、オーディトリ・イベントの方向から決定される）。

１つの極端なケースが、エンベロップメントの最大の度合がある時である。この場合に、ａ_１およびａ_２は小さく、あるいは、ａ_１＝ａ_２＝０ですらある。他方の極端が、エンベロップメントの最小の度合である。この場合に、ａ_１およびａ_２は、すべての信号電力がこの２つのチャネルに進むと同時に、残りのチャネルの電力が０になるように選択される。残りのチャネルに与えられる信号は、リスナ・エンベロップメントの最大の効果を得るために、独立の（デ・コリレートされた）信号であることが好ましい。

α（ｂ，ｋ）、ｗ（ｂ，ｋ）、およびｅ（ｂ，ｋ）などのオブジェクト・ベースのＢＣＣキューの１つの特性は、これらが、ラウドスピーカの個数および位置と独立であることである。したがって、これらのオブジェクト・ベースのＢＣＣキューは、任意の位置にある任意の個数のラウドスピーカのためのオーディトリ・シーンをレンダリングするのに効果的に使用することができる。

さらなる代替実施形態
本発明を、キュー・コードが１つまたは複数のオーディオ・チャネル（すなわち、Ｅ個の被送出チャネル）と共に送出されるＢＣＣコーディング方式の文脈で説明してきたが、代替実施形態では、キュー・コードを、被送出チャネルを既に有し、おそらくは他のＢＣＣコードを既に有する場所（たとえば、デコーダまたはストレージ・デバイス）に送出することができる。

本発明を、ＢＣＣコーディング方式の文脈で説明してきたが、本発明は、オーディオ信号がデ・コリレートされる他のオーディオ処理システムまたは信号をデ・コリレートする必要がある他のオーディオ処理の文脈で実施することもできる。

本発明を、エンコーダが、時間領域の入力オーディオ信号を受け取り、時間領域の被送出オーディオ信号を生成し、デコーダが、時間領域の被送出オーディオ信号を受け取り、時間領域の再生オーディオ信号を生成する実施態様の文脈で説明してきたが、本発明は、それに限定されない。たとえば、他の実施態様では、入力オーディオ信号、被送出オーディオ信号、および再生オーディオ信号のうちのいずれか１つまたは複数を、周波数領域で表すことができる。

ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、テレビジョン配信または電子音楽配信、ムービー・シアター、放送、ストリーミング、および／または受信のためのシステムを含むさまざまな異なる応用例またはシステムと共に使用するかこれに組み込むことができる。これには、たとえば、地上波、衛星、ケーブル、インターネット、イントラネット、または物理的媒体（たとえば、コンパクト・ディスク、ディジタル多用途ディスク、半導体チップ、ハード・ドライブ、メモリ・カード、および類似物）を介する送出をエンコードし／デコードするシステムが含まれる。ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、たとえば、２つ以上の機械、プラットフォーム、もしくは媒体について発行することができる、娯楽（アクション、ロール・プレイ、ストラテジ、アドベンチャ、シミュレーション、レース、スポーツ、アーケード、トランプ、およびボード・ゲーム）および／または教育のためにユーザと対話することを意図された対話型ソフトウェア製品を含む、ゲームおよびゲーム・システムで使用することもできる。さらに、ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、オーディオ・レコーダ／プレイヤまたはＣＤ−ＲＯＭ／ＤＶＤシステムに組み込むことができる。ＢＣＣエンコーダおよび／またはＢＣＣデコーダを、ディジタル・デコーディングを組み込んだＰＣソフトウェア・アプリケーション（たとえば、プレイヤ、デコーダ）およびディジタル・エンコーディング機能を組み込んだソフトウェア・アプリケーション（たとえば、エンコーダ、リッパ、レコーダ、およびジュークボックス）に組み込むこともできる。

本発明を、単一の集積回路（ＡＳＩＣまたはＦＰＧＡなど）、２つ以上チップ・モジュール、単一のカード、または２つ以上カード回路パックとしての可能な実施態様を含む、回路に基づくプロセスとして実施することができる。当業者に明白であるとおり、回路要素のさまざまな機能を、ソフトウェア・プログラム内の処理ステップとして実施することもできる。そのようなソフトウェアは、たとえば、ディジタル信号プロセッサ、マイクロコントローラ、または汎用コンピュータ内で使用することができる。

本発明は、方法およびこれらの方法を実践する装置の形で実施することができる。本発明は、フロッピ・ディスケット、ＣＤ−ＲＯＭ、ハード・ドライブ、または任意の他の機械可読記憶媒体などの有形の媒体内で実施されたプログラム・コードの形で実施することもでき、ここで、そのプログラム・コードがコンピュータなどの機械にロードされ、その機械によって実行される時に、その機械は、本発明を実践する装置になる。本発明を、たとえば、記憶媒体に保管される、機械にロードされかつ／または機械によって実行される、あるいは電気的ワイヤリングもしくはケーブリングを介して、光ファイバを介して、または電磁放射を介してなどのある送出媒体または担体を介して送出されるのいずれかのプログラム・コードの形で実施することもでき、ここで、そのプログラム・コードがコンピュータなどの機械にロードされ、その機械によって実行される時に、その機械は、本発明を実践する装置になる。汎用プロセッサで実施される時に、プログラム・コード・セグメントは、プロセッサと組み合わさって、特定の論理回路に似て動作する独自のデバイスを提供する。

本発明を、本発明の方法および／または装置を使用して生成される、媒体を介して電気的にまたは光学的に送出される信号値、磁気記録媒体内に保管された磁界変動などのビットストリームまたは他のシーケンスの形で実施することもできる。

さらに、本発明の性質を説明するために説明され、図示された詳細、材料、および部分の配置におけるさまざまな変更を、添付の特許請求の範囲で表される本発明の範囲から逸脱せずに当業者が作ることができることを理解されたい。

添付の特許請求の範囲の方法クレームの工程は、存在する場合に、対応するラベル付けを有する特定のシーケンスで列挙されるが、請求項の詳説がこれらの工程の一部またはすべてを実施する特定のシーケンスを他の形で暗示しない限り、これらの工程は、その特定のシーケンスで実施されることに限定されることを必ずしも意図されていない。

従来のバイノーラル信号シンセサイザを示す高水準ブロック図である。包括的なバイノーラル・キュー・コーディング（ＢＣＣ）オーディオ処理システムを示すブロック図である。図２のダウンミキサに使用できるダウンミキサを示すブロック図である。図２のデコーダに使用できるＢＣＣシンセサイザを示すブロック図である。本発明の一実施形態による図２のＢＣＣエスティメータを示すブロック図である。５チャネル・オーディオのＩＣＴＤデータおよびＩＣＬＤデータの生成を示す図である。５チャネル・オーディオのＩＣＣデータの生成を示す図である。単一の被送出和信号ｓ（ｎ）と空間的キューとを与えられてステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を生成するのにＢＣＣデコーダ内で使用できる、図４のＢＣＣシンセサイザの実施態様を示すブロック図である。ＩＣＴＤおよびＩＣＬＤが周波数の関数としてサブバンド内でどのように変更されるかを示す図である。ある角度で単一の比較的焦点を合わされたオーディトリ・イベント（影付きの円によって表される）を知覚するリスナを示す図である。単一のより拡散したオーディトリ・イベント（影付きの楕円によって表される）を知覚するリスナを示す図である。独立オーディオ信号が、リスナが音場に「包まれている」と感じるようにリスナを取り巻くラウドスピーカに印加される、しばしばリスナ・エンベロップメントと呼ばれるもう１つの種類の知覚を示す図である。音場に包まれると同時に、ある角度である幅のオーディトリ・イベントを知覚するリスナを示す図である。（ａ）〜（ｃ）は、３つの異なるオーディトリ・シーンと、それらに関連するオブジェクト・ベースのＢＣＣキューの値とを示す図である。図１０〜１２の５つのラウドスピーカの方位をグラフ的に表す図である。振幅パニングの角度および倍率を示す図である。ステレオフォニック正弦法則による、ＩＣＬＤとステレオ・イベント角度との間の関係をグラフ的に表す図である。

Claims

オーディオ・チャネルをエンコードする方法であって、
２つ以上のオーディオ・チャネルの１つまたは複数のキュー・コードを生成することであって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、生成することと、
前記１つまたは複数のキュー・コードを送出することと
を含む方法。
前記２つ以上のオーディオ・チャネルに対応するＥ個の被送出オーディオ・チャネルを送出することをさらに含み、Ｅ≧１である請求項１に記載の発明。
前記２つ以上のオーディオ・チャネルは、Ｃ個の入力オーディオ・チャネルを含み、Ｃ＞Ｅであり、
前記Ｃ個の入力チャネルは、前記Ｅ個の被送出チャネルを生成するためにダウンミキシングされる
請求項２に記載の発明。
前記１つまたは複数のキュー・コードは、デコーダがＥ個の被送出チャネルのデコーディング中に前記少なくとも１つのオブジェクト・ベースのキュー・コードに基づいて合成処理を実行することを可能にするために送出され、前記Ｅ個の被送出オーディオ・チャネルは、前記２つ以上のオーディオ・チャネルに対応し、Ｅ≧１である請求項１に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、異なる時刻に異なるサブバンド内で推定される請求項１に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、（１）基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度、（２）前記オーディトリ・イベントの幅、（３）前記オーディトリ・シーンのエンベロップメントの度合、および（４）前記オーディトリ・シーンの指向性のうちの複数を含む請求項１に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度を含む請求項１に記載の発明。
前記オーディトリ・イベントの前記絶対角度は、
（ｉ）前記オーディオ・チャネルの相対電力ベクトルのベクトル和を生成することと、
（ｉｉ）前記基準方向に対する相対的な前記ベクトル和の角度に基づいて、前記オーディトリ・イベントの前記絶対角度を決定することと
によって推定される請求項７に記載の発明。
前記オーディトリ・イベントの前記絶対角度は、
（ｉ）前記オーディオ・チャネル内の２つの最も強いチャネルを識別することと、
（ｉｉ）前記２つの最も強いチャネルの間のレベル差を計算することと、
（ｉｉｉ）前記２つの最も強いチャネルの間の相対角度を計算するために振幅パニング・ローを適用することと、
（ｉｖ）前記相対角度を前記オーディトリ・イベントの前記絶対角度に変換することと
によって推定される請求項７に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーン内のオーディトリ・イベントの幅を含む請求項１に記載の発明。
前記オーディトリ・イベントの前記幅は、
（ｉ）前記オーディトリ・イベントの絶対角度を推定することと、
（ｉｉ）前記絶対角度を囲む２つのオーディオ・チャネルを識別することと、
（ｉｉｉ）前記２つの識別されたチャネルの間のコヒーレンスを推定することと、
（ｉｖ）前記推定されたコヒーレンスに基づいて前記オーディトリ・イベントの前記幅を計算することと
によって推定される請求項１０に記載の発明。
前記オーディトリ・イベントの前記幅は、
（ｉ）前記オーディオ・チャネル内の２つの最も強いチャネルを識別することと、
（ｉｉ）前記２つの最も強いチャネルの間のコヒーレンスを推定することと、
（ｉｉｉ）前記推定されたコヒーレンスに基づいて前記オーディトリ・イベントの前記幅を計算することと
によって推定される請求項１０に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンのエンベロップメントの度合を含む請求項１に記載の発明。
前記エンベロップメントの度合は、
（ｉ）オーディオ・チャネルの異なる対の間のコヒーレンスを推定することと、
（ｉｉ）前記推定されたコヒーレンスの加重和としてエンベロップメントの前記度合を計算することであって、各推定されたコヒーレンスは、前記対応するオーディオ・チャネル対の電力に基づいて重みを付けられる、計算することと
によって推定される請求項１３に記載の発明。
前記エンベロップメントの度合は、
（ｉ）前記オーディオ・チャネル内の２つの最も強いチャネルを識別することと、
（ｉｉ）前記２つの最も強いチャネルを除くすべてのオーディオ・チャネルの電力に基づいて第１和を生成することと、
（ｉｉｉ）前記２つの最も強いチャネルを含むすべてのオーディオ・チャネルの電力に基づいて第２和を生成することと、
（ｉｖ）前記第１和と前記第２和との間の比に基づいてエンベロップメントの前記度合を計算することと
によって推定される請求項１３に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンの指向性を含む請求項１に記載の発明。
前記指向性は、
（ｉ）前記オーディトリ・シーン内のオーディトリ・イベントの幅を推定することと、
（ｉｉ）前記オーディトリ・シーンのエンベロップメントの度合を推定することと、
（ｉｉｉ）前記幅およびエンベロップメントの前記度合の加重和として前記指向性を計算することと
によって推定される請求項１６に記載の発明。
オーディオ・チャネルをエンコードする装置であって、
２つ以上のオーディオ・チャネルの１つまたは複数のキュー・コードを生成する手段であって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、生成する手段と、
前記１つまたは複数のキュー・コードを送出する手段と
を含む装置。
Ｅ個の被送出オーディオ・チャネルを生成するためにＣ個の入力オーディオ・チャネルをエンコードする装置であって、
２つ以上のオーディオ・チャネルの１つまたは複数のキュー・コードを生成するように適合されたコード・エスティメータであって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、コード・エスティメータと、
前記Ｅ個の被送出チャネルを生成するために前記Ｃ個の入力チャネルをダウンミキシングするように適合されたダウンミキサであって、Ｃ＞Ｅ≧１であり、前記装置は、デコーダが前記Ｅ個の被送出チャネルのデコーディング中に合成処理を実行することを可能にするために前記キュー・コードに関する情報を送出するように適合される、ダウンミキサと
を含む装置。
前記装置は、ディジタル・ビデオ・レコーダ、ディジタル・オーディオ・レコーダ、コンピュータ、衛星送信器、ケーブル送信器、地上波放送送信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムからなる群から選択されたシステムであり、
前記システムは、前記コード・エスティメータと前記ダウンミキサとを含む
請求項１９に記載の装置。
その上にプログラム・コードをエンコードされた機械可読媒体であって、前記プログラム・コードが機械によって実行される時に、前記機械は、オーディオ・チャネルをエンコードする方法を実施し、前記方法は、
２つ以上のオーディオ・チャネルの１つまたは複数のキュー・コードを生成することであって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、生成することと、
前記１つまたは複数のキュー・コードを送出することと
を含む機械可読媒体。
オーディオ・チャネルをエンコードすることによって生成されるエンコードされたオーディオ・ビットストリームであって、
１つまたは複数のキュー・コードは、２つ以上のオーディオ・チャネルについて生成され、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立であり、
Ｅ≧１であり、前記２つ以上のオーディオ・チャネルに対応する前記１つまたは複数のキュー・コードおよびＥ個の被送出オーディオ・チャネルは、前記エンコードされたオーディオ・ビットストリーム内にエンコードされる
エンコードされたオーディオ・ビットストリーム。
Ｃ個の再生オーディオ・チャネルを生成するためにＥ個の被送出オーディオ・チャネルをデコードする方法であって、Ｃ＞Ｅ≧１であり、
前記Ｅ個の被送出オーディオ・チャネルに対応するキュー・コードを受け取ることであって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、受け取ることと、
１つまたは複数のアップミキシングされたチャネルを生成するために、前記Ｅ個の被送出チャネルのうちの１つまたは複数をアップミキシングすることと、
前記キュー・コードを前記１つまたは複数のアップミキシングされたチャネルに適用することによって、前記Ｃ個の再生チャネルのうちの１つまたは複数を合成することと
を含む方法。
少なくとも２つの再生チャネルは、
（ｉ）前記再生オーディオ・チャネルをレンダリングするのに使用される２つ以上のラウドスピーカの位置に基づいて、前記少なくとも１つのオブジェクト・ベースのキュー・コードを少なくとも１つの非オブジェクト・ベースのキュー・コードに変換することと、
（ｉｉ）前記少なくとも２つの再生チャネルを生成するために、前記少なくとも１つの非オブジェクト・ベースのキュー・コードを少なくとも１つのアップミキシングされたチャネルに適用することと
によって合成される請求項２３に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、（１）基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度、（２）前記オーディトリ・イベントの幅、（３）前記オーディトリ・シーンのエンベロップメントの度合、および（４）前記オーディトリ・シーンの指向性のうちの１つまたは複数を含み、
前記少なくとも１つの非オブジェクト・ベースのキュー・コードは、（１）チャネル間相関（ＩＣＣ）コード、チャネル間レベル差（ＩＣＬＤ）コード、およびチャネル間時間差（ＩＣＴＤ）コードのうちの１つまたは複数を含む
請求項２４に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度を含む請求項２３に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーン内のオーディトリ・イベントの幅を含む請求項２３に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンのエンベロップメントの度合を含む請求項２３に記載の発明。
前記少なくとも１つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンの指向性を含む請求項２３に記載の発明。
Ｃ個の再生オーディオ・チャネルを生成するためにＥ個の被送出オーディオ・チャネルをデコードする装置であって、Ｃ＞Ｅ≧１であり、
前記Ｅ個の被送出オーディオ・チャネルに対応するキュー・コードを受け取る手段であって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、受け取る手段と、
１つまたは複数のアップミキシングされたチャネルを生成するために、前記Ｅ個の被送出チャネルのうちの１つまたは複数をアップミキシングする手段と、
前記キュー・コードを前記１つまたは複数のアップミキシングされたチャネルに適用することによって、前記Ｃ個の再生チャネルのうちの１つまたは複数を合成する手段と
を含む装置。
Ｃ個の再生オーディオ・チャネルを生成するためにＥ個の被送出オーディオ・チャネルをデコードする装置であって、Ｃ＞Ｅ≧１であり、
前記Ｅ個の被送出オーディオ・チャネルに対応するキュー・コードを受け取るように適合されたレシーバであって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、レシーバと、
１つまたは複数のアップミキシングされたチャネルを生成するために、前記Ｅ個の被送出チャネルのうちの１つまたは複数をアップミキシングするように適合されたアップミキサと、
前記キュー・コードを前記１つまたは複数のアップミキシングされたチャネルに適用することによって、前記Ｃ個の再生チャネルのうちの１つまたは複数を合成するように適合されたシンセサイザと
を含む装置。
前記装置は、ディジタル・ビデオ・プレイヤ、ディジタル・オーディオ・プレイヤ、コンピュータ、衛星受信器、ケーブル受信器、地上波放送受信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムからなる群から選択されたシステムであり、
前記システムは、前記レシーバ、前記アップミキサ、および前記シンセサイザを含む
請求項３１に記載の装置。
その上にプログラム・コードをエンコードされた機械可読媒体であって、前記プログラム・コードが機械によって実行される時に、前記機械は、Ｃ＞Ｅ≧１である、Ｃ個の再生オーディオ・チャネルを生成するためにＥ個の被送出オーディオ・チャネルをデコードする方法を実施し、前記方法は、
前記Ｅ個の被送出オーディオ・チャネルに対応するキュー・コードを受け取ることであって、少なくとも１つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、受け取ることと、
１つまたは複数のアップミキシングされたチャネルを生成するために、前記Ｅ個の被送出チャネルのうちの１つまたは複数をアップミキシングすることと、
前記キュー・コードを前記１つまたは複数のアップミキシングされたチャネルに適用することによって、前記Ｃ個の再生チャネルのうちの１つまたは複数を合成することと
を含む機械可読媒体。