優先権の主張
[0001]本願は、共同所有される2017年7月3日に出願された米国仮特許出願第62/528,378号、および2018年6月8日に出願された米国非仮特許出願第16/003,704号からの優先権の利益を主張し、これらの各々の内容は、その全体が参照により本明細書に明確に組み込まれている。
[0002]本開示は、一般に複数のオーディオ信号の符号化に関する。
[0003]技術の進歩は、より小型で、より強力なコンピューティングデバイスをもたらした。例えば、モバイルフォンおよびスマートフォンなどのワイヤレス電話、タブレットおよびラップトップコンピュータを含む、様々な携帯用パーソナルコンピューティングデバイスは、小型で軽量であり、ユーザによって容易に持ち運ばれる。これらのデバイスは、ワイヤレスネットワーク上で音声およびデータパケットを通信し得る。さらに、このようなデバイスの多くが、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなどの、追加の機能を組み込んでいる。また、このようなデバイスは、インターネットにアクセスするために使用され得る、ウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理し得る。したがって、これらのデバイスは、著しいコンピューティング能力を含み得る。
[0004]コンピューティングデバイスは、オーディオ信号を受信するために複数のマイクロフォンを含み得るか、またはそれらに結合され得る。一般に、音源は、複数のマイクロフォンのうちの第2のマイクロフォンよりも第1のマイクロフォンにより近い。したがって、第2のマイクロフォンから受信される第2のオーディオ信号は、音源からのマイクロフォンのそれぞれの距離により、第1のマイクロフォンから受信される第1のオーディオ信号に対して(relative to)遅延し得る。他のインプリメンテーションでは、第1のオーディオ信号は、第2のオーディオ信号に対して(with respect to)遅延し得る。ステレオ符号化では、マイクロフォンからのオーディオ信号は、1つのミッドチャンネル信号および1つまたは複数のサイドチャンネル信号を生成するために符号化され得る。ミッドチャンネル信号は、第1のオーディオ信号と第2のオーディオ信号との和に対応する。サイドチャンネル信号は、第1のオーディオ信号と第2のオーディオ信号との差に対応する。
[0005]特定のインプリメンテーションでは、デバイスが、符号化されたミッドチャンネルと、チャンネル間予測利得(inter-channel prediction gain)とを含むビットストリームを受信するように構成された受信機を含む。デバイスはまた、復号された低帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの低帯域部分を復号するように構成された低帯域ミッドチャンネルデコーダを含む。デバイスはまた、低帯域フィルタリングされたミッドチャンネルを生成するために、1つまたは複数のフィルタ係数(filter coefficient)に従って、復号された低帯域ミッドチャンネルをフィルタリングするように構成された低帯域ミッドチャンネルフィルタを含む。デバイスはまた、低帯域フィルタリングされたミッドチャンネルと、チャンネル間予測利得とに基づいて、チャンネル間予測された信号を生成するように構成されたチャンネル間予測器(inter-channel predictor)を含む。デバイスはまた、アップミックス係数(up-mix factor)と、復号された低帯域ミッドチャンネルと、チャンネル間予測された信号とに基づいて、低帯域左チャンネルおよび低帯域右チャンネルを生成するように構成されたアップミックスプロセッサを含む。デバイスは、復号された高帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの高帯域部分を復号するように構成された高帯域ミッドチャンネルデコーダをさらに含む。デバイスはまた、チャンネル間予測利得と、復号された高帯域ミッドチャンネルのフィルタリングされたバージョンとに基づいて、予測された高帯域サイドチャンネルを生成するように構成されたチャンネル間予測マッパーを含む。デバイスは、復号された高帯域ミッドチャンネルと、予測された高帯域サイドチャンネルとに基づいて、高帯域左チャンネルおよび高帯域右チャンネルを生成するように構成されたチャンネル間帯域幅拡張デコーダをさらに含む。
[0006]別の特定のインプリメンテーションでは、方法が、符号化されたミッドチャンネルと、チャンネル間予測利得とを含むビットストリームを受信することを含む。方法はまた、復号された低帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの低帯域部分を復号することを含む。方法はまた、低帯域フィルタリングされたミッドチャンネルを生成するために、1つまたは複数のフィルタ係数に従って、復号された低帯域ミッドチャンネルをフィルタリングすることを含む。方法はまた、低帯域フィルタリングされたミッドチャンネルと、チャンネル間予測利得とに基づいて、チャンネル間予測された信号を生成することを含む。方法は、アップミックス係数と、復号された低帯域ミッドチャンネルと、チャンネル間予測された信号とに基づいて、低帯域左チャンネルおよび低帯域右チャンネルを生成することをさらに含む。方法はまた、復号された高帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの高帯域部分を復号することを含む。方法は、チャンネル間予測利得と、復号された高帯域ミッドチャンネルのフィルタリングされたバージョンとに基づいて、予測された高帯域サイドチャンネルを生成することをさらに含む。方法はまた、復号された高帯域ミッドチャンネルと、予測された高帯域サイドチャンネルとに基づいて、高帯域左チャンネルおよび高帯域右チャンネルを生成することを含む。
[0007]別の特定のインプリメンテーションでは、非一時的なコンピュータ可読媒体が、プロセッサ内のプロセッサによって実行されると、プロセッサに、符号化されたミッドチャンネルと、チャンネル間予測利得とを含むビットストリームを受信することを含む動作を実行させる命令を含む。動作はまた、復号された低帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの低帯域部分を復号することを含む。動作はまた、低帯域フィルタリングされたミッドチャンネルを生成するために、1つまたは複数のフィルタ係数に従って、復号された低帯域ミッドチャンネルをフィルタリングすることを含む。動作はまた、低帯域フィルタリングされたミッドチャンネルと、チャンネル間予測利得とに基づいて、チャンネル間予測された信号を生成することを含む。動作はまた、アップミックス係数と、復号された低帯域ミッドチャンネルと、チャンネル間予測された信号とに基づいて、低帯域左チャンネルおよび低帯域右チャンネルを生成することを含む。動作はまた、復号された高帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの高帯域部分を復号することを含む。動作はまた、チャンネル間予測利得と、復号された高帯域ミッドチャンネルのフィルタリングされたバージョンとに基づいて、予測された高帯域サイドチャンネルを生成することを含む。動作はまた、復号された高帯域ミッドチャンネルと、予測された高帯域サイドチャンネルとに基づいて、高帯域左チャンネルおよび高帯域右チャンネルを生成することを含む。
[0008]別の特定のインプリメンテーションでは、装置が、符号化されたミッドチャンネルと、チャンネル間予測利得とを含むビットストリームを受信するための手段を含む。装置はまた、復号された低帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの低帯域部分を復号するための手段を含む。装置はまた、低帯域フィルタリングされたミッドチャンネルを生成するために、1つまたは複数のフィルタ係数に従って、復号された低帯域ミッドチャンネルをフィルタリングするための手段を含む。装置はまた、低帯域フィルタリングされたミッドチャンネルと、チャンネル間予測利得とに基づいて、チャンネル間予測された信号を生成するための手段を含む。装置はまた、アップミックス係数と、復号された低帯域ミッドチャンネルと、チャンネル間予測された信号とに基づいて、低帯域左チャンネルおよび低帯域右チャンネルを生成するための手段を含む。装置はまた、復号された高帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの高帯域部分を復号するための手段を含む。装置はまた、チャンネル間予測利得と、復号された高帯域ミッドチャンネルのフィルタリングされたバージョンとに基づいて、予測された高帯域サイドチャンネルを生成するための手段を含む。装置はまた、復号された高帯域ミッドチャンネルと、予測された高帯域サイドチャンネルとに基づいて、高帯域左チャンネルおよび高帯域右チャンネルを生成するための手段を含む。
[0009]本開示の他のインプリメンテーション、利点、および特徴が、以下のセクション、すなわち、図面の簡単な説明、詳細な説明、および特許請求の範囲、を含む本願全体のレビュー後に明らかになるであろう。
[0010]図1は、時間領域チャンネル間予測を実行するように動作可能なデコーダを含むシステムの特定の例示的な例のブロック図である。
[0011]図2は、図1のデコーダを例示する図である。
[0012]図3は、ICBWEデコーダを例示する図である。
[0013]図4は、時間領域チャンネル間予測を実行する方法の特定の例である。
[0014]図5は、時間領域チャンネル間予測を実行するように動作可能であるモバイルデバイスの特定の例示的な例のブロック図である。
[0015]図6は、時間領域チャンネル間予測を実行するように動作可能である基地局のブロック図である。
詳細な説明
[0016]本開示の特定の態様が、図面を参照して以下で説明される。説明において、共通の特徴は、共通の参照番号によって示される。本明細書で使用される場合、様々な用語は、特定のインプリメンテーションを説明することのみを目的として使用され、インプリメンテーションを限定するように意図されるものではない。例えば、単数形「a」、「an」、および「the」は、文脈がそうでないことを明確に示していない限り、複数形も含むように意図される。「備える(comprises)」および「備える(comprising)」という用語は、「含む(includes)」または「含む(including)」と交換可能に使用され得ることがさらに理解され得る。加えて、「ここにおいて(wherein)」という用語は、「ここで(where)」と交換可能に使用され得ることが理解されるであろう。本明細書で使用される場合、構造、構成要素、動作などといった要素を修飾するために使用される順序を示す用語(例えば、「第1の」、「第2の」、「第3の」など)は、それ自体では別の要素に対するこの要素のいかなる優先度または順序も示すものではなく、むしろこの要素を、(順序を示す用語の使用以外では)同じ名称を有する別の要素から単に区別する。本明細書で使用される場合、「セット(set)」という用語は、1つまたは複数の特定の要素を指し、「複数の(plurality)」という用語は、複数の(multiple)(例えば、2つ以上の)特定の要素を指す。
[0017]本開示では、「決定すること」、「計算すること」、「シフトすること」、「調整すること」などといった用語は、どのように1つまたは複数の動作が実行されるかを説明するために使用され得る。このような用語は限定的であると解釈されるべきではなく、他の技法が同様の動作を実行するために利用され得ることに留意されたい。加えて、本明細書で言及される場合、「生成すること」、「計算すること」、「使用すること」、「選択すること」、「アクセスすること」、および「決定すること」は、交換可能に使用され得る。例えば、パラメータ(または信号)を「生成すること」、「計算すること」、または「決定すること」は、パラメータ(または信号)を能動的に生成すること、計算すること、または決定することを指し得るか、あるいは、別のコンポーネントまたはデバイスなどによって既に生成されているパラメータ(または信号)を使用すること、選択すること、またはそれにアクセスすることを指し得る。
[0018]複数のオーディオ信号を符号化および復号するように動作可能なシステムおよびデバイスが開示される。デバイスは、複数のオーディオ信号を符号化するように構成されたエンコーダを含み得る。複数のオーディオ信号は、例えば、複数のマイクロフォンなどの、複数の記録デバイスを使用して、時間的に同時並行に(concurrently in time)キャプチャされ得る。いくつかの例では、複数のオーディオ信号(または、マルチチャンネルオーディオ)は、同時にまたは異なる時間に記録されたいくつかのオーディオチャンネルを多重化することによって、合成的に(例えば、人工的に)生成され得る。例示的な例として、オーディオチャンネルを同時並行に記録することまたは多重化することは、2チャンネル構成(すなわち、ステレオ:左および右)、5.1チャンネル構成(左、右、中央、左サラウンド、右サラウンド、および低周波数強調(LFE:low frequency emphasis)チャンネル)、7.1チャンネル構成、7.1+4チャンネル構成、22.2チャンネル構成、またはNチャンネル構成をもたらし得る。
[0019]テレビ会議室(またはテレプレゼンス室)におけるオーディオキャプチャデバイスは、空間オーディオを捕らえる複数のマイクロフォンを含み得る。空間オーディオは、符号化および送信されるスピーチならびに背景オーディオを含み得る。所与の音源(例えば、話者)からのスピーチ/オーディオは、マイクロフォンがどのように配置されているか、ならびに音源(例えば、話者)がマイクロフォンおよび部屋の寸法に対してどこに位置するかに依存して、異なる時間において(at different times)複数のマイクロフォンに到達し得る。例えば、音源(例えば、話者)は、デバイスに関連付けられた第2のマイクロフォンよりも、デバイスに関連付けられた第1のマイクロフォンにより近くあり得る。したがって、音源から発せられた音は、第2のマイクロフォンよりも時間的に早く第1のマイクロフォンに達し得る。デバイスは、第1のマイクロフォンを介して第1のオーディオ信号を受信し得、第2のマイクロフォンを介して第2のオーディオ信号を受信し得る。
[0020]ミッド−サイド(MS:mid-side)コーディングおよびパラメトリックステレオ(PS:parametric stereo)コーディングは、デュアル−モノコーディング技法と比べて改善された効率を提供し得るステレオコーディング技法である。デュアル−モノコーディングでは、左(L)チャンネル(または信号)および右(R)チャンネル(または信号)は、チャンネル間相関を利用することなく独立にコーディングされる。MSコーディングは、コーディングより前に、左チャンネルおよび右チャンネルを、和チャンネルおよび差チャンネル(例えば、サイドチャンネル)に変換することによって、相関のあるL/Rチャンネルペア間の冗長性を低減させる。和信号(ミッドチャンネルとも呼ばれる)および差信号(サイドチャンネルとも呼ばれる)は、MSコーディングにおいて、あるモデルに基づいてコーディングされるか、または波形コーディングされる。相対的により多くのビットが、サイドチャンネルよりも、ミッドチャンネルに使われる。PSコーディングは、L/R信号を、和信号(またはミッドチャンネル)と、サイドパラメータのセットとに変換することによって、各サブバンドにおける冗長性を低減させる。サイドパラメータは、チャンネル間強度差(IID:inter-channel intensity difference)、チャンネル間位相差(IPD:inter-channel phase difference)、チャンネル間時間差(ITD:inter-channel time difference)、サイドまたは残差予測利得などを示し得る。和信号は、波形コーディングされ、サイドパラメータとともに送信される。ハイブリッドシステムでは、サイドチャンネルは、下位帯域(例えば、2キロヘルツ(kHz)未満)において波形コーディングされ、チャンネル間位相保持(inter-channel phase preservation)が知覚的にさほど重要でない上位帯域(例えば、2kHz以上)においてPSコーディングされ得る。いくつかのインプリメンテーションでは、PSコーディングはまた、波形コーディングの前にチャンネル間冗長性を低減させるために、下位帯域において使用され得る。
[0021]MSコーディングおよびPSコーディングは、周波数領域またはサブバンド領域のいずれかで行われ得る。いくつかの例では、左チャンネルと右チャンネルは、無相関であり得る。例えば、左チャンネルおよび右チャンネルは、無相関合成信号を含み得る。左チャンネルと右チャンネルが無相関であるとき、MSコーディング、PSコーディング、または両方のコーディング効率は、デュアル−モノコーディングのコーディング効率に近づき得る。
[0022]記録構成に依存して、左チャンネルと右チャンネルとの間の時間的なシフト、ならびに、エコーおよび室内反響などの他の空間エフェクトが存在し得る。チャンネル間の時間的なシフトおよび位相不整合が補償されない場合、和チャンネルおよび差チャンネルは、MSまたはPS技法に関連付けられたコーディング利得を低減させる同等のエネルギー(comparable energies)を含み得る。コーディング利得の低減は、時間的な(または位相)シフトの量に基づき得る。和信号および差信号の同等のエネルギーは、チャンネルが時間的にシフトされているが高度に相関されたある特定のフレームにおいて、MSコーディングの使用を制限し得る。ステレオコーディングでは、ミッドチャンネル(例えば、和チャンネル)およびサイドチャンネル(例えば、差チャンネル)は、下記の式に基づいて生成され得る:
M=(L+R)/2、 S=(L−R)/2、 式1
[0023]ここで、Mはミッドチャンネルに対応し、Sはサイドチャンネルに対応し、Lは左チャンネルに対応し、Rは右チャンネルに対応する。
[0024]いくつかのケースでは、ミッドチャンネルおよびサイドチャンネルは、下記の式に基づいて生成され得る:
M=c(L+R)、 S=c(L−R)、 式2
[0025]ここで、cは、周波数依存である複素数値に対応する。式1または式2に基づいて、ミッドチャンネルおよびサイドチャンネルを生成することは、「ダウンミキシング(downmixing)」と呼ばれ得る。式1または式2に基づいて、ミッドチャンネルおよびサイドチャンネルから、左チャンネルおよび右チャンネルを生成する逆のプロセスは、「アップミキシング(upmixing)」と呼ばれ得る。
[0026]いくつかのケースでは、ミッドチャンネルは、次のような他の式に基づき得る:
M=(L+gDR)/2、または 式3
M=g1L+g2R 式4
[0027]ここで、g1+g2=1.0であり、ここで、gDは利得パラメータである。他の例では、ダウンミックスは、帯域において実行され得、ここで、mid(b)=c1L(b)+c2R(b)であり、ここで、c1およびc2は複素数であり、ここで、side(b)=c3L(b)−c4R(b)であり、ここで、c3およびc4は複素数である。
[0028]特定のフレームについてMSコーディングまたはデュアル−モノコーディングの間で選択するために使用されるアドホックアプローチが、ミッド信号およびサイド信号を生成することと、ミッド信号およびサイド信号のエネルギーを計算することと、これらエネルギーに基づいて、MSコーディングを実行するかどうかを決定することとを含み得る。例えば、MSコーディングは、サイド信号とミッド信号のエネルギーの比がしきい値未満であると決定することに応答して実行され得る。例示すると、右チャンネルが少なくとも第1の時間(例えば、約0.001秒または48kHzで48サンプル)だけシフトされている場合、(左信号と右信号の和に対応する)ミッド信号の第1のエネルギーは、ある特定のスピーチフレームについて、(左信号と右信号との間の差に対応する)サイド信号の第2のエネルギーと同等であり得る。第1のエネルギーが第2のエネルギーと同等であるとき、より多くの数のビットがサイドチャンネルを符号化するために使用され得、それによって、MSコーディングのコーディング効率を、デュアル−モノコーディングに比べて(relative to)低減させる。したがって、デュアル−モノコーディングが、第1のエネルギーが第2のエネルギーと同等であるときに(例えば、第1のエネルギーと第2のエネルギーの比がしきい値以上であるときに)使用され得る。代替のアプローチでは、特定のフレームについてのMSコーディングとデュアル−モノコーディングとの間の決定は、しきい値と、左チャンネルおよび右チャンネルの正規化された相互相関値との比較に基づいて行われ得る。
[0029]いくつかの例では、エンコーダは、第1のオーディオ信号との第2のオーディオ信号との間の時間的なずれの量(amount of temporal misalignment)を示す不整合値(mismatch value)を決定し得る。本明細書で使用される場合、「時間的なシフト値」、「シフト値」、および「不整合値」は、交換可能に使用され得る。例えば、エンコーダは、第2のオーディオ信号に対する第1のオーディオ信号のシフト(例えば、時間的な不整合)を示す時間的なシフト値を決定し得る。時間的な不整合値は、第1のマイクロフォンにおける第1のオーディオ信号の受信と、第2のマイクロフォンにおける第2のオーディオ信号の受信との間の時間的な遅延の量に対応し得る。さらに、エンコーダは、フレーム単位で、例えば、各20ミリ秒(ms)のスピーチ/オーディオフレームに基づいて、時間的な不整合値を決定し得る。例えば、時間的な不整合値は、第2のオーディオ信号の第2のフレームが、第1のオーディオ信号の第1のフレームに対して遅延する時間の量に対応し得る。代替として、時間的な不整合値は、第1のオーディオ信号の第1のフレームが、第2のオーディオ信号の第2のフレームに対して遅延する時間の量に対応し得る。
[0030]音源が第2のマイクロフォンよりも第1のマイクロフォンにより近いとき、第2のオーディオ信号のフレームは、第1のオーディオ信号のフレームに対して遅延し得る。このケースでは、第1のオーディオ信号が、「基準オーディオ信号」または「基準チャンネル」と呼ばれ得、遅延した第2のオーディオ信号は、「ターゲットオーディオ信号」または「ターゲットチャンネル」と呼ばれ得る。代替として、音源が第1のマイクロフォンよりも第2のマイクロフォンにより近いとき、第1のオーディオ信号のフレームは、第2のオーディオ信号のフレームに対して遅延し得る。このケースでは、第2のオーディオ信号が、基準オーディオ信号または基準チャンネルと呼ばれ得、遅延した第1のオーディオ信号は、ターゲットオーディオ信号またはターゲットチャンネルと呼ばれ得る。
[0031]音源(例えば、話者)が会議室またはテレプレゼンス室のどこに位置するか、あるいは音源(例えば、話者)のポジションがマイクロフォンに対してどのように変化するかに依存して、基準チャンネルおよびターゲットチャンネルは、フレームごとに変化し得、同様に、時間的な遅延値も、フレームごとに変化し得る。しかしながら、いくつかのインプリメンテーションでは、時間的な不整合値は、「基準」チャンネルに対する「ターゲット」チャンネルの遅延の量を示すために、常に正であり得る。さらに、時間的な不整合値は、遅延したターゲットチャンネルが「基準」チャンネルと整合される(aligned)(例えば、最大限に整合される)ように、このターゲットチャンネルが時間的に「引き戻される(pulled back)」「非因果的シフト(non-causal shift)」値に対応し得る。ミッドチャンネルおよびサイドチャンネルを決定するためのダウンミックスアルゴリズムは、基準チャンネルおよび非因果的シフトされたターゲットチャンネルに対して実行され得る。
[0032]エンコーダは、基準オーディオチャンネルと、ターゲットオーディオチャンネルに適用される複数の時間的な不整合値とに基づいて、時間的な不整合値を決定し得る。例えば、基準オーディオチャンネルの第1のフレームXが、第1の時間(m1)において受信され得る。ターゲットオーディオチャンネルの第1の特定のフレームYが、第1の時間的な不整合値、例えば、shift1=n1−m1、に対応する第2の時間(n1)において受信され得る。さらに、基準オーディオチャンネルの第2のフレームが、第3の時間(m2)において受信され得る。ターゲットオーディオチャンネルの第2の特定のフレームが、第2の時間的な不整合値、例えば、shift2=n2−m2、に対応する第4の時間(n2)において受信され得る。
[0033]デバイスは、第1のサンプリングレート(例えば、32kHzサンプリングレート(すなわち、1フレーム当たり640個のサンプル))でフレーム(例えば、20msのサンプル)を生成するために、フレーミングまたはバッファリングアルゴリズムを実行し得る。エンコーダは、第1のオーディオ信号の第1のフレームと第2のオーディオ信号の第2のフレームが、デバイスに同時に到達すると決定することに応答して、時間的な不整合値(例えば、shift1)を、ゼロ個のサンプルに等しいと推定し得る。(例えば、第1のオーディオ信号に対応する)左チャンネルと(例えば、第2のオーディオ信号に対応する)右チャンネルが、時間的に整合され得る。いくつかのケースでは、左チャンネルと右チャンネルは、整合されているときでさえも、様々な理由(例えば、マイクロフォンの較正)によりエネルギーが異なり得る。
[0034]いくつかの例では、左チャンネルと右チャンネルは、様々な理由(例えば、話者などの音源が、マイクロフォンのうちの一方に、もう一方よりも近くにあり得、2つのマイクロフォンがしきい値(例えば、1〜20センチメートル)の距離を超えて離れている可能性がある)により、時間的にずれている場合がある。マイクロフォンに対する音源のロケーションは、左チャンネルと右チャンネルとで異なる遅延をもたらし得る。加えて、左チャンネルと右チャンネルとの間の利得差、エネルギー差、またはレベル差が存在し得る。
[0035]2つより多くのチャンネルが存在するいくつかの例では、基準チャンネルが、チャンネルのレベルまたはエネルギーに基づいて最初に選択され、その後、チャンネルの異なるペア間の時間的な不整合値、例えば、t1(ref,ch2)、t2(ref,ch3)、t3(ref,ch4)、...t3(ref,chN)に基づいて改良され(refined)、ここで、ch1が、最初にrefチャンネルであり、t1(.)、t2(.)などが、不整合値を推定するための関数である。全ての時間的な不整合値が正である場合には、ch1が基準チャンネルとして扱われる。不整合値のいずれかが負の値である場合には、基準チャンネルは、負の値が得られた不整合値に関連付けられたチャンネルに再構成され、上記のプロセスは、基準チャンネルの(例えば、最大数のサイドチャンネルを最大限に無相関化すること(maximally decorrelating maximum number of side channels)に基づく)最良の選択が達成されるまで継続される。ヒステリシスが、基準チャンネル選択における任意の突然の変動を克服するために使用され得る。
[0036]いくつかの例では、複数の音源(例えば、話者)からの、マイクロフォンにおけるオーディオ信号の到着時間は、複数の話者が(例えば、重なり合うことなく)交互に話しているときに異なり得る。このようなケースでは、エンコーダは、基準チャンネルを識別するために、話者に基づいて時間的な不整合値を動的に調整し得る。いくつかの他の例では、複数の話者は、同時に話していることがあり得、これは、誰が最も大きい声の話者であるか、誰がマイクロフォンに最も近いかなどに依存して、変動する時間的な不整合値をもたらし得る。このようなケースでは、基準チャンネルおよびターゲットチャンネルの識別は、現在のフレームにおける変動する時間的なシフト値と、前のフレームにおける推定された時間的な不整合値とに基づき、および、第1および第2のオーディオ信号のエネルギーまたは時間的な展開(temporal evolution)に基づき得る。
[0037]いくつかの例では、第1のオーディオ信号および第2のオーディオ信号は、これら2つの信号が、潜在的に相関が少ないこと(例えば、相関なし)を示すときに、合成されるかまたは人工的に生成され得る。本明細書で説明される例は例示的であり、同様のまたは異なる状況において、第1のオーディオ信号と第2のオーディオ信号との間の関係を決定する際に有益であり得ることが理解されるべきである。
[0038]エンコーダは、第1のオーディオ信号の第1のフレームと、第2のオーディオ信号の複数のフレームとの比較に基づいて、比較値(例えば、差分値または相互相関値)を生成し得る。複数のフレームの各フレームは、特定の時間的な不整合値に対応し得る。エンコーダは、比較値に基づいて、第1の推定された時間的な不整合値を生成し得る。例えば、第1の推定された時間的な不整合値は、第1のオーディオ信号の第1のフレームと、第2のオーディオ信号の対応する第1のフレームとの間のより高い時間的な類似性(または、より小さい差分)を示す比較値に対応し得る。[0039]エンコーダは、複数の段階において、一連の推定された時間的な不整合値を改良することによって、最終的な時間的な不整合値を決定し得る。例えば、エンコーダは、最初に、第1のオーディオ信号および第2のオーディオ信号のステレオ前処理されおよび再サンプリングされたバージョンから生成された比較値に基づいて、「暫定的な(tentative)」時間的な不整合値を推定し得る。エンコーダは、推定された「暫定的な」時間的な不整合値に近似の(proximate to)時間的な不整合値に関連付けられた補間された比較値を生成し得る。エンコーダは、補間された比較値に基づいて、第2の推定された「補間された」時間的な不整合値を決定し得る。例えば、第2の推定された「補間された」時間的な不整合値は、残りの補間された比較値および第1の推定された「暫定的な」時間的な不整合値に比べて、より高い時間的な類似性(または、より小さい差分)を示す特定の補間された比較値に対応し得る。現在のフレーム(例えば、第1のオーディオ信号の第1のフレーム)の第2の推定された「補間された」時間的な不整合値が、前のフレーム(例えば、第1のフレームに先行する、第1のオーディオ信号のフレーム)の最終的な時間的な不整合値とは異なる場合には、現在のフレームの「補間された」時間的な不整合値は、第1のオーディオ信号と、シフトされた第2のオーディオ信号との間の時間的な類似性を改善するためにさらに「補正」される。具体的には、第3の推定された「補正された」時間的な不整合値が、現在のフレームの第2の推定された「補間された」時間的な不整合値および前のフレームの最終的な推定された時間的な不整合値の周辺をサーチすること(searching around)によって、時間的な類似性のより正確な測定値に対応し得る。第3の推定された「補正された」時間的な不整合値は、フレーム間の時間的な不整合値における任意のスプリアスの変化(spurious changes)を制限することによって、最終的な時間的な不整合値を推定するためにさらに調整され、本明細書で説明されるように、2つの連続した(successive)(または連続的な(consecutive))フレームにおいて、負の時間的な不整合値から正の時間的な不整合値に(または、その逆に)切り替わらないようにさらに制御される。
[0040]いくつかの例では、エンコーダは、連続的なフレームにおいてまたは隣接フレームにおいて、正の時間的な不整合値と負の時間的な不整合値との間で、またはその逆で、切り替えることを控え得る。例えば、エンコーダは、最終的な時間的な不整合値を、第1のフレームの推定された「補間された」または「補正された」時間的な不整合値と、第1のフレームに先行する特定のフレームにおける対応する推定された「補間された」または「補正された」または最終的な時間的な不整合値とに基づいて、時間的なシフトがないことを示す特定の値(例えば、0)に設定し得る。例示すると、エンコーダは、現在のフレームの推定された「暫定的な」または「補間された」または「補正された」時間的な不整合値の一方が正であり、前のフレーム(例えば、第1のフレームに先行するフレーム)の推定された「暫定的な」または「補間された」または「補正された」または「最終的な」推定された時間的な不整合値の他方が負であると決定することに応答して、現在のフレーム(例えば、第1のフレーム)の最終的な時間的な不整合値を、時間的なシフトがないことを示すように設定し得る、すなわち、shift1=0。代替として、エンコーダはまた、現在のフレームの推定された「暫定的な」または「補間された」または「補正された」時間的な不整合値の一方が負であり、前のフレーム(例えば、第1のフレームに先行するフレーム)の推定された「暫定的な」または「補間された」または「補正された」または「最終的な」推定された時間的な不整合値の他方が正であると決定することに応答して、現在のフレーム(例えば、第1のフレーム)の最終的な時間的な不整合値を、時間的なシフトがないことを示すように設定し得る、すなわち、shift1=0。
[0041]エンコーダは、時間的な不整合値に基づいて、「基準」または「ターゲット」として、第1のオーディオ信号または第2のオーディオ信号のフレームを選択し得る。例えば、最終的な時間的な不整合値が正であると決定することに応答して、エンコーダは、第1のオーディオ信号が「基準」信号であること、および第2のオーディオ信号が「ターゲット」信号であることを示す第1の値(例えば、0)を有する基準チャンネルまたは信号インジケータを生成し得る。代替として、最終的な時間的な不整合値が負であると決定することに応答して、エンコーダは、第2のオーディオ信号が「基準」信号であること、および第1のオーディオ信号が「ターゲット」信号であることを示す第2の値(例えば、1)を有する基準チャンネルまたは信号インジケータを生成し得る。
[0042]エンコーダは、基準信号と、非因果的シフトされたターゲット信号とに関連付けられた相対利得(例えば、相対利得パラメータ)を推定し得る。例えば、最終的な時間的な不整合値が正であると決定することに応答して、エンコーダは、非因果的な時間的な不整合値(例えば、最終的な時間的な不整合値の絶対値)によってオフセットされた第2のオーディオ信号に対する第1のオーディオ信号の振幅または電力レベルを正規化または等化するための利得値を推定し得る。代替として、最終的な時間的な不整合値が負であると決定することに応答して、エンコーダは、第2のオーディオ信号に対する非因果的シフトされた第1のオーディオ信号の電力または振幅レベルを正規化または等化するための利得値を推定し得る。いくつかの例では、エンコーダは、非因果的シフトされた「ターゲット」信号に対する「基準」信号の振幅または電力レベルを正規化または等化するための利得値を推定し得る。他の例では、エンコーダは、ターゲット信号(例えば、シフトされていないターゲット信号)に対する基準信号に基づく利得値(例えば、相対利得値)を推定し得る。
[0043]エンコーダは、基準信号、ターゲット信号、非因果的な時間的な不整合値、および相対利得パラメータに基づいて、少なくとも1つの符号化された信号(例えば、ミッド信号、サイド信号、または両方)を生成し得る。他のインプリメンテーションでは、エンコーダは、基準チャンネルと、時間的な不整合が調整されたターゲットチャンネル(temporal-mismatch adjusted target channel)とに基づいて、少なくとも1つの符号化された信号(例えば、ミッドチャンネル、サイドチャンネル、または両方)を生成し得る。サイド信号は、第1のオーディオ信号の第1のフレームの第1のサンプルと、第2のオーディオ信号の選択されたフレームの選択されたサンプルとの間の差に対応し得る。エンコーダは、最終的な時間的な不整合値に基づいて、選択されたフレームを選択し得る。より少ないビットが、サイドチャンネル信号を符号化するために使用され得、これは、第1のフレームと同時にデバイスによって受信される第2のオーディオ信号のフレームに対応する第2のオーディオ信号の他のサンプルと比較して、第1のサンプルと選択されたサンプルとの間の差が低減されるためである。デバイスの送信機は、少なくとも1つの符号化された信号、非因果的な時間的な不整合値、相対利得パラメータ、基準チャンネルまたは信号インジケータ、またはこれらの組合せを送信し得る。
[0044]エンコーダは、基準信号、ターゲット信号、非因果的な時間的な不整合値、相対利得パラメータ、第1のオーディオ信号の特定のフレームの低帯域パラメータ、この特定のフレームの高帯域パラメータ、またはこれらの組合せに基づいて、少なくとも1つの符号化された信号(例えば、ミッド信号、サイド信号、または両方)を生成し得る。特定のフレームは、第1のフレームに先行し得る。1つまたは複数の先行するフレームからの、ある特定の低帯域パラメータ、高帯域パラメータ、またはこれらの組合せが、第1のフレームのミッド信号、サイド信号、または両方を符号化するために使用され得る。低帯域パラメータ、高帯域パラメータ、またはこれらの組合せに基づいて、ミッド信号、サイド信号、または両方を符号化することは、チャンネル間相対利得パラメータおよび非因果的な時間的な不整合値の推定値を改善し得る。低帯域パラメータ、高帯域パラメータ、またはこれらの組合せは、ピッチパラメータ、ボイシングパラメータ(voicing parameter)、コーダタイプパラメータ、低帯域エネルギーパラメータ、高帯域エネルギーパラメータ、エンベロープパラメータ(例えば、チルトパラメータ)、ピッチ利得パラメータ、周波数チャンネル利得パラメータ、コーディングモードパラメータ、音声活動パラメータ、雑音推定パラメータ、信号対雑音比パラメータ、フォルマントパラメータ、スピーチ/音楽決定パラメータ、非因果的シフト、チャンネル間利得パラメータ、またはこれらの組合せを含み得る。デバイスの送信機は、少なくとも1つの符号化された信号、非因果的な時間的な不整合値、相対利得パラメータ、基準チャンネル(または信号)インジケータ、またはこれらの組合せを送信し得る。本開示では、「決定すること」、「計算すること」、「シフトすること」、「調整すること」などといった用語は、どのように1つまたは複数の動作が実行されるかを説明するために使用され得る。このような用語は限定的であると解釈されるべきではなく、他の技法が同様の動作を実行するために利用され得ることに留意されたい。
[0045]図1を参照すると、システムの特定の例示的な例が開示され、全体として100と指定されている。システム100は、ネットワーク120を介して、第2のデバイス106に通信可能に結合された第1のデバイス104を含む。ネットワーク120は、1つまたは複数のワイヤレスネットワーク、1つまたは複数のワイヤードネットワーク、またはこれらの組合せを含み得る。
[0046]第1のデバイス104は、メモリ153、エンコーダ134、送信機110、および1つまたは複数の入力インターフェース112を含む。メモリ153は、命令191を含む非一時的なコンピュータ可読媒体を含む。命令191は、本明細書で説明される動作のうちの1つまたは複数を実行するために、エンコーダ134によって実行可能である。入力インターフェース112のうちの第1の入力インターフェースが、第1のマイクロフォン146に結合され得る。入力インターフェース112のうちの第2の入力インターフェースが、第2のマイクロフォン148に結合され得る。エンコーダ134は、チャンネル間帯域幅拡張(ICBWE:inter-channel bandwidth extension)エンコーダ136を含み得る。
[0047]第2のデバイス106は、受信機160およびデコーダ162を含む。デコーダ162は、高帯域ミッドチャンネルデコーダ202、低帯域ミッドチャンネルデコーダ204、高帯域ミッドチャンネルフィルタ207、チャンネル間予測マッパー208、低帯域ミッドチャンネルフィルタ212、チャンネル間予測器214、アップミックスプロセッサ224、およびICBWEデコーダ226を含み得る。デコーダ162はまた、図1に例示されていない1つまたは複数の他の構成要素を含み得る。例えば、デコーダ162は、時間領域チャンネル(例えば、時間領域信号)を周波数領域(例えば、変換領域)に変換するように構成された1つまたは複数の変換ユニットを含み得る。デコーダ162の動作に関連付けられたさらなる詳細が、図2および図3に関連して説明される。
[0048]第2のデバイス106は、第1のラウドスピーカ142、第2のラウドスピーカ144、または両方に結合され得る。図示されていないが、第2のデバイス106は、プロセッサ(例えば、中央処理装置)、マイクロフォン、送信機、アンテナ、メモリなどといった他の構成要素を含み得る。
[0049]動作中、第1のデバイス104は、第1のマイクロフォン146から第1の入力インターフェースを介して第1のオーディオチャンネル130(例えば、第1のオーディオ信号)を受信し得、第2のマイクロフォン148から第2の入力インターフェースを介して第2のオーディオチャンネル132(例えば、第2のオーディオ信号)を受信し得る。第1のオーディオチャンネル130は、右チャンネルまたは左チャンネルのうちの一方に対応し得る。第2のオーディオチャンネル132は、右チャンネルまたは左チャンネルのうちの他方に対応し得る。音源152(例えば、ユーザ、スピーカ、周囲雑音、楽器など)は、第2のマイクロフォン148よりも第1のマイクロフォン146により近くあり得る。したがって、音源152からのオーディオ信号は、第2のマイクロフォン148を介してよりも早い時間において、第1のマイクロフォン146を介して入力インターフェース112において受信され得る。複数のマイクロフォンを通じたマルチチャンネル信号捕捉におけるこの自然な遅延は、第1のオーディオチャンネル130と第2のオーディオチャンネル132との間の時間的なずれをもたらし得る。
[0050]1つのインプリメンテーションによると、第1のオーディオチャンネル130が「基準チャンネル」であり得、第2のオーディオチャンネル132が「ターゲットチャンネル」であり得る。ターゲットチャンネルは、基準チャンネルと実質的に整合するように調整(例えば、時間的にシフト)され得る。別のインプリメンテーションによると、第2のオーディオチャンネル132が基準チャンネルであり得、第1のオーディオチャンネル130がターゲットチャンネルであり得る。1つのインプリメンテーションによると、基準チャンネルおよびターゲットチャンネルは、フレーム単位で異なり得る。例えば、第1のフレームについては、第1のオーディオチャンネル130が基準チャンネルであり得、第2のオーディオチャンネル132がターゲットチャンネルであり得る。しかしながら、第2のフレーム(例えば、後続のフレーム)については、第1のオーディオチャンネル130がターゲットチャンネルであり得、第2のオーディオチャンネル132が基準チャンネルであり得る。説明を簡単にするために、以下で特に断りのない限り、第1のオーディオチャンネル130が基準チャンネルであり、第2のオーディオチャンネル132がターゲットチャンネルである。オーディオチャンネル130、132に関連して説明される基準チャンネルは、基準チャンネルインジケータ192(例えば、高帯域基準チャンネルインジケータ)とは独立であり得ることに留意されたい。例えば、基準チャンネルインジケータ192は、チャンネル130、132のいずれかの高帯域が、高帯域基準チャンネルであることを示し得、また、基準チャンネルインジケータ192は、基準チャンネルとは異なるチャンネルかまたは同じチャンネルかのいずれかであり得る高帯域基準チャンネルを示し得る。
[0051]エンコーダ134は、ミッドチャンネル(Mid)154およびサイドチャンネル(Side)155を生成するために、第1のオーディオチャンネル(ch1)130および第2のオーディオチャンネル(ch2)132に対して時間領域ダウンミックス動作を実行し得る。ミッドチャンネル154は、次のように表され得る:
Mid=α*ch1+(1−α)*ch2 式5
そして、サイドチャンネル155は、次のように表され得る:
Side=(1−α)*ch1−α*ch2 式6、
[0052]ここで、αは、エンコーダ134ではダウンミックス係数およびデコーダ162ではアップミックス係数166に対応する。本明細書で使用される場合、αは、アップミックス係数166として説明される、しかしながら、エンコーダ134では、αは、チャンネル130、132をダウンミックスするために使用されるダウンミックス係数であることが理解されるべきである。アップミックス係数166は、0から1の間で変化し得る。アップミックス係数166が0.5である場合、エンコーダ134は、パッシブダウンミックスを実行する。アップミックス係数166が1に等しい場合、ミッドチャンネル154は、第1のオーディオチャンネル(ch1)130にマッピングされ、サイドチャンネル155は、負の第2のオーディオチャンネル(a negative of the second audio channel)132(例えば、−ch2)にマッピングされる。式5および式6では、チャンネル130、132は、非因果的シフトおよびターゲット利得が適用されるように、チャンネル間整合される(inter-channel aligned)。ミッドチャンネル154およびサイドチャンネル155は、コア(例えば、0〜6.4kHzまたは0〜8kHz)において波形コーディングされ、サイドチャンネル155と比べてより多くのビットがミッドチャンネル154をコーディングするために指定される。エンコーダ134は、符号化されたミッドチャンネル182を生成するために、ミッドチャンネルを符号化し得る。
[0053]エンコーダ134はまた、フィルタリングされたミッドチャンネル(Mid_filt)156を生成するために、ミッドチャンネル154をフィルタリングし得る。例えば、エンコーダ134は、フィルタリングされたミッドチャンネル156を生成するために、1つまたは複数のフィルタ係数に従ってミッドチャンネル154をフィルタリングし得る。以下で説明されるように、ミッドチャンネル154をフィルタリングするためにエンコーダ134によって使用されるフィルタ係数は、デコーダ162のミッドチャンネルフィルタ212によって使用されるフィルタ係数270と同じであり得る。フィルタリングされたミッドチャンネル156は、フィルタ(例えば、そのカットオフ周波数が、オーディオ信号タイプスピーチ、音楽、背景雑音、コーディングのために使用されるビットレート、またはコアサンプルレートに基づく、適応ローパスフィルタ、適応ハイパスフィルタ、および予め定義されたフィルタ)に基づく、ミッドチャンネル154の調整されたバージョンであり得る。例えば、フィルタリングされたミッドチャンネル156は、ミッドチャンネル154の励起に適用されたサイドチャンネル155に基づく知覚的重み付けフィルタ(PWF:perceptual weighting filter)、ミッドチャンネル154の帯域幅拡張されたバージョン(例えば、A(z/gamma1))、またはミッドチャンネル154の適応コードブック成分であり得る。代替のインプリメンテーションでは、フィルタリングされたミッドチャンネル156は、ミッドチャンネル154のハイパスフィルタリングされたバージョンであり得、フィルタカットオフ周波数は、信号のタイプ(例えば、スピーチ、音楽、または背景雑音)に依存し得る。フィルタカットオフ周波数はまた、使用されるダウンミックスアルゴリズム、コアサンプルレート、またはビットレートの関数であり得る。1つのインプリメンテーションでは、ミッドチャンネル154は、低帯域ミッドチャンネルおよび高帯域ミッドチャンネルを含み得る。フィルタリングされたミッドチャンネル156は、チャンネル間予測利得164を推定するために使用されるフィルタリングされた(例えば、ハイパスフィルタリングされた)低帯域ミッドチャンネルに対応し得る。代替のインプリメンテーションでは、フィルタリングされたミッドチャンネル156はまた、チャンネル間予測利得164を推定するために使用されるフィルタリングされた高帯域ミッドチャンネルに対応し得る。別のインプリメンテーションでは、ローパスフィルタリングされたミッドチャンネル156(低帯域)は、予測されたミッドチャンネルを推定するために使用される。予測されたミッドチャンネルは、フィルタリングされたサイドチャンネルから減算され、フィルタリングされた誤差(filtered error)が符号化される。現在のフレームについては、フィルタリングされた誤差およびチャンネル間予測パラメータは、符号化および送信される。
[0054]エンコーダ134は、サイドチャンネル155が、予測されたサイドチャンネルに実質的に等しくなるように、閉ループ解析を使用して、チャンネル間予測利得(g_icp)164を推定し得る。予測されたサイドチャンネルは、チャンネル間予測利得164とフィルタリングされたミッドチャンネル156との積(例えば、g_icp*Mid_filt)に基づく。したがって、チャンネル間予測利得(g_icp)164は、エンコーダ134において、項(Side−g_icp*Mid_filt)を低減させる(例えば、最小化する)ように推定され得る。いくつかのインプリメンテーションによると、チャンネル間予測利得(g_icp)164は、歪み側度(distortion measure)(例えば、知覚的に重み付けされた平均2乗誤差(MS)またはハイパスフィルタリングされた誤差)に基づく。別のインプリメンテーションによると、チャンネル間予測利得164は、ミッドチャンネル154およびサイドチャンネル155の高周波部分を低減(例えば、最小化)しながら推定され得る。例えば、チャンネル間予測利得164は、項(HHP(z)(Side−g_icp*Mid))を低減させるように推定され得る。
[0055]エンコーダ134はまた、サイドチャンネル予測誤差(error_ICP_hat)168を決定(例えば、推定)し得る。サイドチャンネル予測誤差168は、サイドチャンネル155と予測されたサイドチャンネル(例えば、g_icp*Mid_filt)との間の差に対応し得る。サイドチャンネル予測誤差(error_ICP_hat)168は、項(Side−g_icp*Mid_filt)に等しい。
[0056]ICBWEエンコーダ136は、合成された非基準高帯域および非基準ターゲットチャンネルに基づいて、ICBWEパラメータ184を推定するように構成され得る。例えば、ICBWEエンコーダ136は、残差予測利得390(例えば、高帯域サイドチャンネル利得)、スペクトルマッピングパラメータ392、利得マッピングパラメータ394、基準チャンネルインジケータ192などを推定し得る。スペクトルマッピングパラメータ392は、非基準高帯域チャンネルのスペクトル(またはエネルギー)を、合成された非基準高帯域チャンネルのスペクトルにマッピングする。利得マッピングパラメータ394は、非基準高帯域チャンネルの利得を、合成された非基準高帯域チャンネルの利得にマッピングし得る。基準チャンネルインジケータ192は、フレーム単位で、基準チャンネルが左チャンネルであるか、または右チャンネルであるかを示し得る。
[0057]送信機110は、ネットワーク120を介して、第2のデバイス106にビットストリーム180を送信し得る。ビットストリーム180は、少なくとも、符号化されたミッドチャンネル182、チャンネル間予測利得164、アップミックス係数166、サイドチャンネル予測誤差168、ICBWEパラメータ184、および基準チャンネルインジケータ192を含む。他のインプリメンテーションによると、ビットストリーム180は、追加のステレオパラメータ(例えば、チャンネル間強度差(IID)パラメータ、チャンネル間レベル差(ILD:interchannel level differences)パラメータ、チャンネル間時間差(ITD)パラメータ、チャンネル間位相差(IPD)パラメータ、チャンネル間ボイシングパラメータ、チャンネル間ピッチパラメータ、チャンネル間利得パラメータなど)を含み得る。
[0058]第2のデバイス106の受信機160は、ビットストリーム180を受信し得、デコーダ162は、第1のチャンネル(例えば、左チャンネル126)および第2のチャンネル(例えば、右チャンネル128)を生成するために、ビットストリーム180を復号する。第2のデバイス106は、第1のラウドスピーカ142を介して左チャンネル126を出力し得、第2のラウドスピーカ144を介して右チャンネル128を出力し得る。代替の例では、左チャンネル126および右チャンネル128は、ステレオ信号ペアとして単一の出力ラウドスピーカに送信され得る。デコーダ162の動作は、図2〜図3に関してさらに詳細に説明される。
[0059]図2を参照すると、デコーダ162の特定のインプリメンテーションが示される。デコーダ162は、高帯域ミッドチャンネルデコーダ202、低帯域ミッドチャンネルデコーダ204、高帯域ミッドチャンネルフィルタ207、チャンネル間予測マッパー208、低帯域ミッドチャンネルフィルタ212、チャンネル間予測器214、アップミックスプロセッサ224、ICBWEデコーダ226、組合せ回路228、および組合せ回路230を含む。いくつかのインプリメンテーションによると、低帯域ミッドチャンネルフィルタ212および高帯域ミッドチャンネルフィルタ207は、単一の構成要素(例えば、単一のフィルタ)に一体化される。
[0060]符号化されたミッドチャンネル182は、高帯域ミッドチャンネルデコーダ202と低帯域ミッドチャンネルデコーダ204とに提供される。低帯域ミッドチャンネルデコーダ204は、復号された低帯域ミッドチャンネル242を生成するために、符号化されたミッドチャンネル182の低帯域部分を復号するように構成され得る。非限定的な例として、符号化されたミッドチャンネル182が、50Hzから16kHzの間のオーディオコンテンツを有する超広帯域信号である場合、符号化されたミッドチャンネル182の低帯域部分は、50Hz〜8kHzに及び得、符号化されたミッドチャンネル182の高帯域部分は、8kHz〜16kHzに及び得る。低帯域ミッドチャンネルデコーダ204は、復号された低帯域ミッドチャンネル242を生成するために、符号化されたミッドチャンネル182の低帯域部分(例えば、50Hzから8kHzの間の部分)を復号し得る。上記の例は、例示のみを目的としており、限定的であると解釈されるべきではないことが理解されるべきである。他の例では、符号化されたミッドチャンネル182は、広帯域信号、全帯域信号などであり得る。復号された低帯域ミッドチャンネル242(例えば、時間領域チャンネル)は、アップミックスプロセッサ224に提供される。
[0061]復号された低帯域ミッドチャンネル242はまた、低帯域ミッドチャンネルフィルタ212に提供される。低帯域ミッドチャンネルフィルタ212は、低帯域フィルタリングされたミッドチャンネル(Mid_filt)246を生成するために、1つまたは複数のフィルタ係数270に従って、復号された低帯域ミッドチャンネル242をフィルタリングするように構成され得る。低帯域フィルタリングされたミッドチャンネル156は、フィルタ(例えば、予め定義されたフィルタ)に基づく、復号された低帯域ミッドチャンネル242の調整されたバージョンであり得る。低帯域フィルタリングされたミッドチャンネル246は、復号された低帯域ミッドチャンネル242の適応コードブック成分、または復号された低帯域ミッドチャンネル242の帯域幅拡張されたバージョンを含み得る。代替のインプリメンテーションでは、低帯域フィルタリングされたミッドチャンネル246は、復号された低帯域ミッドチャンネル242のハイパスフィルタリングされたバージョンであり得、フィルタカットオフ周波数は、信号のタイプ(例えば、スピーチ、音楽、または背景雑音)に依存し得る。フィルタカットオフ周波数はまた、使用されるダウンミックスアルゴリズム、コアサンプルレート、またはビットレートの関数であり得る。低帯域フィルタリングされたミッドチャンネル246は、フィルタリングされた(例えば、ハイパスフィルタリングされた)低帯域ミッドチャンネルに対応し得る。代替のインプリメンテーションでは、低帯域フィルタリングされたミッドチャンネル246はまた、フィルタリングされた高帯域ミッドチャンネルに対応し得る。例えば、低帯域フィルタリングされたミッドチャンネル246は、図1のフィルタリングされたミッドチャンネル156と実質的に同様の特性を有し得る。フィルタリングされたミッドチャンネル246は、チャンネル間予測器214に提供される。
[0062]チャンネル間予測器214はまた、チャンネル間予測利得(g_icp)を受信し得る。チャンネル間予測器214は、低帯域フィルタリングされたミッドチャンネル(Mid_filt)246と、チャンネル間予測利得(g_icp)164とに基づいて、チャンネル間予測された信号(g_icp*Mid_filt)247を生成するように構成され得る。例えば、チャンネル間予測器214は、チャンネル間予測された信号247を生成するために、チャンネル間予測利得164などのチャンネル間予測パラメータを、低帯域フィルタリングされたミッドチャンネル246にマッピングし得る。チャンネル間予測された信号247は、アップミックスプロセッサ224に提供される。
[0063]アップミックス係数166(例えば、α)およびサイドチャンネル予測誤差(error_ICP_hat)168もまた、復号された低帯域ミッドチャンネル(Mid_hat)242およびチャンネル間予測された信号(g_icp*Mid_filt)247とともに、アップミックスプロセッサ224に提供される。アップミックスプロセッサ224は、アップミックス係数166(例えば、α)、復号された低帯域ミッドチャンネル(Mid_hat)242、チャンネル間予測された信号(g_icp*Mid_filt)247、およびサイドチャンネル予測誤差(error_ICP_hat)168に基づいて、低帯域左チャンネル248および低帯域右チャンネル250を生成するように構成され得る。例えば、アップミックスプロセッサ224は、それぞれ式7および式8に従って、第1のチャンネル(Ch1)および第2のチャンネル(Ch2)を生成し得る。式7および式8は、次のように表される:
Ch1=α*Mid_hat+(1−α)*(g_icp*Mid_filt+error_ICP_hat) 式7
Ch2=(1−α)*Mid_hat−α*(g_icp*Mid_filt+error_ICP_hat) 式8
1つのインプリメンテーションによると、第1のチャンネル(Ch1)が、低帯域左チャンネル248であり、第2のチャンネル(Ch2)が、低帯域右チャンネル250である。別のインプリメンテーションによると、第1のチャンネル(Ch1)が、低帯域右チャンネル250であり、第2のチャンネル(Ch2)が、低帯域左チャンネル248である。アップミックスプロセッサ224は、アップミックス動作中に、IIDパラメータ、ILDパラメータ、ITDパラメータ、IPDパラメータ、チャンネル間ボイシングパラメータ、チャンネル間ピッチパラメータ、およびチャンネル間利得パラメータを適用し得る。低帯域左チャンネル248は、組合せ回路228に提供され、低帯域右チャンネル250は、組合せ回路230に提供される。
[0064]いくつかのインプリメンテーションによると、第1のチャンネル(Ch1)および第2のチャンネル(Ch2)は、それぞれ式9および式10に従って生成される。式9および式10は、次のように表される:
Ch1=α*Mid_hat+(1−α)*Side_hat+ICP_1 式9
Ch2=(1−α)*Mid_hat−α*Side_hat+ICP_2 式10、
ここで、Side_hatは、復号されたサイドチャンネル(図示せず)に対応し、ここで、ICP_1は、α*(Mid−Mid_hat)+(1−α)*(Side−Side_hat)に対応し、ここで、ICP_2は、(1−α)*(Mid−Mid_hat)−α*(Side−Side_hat)に対応する。式9および式10によると、Mid−Mid_hatは、ミッドチャンネル154に比べて(relative to)、より無相関であり、より白色化される。加えて、Side−Side_hatは、Mid_hatから予測されるとともに、エンコーダ134において項ICP_1およびICP_2を低減させる。
[0065]高帯域ミッドチャンネルデコーダ202は、復号された高帯域ミッドチャンネル252を生成するために、符号化されたミッドチャンネル182の高帯域部分を復号するように構成され得る。非限定的な例として、符号化されたミッドチャンネル182が、50Hzから16kHzの間のオーディオコンテンツを有する超広帯域信号である場合、符号化されたミッドチャンネル182の高帯域部分は、8kHz〜16kHzに及び得る。高帯域ミッドチャンネルデコーダ202は、復号された高帯域ミッドチャンネル252を生成するために、符号化されたミッドチャンネル182の高帯域部分を復号し得る。復号された高帯域ミッドチャンネル252(例えば、時間領域チャンネル)は、高帯域ミッドチャンネルフィルタ207とICBWEデコーダ226とに提供される。
[0066]高帯域ミッドチャンネル207は、フィルタリングされた高帯域ミッドチャンネル253(例えば、復号された高帯域ミッドチャンネル252のフィルタリングされたバージョン)を生成するために、復号された高帯域ミッドチャンネル252をフィルタリングするように構成され得る。フィルタリングされた高帯域ミッドチャンネル253は、チャンネル間予測マッパー208に提供される。チャンネル間予測マッパー208は、チャンネル間予測利得(g_icp)164およびフィルタリングされた高帯域ミッドチャンネル253に基づいて、予測された高帯域サイドチャンネル254を生成するように構成され得る。例えば、チャンネル間予測マッパー208は、予測された高帯域サイドチャンネル254を生成するために、フィルタリングされた高帯域ミッドチャンネル253にチャンネル間予測利得(g_icp)164を適用し得る。代替のインプリメンテーションでは、高帯域ミッドチャンネルフィルタ207は、低帯域ミッドチャンネルフィルタ212に基づくか、または高帯域特性に基づき得る。高帯域ミッドチャンネルフィルタ207は、スペクトル拡散を実行するように、または高帯域で拡散場音(diffuse field sound)を生成するように構成され得る。フィルタリングされた高帯域は、ICPマッピング208を通じて、予測された側波帯チャンネル(side-band channel)254にマッピングされる。予測された高帯域サイドチャンネル254は、ICBWEデコーダ226に提供される。
[0067]ICBWEデコーダ226は、復号された高帯域ミッドチャンネル252、予測された高帯域サイドチャンネル254、およびICBWEパラメータ184に基づいて、高帯域左チャンネル256および高帯域右チャンネル258を生成するように構成され得る。ICBWEデコーダ226の動作が、図3に関連して説明される。
[0068]図3を参照すると、ICBWEデコーダ174の特定のインプリメンテーションが示される。ICBWEデコーダ226は、高帯域残差生成ユニット302、スペクトルマッパー304、利得マッパー306、組合せ回路308、スペクトルマッパー310、利得マッパー312、組合せ回路314、およびチャンネルセレクタ316を含む。
[0069]予測された高帯域サイドチャンネル254は、高帯域残差生成ユニット302に提供される。(ビットストリーム180に符号化された)残差予測利得390もまた、高帯域残差生成ユニット302に提供される。高帯域残差生成ユニット302は、高帯域残差チャンネル324(例えば、高帯域サイドチャンネル)を生成するために、予測された高帯域サイドチャンネル254に残差予測利得390を適用するように構成され得る。高帯域残差チャンネル324は、組合せ回路314とスペクトルマッパー310とに提供される。
[0070]1つのインプリメンテーションによると、12.8kHzの低帯域コアの場合、予測された高帯域サイドチャンネル254(例えば、ミッド高帯域ステレオ充填信号(mid high-band stereo filling signal))は、残差予測利得を使用して、高帯域残差生成ユニット302によって処理される。例えば、高帯域残差生成ユニット302は、2帯域利得(two-band gains)を一次フィルタ(first order filter)にマッピングし得る。処理は、(例えば、32kHz信号の6.4kHz〜14.4kHzをカバーする)非反転領域(un-flipped domain)で実行され得る。代替として、処理は、(例えば、ベースバンドにおいて6.4kHz〜14.4kHzをカバーする)スペクトル的に反転されおよびダウンミックスされた高帯域チャンネルに対して実行され得る。16kHzの低帯域コアの場合、ミッドチャンネルの低帯域非線形励起が、エンベロープ形状の雑音と混合されて、ターゲット高帯域非線形励起を生成する。ターゲット高帯域非線形励起は、復号された高帯域ミッドチャンネル252を生成するために、ミッドチャンネル高帯域ローパスフィルタを使用してフィルタリングされる。
[0071]復号された高帯域ミッドチャンネル252は、組合せ回路314とスペクトルマッパー304とに提供される。組合せ回路314は、高帯域基準チャンネル332を生成するために、復号された高帯域ミッドチャンネル252と高帯域残差チャンネル324とを組み合わせるように構成され得る。高帯域基準チャンネル332は、チャンネルセレクタ316に提供される。
[0072]スペクトルマッパー304は、スペクトル的にマッピングされた高帯域ミッドチャンネル320を生成するために、復号された高帯域ミッドチャンネル252に対して第1のスペクトルマッピング動作を実行するように構成され得る。例えば、スペクトルマッパー304は、スペクトル的にマッピングされた高帯域ミッドチャンネル320を生成するために、復号された高帯域ミッドチャンネル252にスペクトルマッピングパラメータ392(例えば、逆量子化されたスペクトルマッピングパラメータ)を適用し得る。スペクトル的にマッピングされた高帯域ミッドチャンネル320は、利得マッパー306に提供される。
[0073]利得マッパー306は、第1の高帯域利得マッピングされたチャンネル322を生成するために、スペクトル的にマッピングされた高帯域ミッドチャンネル320に対して第1の利得マッピング動作を実行するように構成され得る。例えば、利得マッパー306は、第1の高帯域利得マッピングされたチャンネル322を生成するために、スペクトル的にマッピングされた高帯域ミッドチャンネル320に利得パラメータ394を適用し得る。第1の高帯域利得マッピングされたチャンネル322は、組合せ回路308に提供される。
[0074]スペクトルマッパー310は、スペクトル的にマッピングされた高帯域残差チャンネル326を生成するために、高帯域残差チャンネル324に対して第2のスペクトルマッピング動作を実行するように構成され得る。例えば、スペクトルマッパー310は、スペクトル的にマッピングされた高帯域残差チャンネル326を生成するために、高帯域残差チャンネル324にスペクトルマッピングパラメータ392を適用し得る。スペクトル的にマッピングされた高帯域残差チャンネル326は、利得マッパー312に提供される。
[0075]利得マッパー312は、第2の高帯域利得マッピングされたチャンネル328を生成するために、スペクトル的にマッピングされた高帯域残差チャンネル326に対して第2の利得マッピング動作を実行するように構成され得る。例えば、利得マッパー312は、第2の高帯域利得マッピングされたチャンネル328を生成するために、スペクトル的にマッピングされた高帯域残差チャンネル326に利得パラメータ394を適用し得る。第2の高帯域利得マッピングされたチャンネル328は、組合せ回路308に提供される。
[0076]組合せ回路308は、高帯域ターゲットチャンネル330を生成するために、第1の高帯域利得マッピングされたチャンネル322と第2の高帯域利得マッピングされたチャンネル328とを組み合わせるように構成され得る。高帯域ターゲットチャンネル330は、チャンネルセレクタ316に提供される。
[0077]チャンネルセレクタ316は、高帯域左チャンネル256として、高帯域基準チャンネル332または高帯域ターゲットチャンネル330のうちの一方を指定するように構成され得る。チャンネルセレクタ316はまた、高帯域右チャンネル258として、高帯域基準チャンネル332または高帯域ターゲットチャンネル330のうちの他方を指定するように構成され得る。例えば、基準チャンネルインジケータ192は、チャンネルセレクタ316に提供される。基準チャンネルインジケータ192が「0」のバイナリ値を有する場合、チャンネルセレクタ316は、高帯域左チャンネル256として高帯域基準チャンネル332を指定し、高帯域右チャンネル258として高帯域ターゲットチャンネル330を指定する。基準チャンネルインジケータ192が「1」のバイナリ値を有する場合、チャンネルセレクタ316は、高帯域右チャンネル285として高帯域基準チャンネル332を指定し、高帯域左チャンネル256として高帯域ターゲットチャンネル330を指定する。
[0078]図2に戻って参照すると、高帯域左チャンネル256は、組合せ回路228に提供され、高帯域右チャンネル258は、組合せ回路230に提供される。組合せ回路228は、左チャンネル126を生成するために、低帯域左チャンネル248と高帯域左チャンネル256を組み合わせるように構成され得、組合せ回路230は、右チャンネル128を生成するために、低帯域右チャンネル250と高帯域右チャンネル258を組み合わせるように構成され得る。
[0079]いくつかのインプリメンテーションによると、左チャンネル126および右チャンネル128は、エンコーダ134において決定される時間的なシフト値に基づいて、チャンネル126、128のうちの遅れているチャンネル(例えば、ターゲットチャンネル)を時間的にシフトするために、チャンネル間アライナ(図示せず)に提供され得る。例えば、エンコーダ134は、第1のオーディオチャンネル130(例えば、基準チャンネル)と時間的に整合されている状態になるように第2のオーディオチャンネル132(例えば、ターゲットチャンネル)を時間的にシフトすることによって、チャンネル間整合を実行し得る。チャンネル間アライナ(図示せず)は、チャンネル126、128のうちの遅れているチャンネルを時間的にシフトするために逆の動作を実行し得る。
[0080]図1〜図3に関連して説明された技法は、典型的には、デコーダ162にサイドチャンネル155の符号化されたバージョンを送信することによって達成される、拡張されたステレオ特性(例えば、拡張されたステレオパンニングおよび拡張されたステレオの広がり(enhanced stereo broadening))が、サイドチャンネル155を符号化するために必要とされるビットよりも少ないビットを使用して、デコーダ162において達成されることを可能にし得る。例えば、サイドチャンネル155をコーディングし、デコーダ162にサイドチャンネル155の符号化されたバージョンを送信する代わりに、サイドチャンネル予測誤差(error_ICP_hat)168およびチャンネル間予測利得(g_icp)164が符号化され、ビットストリーム180の一部としてデコーダ162に送信され得る。サイドチャンネル予測誤差(error_ICP_hat)168およびチャンネル間予測利得(g_icp)164は、サイドチャンネル155よりも少ないデータを含み(例えば、サイドチャンネル155よりも小さく)、これは、データ伝送を低減し得る。結果として、準最適な(sub-optimal)ステレオパンニングと準最適なステレオの広がりとに関連付けられた歪みが低減され得る。例えば、同位相の歪み(in-phase distortions)および逆位相の歪み(out-of-phase distortion)が、指向性というよりも均一な周囲雑音をモデル化するときに、低減(例えば、最小化)され得る。
[0081]いくつかのインプリメンテーションによると、上記で説明されたチャンネル間予測技法は、複数のストリームに拡張され得る。例えば、一次アンビソニックス成分または信号に対応するチャンネルW、チャンネルX、チャンネルY、およびチャンネルZが、エンコーダ134によって受信され得る。エンコーダ134は、エンコーダが符号化されたミッドチャンネル182を生成するのと同様の方法で、符号化されたチャンネルWを生成し得る。しかしながら、チャンネルX、チャンネルY、およびチャンネルZを符号化する代わりに、エンコーダ134は、上記で説明されたチャンネル間予測技法を使用して、チャンネルX〜Zを反映する、チャンネルW(またはチャンネルWのフィルタリングされたバージョン)からの残差成分(例えば、「サイド成分」)を生成し得る。例えば、エンコーダ134は、チャンネルWとチャンネルXとの間の差を反映する残差成分(Side_X)、チャンネルWとチャンネルYとの間の差を反映する残差成分(Side_Y)、およびチャンネルWとチャンネルZとの間の差を反映する残差成分(Side_Z)を符号化し得る。デコーダ162は、チャンネルWとチャンネルX〜Zの残差成分との復号されたバージョンを使用してチャンネルX〜Zを生成するために、上記で説明されたチャンネル間予測技法を使用し得る。
[0082]例となるインプリメンテーションでは、エンコーダ134は、フィルタリングされたチャンネルWを生成するために、チャンネルWをフィルタリングし得る。例えば、エンコーダ134は、フィルタリングされたチャンネルWを生成するために、1つまたは複数のフィルタ係数に従ってチャンネルWをフィルタリングし得る。フィルタリングされたチャンネルWは、チャンネルWの調整されたバージョンであり得、フィルタリング動作(例えば、そのカットオフ周波数が、オーディオ信号タイプスピーチ、音楽、背景雑音、コーディングのために使用されるビットレート、またはコアサンプルレートに基づく、適応ローパスフィルタ、適応ハイパスフィルタ、および予め定義されたフィルタ)に基づき得る。例えば、フィルタリングされたチャンネルWは、チャンネルWの励起に適用されるサイドチャンネルに基づく知覚的重み付けフィルタ(PWF)、チャンネルWの帯域幅拡張されたバージョン(例えば、A(z/gamma1))、またはチャンネルWの適応コードブック成分であり得る。
[0083]代替のインプリメンテーションでは、フィルタリングされたチャンネルWは、チャンネルWのハイパスフィルタリングされたバージョンであり得、フィルタカットオフ周波数は、信号のタイプ(例えば、スピーチ、音楽、または背景雑音)に依存し得る。フィルタカットオフ周波数はまた、使用されるダウンミックスアルゴリズム、コアサンプルレート、またはビットレートの関数であり得る。1つのインプリメンテーションでは、チャンネルWは、低帯域チャンネルおよび高帯域チャンネルを含み得る。フィルタリングされたチャンネルWは、チャンネル間予測利得164を推定するために使用されるフィルタリングされた(例えば、ハイパスフィルタリングされた)低帯域チャンネルWに対応し得る。代替のインプリメンテーションでは、フィルタリングされたチャンネルWはまた、チャンネル間予測利得164を推定するために使用されるフィルタリングされた高帯域チャンネルWに対応し得る。別のインプリメンテーションでは、ローパスフィルタリングされたチャンネルW(低帯域)は、予測されたチャンネルWを推定するために使用される。予測されたチャンネルWは、フィルタリングされたチャンネルXから減算され、フィルタリングされたX_errorが符号化される。現在のフレームについては、フィルタリングされた誤差およびチャンネル間予測パラメータが符号化および送信される。同様に、ICPは、チャンネル間パラメータおよびICP_errorを推定するために、他のチャンネルYおよびZに対して実行され得る。
[0084]図4を参照すると、符号化されたビットストリームを処理する方法400が示される。方法400は、図1の第2のデバイス106によって実行され得る。より具体的には、方法400は、受信機160およびデコーダ162によって実行され得る。
[0085]方法400は、402において、符号化されたミッドチャンネルと、チャンネル間予測利得とを含むビットストリームを受信することを含む。例えば、図1を参照すると、受信機160は、ネットワーク120を介して、第1のデバイス104からビットストリーム180を受信し得る。ビットストリーム180は、符号化されたミッドチャンネル182、チャンネル間予測利得(g_icp)164、およびアップミックス係数(α)166を含む。いくつかのインプリメンテーションによると、ビットストリーム180はまた、サイドチャンネル予測誤差(例えば、サイドチャンネル予測誤差(error_ICP_hat)168)のインジケーションを含む。
[0086]方法400はまた、404において、復号された低帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの低帯域部分を復号することを含む。例えば、図2を参照すると、低帯域ミッドチャンネルデコーダ204は、復号された低帯域ミッドチャンネル242を生成するために、符号化されたミッドチャンネル182の低帯域部分を復号し得る。
[0087]方法400はまた、406において、低帯域フィルタリングされたミッドチャンネルを生成するために、1つまたは複数のフィルタ係数に従って、復号された低帯域ミッドチャンネルをフィルタリングすることを含む。例えば、図2を参照すると、低帯域ミッドチャンネルフィルタ212は、フィルタリングされたミッドチャンネル246を生成するために、フィルタ係数270に従って、復号された低帯域ミッドチャンネル242をフィルタリングし得る。
[0088]方法400はまた、408において、低帯域フィルタリングされたミッドチャンネルと、チャンネル間予測利得とに基づいて、チャンネル間予測された信号を生成することを含む。例えば、図2を参照すると、チャンネル間予測器214は、低帯域フィルタリングされたミッドチャンネル246と、チャンネル間予測利得164とに基づいて、チャンネル間予測された信号247を生成し得る。
[0089]方法400はまた、410において、アップミックス係数と、復号された低帯域ミッドチャンネルと、チャンネル間予測された信号とに基づいて、低帯域左チャンネルおよび低帯域右チャンネルを生成すること含む。例えば、図2を参照すると、アップミックスプロセッサ224は、アップミックス係数(α)166、復号された低帯域ミッドチャンネル(Mid_hat)242、およびチャンネル間予測された信号(g_icp*Mid_filt)247に基づいて、低帯域左チャンネル248および低帯域右チャンネル250を生成し得る。いくつかのインプリメンテーションによると、アップミックスプロセッサ224はまた、サイドチャンネル予測誤差(error_ICP_hat)168に基づいて、低帯域左チャンネル248および低帯域右チャンネル250を生成し得る。例えば、アップミックスプロセッサ224は、上記で説明されたように、式7および式8を使用してチャンネル248、250を生成し得る。
[0090]方法400はまた、412において、復号された高帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの高帯域部分を復号することを含む。例えば、図2を参照すると、高帯域ミッドチャンネルデコーダ202は、復号された高帯域ミッドチャンネル252を生成するために、符号化されたミッドチャンネル182の高帯域部分を復号し得る。
[0091]方法400はまた、414において、チャンネル間予測利得と、復号された高帯域ミッドチャンネルのフィルタリングされたバージョンとに基づいて、予測された高帯域サイドチャンネルを生成することを含む。例えば、図2を参照すると、高帯域ミッドチャンネルフィルタ207は、フィルタリングされた高帯域ミッドチャンネル253(例えば、復号された高帯域ミッドチャンネル252のフィルタリングされたバージョン)を生成するために、復号された高帯域ミッドチャンネル252をフィルタリングし得、チャンネル間予測マッパー208は、チャンネル間予測利得(g_icp)164およびフィルタリングされた高帯域ミッドチャンネル253に基づいて、予測された高帯域サイドチャンネル254を生成し得る。
[0092]方法400はまた、416において、復号された高帯域ミッドチャンネルと、予測された高帯域サイドチャンネルとに基づいて、高帯域左チャンネルおよび高帯域右チャンネルを生成することを含む。例えば、図2〜図3を参照すると、ICBWEデコーダ226は、復号された高帯域ミッドチャンネル252と、予測された高帯域サイドチャンネル254とに基づいて、高帯域左チャンネル256および高帯域右チャンネル258を生成し得る。
[0093]図4の方法400は、典型的には、デコーダ162にサイドチャンネル155の符号化されたバージョンを送信することによって達成される、拡張されたステレオ特性(例えば、拡張されたステレオパンニングおよび拡張されたステレオの広がり)が、サイドチャンネル155を符号化するために必要とされるビットよりも少ないビットを使用して、デコーダ162において達成されることを可能にし得る。例えば、サイドチャンネル155をコーディングし、デコーダ162にサイドチャンネル155の符号化されたバージョンを送信する代わりに、サイドチャンネル予測誤差(error_ICP_hat)168およびチャンネル間予測利得(g_icp)164が符号化され、ビットストリーム180の一部としてデコーダ162に送信され得る。結果として、準最適なステレオパンニングと準最適なステレオの広がりとに関連付けられた歪みが低減され得る。例えば、同位相の歪みおよび逆位相の歪みは、指向性というよりも均一な周囲雑音をモデル化するときに、低減(例えば、最小化)され得る。
[0094]図5を参照すると、デバイス(例えば、ワイヤレス通信デバイス)の特定の例示的な例のブロック図が図示され、全体として500と指定されている。様々なインプリメンテーションでは、デバイス500は、図5に例示されるより少ないまたはそれより多くの構成要素を有し得る。例示的なインプリメンテーションでは、デバイス500は、図1の第1のデバイス104または図1の第2のデバイス106に対応し得る。例示的なインプリメンテーションでは、デバイス500は、図1〜図4のシステムおよび方法を参照して説明された1つまたは複数の動作を実行し得る。
[0095]特定のインプリメンテーションでは、デバイス500は、プロセッサ506(例えば、中央処理装置(CPU))を含む。デバイス500は、1つまたは複数の追加のプロセッサ510(例えば、1つまたは複数のデジタルシグナルプロセッサ(DSP))を含み得る。プロセッサ510は、メディア(例えば、スピーチおよび音楽)コーダ−デコーダ(CODEC)508と、エコーキャンセラ512とを含み得る。メディアCODEC508は、デコーダ162、エンコーダ134、またはこれらの組合せを含み得る。
[0096]デバイス500は、メモリ553およびCODEC534を含み得る。メディアCODEC508は、プロセッサ510の構成要素(例えば、専用回路および/または実行可能なプログラミングコード)として例示されているが、他のインプリメンテーションでは、デコーダ162、エンコーダ134、またはこれらの組合せなどの、メディアCODEC508の1つまたは複数の構成要素は、プロセッサ506、CODEC534、別の処理構成要素、またはこれらの組合せに含まれ得る。
[0097]デバイス500は、アンテナ542に結合された受信機162を含み得る。デバイス500は、ディスプレイコントローラ526に結合されたディスプレイ528を含み得る。1つまたは複数のスピーカ548は、CODEC534に結合され得る。1つまたは複数のマイクロフォン546は、(1つまたは複数の)入力インターフェース112を介して、CODEC534に結合され得る。特定のインプリメンテーションでは、スピーカ548は、図1の第1のラウドスピーカ142、第2のラウドスピーカ144、またはこれらの組合せを含み得る。特定のインプリメンテーションでは、マイクロフォン546は、図1の第1のマイクロフォン146、第2のマイクロフォン148、またはこれらの組合せを含み得る。CODEC534は、デジタルアナログ変換器(DAC)502およびアナログデジタル変換器(ADC)504を含み得る。
[0098]メモリ553は、図1〜図4を参照して説明された1つまたは複数の動作を実行するために、プロセッサ506、プロセッサ510、CODEC534、デバイス500の別の処理ユニット、またはこれらの組合せによって実行可能な命令591を含み得る。
[0099]デバイス500の1つまたは複数の構成要素は、専用ハードウェア(例えば、回路)を介して、1つまたは複数のタスクを実行するための命令を実行するプロセッサによって、またはこれらの組合せでインプリメントされ得る。例として、メモリ553、またはプロセッサ506、プロセッサ510、および/またはCODEC534の1つまたは複数の構成要素は、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピン注入MRAM(STT−MRAM:spin-torque transfer MRAM)、フラッシュメモリ、読取専用メモリ(ROM)、プログラマブル読取専用メモリ(PROM)、消去可能なプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読取専用メモリ(CD−ROM)などの、メモリデバイスであり得る。メモリデバイスは、コンピュータ(例えば、CODEC534におけるプロセッサ、プロセッサ506、および/またはプロセッサ510)によって実行されると、コンピュータに、図1〜図4を参照して説明された1つまたは複数の動作を実行させ得る命令(例えば、命令591)を含み得る。例として、メモリ553、またはプロセッサ506、プロセッサ510、および/またはCODEC534の1つまたは複数の構成要素は、コンピュータ(例えば、CODEC534におけるプロセッサ、プロセッサ506、および/またはプロセッサ510)によって実行されると、コンピュータに、図1〜図4を参照して説明された1つまたは複数の動作を実行させる命令(例えば、命令591)を含む非一時的なコンピュータ可読媒体であり得る。
[0100]特定のインプリメンテーションでは、デバイス500は、システムインパッケージまたはシステムオンチップデバイス(例えば、モバイル局モデム(MSM))522に含まれ得る。特定のインプリメンテーションでは、プロセッサ506、プロセッサ510、ディスプレイコントローラ526、メモリ553、CODEC534、および受信機160は、システムインパッケージまたはシステムオンチップデバイス522に含まれる。特定のインプリメンテーションでは、タッチスクリーンおよび/またはキーパッドなどの入力デバイス530、ならびに電源544が、システムオンチップデバイス522に結合される。さらに、特定のインプリメンテーションでは、図5に例示されるように、ディスプレイ528、入力デバイス530、スピーカ548、マイクロフォン546、アンテナ542、および電源544は、システムオンチップデバイス522の外部にある。しかしながら、ディスプレイ528、入力デバイス530、スピーカ548、マイクロフォン546、アンテナ542、および電源544の各々は、インターフェースまたはコントローラなどの、システムオンチップデバイス522の構成要素に結合され得る。
[0101]デバイス500は、ワイヤレス電話、モバイル通信デバイス、モバイルフォン、スマートフォン、セルラフォン、ラップトップコンピュータ、デスクトップコンピュータ、コンピュータ、タブレットコンピュータ、セットトップボックス、携帯情報端末(PDA)、ディスプレイデバイス、テレビ、ゲーム機、音楽プレーヤ、ラジオ、ビデオプレーヤ、エンターテインメントユニット、通信デバイス、固定ロケーションデータユニット、パーソナルメディアプレーヤ、デジタルビデプレーヤ、デジタルビデオディスク(DVD)プレーヤ、チューナ、カメラ、ナビゲーションデバイス、デコーダシステム、エンコーダシステム、またはこれらの任意の組合せを含み得る。
[0102]図6を参照すると、基地局600の特定の例示的な例のブロック図が図示される。様々なインプリメンテーションでは、基地局600は、図6に例示されるより多くの構成要素またはそれより少ない構成要素を有し得る。例示的な例では、基地局600は、図1の第1のデバイス104または第2のデバイス106を含み得る。例示的な例では、基地局600は、図1〜図4を参照して説明された方法またはシステムのうちの1つまたは複数に従って動作し得る。
[0103]基地局600は、ワイヤレス通信システムの一部であり得る。ワイヤレス通信システムは、複数の基地局と複数のワイヤレスデバイスとを含み得る。ワイヤレス通信システムは、ロングタームエボリューション(LTE(登録商標))システム、符号分割多元接続(CDMA)システム、モバイル通信のためのグローバルシステム(GSM(登録商標))システム、ワイヤレスローカルエリアネットワーク(WLAN)システム、または何らかの他のワイヤレスシステムであり得る。CDMAシステムは、広帯域CDMA(WCDMA(登録商標))、CDMA 1X、エボリューションデータオプティマイズド(EVDO)、時分割同期CDMA(TD−SCDMA)、または何らかの他のバージョンのCDMAをインプリメントし得る。
[0104]ワイヤレスデバイスは、ユーザ機器(UE)、モバイル局、端末、アクセス端末、加入者ユニット、局などとも呼ばれ得る。ワイヤレスデバイスは、セルラフォン、スマートフォン、タブレット、ワイヤレスモデム、携帯情報端末(PDA)、ハンドヘルドデバイス、ラップトップコンピュータ、スマートブック、ネットブック、タブレット、コードレスフォン、ワイヤレスローカルループ(WLL)局、Bluetooth(登録商標)デバイスなどを含み得る。ワイヤレスデバイスは、図6のデバイス600を含むか、またはそれに対応し得る。
[0105]メッセージおよびデータ(例えば、オーディオデータ)を送受信することなどの様々な機能が、基地局600の1つまたは複数の構成要素によって(および/または図示されていない他の構成要素において)実行され得る。特定の例では、基地局600は、プロセッサ606(例えば、CPU)を含む。基地局600は、トランスコーダ610を含み得る。トランスコーダ610は、オーディオCODEC608を含み得る。例えば、トランスコーダ610は、オーディオCODEC608の動作を実行するように構成された1つまたは複数の構成要素(例えば、回路)を含み得る。別の例として、トランスコーダ610は、オーディオCODEC608の動作を実行するための1つまたは複数のコンピュータ可読命令を実行するように構成され得る。オーディオCODEC608は、トランスコーダ610の構成要素として例示されているが、他の例では、オーディオCODEC608の1つまたは複数の構成要素は、プロセッサ606、別の処理構成要素、またはこれらの組合せに含まれ得る。例えば、デコーダ638(例えば、ボコーダデコーダ)が、受信機データプロセッサ664に含まれ得る。別の例として、エンコーダ636(例えば、ボコーダエンコーダ)が、送信データプロセッサ682に含まれ得る。
[0106]トランスコーダ610は、2つ以上のネットワーク間のメッセージおよびデータをトランスコードするように機能し得る。トランスコーダ610は、メッセージおよびオーディオデータを、第1のフォーマット(例えば、デジタルフォーマット)から第2のフォーマットに変換するように構成され得る。例示すると、デコーダ638は、第1のフォーマットを有する符号化された信号を復号し得、エンコーダ636は、この復号された信号を、第2のフォーマットを有する符号化された信号に符号化し得る。追加または代替として、トランスコーダ610は、データレート適応を実行するように構成され得る。例えば、トランスコーダ610は、オーディオデータのフォーマットを変更することなく、データレートをダウンコンバートまたはデータレートをアップコンバートし得る。例示すると、トランスコーダ610は、64kbit/s信号を16kbit/s信号にダウンコンバートし得る。
[0107]オーディオCODEC608は、エンコーダ636およびデコーダ638を含み得る。エンコーダ636は、図1のエンコーダ134を含み得る。デコーダ638は、図1のデコーダ162を含み得る。
[0108]基地局600は、メモリ632を含み得る。コンピュータ可読記憶デバイスなどのメモリ632は、命令を含み得る。命令は、図1〜図4の方法およびシステムを参照して説明された1つまたは複数の動作を実行するために、プロセッサ606、トランスコーダ610、またはこれらの組合せによって実行可能である1つまたは複数の命令を含み得る。基地局600は、アンテナのアレイに結合された、第1のトランシーバ652および第2のトランシーバ654などの複数の送信機および受信機(例えば、トランシーバ)を含み得る。アンテナのアレイは、第1のアンテナ642および第2のアンテナ644を含み得る。アンテナのアレイは、図6のデバイス600などの1つまたは複数のワイヤレスデバイスとワイヤレスに通信するように構成され得る。例えば、第2のアンテナ644は、ワイヤレスデバイスからデータストリーム614(例えば、ビットストリーム)を受信し得る。データストリーム614は、メッセージ、データ(例えば、符号化されたスピーチデータ)、またはこれらの組合せを含み得る。
[0109]基地局600は、バックホール接続などのネットワーク接続660を含み得る。ネットワーク接続660は、ワイヤレス通信ネットワークの1つまたは複数の基地局、またはコアネットワークと通信するように構成され得る。例えば、基地局600は、ネットワーク接続660を介してコアネットワークから第2のデータストリーム(例えば、メッセージまたはオーディオデータ)を受信し得る。基地局600は、第2のデータストリームを処理してメッセージまたはオーディオデータを生成し、これらメッセージまたはオーディオデータを、アンテナのアレイの1つまたは複数のアンテナを介して1つまたは複数のワイヤレスデバイスに、またはネットワーク接続660を介して別の基地局に提供し得る。特定のインプリメンテーションでは、ネットワーク接続660は、例示的な、非限定的な例として、ワイドエリアネットワーク(WAN)接続であり得る。いくつかのインプリメンテーションでは、コアネットワークは、公衆交換電話網(PSTN)、パケットバックボーンネットワーク、または両方を含むか、またはそれらに対応し得る。
[0110]基地局600は、ネットワーク接続660とプロセッサ606とに結合されたメディアゲートウェイ670を含み得る。メディアゲートウェイ670は、異なる電気通信技術のメディアストリーム間で変換するように構成され得る。例えば、メディアゲートウェイ670は、異なる送信プロトコル間、異なるコーディング方式間、または両方で変換し得る。例示すると、メディアゲートウェイ670は、例示的な、非限定的な例として、PCM信号からリアルタイムトランスポートプロトコル(RTP:Real-Time Transport Protocol)信号に変換し得る。メディアゲートウェイ670は、パケット交換ネットワーク(例えば、ボイスオーバーインターネットプロトコル(VoIP)ネットワーク、IPマルチメディアサブシステム(IMS)、LTE、WiMax、およびUMBなどの第4世代(4G)ワイヤレスネットワークなど)と、回線交換ネットワーク(例えば、PSTN)と、ハイブリッドネットワーク(例えば、GSM、GPRS、およびEDGEなどの第2世代(2G)ワイヤレスネットワーク、WCDMA、EV−DO、およびHSPAなどの第3世代(3G)ワイヤレスネットワークなど)との間でデータを変換し得る。
[0111]加えて、メディアゲートウェイ670は、トランスコードを含み得、コーデックの互換性がないときに、データをトランスコードするように構成され得る。例えば、メディアゲートウェイ670は、例示的な、非限定的な例として、適応マルチレート(AMR:Adaptive Multi-Rate)コーデックとG.711コーデックとの間でトランスコードし得る。メディアゲートウェイ670は、ルータおよび複数の物理インターフェースを含み得る。いくつかのインプリメンテーションでは、メディアゲートウェイ670はまた、コントローラ(図示せず)を含み得る。特定のインプリメンテーションでは、メディアゲートウェイコントローラは、メディアゲートウェイ670の外部にあるか、基地局600の外部にあるか、または両方であり得る。メディアゲートウェイコントローラは、複数のメディアゲートウェイの動作を制御および調整し得る。メディアゲートウェイ670は、メディアゲートウェイコントローラから制御信号を受信し得、異なる伝送技術間をブリッジするように機能し得、エンドユーザの能力および接続にサービスを付加し得る。
[0112]基地局600は、トランシーバ652、654と、受信機データプロセッサ664と、プロセッサ606とに結合された復調器662を含み得、受信機データプロセッサ664は、プロセッサ606に結合され得る。復調器662は、トランシーバ652、654から受信された変調された信号を復調し、復調されたデータを受信機データプロセッサ664に提供するように構成され得る。受信機データプロセッサ664は、復調されたデータからメッセージまたはオーディオデータを抽出し、メッセージまたはオーディオデータをプロセッサ606に送るように構成され得る。
[0113]基地局600は、送信データプロセッサ682および送信多入力多出力(MIMO)プロセッサ684を含み得る。送信データプロセッサ682は、プロセッサ606および送信MIMOプロセッサ684に結合され得る。送信MIMOプロセッサ684は、トランシーバ652、654、およびプロセッサ606に結合され得る。いくつかのインプリメンテーションでは、送信MIMOプロセッサ684は、メディアゲートウェイ670に結合され得る。送信データプロセッサ682は、プロセッサ606からメッセージまたはオーディオデータを受信し、例示的な、非限定的な例として、CDMAまたは直交周波数分割多重化(OFDM)などのコーディング方式に基づいて、メッセージまたはオーディオデータをコーディングするように構成され得る。送信データプロセッサ682は、コーディングされたデータを送信MIMOプロセッサ684に提供し得る。
[0114]コーディングされたデータは、多重化されたデータを生成するために、CDMAまたはOFDM技法を使用して、パイロットデータなどの他のデータと多重化され得る。その後、多重化されたデータは、変調シンボルを生成するために、特定の変調方式(例えば、2相位相シフトキーイング(「BPSK」)、4相位相シフトキーイング(「QPSK」)、M相位相シフトキーイング(「M−PSK」)、M値直交振幅変調(「M−QAM」)など)に基づいて、送信データプロセッサ682によって変調(すなわち、シンボルマッピング)され得る。特定のインプリメンテーションでは、コーディングされたデータおよび他のデータは、異なる変調方式を使用して変調され得る。各データストリームについてのデータレート、コーディング、および変調は、プロセッサ606によって実行される命令によって決定され得る。
[0115]送信MIMOプロセッサ684は、送信データプロセッサ682から変調シンボルを受信するように構成され得、変調シンボルをさらに処理し得、データに対してビームフォーミングを実行し得る。例えば、送信MIMOプロセッサ684は、変調シンボルにビームフォーミング重みを適用し得る。ビームフォーミング重みは、変調シンボルが送信されるアンテナのアレイのうちの1つまたは複数のアンテナに対応し得る。
[0116]動作中、基地局600の第2のアンテナ644は、データストリーム614を受信し得る。第2のトランシーバ654は、第2のアンテナ644からデータストリーム614を受信し得、復調器662にデータストリーム614を提供し得る。復調器662は、データストリーム614の変調された信号を復調し、復調されたデータを受信機データプロセッサ664に提供し得る。受信機データプロセッサ664は、復調されたデータからオーディオデータを抽出し、抽出されたオーディオデータをプロセッサ606に提供し得る。
[0117]プロセッサ606は、オーディオデータを、トランスコードするためにトランスコーダ610に提供し得る。トランスコーダ610のデコーダ638は、オーディオデータを第1のフォーマットから復号されたオーディオデータに復号し得、エンコーダ636は、復号されたオーディオデータを第2のフォーマットに符号化し得る。いくつかのインプリメンテーションでは、エンコーダ636は、ワイヤレスデバイスから受信されたものより高いデータレート(例えば、アップコンバート)またはそれより低いデータレート(例えば、ダウンコンバート)を使用して、オーディオデータを符号化し得る。他のインプリメンテーションでは、オーディオデータは、トランスコードされない場合がある。トランスコーディング(例えば、復号および符号化)は、トランスコーダ610によって実行されるものとして例示されているが、トランスコーディング動作(例えば、復号および符号化)は、基地局600の複数の構成要素によって実行され得る。例えば、復号は、受信機データプロセッサ664によって実行され得、符号化は、送信データプロセッサ682によって実行され得る。他のインプリメンテーションでは、プロセッサ606は、別の送信プロトコル、コーディング方式、またはその両方への変換のために、メディアゲートウェイ670にオーディオデータを提供し得る。メディアゲートウェイ670は、変換されたデータを、ネットワーク接続660を介して別の基地局またはコアネットワークに提供し得る。
[0118]トランスコードされたデータなどの、エンコーダ636において生成される符号化されたオーディオデータは、プロセッサ606を介して送信データプロセッサ682またはネットワーク接続660に提供され得る。トランスコーダ610からのトランスコードされたオーディオデータは、変調シンボルを生成するために、OFDMなどの変調方式に従ってコーディングするために、送信データプロセッサ682に提供され得る。送信データプロセッサ682は、さらなる処理およびビームフォーミングのために、送信MIMOプロセッサ684に変調シンボルを提供し得る。送信MIMOプロセッサ684は、ビームフォーミング重みを適用し得、第1のトランシーバ652を介して、第1のアンテナ642などの、アンテナのアレイのうちの1つまたは複数のアンテナに変調シンボルを提供し得る。したがって、基地局600は、ワイヤレスデバイスから受信されたデータストリーム614に対応するトランスコードされたデータストリーム616を、別のワイヤレスデバイスに提供し得る。トランスコードされたデータストリーム616は、データストリーム614とは異なる符号化フォーマット、データレート、またはその両方を有し得る。他のインプリメンテーションでは、トランスコードされたデータストリーム616は、別の基地局またはコアネットワークへの送信のために、ネットワーク接続660に提供され得る。
[0119]特定のインプリメンテーションでは、本明細書で開示されたシステムおよびデバイスの1つまたは複数の構成要素は、復号システムまたは装置(例えば、電子デバイス、CODEC、またはその中のプロセッサ)に一体化されるか、符号化システムまたは装置に一体化されるか、またはその両方であり得る。他のインプリメンテーションでは、本明細書で開示されたシステムおよびデバイスの1つまたは複数の構成要素は、ワイヤレス電話、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、エンターテインメントユニット、テレビ、ゲーム機、ナビゲーションデバイス、通信デバイス、携帯情報端末(PDA)、固定ロケーションデータユニット、パーソナルメディアプレーヤ、または別のタイプのデバイスに一体化され得る。
[0120]説明された技法に関連して、装置が、符号化されたミッドチャンネルと、チャンネル間予測利得とを含むビットストリームを受信するための手段を含む。例えば、ビットストリームを受信するための手段は、図1および図5の受信機160、図1、図2、および図5のデコーダ162、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0121]装置はまた、復号された低帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの低帯域部分を復号するための手段を含む。例えば、符号化されたミッドチャンネルの低帯域部分を復号するための手段は、図1、図2、および図5のデコーダ162、図1〜図2の低帯域ミッドチャンネルデコーダ204、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0122]装置はまた、低帯域フィルタリングされたミッドチャンネルを生成するために、1つまたは複数のフィルタ係数に従って、復号された低帯域ミッドチャンネルをフィルタリングするための手段を含む。例えば、復号された低帯域ミッドチャンネルをフィルタリングするための手段は、図1、図2、および図5のデコーダ162、図1〜図2の低帯域ミッドチャンネルフィルタ212、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0123]装置はまた、低帯域フィルタリングされたミッドチャンネルと、チャンネル間予測利得とに基づいて、チャンネル間予測された信号を生成するための手段を含む。例えば、チャンネル間予測された信号を生成するための手段は、図1、図2、および図5のデコーダ162、図1〜図2のチャンネル間予測器214、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0124]装置はまた、アップミックス係数と、復号された低帯域ミッドチャンネルと、チャンネル間予測された信号とに基づいて、低帯域左チャンネルおよび低帯域右チャンネルを生成するための手段を含む。例えば、低帯域左チャンネルおよび低帯域右チャンネルを生成するための手段は、図1、図2、および図5のデコーダ162、図1〜図2のアップミックスプロセッサ224、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0125]装置はまた、復号された高帯域ミッドチャンネルを生成するために、符号化されたミッドチャンネルの高帯域部分を復号するための手段を含む。例えば、符号化されたミッドチャンネルの高帯域部分を復号するための手段は、図1、図2、および図5のデコーダ162、図1〜図2の高帯域ミッドチャンネルデコーダ202、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0126]装置はまた、チャンネル間予測利得と、復号された高帯域ミッドチャンネルのフィルタリングされたバージョンとに基づいて、予測された高帯域サイドチャンネルを生成するための手段を含む。例えば、予測された高帯域サイドチャンネルを生成するための手段は、図1、図2、および図5のデコーダ162、図1〜図2の高帯域ミッドチャンネルフィルタ207、図1〜図2のチャンネル間予測マッパー208、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0127]装置はまた、復号された高帯域ミッドチャンネルと、予測された高帯域サイドチャンネルとに基づいて、高帯域左チャンネルおよび高帯域右チャンネルを生成するための手段を含む。例えば、高帯域左チャンネルおよび高帯域右チャンネルを生成するための手段は、図1、図2、および図5のデコーダ162、図1〜図2のICBWEデコーダ226、図5のCODEC508、図5のプロセッサ506、プロセッサによって実行可能な命令591、図6のデコーダ638、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0128]装置はまた、左チャンネルおよび右チャンネルを出力するための手段を含む。左チャンネルは、低帯域左チャンネルおよび高帯域左チャンネルに基づき得、右チャンネルは、低帯域右チャンネルおよび高帯域右チャンネルに基づき得る。例えば、出力するための手段は、図1のラウドスピーカ142、144、図5のスピーカ548、1つまたは複数の他のデバイス、回路、モジュール、またはこれらの任意の組合せを含み得る。
[0129]本明細書で開示されたシステムおよびデバイスの1つまたは複数の構成要素によって実行される様々な機能は、ある特定の構成要素またはモジュールによって実行されるものとして説明されていることに留意されたい。構成要素およびモジュールのこの分担は、例示のみのためのものである。代替のインプリメンテーションでは、特定の構成要素またはモジュールによって実行される機能は、複数の構成要素またはモジュールの間で分割され得る。さらに、代替のインプリメンテーションでは、2つ以上の構成要素またはモジュールが、単一の構成要素またはモジュールに一体化され得る。各構成要素またはモジュールは、ハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、DSP、コントローラなど)、ソフトウェア(例えば、プロセッサによって実行可能な命令)、またはこれらの任意の組合せを使用してインプリメントされ得る。
[0130]当業者であれば、本明細書で開示されたインプリメンテーションに関連して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、ハードウェアプロセッサなどの処理デバイスによって実行されるコンピュータソフトウェア、または両方の組合せとしてインプリメントされ得ることをさらに理解するであろう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップは、概してそれらの機能の観点から上記で説明された。このような機能が、ハードウェアとしてインプリメントされるか、または実行可能なソフトウェアとしてインプリメントされるかは、特定のアプリケーションおよびシステム全体に課せられる設計制約に依存する。当業者は、特定のアプリケーションごとに多様な方法において、説明された機能をインプリメントし得るが、このようなインプリメンテーションの決定は、本開示の範囲から逸脱を引き起こしていると解釈されるべきでない。
[0131]本明細書で開示されたインプリメンテーションに関連して説明された方法またはアルゴリズムのステップは、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら2つの組合せにおいて具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、磁気抵抗ランダムアクセスメモリ(MRAM)、スピン注入MRAM(STT−MRAM)、フラッシュメモリ、読取専用メモリ(ROM)、プログラマブル読取専用メモリ(PROM)、消去可能なプログラマブル読取専用メモリ(EPROM)、電気的に消去可能なプログラマブル読取専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、またはコンパクトディスク読取専用メモリ(CD−ROM)などの、メモリデバイス内に存在し得る。例示的なメモリデバイスは、プロセッサがメモリデバイスから情報を読み取り、また、メモリデバイスに情報を書き込み得るように、プロセッサに結合される。代替として、メモリデバイスは、プロセッサと一体化され得る。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)内に存在し得る。ASICは、コンピューティングデバイスまたはユーザ端末内に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内に個別の構成要素として存在し得る。
[0132]開示されたインプリメンテーションの先の説明は、当業者が開示されたインプリメンテーションを製造または使用することを可能にするように提供される。これらのインプリメンテーションへの様々な変更は、当業者には容易に明らかとなり、本明細書で定義した原理は、本開示の範囲から逸脱することなく、他のインプリメンテーションに適用され得る。したがって、本開示は、本明細書で示されたインプリメンテーションに限定されるようには意図されず、以下の特許請求の範囲によって定義される原理および新規の特徴と一致する最も広い範囲を与えられることとなる。