JP2011513780A

JP2011513780A - 複数の入力データストリームのミキシングのための装置

Info

Publication number: JP2011513780A
Application number: JP2010549055A
Authority: JP
Inventors: マルクス・シュネル; マンフレッド・ルツキー; マルクス・ムルツラス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2008-03-04
Filing date: 2009-03-04
Publication date: 2011-04-28
Anticipated expiration: 2029-03-04
Also published as: WO2009109374A2; RU2562395C2; JP2013190803A; ES2753899T3; CA2717196A1; BRPI0906079B1; CN102016985A; BRPI0906079A2; CN102016983B; KR20120039748A; WO2009109374A3; CN102016985B; JP2011518342A; CN102016983A; PL2250641T3; RU2012128313A; HK1149838A1; ES2374496T3; WO2009109373A3; EP2378518B1

Abstract

第１の入力データストリーム（５１０−１）の第１のフレーム（５４０−１）と第２の入力データストリーム（５１０−２）の第２のフレーム（５４０−２）とをミキシングするための本発明の実施の形態による装置（５００）は、出力フレーム（５５０）を生成するように構成された処理ユニット（５２０）を備えている。出力フレーム（５５０）は、出力スペクトルについて出力クロスオーバー周波数までの下方部分を記述する出力スペクトルデータを含むとともに、出力スペクトルについて前記出力クロスオーバー周波数よりも上の上方部分を、出力時間／周波数格子分解能におけるエネルギー関連の値によって記述する出力ＳＢＲデータをさらに含んでいる。処理ユニット（５２０）が、第１及び第２のフレームのクロスオーバー周波数ならびに出力クロスオーバー周波数の最小値を下回る周波数に対応する出力スペクトルデータをスペクトル領域において生成し、第１及び第２のフレームのクロスオーバー周波数ならびに出力クロスオーバー周波数の最大値を上回る周波数に対応する出力ＳＢＲデータをＳＢＲ領域において処理するように構成されている。
【選択図】図６Ａ

Description

本発明による実施の形態は、複数の入力データストリームをミキシングして、出力データストリームを得るための装置に関する。そのような装置を、例えばビデオ会議システム及びテレビ会議システムなどの会議システムの分野において使用することができる。

多くの用途において、２つ以上のオーディオ信号が、複数のオーディオ信号から１つの信号又は少なくともより少ない数の信号が生成されるような方法で処理される。これは、多くの場合、「ミキシング」と称される。したがって、オーディオ信号のミキシングの処理を、いくつかの個別のオーディオ信号を結果としての信号へと束ねるものと称することができる。このプロセスは、例えば、コンパクトディスクのために楽曲を生成する場合に使用される（「合成録音」）。この場合、典型的には、種々の楽器からの種々のオーディオ信号が、声楽演奏（歌唱）を含む１つ以上のオーディオ信号と一緒に歌曲へとミックスされる。

ミキシングが重要な役割を果たすさらなる応用の分野は、ビデオ会議システム及びテレビ会議システムである。そのようなシステムは、典型的には、登録済みの参加者から到来するビデオ及びオーディオデータを適切にミックスし、得られた信号を各々の参加者へ返送する中央サーバを使用することによって、何人かの空間的に離れた会議の参加者を接続することができる。この得られた信号又は出力信号は他のすべての会議参加者のオーディオ信号を含んでいる。

現代のデジタル会議システムにおいては、いくつかの部分的に相反する目標及び態様が互いに競合する。さまざまな種類のオーディオ信号（例えば、一般的なオーディオ信号及び音楽信号と比べたスピーチ信号）について、再生されるオーディオ信号の品質、ならびにいくつかのコーディング及びデコーディングの技法の適用可能性及び有用可能性を考慮しなければならない。会議システムの設計及び実施の際に考慮が必要であると考えられるさらなる局面は、利用可能な帯域幅及び遅延の問題である。

例えば、品質と帯域幅とをバランスさせるとき、多くの場合に妥協は避けられない。しかしながら、ＡＡＣ−ＥＬＤ技法（ＡＡＣ＝アドバンスト・オーディオ・コーディング；ＥＬＤ＝エンハンスト・ロー・ディレイ）などの最新のコーディング及びデコーディング技法を実施することによって、品質に関する改善を達成することが可能である。しかしながら、達成できる品質は、そのような最新の技法を使用するシステムにおいて、より基本的な問題及び見地による悪影響を受ける。

達成すべき課題を１つだけ挙げると、すべてのデジタル信号伝送は、量子化が必要であるという問題に直面する。そのような量子化は、少なくとも原理的には、ノイズのないアナログシステムにおいて理想的な環境のもとでは回避することができる。量子化プロセスによって、或る量の量子化ノイズが処理対象の信号へ持ち込まれることは避けられない。生じうる可聴なひずみに対処するために、量子化のレベル数を増やし、すなわち量子化の分解能を高めることが考えられる。しかしながら、そのようにすることで、伝送すべき信号値の数が多くなり、伝送すべきデータの量が多くなる。換言すると、量子化ノイズによって持ち込まれる可能性があるひずみを少なくすることによって品質を高めることは、特定の環境下では、伝送されるデータの量を増加させ、伝送システムに課された帯域幅の制約に最終的に違反する可能性がある。

会議システムの場合には、典型的に２つ以上の入力オーディオ信号を処理しなければならないという事実によって、品質、利用可能な帯域幅及び他のパラメータの間のトレードオフを改善するという課題がさらに複雑になる可能性がある。すなわち、会議システムによって生成される出力信号又は得られる信号を生成するときに、２つ以上のオーディオ信号によって課される境界条件を考慮しなければならない可能性がある。

特に、会議の参加者間の直接的なやり取りを、参加者が容認できないと考えるかもしれない実質的な遅延を持ち込むことなく可能にするために、遅延が充分に少ない会議システムを実現するというさらなる課題に照らすと、課題はさらに大きくなる。

遅延の少ない会議システムの実現においては、遅延の原因が、典型的には、それらの数に関して限定され、これが、他方では、オーディオ信号のミキシングをそれぞれの信号の重畳又は加算によって達成できる時間領域の外部でのデータの処理という課題につながりうる。

一般的なオーディオ信号の場合において、品質とビットレートとの間のトレードオフを改善するために、そのような矛盾するパラメータ（再生される信号の品質、ビットレート、遅延、計算の複雑さ、及びさらなるパラメータ、など）の間のトレードオフをさらに改善することができるかなりの数の技法が存在している。

上述のトレードオフを改善するためのきわめて柔軟なツールが、いわゆるスペクトル帯域表現ツール（ＳＢＲ）である。ＳＢＲモジュールは、典型的には、ＭＰＥＧ−４ＡＡＣエンコーダなどの中央エンコーダの一部として実現されるのではなく、むしろ追加のエンコーダ及びデコーダである。ＳＢＲは、オーディオ信号内のより高い周波数とより低い周波数との間の相関を利用する。ＳＢＲは、信号のより高い周波数が、地盤の振動の単なる整数倍であり、したがってより高い周波数を、より低いスペクトルに基づいて再現することができるという仮定に基づいている。さらに、人間の耳の可聴分解能は、より高い周波数の場合において対数的であるため、より高い周波数範囲に関する小さな差は、きわめて熟練の聴取者でなければ実感することができず、したがってＳＢＲエンコーダによって持ち込まれる不正確さは、おそらくは、圧倒的多数の聴取者には知覚されない。

ＳＢＲエンコーダは、ＭＰＥＧ−４エンコーダへ供給されるオーディオ信号を前処理し、入力信号を周波数範囲へと分ける。より低い周波数範囲又は周波数帯は、上方の周波数帯又は周波数範囲から、いわゆるクロスオーバー周波数によって分離される。クロスオーバー周波数は、利用可能なビットレート及びさらなるパラメータに応じて、さまざまに設定することが可能である。ＳＢＲエンコーダは、典型的には直交ミラー・フィルター・バンド（ＱＭＦ）となるように実現される周波数を分析するためのフィルターバンクを使用する。

ＳＢＲエンコーダは、上方の周波数範囲の周波数表現からエネルギー値を抽出し、これが後に、この周波数範囲を下方の周波数帯に基づいて再現するために使用される。

したがって、ＳＢＲエンコーダは、ＳＢＲデータ又はＳＢＲパラメータをフィルター処理されたオーディオ信号又はフィルター処理されたオーディオデータと一緒にコアエンコーダへともたらし、これが、元のオーディオ信号のサンプリング周波数の半分に基づいて下方の周波数帯へと適用される。これは、処理されるサンプル値を大幅に少なくする機会をもたらし、したがって個々の量子化レベルをより高精度に設定することができる。ＳＢＲエンコーダによってもたらされる追加のデータ、すなわちＳＢＲパラメータは、副情報として、ＭＰＥＧ−４エンコーダ又は他の任意のエンコーダによって得られるビットストリームに保存される。これは、適切なビットマルチプレクサを使用することによって達成できる。

デコーダ側では、到着するビットストリームが、最初にビットデマルチプレクサによって分離され、少なくともＳＢＲデータが分離されて、ＳＢＲデコーダへともたらされる。しかしながら、ＳＢＲデコーダがＳＢＲパラメータを処理する前に、最初に下方の周波数帯がコアデコーダによってデコードされ、下方の周波数帯のオーディオ信号が再現される。ＳＢＲデコーダそのものが、ＳＢＲエネルギー値（ＳＢＲパラメータ）及び下方の周波数範囲のスペクトル情報に基づいて、オーディオ信号のスペクトルの上方部分を計算する。換言すると、ＳＢＲデコーダが、オーディオ信号の上方のスペクトル帯域を、上述のビットストリームにて伝達される下方の帯域及びＳＢＲパラメータに基づいて複製する。上述したＳＢＲモジュールの可能性の他に、再現されるオーディオ信号の全体としてのオーディオの知覚を向上させるために、ＳＢＲは、さらなるノイズ源ならびに個々の正弦曲線をエンコードする可能性をさらに提供する。

したがって、ＳＢＲは、品質とビットレートとの間のトレードオフを改善するためのきわめて柔軟なツールに相当し、このことが、ＳＢＲを会議システムの分野における応用のための興味深い候補にもしている。しかしながら、複雑さならびにきわめて多数の可能性及び選択肢ゆえに、ＳＢＲによってエンコードされたオーディオ信号は、これまでのところ、それぞれのオーディオ信号を時間領域の信号へと完全にデコードし、この領域において実際のミキシング処理を実行し、その後にミックスされた信号をＳＢＲによってエンコードされた信号へと再びエンコードすることによって、時間領域においてのみミックスされている。信号を時間領域へとエンコードすることに起因して持ち込まれる追加の遅延の他に、エンコードされたオーディオ信号のスペクトル情報の再現がかなりの計算の複雑さを必要とする可能性があり、このことが、例えば可搬の用途や他のエネルギー効率又は効率的な計算が求められる用途の場合に、魅力的でないかもしれない。

したがって、本発明の目的は、ＳＢＲによってエンコードされたオーディオ信号をミキシングする際に必要な計算の複雑さを軽減することにある。

この目的は、請求項１もしくは３に記載の装置、請求項１５に記載の方法、又は請求項１６に記載のプログラムによって達成される。

本発明による実施の形態は、関係するクロスオーバー周波数の最小値を下回る周波数についてはスペクトル領域においてスペクトル情報をミキシングすることによってミキシングを実行し、最大のクロスオーバー周波数を上回る周波数についてはＳＢＲ領域においてミキシングを実行し、最小値と最大値との間の領域の周波数については、少なくとも１つのＳＢＲ値を推定して、少なくとも推定によるＳＢＲ値に基づいて該当のＳＢＲ値を生成するか、又はそれぞれのＳＢＲデータに基づいてスペクトル値もしくはスペクトル情報を推定して、この推定によるスペクトル値もしくはスペクトル情報に基づいてスペクトル情報のスペクトル値を生成することによってミキシングを実行することで、計算の複雑さを軽減できるという発見に基づいている。

換言すると、本発明による実施の形態は、最大のクロスオーバー周波数を上回る周波数について、ミキシングをＳＢＲ領域において実行できる一方で、最小のクロスオーバー周波数を下回る周波数について、ミキシングを対応するスペクトル値を直接的に処理することによってスペクトル領域において実行できるという発見に基づいている。さらに、本発明の実施の形態による装置は、前記最大及び最小値の間の周波数について、該当するＳＢＲ値からスペクトル値を推定し、又はスペクトル値からＳＢＲ値を推定し、実際のミキシングをＳＢＲ領域もしくはスペクトル領域において前記推定した値に基づいて実行することによって、ミキシングをＳＢＲ領域又はスペクトル領域において実行することができる。この文脈において、出力クロスオーバー周波数が、入力データストリームのクロスオーバー周波数のいずれかであってよく、あるいは他の値であってよいことに、注意すべきである。

結果として、すべての関連のクロスオーバー周波数よりも上及び下の実際のミキシングが、それぞれの領域における直接的なミキシングに基づいて実行される一方で、推定は、関係するすべてのクロスオーバー周波数のうちの最小値とすべてのクロスオーバー周波数のうちの最大値との間の中間領域においてのみ実行すればよいため、装置によって実行すべき工程の数が少なくなり、したがって必要な計算の複雑さが軽減される。上記推定にもとづき、実際のＳＢＲ値又は実際のスペクトル値が計算又は決定される。したがって、多くの場合に、上記中間周波数領域においても、推定及び処理を関係するすべての入力データストリームについて実行する必要は典型的にはないため、計算の複雑さが軽減される。

本発明の実施の形態による態様において、出力クロスオーバー周波数は、入力データストリームのクロスオーバー周波数のうちの１つに等しくてよく、あるいは出力クロスオーバー周波数を、例えば心理音響的な評価の結果を考慮して、独自に選択することができる。さらに、本発明による実施の形態においては、生成されたＳＢＲデータ又は生成されたスペクトル値を、中間周波数範囲のＳＢＲデータ又はスペクトル値を平滑化又は変更するために、さまざまに適用することが可能である。

本発明による実施の形態を、以下の図面を参照しつつ、以下で説明する。

会議システムのブロック図を示している。一般的なオーディオコーデックに基づく会議システムのブロック図を示している。ビットストリームミキシング技術を使用して周波数領域で動作する会議システムのブロック図を示している。複数のフレームを含んでいるデータストリームの概略図を示している。スペクトル成分ならびにスペクトルデータ又は情報の異なる形態を示している。第１の入力データストリームの第１のフレームと第２の入力データストリームの第２のフレームとをミキシングするための本発明の実施の形態による装置の簡単なブロック図を示している。データストリームのフレームの時間／周波数格子分解能のブロック図を示している。本発明の実施の形態による装置のさらに詳細なブロック図を示している。会議システムの文脈において複数の入力データストリームをミキシングするための本発明のさらなる実施の形態による装置のブロック図を示している。本発明の実施の形態による装置へもたらされるような第１の入力データストリームの第１のフレームを示している。本発明の実施の形態による装置へもたらされるような第２の入力データストリームの第２のフレームを示している。図９Ａ及び９Ｂに示した入力フレームの重ね合わせの状況を示している。本発明の実施の形態による装置によって生成されるような出力フレームを示しており、出力クロスオーバー周波数が、入力フレームの２つのクロスオーバー周波数のうちの低い方である。本発明の実施の形態による装置によって生成されるような出力フレームを示しており、出力クロスオーバー周波数が、入力フレームのクロスオーバー周波数のうちの高い方である。低い周波数格子分解能及び高い周波数格子分解能の照合を示している。

図４から１０に関して、本発明による種々の実施の形態を、さらに詳しく説明する。しかしながら、これらの実施の形態をさらに詳しく説明する前に、最初に図１から３に関して、会議システムの枠組みにおいて重要になるであろう課題及び要望に照らして、簡単な序論を提示する。

図１は、多地点制御ユニット（ＭＣＵ）とも称することができる会議システム１００のブロック図を示している。その機能に関する説明から明らかになるとおり、図１に示されているような会議システム１００は、時間領域において機能するシステムである。

図１に示されているような会議システム１００は、適切な数の入力１１０−１、１１０−２、１１０−３、・・・（図１には、そのうちの３つだけが示されている。）を介して複数の入力データストリームを受け取るように構成されている。入力１１０の各々は、それぞれのデコーダ１２０へと接続されている。より正確には、第１の入力データストリームのための入力１１０−１が第１のデコーダ１２０−１へ接続され、第２の入力１１０−２が第２のデコーダ１２０−２へ接続され、第３の入力１１０−３が第３のデコーダ１２０−３へ接続されている。

さらに、会議システム１００は、適切な数の加算器１３０−１、１３０−２、１３０−３、・・・（図１には、やはりそのうちの３つだけが示されている。）を備えている。各々の加算器が、会議システム１００の入力１１０のうちの１つに組み合わせられている。例えば、第１の加算器１３０−１が、第１の入力１１０−１及び対応するデコーダ１２０−１に組み合わせられている。

各々の加算器１３０は入力１１０が接続されているデコーダ１２０を除くすべてのデコーダ１２０の出力へ接続されている。換言すると、第１の加算器１３０−１は第１のデコーダ１２０−１を除くすべてのデコーダ１２０へと接続されている。したがって、第２の加算器１３０−２は第２のデコーダ１２０−２を除くすべてのデコーダ１２０へ接続されている。

さらに、各々の加算器１３０はそれぞれ１つのエンコーダ１４０へ接続された出力を備えている。すなわち、第１の加算器１３０−１の出力は第１のエンコーダ１４０−１へ接続されている。したがって、第２の加算器１３０−２及び第３の加算器１３０−３もそれぞれ第２のエンコーダ１４０−２及び第３のエンコーダ１４０−３へ接続されている。

次いで、各々のエンコーダ１４０はそれぞれの出力１５０へ接続されている。換言すると、例えば第１のエンコーダは、例えば第１の出力１５０−１へ接続されている。第２のエンコーダ１４０−２及び第３のエンコーダ１４０−３もそれぞれ第２の出力１５０−２及び第３の出力１５０−３へ接続されている。

図１に示されているような会議システム１００の動作をさらに詳しく説明できるよう、図１は第１の参加者の会議端末１６０をさらに示している。会議端末１６０は、例えばデジタル電話（例えば、ＩＳＤＮ電話（ＩＳＤＮ＝総合デジタル通信網））、ボイスオーバーＩＰインフラストラクチャーを備えているシステム、又は同様の端末とすることができる。

会議端末１６０は会議システム１００の第１の入力１１０−１へ接続されたエンコーダ１７０を備えている。さらに、会議端末１６０は、会議システム１００の第１の出力１５０−１へ接続されたデコーダ１８０を備えている。

同様の会議端末１６０が、さらなる参加者の場所にも存在することができる。それらの会議端末は、単に簡素化のために、図１には示されていない。また、会議システム１００と会議端末１６０は、決して互いに物理的に近くに存在する必要がないことに注意すべきである。会議端末１６０と会議システム１００を、例えばＷＡＮ技術（ＷＡＮ＝広域ネットワーク）によってのみ接続することができる異なる場所に配置することができる。

人間であるユーザとのより分かり易い方法でのオーディオ信号の交換を可能にするために、さらに会議端末１６０は、マイクロホン、増幅器、及びスピーカー又はヘッドホンなど、追加の部品を備えることができ、又はこのような追加の部品へ接続することができる。それらは、単に簡素化のために、図１には示されていない。

すでに示したように、図１に示した会議システム１００は、時間領域において機能するシステムである。例えば、第１の参加者がマイクロホン（図１には示されていない）に話しかけるとき、会議端末１６０のエンコーダ１７０がそれぞれのオーディオ信号を対応するビットストリームへとエンコードし、このビットストリームを会議システム１００の第１の入力１１０−１へ伝達する。

会議システム１００の内部において、ビットストリームが第１のデコーダ１２０−１によってデコードされ、再び時間領域へ変換される。第１のデコーダ１２０−１が第２のミキサー１３０−１及び第３のミキサー１３０−３へ接続されているため、第１の参加者によって生成されたとおりのオーディオ信号は、その再現されたオーディオ信号を第２及び第３の参加者のそれぞれからのさらなる再現オーディオ信号と単純に加えることによって、時間領域においてミックスすることができる。

このことは、それぞれ第２の参加者及び第３の参加者によってもたらされ、第２の入力１１０−２及び第３の入力１１０−３によって受信され、第２のデコーダ１２０−２及び第３のデコーダ１２０−３によって処理されるオーディオ信号にも当てはまる。次いで、第２の参加者及び第３の参加者のこれらの再現オーディオ信号が第１のミキサー１３０−１へもたらされ、第１のミキサー１３０−１は時間領域の合計のオーディオ信号を第１のエンコーダ１４０−１へもたらす。エンコーダ１４０−１は、合計のオーディオ信号を再びエンコードしてビットストリームを形成し、このビットストリームを第１の出力１５０−１において第１の参加者の会議端末１６０へもたらす。

同様に、第２のエンコーダ１４０−２及び第３のエンコーダ１４０−３も、それぞれ第２の加算器１３０−２及び第３の加算器１３０−３から受信される時間領域の合計のオーディオ信号をエンコードし、エンコード済みのデータを第２の出力１５０−２及び第３の出力１５０−３をそれぞれ介してそれぞれの参加者へと送り返す。

実際のミキシングを実行するために、オーディオ信号が完全にデコードされ、非圧縮の形態で合計される。その後に、クリッピング作用（すなわち、許容される値の範囲の超過）を防止するために、それぞれの出力信号を圧縮することによってレベル調節を任意に実行することができる。クリッピングは、単独のサンプル値が許される値の範囲を過ぎて上昇又は下降し、該当の値が切り落とされる（クリップされる）場合に生じうる。例えばＣＤの場合に使用されているような１６ビットの量子化の場合には、サンプル値ごとに、−３２７６８から３２７６７の間の整数値の範囲が利用可能である。

信号について生じうるオーバーステアリング又はアンダーステアリングに対処するために、圧縮アルゴリズムが使用される。これらのアルゴリズムは、サンプル値を許容可能な値の範囲に保つために、特定のしきい値を超える展開又は特定のしきい値を下回る展開を制限する。

図１に示したような会議システム１００などの会議システムにおいて、オーディオデータのコーディングを行う場合に、最も容易に実現できる方法にて非エンコード状態でミキシングを実行するために、いくつかの欠点が容認される。さらに、エンコード後のオーディオ信号のデータレートは、送信される周波数のより狭い範囲へとさらに制限される。なぜならば、ナイキスト−シャノンのサンプリング定理によれば、帯域幅が狭いほど、可能なサンプリング周波数が低くなり、したがって少ないデータしか許されないからである。ナイキスト−シャノンのサンプリング定理によれば、サンプリング周波数が、標本化される信号の帯域幅に依存して決まり、帯域幅の（少なくとも）２倍の大きさでなければならない。

国際電気通信連合（ＩＴＵ）及びその電気通信標準化部門（ＩＴＵ−Ｔ）が、マルチメディア会議システムのためのいくつかの規格を開発済みである。Ｈ．３２０が、ＩＳＤＮ用の標準の会議プロトコルである。Ｈ．３２３は、パケットベースのネットワーク（ＴＣＰ／ＩＰ）用の標準の会議システムを定めている。Ｈ．３２４は、アナログ電話網及び無線電気通信システムのための会議システムを定めている。

これらの規格においては、信号の送信だけでなく、オーディオ信号のエンコード及び処理も定められている。会議の運営は、１つ以上のサーバ（いわゆるＨ．２３１規格による多地点制御ユニット（ＭＣＵ））によって担当される。多地点制御ユニットは、複数の参加者のビデオ及びオーディオデータの処理及び配布も担当する。

これを達成するために、多地点制御ユニットは、各々の参加者へと、他のすべての参加者のオーディオデータを含んでいるミックス後の出力信号又は得られた信号を送信し、その信号をそれぞれの参加者へもたらす。図１は、会議システム１００のブロック図だけでなく、そのような会議の状況における信号の流れも示している。

Ｈ．３２３及びＨ．３２０規格の枠組みにおいては、クラスＧ．７ｘｘのオーディオコーデックがそれぞれの会議システムにおいて機能するように定義されている。規格Ｇ．７１１は、ケーブルでつながれた電話システムにおけるＩＳＤＮ伝送に使用される。８ｋＨｚのサンプリング周波数において、Ｇ．７１１規格は、３００から３４００Ｈｚの間のオーディオ帯域幅をカバーし、８ビットの（量子化）深度において６４Ｋｂｉｔ／ｓのビットレートを必要とする。このコーディングは、わずか０．１２５ｍｓというきわめて短い遅延しか生じないオ−Ｌａｗ又はＡ−Ｌａｗと呼ばれる単純な対数コーディングによって形成される。

Ｇ．７２２規格は、より広い５０から７０００Ｈｚのオーディオ帯域幅を１６ｋＨｚのサンプリング周波数でエンコードする。結果として、このコーデックは、４８、５６、又は６４Ｋｂｉｔ／ｓのビットレートのより狭帯域のＧ．７ｘｘオーディオコーデックと比べ、より良好な品質を、１．５ｍｓという遅延で実現する。さらに、より低いビットレートでも同等なスピーチ品質を提供する２つのさらなる発展、すなわちＧ．７２２．１及びＧ．７２２．２が存在する。Ｇ．７２２．２は、２５ｍｓの遅延において、６．６ｋｂｉｔ／ｓから２３．８５ｋｂｉｔ／ｓの間のビットレートの選択を可能にしている。

ボイスオーバーＩＰ通信（ＶｏＩＰ）とも称されるＩＰ電話通信の場合においては、Ｇ．７２９規格が典型的に使用される。このコーデックは、スピーチに最適化されており、後の合成のための分析済みのスピーチパラメータの組をエラー信号とともに送信する。結果として、Ｇ．７２９は、Ｇ．７１１規格と比べた場合に、同等のサンプルレート及びオーディオ帯域幅において約８ｋｂｉｔ／ｓの大幅に良好なコーディングを実現する。しかしながら、より複雑なアルゴリズムゆえ、約１５ｍｓの遅延が生じる。

欠点として、Ｇ．７．ｘｘコーデックは、スピーチのエンコードに最適化されており、狭い周波数帯域幅の他に、スピーチ付きの音楽又は純粋な音楽のコーディング時に大きな問題を示す。

したがって、図１に示したような会議システム１００は、スピーチ信号を伝送及び処理する場合には容認できる品質のために使用することができるが、スピーチに最適化された遅延の少ないコーデックを使用した場合、一般的なオーディオ信号を満足には処理できない。

換言すると、例えば音楽を有するオーディオ信号などの一般的なオーディオ信号を処理するために、スピーチ信号のコーディング及びデコーディングのためのコーデックを使用すると、品質に関して満足できる結果はもたらされない。図１に示したような会議システム１００の枠組みにおいて、一般的なオーディオ信号をエンコード及びデコードするためのオーディオコーデックを使用することで、品質を改善することが可能である。しかしながら、図２による文脈においてさらに詳しく概説されるように、そのような会議システムにおいて一般的なオーディオコーデックを使用することは、１つだけ挙げるのであれば遅延の増加など、さらなる望ましくない影響につながりかねない。

しかしながら、図２をさらに詳しく説明する前に、本明細書において、それぞれの対象が、或る実施の形態もしくは図において又は複数の実施の形態もしくは図において、２回以上現れ現れる場合に、そのような対象が同じ又は類似の参照符号で指し示されることに注意すべきである。同じ又は類似の参照符号によって指し示された対象は、そのようでないと明示的又は黙示的に示されない限りは、例えばそれらの回路、プログラミング、特徴、又は他のパラメータに関して、同様又は同一の方法で実施することが可能である。したがって、図面のいくつかの実施の形態に現れ、同じ又は類似の参照符号によって指し示されている対象は、同じ仕様、パラメータ、及び特徴を有するように実施することが可能である。当然ながら、例えば、境界条件もしくはパラメータが、図から図へと変化し、又は実施の形態から実施の形態へと変化する場合には、別の符号を使用したりそれに適応した符号を使用したりすることも可能である。

さらに、以下においては、対象のグループ又は種類（個々の対象ではなくて）を指し示すために、集約的な参照符号が使用される。図１の枠組みにおいて、これがすでに行われており、例えば、第１の入力を入力１１０−１と称し、第２の入力を入力１１０−２と称し、第３の入力を入力１１０−３と称する一方で、これらの入力が、集約的な参照符号１１０のみで述べられている。換言すると、そのようでないと明示的に示されない限りは、集約的な参照符号によって指し示される対象について述べている明細書の部分は、そのような集約的な参照符号に対応する個別の参照符号を有している他の対象にも関係しうる。

これは、同じ又は類似の参照符号で指し示された対象についても当てはまるため、両方の処置が、明細書の短縮ならびに明細書に開示の実施の形態のより明確かつ簡潔な様相での説明に役立つ。

図２は、さらなる会議システム１００のブロック図を会議端末１６０とともに示しており、どちらも図１に示した会議システム及び会議端末に類似している。図２に示した会議システム１００も、図１に示した会議システム１００と比べて同じように相互接続された入力１１０、デコーダ１２０、加算器１３０、エンコーダ１４０及び出力１５０を備えている。図２に示した会議端末１６０も、やはりエンコーダ１７０及びデコーダ１８０を備えている。したがって、図１に示した会議システム１００の説明が参照される。

しかしながら、図２に示した会議システム１００及び図２に示した会議端末１６０は、一般的なオーディオコーデック（コーダ−デコーダ）を使用するように構成されている。結果として、各々のエンコーダ１４０、１７０が、時間／周波数変換器１９０を量子化器／コーダー２００の手前に接続してなる直列接続を備えている。時間／周波数変換器１９０は図２では「Ｔ／Ｆ」としても示されており、量子化器／コーダー２００は図２では「Ｑ／Ｃ」と標記されている。

各々のデコーダ１２０、１８０は、図２では「Ｑ／Ｃ^-1」と称されているデコーダ／逆量子化器２１０を、図２では「Ｔ／Ｆ^-1」と称されている周波数／時間変換器２２０に直列に接続して備えている。単に簡潔さの目的のために、時間／周波数変換器１９０、量子化器／コーダー２００、デコーダ／逆量子化器２１０及び周波数／時間変換器２２０が、エンコーダ１４０−３及びデコーダ１２０−３の場合においてのみ、そのように標記されている。しかしながら、以下の説明は、他のそのような構成要素にも関する。

説明をエンコーダ１４０又はエンコーダ１７０などのエンコーダから始めると、時間／周波数変換器１９０へともたらされたオーディオ信号が、変換器１９０によって時間領域から周波数領域又は周波数関連の領域へと変換される。その後、変換後のオーディオデータが、時間／周波数変換器１９０によって生成されたスペクトル表現にて、ビットストリームを形成すべく量子化及びエンコードされ、次いでこのビットストリームが、例えばエンコーダ１４０の場合には、会議システム１００の出力１５０へもたらされる。

デコーダ１２０又はデコーダ１８０などのデコーダに関しては、デコーダへもたらされたビットストリームが、最初にオーディオ信号の少なくとも一部分のスペクトル表現を形成すべくデコード及び逆量子化され、次いでこれが、周波数／時間変換器２２０によって再び時間領域へと変換される。

したがって、時間／周波数変換器１９０ならびに逆要素である周波数／時間変換器２２０はそれぞれ、もたらされたオーディオ信号の少なくとも一部分のスペクトル表現を生成するように構成され、かつ、そのスペクトル表現を時間領域のオーディオ信号の該当部分へと再び変換するように構成されている。

オーディオ信号を時間領域から周波数領域へ変換し、再び周波数領域から時間領域へと変換するプロセスにおいて、ずれが生じる可能性があり、すなわち再建、再現、又はデコードされたオーディオ信号が元のオーディオ信号又は原始オーディオ信号から相違する可能性がある。量子化エンコーダ２００及び再コーダー２１０の枠組みにおいて実行される量子化及び逆量子化の追加の工程によって、さらなるアーチファクトが加えられる可能性がある。換言すると、元のオーディオ信号と再生されたオーディオ信号が互いに相違する可能性がある。

時間／周波数変換器１９０及び周波数／時間変換器２２０を、例えば、ＭＤＣＴ（修正離散余弦変換）、ＭＤＳＴ（修正離散正弦変換）、ＦＦＴベースの変換器（ＦＦＴ＝高速フーリエ変換）、又は他のフーリエベースの変換器に基づいて実現することができる。量子化器／コーダー２００及びデコーダ／逆量子化器２１０の枠組みにおける量子化及び逆量子化を、例えば直線量子化、対数量子化、又は他のより複雑な量子化アルゴリズム（例えば、人間の聴覚の特性をより具体的に考慮するなど）に基づいて実現することができる。量子化器／コーダー２００及びデコーダ／逆量子化器２１０のエンコーダ及びデコーダ部分は、例えば、ハフマンコーディング又はハフマンデコーディングの仕組みを使用することによって機能することができる。

しかしながら、より複雑な時間／周波数１９０及び周波数／時間変換器２２０、ならびにより複雑な量子化器／コーダー２００及びデコーダ／逆量子化器２１０も、ここに記載されるような種々の実施の形態及びシステムにおいて、例えばエンコーダ１４０、１７０としてのＡＡＣ−ＥＬＤエンコーダ及びデコーダ１２０、１８０としてのＡＡＣ−ＥＬＤデコーダの一部として使用することができ、又はそのようなエンコーダ及びデコーダを形成するものとして使用することができる。

言うまでもないが、会議システム１００及び会議端末１６０の枠組みにおいて、エンコーダ１７０、１４０及びデコーダ１８０、１２０を同一又は少なくとも互換性のあるものとして実現することを推奨できる。

一般的なオーディオ信号のコーディング及びデコーディングの仕組みに基づく図２に示したような会議システム１００も、オーディオ信号の実際のミキシングを時間領域において実行する。加算器１３０に、再現された時間領域のオーディオ信号がもたらされ、重畳が実行されて、時間領域のミックス信号が次のエンコーダ１４０の時間／周波数変換器１９０へともたらされる。したがって、この会議システムも、やはりデコーダ１２０及びエンコーダ１４０の直列接続を備えており、したがって図１及び２に示したような会議システム１００は、典型的に「タンデム・コーディング・システム」と称される。

タンデム・コーディング・システムは、高度な複雑さという欠点を示すことがしばしばである。ミキシングの複雑さは、使用されるデコーダ及びエンコーダの複雑さに強く依存し、いくつかのオーディオ入力及びオーディオ出力信号の場合に大幅に増大しうる。さらに、エンコーディング及びデコーディングの仕組みの大部分がロスのないものではないという事実によって、図１及び２に示した会議システム１００に使用されるようなタンデムコーディングの仕組みは、典型的には、品質への悪影響につながる。

さらなる欠点として、デコーディング及びエンコーディングの繰り返しの工程が、会議システム１００の入力１１０と出力１５０との間のエンドツーエンド遅延とも称される全体としての遅延も拡大する。使用されるデコーダ及びエンコーダの初期の遅延に応じて、会議システム１００そのものが、会議システムの枠組みにおける使用を不安にさせないまでも魅力のないものにし、さらには不可能にさせかねないレベルにまで、遅延を増大させる可能性がある。多くの場合、約５０ｍｓの遅延が、参加者が会話において容認できる最大の遅延であると考えられる。

遅延の主たる原因として、時間／周波数変換器１９０及び周波数／時間変換器２２０が会議システム１００のエンドツーエンド遅延の原因であり、さらなる遅延が会議端末１６０によって加わる。さらなる構成要素、すなわち量子化器／コーダー２００及びデコーダ／逆量子化器２１０によって引き起こされる遅延は、これらの部品が時間／周波数変換器１９０及び周波数／時間変換器２２０と比べてはるかに高い周波数で動作できるため、あまり重要でない。時間／周波数変換器１９０及び周波数／時間変換器２２０の大部分はブロック動作又はフレーム動作であり、すなわち多くの場合に、ブロックのフレーム長を有するバッファ又はメモリを満たすために必要な時間に等しい時間量としての最小遅延を考慮に入れなければならない。しかしながら、この時間が、典型的には数ｋＨｚから数十ｋＨｚの範囲にあるサンプリング周波数によって大きく左右される一方で、量子化器／コーダー２００及びデコーダ／逆量子化器２１０の動作速度は、主として下層のシステムのクロック周波数によって決定される。これは、典型的には、少なくとも２、３又は４桁以上大きい。

したがって、一般的なオーディオ信号コーデックを使用する会議システムにおいては、いわゆるビットストリームミキシング技術が導入されている。ビットストリームミキシング法は、例えば、上述の欠点の少なくとも一部を回避可能にし、タンデムコーディングによって導入されるＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックに基づいて実現される。

しかしながら、原理的に、図２に示したような会議システム１００を、Ｇ．７ｘｘコーデック系列の上述したスピーチベースのコードと比べて同様のビットレート及び大幅に広い周波数帯域幅を有するＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックに基づいて実現してもよいことに、注意すべきである。これは、すべての信号種について大幅に良好なオーディオ品質を、大幅に高いビットレートという犠牲を払って達成可能であることも、ただちに意味する。ＭＰＥＧ−４ＡＡＣ−ＥＬＤは、Ｇ．７ｘｘコーデックの遅延の範囲にある遅延を提供するが、これを図２に示したような会議システムの枠組みにおいて実施することは、現実的な会議システム１００をもたらさない可能性がある。以下で、図３に関して、上述のいわゆるビットストリームミキシングに基づくより現実的なシステムを概説する。

単に簡潔さの目的のために、以下では主としてＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックならびにそのデータストリーム及びビットストリームにのみ注目することに注意すべきである。しかしながら、他のエンコーダ及びデコーダも、図３に例示及び図示されるような会議システム１００の環境において使用することができる。

図３は、図２の文脈において説明したように、ビットストリームミキシングの原理に従って動作する会議システム１００を会議端末１６０とともに示したブロック図である。会議システム１００そのものは、図２に示した会議システム１００の簡略版である。より正確には、図２の会議システム１００のデコーダ１２０が、図３に示されているように、デコーダ／逆量子化器２２０−１、２２０−２、２１０−３、・・・によって置き換えられている。換言すると、図２及び３に示した会議システム１００を比べたとき、デコーダ１２０の周波数／時間変換器１２０が取り除かれている。同様に、図２の会議システム１００のエンコーダ１４０が、量子化器／コーダー２００−１、２００−２、２００−３によって置き換えられている。したがって、図２及び３に示した会議システム１００を比べたとき、エンコーダ１４０の時間／周波数変換器１９０が取り除かれている。

結果として、加算器１３０は、もはや時間領域で動作するのではなく、周波数／時間変換器２２０及び時間／周波数変換器１９０がないため、周波数又は周波数関連の領域で動作する。

例えば、ＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックの場合には、会議端末１６０にのみ存在する時間／周波数変換器１９０及び周波数／時間変換器２２０がＭＤＣＴ変換に基づいている。したがって、会議システム１００の内部において、ミキサー１３０が直接的にＭＤＣＴ周波数表現のオーディオ信号の処理に寄与する。

図２に示した会議システム１００の場合に、変換器１９０、２２０が遅延の主たる原因を呈するため、これらの変換器１９０、２２０を取り除くことによって、遅延が大幅に少なくなる。さらに、会議システム１００の内部の２つの変換器１９０、２２０によって持ち込まれる複雑さも、大幅に軽減される。例えば、ＭＰＥＧ−２ＡＡＣデコーダの場合には、周波数／時間変換器２２０の枠組みにおいて実行される逆ＭＤＣＴ変換が、全体としての複雑さの約２０％の原因である。ＭＰＥＧ−４変換器も同様の変換に基づいているため、周波数／時間変換器２２０だけを会議システム１００から取り除くことによって、全体としての複雑さへの無視できぬ寄与を取り除くことが可能である。

ＭＤＣＴ領域又は他の周波数領域におけるオーディオ信号のミキシングは、ＭＤＣＴ変換の場合又は同様のフーリエベースの変換の場合に、これらの変換が線形変換であるがゆえに可能である。したがって、変換が、数学的な加算性という特性を有しており、すなわち

であり、数学的な同次性という性質を有しており、すなわち

であり、ここでｆ（ｘ）は変換関数であり、ｘ及びｙはその適切な引数であり、ａは実数値又は虚数値の定数である。

ＭＤＣＴ変換又は他のフーリエベースの変換の両方の特徴が、時間領域におけるミキシングと同様のそれぞれの周波数領域におけるミキシングを可能にしている。したがって、すべての計算を、スペクトル値に基づいて同様に上手く実行することができる。時間領域へのデータの変換は不要である。

いくつかの状況においては、さらなる条件が満たされなければならないかもしれない。すべての関連のスペクトルデータが、すべての関連のスペクトル成分についてのミキシングプロセスの際に、それらの時間インデックスに関して同じでなければならない。これが、変換の際にいわゆるブロックスイッチング技法が使用され、したがって会議端末１６０のエンコーダが特定の条件に応じて種々のブロック長の間で自由に切り換わることができる場合には、最終的に満たされない可能性がある。ブロックスイッチングは、ミックスされるべきデータが同じウインドウで処理されている場合を除き、異なるブロック長及び対応するＭＤＣＴウインドウ長の間の切り替えゆえに、時間領域において個々のスペクトル値をサンプルへと一意に割り当てることをできなくする可能性がある。分散した会議端末１６０を有する一般的なシステムにおいては、これが最終的に保証されない可能性があるため、複雑な補間が必要となり、結果としてさらなる遅延及び複雑さが生じる可能性がある。結果として、最終的に、ブロック長の切り替えに基づくビットストリームのミキシングプロセスを実施しないことが推奨されるかもしれない。

対照的に、ＡＡＣ−ＥＬＤコーデックは、ただ１つのブロック長に基づいており、したがって、ミキシングをより容易に実現できるよう、周波数データの上述の割り当て又は同期をより容易に保証することができる。図３に示した会議システム１００は、換言すると、ミキシングを変換領域又は周波数領域において実行することができるシステムである。

上述のように、図２に示した会議システム１００において変換器１９０、２００によって持ち込まれる追加の遅延を除くために、会議端末１６０において使用されるコーデックは、固定の長さ及び形状のウインドウを使用する。これは、上述のミキシングプロセスを、オーディオストリームを時間領域へ再変換することなく直接的に実施できるようにする。この手法は、追加で持ち込まれるアルゴリズム的な遅延の大きさを抑えることを可能にする。さらに、デコーダにおける逆変換の工程及びエンコーダにおける順変換の工程が存在しないため、複雑さも低下する。

しかしながら、図３に示したような会議システム１００の枠組みにおいても、加算器１３０によるミキシングの後で、オーディオデータの逆量子化が必要になる可能性があり、これがさらなる量子化ノイズを持ち込む可能性がある。この追加の量子化ノイズは、例えば、会議システム１００へもたらされる種々のオーディオ信号の種々の量子化工程に起因して生じうる。結果として、例えば量子化の段階の数がすでに制限されているきわめて低いビットレートの伝送の場合に、周波数領域又は変換領域における２つのオーディオ信号のミキシングのプロセスが、生成される信号に望ましくない追加の量のノイズ又は他のひずみを引き起こす可能性がある。

複数の入力データストリームのミキシングのための装置の形態の本発明による第１の実施の形態を説明する前に、図４に関して、データストリーム又はビットストリームを、そこに含まれるデータとともに簡単に説明する。

図４は、スペクトル領域のオーディオデータの少なくとも１つ（多くの場合、２つ以上）のフレーム２６０を含んでいるビットストリーム又はデータストリーム２５０を概略的に示している。より正確には、図４が、スペクトル領域のオーディオデータの３つのフレーム２６０−１、２６０−２及び２６０−３を示している。さらに、データストリーム２５０は、例えばオーディオデータのエンコードの方法を知らせる制御値、他の制御値、又は時間インデックスもしくは他の関連データに関する情報など、付加的情報又は付加的情報のブロック２７０を含むことができる。当然ながら、図４に示したようなデータストリーム２５０はさらなるフレームをさらに含むことができ、又はフレーム２６０が、２チャネル以上のオーディオデータを含んでもよい。例えば、ステレオオーディオ信号の場合に、各々のフレーム２６０が、例えば左チャネルからのオーディオデータ、右チャネルからのオーディオデータ、右及び左チャネルの両方から導出されたオーディオデータ、又は上述のデータの任意の組み合わせを含むことができる。

したがって、図４は、データストリーム２５０が、スペクトル領域のオーディオデータのフレームだけでなく、追加の制御情報、制御値、ステータス値、ステータス情報、プロトコル関連の値（例えば、チェックサム）なども含んでよいことを示している。

図５は、例えばデータストリーム２５０のフレーム２６０に含まれているようなスペクトル成分に関する（スペクトル）情報を概略的に示している。より正確には、図５は、フレーム２６０のただ１つのチャネルのスペクトル領域の情報の簡単な図を示している。スペクトル領域において、オーディオデータのフレームを、例えば周波数ｆの関数としての強度値Ｉに関して記述することができる。例えばデジタルシステムなどの離散的なシステムにおいては、周波数分解能も離散的であり、したがってスペクトル情報は、典型的には、個々の周波数、狭い帯域又はサブ帯域など、特定のスペクトル成分についてのみ存在する。サブ帯域だけでなく、個々の周波数又は狭い帯域もスペクトル成分と称される。

図５は、６個の別々の周波数３００−１、・・・、３００−６、及び周波数帯域又はサブ帯域３１０（図５に示した事例では、４つの別々の周波数を含んでいる。）について、強度分布を概略的に示している。個々の周波数又はこれらの周波数に対応する狭い帯域３００と、サブ帯域又は周波数帯３１０との両方が、スペクトル成分を形成しており、このスペクトル成分に関して、フレームがスペクトル領域のオーディオデータに関する情報を含んでいる。

サブ帯域３１０に関する情報は、例えば、全体としての強度又は平均強度値であってよい。振幅、それぞれのスペクトル成分そのもののエネルギー、又はエネルギーもしくは振幅から導出される他の値など、強度又は他のエネルギー関連の値のほかに、位相情報及び他の情報もフレームに含まれることができ、したがって、これらの情報もスペクトル成分に関する情報と考えることができる。

本発明による実施の形態の動作原理は、ミキシングが、到来するすべてのストリームが信号の時間領域への逆変換、ミキシング及び再演コーディングを含むデコードを受けるという意味での単刀直入な方法で行われるようなものではない。

本発明による実施の形態は、それぞれのコーデックの周波数領域で行われるミキシングに基づいている。考えられるコーデックは、ＡＡＣ−ＥＬＤコーデック又は一様な変換ウインドウを有する任意の他のコーデックであってよい。そのような場合、それぞれのデータをミックスできるようにするための時間／周波数変換は不要である。本発明の実施の形態による態様は、量子化の刻みのサイズ及び他のパラメータなどのすべてのビットストリームパラメータへのアクセスが可能であり、これらのパラメータをミックス済みの出力ビットストリームの生成に使用することができるという事実を利用する。

本発明の実施の形態による態様は、スペクトル成分に関するスペクトル線又はスペクトル情報のミキシングを、ソースとなる原始スペクトル線又は原始スペクトル情報の重み付け和によって実行できるという事実を利用する。重み付け係数は、ゼロもしくは１であってよく、又は原理的には、両者の間の任意の値であってよい。ゼロという値は、ソースが無関係として取り扱われ、まったく使用されないことを意味する。帯域又はスケール係数帯域などの線のグループが、本発明による実施の形態の場合に、同じ重み付け係数を使用することができる。しかしながら、すでに示したように、重み付け係数（例えば、ゼロ及び１の分布）を、１つの入力データストリームの１つのフレームの複数のスペクトル成分について変化させることができる。さらに、本発明の実施の形態による態様は、スペクトル情報のミキシング時にゼロ又は１の重み付け係数をもっぱら使用するようには決して要求されない。いくつかの状況下では、入力データストリームのフレームのただ１つではなくて複数の全体的なスペクトル情報について、それぞれの重み付け係数を、ゼロ又は１とは異なるものとすることができる。

１つの特定の事例は、１つのソース（入力データストリーム５１０）のすべての帯域又はスペクトル成分が１という係数に設定され、他のソースの係数がすべてゼロに設定される事例である。この場合、１人の参加者の完全な入力ビットストリームが、ミキシング後の最終的なビットストリームとして同一にコピーされる。重み付け係数を、フレーム毎の方法で計算することができるが、フレームの長い方のグループ又は並びに基づいて計算又は決定することも可能である。当然ながら、そのようなフレームの並びの内部又は単一のフレームの内部でも、上述のように、異なるスペクトル成分について重み付け係数を変えてもよい。重み付け係数を、本発明の実施の形態によるいくつかの態様において、心理音響モデルの結果に従って計算又は決定することができる。

心理音響モデル又は該当のモジュールが、一部の入力ストリームのみが含まれてエネルギー値Ｅｆをもたらしているミックス信号と、エネルギー値Ｅｃを有する完全なミックス信号との間のエネルギー比ｒ（ｎ）を計算することができる。次いで、エネルギー比ｒ（ｎ）が、Ｅｃによって除算されたＥｆの対数の２０倍として計算される。

この比が充分に大きい場合、あまり支配的でないチャネルが、支配的なチャネルによってマスクされていると考えることができる。したがって、無関係の削減が処理され、すなわち、まったく顕著でなく、１という重み付け係数に属するストリームだけが含められ、他のすべてのストリーム（１つのスペクトル成分の少なくとも１つのスペクトル情報）が破棄される。換言すると、これらは、ゼロという重み付け係数に属している。

より具体的には、これを、

及び

に従って達成でき、比ｒ（ｎ）が、

に従って計算され、ここでｎは、入力データストリームの添え字であり、Ｎは、全入力データストリーム又は関連の入力データストリームの数である。比ｒ（ｎ）が充分に大きい場合、入力データストリーム５１０のあまり支配的でないチャネル又はあまり支配的でないフレームが支配的なチャネル又はフレームによってマスクされていると考えることができる。したがって、無関係の削減を処理することができ、すなわち、ストリームのうちのとにかく顕著なスペクトル成分だけが含められる一方で、他のストリームは破棄される。

式（３）から（５）の枠組みにおいて考慮すべきエネルギー値を、例えば、それぞれの強度値の平方を計算することによって、強度値から導出することができる。スペクトル成分に関する情報が他の値を含んでもよい場合には、同様の計算を、フレームに含まれた情報の形態に応じて実行することができる。例えば、複素値情報の場合には、スペクトル成分に関する情報を構成している個々の値の実数部分及び虚数部分の絶対値の計算を、実行しなければならないかもしれない。

個々の周波数とは別に、式（３）から（５）による心理音響モジュールの適用のために、式（３）及び（４）における合計は、２つ以上の周波数を含むことができる。換言すると、式（３）及び（４）において、それぞれのエネルギー値Ｅｎを、複数の個々の周波数に対応する全体としてのエネルギー値、すなわち周波数帯のエネルギーによって置き換えることができ、より一般的な言葉にすれば、１つ以上のスペクトル成分に関する１つ又は複数のスペクトル情報で置き換えることができる。

例えば、ＡＡＣ−ＥＬＤは、人間の聴覚系が同時に取り扱う周波数のグループと同様に、帯域ごとの方法でスペクトル線に作用するため、無関係さの推定又は心理音響モデルを同様の方法で実行することができる。この方法で心理音響モデルを適用することによって、必要であればただ１つの周波数帯域だけの信号の一部分を除去又は置換することができる。

心理音響的調査が示しているように、信号を他の信号によりマスキングすることは、それぞれの信号の種類に依存する。無関係さの判断のための最小しきい値として、最悪の場合の筋書きを適用することができる。例えば、ノイズを正弦曲線又は他の別個かつ明確な音によってマスキングするためには、２１から２８ｄＢの差が典型的には必要である。約２８．５ｄＢのしきい値が良好な置換結果をもたらすことが、試験によって示されている。この値を、検討対象の実際の周波数帯も考慮に入れて、最終的に改善することができる。

したがって、式（５）による値ｒ（ｎ）が−２８．５ｄＢよりも大きいことを、検討対象の１つ以上のスペクトル成分に基づく心理音響的評価及び無関係性の評価に関して無関係であると考えることができる。異なるスペクトル成分について異なる値を使用することができる。検討対象のフレームに関する入力データストリームの心理音響的無関係性の指標として、１０ｄＢから４０ｄＢ、２０ｄＢから３０ｄＢ、あるいは２５ｄＢから３０ｄＢのしきい値を使用することが、有用であると考えられる。

逆量子化の工程の数が少なくなるがゆえに、タンデムコーディングの影響があまり生じず、あるいはまったく生じないという利点が生じうる。各々の量子化段階が、追加の量子化ノイズの軽減について大きな障害となるため、複数の入力データストリームをミキシングするための装置の形態の本発明による実施の形態を使用することによって、オーディオ信号の全体としての品質を改善することができる。これは、出力データストリームが、決定された入力ストリーム又はその一部のフレームの量子化レベルの分布と比べた量子化レベルの分布が維持されるように生成される場合に当てはまるであろう。

図６Ａは、第１の入力データストリーム５１０−１及び第２の入力データストリーム５１０−２のフレームをミキシングするための装置５００の簡単なブロック図を示している。装置５００は、出力データストリーム５３０を生成するように構成された処理ユニット５２０を備えている。より正確には、装置５００及び処理ユニット５２０が、第１の入力データストリーム５１０−１の第１のフレーム５４０−１及び第２の入力データストリーム５１０−２の第２のフレーム５４０−２に基づいて、出力データストリーム５３０に含まれる出力フレーム５５０を生成するように構成されている。

第１のフレーム５４０−１及び第２のフレーム５４０−２の両者がそれぞれ、第１及び第２のオーディオ信号に関するスペクトル情報を含んでいる。スペクトル情報は、スペクトルの下方部分及び該当のスペクトルの上方部分へと分割され、スペクトルの上方部分は時間／周波数格子分解能でのエネルギー又はエネルギー関連の値に関するＳＢＲデータによって記述されている。スペクトルの下方部分及び上方部分は、ＳＢＲパラメータのうちの１つであるいわゆるクロスオーバー周波数において互いに分けられている。スペクトルの下方部分は、それぞれのフレーム５４０の内側のスペクトル値に関して記述されている。図６Ａにおいて、これが、スペクトル情報５６０の概略表現によって概略的に示されている。スペクトル情報５６０は、図６Ｂにおける文脈においてさらに詳しく後述される。

当然ながら、装置５００の形態の本発明による実施の形態を、入力データストリーム５１０のフレーム５４０の並びの場合に、類似又は同じ時間インデックスに対応するフレーム５４０だけが比較及び決定において考慮されるように実施することを推奨できるであろう。

出力フレーム５５０も、やはり図６Ａに概略的に示されている同様のスペクトル情報表現５６０を含んでいる。したがって、出力フレーム５５０も、出力クロスオーバー周波数において互いに接する出力スペクトルの上方部分及び出力スペクトルの下方部分を有する同様のスペクトル情報表現５６０を含んでいる。入力データストリーム５１０のフレーム５４０と同様に、出力フレーム５５０の出力スペクトルの下方部分も、出力スペクトル値に関して記述される一方で、スペクトルの上方部分（より高い部分）は、出力時間／周波数格子分解能でのエネルギー値を含んでいるＳＢＲデータに関して記述される。

上述のように、処理ユニット５２０は、上述のような出力フレームを生成及び出力するように構成されている。一般的な場合において、第１のフレーム５４０−１の第１のクロスオーバー周波数及び第２のフレーム５４０−２の第２のクロスオーバー周波数が、異なっていることに注意すべきである。結果として、処理ユニットは、第１のクロスオーバー周波数、第２のクロスオーバー周波数及び出力クロスオーバー周波数のうちの最小の値を下回る周波数に対応する出力スペクトルデータを、第１及び第２のスペクトルデータに基づいてスペクトル領域において直接生成するように構成される。これは、例えば、同じスペクトル成分に対応するそれぞれのスペクトル情報の加算又は線形結合によって達成できる。

さらに、処理ユニット５２０は、出力フレーム５５０の出力スペクトルの上方部分を記述する出力ＳＢＲデータを、ＳＢＲ領域において第１のフレーム５４０−１の第１のＳＢＲデータ及び第２のフレーム５４０−２の第１のＳＢＲデータを処理することによって生成するように、さらに構成されている。これは、図９Ａから９Ｅに関してさらに詳しく説明される。

やはりさらに詳しく後述されるように、処理ユニット５２０を、上記定義の最小値と最大値との間の周波数領域について、第１及び第２のスペクトルデータの少なくとも一方からの少なくとも１つのＳＢＲ値を評価し、出力ＳＢＲデータの対応するＳＢＲ値を少なくともこの評価によるＳＢＲ値に基づいて生成するように構成することができる。これは、例えば、検討対象のスペクトル成分の周波数及び考慮事項が、関係する最大のクロスオーバー周波数よりも低いが、その最小値よりも高い場合に当てはまるであろう。

そのような状況においては、入力フレーム５４０のうちの少なくとも１つが、それぞれのスペクトルの下方部分の一部としてスペクトル値を含む一方で、それぞれのスペクトル成分が出力クロスオーバー周波数よりも上方にあるために、出力フレームがＳＢＲデータを期待することが生じうる。換言すると、関係するクロスオーバー周波数のうちの最小値と関係するクロスオーバー周波数値のうちの最大値との間のこの中間的な周波数領域において、スペクトルのうちの１つの下方部分からのスペクトルデータに基づいて、対応するＳＢＲデータを推定しなければならないことが生じうる。そのとき、考慮中のスペクトル成分に対応する出力ＳＢＲデータは、少なくとも推定されたＳＢＲデータに基づく。これを本発明の実施の形態に従ってどのように実行できるのかについて、さらに詳しい説明が、図９Ａから９Ｅの文脈において後述される。

他方で、上記定義の中間周波数領域にある関連のスペクトル成分又は周波数について、出力フレーム５５０がスペクトル値を期待することが、それぞれのスペクトル成分が出力スペクトルの下方部分に属するがゆえに生じうる。しかしながら、入力フレーム５４０のうちの１つが、該当のスペクトル成分についてＳＢＲデータしか含んでいない可能性がある。この場合、ＳＢＲデータにもとづき、さらに随意により考慮対象の入力フレームのスペクトルの下方部分のスペクトル情報又はその少なくとも一部分に基づいて、該当のスペクトル情報を推定することが推奨されうる。換言すると、ＳＢＲデータに基づくスペクトルデータの推定も、いくつかの状況のもとで必要になる可能性がある。次いで、推定されたスペクトル値にもとづき、それをスペクトル領域において直接的に処理することによって、それぞれのスペクトル成分の対応するスペクトル値を決定又は入手することができる。

しかしながら、本発明の実施の形態による装置５００の処理及び動作ならびにＳＢＲ全般のより良好な理解を促進するために、図６Ｂが、ＳＢＲデータを用いるスペクトル情報のより詳細な表現５６０を示している。

本明細書の冒頭部分で概説したとおり、ＳＢＲツール又はＳＢＲモジュールは、典型的には、基本的なＭＰＥＧ−４エンコーダ又はデコーダに隣接する別個のエンコーダ又はデコーダとして機能する。ＳＢＲツールは、やはり線形変換を呈する直交ミラーフィルターバンク（ＱＭＦ）の使用に基づいている。

ＳＢＲツールは、記述された周波数データの正確なデコーディングを促進するために、ＭＰＥＧエンコーダのデータストリーム又はビットストリームに、自身の固有の情報及びデータ（ＳＢＲパラメータ）を保存する。情報は、ＳＢＲツールに関してフレーム格子又は時間／周波数格子分解能として記述される。時間／周波数格子は、現在のフレーム５４０、５５０のみに関するデータを含んでいる。

図６Ｂは単一のフレーム５４０、５５０のそのような時間／周波数格子を概略的に示している。横座標が時間軸であり、縦座標は周波数軸である。

自身の周波数ｆに関して表示されたスペクトルが、すでに示したように、前もって定められるクロスオーバー周波数（ｆｘ）５７０によって、下方部分５８０及び上方部分又はより高い部分５９０へと分けられる。スペクトルの下方部分５８０が、典型的には、利用可能な最低の周波数（例えば、０Ｈｚ）からクロスオーバー周波数５７０まで広がり、スペクトルの上方部分５９０は、クロスオーバー周波数５７０で始まり、典型的には、図６Ｂにおいて線６００によって示されているようにクロスオーバー周波数の２倍（２ｆｘ）で終わる。

スペクトルの下方部分５８０は、典型的には、斜線の領域としてのスペクトルデータ又はスペクトル値６１０によって記述される。なぜならば、多くのフレームベースのコーデック及びそれらの時間／周波数変換器において、オーディオデータのそれぞれのフレームが完全に周波数領域へ変換されており、スペクトルデータ６１０が、典型的には、明示的なフレーム内部の時間従属性を含まないからである。結果として、スペクトルの下方部分５８０に関して、スペクトルデータ６１０を、図６Ｂに示したそのような時間時間／周波数座標系に完全に正しくは表示できない可能性がある。

しかしながら、上述のように、ＳＢＲツールが、スペクトルの少なくとも上方部分５９０を、各々のサブ帯域信号が時間従属性又は時間分解能を含んでいる複数のサブ帯域へと分けるＱＭＦ時間／周波数変換に基づいて機能する。換言すると、ＳＢＲツールによって実行されるようなサブ帯域領域への変換が、「ミックスされた時間及び周波数表現」を生成する。

本明細書の冒頭部分で概説したとおり、スペクトルの上方部分５９０が下方部分５８０との顕著な類似性を有し、すなわち顕著な相関を有するという仮定にもとづき、ＳＢＲツールは、上方部分５９０のスペクトル成分の周波数へとコピーされるスペクトルの下方部分５８０のスペクトルデータの振幅の操作を周波数に関して記述するために、エネルギー関連の値又はエネルギー値を導出することができる。したがって、下方部分５８０からのスペクトル情報を上方部分５９０の周波数へとコピーし、それらのそれぞれの振幅を修正することによって、スペクトルデータの上方部分５９０が、ツールの名前によって示唆されるとおり復元される。

スペクトルの下方部分５８０の時間分解能が、例えば位相情報又は他のパラメータを含むことによって本質的に存在する一方で、スペクトルの上方部分５９０のサブ帯域の記述は、時間分解能への直接のアクセスを可能にする。

ＳＢＲツールは、ＳＢＲフレーム長及び基礎をなすエンコーダのフレーム長が互換性をもち、ＳＢＲツール及び基礎をなすエンコーダ又はデコーダのどちらもブロック切り替え技法を使用しない場合に、各々のＳＢＲフレームについてフレーム５４０、５５０と同一の数の時間スロットを含むＳＢＲパラメータを生成する。この境界条件は、例えば、ＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックによって満足される。

時間スロットは、ＳＢＲモジュールのフレーム５４０、５５０の時間アクセスを小さな等間隔の時間領域に分割する。各々のＳＢＲフレームにおけるこれらの時間領域の数は、それぞれのフレームのエンコーディングに先立って決定される。ＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックの文脈において使用されるＳＢＲツールは、１６の時間スロットへと設定される。

次いで、これらの時間スロットが、１つ以上のエンベロープを形成するために組み合わせられる。エンベロープは、グループへと形成された少なくとも２つ以上の時間スロットを含んでいる。各々のエンベロープが、特定の数のＳＢＲ周波数データに組み合わせられている。フレーム格子に、時間スロットに関する数及び長さが、各々のエンベロープとともに保存される。

図６０に示したスペクトル情報５６０の簡単化した表現が、第１のエンベロープ６２０−１及び第２のエンベロープ６２０−２を示している。原理的には、エンベロープ６２０を自由に定めることができ、ＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックの枠組みにおいて、２つ未満の時間スロットの長さを有するようにすることもできるが、ＳＢＲフレームは、わずか２つの種類、すなわちＦＩＸＦＩＸクラス及びＬＤ＿ＴＲＡＮクラスのいずれかに属する。結果として、原理的にはエンベロープに関する時間スペクトルの任意の分布が可能であるが、以下では、主としてＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックに言及し、その実施を主に説明する。

ＦＩＸＦＩＸクラスは、１６の利用可能な時間スロットを、いくつかの等しい長さのエンベロープ（例えば、それぞれ１６個、６個、４個の時間スロットを含んでいる１つ、２つ、４つのエンベロープ）へ分割し、一方、ＬＤ＿ＴＲＡＮクラスは、２つ又は３つのエンベロープを含んでおり、そのうちの１つが正確に２つのスロットを含んでいる。正確に２つの時間スロットを含んでいるエンベロープは、オーディオ信号の過渡を含んでおり、換言すると、きわめて大きくて突然な音など、オーディオ信号の急激な変化を含んでいる。この過渡の前後の時間スロットは、それぞれのエンベロープが充分に長い限りにおいて、最大２つのさらなるエンベロープを含むことができる。

換言すると、ＳＢＲモジュールは、フレームをエンベロープへ動的に分割できるため、より精密な周波数分解能をもってオーディオ信号の過渡に反応することができる。現在のフレームに過渡が存在する場合、ＳＢＲエンコーダはフレームを適切なエンベロープ構造へと分割する。上述のように、フレーム分割は、ＳＢＲとともにＡＡＣ−ＥＬＤの場合において標準化されており、可変のＴＲＡＮＰＯＳによって特徴付けられるように時間スロットに関する過渡の位置に依存する。

過渡が存在する場合にＳＢＲエンコーダによって選択されるＳＢＲフレームクラス、すなわちＬＤ＿ＴＲＡＮクラスは、典型的には３つのエンベロープを含んでいる。最初のエンベロープは、ゼロからＴＲＡＮＰＯＳ−１までの時間スロットインデックスを有するフレームの最初から過渡の位置まで含んでおり、過渡は、ＴＲＡＮＰＯＳからＴＲＡＮＰＯＳ＋２までの時間スロットインデックスを有する正確に２つの時間スロットを含むエンベロープによって囲まれている。３番目のエンベロープは、ＴＲＡＮＰＯＳ＋３からＴＲＡＮＰＯＳ＋１６までのインデックスを有する以後のすべての時間スロットを含んでいる。しかしながら、ＳＢＲによるＡＡＣ−ＥＬＤコーデックのエンベロープの最小長さは、フレーム境界の近くに過渡を有するフレームが２つのエンベロープへのみ分割されるよう、２つの時間スロットへと制限される。

図６Ｂにおいて、２つのエンベロープ６２０−１、６２０−２が、等しい長さであり、２つのエンベロープを有するＦＩＸＦＩＸＳＢＲフレームクラスに属している状況が示されている。したがって、各々のエンベロープは、８つの時間スロットの長さを有している。

各々のエンベロープに属する周波数分解能は、各々のエンベロープについて計算されそれに関して保存されるべきエネルギー値又はＳＢＲエネルギー値の数を決定する。ＡＡＣ−ＥＬＤコーデックの文脈におけるＳＢＲツールは、高分解能と低分解能の間で切り替えることができる。低い分解能のエンベロープと比べたとき、より高い分解能のエンベロープの場合。低い分解能のエンベロープと比べたとき、より高い分解能のエンベロープの場合には、このエンベロープについてより精密な周波数分解能を可能にするために２倍もの多さのエネルギー値が使用される。高い分解能又は低い分解能のエンベロープの周波数値の数は、ビットレート、サンプリング周波数及び他のパラメータなどのエンコーダパラメータに依存して決まる。ＭＰＥＧ−４ＡＡＣ−ＥＬＤコーデックの場合には、ＳＢＲツールが、きわめて頻繁に、高い分解能のエンベロープにおいて１６から１４の値を使用する。したがって、低い分解能のエンベロープにおいては、エネルギー値の数は、多くの場合に、エンベロープ１つにつき７から８の間の範囲にある。

図６Ｂは、２つのエンベロープ６２０−１、６２０−２の各々について、各々が１つのエネルギー又はエネルギー関連のＳＢＲ値を表わしている６つの時間／周波数領域６３０−１ａ、・・・、６３０−１ｆ、６３０−２ａ、・・・、６３０−２ｆを示している。単に簡潔さの目的のために、そのような標記は、２つのエンベロープ６２０−１、６２０−２の各々の時間／周波数領域６３０のうちの３つになされている。さらに、同じ理由のため、２つのエンベロープ６２０−１、６２０−２の時間／周波数領域６３０の周波数分布は、同一に選択されている。当然ながら、これは、多数の可能性のうちの１つの可能性を示しているにすぎない。より正確には、時間／周波数領域６３０は、各々のエンベロープ６２０について個別に分布してもよい。したがって、エンベロープ６２０の間の切り替え時に、スペクトル又はスペクトルの上方部分５９０を同じ分布へと分割する必要は決してない。また、時間／周波数領域６３０の数も、やはり上述のように検討対象のエンベロープ６２０に良好に依存できることに、注意すべきである。

さらに、追加のＳＢＲデータとして、ノイズ関連のエネルギー値及び正弦曲線関連のエネルギー値も、各々のエンベロープ６２０に含まれることができる。これらの追加の値は、単に簡潔さの目的のために、図示されていない。ノイズ関連の値は、所定のノイズ源のそれぞれの時間／周波数領域６３０のエネルギー値に関するエネルギー値を記述し、一方、正弦曲線のエネルギー値は所定の周波数及びそれぞれの時間／周波数領域のそれに等しいエネルギー値を有する正弦振動に関する。典型的には、ノイズ関連又は正弦曲線関連の値のうちの２つ又は３つをエンベロープ６２０ごとに含むことができる。しかしながら、より少数又はより多数を含むこともできる。

図７は、図６Ａをベースとする本発明の実施の形態による装置５００のより詳細なさらなるブロック図を示している。したがって、図６Ａの説明が参照される。

上述の図６Ｂのスペクトル情報及び表現５６０の検討が示しているように、本発明による実施の形態について、出力フレーム５５０のための新たなフレーム格子を生成するために、最初にフレーム格子を分析することを推奨することができる。結果として、処理ユニット５２０は、２つの入力データストリーム５１０−１、５１０−２がもたらされる分析部６４０を備えている。処理ユニット５２０は、入力データストリーム５１０又は分析部６４０の出力が接続されるスペクトルミキサー６５０をさらに備えている。さらに、処理ユニット５２０は、やはり入力データストリーム５１０又は分析部６４０の出力へと接続されるＳＢＲミキサー６６０をさらに備えている。さらに、処理ユニット５２０は、やはり２つの入力データストリーム５１０及び／又は分析部６４０へと接続され、分析ずみデータ及び／又は入力データストリーム（フレーム５４０を含む。）を受信する推定部６７０を備えている。実際の実施例に応じて、推定部６７０はスペクトルミキサー６５０又はＳＢＲミキサー６６０のうちの少なくとも１つへ接続され、それらのうちの少なくとも１つの出力へ、関係するクロスオーバー周波数のうちの最大値と最小値との間の前もって定められた中間領域の周波数について推定したＳＢＲ値又は推定したスペクトル値を供給することができる。

ＳＢＲミキサー６６０及びスペクトルミキサー６５０は、出力フレーム５５０を含む出力データストリーム５３０を生成及び出力するミキサー６８０へと接続される。

動作の態様に関しては、分析部６４０はフレーム５４０を分析してそこに含まれるフレーム格子を割り出し、新たなフレーム格子（例えばクロスオーバー周波数を含む。）を生成するように構成されている。スペクトルミキサー６５０が、関係するクロスオーバー周波数のうちの最小値を下回る周波数又はスペクトル成分について、フレーム５４０のスペクトル値又はスペクトル情報をスペクトル領域においてミックするように構成され、一方、ＳＢＲミキサー６６０は、それぞれのＳＢＲデータをＳＢＲ領域においてミックスするように同様に構成されている。推定部６７０は、必要であれば、先に述べた最大値及び最小値の間の中間周波数領域について、２つのミキサー６５０、６６０のそれぞれに、これらのミキサーがこの中間周波数領域においても動作できるよう、スペクトル領域又はＳＢＲ領域の適切なデータを供給する。次いで、ミキサー６８０が、２つのミキサー６５０、６６０から受信されるスペクトルデータ及びＳＢＲデータを編集して出力フレーム５５０を形成及び生成する。

本発明による実施の形態を、例えば、会議システム（例えば、３名以上の参加者を有するテレビ／ビデオ会議システム）の枠組みにおいて使用することができる。そのような会議システムは、時間−周波数変換の工程及び再エンコーディングの工程を省略できるため、時間領域のミキシングに比べて複雑さが少ないという利点を提供することができる。さらに、フィルターバンク遅延が存在しないため、時間領域におけるミキシングに比べて、これらの構成要素によって引き起こされるさらなる遅延が存在しない。

しかしながら、本発明による実施の形態を、聴覚雑音置換（ＰＮＳ）、時間雑音整形（ＴＮＳ）、及び種々の態様のステレオコーディングなどのモジュールを含むより複雑な用途においても使用することができる。そのような実施の形態が、図８を参照してさらに詳しく説明される。

図８は、処理ユニット５２０を備えている複数の入力データストリームのミキシングのための装置５００の概略のブロック図である。より正確には、図８は、入力データストリーム（ビットストリーム）にエンコードされたきわめてさまざまなオーディオ信号を処理することができるきわめて柔軟な装置５００を示している。したがって、後述される構成要素のうちの一部は、すべての環境及び本発明によるすべての実施の形態の枠組みにおいて実施される必要は必ずしもない随意による構成要素である。

処理ユニット５２０は、処理ユニット５２０によって処理されるべき入力データストリーム又はコード済みのオーディオビットストリームの各々について、ビットストリームデコーダ７００を備えている。単に簡素化のために、図８には、２つのビットストリームデコーダ７００−１、７００−２だけが図示されている。当然ながら、処理すべき入力データストリームの数に応じて、より多数のビットストリームデコーダ７００を実装することができ、あるいは例えばビットストリームデコーダ７００が２つ以上の入力データストリームを順に処理できる場合には、より少数のビットストリームデコーダ７００を実装することができる。

ビットストリームデコーダ７００−１ならびに他のビットストリームデコーダ７００−２、・・・の各々は、信号を受信し、受信した信号を処理し、ビットストリームに含まれるデータを分離及び抽出するように構成されたビットストリーム読み取り部７１０を備えている。例えば、ビットストリーム読み取り部７１０を、到着するデータを内部クロックに同期させるように構成でき、到着するビットストリームを適切なフレームへと分けるようにさらに構成することができる。

さらに、ビットストリームデコーダ７００は、ビットストリーム読み取り部７１０の出力へ接続されてビットストリーム読み取り部７１０から分離済みのデータを受信するハフマンデコーダ７２０を備えている。ハフマンデコーダ７２０の出力が、逆量子化器とも称されるデクオンタイザー７３０へ接続されている。ハフマンデコーダ７２０の後方に接続されたデクオンタイザー７３０に、スケーラー７４０が続いている。ハフマンデコーダ７２０、デクオンタイザー７３０及びスケーラー７４０が第１のユニット７５０を形成しており、第１のユニット７５０の出力において、それぞれの入力データストリームのオーディオ信号の少なくとも一部が、参加者（図８には図示されていない）のエンコーダが機能する周波数領域又は周波数関連領域において入手可能である。

さらに、ビットストリームデコーダ７００は、データに関して第１のユニット７５０の後ろに接続された第２のユニット７６０を備えている。第２のユニット７６０はステレオデコーダ７７０（Ｍ／Ｓモジュール）を備えており、ステレオデコーダ７７０の後ろにＰＮＳデコーダが接続されている。ＴＮＳデコーダ７９０が、データに関してＰＮＳデコーダ７８０に後続しており、ＰＮＳデコーダ７８０及びステレオデコーダ７７０とともに第２のユニット７６０を形成する。

オーディオデータの上述の流れとは別に、ビットストリームデコーダ７００は、制御データに関する種々のモジュール間の複数の接続をさらに備えている。より正確には、ビットストリーム読み取り部７１０が、適切な制御データを受け取るためにハフマンデコーダ７２０にも接続されている。さらに、ハフマンデコーダ７２０は、スケーラー７４０へスケーリング情報を伝えるために、スケーラー７４０へ直接に接続されている。ステレオデコーダ７７０、ＰＮＳデコーダ７８０及びＴＮＳデコーダ７９０も、それぞれ適切な制御データを受け取るためにビットストリーム読み取り部７１０へ接続されている。

処理ユニット５２０は、ミキシングユニット８００をさらに備えており、次いでミキシングユニット８００が、入力に関してビットストリームデコーダ７００へ接続されたスペクトルミキサー８１０を備えている。スペクトルミキサー８１０は、例えば、周波数領域において実際のミキシングを実行するための１つ以上の加算器を備えることができる。さらに、スペクトルミキサー８１０は、ビットストリームデコーダ７００によってもたらされるスペクトル情報の任意の線形結合を可能にするための乗算器をさらに備えることができる。

さらに、ミキシングユニット８００は、データに関してスペクトルミキサー８１０の出力へ接続された最適化モジュール８２０を備えている。しかしながら、最適化モジュール８２０は、スペクトルミキサー８１０に制御情報をもたらすために、スペクトルミキサー８１０にも接続されている。データに関して、最適化モジュール８２０は、ミキシングユニット８００の出力を呈している。

ミキシングユニット８００は、種々のビットストリームデコーダ７００のビットストリーム読み取り部７１０の出力へ直接に接続されたＳＢＲミキサー８３０をさらに備えている。ＳＢＲミキサー８３０の出力がミキシングユニット８００のもう１つの出力を形成している。

さらに処理ユニット５２０は、ミキシングユニット８００へ接続されたビットストリームエンコーダ８５０を備えている。ビットストリームエンコーダ８５０は、ＴＮＳエンコーダ８７０、ＰＮＳエンコーダ８８０及びステレオエンコーダ８９０をこの順に直列接続して備えている第３のユニット８６０を備えている。したがって、第３のユニット８６０は、ビットストリームデコーダ７００の第１のユニット７５０の逆のユニットを形成している。

ビットストリームエンコーダ８５０は、第４のユニット９００をさらに備えており、第４のユニット９００は、第４のユニットの入力と出力との間で直列接続を形成しているスケーラー９１０、クオンタイザー９２０及びハフマンコーダー９３０を備えている。従って、第４のユニット９００は、第１のユニット７５０の逆のモジュールを形成している。したがって、スケーラー９１０は、ハフマンコーダー９３０に該当の制御データをもたらすために、ハフマンコーダー９３０にも直接に接続されている。

また、ビットストリームエンコーダ８５０は、ハフマンコーダー９３０の出力へ接続されたビットストリームライタ９４０を備えている。さらに、ビットストリームライタ９４０は、ＴＮＳエンコーダ８７０、ＰＮＳエンコーダ８８０、ステレオエンコーダ８９０及びハフマンコーダー９３０から制御データ及び情報を受信するために、これらのモジュールにも接続されている。ビットストリームライタ９４０の出力が処理ユニット５２０及び装置５００の出力を形成している。

さらに、ビットストリームエンコーダ８５０は、ミキシングユニット８００の出力へ接続された心理音響モジュール９５０を備えている。ビットストリームエンコーダ８５０は、第３のユニット８６０のモジュールへ、例えば第３のユニット８６０のユニットの枠組みにおいてミキシングユニット８００によって出力されるオーディオ信号をエンコードするためにどれを使用できるのかを知らせる適切な制御情報を供給するように構成されている。

したがって、原理的には、第３のユニット８６０の入力までの第２のユニット７６０の出力において、送信側に使用されるエンコーダによって定められるとおり、スペクトル領域のオーディオ信号の処理が可能である。しかしながら、すでに示したように、完全なデコーディング、逆量子化、デスケーリング及びさらなる処理工程は、例えば１つの入力データストリームのフレームのスペクトル情報が支配的である場合に、最終的には必要でないかもしれない。そこで、本発明の実施の形態によれば、それぞれのスペクトル成分のスペクトル情報の少なくとも一部が、出力データストリームの該当のフレームのスペクトル成分へとコピーされる。

そのような処理を可能にするために、装置５００及び処理ユニット５２０は、最適化されたデータ交換のためのさらなる信号線を備えている。図８に示した実施の形態においてそのような処理を可能にするために、ハフマンデコーダ７２０の出力、ならびにスケーラー７４０、ステレオデコーダ７７０及びＰＮＳデコーダ７８０の出力が、他のビットストリーム読み取り部７１０のそれぞれの構成要素とともに、それぞれの処理のためにミキシングユニット８００の最適化モジュール８２０へと接続されている。

それぞれの処理の後のビットストリームエンコーダ８５０の内部の対応するデータの流れを容易にするために、最適化されたデータの流れのための対応するデータ線も実装されている。より正確には、最適化モジュール８２０の出力が、ＰＮＳエンコーダ７８０の入力、ステレオエンコーダ８９０、第４のユニット９００及びスケーラー９１０の入力、ならびにハフマンコーダ９３０への入力へ接続されている。さらに、最適化モジュール８２０の出力がビットストリームライタ９４０へも直接に接続されている。

すでに示したように、上述のようなモジュールのほぼすべてが、本発明による実施の形態において必ずしも実施する必要がない随意によるモジュールである。例えば、ただ１つのチャネルしか含んでいないオーディオデータストリームの場合には、ステレオコーディングユニット８９０及びステレオデコーディングユニット７７０を省略することができる。したがって、ＰＮＳベースでない信号を処理すべき場合には、該当のＰＮＳデコーダ７８０及びＰＮＳエンコーダ８８０を省略することができる。ＴＮＳモジュール７９０、８７０も、処理される信号及び出力される信号がＴＮＳデータにもとづかない場合には省略することが可能である。第１のユニット７５０及び第４のユニット９００の内部において、逆量子化器７３０、スケーラー７４０、量子化器９２０及びスケーラー９１０も最終的に省略することが可能である。したがって、これらのモジュールも、随意による構成要素と考えられる。

ハフマンデコーダ７２０及びハフマンエンコーダ９３０を、別のアルゴリズムを使用して別の方法で実現してもよく、あるいは完全に省略してもよい。

装置５００及び装置５００に含まれる処理ユニット５２０の動作の態様に関して、到着する入力データストリームが、最初にビットストリーム読み取り部７１０によって読み取られ、適切な情報片へと分けられる。ハフマンデコーディングの後、得られたスペクトル情報を、最終的にデクオンタイザー７３０によって逆量子化し、デスケーラー７４０によって適切にスケーリングすることができる。

その後、入力データストリームに含まれる制御情報に依存して、入力データストリーム内にエンコードされたオーディオ信号を、ステレオデコーダ７７０の枠組みにおける２つ以上のチャネルのオーディオ信号へと分解することができる。例えば、オーディオ信号が中央チャネル（Ｍ）及び横チャネル（Ｓ）を含んでいる場合には、対応する左チャネル及び右チャネルデータを、中央及び横チャネルデータを互いに加算及び減算することによって得ることができる。多くの実施例において、中央チャネルが左チャネル及び右チャネルのオーディオデータの合計に比例し、横チャネルは左チャネル（Ｌ）及び右チャネル（Ｒ）の間の差に比例している。実施例に応じて、上述のチャネルを、クリッピング作用を防止するために係数１／２を考慮しつつ加算及び／又は減算することができる。一般的に言うと、種々のチャネルを線形結合によって処理して、それぞれのチャネルをもたらすことができる。

換言すると、ステレオデコーダ７７０の後、オーディオデータを、適切であれば、２つの個別のチャネルへと分解することができる。当然ながら、逆のデコーディングもステレオデコーダ７７０によって実行することができる。例えば、ビットストリーム読み取り部７１０によって受信されるオーディオ信号が左及び右チャネルを含んでいる場合、ステレオデコーダ７７０は、適切な中央及び横チャネルデータを同様に上手く計算又は決定することができる。

装置５００の実施例だけでなく、それぞれの入力データストリームをもたらす参加者のエンコーダの実施例にも応じて、それぞれのデータストリームは、ＰＮＳパラメータ（ＰＮＳ＝聴覚雑音置換）を含むことができる。ＰＮＳは、人間の耳が、帯域又は個々の周波数などの限られた周波数範囲又はスペクトル成分のノイズ状の音を、合成的に生成されたノイズからほとんど区別することができないという事実に基づいている。したがって、ＰＮＳは、オーディオ信号の実際のノイズ状の寄与を、それぞれのスペクトル成分へ合成的に導入されるべきノイズのレベルを示しており、実際のオーディオ信号を度外視しているエネルギー値で置き換える。換言すると、ＰＮＳデコーダ７８０は、１つ以上のスペクトル成分において、入力データストリームに含まれるＰＮＳパラメータに基づいて実際のノイズ状のオーディオ信号の寄与を再生することができる。

ＴＮＳデコーダ７９０及びＴＮＳエンコーダ８７０に関しては、それぞれのオーディオ信号を、送信側で動作しているＴＮＳモジュールに関して、変更されていないバージョンへ再変換しなければならないかもしれない。時間雑音整形（ＴＮＳ）は、オーディオ信号のフレームにおける過渡状の信号の場合に存在しうる量子化ノイズによって引き起こされるプレエコーアーチファクトを軽減するための手段である。この過渡に対処するために、少なくとも１つの適応予測フィルターが、スペクトルの低い側、スペクトルの高い側、又はスペクトルの両側から出発してスペクトル情報へと加えられる。予測フィルターの長さ及び周波数範囲は、それぞれのフィルターの適用先に合わせることができる。

換言すると、ＴＮＳモジュールの動作は、１つ以上の適応ＩＩＲフィルター（ＩＩＲ＝無限インパルス応答）を計算することに基づいており、予測及び実際のオーディオ信号の間の差を記述する誤差信号を予測フィルターのフィルター係数とともにエンコード及び送信することによる。結果として、残る誤差信号の振幅を減らすために周波数領域において予測フィルターを適用することによって過渡状の信号に対処する（その結果、過渡状のオーディオ信号を直接エンコードする場合に比べて、より少ない量子化の刻みを使用しつつ、同様の量子化ノイズでエンコードすることができる。）ことによって、送信器のデータストリームのビットレートを維持しつつ、オーディオ品質を高めることを可能にできる。

ＴＮＳの用途に関しては、使用されるコーデックによって決定されるスペクトル領域での「純粋な」表現に達するために入力データストリームのＴＮＳ部分をデコードするためにＴＮＳデコーダ７６０の機能を使用することを、いくつかの環境において推奨できるかもしれない。ＴＮＳデコーダ７９０の機能のこの応用は、心理音響モデル（例えば、心理音響モジュール９５０において適用される。）の推定をＴＮＳパラメータに含まれる予測フィルターのフィルター係数に基づいて推定することがすでにできない場合に、有用かもしれない。これは、少なくとも１つの入力データストリームがＴＮＳを使用しているが、他の入力データストリームがＴＮＳを使用していない場合に、特に重要かもしれない。

処理ユニットが、入力データストリームのフレームの比較にもとづき、ＴＮＳを使用している入力データストリームのフレームからのスペクトル情報を使用すべきと判断する場合、ＴＮＳパラメータを、出力データのフレームのために使用することができる。もし、例えば互換性がないという理由で、出力データストリームの受け手がＴＮＳデータをデコードできない場合、誤差信号のそれぞれのスペクトルデータ及びさらなるＴＮＳパラメータをコピーせず、ＴＮＳ関連データから再現されたデータを処理してスペクトル領域の情報を得、ＴＮＳエンコーダ８７０を使用しないことが有用かもしれない。これは、図８に示した構成要素又はモジュールの一部を、本発明によるさまざまな実施の形態において実装する必要が必ずしもないことを、やはり示している。

ＰＮＳデータを比較する少なくとも１つのオーディオ入力ストリームの場合にも、同様の方法を当てはめることができる。もし、入力データストリームのスペクトル成分についてのフレームの比較から、１つの入力データストリームが、その現在のフレーム及びそれぞれのスペクトル成分又はスペクトル成分に関して支配的であることが明らかになる場合、それぞれのＰＮＳパラメータ（すなわち、それぞれのエネルギー値）を、出力フレームのそれぞれのスペクトル成分へ直接コピーしてもよい。しかしながら、もし、受け手がＰＮＳパラメータを受け付けることができない場合には、スペクトル情報を、それぞれのエネルギー値によって示されるとおりの適切なエネルギーレベルを有するノイズを生成することによって、それぞれのスペクトル成分についてＰＮＳパラメータから再現することができる。次いで、ノイズデータを、スペクトル領域において相応に処理することができる。

すでに概説したように、送信されるデータも、先に説明した機能を実行するＳＢＲミキサー８３０によって後に処理されるＳＢＲデータを含んでいる。

ＳＢＲは、２つのステレオチャネルのコーディングを可能にし、左チャネル及び右チャネルを別々にコーディングすること、ならびに左チャネル及び右チャネルを結合チャネル（Ｃ）に関してコーディングすることを可能にするため、本発明の実施の形態によれば、それぞれのＳＢＲパラメータ又はその少なくとも一部分の処理は、ＳＢＲパラメータのＣ要素を、決定及び送信すべきＳＢＲパラメータの左及び右の両要素へコピーすること、又はその反対を含むことができる。

さらに、本発明の実施の形態による種々の態様において、入力データストリームが、１つ又は２つの個別のチャネルをそれぞれ含むモノラル及びステレオの両方のオーディオ信号を含む可能性があるため、モノラルからステレオへのアップミックス又はステレオからモノラルへのダウンミックスを、入力データストリームのフレームを処理して出力データストリームの出力フレームを生成する枠組みにおいて、さらに実行することができる。

先の説明を、ＴＮＳパラメータに関して示したので、再量子化を防止するために、それぞれのＴＮＳパラメータを支配的な入力データストリームからのフレーム全体のスペクトル情報とともに出力データストリームへと処理することが望ましいかもしれない。

ＰＮＳベースのスペクトル情報の場合には、基礎をなすスペクトル成分をデコードすることなく個々のエネルギー値を処理することが、実行可能な方法かもしれない。さらに、この処理による場合には、複数の入力データストリームのフレームの支配的なスペクトル成分からのそれぞれのＰＮＳパラメータだけが、出力データストリームの出力フレームの対応するスペクトル成分に対して、追加の量子化ノイズを持ち込むことなく生じる。

上記概説のとおり、本発明による実施の形態は、複数の入力データストリームのフレームを比較した後、かつ比較に基づいて、出力データストリームの出力フレームのスペクトル成分について、正確に１つのデータストリームがスペクトル情報の源であるべきと判断した後で、スペクトル成分に関するスペクトル情報を単純にコピーすることを含むこともできる。

心理音響モジュール９５０の枠組みにおいて実行される置換アルゴリズムが、ただ１つの有効成分を有するスペクトル成分を特定するために、得られる信号の基礎をなすスペクトル成分（例えば、周波数帯域）に関するスペクトル情報の各々を調べる。これらの帯域について、入力ビットストリームのそれぞれの入力データストリームの量子化された値を、特定のスペクトル成分についてそれぞれのスペクトルデータを再エンコード又は再量子化することなくエンコーダからコピーすることができる。いくつかの状況下では、すべての量子化されたデータを、ただ１つの有効な入力信号から取得して、出力ビットストリーム又は出力データストリームを形成することができ、したがって装置５００に関して、入力データストリームのロスのないコーディングを実現できる。

さらに、エンコーダの内部の心理音響分析などの処理工程を省略することが可能になるかもしれない。これは、基本的に、特定の状況下において１つのビットストリームから他のビットストリームへのデータのコピーだけを実行すればよいため、エンコーディング処理の短縮を可能にし、計算の複雑さの軽減を可能にする。

例えば、ＰＮＳの場合に、ＰＮＳでコードされた帯域のノイズ係数を出力データストリームの１つから出力データストリームへとコピーすることができるため、置換を実行することができる。ＰＮＳパラメータがスペクトル成分に特有であり、すなわち換言すると、互いに独立したきわめて良好な近似であるため、個々のスペクトル成分を適切なＰＮＳパラメータで置き換えることが可能である。

しかしながら、上述のアルゴリズムの２つの積極的な適用が、聴取体験の低下又は望ましくない品質の低下につながることが生じうる。したがって、置換を、個々のスペクトル成分に関して、スペクトル情報よりもむしろ、個々のフレームに限ることが望ましいかもしれない。そのような動作の態様においては、無関係さの推定又は無関係さの判断、ならびに置換の分析を、不変のままに実行することができる。しかしながら、置換を、この動作の態様において、有効なフレーム内のスペクトル成分のすべて又は少なくともかなりの数が置換可能である場合に限って実行することができる。

この結果、置換の数がより少なくなるかもしれないが、スペクトル情報の内部強度を、いくつかの状況において改善でき、さらにわずかに改善された品質をもたらすことができる。

本発明の実施の形態によるＳＢＲミキシングに戻ると、図８に示した装置５００の追加の随意による構成要素を除外し、ＳＢＲの動作原理及びＳＢＲデータのミキシングを、以下でさらに詳しく説明する。

すでに概説したとおり、ＳＢＲツールは、線形変換を呈するＱＭＦ（直交ミラーフィルターバンク）を使用する。結果として、スペクトルデータ６１０（スペクトル６Ｂを参照）を直接的にスペクトル領域において処理できるだけでなく、そのスペクトルの上方部分５９０（図６Ｂを参照）の時間／周波数領域６３０の各々に関するエネルギー値を処理することもできる。しかしながら、すでに示したように、ミキシングに先立って、関係する時間／周波数格子を最初に調節することが望ましく、いくつかの場合には必要であるかもしれない。

原理的には、完全に新しい時間／周波数格子を生成することが可能であるが、以下では、１つのソースにおいて生じている時間／周波数格子が出力フレーム５５０の時間／周波数格子として使用される状況を説明する。時間／周波数格子のうちのどれを使用することができるかの決定は、例えば心理音響的な考慮に基づくことができる。例えば、格子のうちの１つが過渡を含んでいる場合、この過渡を含んでいるか、又はこの過渡に適合する時間／周波数格子を使用することが望ましいかもしれない。なぜならば、人間の聴覚系のマスキング効果ゆえに、聞き取り可能なアーチファクトが、この特定の格子から外れる場合に、最終的に導入される可能性があるからである。例えば、過渡を有する２つ以上のフレームを本発明の実施の形態による装置５００によって処理すべき場合、これらのうちの最先の過渡に適合する時間／周波数格子を選択することが望ましいかもしれない。やはり、マスキング効果ゆえに、最先のアタックを含んでいる格子を選択することが、心理音響的な考慮にもとづき、好ましい選択となりうる。

しかしながら、これらの状況のもとでも、他の時間／周波数格子を計算又は選択してもよいことを、指摘しておかなければならない。

したがって、ＳＢＲフレーム格子をミキシングするとき、いくつかの場合には、フレーム５４０に含まれる１つ以上の過渡の存在及び位置を分析及び判断することが望ましい。これに加え、あるいはこれに代えて、それぞれのフレーム５４０のＳＢＲデータのフレーム格子を評価し、フレーム格子そのものがそれぞれの過渡に適合しているか否か、あるいはそれぞれの過渡の存在を示しているか否かを検証することによって、これを達成することも可能である。例えば、ＡＡＣＥＬＤコーデックの場合に、ＬＤ＿ＴＲＡＮフレームクラスの使用が、過渡が存在することを示すことができる。このクラスは、ＴＲＡＮＳＰＯＳＥ変数も含んでいるため、図７に示されるように、時間スロットに関する過渡の位置も、分析部６４０に知られる。

しかしながら、他のＳＢＲフレームクラスであるＦＩＸＦＩＸも使用できるため、出力フレーム５５０の時間／周波数格子を生成するとき、さまざまな群が生じることができる。

例えば、過渡を有さないフレーム又は同じ過渡の位置を有するフレームが生じることができる。フレームが過渡を含まない場合、フレーム全体に広がるただ１つのエンベロープだけを有するエンベロープ構造を使用することさえ可能であるかもしれない。また、エンベロープの数が同一である場合に、基本的なフレーム構造をコピーすることが可能である。１つのフレームに含まれるエンベロープの数が、他のフレームのエンベロープの数の整数である場合には、細かい方のエンベロープ分布を使用することも可能である。

同様に、すべてのフレーム５４０が同じ位置に過渡を含んでいる場合には、時間／周波数格子を、２つの格子のいずれかからコピーすることができる。

過渡を有さないただ１つのエンベロープのフレーム及び過渡を有するフレームのミキシングの場合には、過渡を含んでいるフレームのフレーム構造をコピーすることができる。この場合、それぞれのデータをミキシングするときに新たな過渡がもたらされることがないことを、安全に保証することができる。多くの場合、すでに存在する過渡だけが、増幅され、あるいは減衰させられるであろう。

異なる過渡の位置のフレームが関係する場合には、フレームの各々が、基礎をなす時間スロットに対して異なる位置に過渡を含んでいる。この場合、過渡の位置に基づく適切な分布が望ましい。多くの状況において、最初の過渡の位置が問題とされる。なぜならば、プレエコー効果及び他の問題は、最初の過渡の残効によってマスクされる可能性が高いからである。したがって、この状況においては、フレーム格子を最初の過渡の位置に合わせることが適切かもしれない。

フレームに対するエンベロープの分布を決定した後で、個々のエンベロープの周波数分解能を決定することができる。新たなエンベロープの分解能として、典型的には、入力エンベロープの最高の分解能が使用される。例えば、分析されるエンベロープのうちの１つの分解能が高い場合、出力フレームも、自身の周波数に関して高い分解能を有するエンベロープを含む。

この状況をさらに詳しく説明するために、特に２つの入力データストリーム５１０−１、５１０−２の入力フレーム５４０−１、５４０−２が異なるクロスオーバー周波数を有する場合に、図９Ａ及び９Ｂが、２つの入力フレーム５１０−１、５４０−２のそれぞれについて、図６Ａに示したようなそれぞれの表現を示している。図６Ｂのきわめて詳細な説明ゆえに、図９Ａ及び９Ｂの説明を、ここでは省略することができる。さらに、図９Ａに示したフレーム５４０−１は、図６Ｂに示したフレームと同一である。すでに説明したように、クロスオーバー周波数５７０の上方に複数の時間／周波数領域６３０を有している２つの等しい長さのエンベロープ６２０−１、６２０−２を含んでいる。

図９Ｂに概略的に示したとおりの第２のフレーム５４０−２は、いくつかの態様に関して、図９Ａに示したフレームから相違する。フレーム格子が同じ長さではない３つのエンベロープ６２０−１、６２０−２及び６２０−３を含んでいるという事実の他に、時間／周波数領域６３０に関する周波数分解能及びクロスオーバー周波数５７０も、図９Ａに示したものとは異なっている。図９Ｂに示した例では、クロスオーバー周波数５７０が図９Ａのフレーム５４０−１のクロスオーバー周波数よりも高い。結果として、スペクトル５９０の上方部分が、図９Ａに示したフレーム５４０−１のスペクトルの上方部分よりも相応に大きい。

図９Ａ及び９Ｂに示したフレーム５４０がＡＡＣＥＬＤコーデックによってもたらされているという仮定にもとづき、フレーム５４０−２のフレーム格子が３つの異なる長さのエンベロープ６２０を含んでいるという事実が、３つのエンベロープ６２０のうちの２番目が過渡を含んでいるという結論につながる。したがって、２番目のフレーム５４０−２のフレーム格子が、少なくともその時間における分布に関して、出力フレーム５５０に選択すべき分解能である。

しかしながら、図９Ｃに示されるように、異なるクロスオーバー周波数５７０がここでは使用されているという事実に起因して、追加の課題が生じる。より具体的には、図９Ｃは、２つのフレーム５４０−１、５４０−２をそれらのスペクトル情報の表現５６０に関して一緒に示した重ね合わせの状況を図示している。図９Ａに示した第１のフレーム５４０のクロスオーバー周波数５７０−１（クロスオーバー周波数ｆｘ１）及び図９Ｂに示した第２のフレーム５４０−２のより高いクロスオーバー周波数５７０−２（クロスオーバー周波数ｆｘ２）だけを考えると、中間の周波数範囲１０００については、第１のフレーム５４０−１からのＳＢＲデータのみが利用可能であり、第２のフレーム５４０−１からのスペクトルデータ６１０だけが利用可能である。換言すると、中間周波数範囲１０００の範囲内の周波数のスペクトル成分については、ミキシングの手順が、図７に示した推定部６７０によってもたらされるような推定によるＳＢＲ又は推定によるスペクトルデータに頼る。

図９Ｃに示した状況においては、２つのクロスオーバー周波数５７０−１、５７０−２によって周波数に関して囲まれた中間周波数範囲１０００が、推定部６７０及び処理ユニット５２０が機能する周波数範囲を呈する。この周波数範囲１０００においては、ＳＢＲデータが第１のフレーム５４０−１からのみ入手可能であり、一方、この周波数範囲において、第２のフレーム５４０−２からはスペクトル情報又はスペクトル値のみが入手可能である。結果として、中間周波数範囲１０００の周波数又はスペクトル成分が出力のクロスオーバー周波数よりも上か下かに応じて、ＳＢＲ値又はスペクトル値を評価し、推定された値をフレーム５４０−１、５４０−２の一方からの元々の値とＳＢＲ領域又はスペクトル領域においてミキシングしなければならない。

図９Ｄは、出力フレームのクロスオーバー周波数が、２つのクロスオーバー周波数５７０−１、５７０−２の低い方に等しい状況を示している。結果として、出力クロスオーバー周波数５７０−３（ｆｘ０）は、第１のクロスオーバー周波数５７０−１（ｆｘ１）に等しく、これがエンコード後のスペクトルの上方部分を、たった今述べたクロスオーバー周波数の２倍に抑えている。

先に決定された時間分解能又はそのエンベロープ分布に基づいて時間／周波数格子の周波数分解能をコピー又は再決定することで、中間周波数範囲１０００（図９Ｃを参照）の出力ＳＢＲデータが、これらの周波数についての第２のフレーム５４０−２のスペクトルデータ６１０から対応するＳＢＲデータを推定することによって決定される。

この推定は、第２のクロスオーバー周波数５７０−２を上回る周波数についてのＳＢＲデータを考慮して、その周波数範囲の第２のフレーム５４０−２のスペクトルデータ６１０に基づいて実行することができる。これは、時間分解能又はエンベロープ分布に関して、第２のクロスオーバー周波数５７０−２の周囲の周波数が最も等しく影響されている可能性が高いという仮定に基づいている。したがって、中間周波数範囲１０００のＳＢＲデータの推定を、例えば、ＳＢＲデータによって記述される最も細かい時間及び周波数分解能について、各々のスペクトル成分についてのスペクトル情報に基づいてそれぞれのエネルギー値を計算し、第２のフレーム５４０−２のＳＢＲデータのエンベロープによって示されるとおりの振幅の時間展開に基づいてそれぞれに減衰又は増幅を加えることによって達成できる。

その後に、平滑化フィルター又は他のフィルター処理を加えることによって、推定によるエネルギー値が、出力フレーム５５０のために決定された時間／周波数格子の時間／周波数領域６３０へと写像される。図９Ｄに示したような技術的解決策は、例えば、より低いビットレートにおいて興味深いかもしれない。到着するすべてのストリームのうちの最低のＳＢＲクロスオーバー周波数が、出力フレームのＳＢＲクロスオーバー周波数として使用され、ＳＢＲエネルギー値が、コアコーダー（クロスオーバー周波数までで動作する。）とＳＢＲコーダー（クロスオーバー周波数よりも上で動作する。）との間のすき間の周波数範囲１０００について、スペクトル情報又はスペクトル係数から推定される。推定は、例えばＭＤＣＴ（修正離散余弦変換）又はＬＤＦＢ（少遅延フィルターバンク）スペクトル係数から導出できる幅広くさまざまなスペクトル情報に基づいて実行することができる。さらに、コアコーダーとＳＢＲ部分との間のすき間を閉じるために、平滑化フィルターを適用することができる。

さらに、この技術的解決策を、例えば６４ｋｂｉｔ／ｓを含んでいる高いビットレートのストリームを、例えば３２ｋｂｉｔ／ｓしか含まないより低いビットストリームへと下げるためにも使用できることに、注意すべきである。そのような技術的解決策の実装が望ましいと考えられる状況は、例えば、ミキシングユニットへの低いデータレートの接続（例えば、モデムによるダイアルイン接続などによって確立される。）しか持たない参加者に、ビットストリームを供給する状況である。

異なるクロスオーバー周波数の別の例が、図９Ｅに示されている。

図９Ｅは、２つのクロスオーバー周波数５７０−１、５７０−２の高い方が、出力クロスオーバー周波数５７０−３として使用される場合を示している。したがって、出力フレーム５５０は、出力クロスオーバー周波数まではスペクトル情報６１０を含んでおり、出力クロスオーバー周波数よりも上では、クロスオーバー周波数５７０−３の典型的には２倍の周波数まで、対応するＳＢＲデータを含んでいる。しかしながら、この状況は、中間周波数範囲１０００（図９Ｃを参照）のスペクトルデータをどのように回復するのかという問題を生じさせる。中間周波数範囲１０００の第１のフレーム５４０−１のＳＢＲデータにもとづき、時間／周波数格子の時間分解能又はエンベロープ分布を決定し、出力クロスオーバー周波数５７０−３を上回る周波数について時間／周波数格子の周波数分解能を少なくとも部分的にコピー又は決定した後で、スペクトルデータが、処理ユニット５２０及び推定部６７０によって推定される。これは、第１のクロスオーバー周波数５７０−１（図９Ａを参照）よりも下のスペクトル情報６１０の一部又はすべてを随意により考慮しつつ、第１のフレーム５４０−１の前記周波数範囲１０００のＳＢＲデータに基づいてスペクトル情報を部分的に再現することによって達成できる。換言すると、欠けているスペクトル情報の推定を、中間周波数範囲１０００の周波数へと少なくとも部分的にＳＢＲデコーダの再現アルゴリズムを適用することによって、ＳＢＲデータ及びスペクトルの下方部分５８０の対応するスペクトル情報からスペクトル情報をスペクトル的に複製することで、達成することができる。

例えば周波数領域へと部分的なＳＢＲデコーディング又は再現を適用することによって中間周波数範囲のスペクトル情報を推定した後で、得られた推定によるスペクトル情報を、例えば線形結合を適用することによってスペクトル領域で第２のフレーム５４０−２のスペクトル情報に直接的にミックスすることができる。

クロスオーバー周波数よりも上の周波数又はスペクトル成分のスペクトル情報の再現又は複製は、逆フィルターとも称される。この文脈において、追加の高調波及び追加のノイズエネルギー値も、中間周波数範囲１０００の周波数又は成分のそれぞれのスペクトル情報を推定するときに考慮されうることに、注意すべきである。

この技術的解決策は、例えば、装置５００へと接続された参加者又はミキシングユニットがより高いビットレートを自由に利用できる場合に興味深いかもしれない。パッチ又はコピーアルゴリズムを、スペクトル領域のスペクトル情報（例えば、ＭＤＣＴ又はＬＤＦＢスペクトル係数）へと、これらを該当のクロスオーバー周波数によって分けられたコアコーダーとＳＢＲ部分との間のすき間を閉じるべく下方の帯域から上方の帯域へとコピーするために適用することができる。これらのコピー係数は、ＳＢＲペイロードに格納されたエネルギーパラメータに従って弱められる。

図９Ｄ及び９Ｅに示したような両方の筋書きにおいて、最も低いクロスオーバー周波数よりも下方のスペクトル情報を、スペクトル領域において直接的に処理できる一方で、最も高いクロスオーバー周波数を上回るＳＢＲデータは、ＳＢＲ領域において直接的に処理することができる。典型的には関係するクロスオーバー周波数の最小値の２倍を上回るＳＢＲデータによって記述されるとおりの最高の周波数のうちの最低値を超えるきわめて高い周波数については、出力フレーム５５０のクロスオーバー周波数に応じて、異なる手法を適用することができる。原理的には、図９Ｅに示したように、関係するクロスオーバー周波数のうちの最大のクロスオーバー周波数を出力のクロスオーバー周波数５７０−３として使用する場合、最高の周波数についてのＳＢＲデータは、主として第２のフレーム５４０−２のみのＳＢＲデータに基づく。さらなる選択肢として、これらの値を、前記クロスオーバー周波数を下回る周波数についてＳＢＲエネルギー値を線形結合させる枠組みにおいて適用される正規化係数又は減衰係数によって弱めることができる。入手可能なクロスオーバー周波数のうちの最小のクロスオーバー周波数が出力のクロスオーバー周波数として使用される図９Ｄに示したような状況においては、第２のフレーム５４０−２の該当のＳＢＲデータを無視することができる。

当然ながら、本発明による実施の形態が、決して２つの入力データストリームに限られず、３つ以上の入力データストリームを含む複数の入力データストリームへと容易に拡張できることに、注意すべきである。そのような場合、上述の手法を、入力データストリームに鑑みて使用される実際のクロスオーバー周波数に応じて、種々の入力データストリームへと容易に適合させることができる。例えば、この入力データストリーム及びその入力データストリームに含まれるフレームのクロスオーバー周波数が、出力フレーム５５０の出力クロスオーバー周波数よりも高い場合、図９Ｄの文脈において説明したとおりのアルゴリズムを適用することができる。反対に、該当のクロスオーバー周波数がより低い場合には、図９Ｅの文脈において説明したアルゴリズム及びプロセスを、この入力データストリームへと適用することができる。ＳＢＲデータ又はスペクトル情報の実際のミキシングは、それぞれのデータのうちの２つ以上が合計されるという意味である。

さらには、出力クロスオーバー周波数５７０−３を任意に選択できることに注意すべきである。出力クロスオーバー周波数が、入力データストリームのクロスオーバー周波数のいずれかと同一である必要は決してない。例えば、図９Ｄ及び９Ｅの文脈において説明したような状況において、クロスオーバー周波数は、入力データストリーム５１０の両方のクロスオーバー周波数５７０−１、５７０−２の間、下方、又は上方にあってよい。出力フレーム５５０のクロスオーバー周波数を自由に選択できる場合、スペクトルデータ及びＳＢＲデータの推定に関して、上述したアルゴリズムのすべてを実行することが望ましいかもしれない。

他方で、本発明によるいくつかの実施の形態を、常に最小又は最大のクロスオーバー周波数を使用するように実現してもよい。そのような場合、上述のような機能のすべてを実装する必要はないかもしれない。例えば、常に最低のクロスオーバー周波数が使用される場合には、推定部６７０は、典型的には、スペクトル情報を推定できる必要はなく、ＳＢＲデータだけを推定できればよい。したがって、スペクトルデータを推定する機能を、ここでは最終的に無効にすることができる。対照的に、本発明による実施の形態が、常に最高の出力クロスオーバー周波数を使用するように実現する場合には、ＳＢＲデータを推定できるという推定部６７０の機能は不要であるかもしれず、したがって省略可能である。

本発明による実施の形態は、多チャネルのダウンミックス又は多チャネルのアップミックスの構成要素をさらに備えることができ、例えば一部の参加者がステレオ又は他の多チャネルのストリームを送信でき、一部の参加者がモノラルのストリームしか送信できない場合に、ステレオダウンミックス又はステレオアップミックスの構成要素を備えることができる。この場合、入力データストリームに含まれるチャネルの数に関して対応するアップミックス又はダウンミックスを実行することが望ましいであろう。アップミキシング又はダウンミキシングによってストリームのいくつかを処理し、入力ストリームのパラメータに一致するミックスされたビットストリームをもたらすことが望ましいであろう。これは、モノラルのストリームを送信する参加者が、応答においてやはりモノラルのストリームを受信することを所望できることを意味する。結果として、他の参加者からのステレオ又は他の多チャネルオーディオデータを、モノラルのストリームへと変換しなければならないかもしれず、その逆も然りである。

これは、実施上の制約及び他の境界条件に応じて、例えば、本発明の実施の形態による複数の装置を用意することによって達成でき、あるいはすべての入力データストリームをただ１つの装置に基づいて処理し、到着するデータストリームを装置による処理に先立ってダウンミックス又はアップミックスし、処理後に参加者の端末の要件に一致するようにダウンミックス又はアップミックスすることによって達成できる。

ＳＢＲは、ステレオチャネルのコーディングの２つの態様も可能にする。１つの動作の態様が、左右のチャネル（ＬＲ）を別々に取り扱う一方で、第２の動作の態様は、結合チャネル（Ｃ）について機能する。ＬＲエンコードの要素及びＣエンコードの要素をミキシングするためには、ＬＲエンコードの要素をＣ要素へ写像するか、あるいはその逆を行わなければならない。どちらのコーディング法を使用すべきかの実際の決定は、あらかじめ定めることができ、あるいはエネルギー消費、計算の複雑さ、などの条件を考慮して行うことができ、あるいは別個の処理の妥当性に関する心理音響的な推定に基づくことができる。

すでに指摘したように、実際のＳＢＲエネルギー関連データのミキシングを、それぞれのエネルギー値の線形結合によってＳＢＲ領域において達成することができる。これは、式

に従って達成でき、ここでａ_kは、重み係数であり、Ｅｋ（ｎ）は、ｎによって示される時間／周波数格子における位置に対応する入力データストリームｋのエネルギー値である。Ｅ（ｎ）は、同じ添え字ｎに対応する該当のＳＢＲエネルギー値である。Ｎは、入力データストリームの数であり、図９Ａ及び９Ｅに示した例では、２に等しい。

係数ａ_kを、正規化ならびに出力フレーム５５０の各々の時間／周波数領域６３０及び対応するそれぞれの入力フレーム４５０の時間／周波数領域６３０の重なり合い関する重み付けを実行するために使用することができる。例えば、出力フレーム５５０の２つの時間／周波数領域６３０及び該当の入力フレーム５４０が、出力フレーム５５０の考慮対象の時間／周波数領域６３０の５０％が入力フレーム５４０の対応する時間／周波数領域６３０によって構成されているという意味で、５０％の範囲の互いの重なり合いを有する場合、０．５（＝５０％）という値を、それぞれのオーディオ入力ストリームとそこに含まれる入力フレーム５４０との関連性を示す全体としての利得係数によって乗算することができる。

より一般的に表現すると、係数ａｋの各々を、

によって定義することができ、ここでｒｉｋは、入力フレーム５４０及び出力フレーム５５０のそれぞれの２つの時間／周波数領域６３０ｉ及びｋの重なり合いの領域を示す値である。Ｍは、入力フレーム５４０のすべての時間／周波数領域６３０の数であり、ｇは、例えばミキシングプロセスが値の許容範囲をオーバーシュート又はアンダーシュートするという結果を防止するために、１／Ｎに等しくてよい全体的な正規化係数である。係数ｒｉｋは、０から１の間の範囲であってよく、０は、２つの時間／周波数領域６３０がまったく重なり合わないことを示し、１という値は、入力フレーム５４０の時間／周波数領域６３０が、出力フレーム５５０の該当の時間／周波数領域６３０に完全に含まれることを意味する。

しかしながら、複数の入力フレーム５４０のフレーム格子が等しいことも生じうる。この場合、フレーム格子を、入力フレーム５４０のうちの１つから出力フレーム５５０へとコピーすることができる。したがって、関連のＳＢＲエネルギー値のミキシングを、きわめて容易に実行することができる。この場合には、出力値を合計及び正規化することによって、対応するスペクトル情報（例えば、ＭＤＣＴ値）のミキシングと同様に、対応する周波数値を合計することができる。

しかしながら、周波数に関して、時間／周波数領域６３０の数が、それぞれのエンベロープの分解能に応じて変化する可能性があるため、低いエンベロープの高いエンベロープへの写像、及びその反対を実施することが望ましいかもしれない。

図１０が、これを、例えば８つの時間／周波数領域６３０−ｌ及び１６個の対応する時間周波数領域６３０−ｈを含んでいる高いエンベロープについて示している。すでに概説したように、低い分解能のエンベロープは、典型的には、より高い分解能のエンベロープと比べたときに半分の数の周波数データしか含んでおらず、単純な照合を、図１０に示したとおりに確立することができる。低い分解能のエンベロープを高い分解能のエンベロープへと写像するとき、低い分解能のエンベロープの時間／周波数領域６３０−ｌの各々が、より高い分解能のエンベロープの２つの対応する時間周波数領域６３０−ｈへと写像される。

現実の状況に応じて、例えば正規化に関して、０．５というさらなる係数を使用することが、ミックス後のＳＢＲエネルギー値のオーバーシュートを防止するために望ましいかもしれない。写像が逆のやりかたで行われる場合には、２つの隣り合う時間周波数領域６３０−ｈを、算術平均を割り出すことによって平均し、低い分解能のエンベロープの１つの時間／周波数領域６３０−ｌを得ることができる。

換言すると、式（７）に関し、最初の状況においては、係数ｒｉｋが０又は１のいずれかであり、一方、係数ｇは０．５に等しく、第２の場合には、係数ｇを１に設定でき、一方、係数ｒｉｋが０又は０．５のいずれかとすることができる。

しかしながら、係数ｇを、ミックスされる入力データストリームの数を考慮する追加の正規化係数を含めることによって、さらに変更しなければならないかもしれない。すべての入力信号のエネルギー値をミックスするために、それらが合計され、スペクトルミキシングの手順の際に加えられる正規化係数によって随意により乗算される。この追加の正規化係数を、式（７）の係数ｇを決定するときに、やはり最終的に考慮に入れなければならないかもしれない。結果として、これが、ベースコーデックのスペクトル係数のスケール係数がＳＢＲエネルギー値の値の許容範囲に一致することを最終的に保証することができる。

本発明による実施の形態は、当然ながら、その実施に関してさまざまであってよい。これまでの実施の形態においては、ハフマンデコーディング及びエンコーディングを、単一エントロピーエンコーディングの仕組みとして説明したが、他のエントロピーエンコーディングの仕組みも使用可能である。さらには、エントロピーエンコーダ又はエントロピーデコーダを実装することは、決して必須ではない。したがって、これまでの実施の形態の説明は、主としてＡＣＣ−ＥＬＤコーデックに集中していたが、他のコーデックも、参加者側での入力データストリームの供給及び出力データストリームのデコードに使用することができる。例えば、ブロック長の切り替えを有さないシングルウインドウに基づく任意のコーデックを使用することが可能である。

図８に示した実施の形態についての先の説明も示しているとおり、そこで説明されたモジュールは、必須ではない。例えば、本発明の実施の形態による装置を、フレームのスペクトル情報について動作することによって単純に実現することができる。

さらに、本発明による実施の形態を、さまざまな異なる方法で実現できることに、注意すべきである。例えば、複数の入力データストリームのミキシングのための装置５００及びその処理ユニット５２０を、抵抗器、トランジスター、インダクターなどのディスクリートな電気及び電子デバイスに基づいて実現することができる。さらに、本発明による実施の形態を、集積回路のみに基づいて、例えばＳＯＣｓ（ＳＯＣ＝システム・オン・チップ）、ＣＰＵ（ＣＰＵ＝中央演算ユニット）及びＧＰＵ（ＧＰＵ＝グラフィック処理ユニット）などのプロセッサー、ならびに特定用途向け集積回路（ＡＳＩＣ）などの他の集積回路（ＩＣ）の形態で実現することもできる。

さらに、ディスクリートな実施例の一部又は集積回路の一部である電気デバイスを、本発明の実施の形態による装置の実現の全体において、異なる目的及び異なる機能のために使用できることに注意すべきである。当然ながら、集積回路及びディスクリートな回路に基づく回路の組み合わせも、本発明による実施の形態を実現するために使用することができる。

プロセッサーをベースに、本発明による実施の形態を、コンピュータープログラム、ソフトウェアプログラム、又はプロセッサー上で実行されるプログラムに基づいて実現することも可能である。

換言すると、本発明の方法の実施の形態の特定の実現の要件に応じて、本発明の方法の実施の形態を、ハードウェア又はソフトウェアにて実現することができる。実現を、電子的に読み取ることができる信号（本発明の方法の実施の形態が実行されるように、プログラマブルなコンピューター又はプロセッサーと協働する。）が保存されてなるデジタル記憶媒体（特に、ディスク、ＣＤ、又はＤＶＤ）を使用して行うことができる。したがって、一般に、本発明の実施の形態は、プログラムコードを機械によって読み取り可能な担体に保存して有しているコンピュータープログラム製品であり、そのようなプログラムコードは、コンピュータープログラム製品がコンピューター又はプロセッサー上で実行されるときに、本発明の方法の実施の形態を実行するように動作することができる。したがって、さらに換言すると、本発明の方法の実施の形態は、コンピュータープログラムに関し、そのようなコンピュータープログラムが、コンピューター又はプロセッサー上で実行されたときに本発明の方法の実施の形態の少なくとも１つを実行するプログラムコードを有している。プロセッサーを、コンピューター、チップカード、スマートカード、特定用途向け集積回路、システム・オン・チップ（ＳＯＣ）又は集積回路（ＩＣ）によって形成することができる。

１００会議システム
１１０入力
１２０デコーダ
１３０加算器
１４０エンコーダ
１５０出力
１６０会議端末
１７０エンコーダ
１８０デコーダ
１９０時間／周波数変換器
２００量子化器／コーダー
２１０デコーダ／逆量子化器
２２０周波数／時間変換器
２５０データストリーム
２６０フレーム
２７０さらなる情報のブロック
３００周波数
３１０周波数帯域
５００装置
５１０入力データストリーム
５２０処理ユニット
５３０出力データストリーム
５４０フレーム
５５０出力フレーム
５６０スペクトル情報表現
５７０クロスオーバー周波数
５８０スペクトルの下方部分
５９０スペクトルの上方部分
６００線
６１０スペクトルデータ
６２０エンベロープ
６３０時間／周波数領域
６４０分析部
６５０スペクトルミキサー
６６０ＳＢＲミキサー
６７０推定部
６８０ミキサー
７００ビットストリームデコーダ
７１０ビットストリーム読み取り部
７２０ハフマンコーダー
７３０デクオンタイザー
７４０スケーラー
７５０第１のユニット
７６０第２のユニット
７７０ステレオデコーダ
７８０ＰＮＳデコーダ
７９０ＴＮＳデコーダ
８００ミキシングユニット
８１０スペクトルミキサー
８２０最適化モジュール
８３０ＳＢＲミキサー
８５０ビットストリームエンコーダ
８６０第３のユニット
８７０ＴＮＳエンコーダ
８８０ＰＮＳエンコーダ
８９０ステレオエンコーダ
９００第４のユニット
９１０スケーラー
９２０量子化器
９３０ハフマンコーダー
９４０ビットストリームライタ
９５０心理音響モジュール
１０００中間周波数範囲

Claims

第１の入力データストリーム（５１０−１）の第１のフレーム（５４０−１）と第２の入力データストリーム（５１０−２）の第２のフレーム（５４０−２）とをミキシングして、出力データストリーム（５３０）の出力フレーム（５５０）を得るための装置（５００）であって、
前記出力フレーム（５５０）を生成するように構成された処理ユニット（５２０）を備えており、
前記第１のフレーム（５４０−１）が、第１のオーディオ信号の第１のスペクトルについて第１のクロスオーバー周波数（５７０）までの下方部分（５８０）を記述する第１のスペクトルデータと、前記第１のスペクトルについて前記第１のクロスオーバー周波数（５７０）から始まる上方部分（５９０）を記述する第１のスペクトル帯域複製（ＳＢＲ）データとを含んでおり、前記第２のフレーム（５４０−２）が、第２のオーディオ信号の第２のスペクトルについて第２のクロスオーバー周波数（５７０）までの下方部分（５８０）を記述する第２のスペクトルデータと、前記第２のスペクトルについて前記第２のクロスオーバー周波数（５７０）から始まる上方部分（５９０）を記述する第２のＳＢＲデータとを含んでおり、前記第１及び第２のＳＢＲデータが、前記第１及び第２のスペクトルのそれぞれの上方部分（５９０）を、時間／周波数格子分解能におけるエネルギー関連の値によって記述しており、前記第１のクロスオーバー周波数（５７０）が、前記第２のクロスオーバー周波数（５７０）とは異なっており、
前記出力フレーム（５５０）が、出力スペクトルについて出力クロスオーバー周波数（５７０）までの下方部分（５８０）を記述する出力スペクトルデータを含むとともに、前記出力スペクトルについて前記出力クロスオーバー周波数（５７０）よりも上の上方部分（５９０）を、出力時間／周波数格子分解能におけるエネルギー関連の値によって記述する出力ＳＢＲデータをさらに含んでおり、
前記処理ユニット（５２０）は、前記第１のクロスオーバー周波数（５７０）、前記第２のクロスオーバー周波数（５７０）及び前記出力クロスオーバー周波数（５７０）の最小値を下回る周波数に対応する前記出力スペクトルデータを、前記第１及び第２のスペクトルデータに基づいてスペクトル領域において生成するように構成されており、
前記処理ユニット（５２０）は、前記第１のクロスオーバー周波数（５７０）、前記第２のクロスオーバー周波数（５７０）及び前記出力クロスオーバー周波数（５７０）の最大値を上回る周波数に対応する前記出力ＳＢＲデータを、前記第１及び第２のＳＢＲデータに基づいてＳＢＲ領域において処理するようにさらに構成されており、
前記処理ユニット（５２０）は、前記最小値及び前記最大値の間の周波数領域について、第１及び第２のスペクトルデータの少なくとも一方から少なくとも１つのＳＢＲ値を推定し、前記出力ＳＢＲデータの該当のＳＢＲ値を少なくとも前記推定したＳＢＲ値に基づいて生成するようにさらに構成されている装置（５００）。
前記処理ユニット（５２０）が、前記少なくとも１つのＳＢＲ値の推定を、該推定すべきＳＢＲ値に対応する周波数成分に対応するスペクトル値に基づいて行うように構成されている請求項１に記載の装置（５００）。
第１の入力データストリーム（５１０−１）の第１のフレーム（５４０−１）と第２の入力データストリーム（５１０−２）の第２のフレーム（５４０−２）とをミキシングして、出力データストリーム（５３０）の出力フレーム（５５０）を得るための装置（５００）であって、
前記出力フレーム（５５０）を生成するように構成された処理ユニット（５２０）を備えており、
前記第１のフレーム（５４０−１）が、第１のオーディオ信号の第１のスペクトルについて第１のクロスオーバー周波数（５７０）までの下方部分（５８０）を記述する第１のスペクトルデータと、前記第１のスペクトルについて前記第１のクロスオーバー周波数（５７０）から始まる上方部分（５９０）を記述する第１のスペクトル帯域複製（ＳＢＲ）データとを含んでおり、前記第２のフレーム（５４０−２）が、第２のオーディオ信号の第２のスペクトルについて第２のクロスオーバー周波数（５７０）までの下方部分（５８０）を記述する第２のスペクトルデータと、前記第２のスペクトルについて前記第２のクロスオーバー周波数（５７０）から始まる上方部分（５９０）を記述する第２のＳＢＲデータとを含んでおり、前記第１及び第２のＳＢＲデータが、前記第１及び第２のスペクトルのそれぞれの上方部分（５９０）を、時間／周波数格子分解能におけるエネルギー関連の値によって記述しており、前記第１のクロスオーバー周波数（５７０）が、前記第２のクロスオーバー周波数（５７０）とは異なっており、
前記出力フレーム（５５０）が、出力スペクトルについて出力クロスオーバー周波数（５７０）までの下方部分（５８０）を記述する出力スペクトルデータを含むとともに、前記出力スペクトルについて前記出力クロスオーバー周波数（５７０）よりも上の上方部分（５９０）を、出力時間／周波数格子分解能におけるエネルギー関連の値によって記述する出力ＳＢＲデータをさらに含んでおり、
前記処理ユニット（５２０）は、前記第１のクロスオーバー周波数（５７０）、前記第２のクロスオーバー周波数（５７０）及び前記出力クロスオーバー周波数（５７０）の最小値を下回る周波数に対応する前記出力スペクトルデータを、前記第１及び第２のスペクトルデータに基づいてスペクトル領域において生成するように構成されており、
前記処理ユニット（５２０）は、前記第１のクロスオーバー周波数（５７０）、前記第２のクロスオーバー周波数（５７０）及び前記出力クロスオーバー周波数（５７０）の最大値を上回る周波数に対応する前記出力ＳＢＲデータを、前記第１及び第２のＳＢＲデータに基づいてＳＢＲ領域において処理するようにさらに構成されており、
さらに当該装置（５００）は、前記最小値及び前記最大値の間の周波数領域について、前記第１及び第２のフレームの少なくとも一方からの少なくとも１つのスペクトル値を、該当のフレームの前記ＳＢＲデータに基づいて推定し、前記出力スペクトルデータの該当のスペクトル値を、少なくとも前記推定したスペクトル値に基づいて、該推定したスペクトル値をスペクトル領域において処理することによって生成するように構成されている装置（５００）。
前記処理ユニットは、前記少なくとも１つのスペクトル値を、前記ＳＢＲデータ及び前記それぞれのフレームの前記それぞれのスペクトルの前記下方部分の前記スペクトルデータに基づいてスペクトル成分について少なくとも１つのスペクトル値を再現することに基づいて、推定するように構成されている請求項３に記載の装置。
前記処理ユニット（５２０）は、前記出力クロスオーバー周波数（５７０）を前記第１のクロスオーバー周波数又は前記第２のクロスオーバー周波数になるように決定するように構成されている請求項１から４のいずれか一項に記載の装置（５００）。
前記処理ユニット（５２０）は、前記出力クロスオーバー周波数を第１及び第２のクロスオーバー周波数のうちの低い方のクロスオーバー周波数へと設定し、又は前記出力クロスオーバー周波数を前記第１及び第２のクロスオーバー周波数のうちの高い方へと設定するように構成されている請求項１から５のいずれか一項に記載の装置（５００）。
前記処理ユニット（５２０）は、前記出力時間／周波数格子分解能を、前記第１又は第２のフレームの前記時間／周波数格子分解能によって示される過渡の過渡位置に適合するように決定するように構成されている請求項１から６のいずれか一項に記載の装置（５００）。
前記処理ユニット（５２０）は、前記第１及び第２のフレームの前記時間／周波数格子分解能が２つ以上の過渡の存在を示している場合に、前記時間／周波数格子分解能を、前記第１及び第２のフレームの前記時間／周波数格子分解能によって示される早い方の過渡に適合するように設定するように構成されている請求項７に記載の装置（５００）。
前記処理ユニット（５２０）は、ＳＢＲ周波数領域又はＳＢＲ領域における線形結合に基づいて、スペクトルデータ又はＳＢＲデータを出力するように構成されている請求項１から８のいずれか一項に記載の装置（５００）。
前記処理ユニット（５２０）は、前記第１及び第２のフレームの正弦曲線関連のＳＢＲデータの線形結合に基づいて、正弦曲線関連のＳＢＲデータを含む前記出力ＳＢＲデータを生成するように構成されている請求項１から９のいずれか一項に記載の装置（５００）。
前記処理ユニット（５２０）は、前記第１及び第２のフレームのノイズ関連のＳＢＲデータの線形結合に基づいて、ノイズ関連のＳＢＲデータを含む前記出力ＳＢＲデータを生成するように構成されている請求項１から１０のいずれか一項に記載の装置（５００）。
前記処理ユニット（５２０）は、前記第１及び第２のフレームのそれぞれのＳＢＲデータの関連性の心理音響的推定に基づく正弦曲線関連又はノイズ関連のＳＢＲデータを含むように構成されている請求項１０又は１１に記載の装置（５００）。
前記処理ユニット（５２０）は、平滑化フィルター処理に基づいて前記出力ＳＢＲデータを生成するように構成されている請求項１から１２のいずれか一項に記載の装置（５００）。
複数の入力データストリーム（５１０）を処理するように構成されており、該複数の入力データストリームが、３つ以上の入力データストリームを含んでおり、該複数の入力データストリームが、前記第１及び第２の入力データストリーム（５１０−１、５１０−２）を含んでいる請求項１から１３のいずれか一項に記載の装置（５００）。
第１の入力データストリーム（５１０−１）の第１のフレーム（５４０−１）と第２の入力データストリーム（５１０−１）の第２のフレーム（５４０−２）とをミキシングして出力データストリーム（５３０）の出力フレーム（５５０）を得るための方法であって、前記第１のフレームが、第１のオーディオ信号のスペクトルについて第１のクロスオーバー周波数（５７０）までの下方部分（５８０）を記述する第１のスペクトルデータと、前記スペクトルについて前記第１のクロスオーバー周波数から始まる上方部分（５９０）を記述する第１のスペクトル帯域複製（ＳＢＲ）データとを含んでおり、前記第２のフレームが、第２のオーディオ信号の第２のスペクトルについて第２のクロスオーバー周波数までの下方部分を記述する第２のスペクトルデータと、第２のスペクトルについて前記第２のクロスオーバー周波数から始まる上方部分を記述する第２のＳＢＲデータとを含んでおり、前記第１及び第２のＳＢＲデータが、前記それぞれのスペクトルの前記それぞれの上方部分を、時間／周波数格子分解能におけるエネルギー関連の値によって記述しており、前記第１のクロスオーバー周波数が、前記第２のクロスオーバー周波数とは異なっており、
当該方法は、
出力スペクトルの出力クロスオーバー周波数までの下方部分を記述する出力スペクトルデータを含むとともに、該出力スペクトルについて前記出力クロスオーバー周波数よりも上の上方部分を、出力時間／周波数格子分解能におけるエネルギー関連の値によって記述する出力ＳＢＲデータをさらに含む前記出力フレームを生成するステップ、
前記第１のクロスオーバー周波数、前記第２のクロスオーバー周波数及び出力クロスオーバー周波数の最小値を下回る周波数に対応するスペクトルデータを、前記第１及び第２のスペクトルデータに基づいてスペクトル領域において生成するステップ、
前記第１のクロスオーバー周波数、前記第２のクロスオーバー周波数及び前記出力クロスオーバー周波数の最大値を上回る周波数に対応する出力ＳＢＲデータを、前記第１及び第２のＳＢＲデータに基づいてＳＢＲ領域において生成するステップ、並びに
前記最小値及び前記最大値の間の周波数領域の周波数について、第１及び第２のスペクトルデータの少なくとも一方から少なくとも１つのＳＢＲ値を推定し、前記出力ＳＢＲデータの該当のＳＢＲ値を少なくとも前記推定したＳＢＲ値に基づいて生成するステップ、又は
前記最小値及び前記最大値の間の周波数領域の周波数について、該当のフレームの前記ＳＢＲデータに基づいて前記第１及び第２のフレームの少なくとも一方からの少なくとも１つのスペクトル値を推定し、前記出力スペクトルデータのスペクトル値を、少なくとも前記推定したスペクトル値に基づいて、該推定したスペクトル値をスペクトル領域において処理することによって生成するステップを含んでいる方法。
プロセッサー上で動作するときに、第１の入力データストリームの第１のフレームと第２の入力データストリームの第２のフレームとのミキシングのための請求項１５に記載の方法を実行するプログラム。