JP6133422B2

JP6133422B2 - マルチチャネルをダウンミックス／アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法

Info

Publication number: JP6133422B2
Application number: JP2015524812A
Authority: JP
Inventors: カシュトナー，トルシュテン; ヘッレ，ユェルゲン; テレンティフ，レオン; ヘルムート，オリファー
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2012-08-03
Filing date: 2013-08-05
Publication date: 2017-05-24
Anticipated expiration: 2033-08-05
Also published as: PL2880654T3; ZA201501383B; MX2015001396A; SG11201500783SA; EP2880654B1; WO2014020182A2; ES2649739T3; US10096325B2; EP2880654A2; JP2015528926A; KR101657916B1; CN104885150B; WO2014020182A3; CN110223701A; AU2016234987B2; CN110223701B; RU2628195C2; PT2880654T; HK1210863A1; US20150142427A1

Description

本発明は、マルチチャネルをダウンミックス／アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のための装置および方法に関する。

現在のデジタルオーディオシステムでは、送信コンテンツについて、受信機側でオーディオオブジェクト関連の変更を行うことを許容することが主流となっている。これらの変更には、オーディオ信号の選択部位についてのゲイン変更、および／または空間的に分散したスピーカを通じてマルチチャネル再生を行う場合の専用オーディオオブジェクトの空間的再配置が含まれる。これは、それぞれのスピーカに対して、オーディオコンテンツの各部位を個別に伝達することによって達成される。

つまり、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野においては、オブジェクト指向のオーディオコンテンツ再生について、ユーザの相互反応を許容したいという要望が高まっているとともに、聴覚的印象を改善するために、オーディオコンテンツまたはその一部について、個別にマルチチャネル再生を行うという拡張的可能性を利用したいというニーズがある。これによって、マルチチャネル・オーディオコンテンツの利用は、ユーザに対して、大きな改善をもたらす。例えば、三次元の聴覚的印象を得ることができ、これによって、エンタテインメント利用した場合には、さらなるユーザ満足がもたらされる。しかしながら、マルチチャネル・オーディオコンテンツは、商業環境においてもまた有用であり、例えば、電話会議に利用した場合、マルチチャネル・オーディオ再生を利用することによって、話者を容易に認識することができる。その他の潜在的用途としては、楽曲の聴き手に対して、再生レベルを個別に調整すること、および／またはヴォーカルパートや異なる楽器等の異なるパーツ（以下「オーディオオブジェクト」ともいう。）またはトラックの空間的位置を個別に調整することが考えられる。ユーザは、個人的嗜好のために、楽曲の１以上の部位の簡単な複写、教育、カラオケやリハーサル等の目的のために、そのような調整を行うことができる。

全てのデジタルマルチチャネルまたはマルチオブジェクト・オーディオコンテンツを、そのまま、例えば、パルス符号変調（ＰＣＭ）データ形式や、さらには圧縮オーディオ形式などで、個別に送信すると、非常に高いビットレートを要する。しかしながら、ビットレート効率よく、オーディオデータを送信し蓄積することが望ましい。したがって、マルチチャネル／マルチオブジェクト・アプリケーションにより生じる過度なリソース負担を回避するため、オーディオ品質とビットレート要件との間で、合理的なバランスを図ることが望ましい。

近年、オーディオ符号化の分野においては、ビットレート効率のよいマルチチャネル／マルチオブジェクトオーディオ信号の送信／記憶に関するパラメータ技術が、例えばムービング・ピクチャー・エクスパーツ・グループ（ＭＰＥＧ）やその他によって導入されている。一例としては、チャネル志向のアプローチとして、ＭＰＥＧサラウンド（ＭＰＳ）（非特許文献１、非特許文献２）が、オブジェクト指向のアプローチとして、ＭＰＥＧ空間音響オブジェクト符号化（ＳＡＯＣ）（非特許文献３、非特許文献６、非特許文献４、非特許文献５）が挙げられる。他のオブジェクト志向アプローチは、「インフォームド情報源分離」と称される（非特許文献７、非特許文献８、非特許文献９、非特許文献１０、非特許文献１１、非特許文献１２）。これらの技術は、対象となる出力オーディオシーン、または対象となるオーディオソースオブジェクトを、チャネル／オブジェクトのダウンミックス、および送信または蓄積されたオーディオシーンおよび／または当該オーディオシーンにおけるオーディオソースオブジェクトを記載する追加的サイド情報に基づき、再構成することを目的とする。

そのようなシステムでのチャネル／オブジェクト関連副情報の推定および適用は、時間−周波数選択的態様で行われる。したがって、そのようなシステムは、離散フーリエ変換（ＤＦＴ）、短時間フーリエ変換（ＳＴＦＴ）またはフィルタバンク的な直交ミラーフィルタ（ＱＭＦ）バンクなどの時間−周波数変換を使用する。このシステムの基本的原理を、ＭＰＥＧＳＡＯＣの例を用いて図２に示す。

ＳＴＦＴの場合には、時間の次元が時間ブロック数によって表され、スペクトルの次元がスペクトル係数（「ビン」）によって捕捉される。ＱＭＦの場合には、時間の次元がタイムスロット数によって表され、スペクトルの次元がサブバンド数によって捕捉される。ＱＭＦのスペクトル解像度が後続の第２のフィルタ段の適用によって向上された場合、フィルタバンク全体はハイブリッドＱＭＦと称され、高解像度のサブバンドはハイブリッドサブバンドと称される。

上述のように、ＳＡＯＣでは、一般的な処理が、時間−周波数選択的態様で実行され、図２に示すように、各周波数帯域内で以下のように説明される：
− Ｎ個の入力オーディオ信号ｓ_１・・・ｓ_Ｎを、エンコーダ処理の一部として、要素ｄ_１，１・・・ｄ_Ｎ，Ｐからなるダウンミックス行列を用いてＰ個のチャネルｘ_１・・・ｘ_Ｐへとミックスダウンする。さらに、エンコーダは、入力オーディオオブジェクトの特性を記述する副情報を抽出する（副情報推定器（ＳＩＥ）モジュール）。ＭＰＥＧＳＡＯＣにとって、オブジェクトのパワーの相互の関係が、そのような副情報の最も基本的なものである。
− ダウンミックス信号および副情報を送信／蓄積する。この目的のため、例えば、ＭＰＥＧ−１／２Ｌａｙｅｒ２または３（ｍｐ３）、ＭＰＥＧ−２／４ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）など周知の知覚オーディオコーダを用いて、ダウンミックスオーディオ信号を圧縮することができる。
− 受信端において、デコーダは、概念的には、送信された副情報を用いて（復号された）ダウンミックス信号から元のオブジェクト信号を復元しようとする（「オブジェクト分離」）。そして、これらの近似オブジェクト信号
は、図２における係数ｒ_１，１・・・ｒ_Ｎ，Ｍによって記述されたレンダリング行列を用いて、Ｍ個のオーディオチャネル
によって表される目標シーンにミキシングされる。所望の目標シーンは、極端な場合では、ミキシングの中の１つだけの音源信号のレンダリングであってもよいし（音源分離シナリオ）、送信されるオブジェクトからなる他の任意の音響シーンであってもよい。例えば、出力は、単一チャネル、２チャネルステレオまたは５．１マルチチャネルの目標シーンとすることができる。

オーディオ符号化の分野における利用可能な帯域／蓄積容量の増加および進行中の改善によって、ユーザは、徐々に増加している選択肢からマルチチャネル・オーディオ製品を選択することができる。マルチチャネル５．１オーディオフォーマットは、既にＤＶＤおよびブルーレイ製品において標準となっている。より多くのオーディオ移送チャネルを持つＭＰＥＧ−Ｈ３ＤＡｕｄｉｏのような新たなオーディオフォーマットが出現し、これは高度な没入型のオーディオ体験をエンドユーザに提供することになる。

ＩＳＯ／ＩＥＣ２３００３−１：２００７，ＭＰＥＧ−Ｄ（ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ），Ｐａｒｔ１：ＭＰＥＧＳｕｒｒｏｕｎｄ，２００７Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ，"ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，"ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６，Ｎｏｖ．２００３Ｃ．Ｆａｌｌｅｒ，"ＰａｒａｍｅｔｒｉｃＪｏｉｎｔ−ＣｏｄｉｎｇｏｆＡｕｄｉｏＳｏｕｒｃｅｓ"，１２０ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｐａｒｉｓ，２００６Ｊ．Ｈｅｒｒｅ，Ｓ．Ｄｉｓｃｈ，Ｊ．Ｈｉｌｐｅｒｔ，Ｏ．Ｈｅｌｌｍｕｔｈ："ＦｒｏｍＳＡＣＴｏＳＡＯＣ−ＲｅｃｅｎｔＤｅｖｅｌｏｐｍｅｎｔｓｉｎＰａｒａｍｅｔｒｉｃＣｏｄｉｎｇｏｆＳｐａｔｉａｌＡｕｄｉｏ"，２２ｎｄＲｅｇｉｏｎａｌＵＫＡＥＳＣｏｎｆｅｒｅｎｃｅ，Ｃａｍｂｒｉｄｇｅ，ＵＫ，Ａｐｒｉｌ２００７Ｊ．Ｅｎｇｄｅｇａｅｒｄ，Ｂ．Ｒｅｓｃｈ，Ｃ．Ｆａｌｃｈ，Ｏ．Ｈｅｌｌｍｕｔｈ，Ｊ．Ｈｉｌｐｅｒｔ，Ａ．Ｈｏｅｌｚｅｒ，Ｌ．Ｔｅｒｅｎｔｉｅｖ，Ｊ．Ｂｒｅｅｂａａｒｔ，Ｊ．Ｋｏｐｐｅｎｓ，Ｅ．ＳｃｈｕｉｊｅｒｓａｎｄＷ．Ｏｏｍｅｎ："ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ）ＴｈｅＵｐｃｏｍｉｎｇＭＰＥＧＳｔａｎｄａｒｄｏｎＰａｒａｍｅｔｒｉｃＯｂｊｅｃｔＢａｓｅｄＡｕｄｉｏＣｏｄｉｎｇ"，１２４ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ａｍｓｔｅｒｄａｍ２００８ＩＳＯ／ＩＥＣ，"ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓＰａｒｔ２：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ）"，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ２３００３２Ｍ．ＰａｒｖａｉｘａｎｄＬ．Ｇｉｒｉｎ："ＩｎｆｏｒｍｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｏｆｕｎｄｅｒｄｅｔｅｒｍｉｎｅｄｉｎｓｔａｎｔａｎｅｏｕｓＳｔｅｒｅｏＭｉｘｔｕｒｅｓｕｓｉｎｇＳｏｕｒｃｅＩｎｄｅｘＥｍｂｅｄｄｉｎｇ"，ＩＥＥＥＩＣＡＳＳＰ，２０１０Ｍ．Ｐａｒｖａｉｘ，Ｌ．Ｇｉｒｉｎ，Ｊ．Ｍ．Ｂｒｏｓｓｉｅｒ："Ａｗａｔｅｒｍａｒｋｉｎｇｂａｓｅｄｍｅｔｈｏｄｆｏｒｉｎｆｏｒｍｅｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｏｆａｕｄｉｏｓｉｇｎａｌｓｗｉｔｈａｓｉｎｇｌｅｓｅｎｓｏｒ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０１０Ａ．ＬｉｕｔｋｕｓａｎｄＪ．ＰｉｎｅｌａｎｄＲ．ＢａｄｅａｕａｎｄＬ．ＧｉｒｉｎａｎｄＧ．Ｒｉｃｈａｒｄ："Ｉｎｆｏｒｍｅｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｔｈｒｏｕｇｈｓｐｅｃｔｒｏｇｒａｍｃｏｄｉｎｇａｎｄｄａｔａｅｍｂｅｄｄｉｎｇ"，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＪｏｕｒｎａｌ，２０１１Ａ．Ｏｚｅｒｏｖ，Ａ．Ｌｉｕｔｋｕｓ，Ｒ．Ｂａｄｅａｕ，Ｇ．Ｒｉｃｈａｒｄ："Ｉｎｆｏｒｍｅｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ：ｓｏｕｒｃｅｃｏｄｉｎｇｍｅｅｔｓｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ"，ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ，２０１１ＳｈｕｈｕａＺｈａｎｇａｎｄＬａｕｒｅｎｔＧｉｒｉｎ："ＡｎＩｎｆｏｒｍｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎＳｙｓｔｅｍｆｏｒＳｐｅｅｃｈＳｉｇｎａｌｓ"，ＩＮＴＥＲＳＰＥＥＣＨ，２０１１Ｌ．ＧｉｒｉｎａｎｄＪ．Ｐｉｎｅｌ："ＩｎｆｏｒｍｅｄＡｕｄｉｏＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｆｒｏｍＣｏｍｐｒｅｓｓｅｄＬｉｎｅａｒＳｔｅｒｅｏＭｉｘｔｕｒｅｓ"，ＡＥＳ４２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ：ＳｅｍａｎｔｉｃＡｕｄｉｏ，２０１１

パラメトリックなオーディオオブジェクト符号化手法は、現在、最大２個のダウンミックスチャネルに制限されている。この手法は、マルチチャネルのミキシング、例えば、２個だけのダウンミックスチャネルに対して、ある程度しか適用され得ない。したがって、この符号化手法によって、オーディオシーンをユーザ自身の好みに調整できるようにユーザに与えられる柔軟性は非常に制限され、例えば、スポーツ放送においてスポーツ解説者と周辺とのオーディオレベルを変化させることなどに限定される。

さらに、現在のオーディオオブジェクト符号化手法は、エンコーダ側でのミキシング処理において、制限された多様性しか与えない。ミキシング処理は、オーディオオブジェクトの時間変数ミキシングに制限され、周波数変数ミキシングは可能でない。

したがって、オーディオオブジェクト符号化について、改善された概念が提供されることが非常に望ましい。

本発明の課題は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、特許請求の範囲の各独立請求項にそれぞれ記載のデコーダ、方法、およびコンピュータプログラムによって解決される。

１以上のダウンミックスチャネルを有するダウンミックス信号から、１以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダが提供される。ダウンミックス信号は、２以上のオーディオオブジェクト信号が符号化されている。デコーダは、２以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーおよび／もしくはノイズエネルギーに応じて、ならびに／または１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーおよび／もしくはノイズエネルギーに応じて、閾値を決定する閾値決定器を備える。さらに、デコーダは、１以上のダウンミックスチャネルに応じた１以上の判定値を決定し、この１以上の判定値を閾値と比較して、１以上のオーディオ出力チャネルを生成する処理部を備える。

一実施形態によると、ダウンミックス信号は２以上のダウンミックスチャネルを有し、閾値決定器は、２以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成される。

一実施形態によると、閾値決定器は、２以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成される。

一実施形態によると、ダウンミックス信号には２以上のオーディオオブジェクト信号が符号化され、閾値決定器は、２以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有するオーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成される。

一実施形態では、ダウンミックス信号は２以上のダウンミックスチャネルを有し、閾値決定器は、２以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成される。

一実施形態によると、ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて１以上のオーディオオブジェクト信号が符号化される。閾値決定器は、１以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、または１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、複数の時間−周波数タイルのうち第１の時間−周波数タイルの第１の閾値が、複数の時間−周波数タイルのうち第２の時間−周波数タイルとは異なるようにする。処理部は、複数の時間−周波数タイルのうち各時間−周波数タイルについて、上記の時間−周波数タイルの場合の閾値に応じて１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成される。

一実施形態において、デコーダは、デシベル表記の閾値Ｔ［ｄＢ］を、数式
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］−Ｚ
により、または数式
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］
により決定するように構成される。ここで、Ｔ［ｄＢ］は、デシベル表記の閾値を示し、Ｅ_{ｎｏｉｓｅ}［ｄＢ］は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計をデシベルで示し、Ｅ_ｒｅｆ［ｄＢ］は、オーディオオブジェクト信号のうちの１つの信号エネルギーをデシベルで示し、Ｚは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Ｅ_{ｎｏｉｓｅ}［ｄＢ］は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値をデシベルで示す。

一実施形態によると、デコーダは、閾値Ｔを、数式
Ｔ＝Ｅ_{ｎｏｉｓｅ}／（Ｅ_ｒｅｆ・Ｚ）
により、または数式
Ｔ＝Ｅ_{ｎｏｉｓｅ}／Ｅ_ｒｅｆ
により決定するように構成される。ここで、Ｔは、閾値を示し、Ｅ_{ｎｏｉｓｅ}は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、Ｅ_ｒｅｆは、オーディオオブジェクト信号のうちの１つの信号エネルギーを示し、Ｚは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Ｅ_{ｎｏｉｓｅ}は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値を示す。

一実施形態によると、処理部は、１以上のオーディオオブジェクト信号のオブジェクト共分散行列（Ｅ）に応じて、２以上のオーディオオブジェクト信号をダウンミックスして２以上のダウンミックスチャネルを得るためのダウンミックス行列（Ｄ）に応じて、さらに閾値に応じて、１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成される。

一実施形態では、処理部は、ダウンミックスチャネル相互相関行列Ｑを逆行列化する関数に閾値を適用することによって、１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成され、ここで、ＱはＱ＝ＤＥＤ^＊として定義され、Ｄは２以上のオーディオオブジェクト信号をダウンミックスして２以上のダウンミックスチャネルを得るためのダウンミックス行列であり、Ｅは１以上のオーディオオブジェクト信号のオブジェクト共分散行列である。

例えば、処理部は、ダウンミックスチャネル相互相関行列Ｑの固有値を計算することによって、またはダウンミックスチャネル相互相関行列Ｑの単一の値を計算することによって１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成される。

例えば、処理部は、ダウンミックスチャネル相互相関行列Ｑの最大の固有値に閾値を乗じて相対閾値を得ることによって１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成される。

例えば、処理部は、修正行列を生成することによって１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成される。処理部は、ダウンミックスチャネル相互相関行列Ｑの固有ベクトルのみに応じて修正行列を生成するように構成され、それらの固有ベクトルはダウンミックスチャネル相互相関行列Ｑの固有値のうちの１つの固有値を有し、その１つの固有値は修正閾値以上である。さらに、処理部は、修正行列の逆行列化を実行して逆行列を得るように構成される。またさらに、処理部は、逆行列を１以上のダウンミックスチャネルに適用して１以上のオーディオ出力チャネルを生成するように構成される。

さらに、１以上のダウンミックスチャネルを有するダウンミックス信号から１以上のオーディオ出力チャネルを備えるオーディオ出力信号を生成する方法が提供される。ダウンミックス信号には、２以上のオーディオオブジェクト信号が符号化される。デコーダは：
− １以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、または１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて閾値を決定し、
− 前記１以上のダウンミックスチャネルに応じて１以上の判定値を決定し、
− この１以上の判定値を前記閾値と比較することにより、前記１以上のオーディオ出力チャネルを生成する。

さらに、コンピュータまたは信号プロセッサで実行されるときに上記方法を実施するためのコンピュータプログラムが提供される。

以下に、図面を参照して本発明の実施形態をより詳細に説明する。

１以上のオーディオ出力チャネルをる有するオーディオ出力信号を生成するための実施形態によるデコーダを示す。ＳＡＯＣ方式の概略図であり、ＭＰＥＧＳＡＯＣの例を用いてそのような方式の原理を図示する。Ｇ−ＳＡＯＣパラメトリックアップミックスの概念の概略を示す。一般的なダウンミックス／アップミックスの概念を示す。

本発明の実施形態を説明する前に、現行技術のＳＡＯＣ方式についての背景をさらに説明する。

図２は、ＳＡＯＣエンコーダ１０およびＳＡＯＣデコーダ１２の一般的構成を示す。ＳＡＯＣエンコーダ１０は、Ｎ個の入力オブジェクト、すなわち、オーディオ信号ｓ_１〜ｓ_Ｎを受信する。具体的には、エンコーダ１０は、オーディオ信号ｓ_１〜ｓ_Ｎを受信し、それをダウンミックス信号１８にダウンミックスするダウンミキサ１６を備える。あるいは、ダウンミックスが外部から与えられ（「アーティスティックなダウンミックス」）、システムが、追加の副情報を推定して、与えられたダウンミックスを、計算されたダウンミックスに一致させるようにしてもよい。図２において、ダウンミックス信号は、Ｐチャネル信号として示される。ここでは、モノラル（Ｐ＝１）、ステレオ（Ｐ＝２）またはマルチチャネル（Ｐ＞２）のいずれのダウンミックス信号構成でもよい。

ステレオダウンミックスの場合、ダウンミックス信号１８のチャネルはＬ０およびＲ０と表記され、モノラルダウンミックスの場合、単にＬ０と表記される。ＳＡＯＣデコーダ１２が個々のオブジェクトｓ_１〜ｓ_Ｎを受信することができるようにするため、副情報推定器１７は、ＳＡＯＣパラメータを含む副情報をＳＡＯＣデコーダ１２に与える。例えば、ステレオダウンミックスの場合、ＳＡＯＣパラメータは、オブジェクトレベルの差（ＯＬＤ）、オブジェクト間相関（ＩＯＣ）（オブジェクト間相互相関パラメータ）、ダウンミックスゲイン値（ＤＭＧ）およびダウンミックスチャネルレベルの差（ＤＣＬＤ）を含む。ＳＡＯＣパラメータを含む副情報２０は、ダウンミックス信号１８とともに、ＳＡＯＣデコーダ１２によって受信されたＳＡＯＣ出力データストリームを形成する。

ＳＡＯＣデコーダ１２はアップミキサを備え、このアップミキサは、副情報２０とともにダウンミックス信号１８を受信して、ＳＡＯＣデコーダ１２に入力されたレンダリング情報２６により規定されているレンダリングで、オーディオ信号
を、任意のユーザ選択によるチャネルセット
上に復元およびレンダリングする。

オーディオ信号ｓ_１からｓ_Ｎは、時間領域またはスペクトル領域のような何らかの符号化領域で、エンコーダ１０に入力される。オーディオ信号ｓ_１からｓ_ＮがＰＣＭ符号化されるなどして時間領域でエンコーダ１０に供給される場合、エンコーダ１０は、信号をスペクトル領域、すなわちオーディオ信号が異なるスペクトル部分に関連付けられた複数のサブバンドに特定のフィルタバンク解像度で表される領域、に変換するために、ハイブリッドＱＭＦバンクのようなフィルタバンクを用いることができる。オーディオ信号ｓ_１からｓ_Ｎが、既にエンコーダ１０によって想定されているような表現となっている場合には、スペクトル分解を行う必要はない。

ミキシング処理における一層の柔軟性によって、信号オブジェクト特性の最適な利用が可能となる。感受品質に関するデコーダ側でのパラメトリック分離について、最適化されたダウンミックスを生成することができる。

実施形態は、ＳＡＯＣ手法のパラメトリック部分を、任意数のダウンミックス／アップミックスチャネルに拡張する。以降の図は、一般化空間オーディオオブジェクト符号化（Ｇ−ＳＡＯＣ）パラメトリックアップミックスの概念の概略を示す。

図３は、Ｇ−ＳＡＯＣパラメトリックアップミックスの概念の概略を示す。パラメトリックに再構築されたオーディオオブジェクトの完全に柔軟なポストミックス（レンダリング）が実現される。

具体的には、図３は、オーディオデコーダ３１０、オブジェクトセパレータ３２０、およびレンダラー３３０を示す。

以下の表記を共通して使用することにする：
ｘ −入力オーディオオブジェクト信号（サイズＮ_ｏｂｊ）
ｙ −ダウンミックスオーディオ信号（サイズＮ_ｄｍｘ）
ｚ −レンダリングされた出力シーン信号（サイズＮ_{ｕｐｍｉｘ}）
Ｄ −ダウンミックス行列（サイズＮ_ｏｂｊ×Ｎ_ｄｍｘ）
Ｒ −レンダリング行列（サイズＮ_ｏｂｊ×Ｎ_{ｕｐｍｉｘ}）
Ｇ −パラメトリックアップミックス行列（サイズＮ_ｄｍｘ×Ｎ_{ｕｐｍｉｘ}）
Ｅ −オブジェクト共分散行列（サイズＮ_ｏｂｊ×Ｎ_ｏｂｊ）

導入される全ての行列は（一般に）時間および周波数の変数である。

以下に、パラメトリックアップミックスについての構成的な関係を説明する。

まず、一般的なダウンミックス／アップミックスの概念を図４を参照して説明する。具体的には、図４は、一般的なダウンミックス／アップミックスの概念を示し、モデル化された方式（左）およびパラメトリックアップミックス方式（右）を示す。

より具体的には、図４は、レンダリング部４１０、ダウンミックス部４２１、およびパラメトリックアップミックス部４２２を示す。

理想（モデル化）レンダリングされた出力シーン信号ｚが、図（左）に示されるように、
Ｒｘ＝ｚ …（１）
として規定される。

ダウンミックスオーディオ信号ｙが、図４（右）に示されるように、
Ｄｘ＝ｙ …（２）
として決定される。

パラメトリック出力シーン信号の再構築のための（ダウンミックスオーディオ信号に適用される）構成的関係を、図４（右）に示されるように、
Ｇｙ＝ｚ …（３）
として表すことができる。

パラメトリックアップミックス行列は、数式（１）および（２）から、ダウンミックス行列およびレンダリング行列の以下の関数Ｇ＝Ｇ（Ｄ，Ｒ）として規定される：
Ｇ＝ＲＥＤ^＊（ＤＥＤ^＊）^−１ …（４）

以降において、実施形態によるパラメトリック音源推定の安定性の改善を検討する。

ＭＰＥＧＳＡＯＣ内のパラメトリック分離手法は、ミキシングにおける音源の最小二乗法（ＬＭＳ）推定に基づく。ＬＭＳ推定は、パラメトリック的に記述されたダウンミックスチャネル共分散行列Ｑ＝ＤＥＤ^＊の逆行列化を伴う。逆行列化のためのアルゴリズムは、一般に、悪条件行列の影響を受けやすい。そのような行列の逆行列化は、レンダリングされた出力シーンの意味において、アーチファクトといわれる不自然な音をもたらす可能性がある。ＭＰＥＧＳＡＯＣにおいて、ヒューリスティックに決定された固定の閾値Ｔが、現在のところ、これを回避する。この方法によってアーチファクトが回避されるが、これによって、デコーダ側における十分可能な分離性能が達成されなくなる。

図１は、実施形態による、１以上のダウンミックスチャネルを有するダウンミックス信号から１以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダを示す。ダウンミックス信号には、１以上のオーディオオブジェクト信号が符号化される。

デコーダは、１以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーおよび／またはノイズエネルギーに応じて、もしくは１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーおよび／またはノイズエネルギーに応じて閾値を決定する閾値決定器１１０を備える。

さらに、デコーダは、閾値に応じて、１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するための処理部１２０を備える。

現行技術とは対照的に、閾値決定器１１０によって決定された閾値は、１以上のダウンミックスチャネルまたは符号化された１以上のオーディオオブジェクト信号の信号エネルギーやノイズエネルギーに依存する。実施形態では、１以上のダウンミックスチャネルおよび／または１以上のオーディオオブジェクト信号値の信号エネルギーおよびノイズエネルギーが変動すると、閾値も、例えば、時間インスタンスから時間インスタンスへ、または時間−周波数タイルから時間−周波数タイルへと変動する。

実施形態において、デコーダ側におけるオーディオオブジェクトの改善されたパラメトリック分離を実現する逆行列化のための適応的閾値の方法が提供される。分離性能は、平均として良好であり、Ｑ行列を逆行列化するためのアルゴリズムにおいてＭＰＥＧＳＡＯＣで現在使用される固定閾値手法より悪くはならない。

閾値Ｔは、各々処理された時間−周波数タイルに対するデータの精度に対して動的に適応される。したがって、分離性能は改善され、不良条件行列の逆行列化によってもたらされるレンダリングされた出力シーンにおけるアーチファクトが回避される。

一実施形態によると、ダウンミックス信号は２以上のダウンミックスチャネルを有し、閾値決定器１１０は、２以上のダウンミックスチャネルの各々のノイズエネルギーに応じて、閾値を決定するように構成される。

一実施形態では、閾値決定器１１０は、２以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて、閾値を決定するように構成される。

一実施形態によると、ダウンミックス信号には２以上のオーディオオブジェクト信号が符号化され、閾値決定器１１０は、２以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有するオーディオオブジェクト信号の信号エネルギーに応じて、閾値を決定するように構成される。

一実施形態によると、ダウンミックス信号は、２以上のダウンミックスチャネルを有し、閾値決定器１１０は、２以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて、閾値を決定するように構成される。

一実施形態によると、ダウンミックス信号には、複数の時間−周波数タイルのうちの各時間−周波数タイルについて１以上のオーディオオブジェクト信号が符号化されている。閾値決定器１１０は、１以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、または１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、複数の時間−周波数タイルのうちの各時間−周波数タイルについて、閾値を決定するように構成され、複数の時間−周波数タイルのうちの第１の時間−周波数タイルの第１の閾値が、複数の時間−周波数タイルのうちの第２の時間−周波数タイルとは異なる。処理部１２０は、複数の時間−周波数タイルのうちの各時間−周波数タイルについて、上記の時間−周波数タイルの場合の閾値に応じて１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成される。

実施形態において、デコーダは、閾値Ｔを、数式
Ｔ＝Ｅ_{ｎｏｉｓｅ}／（Ｅ_ｒｅｆ・Ｚ）
により、または数式
Ｔ＝Ｅ_{ｎｏｉｓｅ}／Ｅ_ｒｅｆ
により決定するように構成される。ここで、Ｔは、閾値を示し、Ｅ_{ｎｏｉｓｅ}は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、Ｅ_ｒｅｆは、オーディオオブジェクト信号のうちの１つの信号エネルギーを示し、Ｚは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Ｅ_{ｎｏｉｓｅ}は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値を示す。

一実施形態において、デコーダは、デシベル表記の閾値Ｔ［ｄＢ］を、数式
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］−Ｚ
により、または数式
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］
により決定するように構成される。ここで、ここで、Ｔ［ｄＢ］は、デシベル表記の閾値を示し、Ｅ_{ｎｏｉｓｅ}［ｄＢ］は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計をデシベルで示し、Ｅ_ｒｅｆ［ｄＢ］は、オーディオオブジェクト信号のうちの１つの信号エネルギーをデシベルで示し、Ｚは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Ｅ_{ｎｏｉｓｅ}［ｄＢ］は、２以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値をデシベルで示す。

具体的に、閾値は、各時間−周波数タイルについて、
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］−Ｚ …（５）
によって概算できる。

Ｅ_{ｎｏｉｓｅ}は、ノイズフロアレベルを示し、例えば、ダウンミックスチャネルにおける全ノイズエネルギーの合計である。ノイズフロアレベルは、オーディオデータの解像度によって定義され、例えば、チャネルのＰＣＭ符号化によってもたらされる。ダウンミックスが圧縮される場合には、符号化ノイズとして別の可能性を考慮することになる。そのような場合、符号化アルゴリズムによってもたらされたノイズフロアが加算される。代替の実施形態では、Ｅ_{ｎｏｉｓｅ}［ｄＢ］は、２以上のダウンミックスチャネルにおける全ノイズエネルギーの合計をダウンミックスチャネル数によって除算した値をデシベルで示す。

Ｅ_ｒｅｆは、基準信号エネルギーを示す。最も簡単な形態では、これは、最も強いオーディオオブジェクトのエネルギーとなる。
Ｅ_ｒｅｆ＝ｍａｘ（Ｅ） …（６）

Ｚは、分離解像度に影響する追加パラメータを示し、例えば、ダウンミックスチャネル数と音源オブジェクト数の差に対処するためのペナルティファクタである。分離性能は、オーディオオブジェクト数の増加とともに減少する。さらに、分離におけるパラメトリック副情報の量子化の影響も含まれる。

一実施形態では、処理部１２０は、１以上のオーディオオブジェクト信号のオブジェクト共分散行列Ｅに応じて、２以上のダウンミックスチャネルを得るために２以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列Ｄに応じて、さらに閾値に応じて、１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成されている。

一実施形態によると、閾値に応じて１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するために、処理部１２０が、以下のように処理を進めるように構成される：
（「分離解像度閾値」といわれる）閾値が、デコーダ側で、パラメトリックに推定されたダウンミックスチャネル相互相関行列Ｑを逆行列化する関数に適用される。
Ｑの単一値またはＱの固有値が計算される。
最大の固有値が採られ、閾値Ｔに乗算される。
最大の固有値以外の全てがこの相対閾値と比較され、それらが小さい場合には省かれる。
そして、逆行列化が修正行列上で実行される。ここで、修正行列を、例えば少ないベクトルの組によって規定された行列としてもよい。なお、最も高い固有値以外の全てが省かれる場合には最も高い固有値が、その固有値が低ければノイズフロアレベルに設定されるべきである。

例えば、処理部１２０は、修正行列を生成することによって１以上のダウンミックスチャネルから１以上のオーディオ出力チャネルを生成するように構成される。修正行列は、ダウンミックスチャネル相互相関行列Ｑのそれらの固有値のみに応じて生成され、それらの固有ベクトルは、ダウンミックスチャネル相互相関行列Ｑの固有値のうちの１つの固有値を有し、その１つの固有値は修正閾値以上である。処理部１２０は、修正行列の逆行列化を実行して、逆行列を得るように構成される。そして、処理部１２０は、逆行列をダウンミックスチャネルの１以上に適用して、１以上のオーディオ出力チャネルを生成するように構成される。例えば、逆行列は、行列の積ＤＥＤ ^＊の逆行列がダウンミックスチャネルに適用されるような態様の１つにおいて、ダウンミックスチャネルの１以上に適用される（例えば、非特許文献６参照、具体的には、章「ＳＡＯＣＰｒｏｃｅｓｓｉｎｇ」参照、より具体的には、節「Ｔｒａｎｓｃｏｄｉｎｇｍｏｄｅｓ」および節「Ｄｅｃｏｄｉｎｇｍｏｄｅｓ」参照）。

閾値Ｔを推定するために使用され得るパラメータは、エンコーダで決定してパラメトリック副情報に埋め込んでもよいし、デコーダ側で直接推定してもよい。

簡素化した閾値推定器をエンコーダ側で用いて、デコーダ側での音源推定における潜在的な不安定さを示すこともできる。その最も簡単な形態では、全てのノイズ項を無視し、デコーダ側における音源信号をパラメトリック的に推定するための利用可能なダウンミックスチャネルの全の可能性については利用できないことを示すダウンミックスチャネルのノルムが計算される。そのようなインジケータをミキシング処理中に用いて、音源信号の推定に重大な影響を及ぼす行列が混合するのを回避することができる。

オブジェクト共分散行列のパラメータ化に関して、構成的な関係式（４）に基づく上記パラメトリックアップミックス方法が、オブジェクト共分散行列Ｅの非対角構成要素の符号に対して不変であると解される。これによって、オブジェクト間の相関を表す値の（ＳＡＯＣとの比較において）より効率的なパラメータ化（量子化および符号化）ができる可能性がもたらされる。

ダウンミックス行列を表す情報の変換に関して、一般に、共分散行列Ｅと共にオーディオ入力およびダウンミックス信号ｘ、ｙは、エンコーダ側で決定される。ダウンミックスオーディオ信号ｙの符号化された表示および共分散行列Ｅを記述する情報が、デコーダ側に（ビットストリームのペイロードを介して）送信される。レンダリング行列Ｒが設定され、デコーダ側で利用可能となる。

（エンコーダ側で適用されてデコーダ側で使用される）ダウンミックス行列Ｄを表す情報は、以下の基本的方法を用いて、（エンコーダで）決定され、（デコーダで）得られる。

ダウンミックス行列Ｄは：
− （エンコーダで）設定および適用され、その量子化および符号化された表示が、ビットストリームのペイロードを介して、（デコーダに）明示的に送信される。
− 格納された参照テーブル（すなわち、所定のダウンミックス行列の組）を用いて、（エンコーダで）割当ておよび適用され、（デコーダで）復元される。
− 特定のアルゴリズムまたは方法（例えば、利用可能なダウンミックスチャネルに対するオーディオオブジェクトの空間的に重み付けおよび順序付けされた等距離配置）に従って、（エンコーダで）割当ておよび適用され、（デコーダで）復元される。
− 入力オーディオオブジェクトの「柔軟なミキシング」を可能とする特定の最適化基準（すなわち、デコーダ側でのオーディオオブジェクトのパラメトリック推定に最適化されたダウンミックス行列の生成）を用いて、（エンコーダで）推定および適用され、（デコーダで）復元される。例えば、エンコーダが、共分散、信号間の相関のような空間信号特性の再構築の観点で、パラメトリックなアップミックスをより効率的にし、または、パラメトリックアップミックスアルゴリズムの数値的安定性を改善または確保する態様で、ダウンミックス行列を生成する。

与えられた実施形態は、任意のダウンミックス／アップミックスチャネル数に適用できる。それは、任意の現在または将来のオーディオフォーマットに組み合わせることができる。

発明の方法の柔軟性によって、変更されないチャネルをバイパスして計算の複雑さを軽減し、ビットストリームのペイロードを低減させ／データ量を減少させることが可能となる。

符号化のためのオーディオエンコーダ、方法またはコンピュータプログラムが提供される。さらに、復号化のためのオーディオデコーダ、方法またはコンピュータプログラムが提供される。またさらに、符号化された信号が提供される。

いくつかの形態を装置との関連で説明したが、それらの形態が対応の方法の説明も兼ねることは明らかであり、ブロックまたはデバイスは方法のステップまたは方法のステップの特徴に対応する。同様に、方法ステップに関連して説明した形態はまた、対応する装置の対応のブロック、内容または特徴の記載も兼ねる。

本発明の分解された信号は、デジタル記憶媒体に記憶され、またはインターネットのような無線伝送媒体もしくは有線伝送媒体といった伝送媒体上で伝送されることができる。

特定の実施要件に応じて、発明の実施形態は、ハードウェアまたはソフトウェアで実施されることができる。その実施は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する（または協働することができる）電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、例えば、フレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）もしくはフラッシュメモリを用いて実行することができる。

本発明によるいくつかの実施形態は、ここに記載された方法の１つが実行されるようなプログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施でき、プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働したときに方法の１つを実行するように動作するものである。プログラムコードは、例えば、機械読み取り可能なキャリア上に記憶されることができる。

他の実施形態は、ここに記載された方法の１つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを有する。

言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働するときに、ここに記載された方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムを、記録して備えるデータキャリア（すなわち、デジタル記憶媒体またはコンピュータ可読媒体）である。

したがって、本発明の方法のさらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続、例えばインターネットを介して転送されるために構成されてもよい。

さらなる実施形態は、ここに記載された方法の１つを実行するように構成または適合された、例えば、コンピュータまたはプログラマブルロジックデバイスなどの処理手段を含む。

さらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

実施形態によっては、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ、ＦＰＧＡ）が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の１つを実行するために、フィールドプログラマブルゲートアレイはマイクロプロセッサと協働してもよい。一般に、それらの方法は、あらゆるハードウェア装置によって実行される。

上述した実施形態は、本発明の原理を例示的に示しただけである。ここに記載された構成および詳細の変形例や修正例は、当業者には明白であろう。したがって、実施形態の記述および説明によってここに提示された具体的詳細によってではなく、直後に記載する特許請求の範囲によってのみ限定されることを意図するものである。

Claims

１以上のダウンミックスチャネルを有し２以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、１以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダにおいて、
前記２以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、または前記１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定する閾値決定器（１１０）と、
前記１以上のダウンミックスチャネルに応じた１以上の判定値を決定し、この１以上の判定値を前記閾値と比較して、前記１以上のオーディオ出力チャネルを生成する処理部（１２０）と、
を備えたデコーダ。
請求項１に記載のデコーダにおいて、
前記ダウンミックス信号は２以上のダウンミックスチャネルを有し、
前記閾値決定器（１１０）は、前記２以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成された、デコーダ。
請求項２に記載のデコーダにおいて、前記閾値決定器（１１０）は、前記２以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成された、デコーダ。
請求項１から３のいずれか１項に記載のデコーダにおいて、前記閾値決定器（１１０）は、前記２以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有する前記オーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成された、デコーダ。
請求項１から４のいずれか１項に記載のデコーダにおいて、
前記ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて前記２以上のオーディオオブジェクト信号が符号化され、
前記閾値決定器（１１０）は、前記２以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、または前記１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、前記複数の時間−周波数タイルのうち第１の時間−周波数タイルの第１の閾値が複数の時間−周波数タイルのうち第２の時間−周波数タイルとは異なり、
前記処理部（１２０）は、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて、その時間−周波数タイルの閾値に応じて、前記１以上のダウンミックスチャネルから前記１以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成された、デコーダ。
請求項１から５のいずれか１項に記載のデコーダにおいて、
前記ダウンミックス信号は２以上のダウンミックスチャネルを有し、
デシベル表記の閾値Ｔ［ｄＢ］を、数式
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］−Ｚ
により、または数式
Ｔ［ｄＢ］＝Ｅ_{ｎｏｉｓｅ}［ｄＢ］−Ｅ_ｒｅｆ［ｄＢ］
により決定するように構成され、ここで、Ｔ［ｄＢ］は、閾値をデシベルで示し、Ｅ_{ｎｏｉｓｅ}［ｄＢ］は、前記２以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記２以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記２以上のダウンミックスチャネルの数で除算した値、をデシベルで示し、Ｅ_ｒｅｆ［ｄＢ］は、オーディオオブジェクト信号のうちの１つの信号エネルギーをデシベルで示し、Ｚは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
請求項１から５のいずれか１項に記載のデコーダにおいて、
閾値Ｔを、数式
Ｔ＝Ｅ_{ｎｏｉｓｅ}／（Ｅ_ｒｅｆ・Ｚ）
により、または数式
Ｔ＝Ｅ_{ｎｏｉｓｅ}／Ｅ_ｒｅｆ
により決定するように構成され、ここで、Ｔは、閾値を示し、Ｅ_{ｎｏｉｓｅ}は、前記２以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記２以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記２以上のダウンミックスチャネルの数で除算した値、を示し、Ｅ_ｒｅｆは、オーディオオブジェクト信号のうちの１つの信号エネルギーを示し、Ｚは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
請求項１から７のいずれか１項に記載のデコーダにおいて、前記処理部（１２０）は、前記１以上のオーディオオブジェクト信号のオブジェクト共分散行列（Ｅ）に応じて、前記１以上のダウンミックスチャネルを得るために前記２以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列（Ｄ）に応じて、さらに前記閾値に応じて、前記１以上のダウンミックスチャネルから前記１以上のオーディオ出力チャネルを生成するように構成された、デコーダ。
請求項８に記載のデコーダにおいて、
前記処理部（１２０）は、ダウンミックスチャネル相互相関行列Ｑを逆行列化する関数に前記閾値を適用することによって、前記１以上のダウンミックスチャネルから前記１以上のオーディオ出力チャネルを生成するように構成され、
Ｑが、Ｑ＝ＤＥＤ^＊として定義され、
Ｄは、前記２以上のダウンミックスチャネルを得るために前記２以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列であり、
Ｅは、前記１以上のオーディオオブジェクト信号のオブジェクト共分散行列である、
デコーダ。
請求項９に記載のデコーダにおいて、前記処理部（１２０）は、前記ダウンミックスチャネル相互相関行列Ｑの固有値を計算することによって、または前記ダウンミックスチャネル相互相関行列Ｑの単一の値を計算することによって、前記１以上のダウンミックスチャネルから前記１以上のオーディオ出力チャネルを生成するように構成された、デコーダ。
請求項９または１０に記載のデコーダにおいて、前記処理部（１２０）は、前記ダウンミックスチャネル相互相関行列Ｑの固有値のうちの最大の固有値に前記閾値を乗じて相対閾値を得ることによって前記１以上のダウンミックスチャネルから前記１以上のオーディオ出力チャネルを生成するように構成された、デコーダ。
請求項１１に記載のデコーダにおいて、
前記処理部（１２０）は、修正行列を生成することによって前記１以上のダウンミックスチャネルから前記１以上のオーディオ出力チャネルを生成するように構成され、
前記処理部（１２０）は、前記ダウンミックスチャネル相互相関行列Ｑの固有値であって、前記ダウンミックスチャネル相互相関行列Ｑの前記固有値のうちの前記相対閾値以上の１つの固有値、を有する固有ベクトルのみに応じて、前記修正行列を生成するように構成され、
前記処理部（１２０）は、逆行列を得るために前記修正行列の逆行列化を実行するように構成され、
前記処理部（１２０）は、前記１以上のオーディオ出力チャネルを生成するために前記逆行列を１以上のダウンミックスチャネルに適用するように構成された、
デコーダ。
１以上のダウンミックスチャネルを有し２以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、１以上のオーディオ出力チャネルを有するオーディオ出力信号を生成する方法において、
前記２以上のオーディオオブジェクト信号のうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、または前記１以上のダウンミックスチャネルのうちの少なくとも１つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定し、
前記１以上のダウンミックスチャネルに応じて１以上の判定値を決定し、
この１以上の判定値を前記閾値と比較することにより、前記１以上のオーディオ出力チャネルを生成する
方法。
コンピュータまたは信号プロセッサで実行されるときに請求項１３に記載の方法を実施するためのコンピュータプログラム。