JP6141980B2

JP6141980B2 - 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法

Info

Publication number: JP6141980B2
Application number: JP2015525793A
Authority: JP
Inventors: カシュトナー，トルシュテン; ヘッレ，ユェルゲン; テレンティフ，レオン; ヘルムート，オリファー; パウルス，ヨウニ; リッデルブッシュ，ファルコ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2012-08-10
Filing date: 2013-06-28
Publication date: 2017-06-07
Anticipated expiration: 2033-06-28
Also published as: AU2013301864A1; WO2014023477A1; US10497375B2; EP2883226B1; RU2015104055A; JP2015525905A; MX350687B; CN104704557A; KR20150043404A; CN104704557B; EP2883226A1; US20150154968A1; KR101837686B1; BR112015002794A2; KR102033985B1; ES2595220T3; CA2880412C; BR112015002794B1; KR20170016997A; AU2013301864B2

Description

本発明は、オーディオ信号復号化およびオーディオ信号処理に関し、特に、空間オーディオオブジェクト符号化（ＳＡＯＣ）においてオーディオ情報を適応させるデコーダおよび方法に関する。

近年のデジタルオーディオシステムでは、受信側においてオーディオオブジェクトに関連した送信コンテンツの変更修正をできるようにすることが主流となっている。これらの変更修正は、オーディオ信号の選択された部分のゲイン修正、および／または空間的に分散されるスピーカを介したマルチチャンネル再生の際の専用オーディオオブジェクトの空間的再位置決めを含む。これは、オーディオコンテンツの異なる部分を異なるスピーカに個々に配信することによって実現される。

言い換えると、オーディオの処理、オーディオの伝送、およびオーディオの蓄積の技術において、オブジェクト指向のオーディオコンテンツ再生におけるユーザ対話を可能にすることへの要望、および聴覚的印象を向上するためにマルチチャンネル再生の拡張された可能性を利用してオーディオコンテンツまたはその一部を個々に表現することへの要求が高まっている。これによって、マルチチャンネルオーディオコンテンツの使用がユーザに大きな改善をもたらす。例えば、娯楽用途において、ユーザ満足度の向上をもたらすような、三次元の聴覚的印象が得られる。一方、マルチチャンネルオーディオコンテンツは、マルチチャンネルオーディオ再生を用いることによって話し手の明瞭度が改善されるので、例えば、電話会議用途などの仕事環境においても有用である。他に考えられる用途としては、楽曲の聴取者に、ボーカル部分または異なる楽器といった異なる部分（「オーディオオブジェクト」ともいう）やトラックの再生レベルおよび／または空間位置を個々に調整してもらうものがある。ユーザは、個人的な好み、教育的目的、カラオケ、リハーサルなどの理由により、楽曲から１以上の部分をより簡単に再生するために、そのような調整を行うことができる。

全てのデジタルマルチチャンネルまたはマルチオブジェクト・オーディオコンテンツを、そのまま、例えば、パルス符号変調（ＰＣＭ）データ形式や、さらには圧縮オーディオ形式などで、個別に送信すると、非常に高いビットレートを要する。しかしながら、ビットレート効率よく、オーディオデータを送信し蓄積することが望ましい。したがって、マルチチャンネル／マルチオブジェクト・アプリケーションにより生じる過度なリソース負担を回避するため、オーディオ品質とビットレート要件との間で、合理的なトレードオフが許容されている。

最近では、オーディオ符号化の分野において、マルチチャンネル／マルチオブジェクトオーディオ信号のビットレート効率が良い送信／蓄積のためのパラメトリック技術が、例えば、ＭＰＥＧその他によって導入されている。一例として、チャンネル指向アプローチとしてＭＰＥＧサラウンド（ＭＰＳ）（非特許文献１、２）が、またオブジェクト指向アプローチとしてＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ）（非特許文献３から５）が挙げられる。他のオブジェクト指向アプローチは、「情報化音源分離」といわれる（非特許文献７から１２）。これらの技術は、所望の出力オーディオシーンまたは所望のオーディオ源オブジェクトを、チャンネル／オブジェクトならびに送信／蓄積されたオーディオシーンおよび／またはオーディオシーンにおけるオーディオ源オブジェクトを記述する付加的な副情報のダウンミックスに基づいて再構築することを目的とする。

そのようなシステムでのチャンネル／オブジェクト関連副情報の推定および適用は、時間−周波数選択的態様で行われる。したがって、そのようなシステムは、離散フーリエ変換（ＤＦＴ）、短時間フーリエ変換（ＳＴＦＴ）またはフィルタバンク的な直交ミラーフィルタ（ＱＭＦ）バンクなどの時間−周波数変換を使用する。このシステムの基本的原理を、ＭＰＥＧＳＡＯＣの例を用いて、図３に示す。

ＳＴＦＴの場合には、時間の次元が時間ブロック数によって表され、スペクトルの次元がスペクトル係数（「ビン」）によって捕捉される。ＱＭＦの場合には、時間の次元がタイムスロット数によって表され、スペクトルの次元がサブバンド数によって捕捉される。ＱＭＦのスペクトル解像度が後続の第２のフィルタ段の適用によって向上された場合、フィルタバンク全体はハイブリッドＱＭＦと称され、高解像度のサブバンドはハイブリッドサブバンドと称される。

上述のように、ＳＡＯＣでは、一般的な処理が、時間−周波数選択的態様で実行され、図３に示すように、各周波数帯域内で以下のように説明される：
− Ｎ個の入力オーディオ信号ｓ_１・・・ｓ_Ｎを、エンコーダ処理の一部として、要素ｄ_１，１・・・ｄ_Ｎ，Ｐからなるダウンミックス行列を用いてＰ個のチャンネルｘ_１・・・ｘ_Ｐへとミックスダウンする。さらに、エンコーダは、入力オーディオオブジェクトの特性を記述する副情報を抽出する（副情報推定器（ＳＩＥ）モジュール）。ＭＰＥＧＳＡＯＣにとって、オブジェクトのパワーの相互の関係が、そのような副情報の最も基本的なものである。
− ダウンミックス信号および副情報を送信／蓄積する。この目的のため、例えば、ＭＰＥＧ−１／２Ｌａｙｅｒ２または３（ｍｐ３）、ＭＰＥＧ−２／４ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）など周知の知覚オーディオコーダを用いて、ダウンミックスオーディオ信号を圧縮することができる。
− 受信端において、デコーダは、概念的には、送信された副情報を用いて（復号された）ダウンミックス信号から元のオブジェクト信号を復元しようとする（「オブジェクト分離」）。そして、これらの近似オブジェクト信号ｓ^＾ _１・・・ｓ^＾ _Ｎは、図３における係数ｒ_１，１・・・ｒＮ，Ｍによって記述されたレンダリング行列を用いて、Ｍ個のオーディオチャンネルｙ＾１・・・ｙ＾_Ｍによって表される目標シーンにミキシングされる。所望の目標シーンは、極端な場合では、ミキシングの中の１つだけの音源信号のレンダリングであってもよいし（音源分離シナリオ）、送信されるオブジェクトからなる他の任意の音響シーンであってもよい。例えば、出力は、単一チャンネル、２チャンネルステレオまたは５．１マルチチャンネルの目標シーンとすることができる。

図６に、オーディオ符号化／復号化手法の原理を模式的に示す。具体的には、図６は、オーディオ符号化／復号化チェーンの原理説明である。

符号化側において、オーディオ信号がオーディオ符号化手法によって（通常は知覚効果を利用して）圧縮され、パラメトリック副情報（ＰＳＩ）が計算される（エンコーダ６０１参照）。符号化されたオーディオ信号およびＰＳＩからなる、結果として得られるビットストリームは、デコーダ側に蓄積（または送信）され、それらは図６において「Ａ」、「Ｂ」などが付された種々のデコーダインスタンス６２０、６２１および６２２によって復号されることができる。これらのデコーダインスタンスは、相互に異なる（例えば、標準規格、用途や実施上の制約において複雑さが異なる）（非特許文献４から６）。

オーディオ符号化の分野における利用可能な帯域／蓄積容量の増加および進行中の改善によって、ユーザは、徐々に増加している選択肢からマルチチャンネルオーディオ製品を選択することができる。マルチチャンネル５．１オーディオフォーマットは、既にＤＶＤおよびブルーレイ製品において標準となっている。より多くのオーディオ移送チャンネルを持つＭＰＥＧ−Ｈ３ＤＡｕｄｉｏのような新たなオーディオフォーマットが出現し、これは高度な没入型のオーディオ体験をエンドユーザに提供することになる。

ＩＳＯ／ＩＥＣ２３００３−１：２００７，ＭＰＥＧ−Ｄ（ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ），Ｐａｒｔ１：ＭＰＥＧＳｕｒｒｏｕｎｄ，２００７Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ，"ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ−ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ，"ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６，Ｎｏｖ．２００３Ｃ．Ｆａｌｌｅｒ，"ＰａｒａｍｅｔｒｉｃＪｏｉｎｔ−ＣｏｄｉｎｇｏｆＡｕｄｉｏＳｏｕｒｃｅｓ"，１２０ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｐａｒｉｓ，２００６Ｊ．Ｈｅｒｒｅ，Ｓ．Ｄｉｓｃｈ，Ｊ．Ｈｉｌｐｅｒｔ，Ｏ．Ｈｅｌｌｍｕｔｈ："ＦｒｏｍＳＡＣＴｏＳＡＯＣ−ＲｅｃｅｎｔＤｅｖｅｌｏｐｍｅｎｔｓｉｎＰａｒａｍｅｔｒｉｃＣｏｄｉｎｇｏｆＳｐａｔｉａｌＡｕｄｉｏ"，２２ｎｄＲｅｇｉｏｎａｌＵＫＡＥＳＣｏｎｆｅｒｅｎｃｅ，Ｃａｍｂｒｉｄｇｅ，ＵＫ，Ａｐｒｉｌ２００７Ｊ．Ｅｎｇｄｅｇａｅｒｄ，Ｂ．Ｒｅｓｃｈ，Ｃ．Ｆａｌｃｈ，Ｏ．Ｈｅｌｌｍｕｔｈ，Ｊ．Ｈｉｌｐｅｒｔ，Ａ．Ｈｏｅｌｚｅｒ，Ｌ．Ｔｅｒｅｎｔｉｅｖ，Ｊ．Ｂｒｅｅｂａａｒｔ，Ｊ．Ｋｏｐｐｅｎｓ，Ｅ．ＳｃｈｕｉｊｅｒｓａｎｄＷ．Ｏｏｍｅｎ："ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ）−ＴｈｅＵｐｃｏｍｉｎｇＭＰＥＧＳｔａｎｄａｒｄｏｎＰａｒａｍｅｔｒｉｃＯｂｊｅｃｔＢａｓｅｄＡｕｄｉｏＣｏｄｉｎｇ"，１２４ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ａｍｓｔｅｒｄａｍ２００８ＩＳＯ／ＩＥＣ，"ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ−Ｐａｒｔ２：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ）"，ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄ２３００３−２Ｍ．ＰａｒｖａｉｘａｎｄＬ．Ｇｉｒｉｎ："ＩｎｆｏｒｍｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｏｆｕｎｄｅｒｄｅｔｅｒｍｉｎｅｄｉｎｓｔａｎｔａｎｅｏｕｓＳｔｅｒｅｏＭｉｘｔｕｒｅｓｕｓｉｎｇＳｏｕｒｃｅＩｎｄｅｘＥｍｂｅｄｄｉｎｇ"，ＩＥＥＥＩＣＡＳＳＰ，２０１０Ｍ．Ｐａｒｖａｉｘ，Ｌ．Ｇｉｒｉｎ，Ｊ．−Ｍ．Ｂｒｏｓｓｉｅｒ："Ａｗａｔｅｒｍａｒｋｉｎｇ−ｂａｓｅｄｍｅｔｈｏｄｆｏｒｉｎｆｏｒｍｅｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｏｆａｕｄｉｏｓｉｇｎａｌｓｗｉｔｈａｓｉｎｇｌｅｓｅｎｓｏｒ"，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０１０Ａ．ＬｉｕｔｋｕｓａｎｄＪ．ＰｉｎｅｌａｎｄＲ．ＢａｄｅａｕａｎｄＬ．ＧｉｒｉｎａｎｄＧ．Ｒｉｃｈａｒｄ："Ｉｎｆｏｒｍｅｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｔｈｒｏｕｇｈｓｐｅｃｔｒｏｇｒａｍｃｏｄｉｎｇａｎｄｄａｔａｅｍｂｅｄｄｉｎｇ"，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＪｏｕｒｎａｌ，２０１１Ａ．Ｏｚｅｒｏｖ，Ａ．Ｌｉｕｔｋｕｓ，Ｒ．Ｂａｄｅａｕ，Ｇ．Ｒｉｃｈａｒｄ："Ｉｎｆｏｒｍｅｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ：ｓｏｕｒｃｅｃｏｄｉｎｇｍｅｅｔｓｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ"，ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ，２０１１ＳｈｕｈｕａＺｈａｎｇａｎｄＬａｕｒｅｎｔＧｉｒｉｎ："ＡｎＩｎｆｏｒｍｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎＳｙｓｔｅｍｆｏｒＳｐｅｅｃｈＳｉｇｎａｌｓ"，ＩＮＴＥＲＳＰＥＥＣＨ，２０１１Ｌ．ＧｉｒｉｎａｎｄＪ．Ｐｉｎｅｌ："ＩｎｆｏｒｍｅｄＡｕｄｉｏＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｆｒｏｍＣｏｍｐｒｅｓｓｅｄＬｉｎｅａｒＳｔｅｒｅｏＭｉｘｔｕｒｅｓ"，ＡＥＳ４２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ：ＳｅｍａｎｔｉｃＡｕｄｉｏ，２０１１

現行の符号化手法は、ＰＳＩを特定の目標アプリケーションシナリオまたはプラットフォームに効率的な態様で適応させることができない。このことによって、（必要以上に）高い計算の複雑さがデコーダ側にもたらされたり、互換性の問題が引き起こされたりする。

本発明の目的は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、請求項１に記載のデコーダ、請求項１４に記載の方法、および請求項１５に記載のコンピュータプログラムによって解決される。

１以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置が提供される。入力オーディオ情報は、２以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、１以上の適応オーディオダウンミックスチャンネルを含み、適応メトリック副情報をさらに含む。

この装置は、適応情報に基づき２以上の入力オーディオダウンミックスチャンネルを適応させて、１以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器を備える。

さらに、この装置は、適応情報に基づき入力パラメトリック副情報を適応させて、適応パラメトリック副情報を得るパラメトリック副情報適応器を備える。

一実施形態によると、ダウンミックス信号修正器は、１以上の適応オーディオダウンミックスチャンネルの数が２以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、適応情報に基づき２以上の入力オーディオダウンミックスチャンネルを適応させるように構成されていてもよい。

一実施形態において、適応情報はデコーダインスタンスに依存していてもよい。ダウンミックス信号修正器は、デコーダインスタンスに応じて２以上の入力オーディオダウンミックスチャンネルを適応させるように構成されていてもよい。ここで、また以降においても、用語「デコーダ」および「デコーダインスタンス」は同じ意味である。

一実施形態によると、デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができる。適応情報は、ダウンミックスチャンネルの最大数に依存していてもよい。ダウンミックス信号修正器は、１以上の適応オーディオダウンミックスチャンネルの数が２以上のダウンミックスチャンネルの上記最大数に等しくなるように、適応情報に応じて２以上の入力オーディオダウンミックスチャンネルを適応させて１以上の適応オーディオダウンミックスチャンネルを得るように構成されていてもよい。

一実施形態によると、適応情報は、適応行列Ｄ_ｄｍｘ ^ＤＳＭを含むことができる。

一実施形態において、ダウンミックス信号修正器は、適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき２以上のオーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＥＮＣを適応させて、１以上の適応オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭを得るように構成されていてもよい。

一実施形態によると、ダウンミックス信号修正器は、

を適用することによって、適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき２以上のオーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＥＮＣを適応させて、１以上の適応オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭを得るように構成されていてもよい。

一実施形態において、パラメトリック副情報適応器は、構成されていてもよい。

適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣを適応させて、適応パラメトリック副情報Ｄ_ｄｍｘ ^ＰＳＩを得るように
一実施形態によると、パラメトリック副情報適応器は、

を適用することによって、適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣを適応させて、適応パラメトリック副情報Ｄ_ｄｍｘ ^ＰＳＩを得るように構成されてもよい。

一実施形態において、入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣは、１以上のオーディオオブジェクトＳに適用することによって２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ｅｎｃが得られる初期ダウンミックス行列Ｄ_ｄｍｘ ^ｅｎｃを示してもよい。パラメトリック副情報適応器は、適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを１以上のオーディオオブジェクトＳに適用することによって、２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭが得られるように、適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを適応パラメトリック副情報として決定するように構成されてもよい。

さらに、一実施形態によると、１以上のオーディオオブジェクトが符号化された入力オーディオ情報から１以上のオーディオチャンネルを生成する装置が提供される。

１以上のオーディオチャンネルを生成する装置は、入力オーディオ情報を適応させて適応オーディオ情報を得る上述の実施形態のうちの１つによる装置を備え、入力オーディオ情報は、２以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、適応オーディオ情報は、１以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む。

さらに、１以上のオーディオチャンネルを生成する装置は、適応パラメトリック副情報に基づき１以上の適応オーディオダウンミックスチャンネルを復号して１以上のオーディオチャンネルを得るデコーダインスタンスを備える。

一実施形態によると、入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を適応させて適応パラメトリック副情報を取得し、適応パラメトリック副情報をデコーダインスタンスに供給するように構成されていてもよい。デコーダインスタンスは、適応パラメトリック副情報に基づき１以上の適応オーディオダウンミックスチャンネルを復号するように構成されていてもよい。

他の実施形態では、入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力ビットストリーム内の入力パラメトリック副情報を適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、修正ビットストリームをデコーダインスタンスに供給するように構成されていてもよい。さらに、デコーダインスタンスは、修正ビットストリームに応じて１以上の適応オーディオダウンミックスチャンネルを復号するように構成されていてもよい。

また、１以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る方法が提供される。入力オーディオ情報は、２以上の入力オーディオダウンミックスチャネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、１以上の適応オーディオダウンミックスチャネルを含み、さらに適応パラメトリック副情報を含む。この方法は、
− 適応情報に基づき２以上の入力オーディオダウンミックスチャネルを適応させて１以上の適応オーディオダウンミックスチャネルを取得し、
− 適応情報に応じて入力パラメトリック副情報を適応さてせ適応パラメトリック副情報を得る
ことを含む。

さらに、コンピュータまたは信号プロセッサで実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。

好ましい実施形態が、従属請求項において提供される。

以下に、図面を参照して本発明の実施形態をより詳細に説明する。

以下、本発明の実施形態を、図面を参照してより詳しく説明する。

一実施形態による、１以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。他の実施形態による、１以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。ＳＡＯＣ方式の概念的全体像の概略ブロック図である。単一チャネルオーディオ信号の時間−空間的表示の概略模式図である。ＳＡＯＣエンコーダ内の副情報の時間−周波数選択的な計算の概略ブロック図である。オーディオ符号化／復号化手法の原理を概略的に示す。一実施形態による、１以上のオーディオオブジェクトが符号化された入力オーディオ情報から１以上のオーディオチャネルを生成する装置を示す。一実施形態による、符号化／復号化手法内での結合型ＰＳＩＡアプリケーションを示す。一実施形態による、符号化／復号化手法内での分離型ＰＳＩＡアプリケーションを示す。

本発明の実施形態を説明する前に、現行技術のＳＡＯＣ方式についての背景をさらに説明する。

図３は、ＳＡＯＣエンコーダ１０およびＳＡＯＣデコーダ１２の一般的構成を示す。ＳＡＯＣエンコーダ１０は、Ｎ個の入力オブジェクト、すなわち、オーディオ信号ｓ_１〜ｓ_Ｎ信号１８にダウンミックスするダウンミキサ１６を備える。あるいは、ダウンミックスが外部から与えられ（「アーティスティックなダウンミックス」）、システムが、追加の副情報を推定して、与えられたダウンミックスを、計算されたダウンミックスに一致させるようにしてもよい。図２において、ダウンミックス信号は、Ｐチャンネル信号として示される。ここでは、モノラル（Ｐ＝１）、ステレオ（Ｐ＝２）またはマルチチャンネル（Ｐ＞２）のいずれのダウンミックス信号構成でもよい。

ダウンミックス信号１８のチャンネルは、ステレオダウンミックスの場合にはＬ０およびＲ０と表記され、モノラルダウンミックスの場合には単にＬ０と表記される。ＳＡＯＣデコーダ１２が個々のオブジェクトｓ_１〜ｓ_Ｎを受信することができるようにするため、副情報推定器１７は、ＳＡＯＣパラメータを含む副情報をＳＡＯＣデコーダ１２に与える。例えば、ステレオダウンミックスの場合、ＳＡＯＣパラメータは、オブジェクトレベルの差（ＯＬＤ）、オブジェクト間相関（ＩＯＣ）（オブジェクト間相互相関パラメータ）、ダウンミックスゲイン値（ＤＭＧ）およびダウンミックスチャンネルレベルの差（ＤＣＬＤ）を含む。ＳＡＯＣパラメータを含む副情報２０は、ダウンミックス信号１８とともに、ＳＡＯＣデコーダ１２によって受信されたＳＡＯＣ出力データストリームを形成する。

ＳＡＯＣデコーダ１２はアップミキサを備え、このアップミキサは、副情報２０とともにダウンミックス信号１８を受信して、ＳＡＯＣデコーダ１２に入力されたレンダリング情報２６により規定されているレンダリングで、オーディオ信号ｓ^＾ _１・・・ｓ^＾ _Ｎを、任意のユーザ選択によるチャンネルセットｙ^＾ _１・・・ｙ^＾ _Ｍ上に復元およびレンダリングする。

オーディオ信号ｓ_１からｓ_Ｎは、時間領域またはスペクトル領域のような何らかの符号化領域で、エンコーダ１０に入力される。オーディオ信号ｓ_１からｓ_ＮがＰＣＭ符号化されるなどして時間領域でエンコーダ１０に供給される場合、エンコーダ１０は、信号をスペクトル領域、すなわちオーディオ信号が異なるスペクトル部分に関連付けられた複数のサブバンドに特定のフィルタバンク解像度で表される領域、に変換するために、ハイブリッドＱＭＦバンクのようなフィルタバンクを用いることができる。オーディオ信号ｓ_１からｓ_Ｎが、既にエンコーダ１０によって想定されているよう表現となっている場合には、スペクトル分解を行う必要はない。

図４は、今説明したスペクトル領域でのオーディオ信号を示す。図から分かるように、オーディオ信号は、複数のサブバンド信号として表される。各サブバンド信号３０１から３０Ｋは、小さい格子３２によって示されるサブバンド値の時間シーケンスからなる。図から分かるように、各サブバンド信号３０１から３０Ｋのサブバンド値３２は、連続するフィルタバンクタイムスロット３４の各々について、各サブバンド３０１から３０Ｋが１つだけのサブバンド値３２を含むように、時間において相互に同期される。周波数軸３６によって示すように、サブバンド信号３０１から３０Ｋは異なる周波数領域に関連付けられ、時間軸３８によって示すように、フィルタバンクタイムスロット３４は時間的に連続して配置される。

これまで概略したように、図３の副情報抽出器１７は、入力オーディオ信号ｓ１からｓＮからＳＡＯＣパラメータを計算する。現在実施されているＳＡＯＣ規格によると、エンコーダ１０は、フィルタバンクタイムスロット３４およびサブバンド分解によって決定されるような元の時間／周波数解像度に対して、所定量だけ低減される時間／周波数解像度における計算を実行し、この所定量が副情報２０内でデコーダ側に信号送信される。連続するフィルタバンクタイムスロット３４のグループは、ＳＡＯＣフレーム４１を形成することができる。また、ＳＡＯＣフレーム４１内のパラメータ帯域数も、副情報２０内で搬送される。したがって、時間／周波数領域は、図４において破線４２で例示される時間／周波数タイルに分割される。図４において、パラメータ帯域は、時間／周波数タイルが規則的配置になるように、種々の図示されたＳＡＯＣフレーム４１において同じように分散される。しかし、一般に、パラメータ帯域は、それぞれのＳＡＯＣフレーム４１におけるスペクトル解像度に対する異なる要求に応じて、１つのＳＡＯＣフレーム４１から後続のものまで変動し得る。またさらに、ＳＡＯＣフレーム４１の長さも同様に変動し得る。結果として、時間／周波数タイルの構成は不規則となる。それでも、特定のＳＡＯＣフレーム４１内の時間／周波数タイルは、通常は同じ継続時間を有し、時間方向において配列される。つまり、上記ＳＡＯＣフレーム４１の全ての時間／周波数タイルが所与のＳＡＯＣフレーム４１の開始時に開始し、上記ＳＡＯＣフレーム４１の終了時に終了する。

図３に示す副情報抽出器１７は、次の式に従って、ＳＡＯＣパラメータを計算する。具体的には、副情報抽出器１７は、各オブジェクトｉについてのオブジェクトレベル差を、

として計算する。なお、合計およびインデックスｎおよびｋは、それぞれ、全てのタイムインデックス３４、およびＳＡＯＣフレーム（または処理しているタイムスロット）についてのインデックスｌおよびパラメータ帯域についてのインデックスｍによって表される、所定の時間／周波数タイル４２に属する全てのインデックス３０となる。これにより、オーディオ信号またはオブジェクトｉの全てのサブバンド値ｘｉのエネルギーが合計され、全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最も高いエネルギー値に正規化される。ｘ_ｉ ^ｎ，ｋ＊は、ｘ_ｉ ^ｎ，ｋの複素共役を示す。

また、ＳＡＯＣ副情報抽出器１７は、異なる入力オブジェクトｓ１からｓＮの対の対応する時間／周波数タイルの類似度を計算することができる。ＳＡＯＣ副情報抽出器１７は、入力オブジェクトｓ１からｓＮの全ての対の間の類似度を計算してもよいが、類似度の信号送信を抑制し、または共通ステレオチャネルの左もしくは右のチャネルを形成するオーディオオブジェクトｓ１からｓＮに類似度の計算を制限するようにしてもよい。いずれの場合にも、類似度は、オブジェクト間相互相関パラメータＩＯＣ_ｉ，ｊ ^ｌ，ｍと呼ばれる。計算は次の通りである。

ここで、インデックスｎおよびｋは、所定の時間／周波数タイル４２に属する全てのサブバンド値を網羅し、ｉおよびｊは、オーディオオブジェクトｓ１からｓＮの所定の対を示し、Ｒｅ｛｝は、複素数の引数の虚部を切り捨てる演算を示す。

図３のダウンミキサ１６は、オブジェクトｓ１からｓＮを、各オブジェクトｓ１からｓＮに適用されるゲインファクタの使用によってダウンミックスする。すなわち、モノラルダウンミックス信号を得るために、ゲインファクタｄｉがオブジェクトｉに適用され、全ての重み付けされたオブジェクトｓ１からｓＮが合計される。これは、Ｐ＝１の場合が図３に例示されている。他の例として、２チャネルダウンミックス信号の場合では、Ｐ＝２の場合が図３に示されているように、左のダウンミックスチャネルＬ０を得るために、ゲインファクタｄ１，ｉがオブジェクトｉに適用され、そのようにゲイン増幅された全てのオブジェクトが合計され、右のダウンミックスチャネルＲ０を得るために、ゲインファクタｄ２，ｉがオブジェクトｉに適用され、そのようにゲイン増幅されたオブジェクトが合計される。これと同様の処理が、マルチチャネルダウンミックスの場合（Ｐ＞２）に適用される。

このダウンミックスの規定が、ダウンミックスゲインＤＭＧ_ｉ、およびステレオダウンミックス信号の場合にはダウンミックスチャネルレベル差ＤＣＬＤ_ｉによって、デコーダ側に信号送信される。

ダウンミックスゲインは、

により計算される。なお、εは、１０^−９のような小さい数である。

ＤＣＬＤに対して、次式を適用する。

通常モードにおいて、ダウンミキサ１６は、モノラルダウンミックスについては、

に従って、ステレオダウンミックスについては、

に従って、それぞれダウンミックス信号を生成する。

したがって、上述した式において、パラメータＯＬＤおよびＩＯＣはオーディオ信号の関数であり、パラメータＤＭＧおよびＤＣＬＤはｄの関数である。なお、ｄは、時間および周波数において変動している場合がある。

したがって、通常モードでは、ダウンミキサ１６は、全てのオブジェクトｓ１からｓＮを、選好なく全てのオブジェクトｓ１からｓＮを均等に扱って、混合する。

デコーダ側において、アップミキサは、一計算ステップにおいて、すなわち、２チャネルダウンミックス

の場合において、ダウンミックス処理の逆、および行列Ｒ（文献によってはＡともいわれる）によって表される「レンダリング情報」２６の実施を実行する。なお、行列ＥはパラメータＯＬＤおよびＩＯＣの関数であり、行列Ｄは、

のように、ダウンミックス係数を含む。

行列Ｅは、オーディオオブジェクトｓ１からｓＮの推定共分散行列である。現在のＳＡＯＣの実施において、推定共分散行列Ｅの計算は、通常はＳＡＯＣパラメータのスペクトル／時間解像度で、すなわち、各（ｌ，ｍ）に対して実行されるので、推定共分散行列はＥｌ，ｍとして記載することができる。推定共分散行列Ｅｌ，ｍの大きさはＮ×Ｎであり、その係数は、

として定義される。

したがって、ｉ＝ｊについて、ＯＬＤ_ｉ ^ｌ，ｍ＝ＯＬＤ_ｊ ^ｌ，ｍおよびＩＯＣ_ｉ，ｊ ^ｌ，ｍ＝１であるので、

となる行列Ｅ^ｌ，ｍは、その対角に沿って、ｉ＝ｊについてのオブジェクトレベル差、すなわち、ＩＯＣ_ｉ，ｊ ^ｌ，ｍ＝ＯＬＤ_ｉ ^ｌ，ｍを有する。その対角の外部において、推定共分散行列Ｅは、オブジェクト間相互相関度ＩＯＣ_ｉ，ｊ ^ｌ，ｍで重みづけされた、オブジェクトｉおよびｊのオブジェクトレベル差の幾何平均を表す行列係数をそれぞれ有する。

図５は、ＳＡＯＣエンコーダ１０の一部としての副情報抽出器（ＳＩＥ）の例における実施の１つの可能な原理を示す。ＳＡＯＣエンコーダ１０は、ミキサ１６および副情報抽出器（ＳＩＥ）１７を備える。ＳＩＥは、概念的に２つのモジュールを備える。一方のモジュール４５は、各信号の短時間ベースの時間／周波数表示（例えば、ＳＴＦＴまたはＱＭＦ）を計算するためのものである。計算された短時間時間／周波数表示は、第２のモジュール４６、時間／周波数選択副情報推定モジュール（時間／周波数ＳＩＥ）に供給される。時間／周波数モジュール４６は、各時間／周波数タイルについて副情報を計算する。現在のＳＡＯＣの実施では、時間／周波数変換は固定され、全てのオーディオオブジェクトｓ１からｓＮについて同一である。またさらに、ＳＡＯＣパラメータは、全てのオーディオオブジェクトについて同じであって全てのオーディオオブジェクトｓ１からｓＮについて同じ時間／周波数解像度を有するＳＡＯＣフレーム上で決定される。したがって、細かい時間解像度や細かいスペクトル解像度について、オブジェクト特有の要求を無視する場合がある。

以下で、本発明の実施形態を説明する。

図１は、一実施形態による、１以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。

入力オーディオ情報は２以上の入力オーディオダウンミックスチャネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、１以上の適応オーディオダウンミックスチャネルを含み、適応パラメトリック副情報をさらに含む。

この装置は、適応情報に応じて２以上の入力オーディオダウンミックスチャネルを適応させて１以上の適応オーディオダウンミックスチャネルを得るダウンミックス信号修正器（ＤＳＭ）１１０を備える。

図２は、他の実施形態による、適応オーディオ情報を得るために、１以上のオーディオオブジェクトを符号化する入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。

一実施形態では、適応情報はデコーダインスタンスに依存し、ダウンミックス信号修正器１１０は、デコーダインスタンスに応じて２以上の入力オーディオダウンミックスチャネルを適応させるように構成されてもよい。

例えば、図２のダウンミックス信号修正器１１０は、ダウンミックスを特定のデコーダインスタンスの能力に適応させる。

一実施形態によると、ダウンミックス信号修正器１１０は、１以上の適応オーディオダウンミックスチャネル数が２以上の入力オーディオダウンミックスチャネル数よりも小さくなるように、適応情報に応じて２以上の入力オーディオダウンミックスチャネルを適応させるように構成されていてもよい。

例えば、図２の実施形態では、ダウンミックス信号修正器１１０が、トランスポート／ダウンミックスチャネル数を減少させる。

例えば、２２．２個の入力オーディオダウンミックスチャネル（＝２４個の入力オーディオダウンミックスチャネル）が、７．１個の適応オーディオダウンミックスチャネル（＝８個の適応オーディオダウンミックスチャネル）に低減される。

あるいは、例えば、５．１個の入力オーディオダウンミックスチャネル（＝６個の入力オーディオダウンミックスチャネル）が、２．０個の適応オーディオダウンミックスチャネル（＝２個の適応オーディオダウンミックスチャネル）に低減される。

あるいは、例えば、２個の入力オーディオダウンミックスチャネルが、１個の適応オーディオダウンミックスチャネルに低減される。

入力オーディオダウンミックスチャネルと適応オーディオダウンミックスチャネルの種々の他の組合せが可能である。

一実施形態によると、デコーダインスタンスは、最大でダウンミックスチャネルの最大数を復号する能力があればよい。適応情報は、ダウンミックスチャネルの最大数に依存することになる。さらに、ダウンミックス信号修正器１１０は、１以上の適応ダウンミックスチャネル数がダウンミックスチャネルの最大数に等しくなるように、適応情報に応じて２以上の入力オーディオダウンミックスチャネルを適応させて１以上の適応オーディオダウンミックスチャネルを得るように構成されることができる。

例えば、図２のダウンミックス信号修正器１１０は、ダウンミックスを、特定のデコーダインスタンスの最大サポート出力チャネル構成に対応するオーディオ信号に変換する。

一実施形態によると、適応情報は、例えば、適応行列Ｄ_ｄｍｘ ^ＤＳＭを含むことができる。

パラメトリック副情報適応器１２０は、例えば、ＰＳＩを、デコーダについての計算の複雑さを減少させるために修正ダウンミックスに対応させ、デコーダ出力オーディオ品質上に悪影響を及ぼすことなく対応のデータビットストリームのサイズ／ビットレートを減少させるように適応させる。

例えば、ＰＳＩＡ１２０は、最初のダウンミックス行列を表す情報を（ＤＳＭ修正を考慮する）結果としてのダウンミックスを記述する更新情報によって置換する対応のＰＳＩビットストリームを修正して、デコーダの特定の仕様に対応させる。

例えば、ＳＡＯＣエンコーダは、エンコーダダウンミックス行列Ｄ_ｄｍｘ ^ＥＮＣの適用によって得られるステレオダウンミックス信号Ｘ_ｄｍｘ ^ＥＮＣを、入力オーディオオブジェクト信号Ｓに与える。

一実施形態によると、ダウンミックス信号修正器１１０は、適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき、２以上の入力オーディオダウンミックスチャネルＸ_ｄｍｘ ^ＥＮＣを適応させて、１以上の適応オーディオダウンミックスチャネルＸｄｍｘＤＳＭを得るように構成されてもよい。一実施形態では、これは、例えば、式

を適用することによって実現される。

例えば、一実施形態では、特定のＳＡＯＣデコーダインスタンスがモノダウンミックス（例えば、ＳＡＯＣＬｏｗＤｅｌａｙプロファイル／Ｌｅｖｅｌ１）のみをサポートするものとする。この場合、ＤＳＭ１１０は、あらかじめ規定されたダウンミックス行列Ｄ_ｄｍｘ ^ＤＳＭを用いて、ステレオダウンミックスＸ_ｄｍｘ ^ＥＮＣを、モノラル信号Ｘ_ｄｍｘ ^ＤＳＭに変換する。この場合も、数１４の式が適用される。

一実施形態によると、パラメトリック副情報適応器１２０は、適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣを適応させて、適応パラメトリック副情報Ｄ_ｄｍｘ ^ＰＳＩを得るように構成されてもよい。一実施形態では、これは、例えば、式

を適用することによって実現される。

例えば、一実施形態によると、ＰＳＩＡ１２０は、対応するＰＳＩビットストリームを解析し、ダウンミックス行列Ｄ_ｄｍｘ ^ＥＮＣを記述する情報を抽出し、これらのデータを新たなダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを記述する更新情報によって置換する（数１５）。

したがって、一実施形態によると、入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣは、１以上のオーディオオブジェクトＳに適用することによって２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ｅｎｃが得られる初期ダウンミックス行列Ｄ_ｄｍｘ ^ｅｎｃを示してもよい。パラメトリック副情報適応器は、適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを１以上のオーディオオブジェクトＳに適用することによって、２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭが得られるように、適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを適応パラメトリック副情報として決定するように構成されてもよい。

一実施形態では、ＰＳＩＡが、新たな修正ビットストリームをフォーマットし、またはこれらのパラメータをデコーダに直接渡す。

ＰＳＩＡによって実行されるこの符号化および復号化処理は、異なるダウンミックス行列表示フォーマット（例えば、極座標系からデカルト座標系など）の変換を含むこともできる。

この記述されたＰＳＩＡの関数は、潜在的な互換性の問題を解決し、対応するビットストリームのサイズを減少させることができる。

図７は、一実施形態による、１以上のオーディオオブジェクトが符号化された入力オーディオ情報から１以上のオーディオチャネルを生成するオーディオチャネル生成装置７００を示す。

このオーディオチャネル生成装置７００は、入力オーディオ情報を適応させて適応オーディオ情報を得る上述の実施形態の１つによる装置７１０（以下、「入力オーディオ情報適応装置」という）を備える。入力オーディオ情報は、２以上の入力オーディオダウンミックスチャネルを含み、さらに、入力パラメトリック副情報を含む。適応オーディオ情報は、１以上の適応オーディオダウンミックスチャネルを含み、さらに、適応パラメトリック副情報を含む。

入力オーディオ情報適応装置７１０は、ダウンミックス信号修正器１１０およびパラメトリック副情報適応器１２０を備える。

さらに、オーディオチャネル生成装置７００は、適応パラメトリック副情報に応じて１以上の適応オーディオダウンミックスチャネルを復号して１以上のオーディオダウンミックスチャネルを得るデコーダインスタンス７２０を備える。

一実施形態によると、入力オーディオ情報適応装置７１０のパラメトリック副情報適応器１２０は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されてもよい。入力オーディオ情報適応装置７１０のパラメトリック副情報適応器１２０は、入力パラメトリック副情報を適応させて適応パラメトリック副情報を得て、適応パラメトリック副情報をデコーダインスタンス７２０に供給するように構成されてもよい。デコーダインスタンス７２０は、適応パラメトリック副情報に応じて、１以上の適応オーディオダウンミックスチャネルを復号するように構成されてもよい。

他の実施形態では、入力オーディオ情報適応装置７１０のパラメトリック副情報適応器１２０は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されてもよい。入力オーディオ情報適応装置７１０のパラメトリック副情報適応器１２０は、入力ビットストリーム内の入力パラメトリック副情報を適応パラメトリック副情報で置換して修正ビットストリームを得るように構成されてもよい。入力オーディオ情報適応装置７１０のパラメトリック副情報適応器１２０は、修正ビットストリームをデコーダインスタンス７２０に供給するように構成されてもよい。さらに、デコーダインスタンス７２０は、修正ビットストリームに応じて、１以上の適応オーディオダウンミックスチャネルを復号するように構成されてもよい。

図８および９に、入力オーディオ情報を復号処理チェーンに適応させるための装置を内蔵する２つの可能性を図示する。

具体的には、図８は、一実施形態による符号化／復号化手法における結合型ＰＳＩＡアプリケーションを示す。

図８は、１以上のオーディオオブジェクトを符号化する入力オーディオ情報から１以上のオーディオチャネルを生成するための複数のオーディオチャネル生成装置８００、８０１および８０２を示す。このオーディオチャネル生成装置８００は、入力オーディオ情報適応装置８１０、およびデコーダインスタンス８２０を備え、オーディオチャネル生成装置８０１は、入力オーディオ情報適応装置８１１、およびデコーダインスタンス８２１を備え、オーディオチャネル生成装置８０２は、入力オーディオ情報適応装置８１２、およびデコーダインスタンス８２２を備える。なお、例えば、入力オーディオ情報適応装置８１０およびデコーダインスタンス８２０を備えるオーディオチャネル生成装置８００は、単一のハードウェアユニットとして実現されてもよく、有線で接続され、または無線で接続される個別の２つのユニット８１０および８２０で実現されてもよい。

復号化のための計算の複雑さを軽減するために、入力オーディオ情報適応装置の結合型の（一体化された）実装を実現することができる（図８参照）。さらに、これによって、入力オーディオ情報適応装置とデコーダとの間の非量子化（非符号化）インターフェイスを実装することが可能となる。これは、特に、電力消費を低減するための移動体アプリケーションデバイスに対して適切なものとなり得る。

図９は、一実施形態による符号化／復号化手法における非結合型ＰＳＩＡアプリケーションを示す。

特に、図９は、１以上のオーディオオブジェクトを符号化する入力オーディオ情報から１以上のオーディオチャネルを生成するための複数のオーディオチャネル生成装置９００、９０１および９０２を示し、ここで、オーディオチャネル生成装置９００は、入力オーディオ情報適応装置９１０、およびデコーダインスタンス９２０を備え、オーディオチャネル生成装置９０１は、入力オーディオ情報適応装置９１１、およびデコーダインスタンス９２１を備え、オーディオチャネル生成装置９０２は、入力オーディオ情報適応装置９１２、およびデコーダインスタンス９２２を備える。なお、例えば、入力オーディオ情報適応装置９１０およびデコーダインスタンス９２０を備えるオーディオチャネル生成装置９００は、単一のハードウェアユニットとして実現されていなくてもよく、有線で接続され、または無線で接続される個別の２つのユニット９１０および９２０で実現されてもよい。

図９に示されるように、対応するデータビットストリームのサイズ／ビットレートを低減するために、入力オーディオ情報適応装置の非結合型の（分離された）実装を実現することができる。これは、特に、限られた蓄積および送信容量の移動体アプリケーションデバイスおよび狭いデータ遷移チャネルの多地点接続装置（ＭＣＵ）システムに対して適切なものとなり得る。

いくつかの形態を装置との関連で説明したが、それらの形態が対応の方法の説明も兼ねることは明らかであり、ブロックまたはデバイスは方法のステップまたは方法のステップの特徴に対応する。同様に、方法ステップに関連して説明した形態はまた、対応する装置の対応のブロック、内容または特徴の記載も兼ねる。

本発明の分解信号はデジタル記憶媒体に格納され、またはインターネットのような無線伝送媒体もしくは有線伝送媒体といった伝送媒体上で伝送されることができる。

特定の実施要件に応じて、発明の実施形態はハードウェアまたはソフトウェアで実施されることができる。その実施は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する（または協働することができる）電子的に可読な制御信号が格納されたデジタル記憶媒体、例えば、フレキシブルディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）もしくはフラッシュメモリを用いて実行することができる。

本発明によるいくつかの実施形態は、ここに記載された方法の１つが実行されるようなプログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを備える。

全体として、本発明の実施形態は、プログラムコードを持つコンピュータプログラム製品として実施でき、プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働したときに方法の１つを実行するように動作するものである。プログラムコードは、例えば、機械読取り可能なキャリア上に記憶されることができる。

他の実施形態では、ここに記載された方法の１つを実行するための、機械読取り可能なキャリアに記憶されたコンピュータプログラムを備える。

言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働するときに、ここに記載された方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法の更なる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムを、記録して備えるデータキャリア（すなわち、デジタル記憶媒体またはコンピュータ可読媒体）である。

さらなる実施形態は、ここに記載された方法の１つを実行するように構成または適応された、例えば、コンピュータまたはプログラマブルロジックデバイスなどの処理手段を含む。

さらなる実施形態は、ここに記載された方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

実施形態によっては、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ、ＦＰＧＡ）が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の１つを実行するために、フィールドプログラマブルゲートアレイはマイクロプロセッサと協働してもよい。それらの方法は、一般に、どのようなハードウェア装置によっても好適に実行される。

上述した実施形態は、本発明の原理を例示的に示しただけである。ここに記載された構成および詳細の変形例や修正例は、当業者には明白であろう。したがって、実施形態の記述および説明によってここに提示された具体的詳細によってではなく、直後に記載する特許請求の範囲によってのみ限定されることを意図するものである。

Claims

１以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、２以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、１以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る装置であって、
適応情報に基づき前記２以上の入力オーディオダウンミックスチャンネルを適応させて、前記１以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器（１１０）と、
前記適応情報に基づき前記入力パラメトリック副情報を適応させて、前記適応パラメトリック副情報を得るパラメトリック副情報適応器（１２０）と、
を備え、
前記適応情報は、適応行列Ｄ_ｄｍｘ ^ＤＳＭを含み、
前記ダウンミックス信号修正器（１１０）が、前記適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき前記２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＥＮＣを適応させて、前記１以上の適応オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭを得るように構成され、
前記パラメトリック副情報適応器（１２０）は、前記適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき前記入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣを適応させて、前記適応パラメトリック副情報Ｄ_ｄｍｘ ^ＰＳＩを得るように構成された、
装置。
請求項１１に記載の方法において、
前記入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣは、前記１以上のオーディオオブジェクトＳに適用することによって前記２以上の入力オーディオダウンミックスチャンネルＸ _ｄｍｘ ^ＥＮＣが得られる初期ダウンミックス行列Ｄ _ｄｍｘ ^ＥＮＣを示し、
前記パラメトリック副情報を適応するステップでは、適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを前記１以上のオーディオオブジェクトＳに適用することによって、前記２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭが得られるように、前記適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを前記適応パラメトリック副情報として決定する
方法。
請求項１または２に記載の装置において、前記ダウンミックス信号修正器（１１０）は、前記１以上の適応オーディオダウンミックスチャンネルの数が前記２以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、前記適応情報に基づき、前記２以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
請求項１から３のいずれか１項に記載の装置において、前記適応情報はデコーダインスタンスに依存し、前記ダウンミックス信号修正器（１１０）は、前記デコーダインスタンスに応じて前記２以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
請求項４に記載の装置において、
前記デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができ、
前記適応情報は、前記ダウンミックスチャンネルの最大数に依存し、
前記ダウンミックス信号修正器（１１０）が、前記１以上の適応オーディオダウンミックスチャンネルの数が前記ダウンミックスチャンネルの最大数に等しくなるように、前記適応情報に応じて前記２以上の入力オーディオダウンミックスチャンネルを適応させて、前記１以上の適応オーディオダウンミックスチャンネルを得るように構成された、装置。
請求項１から５のいずれか１項に記載の装置において、前記ダウンミックス信号修正器（１１０）は、

を適用することによって、前記適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき前記２以上のオーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＥＮＣを適応させて、１以上の適応オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭを得るように構成された、装置。
請求項１から６のいずれか１項に記載の装置において、前記パラメトリック副情報適応器（１２０）は、

を適用することによって、前記適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき前記入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣを適応させて、適応パラメトリック副情報Ｄ_ｄｍｘ ^ＰＳＩを得るように構成された、装置。
１以上のオーディオオブジェクトが符号化された入力オーディオ情報から１以上のオーディオチャネルを生成する装置（７００、８００、８０１、８０２、９００、９０１、９０２）であって、
前記入力オーディオ情報は、２以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、この入力オーディオ情報を適応させて、１以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る請求項１から６のいずれか１項に記載の装置（７１０、８１０、８１１、８１２、９１０、９１１、９１２）と、
前記適応パラメトリック副情報に基づき前記１以上の適応オーディオダウンミックスチャンネルを復号して前記１以上のオーディオチャンネルを得るデコーダインスタンス（７２０、８２０、８２１、８２２、９２０、９２１、９２２）と、
を備える装置。
請求項８に記載の装置（７００；８００、８０１、８０２）において、
請求項１から７のいずれか１項に記載の装置（７１０、８１０、８１１、８１２）の前記パラメトリック副情報適応器（１２０）は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
請求項１から７のいずれか１項に記載の装置（７１０、８１０、８１１、８１２）の前記パラメトリック副情報適応器（１２０）は、前記入力パラメトリック副情報を適応させて前記適応パラメトリック副情報を取得し、その適応パラメトリック副情報を前記デコーダインスタンス（７２０、８２０、８２１、８２２）に供給するように構成され、
前記デコーダインスタンス（７２０、８２０、８２１、８２２）は、前記適応パラメトリック副情報に基づき前記１以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
装置。
請求項８に記載の装置（７００；９００、９０１、９０２）において、
請求項１から７のいずれか１項に記載の装置（７１０、９１０、９１１、９１２）の前記パラメトリック副情報適応器（１２０）は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
請求項１から７のいずれか１項に記載の装置（７１０、９１０、９１１、９１２）の前記パラメトリック副情報適応器（１２０）は、前記入力ビットストリーム内の前記入力パラメトリック副情報を前記適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成され、
請求項１から７のいずれか１項に記載の装置（７１０、９１０、９１１、９１２）の前記パラメトリック副情報適応器（１２０）は、前記修正ビットストリームを前記デコーダインスタンス（７２０、９２０、９２１、９２２）に供給するように構成され、
前記デコーダインスタンス（７２０、９２０、９２１、９２２）が、前記修正ビットストリームに応じて前記１以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
装置。
１以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、２以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、１以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る方法であって、
適応情報に基づき前記２以上の入力オーディオダウンミックスチャンネルを適応させて、前記１以上の適応オーディオダウンミックスチャンネルを取得し、
前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を取得し、
前記適応情報は、適応行列Ｄ_ｄｍｘ ^ＤＳＭを含み、
前記２以上の入力オーディオダウンミックスチャンネルを適応させるステップでは、前記適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき前記２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＥＮＣを適応させて、前記１以上の適応オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭを取得し、
前記入力パラメトリック副情報を適応させるステップでは、前記適応行列Ｄ_ｄｍｘ ^ＤＳＭに基づき前記入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣを適応させて、前記適応パラメトリック副情報Ｄ_ｄｍｘ ^ＰＳＩを取得する
方法。
請求項１１に記載の方法において、
前記入力パラメトリック副情報Ｄ_ｄｍｘ ^ＥＮＣは、前記１以上のオーディオオブジェクトＳに適用することによって前記２以上の入力オーディオダウンミックスチャンネルＸ _ｄｍｘ ^ＥＮＣが得られる初期ダウンミックス行列Ｄ _ｄｍｘ ^ＥＮＣを示し、
前記入力パラメトリック副情報を適応させるステップでは、適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを前記１以上のオーディオオブジェクトＳに適用することによって、前記２以上の入力オーディオダウンミックスチャンネルＸ_ｄｍｘ ^ＤＳＭが得られるように、前記適応ダウンミックス行列Ｄ_ｄｍｘ ^ＰＳＩを前記適応パラメトリック副情報として決定する
方法。
コンピュータまたは信号プロセッサによって実行されるときに請求項１１または１２に記載の方法を実施するためのコンピュータプログラム。