JP2022511159A

JP2022511159A - 異なるフォーマットで捕捉されたオーディオ信号を、エンコードおよびデコード動作を簡単にするために、より少数のフォーマットに変換すること

Info

Publication number: JP2022511159A
Application number: JP2020547394A
Authority: JP
Inventors: ブルーン，ステファン; エッカート，マイケル; フェリックストレス，ジュアン; ブラウン，ステファニー; エス．マグラス，デイヴィッド
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2018-10-08
Filing date: 2019-10-07
Publication date: 2022-01-31
Anticipated expiration: 2039-10-07
Also published as: IL277363A; IL307415B1; SG11202007627RA; IL307415A; BR112020017360A2; CN111837181B; EP4362501A2; KR20210072736A; CA3091248A1; IL277363B2; US11410666B2; EP3864651A1; EP4362501A3; US20220375482A1; AU2019359191A1; AU2019359191B2; US12014745B2; MX2020009576A; JP7488188B2; EP3864651B1

Abstract

開示される実施形態は、さまざまな捕捉装置によってさまざまなフォーマットで捕捉されたオーディオ信号を、オーディオ・コーデック（たとえば没入的音声およびオーディオ・サービス（IVAS）コーデック）によって処理できる限られた数のフォーマットに変換することを可能にする。いくつかの実施形態では、オーディオ装置の単純化ユニットが、オーディオ装置に結合された一つまたは複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領する。単純化ユニットは、オーディオ信号が、オーディオ装置のエンコード・ユニットによってサポートされる／サポートされないフォーマットであるかどうかを判定する。判定に基づき、単純化ユニットは、そのオーディオ信号をエンコード・ユニットによってサポートされているフォーマットに変換する。ある実施形態では、単純化ユニットが、オーディオ信号が空間的フォーマットであると判定する場合、単純化ユニットは、オーディオ信号を、エンコードによってサポートされる空間的「メザニン」フォーマットに変換することができる。

Description

関連出願への相互参照
本願は、2018年10月8日に出願された米国仮特許出願第62/742,729号からの優先権の利益を主張する。同出願の内容は、ここに参照により、その全体において組み込まれる。

技術
本開示の実施形態は、概括的には、オーディオ信号処理に関し、より詳細には、捕捉されたオーディオ信号の配信に関する。

音声およびビデオのエンコーダ／デコーダ（「コーデック」）規格の開発は、最近、没入的音声およびオーディオ・サービス（Immersive Voice and Audio Services、IVAS）のためのコーデックの開発に焦点を当ててきている。IVASは、モノラルからステレオまでの動作、さらには完全に没入的なオーディオ・エンコード、デコード、レンダリングといった一連のサービス機能をサポートすることが期待されている。好適なIVASコーデックは、異なる伝送条件下でのパケット損失および遅延ジッタに対する高い誤り堅牢性をも提供する。IVASは、携帯電話およびスマートフォン、電子タブレット、パーソナルコンピュータ、会議電話、会議室、仮想現実および拡張現実装置、ホームシアター装置、およびその他の好適な装置を含むが、それらに限定されない、広範な装置、エンドポイント、およびネットワーク・ノードによってサポートされることが意図されている。これらの装置、エンドポイント、およびネットワーク・ノードは、音捕捉およびレンダリングのためのさまざまな音響インターフェースを有することができるため、IVASコーデックが、オーディオ信号が捕捉されレンダリングされるさまざまな方法すべてに対応することは実用的ではない可能性がある。

開示される実施形態は、さまざまな捕捉装置によってさまざまなフォーマットで捕捉されたオーディオ信号を、コーデック、たとえばIVASコーデックによって処理できる限られた数のフォーマットに変換することを可能にする。

いくつかの実施形態では、オーディオ装置に組み込まれた単純化ユニットが、オーディオ信号を受領する。そのオーディオ信号は、オーディオ装置と結合された一つまたは複数のオーディオ捕捉装置によって捕捉される信号でありうる。オーディオ信号は、たとえば、異なる場所にいる人々の間のビデオ会議のオーディオであってもよい。単純化ユニットは、オーディオ信号が、一般に「エンコーダ」と呼ばれるオーディオ装置のエンコード・ユニットによってサポートされていないフォーマットであるかどうかを判定する。たとえば、単純化ユニットは、オーディオ信号がモノであるか、ステレオであるか、または標準的なもしくは独自の空間的フォーマットであるかを判定することができる。オーディオ信号がエンコード・ユニットによってサポートされていないフォーマットであると判定することに基づき、単純化手段は、そのオーディオ信号をエンコード・ユニットによってサポートされているフォーマットに変換する。たとえば、単純化ユニットが、オーディオ信号が独自の空間的フォーマットであると判定する場合、単純化ユニットは、オーディオ信号を、エンコード・ユニットによってサポートされる空間的「メザニン（mezzanine）」フォーマットに変換することができる。単純化ユニットは、変換されたオーディオ信号をエンコード・ユニットに転送する。

開示された実施形態の利点は、潜在的に多数のオーディオ捕捉フォーマットを限定された数のフォーマット、たとえば、モノ、ステレオ、および空間的（spatial）に減らすことによって、コーデック、たとえばIVASコーデックの複雑性が軽減できることである。結果として、コーデックは、装置のオーディオ捕捉機能に関係なく、多様な装置に配備することができる。

これら、および他の側面、特徴、および実施形態は、方法、装置、システム、コンポーネント、プログラム製品、機能を実行するための手段またはステップ、および他の仕方で表現できる。

いくつかの実装では、オーディオ装置の単純化ユニットは、第1のフォーマットでオーディオ信号を受領する。第1のフォーマットは、オーディオ装置によってサポートされる複数のオーディオ・フォーマットの集合のうちの一つである。単純化ユニットは、第1のフォーマットがオーディオ装置のエンコーダによってサポートされているかどうかを判定する。第1のフォーマットがエンコーダによってサポートされていないことに基づき、単純化ユニットは、オーディオ信号を、エンコーダによってサポートされる第2のフォーマットに変換する。第2のフォーマットは、第1のフォーマットの代替表現である。単純化ユニットは、第2のフォーマットのオーディオ信号をエンコーダに転送する。エンコーダはオーディオ信号をエンコードする。オーディオ装置は、エンコードされたオーディオ信号を記憶するか、またはエンコードされたオーディオ信号を一つまたは複数の他の装置に送信する。

オーディオ信号を第2のフォーマットに変換することは、オーディオ信号についてのメタデータを生成することを含むことができる。メタデータは、オーディオ信号の一部の表現を含むことができる。オーディオ信号をエンコードすることは、第2のフォーマットのオーディオ信号を第2の装置によってサポートされるトランスポート・フォーマットにエンコードすることを含むことができる。オーディオ装置は、第2のフォーマットによってサポートされないオーディオ信号の一部の表現を含むメタデータを送信することによって、エンコードされたオーディオ信号を送信することができる。

いくつかの実装では、単純化ユニットによって、オーディオ信号が第1のフォーマットであるかどうかを判定することは、オーディオ捕捉装置の数と、オーディオ信号を捕捉するために使用された各捕捉装置の対応する位置とを判別することを含むことができる。前記一つまたは複数の他の装置のそれぞれは、第2のフォーマットからオーディオ信号を再生するように構成されることができる。前記一つまたは複数の他の装置の少なくとも一つは、第1のフォーマットからオーディオ信号を再生することができなくてもよい。

第2のフォーマットは、オーディオ信号をオーディオ・シーン内のいくつかのオーディオ・オブジェクトとして表現することができ、そのどちらも空間的情報を運ぶためにいくつかのオーディオ・チャネルに依拠している。第2のフォーマットは、空間的情報のさらなる部分を運ぶためのメタデータを含むことができる。第1のフォーマットと第2のフォーマットは、どちらも空間的オーディオ・フォーマットでありうる。第2のフォーマットは空間的オーディオ・フォーマット、第1のフォーマットはメタデータに関連付けられたモノ・フォーマット、またはメタデータに関連付けられたステレオ・フォーマットであってもよい。オーディオ装置によってサポートされる複数のオーディオ・フォーマットの集合は、複数の空間的オーディオ・フォーマットを含むことができる。第2のフォーマットは、第1のフォーマットの代替的な表現であってもよく、さらに、同等の程度の経験品質を可能にするという特徴がある。

いくつかの実装では、オーディオ装置のレンダリング・ユニットは、第1のフォーマットでオーディオ信号を受領する。レンダリング・ユニットは、オーディオ装置が第1のフォーマットのオーディオ信号を再生できるかどうかを判定する。オーディオ装置が第1のフォーマットのオーディオ信号を再生できないと判定することに応答して、レンダリング・ユニットは、オーディオ信号を、第2のフォーマットで利用可能となるよう適応させる。レンダリング・ユニットは、第2のフォーマットのオーディオ信号をレンダリングのために転送する。

いくつかの実装では、レンダリング・ユニットによって、前記オーディオ信号を第2のフォーマットに変換することは、第3のフォーマットの前記オーディオ信号と組み合わせて、エンコードのために使用された第4のフォーマットによってサポートされない前記オーディオ信号の一部の表現を含むメタデータを、使用することを含むことができる。ここで、第3のフォーマットは、エンコーダ側でサポートされる複数のオーディオ・フォーマットの集合のうちの一つである、単純化ユニットのコンテキストにおける用語「第1のフォーマット」に対応する。第4のフォーマットは、エンコーダによってサポートされるフォーマットであり、第3のフォーマットの代替的な表現である、単純化ユニットのコンテキストにおける用語「第2のフォーマット」に対応する。本明細書においてここでも他所でも、第1、第2、第3および第4の用語は、識別のために使用されており、必ずしも特定の順序を示すものではない。

デコード・ユニットは、トランスポート・フォーマットの前記オーディオ信号を受領する。デコード・ユニットは、トランスポート・フォーマットのオーディオ信号を第1のフォーマットにデコードし、第1のフォーマットのオーディオ信号をレンダリング・ユニットに転送する。いくつかの実装では、オーディオ信号を第2のフォーマットで利用可能となるよう適応させることは、第2のフォーマットでの受領したオーディオを生成するように、デコードを適応させることを含むことができる。いくつかの実装では、複数の装置のそれぞれは、第2のフォーマットのオーディオ信号を再生するように構成される。前記複数の装置のうち一つまたは複数は、第1のフォーマットのオーディオ信号を再生することができない。

いくつかの実装では、単純化ユニットは、音響前処理ユニットから、複数のフォーマットで諸オーディオ信号を受領する。単純化ユニットは、装置から装置の属性を受領する。装置の属性は、装置がサポートする一つまたは複数のオーディオ・フォーマットの指示を含む。前記一つまたは複数のオーディオ・フォーマットは、モノ・フォーマット、ステレオ・フォーマット、または空間的フォーマットのうちの少なくとも一つを含む。単純化ユニットは、オーディオ信号を、前記一つまたは複数のオーディオ・フォーマットの代替的な表現である摂取（ingest）フォーマットに変換する。単純化ユニットは、変換されたオーディオ信号を、下流の処理のためのエンコード・ユニットに提供する。音響前処理ユニット、単純化ユニット、およびエンコード・ユニットのそれぞれは、一つまたは複数のコンピュータ・プロセッサを含むことができる。

いくつかの実装では、エンコード・システムは、オーディオ信号を捕捉するように構成された捕捉ユニットと、オーディオ信号を前処理することを含む動作を実行するように構成された音響前処理ユニットと、エンコーダと、単純化ユニットとを含む。単純化ユニットは、以下の動作を実行するように構成される。単純化ユニットは、音響前処理ユニットから、第1のフォーマットのオーディオ信号を受領する。第1のフォーマットは、エンコーダがサポートする複数のオーディオ・フォーマットの集合のうちの一つである。単純化ユニットは、第1のフォーマットがエンコーダによってサポートされているかどうかを判定する。第1のフォーマットがエンコーダによってサポートされていないと判定することに応答して、単純化ユニットは、オーディオ信号を、エンコーダによってサポートされている第2のフォーマットに変換する。単純化ユニットは、第2のフォーマットのオーディオ信号をエンコーダに転送する。エンコーダは、オーディオ信号をエンコードすることと、エンコードされたオーディオ信号を記憶すること、またはエンコードされたオーディオ信号を別の装置に送信することのうちの少なくとも一つとを含む動作を実行するように構成される。

いくつかの実装では、オーディオ信号を第2のフォーマットに変換することは、オーディオ信号のメタデータを生成することを含む。メタデータは、第2のフォーマットによってサポートされていないオーディオ信号の一部の表現を含むことができる。エンコーダの動作は、第2のフォーマットによってサポートされないオーディオ信号の一部の表現を含むメタデータを送信することによって、エンコードされたオーディオ信号を送信することをさらに含むことができる。

いくつかの実装では、第2のフォーマットは、オーディオ信号を、オーディオ・シーンにおけるいくつかの（a number of）オブジェクトおよび空間的情報を運ぶためのいくつかの（a number of）チャネルとして表わす。いくつかの実装では、オーディオ信号の前処理は、ノイズ打ち消しを実行すること、エコー打ち消しを実行すること、オーディオ信号のチャネルの数を減少させること、オーディオ信号のオーディオ・チャネルの数を増加させること、または音響メタデータを生成することのうちの一つまたは複数を含むことができる。

いくつかの実装では、デコード・システムは、デコーダ、レンダリング・ユニット、および再生ユニットを含む。デコーダは、たとえばオーディオ信号をトランスポート・フォーマットから第1のフォーマットにデコードすることを含む動作を実行するように構成される。レンダリング・ユニットは、以下の動作を実行するように構成される。レンダリング・ユニットは、第1のフォーマットでオーディオ信号を受領する。レンダリング・ユニットは、オーディオ装置が第2のフォーマットのオーディオ信号を再生することができるかどうかを判定する。第2のフォーマットは、第1のフォーマットよりも多くの出力装置の使用を可能にする。オーディオ装置が第2のフォーマットでオーディオ信号を再生することができると判定することに応答して、レンダリング・ユニットは、オーディオ信号を第2のフォーマットに変換する。レンダリング・ユニットは、第2のフォーマットのオーディオ信号をレンダリングする。再生ユニットは、レンダリングされたオーディオ信号のスピーカー・システムでの再生を開始することを含む動作を実行するように構成される。

いくつかの実装では、オーディオ信号を第2のフォーマットに変換することは、第3のフォーマットのオーディオ信号と組み合わせて、エンコードのために使用された第4のフォーマットによってサポートされないオーディオ信号の一部の表現を含むメタデータを使用することを含むことができる。ここで、第3のフォーマットは、エンコーダ側でサポートされる複数のオーディオ・フォーマットの集合のうちの一つである、単純化ユニットのコンテキストにおける用語「第1のフォーマット」に対応する。第4のフォーマットは、エンコーダによってサポートされるフォーマットであり、第3のフォーマットの代替的な表現である、単純化ユニットのコンテキストにおける用語「第2のフォーマット」に対応する。

いくつかの実装では、デコーダの動作は、トランスポート・フォーマットの前記オーディオ信号を受領し、第1のフォーマットの前記オーディオ信号をレンダリング・ユニットに転送することをさらに含むことができる。

これらおよび他の側面、特徴、および実施形態は、特許請求の範囲を含む以下の記述から明白となるであろう。

図面では、記述の簡単のため、装置、ユニット、命令ブロックおよびデータ要素を表わすもののような、概略的な要素の特定の配置または順序が示される。しかしながら、当業者は、図面における概略的な要素の特定の順序付けまたは配置は、処理の特定の順序またはシーケンス、またはプロセスの分離が必要であることを含意することが意図されているのではないことを理解しておくべきである。さらに、図面にある概略的な要素を含めることは、そのような要素がすべての実施形態で必要とされること、または、そのような要素によって表わされる特徴が、いくつかの実施形態において他の要素に含められたり組み合わされたりしてはいけないことを含意することが意図されているのではない。

さらに、図面において、実線または破線または矢印のような接続要素が、2つ以上の他の概略的な要素の接続、関係、または関連を図示するために使用される場合、そのような接続要素がないことが、接続、関係、または関連が存在し得ないことを含意することが意図されているのではない。換言すれば、要素間のいくつかの接続、関係、または関連は、開示を不明瞭にしないように、図面に示されていない。さらに、図解の簡単のため、単一の接続要素が、要素間の複数の接続、関係または関連を表わすために使用される。たとえば、接続要素が信号、データ、または命令の通信を表わす場合、当業者は、そのような要素が、通信に影響を与えるために必要に応じて一つまたは複数の信号経路を表わすことを理解しておくべきである。
本開示のいくつかの実施形態による、IVASシステムによってサポートされることのできるさまざまな装置を示す。 Aは、本開示のいくつかの実施形態による、捕捉されたオーディオ信号をエンコードのための準備ができたフォーマットに変換するためのシステムのブロック図である。Bは、本開示のいくつかの実施形態による、捕捉されたオーディオを好適な再生フォーマットに変換し戻すためのシステムのブロック図である。本開示のいくつかの実施形態による、オーディオ信号をエンコード・ユニットによってサポートされるフォーマットに変換するための例示的アクションの流れ図である。本開示のいくつかの実施形態による、オーディオ信号がエンコード・ユニットによってサポートされるフォーマットにあるかどうかを判定するための例示的アクションの流れ図である。本開示のいくつかの実施形態による、オーディオ信号を利用可能な再生フォーマットに変換するための例示的アクションの流れ図である。本開示のいくつかの実施形態による、オーディオ信号を利用可能な再生フォーマットに変換するための例示的アクションの別の流れ図である。本開示のいくつかの実施形態による、図1～6を参照して記述される特徴を実装するためのハードウェア・アーキテクチャのブロック図である。

以下の記述では、説明の目的で、本開示の十全な理解を提供するために、多数の個別的な詳細が記載されている。しかしながら、本開示は、これらの個別的な詳細なしに実施されうることは明白であろう。

ここで、添付の図面に例が示されている実施形態を詳細に参照する。以下の詳細な説明では、さまざまな記載された実施形態の十全な理解を提供するために、多数の個別的な詳細が記載されている。しかしながら、当業者には、さまざまな記載された実施形態が、これらの個別的な詳細なしに実施されうることは明白であろう。他方では、周知の方法、手順、構成要素、および回路は、実施形態の諸側面を不必要に不明瞭にしないよう、詳細には説明されていない。以下、互いに独立して、または他の特徴の任意の組み合わせとともに、それぞれ使用できるいくつかの特徴が記述される。

本明細書中で使用されるところでは、用語「含む」およびその変形は、「…を含むが、それに限定されない」を意味するオープンエンドの用語として読まれるべきである。用語「または」は、文脈がそうでないことを明確に示すのでない限り、「および／または」として読まれるべきである。用語「…に基づく」は、「少なくとも部分的には…に基づく」として読まれるべきである。

図1は、IVASシステムによってサポートされることのできるさまざまな装置を示す。いくつかの実装では、これらの装置は、たとえばPSTN／他のPLMN装置104によって示される公衆交換電話ネットワーク（PSTN）または公衆地上移動体ネットワーク装置（PLMN）から、オーディオ信号を受領することができる呼サーバー102を通じて通信する。この装置は、オーディオ（発話）の圧縮および圧縮解除のためにG.711および／またはG.722標準を使用できる。装置104は、一般に、モノラル・オーディオのみを捕捉してレンダリングすることができる。IVASシステムは、レガシー・ユーザー装置106もサポートすることが可能にされる。それらのレガシー装置は、向上音声サービス（enhanced voice services、EVS）装置、適応マルチレート広帯域（adaptive multi-rate wideband、AMR-WB）発話‐オーディオ符号化規格支援装置（speech to audio coding standard supporting devices）、適応マルチレート狭帯域（adaptive multi-rate narrowband、AMR-NB）支援装置および他の好適な装置を含むことができる。これらの装置は通例、オーディオをモノラルのみでレンダリングし、捕捉する。

IVASシステムはまた、高度なオーディオ・フォーマットを含むさまざまなフォーマットでオーディオ信号を捕捉およびレンダリングするユーザー装置をサポートすることも可能にされる。たとえば、IVASシステムは、ステレオ捕捉およびレンダリング装置（たとえば、ユーザー装置108、ラップトップ114、および会議室システム118）、モノラル捕捉およびバイノーラル・レンダリング装置（たとえば、ユーザー装置110およびコンピュータ装置112）、没入的捕捉およびレンダリング装置（たとえば、会議室使用装置116）、ステレオ捕捉および没入的レンダリング装置（たとえば、ホームシアター120）、モノラル捕捉および没入的レンダリング（たとえば、仮想現実（VR）ギア122）、没入的コンテンツ摂取124、および他の好適な装置をサポートすることを可能にされる。これらすべてのフォーマットを直接サポートするためには、IVASシステムのためのコーデックは、非常に複雑で、組み込むのが高価になる必要がある。よって、エンコード段階に先立ってコーデックを単純化するためのシステムが望ましい。

以下の説明はIVASシステムおよびコーデックに焦点を当てているが、開示された実施形態は、オーディオ・コーデックの複雑さを軽減するために、または他の任意の所望の理由により、多数のオーディオ捕捉フォーマットをより少数に減らすことに利点がある任意のオーディオ・システムのための任意のコーデックに適用可能である。

図2のAは、本開示のいくつかの実施形態による、捕捉されたオーディオ信号を、エンコードのための準備ができたフォーマットに変換するためのシステム200のブロック図である。捕捉ユニット210は、一つまたは複数の捕捉装置、たとえばマイクロフォンからオーディオ信号を受領する。たとえば、捕捉ユニット210は、一つのマイクロフォン（たとえば、モノ信号）から、2つのマイクロフォン（たとえば、ステレオ信号）から、3つのマイクロフォンから、または別の数および構成のオーディオ捕捉装置から、オーディオ信号を受領することができる。捕捉ユニット210は、一または複数の第三者によるカスタマイズを含むことができ、カスタマイズは、使用される捕捉装置に特有でありうる。

いくつかの実装では、モノラル・オーディオ信号が、一つのマイクロフォンで捕捉される。モノ信号は、たとえば、図1に示される、PSTN/PLMN電話104、レガシー・ユーザー装置106、ハンズフリー・ヘッドセットを備えたユーザー装置110、接続されたヘッドセットを備えたコンピュータ装置112、および仮想現実ギア122によって捕捉されることができる。

いくつかの実装では、捕捉ユニット210は、さまざまな記録／マイクロフォン技法を用いて捕捉されたステレオ・オーディオを受領する。ステレオ・オーディオは、たとえば、ユーザー装置108、ラップトップ114、会議室システム118、およびホームシアター120によって捕捉されることができる。一例では、ステレオ・オーディオは、約90度以上の広がり角で配置された、同じ位置にある2つの方向性マイクロフォンで捕捉される。ステレオ効果は、チャネル間のレベル差に起因する。別の例では、ステレオ・オーディオは、2つの空間的に変位したマイクロフォンによって捕捉される。いくつかの実装では、空間的に変位したマイクロフォンは全方向性マイクロフォンである。この構成におけるステレオ効果は、チャネル間レベルおよびチャネル間時間差に起因する。マイクロフォン間の距離は、知覚されるステレオ幅にかなりの影響を及ぼす。さらに別の例では、オーディオは、17cmの変位と110度の広がり角をもつ2つの方向性マイクロフォンで捕捉される。このシステムは、しばしば、フランステレビジョン放送局（Office de Radiodiffusion Television Francaise、「ORTF」）ステレオ・マイクロフォン・システムと呼ばれる。さらに別のステレオ捕捉システムは、異なる特性をもつ2つのマイクロフォンを含み、一方のマイクロフォン信号がミッド信号であり、他方がサイド信号であるように配置される。この配置は、しばしばミッド‐サイド（M/S）記録と呼ばれる。M/Sからの信号のステレオ効果は、典型的にはチャネル間のレベル差に基づいて形成される。

いくつかの実装では、捕捉ユニット210は、複数マイクロフォン技法を用いて捕捉されたオーディオを受領する。これらの実装では、オーディオの捕捉は、3つ以上のマイクロフォンの配置に関わる。この配置は、一般に、空間的オーディオを捕捉するために必要とされ、また、周囲のノイズを抑制するためにも効果的でありうる。マイクロフォンの数が増えるにつれて、マイクロフォンによって捕捉できる空間的シーンの詳細の数も増える。場合によっては、マイクロフォンの数が増えると、捕捉されるシーンの精度も改善される。たとえば、ハンズフリー・モードで動作させられる図1のさまざまなユーザー装置（UE）は、複数のマイクロフォンを利用して、モノ、ステレオまたは空間的オーディオ信号を生成することができる。さらに、複数のマイクロフォンを備えたオープン・ラップトップ・コンピュータ114が、ステレオ捕捉を生成するために使用されることができる。一部のメーカーは、ステレオ捕捉を許容する2～4個の微小電気機械システム（「MEMS」）マイクロフォンを搭載したラップトップ・コンピュータをリリースしている。複数マイクロフォンの没入的なオーディオ捕捉は、たとえば、会議室ユーザー装置216に実装することができる。

捕捉されたオーディオは、一般に、声またはオーディオ・コーデックに摂取される前に、前処理段階を経る。よって、音響前処理ユニット220が、捕捉ユニット210からオーディオ信号を受領する。いくつかの実装では、音響前処理ユニット220は、ノイズおよびエコー打ち消し処理、チャネル・ダウンミックスおよびアップミックス（たとえば、オーディオ・チャネルの数を減少または増加させる）、および／または任意の種類の空間的処理を実行する。音響前処理ユニット220のオーディオ信号出力は、一般に、エンコードおよび他の装置への伝送に好適である。いくつかの実装では、音響前処理ユニット220の特定の設計は、具体的な装置を用いたオーディオ捕捉の詳細に依存するので、装置製造者によって実行される。しかしながら、適切な音響インターフェース仕様によって設定された要件は、これらの設計についての限界を設定し、ある種の品質要件が満たされることを保証することができる。音響前処理は、IVASコーデックがサポートする一つまたは複数の異なる種類のオーディオ信号またはオーディオ入力フォーマットを生成し、さまざまなIVASターゲット使用事例またはサービス・レベルを可能にする目的で実行される。これらの使用事例に関連する特定のIVASサービス要件に依存して、モノ、ステレオ、および空間的フォーマットをサポートするためにIVASコーデックが必要とされることがある。

一般に、モノ・フォーマットは、たとえば送信側装置の捕捉能力が制限されている場合など、たとえば捕捉装置のタイプに基づいて、それが利用可能な唯一のフォーマットである場合に使用される。ステレオ・オーディオ信号については、音響前処理ユニット220は、捕捉された信号を、特定の規約（たとえば、チャネルの順序付け左右規約）を満たす正規化された表現に変換する。M/Sステレオ捕捉については、このプロセスは、たとえば、信号が左右規約を使用して表現されるように、行列演算に関わることができる。前処理の後、ステレオ信号はある種の規約（たとえば、左右規約）を満たす。ただし、特定のステレオ捕捉装置についての情報（たとえばマイクロフォン数および構成）は除去される。

空間的フォーマットについては、音響前処理後に得られる空間的入力信号または特定の空間的オーディオ・フォーマットの種類は、送信装置のタイプおよびオーディオを捕捉するためのその能力に依存しうる。同時に、IVASサービス要件によって必要とされうる空間的オーディオ・フォーマットは、低分解能空間的、高分解能空間的、メタデータ支援空間的オーディオ（metadata-assisted spatial audio、MASA）・フォーマット、および高次アンビソニックス（Higher Order Ambisonics、「HOA」）トランスポート・フォーマット（HTF）、またはさらに別の空間的オーディオ・フォーマットを含む。このように、空間的オーディオ能力を有する送信装置の音響前処理ユニット220は、これらの要件を満たす適正なフォーマットでの空間的オーディオ信号を提供するように準備されなければならない。

低分解能空間的フォーマットは、空間的WXY、一次アンビソニックス（「FOA」）および他のフォーマットを含む。空間的WXYフォーマットは、高さ成分（Z）を省略した3チャネルの一次の平面Bフォーマット音声表現に関する。このフォーマットは、空間的分解能要件があまり高くなく、空間的高さ成分が重要でないと考えられる、ビットレート効率のよい没入的な電話および没入的な会議シナリオのために有用である。このフォーマットは、受信側クライアントが複数の参加者のいる会議室で捕捉された会議シーンの没入的レンダリングを実行できるようにするので、会議電話のために特に有用である。同様に、このフォーマットは、会議参加者を仮想会議室に空間的に配置する会議サーバーのために有用である。対照的に、FOAは第4成分信号として高さ成分（Z）を含む。FOA表現は、低レートのVRアプリケーションにとって意義がある。

高分解能空間的フォーマットは、チャネル、オブジェクト、およびシーン・ベースの空間的フォーマットを含む。関わっているオーディオ成分信号の数に依存して、これらのフォーマットのそれぞれは、空間的オーディオを実質的に無制限の分解能で表現することを許容する。しかしながら、さまざまな理由（たとえば、ビットレートの制限および複雑さの制限）により、実際上は、比較的少数の成分信号（たとえば、12個）に制限される。さらなる空間的フォーマットは、MASAまたはHTFフォーマットを含む、またはそれに依拠してもよい。

IVASをサポートする装置が上述の多数の多様なオーディオ入力フォーマットをサポートすることを要求することは、複雑さ、メモリ・フットプリント、実装試験、およびメンテナンスの点で実質的なコストを生じる可能性がある。しかしながら、すべての装置がすべてのオーディオ・フォーマットをサポートしているわけではなく、すべてのオーディオ・フォーマットをサポートすることの恩恵があるわけでもない。たとえば、ステレオのみをサポートするが、空間的捕捉をサポートしないIVAS対応の装置があるかもしれない。他の装置は、低分解能空間的入力のみをサポートすることがあり、さらに他のクラスの装置は、HOA捕捉のみをサポートすることがある。このように、種々の装置は、オーディオ・フォーマットのある種のサブセットを利用するだけであろう。よって、IVASコーデックがすべてのオーディオ・フォーマットの直接符号化をサポートしなければならないとしたら、IVASコーデックは不必要に複雑かつ高価になる。

この問題を解決するために、図2Aのシステム200は、単純化ユニット230を含む。音響前処理ユニット220は、オーディオ信号を単純化ユニット130に転送する。いくつかの実装では、音響前処理ユニット220は、オーディオ信号とともに単純化ユニット230に転送される音響メタデータを生成する。音響メタデータは、オーディオ信号に関連するデータ（たとえば、モノ、ステレオ、空間的などのフォーマット・メタデータ）を含むことができる。また、音響メタデータは、ノイズ打ち消しデータおよび他の好適なデータ、たとえば捕捉ユニット210の物理的または幾何学的特性に関連するデータを含んでいてもよい。

単純化ユニット230は、装置によってサポートされるさまざまな入力フォーマットを、縮小された共通集合のコーデック摂取フォーマットに変換する。たとえば、IVASコーデックは、3つの摂取フォーマット（モノ、ステレオ、および空間的）をサポートすることができる。モノおよびステレオ・フォーマットは、音響前処理ユニットによって生成されるそれぞれのフォーマットと同様または同一であるが、空間的フォーマットは「メザニン」フォーマットであってもよい。メザニン・フォーマットは、音響前処理ユニット220から得られる、上述した任意の空間的オーディオ信号を正確に表わすことができるフォーマットである。これは、任意のチャネル、オブジェクト、およびシーン・ベースのフォーマット（またはそれらの組み合わせ）で表わされる空間的オーディオを含む。いくつかの実装では、メザニン・フォーマットは、オーディオ信号を、オーディオ・シーン内のいくつかのオブジェクトおよびそのオーディオ・シーンについての空間的情報を運ぶためのいくつかのチャネルとして、表現することができる。さらに、メザニン・フォーマットは、MASA、HTFまたは他の空間的オーディオ・フォーマットを表わすことができる。一つの好適な空間的メザニン・フォーマットは、空間的オーディオをm個のオブジェクトおよびn次HOA（「mObj+HOAn」）として表現することができる。ここで、mおよびnはゼロを含む小さな整数である。

図3のプロセス300は、オーディオ・データを第1のフォーマットから第2のフォーマットに変換するための例示的なアクションを示す。302では、単純化ユニット230は、たとえば音響前処理ユニット220からオーディオ信号を受領する。上述のように、音響前処理ユニット220から受領されたオーディオ信号は、ノイズおよびエコー打ち消し処理が実行され、チャネル・ダウンミックスおよびアップミックス処理が実行されて、たとえばオーディオ・チャネルの数を減少または増加させた信号であることができる。いくつかの実装では、単純化ユニット230は、オーディオ信号とともに音響メタデータを受領する。音響メタデータは、フォーマット指示、および上述のような他の情報を含むことができる。

304では、単純化ユニット230は、オーディオ信号がオーディオ装置のエンコード・ユニット240によってサポートされる第1のフォーマットであるかサポートされない第1のフォーマットであるかを判定する。たとえば、オーディオ・フォーマット検出ユニット232は、図2のAに示されるように、音響前処理ユニット220から受領されたオーディオ信号を分析し、オーディオ信号のフォーマットを識別することができる。オーディオ・フォーマット検出ユニット232が、オーディオ信号がモノ・フォーマットまたはステレオ・フォーマットであると判定した場合、単純化ユニット230は、信号をエンコード・ユニット240に渡す。しかしながら、オーディオ・フォーマット検出ユニット232が、信号が空間的フォーマットであると判定した場合、オーディオ・フォーマット検出ユニット232は、オーディオ信号を変換ユニット234に渡す。いくつかの実装では、オーディオ・フォーマット検出ユニット232は、音響メタデータを使用して、オーディオ信号のフォーマットを決定することができる。

いくつかの実装では、単純化ユニット230は、オーディオ信号を捕捉するために使用されるオーディオ捕捉装置（たとえば、マイクロフォン）の数、構成または位置を決定することによって、オーディオ信号が第1のフォーマットであるかどうかを判定する。たとえば、オーディオ・フォーマット検出ユニット232が、オーディオ信号が単一の捕捉装置（たとえば、単一のマイクロフォン）によって捕捉されたと判断した場合、オーディオ・フォーマット検出ユニット232は、それがモノラル信号であると判断することができる。オーディオ・フォーマット検出ユニット232が、オーディオ信号が、互いから特定の角度にある2つの捕捉装置によって捕捉されたと判断した場合、オーディオ・フォーマット検出ユニット232は、信号がステレオ信号であると判断することができる。

図4は、本開示のいくつかの実施形態による、オーディオ信号がエンコード・ユニットによってサポートされるフォーマットにあるかどうかを判定するための例示的アクションの流れ図である。402では、単純化ユニット230がオーディオ信号にアクセスする。たとえば、オーディオ・フォーマット検出ユニット232は、オーディオ信号を入力として受領することができる。404では、単純化ユニット230は、オーディオ信号を捕捉するために使用されたオーディオ装置の音響捕捉構成、たとえば、マイクロフォンの数およびその位置構成を決定する。たとえば、オーディオ・フォーマット検出ユニット232は、オーディオ信号を分析し、3つのマイクロフォンが空間内の異なる位置に配置されていたことを判別することができる。いくつかの実装では、オーディオ・フォーマット検出ユニット232は、音響メタデータを使用して、音響捕捉構成を決定することができる。すなわち、音響前処理ユニット220は、各捕捉装置の位置および捕捉装置の数を示す音響メタデータを生成することができる。メタデータはまた、音源の方向や指向性など、検出されたオーディオ特性の記述を含んでいてもよい。406では、単純化ユニット230は、前記音響捕捉構成を一つまたは複数の記憶されている音響捕捉構成と比較する。たとえば、記憶されている音響捕捉構成は、特定の構成（たとえば、モノ、ステレオ、または空間的）を識別するために、各マイクロフォンの数および位置を含むことができる。単純化ユニット230は、それらの音響捕捉構成のそれぞれを、オーディオ信号の音響捕捉構成と比較する。

408では、単純化ユニット230は、音響捕捉構成が空間的フォーマットに関連付けられている記憶された音響捕捉構成と一致するかどうかを判定する。たとえば、単純化ユニット230は、オーディオ信号を捕捉するために使用されたマイクロフォンの数と、空間内のそれらの位置とを決定することができる。単純化ユニット230は、そのデータを、空間的フォーマットについての記憶されている既知の構成と比較することができる。単純化ユニット230が、空間的フォーマットとの一致がないと判断した場合、そのことは、そのオーディオ・フォーマットがモノまたはステレオであることの指標でありえ、プロセス400は412に進み、単純化ユニット230は、オーディオ信号をエンコード・ユニット240に転送する。しかしながら、単純化ユニット230がオーディオ・フォーマットを空間的フォーマットの集合に属するものとして識別する場合は、プロセス400は410に進み、単純化ユニット230はオーディオ信号をメザニン・フォーマットに変換する。

図3を再び参照すると、306において、単純化ユニット230は、オーディオ信号がエンコード・ユニットによってサポートされないフォーマットであると判断することに従い、オーディオ信号をエンコード・ユニットによってサポートされる第2のフォーマットに変換する。たとえば、変換ユニット234は、オーディオ信号をメザニン・フォーマットに変換することができる。メザニン・フォーマットは、任意のチャネル、オブジェクト、およびシーン・ベースのフォーマット（またはそれらの組み合わせ）でもともと表現された空間的オーディオ信号を正確に表現する。さらに、メザニン・フォーマットは、MASA、HTFまたは他の好適なフォーマットを表わすことができる。たとえば、空間的メザニン・フォーマットのはたらきをすることができるフォーマットは、オーディオをm個のオブジェクトおよびn次HOA（"mObj+HOAn"）として表現することができる。ここで、mおよびnはゼロを含む小さな整数である。よって、メザニン・フォーマットは、前記オーディオを、オーディオ信号の明示的な特性を捕捉することができる、波形（信号）およびメタデータで表現することに関わってもよい。

いくつかの実装では、変換ユニット234は、オーディオ信号を第2のフォーマットに変換する際に、オーディオ信号についてのメタデータを生成する。メタデータは、第2のフォーマットのオーディオ信号の一部、たとえば、一つまたは複数のオブジェクトの位置を含むオブジェクト・メタデータに関連付けられてもよい。別の例は、オーディオが、独自の一組の捕捉装置を用いて捕捉され、装置の数および構成が、エンコード・ユニットおよび／またはメザニン・フォーマットによってサポートされないか、または効率的に表現されない場合である。そのような場合、変換ユニット234はメタデータを生成することができる。メタデータは、変換メタデータまたは音響メタデータの少なくとも一方を含むことができる。変換メタデータは、エンコード・プロセスおよび／またはメザニン・フォーマットによってサポートされない前記フォーマットの一部に関連付けられたメタデータ・サブセットを含むことができる。たとえば、変換メタデータは、オーディオ信号が独自の構成によって捕捉されたオーディオを特に出力するように構成されたシステム上で再生されるとき、捕捉（たとえば、マイクロフォン）構成のための装置設定および／または出力装置（たとえば、スピーカー）構成のための装置設定を含むことができる。音響前処理ユニット220および／または変換ユニット234のいずれかから発されるメタデータはまた、音響メタデータを含んでもよく、音響メタデータは、捕捉された音声が到着する空間方向、音の指向性または拡散性などのある種のオーディオ信号特性を記述する。この例では、オーディオが、追加的なメタデータをもつモノ信号またはステレオ信号として表現されているが、空間的フォーマットにおいて空間的であるいうと判定がある場合がある。この場合、モノまたはステレオ信号およびメタデータはエンコーダ240に伝搬される。

308においては、単純化ユニット230は、第2のフォーマットのオーディオ信号をエンコード・ユニットに転送する。図2のAに示されるように、オーディオ・フォーマット検出ユニット232が、オーディオがモノラルまたはステレオ・フォーマットであると判定した場合、オーディオ・フォーマット検出ユニット232は、オーディオ信号をエンコード・ユニットに転送する。しかしながら、オーディオ・フォーマット検出ユニット232が、オーディオ信号が空間的フォーマットであると判断した場合、オーディオ・フォーマット検出ユニット232は、オーディオ信号を変換ユニット234に転送する。変換ユニット234は、空間的オーディオをたとえばメザニン・フォーマットに変換した後、オーディオ信号をエンコード・ユニット240に転送する。いくつかの実装では、変換ユニット234は、オーディオ信号に加えて、変換メタデータおよび音響メタデータをエンコード・ユニット240に転送する。

エンコード・ユニット240は、第2のフォーマット（たとえば、メザニン・フォーマット）でオーディオ信号を受領し、第2のフォーマットにあるオーディオ信号をトランスポート・フォーマットにエンコードする。エンコード・ユニット240は、エンコードされたオーディオ信号を、それを第2の装置に送信する何らかの送信エンティティに伝搬させる。いくつかの実装では、エンコード・ユニット240またはその後のエンティティは、エンコードされたオーディオ信号を、後の伝送のために記憶する。エンコード・ユニット240は、オーディオ信号をモノ、ステレオまたはメザニン・フォーマットで受領し、それらの信号をオーディオ・トランスポートのためにエンコードすることができる。オーディオ信号がメザニン・フォーマットであり、エンコード・ユニットが変換メタデータおよび／または音響メタデータを単純化ユニット230から受領する場合、エンコード・ユニットは変換メタデータおよび／または音響メタデータを第2の装置に転送する。いくつかの実装では、エンコード・ユニット240は、変換メタデータおよび／または音響メタデータを、第2の装置が受信およびデコードできる特定の信号にエンコードする。次いで、エンコード・ユニットは、エンコードされたオーディオ信号を、一つまたは複数の他の装置に搬送されるオーディオ・トランスポートに出力する。このように、（たとえば、図1の諸装置のうちの）各装置は、第2のフォーマット（たとえば、メザニン・フォーマット）のオーディオ信号をエンコードすることができるが、それらの装置は一般に、第1のフォーマットのオーディオ信号をエンコードすることはできない。

ある実施形態では、エンコード・ユニット240（たとえば、前述のIVASコーデック）は、単純化ステージによって提供されるモノ、ステレオ、または空間的オーディオ信号に対して作用する。エンコードは、ネゴシエーションされたIVASサービス・レベル、送信側および受信側の装置能力、および利用可能なビットレートのうちの一つまたは複数に基づくことができる、コーデック・モード選択に依存して行なわれる。

サービス・レベルは、たとえば、IVASステレオ電話、IVAS没入的会議、IVASユーザー生成されるVRストリーミング、または他の好適なサービス・レベルを含むことができる。あるオーディオ・フォーマット（モノラル、ステレオ、空間的）は、IVASコーデック動作の好適なモードが選択されている特定のIVASサービス・レベルに割り当てられることができる。

さらに、IVASコーデックの動作モードは、送受信側の装置能力に応答して選択できる。たとえば、送信装置の能力に依存して、エンコード・ユニット240は、たとえばエンコード・ユニット240がモノ信号またはステレオ信号のみを提供されているため、空間的摂取信号にアクセスすることができないことがある。加えて、エンドツーエンド能力交換または対応するコーデック・モード要求が、受信端がある種のレンダリング制限を有し、空間的オーディオ信号をエンコードおよび送信する必要がないこと、またはその逆を示すことができる。別の例では、別の装置が空間的オーディオを要求することができる。

いくつかの実装では、エンドツーエンド能力交換では、リモート装置能力を完全に解決する（resolve）ことはできない。たとえば、エンコード・ポイントは、デコード・ユニット（デコーダと呼ばれることもある）が単一のモノラル・スピーカー、ステレオ・スピーカーに対するものであるかどうか、またはそれがバイノーラルにレンダリングされるかどうかに関する情報を有しないことがある。実際のレンダリング・シナリオは、サービス・セッション中に変わることがある。たとえば、接続されている再生装置が変わる場合、レンダリング・シナリオが変わる可能性がある。ある例では、IVASエンコード・セッション中にシンク装置が接続されないため、エンドツーエンド能力交換が行なわれない場合がある。これは、ボイスメール・サービスについて、または（ユーザー生成の）仮想現実コンテンツ・ストリーミング・サービスにおいて生起することがある。受信装置の能力が不明であるか、またはあいまいさのために解決（resolved）できない別の例は、複数のエンドポイントをサポートする必要がある単一のエンコーダである。たとえば、IVAS会議または仮想現実コンテンツ配布では、あるエンドポイントがヘッドセットを使用し、別のエンドポイントがステレオ・スピーカーにレンダリングすることがある。

この問題に対処する一つの方法は、可能な最低の受信装置能力を想定し、対応するIVASコーデック動作モードを選択することであり、かかる動作モードはある種の場合にはモノラルであってもよい。この問題に対処するもう一つの方法は、たとえエンコーダが空間的オーディオまたはステレオ・オーディオをサポートするモードで動作していたとしても、IVASデコーダが、それぞれの、より低いオーディオ能力を有する装置でレンダリングできるデコードされたオーディオ信号を導出することを要求することである。すなわち、空間的オーディオ信号としてエンコードされた信号は、ステレオ・レンダリングおよびモノ・レンダリングの両方でもデコード可能であるべきである。同様に、ステレオとしてエンコードされた信号は、モノ・レンダリングのためにデコード可能であるべきである。

たとえば、IVAS会議では、呼サーバーは単一のエンコードを実行し、複数のエンドポイントに同じエンコードを送信する必要があるだけであるべきである。複数のエンドポイントのいくつかはバイノーラルであってもよく、いくつかはステレオであってもよい。このように、単一の2チャネル・エンコードが、たとえば、ステレオ・スピーカーを備えたラップトップ114および会議室システム118上のレンダリングと、ユーザー装置110および仮想現実ギア122上のバイノーラル呈示による没入的レンダリングの両方をサポートすることができる。よって、単一のエンコードが、両方の帰結を同時にサポートすることができる。結果として、一つの含意は、この2チャネル・エンコードは、単一のエンコードで、ステレオ・スピーカー再生と、バイノーラル・レンダリングされた再生の両方をサポートするということである。

別の例は、高品質のモノ抽出に関わる。このシステムは、エンコードされた空間的またはステレオ・オーディオ信号からの、高品質のモノ信号の抽出をサポートすることができる。いくつかの実装では、たとえば標準EVSデコーダを使用して、モノ・デコードのための向上音声サービス（「EVS」）コーデック・ビットストリームを抽出することが可能である。

サービス・レベルおよび装置能力に対して代替的または追加的に、利用可能なビットレートは、コーデック・モード選択を制御することができるもう一つのパラメータである。いくつかの実装では、ビットレートは、受信端で提供されることのできる経験の品質およびオーディオ信号の関連する成分数とともに増加する必要がある。最低端のビットレートでは、モノラル・オーディオ・レンダリングのみが可能である。EVSコーデックは、下は5.9キロビット／秒までのモノラル動作を提供する。ビットレートが増加するにつれて、より高い品質のサービスを達成することができる。しかしながら、エンコード品質（Quality of Encoding、「QoE」）は、モノのみの動作およびレンダリングのために制限されたままである。QoEの次の、より高いレベルは、（従来の）2チャネル・ステレオで可能である。しかしながら、このシステムは、送信されるべき2つのオーディオ信号成分があるので、有用な品質を提供するためには、最低のモノ・ビットレートよりも高いビットレートを必要とする。空間的なサウンド経験は、ステレオよりも高いQoEを必要とする。ビットレート範囲の下端では、この経験は、「空間的ステレオ（Spatial Stereo）」と呼ばれうる空間的信号のバイノーラル表現で可能にされることができる。空間的ステレオは、空間的オーディオ信号摂取の、エンコーダ（たとえばエンコード・ユニット240）への（適切な頭部伝達関数（HRTF）を用いた）エンコーダ側バイノーラル・プリレンダリングに頼り、2つのオーディオ成分信号のみで構成されるため、最もコンパクトな空間的表現である可能性が高い。空間ステレオはより多くの知覚情報を搬送するので、十分な品質を達成するために必要とされるビットレートは、従来のステレオ信号のための必要なビットレートよりも高い可能性が高い。しかしながら、空間的ステレオ表現は、受信端でのレンダリングのカスタマイズとの関係で制限を有することがある。これらの制限は、ヘッドフォン・レンダリング、あらかじめ選択されたセットのHRTFの使用、または頭部追跡なしでのレンダリングへの制約を含むことができる。より高いビットレートでの一層高いQoEは、エンコーダにおけるバイノーラル・プリレンダリングに頼らず、むしろ摂取された空間的メザニン・フォーマットを表わす空間的フォーマットでオーディオ信号をエンコードするためのコーデック・モードによって可能にされる。ビットレートに依存して、そのフォーマットの表現されるオーディオ成分信号の数を調整することができる。たとえば、これは、上述のように、空間WXYから高分解能空間的オーディオ・フォーマットまでの範囲にわたる多少強力な空間表現を生じうる。これは、利用可能なビットレートに依存して低から高の空間的分解能を可能にし、頭部追跡のあるバイノーラルを含む、広い範囲のレンダリング・シナリオに対処する柔軟性を提供する。このモードは、「多用途空間的（Versatile Spatial）」モードと称される。

いくつかの実装では、IVASコーデックは、EVSコーデックのビットレート、すなわち、5.9ないし128キロビット／秒の範囲で動作する。帯域幅が制約された環境で伝送を行なう低レート・ステレオ動作では、下は13.2kbpsまでのビットレートが要求されることがある。この要件は、特定のIVASコーデックを使用する技術的実現可能性に左右される可能性があり、可能性としては、それでいて魅力的なIVASサービス動作を可能にする可能性がある。帯域幅が制約された環境で伝送を行なう低レートの空間的ステレオ動作については、空間的レンダリングおよび同時ステレオ・レンダリングを可能にする最低のビットレートは、下は24.4キロビット／秒まで可能である。多用途空間モードでの動作については、低空間分解能（空間的WXY、FOA）は、おそらく24.4キロビット／秒まで可能であるが、このレートでは、オーディオ品質は、空間的ステレオ動作モードと同様に達成できる。

ここで図2Bを参照すると、受信装置は、エンコードされたオーディオ信号を含むオーディオ・トランスポート・ストリームを受領する。受信装置のデコード・ユニット250は、エンコードされたオーディオ信号を受領し（たとえば、エンコーダによってエンコードされたトランスポート・フォーマットで）、それをデコードする。いくつかの実装では、デコード・ユニット250は、モノ、（従来の）ステレオ、空間的ステレオ、または多用途空間的の4つのモードのうちの一つでエンコードされたオーディオ信号を受領する。デコード・ユニット250は、オーディオ信号をレンダリング・ユニット260に転送する。レンダリング・ユニット260は、デコード・ユニット250からオーディオ信号を受領して、オーディオ信号をレンダリングする。一般に、単純化ユニット230に取り込まれた当初の第1の空間的オーディオ・フォーマットを復元する必要がないことを注意しておく。これは、IVASデコーダ実装のデコーダ複雑性および／またはメモリ・フットプリントの大幅な節約を可能にする。

図5は、本開示のいくつかの実施形態による、オーディオ信号を利用可能な再生フォーマットに変換するための例示的アクションの流れ図である。502において、レンダリング・ユニット260が、第1のフォーマットのオーディオ信号を受領する。たとえば、レンダリング・ユニット260は、モノ、従来のステレオ、空間的ステレオ、多用途空間的というフォーマットでオーディオ信号を受領することができる。いくつかの実装では、モード選択ユニット262がオーディオ信号を受領する。モード選択ユニット262は、オーディオ信号のフォーマットを識別する。モード選択ユニット262が、オーディオ信号のフォーマットが再生構成によってサポートされていると判断した場合、モード選択ユニット262は、レンダラー264にオーディオ信号を転送する。しかしながら、モード選択ユニットが、オーディオ信号がサポートされていないと判断した場合は、モード選択ユニットはさらなる処理を実行する。いくつかの実装では、モード選択ユニット262は、異なる復号化ユニットを選択する。

504において、レンダリング・ユニット260が、前記オーディオ装置が、再生構成によってサポートされる第2のフォーマットで前記オーディオ信号を再生することができるかどうかを判定する。たとえば、レンダリング・ユニット260は、（たとえば、スピーカーおよび／または他の出力装置の数およびそれらの構成および／またはデコードされたオーディオに関連するメタデータに基づいて）オーディオ信号が空間的ステレオ・フォーマットにあるが、オーディオ装置は受領したオーディオをモノでのみ再生できることを判別することができる。いくつかの実装では、システム内のすべての装置（たとえば、図1に示されるような）が第1のフォーマットでオーディオ信号を再生することができるわけではないが、すべての装置が第2のフォーマットで前記オーディオ信号を再生することができる。

506において、レンダリング・ユニット260は、出力装置が第2のフォーマットで前記オーディオ信号を再生できると判断することに基づいて、第2のフォーマットで信号を生成するよう、オーディオ・デコードを適応させる。代替として、レンダリング・ユニット260（たとえば、モード選択ユニット262またはレンダラー264）は、メタデータ、たとえば音響メタデータ、変換メタデータ、または音響メタデータと変換メタデータの組み合わせを使用して、オーディオ信号を第2のフォーマットに適応させることができる。508において、レンダリング・ユニット260は、オーディオ信号を、サポートされている第1のフォーマットまたはサポートされている第2のフォーマットのいずれかで、オーディオ出力のために（たとえば、スピーカー・システムとインターフェースするドライバに）転送する。

いくつかの実装では、レンダリング・ユニット260は、第1のフォーマットのオーディオ信号と組み合わせて、第2のフォーマットによってサポートされないオーディオ信号の一部の表現を含むメタデータを使用することによって、オーディオ信号を第2のフォーマットに変換する。たとえば、オーディオ信号がモノ・フォーマットで受領され、メタデータが空間的フォーマット情報を含む場合、レンダリング・ユニットは、メタデータを使用して、モノ・フォーマットのオーディオ信号を空間的フォーマットに変換することができる。

図6は、本開示のいくつかの実施形態による、オーディオ信号を利用可能な再生フォーマットに変換するための例示的アクションの別のブロック図である。602において、レンダリング・ユニット260は、第1のフォーマットのオーディオ信号を受領する。たとえば、レンダリング・ユニット260は、モノラル、従来のステレオ、空間的ステレオ、または多用途空間的フォーマットでオーディオ信号を受領することができる。いくつかの実装では、モード選択ユニット262は、オーディオ信号を受領する。604において、レンダリング・ユニット260は、オーディオ装置のオーディオ出力能力（たとえば、オーディオ再生能力）を取得する。たとえば、レンダリング・ユニット260は、スピーカーの位置、それらの位置構成、および／または再生のために利用可能な他の再生装置の構成を取得することができる。いくつかの実装では、モード選択ユニット262が取得動作を実行する。

606において、レンダリング・ユニット260が、第1のフォーマットのオーディオ特性をオーディオ装置の出力能力と比較する。たとえば、モード選択ユニット262は、オーディオ信号が空間的ステレオ・フォーマットであり（たとえば、音響メタデータ、変換メタデータ、または音響メタデータと変換メタデータの組み合わせに基づく）、オーディオ装置は、前記オーディオ信号を、ステレオ・スピーカー・システム上で従来のステレオ・フォーマットで再生できるだけであることを（たとえば、スピーカーおよび他の出力装置構成に基づいて）判別することができる。レンダリング・ユニット260は、第1のフォーマットのオーディオ特性をオーディオ装置の出力能力と比較することができる。608において、レンダリング・ユニット260は、オーディオ装置の出力能力が第1のフォーマットのオーディオ出力特性にマッチするかどうかを判定する。オーディオ装置の出力能力が第1のフォーマットのオーディオ特性と一致しない場合、プロセス600は610に進み、レンダリング・ユニット260（たとえば、モード選択ユニット262）が、オーディオ信号を第2のフォーマットにして得るためのアクションを実行する。たとえば、レンダリング・ユニット260は、第2のフォーマットでの受領されたオーディオをデコードするようにデコード・ユニット250を適応させてもよく、あるいは、レンダリング・ユニットは、音響メタデータ、変換メタデータ、または音響メタデータと変換メタデータの組み合わせを使用して、空間的ステレオ・フォーマットから、サポートされている第2のフォーマットに、オーディオを変換することができ、第2のフォーマットは、与えられた例では従来のステレオである。オーディオ装置の出力能力が第1のフォーマットのオーディオ出力特性にマッチする場合、または変換動作610の後、プロセス600は612に進み、レンダリング・ユニット260（たとえば、レンダラー264を使用）は、今やサポートされることが保証されているオーディオ信号を、出力装置に転送する。

図7は、本開示の例示的な実施形態を実施するのに好適な例示的なシステム700のブロック図を示す。図示のように、システム700は、たとえば、読み出し専用メモリ（ROM）702に記憶されたプログラム、または、たとえば、記憶ユニット708からランダムアクセスメモリ（RAM）703にロードされたプログラムに従って、さまざまなプロセスを実行することができる中央処理ユニット（CPU）701を含む。RAM 703には、CPU 701がさまざまなプロセスを実行する際に必要とされるデータも必要に応じて記憶される。CPU 701、ROM 702およびRAM 703は、バス704を介して互いに接続される。入出力インターフェース（I/O）705もバス704に接続される。

以下のコンポーネントが、I/Oインターフェース705に接続される：キーボード、マウスなどを含みうる入力ユニット706；液晶ディスプレイ（LCD）および一つまたは複数のスピーカーなどのディスプレイを含みうる出力ユニット707；ハードディスクまたは別の好適な記憶装置を含む記憶ユニット708；ネットワーク・カード（たとえば、有線または無線）などのネットワーク・インターフェース・カードを含む通信ユニット709。

いくつかの実装では、入力ユニット706は、さまざまなフォーマット（たとえば、モノ、ステレオ、空間的、没入的、および他の好適なフォーマット）でオーディオ信号の捕捉を可能にする、異なる位置（ホスト装置に依存する）に一つまたは複数のマイクロフォンを含む。

いくつかの実装では、出力ユニット707は、さまざまな数のスピーカーを有するシステムを含む。図1に示されるように、出力ユニット707（ホスト装置の能力に依存して）は、さまざまなフォーマット（たとえば、モノ、ステレオ、没入的、バイノーラル、および他の好適なフォーマット）でオーディオ信号をレンダリングすることができる。

通信ユニット709は、他の装置と（たとえば、ネットワークを介して）通信するように構成される。必要に応じて、ドライブ710もI/Oインターフェース705に接続される。磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブ、または他の好適な取り外し可能媒体のような取り外し可能媒体711がドライブ710上に取り付けられ、必要に応じて、そこから読み出されたコンピュータ・プログラムが記憶ユニット708にインストールされる。当業者は、システム700は、上述のコンポーネントを含むものとして説明されているが、実際の適用においては、これらのコンポーネントのいくつかを追加、除去、および／または置換することが可能であり、これらの修正または変更はすべて、本開示の範囲内にあることを理解するであろう。

本開示の例示的実施形態によれば、上述のプロセスは、コンピュータ・ソフトウェア・プログラムとして、またはコンピュータ読み取り可能な記憶媒体上で実装されうる。たとえば、本開示の実施形態は、機械読み取り可能媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、コンピュータ・プログラムは、方法を実行するためのプログラム・コードを含む。そのような実施形態では、コンピュータ・プログラムは、通信ユニット709を介してネットワークからダウンロードされ、マウントされ、および／または取り外し可能媒体711からインストールされてもよい。

一般に、本開示のさまざまな例示的実施形態は、ハードウェアまたは特殊目的回路（たとえば、制御回路）、ソフトウェア、論理、またはそれらの任意の組み合わせで実装されうる。たとえば、単純化ユニット230および上述の他のユニットは、制御回路（たとえば、図7の他のコンポーネントと組み合わされたCPU）によって実行することができ、よって、制御回路は、本開示に記載されるアクションを実行してもよい。いくつかの側面はハードウェアで実装されてもよく、他の側面はコントローラ、マイクロプロセッサ、または他のコンピューティング装置（たとえば、制御回路）によって実行されうるファームウェアまたはソフトウェアで実装されてもよい。本開示の例示的実施形態のさまざまな側面が、ブロック図、フローチャートとして、または何らかの他の絵的な表現を用いて図示され、説明されているが、本明細書に記載のブロック、装置、システム、技術、または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェア、またはコントローラ、または他のコンピューティング装置、またはそれらのいくつかの組み合わせにおいて実装されてもよいことが理解されるであろう。

さらに、フローチャートに示されたさまざまなブロックは、方法ステップとして、および／またはコンピュータ・プログラム・コードの動作から生じる動作として、および／または関連する機能を実行するように構築された複数の結合された論理回路素子として見なすことができる。たとえば、本開示の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム製品を含み、コンピュータ・プログラムは、上記の方法を実行するように構成されたプログラム・コードを含む。

本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによってまたは命令実行システム、装置、またはデバイスとの関連で使用するためのプログラムを含む、または記憶することができる任意の有体な媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、非一時的であってもよく、電子、磁気、光学、電磁、赤外線、もしくは半導体システム、装置、もしくはデバイス、またはこれらの任意の好適な組み合わせを含みうるが、これらに限定されない。機械読み取り可能記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラマブル読み出し専用メモリ（EPROMまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（CD-ROM）、光記憶デバイス、磁気記憶デバイス、またはこれらの任意の適切な組み合わせを含む。

本開示の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、専用コンピュータ、または制御回路を有する他のプログラマブル・データ処理装置のプロセッサに提供されてもよく、プログラム・コードは、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図に指定された機能／動作を実装させる。プログラム・コードは、完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で、部分的にはリモート・コンピュータ上で、または完全にリモート・コンピュータまたはサーバー上で、または一つまたは複数のリモート・コンピュータおよび／またはサーバー上で分散されて、実行されうる。

Claims

オーディオ装置の単純化ユニットによって、第1のフォーマットのオーディオ信号を受領する段階であって、前記第1のフォーマットは、前記オーディオ装置によってサポートされる複数のオーディオ・フォーマットの集合のうちの一つである、段階と；
前記単純化ユニットによって、前記第1のフォーマットが前記オーディオ装置のエンコーダによってサポートされているかどうかを判定する段階と；
前記第1のフォーマットが前記エンコーダによってサポートされていないことに基づき、前記単純化ユニットによって、前記オーディオ信号を、前記エンコーダによってサポートされる第2のフォーマットに変換する段階であって、前記第2のフォーマットは、前記第1のフォーマットの代替表現である、段階と；
前記単純化ユニットによって、前記第2のフォーマットの前記オーディオ信号を前記エンコーダに転送する段階と；
前記エンコーダによって、前記オーディオ信号をエンコードする段階と；
エンコードされたオーディオ信号を記憶するか、またはエンコードされたオーディオ信号を一つまたは複数の他の装置に送信する段階とを含む、
方法。
前記オーディオ信号を第2のフォーマットに変換することは、前記オーディオ信号についてのメタデータを生成することを含み、前記メタデータは、前記オーディオ信号の一部の表現を含む、請求項１に記載の方法。
前記オーディオ信号をエンコードすることが、前記第2のフォーマットの前記オーディオ信号を第2の装置によってサポートされるトランスポート・フォーマットにエンコードすることを含む、請求項１に記載の方法。
前記オーディオ信号の、前記第2のフォーマットによってサポートされない部分の表現を含む前記メタデータを送信することによって、前記エンコードされたオーディオ信号を送信することをさらに含む、請求項３に載の方法。
前記単純化ユニットによって、前記オーディオ信号が前記第1のフォーマットであるかどうかを判定することが、オーディオ捕捉装置の数と、前記オーディオ信号を捕捉するために使用された各捕捉装置の対応する位置とを判別することを含む、請求項１に記載の方法。
前記一つまたは複数の他の装置のそれぞれは、前記第2のフォーマットから前記オーディオ信号を再生するように構成されており、前記一つまたは複数の他の装置の少なくとも一つは、前記第1のフォーマットから前記オーディオ信号を再生することはできない、請求項１に記載の方法。
前記第2のフォーマットは、前記オーディオ信号をオーディオ・シーン内のいくつかのオーディオ・オブジェクトとして表現し、そのどちらも、空間的情報を運ぶためにいくつかのオーディオ・チャネルに頼る、請求項１に記載の方法。
前記第2のフォーマットは、空間的情報のさらなる部分を運ぶためのメタデータをさらに含む、請求項１に記載の方法。
前記第1のフォーマットと前記第2のフォーマットが、どちらも空間的オーディオ・フォーマットである、請求項１に記載の方法。
前記第2のフォーマットは空間的オーディオ・フォーマットであり、前記第1のフォーマットはメタデータに関連付けられたモノ・フォーマット、またはメタデータに関連付けられたステレオ・フォーマットである、請求項１に記載の方法。
前記オーディオ装置によってサポートされる複数のオーディオ・フォーマットの前記集合は、複数の空間的オーディオ・フォーマットを含む、請求項１ないし１０のうちいずれか一項に記載の方法。
前記第2のフォーマットは、前記第1のフォーマットの代替的な表現であり、同等の程度の経験品質を可能にすることをさらに特徴とする、請求項１ないし１１のうちいずれか一項に記載の方法。
オーディオ装置のレンダリング・ユニットによって、第1のフォーマットのオーディオ信号を受領する段階と；
前記レンダリング・ユニットによって、前記オーディオ装置が前記第1のフォーマットの前記オーディオ信号を再生できるかどうかを判定する段階と；
前記オーディオ装置が前記第1のフォーマットの前記オーディオ信号を再生できないと判定することに応答して、前記レンダリング・ユニットによって、前記オーディオ信号を、第2のフォーマットで利用可能となるよう適応させる段階と；
前記レンダリング・ユニットによって、前記第2のフォーマットの前記オーディオ信号をレンダリングのために転送する段階とを含む、
方法。
前記レンダリング・ユニットによって、前記オーディオ信号を第2のフォーマットに変換することは、前記オーディオ信号の、エンコードのために使用された第4のフォーマットによってはサポートされない部分の表現を含むメタデータを、第3のフォーマットの前記オーディオ信号と組み合わせて使用することを含む、請求項１３に記載の方法。
デコード・ユニットによって、トランスポート・フォーマットの前記オーディオ信号を受領する段階と；
前記トランスポート・フォーマットの前記オーディオ信号を前記第1のフォーマットにデコードする段階と；
前記第1のフォーマットの前記オーディオ信号を前記レンダリング・ユニットに転送する段階とをさらに含む、
請求項１３に記載の方法。
前記オーディオ信号を、前記第2のフォーマットで利用可能となるよう適応させることは、前記第2のフォーマットでの前記受領したオーディオを生成するように、デコードを適応させることを含む、請求項１５に記載の方法。
複数の装置のそれぞれが前記第2のフォーマットの前記オーディオ信号を再生するように構成され、前記複数の装置のうち一つまたは複数は、前記第1のフォーマットの前記オーディオ信号を再生することができない、請求項１３に記載の方法。
単純化ユニットによって、音響前処理ユニットから、複数のフォーマットで諸オーディオ信号を受領する段階と；
前記単純化ユニットによって、装置から、該装置の属性を受領する段階であって、前記属性は、前記装置によってサポートされる一つまたは複数のオーディオ・フォーマットの指示を含み、前記一つまたは複数のオーディオ・フォーマットは、モノ・フォーマット、ステレオ・フォーマット、または空間的フォーマットのうちの少なくとも一つを含む、段階と；
前記単純化ユニットによって、前記諸オーディオ信号を、前記一つまたは複数のオーディオ・フォーマットの代替的な表現である摂取フォーマットに変換する段階と；
前記単純化ユニットによって、変換されたオーディオ信号を、下流の処理のためにエンコード・ユニットに提供する段階とを含む方法であって、
前記音響前処理ユニット、前記単純化ユニット、および前記エンコード・ユニットのそれぞれは、一つまたは複数のコンピュータ・プロセッサを有する、
方法。
一つまたは複数のコンピュータ・プロセッサと；
前記一つまたは複数のコンピュータ・プロセッサによって実行されたときに前記一つまたは複数のコンピュータ・プロセッサに請求項１ないし１８のうちいずれか一項に記載の自動さを実行させる命令を記憶している一つまたは複数の非一時的な記憶媒体とを有する、
装置。
オーディオ信号を捕捉するように構成された捕捉ユニットと；
前記オーディオ信号を前処理することを含む動作を実行するように構成された音響前処理ユニットと；
エンコーダと；
単純化ユニットとを有するエンコード・システムであって、
前記単純化ユニットは：
前記音響前処理ユニットから、第1のフォーマットのオーディオ信号を受領する段階であって、前記第1のフォーマットは、前記エンコーダによってサポートされる複数のオーディオ・フォーマットの集合のうちの一つである、段階と；
前記第1のフォーマットが前記エンコーダによってサポートされているかどうかを判定する段階と；
前記第1のフォーマットが前記エンコーダによってサポートされていないと判定することに応答して、前記オーディオ信号を、前記エンコーダによってサポートされている第2のフォーマットに変換する段階と；
前記第2のフォーマットの前記オーディオ信号を前記エンコーダに転送する段階とを含む動作を実行するよう構成されており、
前記エンコーダは：
前記オーディオ信号をエンコードし；
エンコードされたオーディオ信号を記憶する、またはエンコードされたオーディオ信号を別の装置に送信することを含む動作を実行するように構成されている、
エンコード・システム。
前記オーディオ信号を第2のフォーマットに変換することは、前記オーディオ信号のためのメタデータを生成することを含み、前記メタデータは、前記オーディオ信号の、前記第2のフォーマットによってサポートされない部分の表現を含む、請求項２０に記載のエンコード・システム。
前記エンコーダの動作は、前記オーディオ信号の、前記第2のフォーマットによってサポートされない部分の表現を含む前記メタデータを送信することによって、エンコードされたオーディオ信号を送信することをさらに含む、請求項２０に記載のエンコード・システム。
前記第2のフォーマットは、前記オーディオ信号オーディオを、オーディオ・シーンにおけるいくつかのオブジェクトおよび空間的情報を運ぶためのいくつかのチャネルとして表わす、請求項２０に記載のエンコード・システム。
前記オーディオ信号を前処理することは：
ノイズ打ち消しを実行すること；
エコー打ち消しを実行すること；
前記オーディオ信号のチャネルの数を減少させること；
前記オーディオ信号のオーディオ・チャネルの数を増加させること；または
音響メタデータを生成することのうちの一つまたは複数を含む、
請求項２０に記載のエンコード・システム。
デコード・システムであって：
オーディオ信号をトランスポート・フォーマットから第1のフォーマットにデコードすることを含む動作を実行するように構成されたデコーダと；
レンダリング・ユニットであって、
前記第1のフォーマットの前記オーディオ信号を受領する段階と；
オーディオ装置が第2のフォーマットの前記オーディオ信号を再生することができるかどうかを判定する段階であって、前記第2のフォーマットは、前記第1のフォーマットよりも多くの出力装置の使用を可能にする、段階と；
前記オーディオ装置が前記第2のフォーマットで前記オーディオ信号を再生することができると判定することに応答して、前記オーディオ信号を前記第2のフォーマットに変換する段階と；
前記第2のフォーマットの前記オーディオ信号をレンダリングする段階とを含む動作を実行するよう構成されたレンダリング・ユニットと；
レンダリングされたオーディオ信号のスピーカー・システムでの再生を開始することを含む動作を実行するよう構成された再生ユニットとを有する、
デコード・システム。
前記オーディオ信号を第2のフォーマットに変換することは、前記オーディオ信号の、エンコードのために使用された第4のフォーマットによってはサポートされない部分の表現を含むメタデータを、第3のフォーマットの前記オーディオ信号と組み合わせて使用することを含む、請求項２５に記載のデコード・システム。
前記デコーダの動作がさらに：
トランスポート・フォーマットの前記オーディオ信号を受領し；
前記第1のフォーマットの前記オーディオ信号を前記レンダリング・ユニットに転送することを含む、
請求項２５に記載のデコード・システム。