JP6330034B2

JP6330034B2 - 適応的なオーディオ・コンテンツの生成

Info

Publication number: JP6330034B2
Application number: JP2016521520A
Authority: JP
Inventors: ワン，ジュン; ルー，リエ; フー，ミンチン; ジェロエンブリーバート，ディアーク; エール．トウィンゴ，ニコラ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-06-18
Filing date: 2014-06-17
Publication date: 2018-05-23
Anticipated expiration: 2034-06-17
Also published as: HK1220803A1; WO2014204997A1; US9756445B2; EP3716654A1; EP3011762B1; CN104240711A; CN104240711B; US20160150343A1; EP3011762A1; JP2016526828A

Description

関連出願への相互参照
本願は2013年6月18日に出願された中国特許出願第201310246711.2号および2013年7月8日に出願された米国仮特許出願第61/843,643号の優先権の利益を主張するものである。両出願の内容はここに参照によってその全体において組み込まれる。

技術
本発明は概括的にはオーディオ信号処理に、より具体的には、適応的なオーディオ・コンテンツの生成に関する。

現在のところ、オーディオ・コンテンツは一般に、チャネル・ベースのフォーマットで生成され、記憶されている。たとえば、ステレオ、サラウンド5.1および7,1がオーディオ・コンテンツのためのチャネル・ベースのフォーマットである。マルチメディア業界における発達とともに、三次元（3D）映画、テレビジョン・コンテンツおよび他のデジタル・マルチメディア・コンテンツがますます一般的になってきている。しかしながら、伝統的なチャネル・ベースのオーディオ・フォーマットはしばしば、そのような進展に追随すべく没入的で迫真的なオーディオ・コンテンツを生成することができない。よって、マルチチャネル・オーディオ・システムを拡張してより没入的な音場を生成することが望まれる。この目的を達成するための重要なアプローチの一つは、適応的なオーディオ・コンテンツである。

通常のチャネル・ベースのフォーマットに比べ、適応的なオーディオ・コンテンツはオーディオ・チャネルおよびオーディオ・オブジェクトの両方の利点を活用する。本稿で使われるところの用語「オーディオ・オブジェクト」は、ある定義された継続時間にわたって存在するさまざまなオーディオ要素または音源をいう。オーディオ・オブジェクトは動的または静的でありうる。オーディオ・オブジェクトは人間、動物または音場における音源のはたらきをする他の任意のオブジェクトでありうる。任意的に、オーディオ・オブジェクトは、オブジェクトの位置、速度およびサイズを記述する情報のような関連するメタデータを有していてもよい。オーディオ・オブジェクトの使用は、サウンドミキサーのようなオペレーターが便利な仕方でオーディオ・オブジェクトを制御および調整することを許容しつつ、適応的なオーディオ・コンテンツが高い没入感および良好な音響効果をもつことを可能にする。さらに、オーディオ・オブジェクトにより、特定の再生スピーカー構成に関わりなく、離散的な音要素が正確に制御されることができる。一方、適応的なオーディオ・コンテンツはさらに、「オーディオ・ベッド」と呼ばれるチャネル・ベースの部分および／または他の任意のオーディオ要素を含んでいてもよい。本稿での用法では、用語「オーディオ・ベッド」または「ベッド」は、あらかじめ定義された、固定位置において再生されることが意図されているオーディオ・チャネルをいう。オーディオ・ベッドは、静的なオーディオ・オブジェクトと考えられてもよく、関連するメタデータも有していてもよい。このようにして、適応的なオーディオ・コンテンツは、たとえば複雑なオーディオ・テクスチャーを表現するために、チャネル・ベースのフォーマットを活用してもよい。

適応的なオーディオ・コンテンツは、チャネル・ベースのオーディオ・コンテンツとは全く異なる仕方で生成される。適応的なオーディオ・コンテンツを得るためには、オーディオ信号を生成および処理するためにいちばん最初から専用の処理フローが用いられる必要がある。しかしながら、物理的な装置および／または技術的な条件の点での制約のため、すべてのオーディオ・コンテンツ・プロバイダーがそのような適応的なオーディオ・コンテンツを生成できるのではない。多くのオーディオ・コンテンツ・プロバイダーは、チャネル・ベースのオーディオ・コンテンツを生成し、提供できるのみである。さらに、すでに生成され、公開されているチャネル・ベースのオーディオ・コンテンツについて三次元（3D）経験を作り出すことが望ましい。しかしながら、大量のチャネル・ベースの通常のオーディオ・コンテンツを変換することによって適応的なオーディオ・コンテンツを生成することができる解決策はない。

上記に鑑み、当技術分野では、チャネル・ベースのオーディオ・コンテンツを適応的なオーディオ・コンテンツに変換するための解決策が必要とされている。

上記および他の潜在的な問題に対処するために、本発明は、適応的なオーディオ・コンテンツを生成するための方法およびシステムを提案する。

ある側面では、本発明の実施形態は、適応的なオーディオ・コンテンツを生成する方法を提供する。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と；少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成する段階とを含む。これに関する実施形態はさらに、対応するコンピュータ・プログラム・プロダクトを有する。

もう一つの側面では、本発明の実施形態は、適応的なオーディオ・コンテンツを生成するシステムを提供する。本システムは、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と；少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する。

以下の記述を通じて、本発明の実施形態によれば、高い忠実度を保証しつつ、通常のチャネル・ベースのオーディオ・コンテンツが効果的に適応的なオーディオ・コンテンツに変換されうることが理解されるであろう。特に、鮮鋭で動的な音を表現するために、一つまたは複数のオーディオ・オブジェクトが源オーディオ・コンテンツから正確に抽出されることができ、それにより個々の一次音源オブジェクトの制御、編集、再生および／または再オーサリングが許容される。一方、複雑なオーディオ・テクスチャーは、効率的なオーサリングおよび頒布をサポートするようチャネル・ベースのフォーマットであってもよい。本発明の実施形態によって達成される他の利点は、以下の記述を通じて明白となるであろう。

付属の図面を参照して以下の詳細な説明を読むことを通じて、本発明の実施形態の上記および他の目的、特徴および利点がより把握しやすくなる。図面においては、本発明のいくつかの実施形態が例において、限定しない仕方で示される。
本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツの図である。本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法のフローチャートである。本発明の別の例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法のフローチャートである。本発明のある例示的実施形態に基づくオーディオ・ベッドの生成の図である。ＡおよびＢは、本発明の例示的実施形態に基づく、重なり合ったオーディオ・オブジェクトの図である。本発明のある例示的実施形態に基づくメタデータ編集の図である。本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成するシステムのフローチャートである。本発明の実施形態を実装するのに好適な例示的なコンピュータ・システムのブロック図である。諸図面を通じて、同じまたは対応する参照符号は同じまたは対応する部分を示す。

本発明の原理および精神についてここで図面に示されるさまざまな例示的実施形態を参照して述べる。これらの実施形態の描画は、当業者が本発明をよりよく理解し、さらに実装することを可能にするためだけのものであって、いかなる仕方であれ本発明の範囲を限定することは意図されていないことは理解しておくべきである。

まず図１を参照する。図１では、本発明のある実施形態に基づく適応的なオーディオ・コンテンツの図が示されている。本発明の実施形態によれば、処理されるべき源オーディオ・コンテンツ１０１は、ステレオ、サラウンド5.1、サラウンド7.1などといったチャネル・ベースのフォーマットである。具体的には、本発明の実施形態によれば、源オーディオ・コンテンツ１０１は、任意の型の最終ミックス、あるいは伝統的なステレオまたはマルチチャネル・コンテンツの最終ミックスに組み合わされる前に別個に処理されることのできるオーディオ・トラックの諸グループであってもよい。源オーディオ・コンテンツ１０１は処理されて二つの部分、すなわちチャネル・ベースのオーディオ・ベッド１０２およびオーディオ・オブジェクト１０３、１０４を生成する。オーディオ・ベッド１０２は諸チャネルを使って、効率的なオーサリングおよび頒布のために音場における背景または周囲音のような比較的複雑なオーディオ・テクスチャーを表現してもよい。オーディオ・オブジェクトは、鮮鋭なおよび／または動的な音のための源のような音場における一次音源であってもよい。図１に示した例では、オーディオ・オブジェクトは鳥１０３およびカエル１０４を含む。適応的なオーディオ・コンテンツ１０５は、オーディオ・ベッド１０２およびオーディオ・オブジェクト１０３、１０４に基づいて生成されうる。

本発明の実施形態によれば、適応的なオーディオ・コンテンツは必ずしもオーディオ・オブジェクトおよびオーディオ・ベッドから構成されるのではないことを注意しておくべきである。むしろ、いくつかの適応的なオーディオ・コンテンツは、オーディオ・オブジェクトおよびオーディオ・ベッドのうちの一方のみを含むことがありうる。あるいはまた、適応的なオーディオ・コンテンツは、オーディオ・オブジェクトおよび／またはベッド以外の任意の好適なフォーマットの追加的なオーディオ要素を含んでいてもよい。たとえば、いくつかの適応的なオーディオ・コンテンツは、オーディオ・ベッドおよびいくつかのオブジェクト様コンテンツ、たとえばスペクトルにおける部分オブジェクト（a partial object in spectral）から構成されていてもよい。本発明の範囲はこの点に関して限定されない。

図２を参照するに、本発明の例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法２００のフローチャートが示されている。方法２００の開始後、ステップS201において、少なくとも一つのオーディオ・オブジェクトがチャネル・ベースのオーディオ・コンテンツから抽出される。議論のために、入力のチャネル・ベースのオーディオ・コンテンツは「源オーディオ・コンテンツ」と称される。本発明の実施形態によれば、源オーディオ・コンテンツのオーディオ信号を直接処理することによってオーディオ・オブジェクトを抽出することが可能である。あるいはまた、たとえば源オーディオ・コンテンツの空間的忠実度をよりよく保存するために、信号分解のような前処理が、源オーディオ・コンテンツの信号に対して実行されてもよく、前処理されたオーディオ信号からオーディオ・オブジェクトが抽出されうる。これに関する実施形態を下記で詳述する。

本発明の実施形態によれば、オーディオ・オブジェクトを抽出するために任意の適切なアプローチが使用されうる。一般に、オーディオ・コンテンツにおける同じオブジェクトに属する信号成分が、スペクトル連続性および空間的一貫性に基づいて判別されうる。諸実装では、源オーディオ・コンテンツを処理することによって一つまたは複数の信号特徴または手がかりが得られ、それにより源オーディオ・コンテンツのサブバンド、チャネルまたはフレームが同じオーディオ・オブジェクトに属するかどうかを測ってもよい。そのようなオーディオ信号特徴の例は、音方向／位置、拡散性、直接音対残響比（DRR: direct-to-reverberation ratio）、オン／オフセット同期、調波性（harmonicity）、ピッチおよびピッチ揺動、顕著性（saliency）／部分ラウドネス／エネルギー、反復性などを含みうるがこれに限られなくてもよい。他の任意の適切なオーディオ信号特徴が、本発明の実施形態との関連で使用されうる。本発明の範囲はこれに関して限定されない。オーディオ・オブジェクト抽出の具体的な実施形態は下記で詳述する。

ステップS201において抽出されたオーディオ・オブジェクトはいかなる好適な形であってもよい。たとえば、いくつかの実施形態では、オーディオ・オブジェクトは、同様のオーディオ信号特徴をもつ信号成分を含むマルチチャネル音トラックとして生成されうる。あるいはまた、オーディオ・オブジェクトは、ダウンミックスされたモノ音トラックとして生成されてもよい。これらは単にいくつかの例であり、抽出されるオーディオ・オブジェクトはいかなる適切な形で表現されてもよいことを注意しておく。本発明の範囲はこれに関して限定されない。

方法２００は、次いでステップS202に進む。ここで、少なくとも部分的にはステップS201において抽出された前記少なくとも一つのオーディオ・オブジェクトに基づいて、適応オーディオ・コンテンツが生成される。いくつかの実施形態によれば、オーディオ・オブジェクトおよび可能性としては他のオーディオ要素は、結果として得られる適応オーディオ・コンテンツとしての単一ファイルにパッケージングされてもよい。そのような追加的なオーディオ要素は、チャネル・ベースのオーディオ・ベッドおよび／または他の任意のフォーマットのオーディオ・コンテンツを含むがそれに限られなくてもよい。あるいはまた、オーディオ・オブジェクトおよび追加的なオーディオ要素は別個に頒布されて、次いで再生システムによって組み合わされて再生スピーカー構成に基づくオーディオ・コンテンツを適応的に再構成してもよい。

具体的には、いくつかの実施形態によれば、適応的なオーディオ・コンテンツを生成する際、オーディオ・オブジェクトおよび／または他のオーディオ要素（もしあれば）に対して再オーサリング・プロセスを実行することが可能である。再オーサリング・プロセスはたとえば、重なり合ったオーディオ・オブジェクトを分離すること、オーディオ・オブジェクトを操作すること、オーディオ・オブジェクトの属性を修正すること、適応的なオーディオ・コンテンツの利得を制御することなどを含みうる。これに関する実施形態は下記で詳述する。

方法２００は、この特定の例ではステップS202の後に終了する。方法２００を実行することにより、チャネル・ベースのオーディオ・コンテンツは、鮮鋭かつ動的な音がオーディオ・オブジェクトによって表現されうる一方、背景音のような複雑なオーディオ・テクスチャーは他のフォーマットによって表現されうる、たとえばオーディオ・ベッドとして表現されうる適応的なオーディオ・コンテンツに変換されうる。生成された適応的なオーディオ・コンテンツは、効率的に頒布され、さまざまな種類の再生システム構成によって高い忠実度をもって再生されうる。このようにして、オブジェクト・ベースのフォーマットおよびチャネル・ベースのフォーマットのような他のフォーマットを活用することが可能である。

ここで図３を参照する。図３は、本発明のある例示的実施形態に基づく、適応的なオーディオ・コンテンツを生成する方法３００のフローチャートを示している。方法３００は、図２を参照して上記した方法２００の具体的な実施形態であると考えられてもよいことは理解されるはずである。

方法３００の開始後、ステップS301において、チャネル・ベースの源オーディオ・コンテンツに対して、指向性オーディオ信号および拡散性オーディオ信号の分解が実行され、源オーディオ・コンテンツが指向性オーディオ信号および拡散性オーディオ信号に分解される。信号分解により、オーディオ・オブジェクトのその後の抽出およびオーディオ・ベッドの生成はより正確かつ効果的となりうる。特に、結果として得られる指向性オーディオ信号はオーディオ・オブジェクトを抽出するために使用されてもよく、一方、拡散性のオーディオ信号はオーディオ・ベッドを生成するために使用されてもよい。このようにして、源オーディオ・コンテンツの、より高い忠実度を保証しつつ、良好な没入感が達成できる。さらに、これは柔軟なオブジェクト抽出および正確なメタデータ推定を実装する助けとなる。これに関する実施形態は下記で詳述する。

指向性オーディオ信号は、比較的簡単に局在化可能であり、チャネル間でパンされる一次音である。拡散性信号は、指向性源と、および／または諸チャネルを横断して、弱く相関した周囲信号である。本発明の実施形態によれば、ステップS301において、源オーディオ・コンテンツにおける指向性オーディオ信号が任意の好適な手法によって抽出されてもよく、残りの信号が拡散性オーディオ信号となる。指向性オーディオ信号を抽出するための手法は、主成分解析（PCA）、独立成分解析、Bフォーマット解析などを含むがそれに限られなくてもよい。PCAベースの手法を例として考えると、これは、固有値の対に基づいて確率解析を実行することによって任意のチャネル構成に対して動作できる。たとえば、左（L）、右（R）、中央（C）、左サラウンド（Ls）および右サラウンド（Rs）チャネルを含む五つのチャネルをもつ源オーディオ・コンテンツについて、PCAは、チャネルのいくつかの対（たとえば10個の対）に対してそれぞれ適用されてもよく、各チャネルはそれぞれのステレオ指向性信号および拡散性信号出力をもつ。

伝統的に、PCAベースの分離は通例、二チャネルの対に適用される。本発明の実施形態によれば、PCAは、源オーディオ・コンテンツのより効果的な信号成分分解を達成するためにマルチチャネル・オーディオ信号に拡張されてもよい。特に、C個のチャネルを含む源オーディオ・コンテンツについて、D個の指向性源がC個のチャネルにわたって分配されると想定され、それぞれが一つのチャネルによって表わされるC個の拡散性オーディオ信号が、指向性源と、および／またはC個のチャネルを横断して、弱く相関しているとする。本発明の実施形態によれば、各チャネルのモデルは、空間的な知覚される位置に従って重み付けされる周囲信号および指向性オーディオ信号の和として定義されうる。時間領域のマルチチャネル信号X_C＝(x₁,…,x_c)^Tは

と表現されてもよい。ここで、c∈[1,…,C]であり、g_c,d(t)はc番目のチャネルの指向性源〔ベクトル〕S_D＝(S₁,…,S_D)^Tに適用されるパン利得を表わす。拡散性オーディオ信号〔ベクトル〕A_C＝(A₁,…,A_C)^Tはすべてのチャネルにわたって分配される。

上記のモデルに基づいて、PCAは、周波数サブバンド毎に短時間フーリエ変換（STFT）信号に対して適用されてもよい。STFT信号の絶対値はX_b,t,cと記される。ここで、b∈[1,…,B]はSTFT周波数ビン・インデックスを表わし、t∈[1,…,T]はSTFTフレーム・インデックスを表わし、c∈[1,…,C]はチャネル・インデックスを表わす。

各周波数帯域b∈[1,…,B]について（議論のため、以下の記号についてはbは省略する）、源オーディオ・コンテンツに関する共分散行列はたとえば、チャネル間の相関を計算することによって計算されてもよい。結果として得られるC×C共分散行列は適切な時定数をもって平滑化されうる。固有ベクトル分解が実行されて、固有値λ₁＞λ₂＞λ₃＞…＞λ_Cおよび固有ベクトルv₁,v₂,…v_Cが得られる。次に、各チャネルc＝1,…,Cについて、固有値λ_c，λ_c+1の対が比較され、zスコアが計算される。

z＝abs(λ_c−λ_c+1)/(λ_c＋λ_c+1)
ここで、absは絶対値関数を表わす。次いで、分解された信号成分を解析することによって、拡散性（diffusivity）または周囲性（ambiance）の確率が計算されてもよい。具体的には、より大きなzは、拡散性についてのより小さな確率を示す。zスコアに基づいて、拡散性についての確率は、正規化された累積分布関数（cdf）／相補誤差関数（erfc）に基づくヒューリスティックな仕方で計算されうる。

p＝erfc(−z/√2)
一方、チャネルcについての拡散性についての確率は次のように更新される：
p_c＝max(p_c,p)
p_c+1＝max(p_c+1,p_c)
最終的な拡散性オーディオ信号をAc、最終的な指向性オーディオ信号をS_cと表わす。こうして、各チャネルcについて、
A_c＝X_c・p_c
S_c＝X_c・(1−p_c)
となる。

上記は単に例であり、本発明の範囲に対する限定と解釈されるべきではないことを注意しておくべきである。たとえば、上記の信号の共分散または相関行列の固有値の比較に基づく他の任意のプロセスまたはメトリックが、上記の信号の拡散性の量または拡散性成分を推定するために使用されうる。たとえば、比、差、商などによる。さらに、いくつかの実施形態では、源オーディオ・コンテンツの信号はフィルタ処理されてもよく、次いで、フィルタ処理された信号に基づいて共分散が推定される。例として、信号は直交ミラー・フィルタによってフィルタ処理されてもよい。代替的または追加的に、信号は他の任意のフィルタ処理手段によってフィルタ処理または帯域制限されてもよい。いくつかの他の実施形態では、源オーディオ・コンテンツの信号の包絡がが、共分散または相関行列を計算するために使われてもよい。

図３の参照を続けると、方法３００は次いでステップS302に進み、ここでステップS301において得られた指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトが抽出される。源オーディオ・コンテンツからオーディオ・オブジェクトを直接抽出することに比べて、指向性オーディオ信号からオーディオ・オブジェクトを抽出することは、拡散性オーディオ信号成分による干渉を除去することができ、よってオーディオ・オブジェクト抽出およびメタデータ推定はより正確に実行できる。さらに、さらなる指向性および拡散性信号分解を適用することによって、抽出されたオブジェクトの拡散性が調整されてもよい。また、適応的なオーディオ・コンテンツの再オーサリング・プロセスを容易にする助けともなる。これについては後述する。本発明の範囲は指向性オーディオ信号からオーディオ・オブジェクトを抽出することに制限されないことを理解しておくべきである。本稿に記載されたさまざまな動作および特徴は、源オーディオ・コンテンツのもとの信号にも該もとのオーディオ信号から分解された任意の他の信号成分にも適用可能である。

本発明の実施形態によれば、ステップS302におけるオーディオ・オブジェクト抽出は空間的な源分離プロセスによってなされてもよい。かかるプロセスは二段階で実行されうる。まず、源オーディオ・コンテンツの複数のまたは全部のフレームのそれぞれに対してスペクトル合成（spectrum composition）が実施されてもよい。スペクトル合成は、オーディオ・オブジェクトが二つ以上のチャネルに存在していれば、これらのチャネルにおけるそのスペクトルは、包絡およびスペクトル形状の点で高度な類似性をもつ傾向があるという想定に基づく。したがって、周波数範囲全体が複数のサブバンドに分割されてもよく、次いでこれらのサブバンドの間の類似性が測定される。本発明の実施形態によれば、比較的短かめの継続時間（たとえば80ms未満）をもつオーディオ・コンテンツについて、サブバンド間のスペクトルの類似性を比較することが可能である。より長い継続時間をもつオーディオ・コンテンツについては、サブバンド包絡コヒーレンスが比較されてもよい。他の任意の好適なサブバンド類似性メトリックも可能である。次いで、同じオーディオ・オブジェクトからのサブバンドおよびチャネルを総合するために、さまざまなクラスタリング技法が適用されてもよい。たとえば、ある実施形態では、階層的なクラスタリング技法が適用されてもよい。そのような技法は、最低の類似性スコアの閾値を設定し、次いで該閾値との比較に基づいて、類似したチャネルと、クラスターの数とを自動的に識別する。よって、各フレームにおいて、同じオブジェクトを含む諸チャネルが識別され、総合されることができる。

次に、単一フレーム・オブジェクト・スペクトル合成において識別され、総合されたのと同じオブジェクトを含む諸チャネルについて、複数のフレームを横断して時間的合成が実行されて、時間に沿った完全なオーディオ・オブジェクトを合成してもよい。本発明の実施形態によれば、複数のフレームを横断して完全なオーディオ・オブジェクトを合成するためには、既知のものであれ将来開発されるものであれ、いかなる好適な技法が適用されてもよい。そのような技法の例は、確率的なフレームワークを使ってオーディオ・オブジェクト成分を総合する動的プログラミング；特徴の一貫性および時間的制約条件に基づいて同じオーディオ・オブジェクトからの成分を総合するクラスタリング；異なるオーディオ・オブジェクトは通例異なる時点において現われたり消えたりするので複数のオーディオ・オブジェクトの生起を追跡するために適用できるマルチエージェント技法；時間を追ってオーディオ・オブジェクトを追跡しうるカルマン・フィルタ処理などを含むがそれに限られない。

上記のような単一フレームのスペクトル合成または複数フレームの時間的合成のために、サブバンド／チャネル／フレームが同じオーディオ・オブジェクトを含んでいるかどうかが、スペクトル連続性および空間的一貫性に基づいて決定されてもよい。たとえば、クラスタリングおよび動的プログラミングのような複数フレームの時間的合成処理では、オーディオ・オブジェクトは、次のうちの一つまたは複数に基づいて総合されて、時間的な完全なオーディオ・オブジェクトを形成してもよい：方向／位置、拡散性、DDR、オン／オフセット同期、調波性変調（harmonicity modulations）、ピッチおよびピッチ揺動、顕著性／部分的ラウドネス／エネルギー、反復性など。

特に、本発明の実施形態によれば、ステップS301で得られた拡散性のオーディオ信号A_c（またはその一部）が一つまたは複数のオーディオ・オブジェクトと見なされてもよい。たとえば、個々の信号A_cのそれぞれは、対応するスピーカーの想定される位置に対応する位置をもつオーディオ・オブジェクトとして出力されうる。あるいはまた、信号A_cは、ダウンミックスされてモノ信号を生成してもよい。そのようなモノ信号は、拡散性であるまたは大きなオブジェクト・サイズをもつものとして、その関連するメタデータにおいてラベル付けされてもよい。他方、指向性信号に対するオーディオ・オブジェクト抽出を実行後、いくつかの残差信号があってもよい。いくつかの実施形態によれば、そのような残差信号成分は下記のようにオーディオ・ベッド中に入れられてもよい。

図３の参照を続けると、ステップS303において、源オーディオ・コンテンツに基づいてチャネル・ベースのオーディオ・ベッドが生成される。オーディオ・ベッド生成が、オーディオ・オブジェクト抽出後に実行されるように示されているが、本発明の範囲はこれに関して限定されない。代替的な実施形態では、オーディオ・ベッドはオーディオ・オブジェクトの抽出前にまたは抽出と並行して生成されてもよい。

一般に、オーディオ・ベッドはチャネル・ベースのフォーマットで表現されるオーディオ信号成分を含む。いくつかの実施形態によれば、上記で論じたように、源オーディオ・コンテンツはステップS301において分解される。そのような実施形態では、オーディオ・ベッドは、源オーディオ・コンテンツから分解された拡散性の信号から生成されてもよい。すなわち、拡散性のオーディオ信号は、オーディオ・ベッドとしてはたらくよう、チャネル・ベースのフォーマットにおいて表現されてもよい。追加的または代替的に、オーディオ・オブジェクト抽出後に残差信号成分からオーディオ・ベッドを生成することが可能である。

具体的には、いくつかの実施形態によれば、生成されたオーディオ・ベッドをより没入的で迫真的なものにするために、源オーディオ・コンテンツに存在するチャネルに加えて、一つまたは複数の追加的なチャネルが生成されてもよい。たとえば、伝統的なチャネル・ベースのオーディオ・コンテンツは通例高さ情報を含まないことが知られている。いくつかの実施形態によれば、ステップS303において周囲アップミキサーを適用することによって、少なくとも一つの高さチャネルが生成されてもよい。こうして源オーディオ情報が拡張される。このようにして、生成されたオーディオ・ベッドはより没入的で、迫真的なものになる。次世代サラウンド（Next Generation Surround）またはプロロジックIIxデコーダのような任意の好適なアップミキサーが、本発明の実施形態との関連で使用されうる。サラウンド5.1フォーマットの源オーディオ・コンテンツを例として考えると、受動的な行列（passive matrix）がLsおよびRs出力に適用されて、周囲信号中のLsおよびRsチャネルの位相外れ成分を生成してもよい。それがそれぞれ高さチャネルLvhおよびRvhとして使用されることになる。

図４を参照するに、いくつかの例示的実施形態によれば、アップミックスは次の二段階でなされてもよい。第一に、LsおよびRsチャネルの位相外れ内容が計算され、高さチャネルにリダイレクトされてもよい。これにより単一の高さ出力チャネルC'が生成される。次いで、チャネルL'、R'、Ls'およびRs'が計算される。次に、チャネルL'、R'、Ls'およびRs'がそれぞれLs、Rs、LrsおよびRrs出力にマッピングされる。最後に、導出された高さチャネルC'が、たとえば3dBだけ減衰させられ、LvhおよびRvh出力にマッピングされれる。よって、高さチャネルC'は二つの高さスピーカーLvhおよびRvh出力にフィードするよう分割される。任意的に、ある種のチャネルには遅延および利得補償が適用されてもよい。

いくつかの実施形態によれば、アップミックス・プロセスは、入力（一つまたは複数）から、互いに独立な追加的信号を生成するために、脱相関器を使うことを含んでいてもよい。脱相関器はたとえば、全域通過フィルタ、全域通過遅延セクション、残響生成器などを含んでいてもよい。これらの実施形態において、信号Lvh、Rvh、LrsおよびRrsは、信号L、C、R、LsおよびRsのうちの一つまたは複数に脱相関を適用することによって生成されてもよい。既知のものであれ将来開発されるものであれ、いかなるアップミックス技法が本発明の実施形態との関連で使われてもよいことは理解しておくべきである。

チャネル・ベースのオーディオ・ベッドは、周囲アップミックスによって生成された高さチャネルと、源オーディオ・コンテンツにおける拡散性のオーディオ信号の他のチャネルとによって構成されている。ステップS303における高さチャネルの生成は任意的であることは理解しておくべきである。たとえば、いくつかの代替的な実施形態によれば、オーディオ・ベッドは、チャネル拡張なしで、源オーディオ・コンテンツにおける拡散性のオーディオ信号のチャネルに基づいて直接、生成されてもよい。実際、本発明の範囲は、拡散性のオーディオ信号からオーディオ・ベッドを生成することにも限定されない。上記のように、オーディオ・オブジェクトが源オーディオ・コンテンツから直接抽出される実施形態では、オーディオ・オブジェクト抽出後の残りの信号がオーディオ・ベッドを生成するために使われてもよい。

方法３００は次いでステップS304に進む。ここで、適応的なオーディオ・コンテンツに関連するメタデータが生成される。本発明の実施形態によれば、メタデータは源オーディオ・コンテンツ、一つまたは複数の抽出されたオーディオ・オブジェクトおよびオーディオ・ベッドのうちの少なくとも一つに基づいて推定または計算されてもよい。メタデータは、高レベルの意味的メタデータ（semantic metadata）から低レベルの記述情報（descriptive information）まで幅があってもよい。たとえば、いくつかの実施形態によれば、メタデータは、オンセット、調波性、顕著性、ラウドネス、時間的構造などを含む中レベルの属性を含んでいてもよい。代替的または追加的に、メタデータは、音楽、発話、歌声、音響効果、環境音、効果音などを含む高レベルの意味的属性を含んでいてもよい。

具体的には、いくつかの実施形態によれば、メタデータは、オーディオ・オブジェクトの位置、サイズ、幅などといった空間的属性を表わす空間的メタデータを含んでいてもよい。たとえば、推定されるべき空間的メタデータが、抽出されるオーディオ・オブジェクトの方位角（αと記される、0≦α＜2π）であるとき、典型的なパン則（たとえば正弦‐余弦則）が適用されうる。正弦‐余弦則では、オーディオ・オブジェクトの振幅は、次のような仕方で二つのチャネル／スピーカー（c₀およびc₁と記される）に分配されうる：
g₀＝βcos(α')
g₁＝βsin(α')
ここで、g₀およびg₁は二つのチャネルの振幅を表わし、βはオーディオ・オブジェクトの振幅を表わし、α'は二つのチャネルの間のその方位角を表わす。対応して、g₀およびg₁に基づいて、方位角α'は次のように計算されてもよい：
α'＝argtan（(g₁−g₀)／(g₁＋g₀)）＋π/4
こうして、オーディオ・オブジェクトの方位角αを推定するために、最高の振幅をもつ上位二つのチャネルがまず検出されてもよく、これら二つのチャネルの間の方位角α'が推定される。次いで、選択された二つのチャネルのインデックスに基づいて、マッピング関数がα'に適用されて、最終的な軌跡パラメータαを得てもよい。推定されたメタデータは、空間的軌跡の点で、源オーディオ・コンテンツのもとの創造的な意図の近似的な基準を与えうる。

いくつかの実施形態では、オーディオ・オブジェクトの推定された位置はデカルト座標系におけるxおよびy座標を有していてもよく、あるいは角度によって表現されてもよい。具体的には、本発明の実施形態によれば、オブジェクトのxおよびy座標が次のように推定されてもよい。

ここで、x_cおよびy_cはチャネルcに対応するスピーカーのxおよびy座標である。

次いで、方法３００はステップS305に進む。ここで、オーディオ・オブジェクトおよびチャネル・ベースのオーディオ・ベッドの両方を含んでいてもよい適応的なオーディオ・コンテンツに対して再オーサリング・プロセスが実行される。オーディオ・オブジェクト、オーディオ・ベッドおよび／またはメタデータにある種のアーチファクトがありうることが理解されるであろう。結果として、ステップS301からS304において得られた結果を調整または修正することが望ましいことがありうる。さらに、エンドユーザーは、生成された適応的なオーディオ・コンテンツに対してある種の制御をもつことを与えられてもよい。

いくつかの実施形態によれば、再オーサリング・プロセスはオーディオ・オブジェクト分離を含んでいてもよい。これは、抽出されたオーディオ・オブジェクトの間で互いに少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するために使われる。ステップS302において抽出されたオーディオ・オブジェクトにおいて、二つ以上のオーディオ・オブジェクトが少なくとも部分的に互いに重なり合っていることがあることが理解できる。たとえば、図５のＡは、諸チャネルの一部（この場合中央Cチャネル）において重なり合っている二つのオーディオ・オブジェクトを示している。ここで、一方のオーディオ・オブジェクトがLチャネルとCチャネルの間でパンされ、その間、他方はCチャネルとRチャネルの間でパンされる。図５のＢは、二つのオーディオ・オブジェクトがすべてのチャネルにおいて部分的に重なっているシナリオを示している。

本発明の実施形態によれば、オーディオ・オブジェクト分離プロセスは自動プロセスであってもよい。あるいはまた、オブジェクト分離プロセスは半自動プロセスであってもよい。ユーザーが、たとえば重なり合っているオーディオ・オブジェクトがある時点を指示することによって、分離されるべきオーディオ・オブジェクトを対話的に選択しうるよう、グラフィカル・ユーザー・インターフェース（GUI）のようなユーザー・インターフェースが設けられてもよい。よって、オブジェクト分離処理は、その時間期間内のオーディオ信号に適用されてもよい。既知のものか将来開発されるものかによらず、オーディオ・オブジェクトを分離するためのいかなる好適な技法が本発明の実施形態との関連で使われてもよい。

さらに、本発明の実施形態によれば、再オーサリング・プロセスはオーディオ・オブジェクトの属性を制御および修正することを含んでいてもよい。たとえば、分離されたオーディオ・オブジェクトおよびそれらそれぞれの時間依存かつチャネル依存の利得G_r,tおよびA_r,cに基づいて、オーディオ・オブジェクトのエネルギー・レベルが変更されてもよい。さらに、オーディオ・オブジェクトを形状変更する、たとえばオーディオ・オブジェクトの幅およびサイズを変えることも可能である。

代替的または追加的に、ステップS305における再オーサリング・プロセスは、ユーザーがたとえばGUIを介してオーディオ・オブジェクトを対話的に操作することを許容しうる。操作はたとえば、オーディオ・オブジェクトの空間的な位置または軌跡を変えること、いくつかのオーディオ・オブジェクトのスペクトルを一つのオーディオ・オブジェクトに混合すること、一つのオーディオ・オブジェクトのスペクトルをいくつかのオーディオ・オブジェクトに分離すること、時間に沿ったいくつかのオブジェクトを連結して一つのオーディオ・オブジェクトを形成すること、一つのオーディオ・オブジェクトを時間に沿ってスライスしていくつかのオーディオ・オブジェクトにすることなどを含むがそれに限られなくてもよい。

図３を参照するに、適応的なオーディオ・コンテンツに関連するメタデータがステップS304において推定される場合、方法３００はそのようなメタデータを編集するためにステップS306に進んでもよい。いくつかの実施形態によれば、メタデータの編集は、オーディオ・オブジェクトおよび／またはオーディオ・ベッドに関連する空間的メタデータを操作することを含んでいてもよい。たとえば、オーディオ・オブジェクトの空間的な位置／軌跡および幅といったメタデータが、オーディオ・オブジェクトの利得G_r,tおよびA_r,cを使って調整され、あるいはさらに推定し直されてもよい。たとえば、上記の空間的メタデータは次のように更新されてもよい。

ここで、Gは当該オーディオ・オブジェクトの時間依存の利得を表わし、A₀およびA₁は異なるチャネルの間の、当該オーディオ・オブジェクトの上位二つの最高のチャネル依存の利得を表わす。

さらに、空間的メタデータは、源オーディオ・コンテンツの忠実度を保証する際の基準として使用されたり、あるいは新たな芸術的創造のための基礎のはたらきをしたりしてもよい。たとえば、抽出されたオーディオ・オブジェクトは、関連する空間的メタデータを修正することによって位置決めし直されてもよい。たとえば、図６に示されるように、空間的メタデータを編集して三次元軌跡を生成することによって、オーディオ・オブジェクトの二次元軌跡が所定のヘミスフィア（hemisphere）にマッピングされてもよい。

あるいはまた、いくつかの実施形態によれば、メタデータ編集はオーディオ・オブジェクトの利得を制御することを含んでいてもよい。代替的または追加的に、利得制御はチャネル・ベースのオーディオ・ベッドについて実行されてもよい。たとえば、いくつかの実施形態では、利得制御はチャネル・ベースのオーディオ・ベッドについて実行されてもよい。たとえば、いくつかの実施形態では、利得制御は、源オーディオ・コンテンツに存在しない高さチャネルに適用されてもよい。

方法３００は、この特定の例ではステップS306後に終わる。

上述したように、方法３００に記述されるさまざまな動作が適応的なオーディオ・コンテンツの生成を容易にしうるものの、その一つまたは複数は、本発明のいくつかの代替的な実施形態では省略されてもよい。たとえば、指向性／拡散性信号分解を実行することなく、オーディオ・オブジェクトは直接的に、源オーディオ・コンテンツの信号から抽出されてもよく、チャネル・ベースのオーディオ・ベッドは、オーディオ・オブジェクト抽出後の残差信号から生成されてもよい。さらに、追加的な高さチャネルを生成しないことが可能である。同様に、メタデータの生成および適応的なオーディオ・コンテンツの再オーサリングはいずれも任意的である。本発明の範囲はこれらに関して限定されない。

図７を参照するに、本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成するシステム７００のブロック図が示されている。図のように、システム７００は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器７０１と；少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器７０２とを有する。

いくつかの実施形態によれば、オーディオ・オブジェクト抽出器７０１は：源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器を有する。これらの実施形態では、オーディオ・オブジェクト抽出器７０１は、指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されていてもよい。いくつかの実施形態では、信号分解器は、源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と；分解された信号成分を解析することによって拡散性についての確率を計算するよう構成された確率計算器とを有していてもよい。

代替的または追加的に、いくつかの実施形態によれば、オーディオ・オブジェクト抽出器７０１は：源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成（spectrum composition）を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と；前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有していてもよい。たとえば、スペクトル合成器は、前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分割するよう構成された周波数分割器を有していてもよい。よって、スペクトル合成器は、前記複数のサブバンドの間の、包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するよう構成されていてもよい。

いくつかの実施形態によれば、システム７００は、源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器７０３を有していてもよい。そのような実施形態では、適応オーディオ生成器７０２は、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成されていてもよい。いくつかの実施形態では、上記で論じたように、システム７００は、源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解して、拡散性のオーディオ信号からオーディオ・ベッドを生成するよう構成された信号分解器を有していてもよい。

いくつかの実施形態によれば、オーディオ・ベッド生成器７０３は、源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成するよう構成された高さチャネル生成器を有していてもよい。これらの実施形態では、オーディオ・ベッド生成器７０３は、源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成するよう構成されていてもよい。

いくつかの実施形態によれば、システム７００はさらに、適応的なオーディオ・コンテンツに関連するメタデータを推定するよう構成されたメタデータ推定器７０４を有していてもよい。メタデータは、前記源オーディオ・コンテンツ、前記少なくとも一つのオーディオ・オブジェクトおよび／または前記オーディオ・ベッド（もしあれば）に基づいて推定されてもよい。これらの実施形態では、システム７００はさらに、適応的なオーディオ・コンテンツに関連するメタデータを編集するよう構成されたメタデータ編集器を有していてもよい。特に、いくつかの実施形態では、メタデータ編集器は、適応的なオーディオ・コンテンツの利得、たとえばオーディオ・オブジェクトおよび／またはチャネル・ベースのオーディオ・ベッドの利得を制御するよう構成された利得コントローラを有していてもよい。

いくつかの実施形態によれば、適応オーディオ生成器７０２は、前記少なくとも一つのオーディオ・オブジェクトに対して再オーサリングを実行するよう構成された再オーサリング・コントローラを有していてもよい。たとえば、再オーサリング・コントローラは：前記少なくとも一つのオーディオ・オブジェクトのうちの少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するよう構成されたオブジェクト分離器；前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正するよう構成された属性修正器；および前記少なくとも一つのオーディオ・オブジェクトを対話的に操作するよう構成されたオブジェクト操作器のうちの少なくとも一つを有していてもよい。

明確のため、システム７００のいくつかの任意的なコンポーネントは図７に示していない。しかしながら、図２〜図３を参照して上記した事項はみなシステム７００に適用可能であることは理解されるはずである。さらに、システム７００のコンポーネントは、ハードウェア・モジュールまたはソフトウェア・モジュールでありうる。たとえば、いくつかの実施形態では、システム７００は、部分的にまたは完全に、たとえばコンピュータ可読媒体において具現されたコンピュータ・プログラム・プロダクトとして実装されるソフトウェアおよび／またはファームウェアを用いて実装されてもよい。代替的または追加的に、システム７００は部分的または完全に、たとえば集積回路（IC）、特定用途向け集積回路（ASIC）、システムオンチップ（SOC）、フィールド・プログラマブル・ゲート・アレイ（FPGA）などのようなハードウェアに基づいて実装されてもよい。本発明の範囲はこれに関して限定されない。

図８を参照するに、本発明の実施形態を実装するために好適な例示的なコンピュータ・システム８００のブロック図が示されている。図のように、コンピュータ・システム８００は、読み出し専用メモリ（ROM）８０２に記憶されたプログラムまたは記憶セクション８０８からランダム・アクセス・メモリ（RAM）にロードされたプログラムに従ってさまざまなプロセスを実行することのできる中央処理ユニット（CPU）８０１を有する。RAM ８０３では、CPU ８０１がさまざまなプロセスを実行するときに必要とされるデータなども必要に応じて記憶される。CPU ８０１、ROM ８０２およびRAM ８０３はバス８０４を介して互いに接続されている。入出力（I/O）インターフェース８０５もバス８０４に接続されている。

以下のコンポーネントがI/Oインターフェース８０５に接続される：キーボード、マウスなどを含む入力部８０６；陰極線管（CRT）、液晶ディスプレイ（LCD）などのようなディスプレイまたはスピーカーなどを含む出力部８０７；ハードディスクなどを含む記憶部８０８；およびLANカード、モデムなどのようなネットワーク・インターフェース・カードを含む通信部８０９である。通信部８０９は、インターネットのようなネットワークを介して通信プロセスを実行する。ドライブ８１０も必要に応じてI/Oインターフェース８０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような着脱可能な媒体８１１が必要に応じてドライブ８１０にマウントされ、それにより必要に応じて、そこから読まれたコンピュータ・プログラムが記憶部８０８にインストールされる。

特に、本発明の実施形態によれば、図２〜図３を参照して上記したプロセスがソフトウェア・プログラムとして実装されてもよい。たとえば、本発明の実施形態は、方法２００および／または方法３００を実行するためのプログラム・コードを含む、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含む。そのような実施形態では、コンピュータ・プログラムは、通信ユニット８０９を介してネットワークからダウンロードおよびマウントされ、および／または着脱可能なメモリ・ユニット８１１からインストールされてもよい。

一般に、本発明のさまざまな例示的実施形態はハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせにおいて実装されうる。いくつかの側面はハードウェアにおいて実装され、一方で他の側面がコントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアにおいて実装されてもよい。本発明の例示的実施形態のさまざまな側面がブロック図、フローチャートとしてまたは他のいくつかの絵的表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはそれらの何らかの組み合わせにおいて実装されてもよいことは理解されるであろう。

さらに、フローチャートに示されるさまざまなブロックを方法ステップとしておよび／またはコンピュータ・プログラム・コードの動作から帰結する動作としておよび／または関連する機能（単数または複数）を実行するよう構築された複数の結合された論理回路要素として見ることができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを有するコンピュータ・プログラム・プロダクトを含み、該コンピュータ・プログラムは、上記で述べた諸方法を実行するために構成されたプログラム・コードを含む。

本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置またはデバイスによってまたはそれとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうる、それに限られなくてもよい。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルなコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラム可能型読み出し専用メモリ（EPROMまたはフラッシュ・メモリ）、光ファイバー、ポータブルなコンパクト・ディスク読み出し専用メモリ（CD-ROM）、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。

本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせにおいて書かれうる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供されてもよく、それにより該プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたとき、フローチャートおよび／またはブロック図において規定された機能／動作を実装させる。プログラム・コードは完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよい。

さらに、動作は特定の順序で描かれているが、これは、そのような動作が示される特定の順序で、あるいは逐次順に実行されること、あるいは所望される結果を達成するために示されているすべての動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるものの、これらはいずれかの発明のまたは特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有でありうる事項の記述と解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に記載されるある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて記述されているさまざまな特徴が、複数の実施形態において別個にまたは任意の好適なサブコンビネーションにおいて実装されることもできる。

付属の図面との関連で読まれるときの上記の記述に鑑み、本発明の上記の例示的実施形態へのさまざまな修正、適応が当業者に明白となることがありうる。任意の、あらゆる修正がそれでも、本発明の限定しない、例示的な実施形態の範囲内にはいる。さらに、本稿に記載される発明の他の実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者には思いつくであろう。

よって、本発明は、本稿に記載される形の任意のもので具現されうる。たとえば、以下の付番実施例（EEE: enumerated example embodiment）は、本発明のいくつかの側面のいくつかの構造、特徴および機能を記述するものである。
〔ＥＥＥ１〕
適応的なオーディオ・コンテンツを生成する方法であって：チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と；少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、方法。
〔ＥＥＥ２〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が、前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し；前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出することを含む、ＥＥＥ１記載の方法。
〔ＥＥＥ３〕
前記源オーディオ・コンテンツを分解することが：前記源オーディオ・コンテンツに対して信号成分分解を実行し；分解された信号成分を解析することによって拡散性の確率を計算し；前記拡散性の確率に基づいて前記源オーディオ・コンテンツを分解することを含む、ＥＥＥ２記載の方法。
〔ＥＥＥ４〕
前記源オーディオ・コンテンツが複数のチャネルを含み、前記信号成分分解が：前記複数のチャネルの間の相関を計算することによって共分散行列を計算し；前記共分散行列に対して固有ベクトル分解を実行して固有ベクトルおよび固有値を取得し；付随する固有値の対の間の差に基づいて前記拡散性の確率を計算することを含む、ＥＥＥ３記載の方法。
〔ＥＥＥ５〕
前記拡散性の確率がp＝erfc(−z/√2)として計算され、ここで、z＝abs(λ_c−λ_c+1)/(λ_c＋λ_c+1)であり、λ₁＞λ₂＞λ₃＞…＞λ_Cは固有ベクトルであり、absは絶対値関数を表わし、erfcは相補誤差関数を表わす、ＥＥＥ４記載の方法。
〔ＥＥＥ６〕
チャネルcについての拡散性についての前記確率を p_c＝max(p_c,p)およびp_c+1＝max(p_c+1,p_c)として更新する段階をさらに含む、ＥＥＥ５記載の方法。
〔ＥＥＥ７〕
前記共分散行列を平滑化する段階をさらに含む、ＥＥＥ４ないし６のうちいずれか一項記載の方法。
〔ＥＥＥ８〕
前記拡散性オーディオ信号が前記源オーディオ・コンテンツに前記拡散性の確率を乗算することによって得られ、前記指向性オーディオ信号が前記源オーディオ・コンテンツから前記拡散性オーディオ信号を減算することによって得られる、ＥＥＥ３ないし７のうちいずれか一項記載の方法。
〔ＥＥＥ９〕
前記信号成分分解が、方向、位置、拡散性、直接音対残響比、オン／オフセット同期、調波性変調、ピッチ、ピッチ揺動、顕著性、部分ラウドネス、反復性のうちの少なくとも一つを含む、空間的一貫性およびスペクトル連続性の手がかりに基づいて実行される、ＥＥＥ３ないし８のうちいずれか一項記載の方法。
〔ＥＥＥ１０〕
前記少なくとも一つのオーディオ・オブジェクトをマージ、分離、接続、分割、位置変更、形状変更、レベル調整すること；前記少なくとも一つのオーディオ・オブジェクトについての時間依存利得およびチャネル依存利得を更新すること；前記少なくとも一つのオーディオ・オブジェクトおよび利得に対してエネルギーが保存されるダウンミックスを適用して、モノ・オブジェクト・トラックを生成すること；および前記オーディオ・ベッドに残差信号を組み込むことのうちの少なくとも一つを含む再オーサリング・プロセスにおいて前記少なくとも一つのオーディオ・オブジェクトを操作する段階をさらに含む、ＥＥＥ１ないし９のうちいずれか一項記載の方法。
〔ＥＥＥ１１〕
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、請求項１ないし１０のうちいずれか一項記載の方法。
〔ＥＥＥ１２〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、ＥＥＥ１１記載の方法。
〔ＥＥＥ１３〕
前記メタデータを編集することが、前記少なくとも一つのオーディオ・オブジェクトの時間依存利得およびチャネル依存利得に基づいて空間位置／軌跡メタデータを推定し直すことを含む、ＥＥＥ１２記載の方法。
〔ＥＥＥ１４〕
前記空間メタデータが、前記少なくとも一つのオーディオ・オブジェクトの時間依存かつチャネル依存の利得に基づいて推定される、ＥＥＥ１３記載の方法。
〔ＥＥＥ１５〕
前記空間メタデータがα＝argtan（(G・A₁−G・A₀)／(G・A₁＋G・A₀)）＋π/4として推定され、Gは前記少なくとも一つのオーディオ・オブジェクトの前記時間依存利得を表わし、A₀およびA₁は、種々のチャネルのうちでの前記少なくとも一つのオーディオ・オブジェクトの上位二つの最も高いチャネル依存の利得を表わす、ＥＥＥ１４記載の方法。
〔ＥＥＥ１６〕
空間位置メタデータおよびあらかじめ定義されたヘミスフィア形状が、推定された二次元空間位置を前記あらかじめ定義されたヘミスフィア形状にマッピングすることによって三次元軌跡を自動的に生成するために使われる、ＥＥＥ１１ないし１５のうちいずれか一項記載の方法。
〔ＥＥＥ１７〕
顕著性／エネルギー・メタデータを参照することによって連続的な仕方で前記少なくとも一つのオーディオ・オブジェクトの参照エネルギー利得を自動的に生成する段階をさらに含む、ＥＥＥ１１ないし１６のうちいずれか一項記載の方法。
〔ＥＥＥ１８〕
前記源オーディオ・コンテンツを周囲アップミックスすることによって高さチャネルを生成する段階と；前記高さチャネルおよび前記源オーディオ・コンテンツのサラウンド・チャネルからチャネル・ベースのオーディオ・ベッドを生成する段階とをさらに含む、ＥＥＥ１１ないし１７のうちいずれか一項記載の方法。
〔ＥＥＥ１９〕
前記高さチャネルおよび前記サラウンド・チャネルにエネルギーが保存される因子を乗算することによって前記オーディオ・ベッドに対する利得制御を適用して、周囲の知覚されるヘミスフィア高さを修正する段階をさらに含む、ＥＥＥ１８記載の方法。
〔ＥＥＥ２０〕
ＥＥＥ１ないし１９のうちいずれか一項記載の方法の段階を実行するよう構成されたユニットを有する、適応的なオーディオ・コンテンツを生成するシステム。

本発明の実施形態は開示されている個別的な実施形態に限定されるものではなく、他の実施形態が付属の請求項の範囲内に含まれることが意図されていることは理解されるであろう。本稿では個別的な用語が使われているが、これらは一般的かつ記述的な意味でのみ使われており、限定のためではない。
いくつかの態様を記載しておく。
〔態様１〕
適応的なオーディオ・コンテンツを生成する方法であって：
チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と；
少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、
方法。
〔態様２〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が：
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し；
前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出することを含む、
態様１記載の方法。
〔態様３〕
前記源オーディオ・コンテンツを分解することが：
前記源オーディオ・コンテンツに対して信号成分分解を実行し；
分解された信号成分を解析することによって拡散性の確率を計算することを含む、
態様２記載の方法。
〔態様４〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が：
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するスペクトル分解を実行し；
前記複数のフレームを横断して識別され、総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成することを含む、
態様１ないし３のうちいずれか一項記載の方法。
〔態様５〕
前記同じオーディオ・オブジェクトを含むチャネルを識別し、総合することが：
前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分解し；
前記複数のサブバンドの間の包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合することを含む、
態様４記載の方法。
〔態様６〕
前記源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成する段階をさらに含み、
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成することを含む、
態様１ないし５のうちいずれか一項記載の方法。
〔態様７〕
前記オーディオ・ベッドを生成する段階が：
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し；
前記拡散性オーディオ信号から前記オーディオ・ベッドを生成することを含む、
態様６記載の方法。
〔態様８〕
前記オーディオ・ベッドを生成する段階が：
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成する段階と；
前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成する段階とを含む、
態様６または７記載の方法。
〔態様９〕
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、
態様１ないし８のうちいずれか一項記載の方法。
〔態様１０〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、態様９記載の方法。
〔態様１１〕
前記メタデータを編集することが、前記適応的なオーディオ・コンテンツの利得を制御することを含む、態様１０記載の方法。
〔態様１２〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトの再オーサリングを実行することを含み、前記再オーサリングが：
前記少なくとも一つのオーディオ・オブジェクトのうちで少なくとも部分的に重なっているオーディオ・オブジェクトを分離すること；
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正すること；および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作することのうちの少なくとも一つを含む、
態様１ないし１１のうちいずれか一項記載の方法。
〔態様１３〕
適応的なオーディオ・コンテンツを生成するシステムであって：
チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と；
少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する、
システム。
〔態様１４〕
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器をさらに有しており、
前記オーディオ・オブジェクト抽出器は、前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されている、
態様１３記載のシステム。
〔態様１５〕
前記信号分解器は：
前記源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と；
分解された信号成分を解析することによって拡散性の確率を計算するよう構成された確率計算器とを有する、
態様１４記載のシステム。
〔態様１６〕
前記オーディオ・オブジェクト抽出器は：
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と；
前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有する、
態様１３ないし１５のうちいずれか一項記載のシステム。
〔態様１７〕
前記スペクトル合成器は、前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分割するよう構成された周波数分割器を有しており、
前記スペクトル合成器は、前記複数のサブバンドの間の、包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するよう構成されている、
態様１６記載のシステム。
〔態様１８〕
前記源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器をさらに有しており、
前記適応オーディオ生成器は、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成されている、
態様１３ないし１７のうちいずれか一項記載のシステム。
〔態様１９〕
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器をさらに有しており、
前記オーディオ・ベッド生成器は、前記拡散性オーディオ信号から前記オーディオ・ベッドを生成するよう構成されている、
態様１８記載のシステム。
〔態様２０〕
前記オーディオ・ベッド生成器が：
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成するよう構成された高さチャネル生成器を有しており、
前記オーディオ・ベッド生成器は、前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成するよう構成されている、
態様１８または１９記載のシステム。
〔態様２１〕
前記適応的なオーディオ・コンテンツに関連するメタデータを推定するよう構成されたメタデータ推定器をさらに有する、
態様１３ないし２０のうちいずれか一項記載のシステム。
〔態様２２〕
前記適応的なオーディオ・コンテンツに関連する前記メタデータを編集するよう構成されたメタデータ編集器をさらに有する、
態様２１記載のシステム。
〔態様２３〕
前記メタデータ編集器は、前記適応的なオーディオ・コンテンツの利得を制御するよう構成された利得コントローラを有する、態様２２記載のシステム。
〔態様２４〕
前記適応オーディオ生成器は、前記少なくとも一つのオーディオ・オブジェクトに対して再オーサリングを実行するよう構成された再オーサリング・コントローラを有しており、前記再オーサリング・コントローラは：
前記少なくとも一つのオーディオ・オブジェクトのうちの少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するよう構成されたオブジェクト分離器；
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正するよう構成された属性修正器；および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作するよう構成されたオブジェクト操作器のうちの少なくとも一つを有する、
態様１３ないし２３のうちいずれか一項記載のシステム。
〔態様２５〕
態様１ないし１２のうちいずれか一項記載の方法を実行するためのプログラム・コードを含むコンピュータ・プログラムが機械可読媒体上に有体に具現されているコンピュータ・プログラム・プロダクト。

Claims

チャネル・ベースの源オーディオ・コンテンツから適応的なオーディオ・コンテンツを生成する方法であって：
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解する段階と；
前記指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトを抽出する段階と；
前記拡散性オーディオ信号からチャネル・ベースのオーディオ・ベッドを生成する段階と；
少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、
方法。
前記チャネル・ベースの源オーディオ・コンテンツがサラウンド5.1またはサラウンド7.1フォーマットである、請求項１記載の方法。
前記源オーディオ・コンテンツを分解することが：
前記源オーディオ・コンテンツに対して信号成分分解を実行し；
分解された信号成分を解析することによって拡散性の確率を計算することを含む、
請求項１または２記載の方法。
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が：
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するスペクトル分解を実行し；
前記複数のフレームを横断して識別され、総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成することを含む、
請求項１ないし３のうちいずれか一項記載の方法。
前記同じオーディオ・オブジェクトを含むチャネルを識別し、総合することが：
前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分解し；
前記複数のサブバンドの間の包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合することを含む、
請求項４記載の方法。
前記オーディオ・ベッドを生成する段階が：
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成する段階と；
前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成する段階とを含む、
請求項１ないし５のうちいずれか一項記載の方法。
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、
請求項１ないし６のうちいずれか一項記載の方法。
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、請求項７記載の方法。
前記メタデータを編集することが、前記適応的なオーディオ・コンテンツの利得を制御することを含む、請求項８記載の方法。
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトの再オーサリングを実行することを含み、前記再オーサリングが：
前記少なくとも一つのオーディオ・オブジェクトのうちで少なくとも部分的に重なっているオーディオ・オブジェクトを分離すること；
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正すること；および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作することのうちの少なくとも一つを含む、
請求項１ないし９のうちいずれか一項記載の方法。
チャネル・ベースの源オーディオ・コンテンツから適応的なオーディオ・コンテンツを生成するシステムであって：
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器と；
前記指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と；
前記拡散性オーディオ信号からチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器と；
少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する、
システム。
前記チャネル・ベースの源オーディオ・コンテンツがサラウンド5.1またはサラウンド7.1フォーマットである、
請求項１１記載のシステム。
前記信号分解器は：
前記源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と；
分解された信号成分を解析することによって拡散性の確率を計算するよう構成された確率計算器とを有する、
請求項１１または１２記載のシステム。
前記オーディオ・オブジェクト抽出器は：
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と；
前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有する、
請求項１１ないし１３のうちいずれか一項記載のシステム。
請求項１ないし１０のうちいずれか一項記載の方法を実行するためのプログラム・コードを含むコンピュータ・プログラムが機械可読媒体上に有体に具現されているコンピュータ・プログラム・プロダクト。