JP6186513B2

JP6186513B2 - マルチチャネル・オーディオのチャネルの選択的透かし入れ

Info

Publication number: JP6186513B2
Application number: JP2016542046A
Authority: JP
Inventors: ヌルムクハノヴ，ドッシム; エスメタ，スリパル; ジェロエンブリーバルト，ディルク
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-09-12
Filing date: 2014-09-09
Publication date: 2017-08-23
Anticipated expiration: 2034-09-09
Also published as: WO2015038546A1; JP2016534411A; US9818415B2; CN105556598B; EP3044787B1; US20160210972A1; EP3044787A1; CN105556598A

Description

関連出願への相互参照
本願は2013年9月12日に出願された米国仮特許出願第61/877,139号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本発明は、オーディオ信号処理に、より詳細にはマルチチャネル・オーディオ・プログラム（たとえば、少なくとも一つのオーディオ・オブジェクト・チャネルおよび少なくとも一つのスピーカー・チャネルを含むオブジェクト・ベースのオーディオ・プログラムを示すビットストリーム）の選択されたチャネルの透かし入れに関する。

透かし入れ（法科学的マーク付け）は、海賊行為を防止するとともに映画コンテンツの不正な捕捉またはコピーの法科学的な追跡を許容するためにデジタル映画館において用いられ、他のコンテキストでも用いられる。オーディオおよびビデオ信号のいずれでも埋め込まれることができる透かし〔ウォーターマーク〕は、マークされたコンテンツに対する正当なおよび不当な修正ならびにマークされたコンテンツの捕捉（たとえば、携帯電話または高品質オーディオおよびビデオ記録装置によってなされる捕捉）に対して堅牢であるべきである。透かしは典型的には、コンテンツの再生がいつどこで行なわれたかについての情報を含む。こうして、シアター使用のための透かし入れは典型的には、実際の再生時に行なわれ、シアターにおいて再生されるコンテンツに対する透かしは典型的にはシアター識別データ（シアター「ID」）および再生時間を示す。

オーディオ・プログラムに透かし入れすることの複雑さ、よって金銭上および計算上のコストは透かし入れされるべきチャネルの数とともに線形に増大する。オブジェクト・ベースのオーディオ・プログラムの（たとえば映画館における）レンダリングおよび再生の間、オーディオ・コンテンツは、通常のスピーカー・チャネル・ベースのプログラムのレンダリングおよび再生の間に生起する数より典型的にはずっと（たとえば一桁）多くのチャネル（たとえば、オブジェクト・チャネルおよびスピーカー・チャネル）をもつ。典型的にはまた、再生のために使われるスピーカー・システムは、通常のスピーカー・チャネル・ベースのプログラムの再生のために用いられる数よりずっと多数のスピーカーを含む。

スピーカー・チャネルを含むがオブジェクト・チャネルを含まない通常の型のマルチチャネル・オーディオ・プログラムのすべてではないいくつかのスピーカー・チャネルに透かし入れすることが通常である。しかしながら、この型の通常の透かし入れは、どのチャネルが透かし入れされるべきかを選択するためにプログラムの個々のチャネルのコンテンツを測定せず、どのチャネルに透かし入れするかを、再生スピーカーの構成（たとえば室内でのスピーカーの配置）やスピーカーのどれかによって再生されるべきオーディオ・コンテンツに基づいて選択するのではない。むしろ、この型の通常の透かし入れは典型的には、プログラムの最初のN個のチャネルに（ここで、Nは透かし入れシステムの処理制限と整合する小さな数で、たとえばN＝8）、あるいはプログラムが少数のチャネルしか含まない場合には全部のチャネルに透かし入れしようとするが、透かし入れ（たとえば、透かし入れを含むレンダリング）の間、実際に達成される処理スピードに依存していくつかのチャネルの透かし入れをランダムにスキップする（それによりいくつかのチャネルの透かし入れは、スキップしないと処理レートが閾値を下回ってしまう場合には、スキップされる）。

発明者は、マルチチャネル・オーディオ・プログラム（またはそのようなプログラムに応答して生成される各スピーカー・フィード信号またはそれらのスピーカー・フィード信号のランダムに決定される部分集合）の個々の各チャネル（またはそれらのチャネルのランダムに決定される部分集合）の（たとえばシアターにおける再生中の）透かし入れは、無駄が多く、非効率的でありうることを認識するに至った。たとえば、無音の（またはほぼ無音の）オーディオ・コンテンツを示す信号の透かし入れは一般に、改善された透かし復元に寄与しない。さらに、他のチャネルに比べて相対的に静かなチャネルの透かし入れは、改善された透かし回復に寄与しない。

本発明の実施形態は、任意のマルチチャネル・オーディオ・プログラムのチャネルに選択的に透かし入れするために有用であるが、本発明の多くの実施形態は、多数のチャネルを有するオブジェクト・ベースのオーディオ・プログラムのチャネルに選択的に透かし入れするために特に有用である。

オブジェクト・ベースのオーディオ・プログラムをレンダリングするために（たとえば映画館における）再生システムを用いることが知られている。映画サウンドトラックであるオブジェクト・ベースのオーディオ・プログラムは、意図される全体的な聴覚体験を作り出すために、スクリーン上の画像、ダイアログ、ノイズおよびスクリーン上の（またはスクリーンに対する）種々の位置から発するサウンド効果に対応する多数の異なるオーディオ・オブジェクトならびに背景音楽および周囲効果（これはプログラムのスピーカー・チャネルによって示されてもよい）を示しうる。そのようなプログラムの正確な再生は、オーディオ・オブジェクト・サイズ、位置、強度、動きおよび奥行きに関して、コンテンツ・クリエーターによって意図されるものにできるだけ近く対応する仕方で音が再生されることを要求する。

オブジェクト・ベースのオーディオ・プログラムの生成の間、典型的には、レンダリングのために用いられるラウドスピーカーは再生環境中の任意の位置に位置されるのであり、必ずしも（公称上の）水平面内またはプログラム生成の時点で知られていた他の任意の所定の配置ではないことが想定される。典型的には、プログラムに含まれるメタデータは、たとえばスピーカーの三次元アレイを使って、（三次元体積において）ある見かけの空間位置においてまたはある軌跡に沿ってプログラムの少なくとも一つのオブジェクトをレンダリングするためのレンダリング・パラメータを示す。たとえば、プログラムのオブジェクト・チャネルは、（該オブジェクト・チャネルによって示される）オブジェクトがレンダリングされる見かけの空間位置の三次元軌跡を示す対応するメタデータを有していてもよい。軌跡は、（再生環境の、床上に位置されていると想定されるスピーカーの部分集合の平面内または他の水平面内の）「床」位置のシーケンスと、（それぞれ再生環境の少なくとも一つの他の水平面に位置されると想定されるスピーカーの部分集合を駆動することによって決定される）「床上方」位置のシーケンスとを含んでいてもよい。

オブジェクト・ベースのオーディオ・プログラムは、伝統的なスピーカー・チャネル・ベースのオーディオ・プログラムに対して多くのコンテキストにおいて有意な改善を呈する。スピーカー・チャネル・ベースのオーディオは、オブジェクト・チャネル・ベースのオーディオより、特定のオーディオ・オブジェクトの空間的再生に関して、より制限されているからである。スピーカー・チャネル・ベースのオーディオ・プログラムはスピーカー・チャネル（オブジェクト・チャネルではない）のみからなり各スピーカー・チャネルは典型的には、聴取環境における特定の個別スピーカーについてのスピーカー・フィードを決定する。

オブジェクト・ベースのオーディオ・プログラムを生成およびレンダリングするためのさまざまな方法およびシステムが提案されている。オブジェクト・ベースのオーディオ・プログラムの生成の間、典型的には、プログラムの再生のために任意の数のラウドスピーカーが用いられること、再生のために（典型的には映画館において）用いられるラウドスピーカーは再生環境中の任意の位置に位置されるのであり、必ずしも（公称上の）水平面内またはプログラム生成の時点で知られていた他の任意の所定の配置ではないと想定される。典型的には、プログラムに含まれるオブジェクト関係メタデータは、たとえばスピーカーの三次元アレイを使って、（三次元体積において）ある見かけの空間位置においてまたはある軌跡に沿ってプログラムの少なくとも一つのオブジェクトをレンダリングするためのレンダリング・パラメータを示す。たとえば、プログラムのオブジェクト・チャネルは、（該オブジェクト・チャネルによって示される）オブジェクトがレンダリングされる見かけの空間位置の三次元軌跡を示す対応するメタデータを有していてもよい。軌跡は、（再生環境の、床上に位置されていると想定されるスピーカーの部分集合の平面内または他の水平面内の）「床」位置のシーケンスと、（それぞれ再生環境の少なくとも一つの他の水平面に位置されると想定されるスピーカーの部分集合を駆動することによって決定される）「床上方」位置のシーケンスとを含んでいてもよい。オブジェクト・ベースのオーディオ・プログラムのレンダリングの例は、たとえば、本願の被譲渡者に譲渡された特許文献１に記載されている。

PCT国際出願第PCT/US2001/028783号、国際公開第2011/119041A2号、2011年9月29日公開

あるクラスの実施形態において、本発明は、マルチチャネル・オーディオ・プログラムに透かし入れする方法であって、該プログラムの少なくともあるセグメントのチャネル（たとえば、該セグメントから決定されるチャネル）の部分集合を、透かし入れするために選択し、該チャネルの部分集合内の各チャネルに透かし入れし、それにより透かし入れされたチャネルの集合を生成する（すなわち、透かし入れされたチャネルの集合を示すデータを生成する）段階を含む。透かし入れされたチャネルの集合は典型的には少数の透かし入れされたチャネル（たとえば1≦N≦16でNチャネル）からなる。ただし、プログラムは、ずっと多数のチャネルを含んでいてもよい。典型的な実施形態では、どのチャネルに透かし入れするかの選択は、プログラムの再生のために用いられる再生スピーカーの構成（たとえば、室内のスピーカーの配置）に、あるいはプログラム自身に基づく（たとえば、プログラムに含まれるメタデータに基づくまたは少なくとも一つの再生スピーカーによって再生されるべきオーディオ・コンテンツの、プログラムのチャネルによって決定されるまたはプログラムのチャネルに含まれる少なくとも一つの特性に基づく）。いくつかの実施形態では、プログラムはオブジェクト・ベースのオーディオ・プログラム（たとえば映画サウンドトラック）であり、プログラムの少なくとも一つのオブジェクト・チャネルおよび／または少なくとも一つのスピーカー・チャネルが透かし入れされる。いくつかの実施形態では、レンダリング・システムは、オブジェクト・ベースのオーディオ・プログラムから（たとえば、プログラムの少なくとも一つのオブジェクト・チャネルおよび／または少なくとも一つのスピーカー・チャネルから）再生スピーカー・チャネルの集合（各チャネルは再生システムの異なるスピーカーによる再生のため）を決定し、スピーカー・チャネルのこの集合の部分集合が透かし入れされる。いくつかの実施形態では、選択される部分集合は、プログラムのチャネルに応答してスピーカー・フィードが生成される前に（プログラムを受領し、デコードし、レンダリングするよう構成されたデコーダまたは再生システムによって、あるいはデコードおよびレンダリングのためのデコーダまたは再生システムに送達されるべきプログラムの生成の間に）透かし入れされる。いくつかの実施形態では、選択された部分集合は、プログラムのエンコードされたバージョン（たとえば、プログラムを示すエンコードされたビットストリーム）がデコードされたあとに、ただしデコードされたプログラムのオーディオ・コンテンツに応答してスピーカー・フィードが生成される前に、（レンダリング・システムによって）透かし入れされる。いくつかの実施形態では、選択された部分集合は、プログラムのレンダリングの間に透かし入れされる（たとえば、プログラムのチャネルに応答してスピーカー・フィードが生成され、該スピーカー・フィードはプログラムのチャネルに対応するまたはプログラムのチャネルから決定され、スピーカー・フィードの該集合の選択された部分集合が透かし入れされる）。

典型的には、透かし入れは、マルチチャネル・オーディオ・プログラムをデコードし、レンダリングするよう結合され、構成されており、限られた透かし入れ機能をもつ再生システム（すなわち、該再生システムは、無制限の数のオーディオ・プログラム・チャネルに透かし入れする機能をもたない）において実行される。

いくつかの実施形態では、（たとえば、映画館に設置されている）デコーダまたは再生システムは、マルチチャネル・オーディオ・プログラムを示すエンコードされたビットストリームをデコードし、プログラムのチャネル（スピーカー・チャネルおよび／またはオブジェクト・チャネル）またはプログラムから決定されるチャネル（スピーカー・チャネル）を決定する。それらのチャネルの選択された部分集合は（デコードされたオーディオのレンダリングの前またはレンダリング中に）透かし入れされ、それにより、該プログラムがレンダリングおよび再生を受けたときに、透かしは、再生中にスピーカー集合から放出される音から（たとえば該音を処理することによって）決定できる。こうして、該オーディオが（たとえば携帯電話または他の装置によって不正に）記録される場合、透かしは記録された信号を処理することによって検出可能である。透かしは、再生システムID（たとえば映画館ID）および再生時間を示してもよい。

いくつかの実施形態では、チャネルの選択された部分集合は、透かし検出および透かしに埋め込まれている情報の復元のために最適化される。チャネル部分集合の選択がコンテンツ生成（たとえば、プログラムのエンコードされたバージョンの生成）の間に実行される場合には、透かし入れメタデータ（プログラムのセグメントのシーケンスの各セグメントについて選択された部分集合を示す）が典型的には、プログラムのオーディオ・コンテンツと一緒に配布される（たとえば、透かし入れメタデータがプログラムに含められる）。あるいはまた、チャネル部分集合の選択は、デコード、レンダリングまたは再生の間に実行される。

本発明の方法の典型的な実施形態は、（通常の透かし入れによって得られるものに比べ）改善された透かし検出可能性、低減した透かし入れコストおよびレンダリングされる透かし入れされたオーディオの改善された品質を提供することが期待される。各実装の個別的なパラメータは典型的には、透かし復元の堅牢さ、レンダリングされる透かし入れされたオーディオの品質および透かし情報容量の間の受け入れ可能なトレードオフを達成するように決定される。

第一のクラスの実施形態では、本方法は、オーディオ・プログラム生成の間に透かし入れメタデータ（たとえば透かし好適性値）を生成する。これは、マルチチャネル・オーディオ・プログラムの諸セグメントに含まれるべきオーディオ・コンテンツを解析し、プログラムの各セグメントの各チャネルについて少なくとも一つの透かし好適性値（本稿では時に「重み」または透かし好適性重みと称される）を決定することによることを含む。典型的な実施形態では、各透かし好適性値（WSV: watermark suitability value）は、透かし入れするための（プログラムの関連するセグメントにおける）対応するチャネルのコンテンツの好適性を示す（たとえば、WSVは、対応するコンテンツのRMS振幅および／または透かしがコンテンツに適用された場合の透かしの復元可能性を示していてもよい）。透かし入れのための好適性は、絶対的なメトリック（たとえば1から10のスケールでの）または相対的なメトリック（たとえば、WSVはスピーカー・チャネル10はオブジェクト・チャネル6より透かし入れのために好適であることを示しうるが、どのくらいより好適であるかは指定しない。よって、この例において、WSVは単に相対的な好適性を指定する）であってもよい。透かし好適性値（またはそれから決定される透かし入れデータ）は、メタデータとして、オーディオ・プログラムに含められる（たとえば、プログラムの各チャネルの各セグメントが、チャネルのセグメントの透かし好適性またはチャネルの該セグメントが透かし入れされるべきであるかどうかを示す透かし入れメタデータを含む）。透かし入れメタデータを使って、再生システムは、プログラムの各セグメントのチャネルのどれが透かし入れのために最も好適であるか、あるいはどれが透かし入れされるべきであるかを検出できる。

該第一のクラスにおける典型的な実施形態では、再生システムは、デコードおよびレンダリングされる高々ある最大数（「N」）のオーディオ・プログラムの（または該オーディオ・プログラムから決定される）チャネルに透かし入れすることに制約される。デコードされるオーディオ・プログラムの各セグメントについて、再生システムは、プログラムの諸チャネルについての（たとえば、スピーカー・チャネルのベッドの各スピーカー・チャネルおよびオブジェクト・ベースのオーディオ・プログラムの各オブジェクト・チャネルの）透かし入れ好適性値を比較し、それらの透かし入れ好適性値から、そのセグメントについての最も高く重み付けされた（透かし入れのために最も好適な）諸チャネルN個の部分集合を同定するよう構成される。各セグメントの同定されたN個のチャネルは次いで透かし入れされる。あるセグメントについて透かし入れが完了したら、レンダリングされるべき（上記N個の透かし入れされたチャネルを含む）すべてのチャネルが改めて集められ（同期され）、レンダリングされる（すなわち、上記N個の透かし入れされたチャネルを含むチャネルのフル集合に応答して、スピーカー・フィードが生成される）。

本発明の方法のさまざまな実施形態は、マルチチャネル・オーディオ・プログラムのセグメントの各チャネルについて透かし好適性値（「WSV」）を決定するために、下記のものを含む（だがそれに限定されない）種々の方法を用いる。

１．セグメントのあるチャネルについてのWSVは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツの二乗平均平方根（RMS）振幅から決定される。

２．セグメントのあるチャネルについてのWSVは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツのRMS振幅および該オーディオ・コンテンツに対応するメタデータ（たとえば、プログラムと一緒に送達されるメタデータ）から決定される。たとえば、メタデータは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツに適用される利得（または利得増大または減少）を示してもよく、WSVはそのような利得を乗算したそのセグメントのそのチャネルのRMS振幅から決定されてもよい。

３．当該セグメントは、部屋（たとえば公会堂）の中央または中央近くにおいて知覚されるであろうようにレンダリングされ（当該セグメントのすべてのチャネルから当該セグメントについてスピーカー・フィードが決定され）、レンダリングされたセグメントの各チャネルについてのWSVが、そのレンダリングされたセグメントの前記チャネルのRMS振幅から決定される。たとえば、セグメントは、そのセグメントについての（オブジェクト・ベースのオーディオ・プログラムと一緒に送達される）ゾーン排除メタデータ（zone exclusion metadata）を使ってレンダリングされてもよく、ゾーン排除メタデータは、そのセグメントについての各スピーカー・フィードに対してどのオブジェクト・チャネルが寄与することを許されるか（そしてどのオブジェクト・チャネルが許されないか）を示す（たとえば、該メタデータは、いくつかのオブジェクトを示すオーディオ・コンテンツを、シアターの特定のゾーンにあるスピーカーによってしか再生させないことがある）。このように、メタデータが「排除」ゾーン内のスピーカーが「第一の」オブジェクトを示す音を放出すべきではないことを示す場合、排除ゾーン内のスピーカーについてのスピーカー・フィードは前記第一のオブジェクトを示さず、レンダリングされるセグメントの各対応するチャネルについてのWSVは前記第一のオブジェクトに対応するオーディオ・コンテンツのRMS振幅を示さない（ただし、前記第一のオブジェクト以外のオブジェクトに対応するオーディオ・オブジェクトのRMS振幅を示すことはありうる）。

４．セグメントのあるチャネルについてのWSVは、少なくとも部分的には、そのセグメントのレンダリングの間にそのチャネルを示すコンテンツを放出するよう駆動されるべきスピーカーの数（たとえば、室内の利用可能なスピーカーのフル集合のうちの、そのセグメントのレンダリングの間にそのチャネルを示すコンテンツを放出するよう駆動されるスピーカーの割合）から決定される。透かし入れのいくつかの型は、透かしが複数のスピーカーの間に分散される場合によりよく機能する。たとえば、オブジェクト・チャネルが（比較的多数のスピーカーを駆動することによって）大きいまたは「幅広い」オブジェクトとしてレンダリングされるべきである場合、セグメントのこのチャネルは大きなWSVを割り当てられてもよく（該チャネルが透かし入れに好適であることを示す）、オブジェクト・チャネルが（比較的少数のスピーカーによって）小さいまたは「狭い」オブジェクトとしてレンダリングされるべきである場合、セグメントのこのチャネルは小さなWSVを割り当てられてもよい（該チャネルが透かし入れに好適でないことを示す）。

５．セグメントのあるチャネルについてのWSVは、限られた周波数範囲におけるそのチャネルのオーディオ・コンテンツのエネルギーまたはRMS振幅から決定される。透かし入れアルゴリズムは、しばしば、限られた周波数範囲内のみに情報を埋め込む。そのような透かし入れが用いられるときは、透かし入れされるべき周波数範囲と同じ周波数範囲内の信号エネルギーまたはRMS振幅からWSVを計算することが有用でありうる。

６．セグメントのあるチャネルについてのWSVは、透かし埋め込み器を使って決定される。たいていの透かし入れアルゴリズムは、透かし埋め込み強さを、時間および周波数の関数として調整して、知覚されるオーディオ品質への最小限の影響で最大限の透かし復元を提供するために音響心理学的モデルを実装する。したがって、埋め込み器は、各信号に適用される透かし入れ強さのメトリックを内部的に有し、（あるセグメントのあるチャネルについての）このメトリックが（そのセグメントのそのチャネルについての）WSV値として使用されることができる。

７．セグメントのあるチャネルについてのWSVは、透かし検出器を使って決定される。たいていの透かし入れ検出器は、透かしを復元するほか、抽出された情報の正確さまたは信頼性の指標（たとえば、抽出された透かしが正しくない確率である偽透かし確率）も生成する。（セグメントのあるチャネルについて透かし検出器によって決定される）そのような指標が、（そのセグメントのそのチャネルについての）WSV値として、あるいはそのセグメントのそのチャネルについてのWSVを少なくとも部分的に決定するために、使用されることができる。

８．セグメントのあるチャネルについてのWSVは、RMSまたは信号振幅のほか（そのセグメントにおけるそのチャネルのオーディオ・コンテンツの）少なくとも一つの他の特徴を使って決定される。たとえば、スペクトル拡散透かし入れ技法は、広帯域オーディオ信号に対して最もよく機能し、狭帯域信号に対してはしばしばいい性能を発揮しない。そのセグメントにおけるそのチャネルのオーディオ・コンテンツのスペクトルの形状を表わす帯域幅、スペクトル平坦性または他の任意の特徴が、透かし検出プロセスの堅牢さを推定するために有用でありえ、よってそのセグメントのそのチャネルについてのWSVを少なくとも部分的に決定するために使用されうる。

好ましくは、プログラムのセグメントの諸チャネルについての諸WSVは、透かし入れのための好適性の昇順または降順でそれらのチャネルを示す順序付けられたリストである（または該順序付けられたリストを決定するために処理されることができる）。このようにして、再生システムの透かし入れ機能とは独立な、最良の可能な透かし入れ努力を得ることができる。オーディオ信号は典型的には時間変化し、動的である性質なので、順序付けられたリストは好ましくは時間依存である（すなわち、順序付けられたリストはプログラムの各セグメントについて決定される）。

そのような順序付けられたリストは、最低限のサービス品質を保証するために透かし入れされる必要があるチャネル（「絶対必要な」チャネル）の第一の集合のリストと、透かし入れシステムの機能が単に「絶対必要な」チャネルよりも多くのチャネルの透かし入れを許容する場合に透かし入れされるべき追加的なチャネルを選択するために用いられうる第二の、順序付けられたリストとに分割されることができる。

第二のクラスの実施形態では、本発明は、再生システムのみによって実装される。（透かし入れされ、再生のためにレンダリングされる）マルチチャネル・オーディオ・プログラムを生成するエンコード・システムが本発明の実施形態に従って構成されていることは要求しない（すなわち、エンコード・システムはプログラムのチャネルについてWSVを同定する必要はない）。これらの実施形態では、再生システムが、プログラムの各セグメントのチャネルについてWSVを決定する。

第二のクラスのいくつかの実施形態では、再生システムは、マルチチャネル・プログラムから決定される個々のスピーカー・チャネルの集合の部分集合を、透かし入れするために選択する。たとえば、プログラムが、オブジェクト・チャネルおよびスピーカー・チャネルのベッドを含むオブジェクト・ベースのオーディオ・プログラムである場合、再生システムは、プログラムのオブジェクト・チャネルおよび／またはスピーカー・チャネルから再生スピーカー・チャネル（各再生スピーカー・チャネルは再生スピーカーの集合の異なるスピーカーに対応）の集合を決定してもよく、次いで、再生システムはそれらの再生スピーカー・チャネルの部分集合を透かし入れのために選択する。プログラムのあるセグメントについての部分集合選択は、プログラムのそのセグメントから決定される各スピーカー・チャネルのRMS振幅に基づいていてもよい。

第二のクラスのいくつかの実施形態では、再生システムは、透かし入れされるべきチャネルの部分集合を選択するために（公会堂または他の再生環境に設置されている）再生スピーカーの構成を使う。それは、再生環境における相異なる位置（ゾーン）における再生スピーカーのフル集合の諸グループ（諸部分集合）を同定することによることを含む。これらの実施形態は：プログラムの諸チャネルから、それぞれ再生スピーカーのうちの異なるものによる再生のためである再生スピーカー・チャネルの集合を決定する段階と、再生スピーカー・チャネルの前記集合の部分集合を選択する段階と、再生スピーカー・チャネルの前記集合の前記部分集合における各チャネルに透かし入れする（それにより透かし入れされたチャネルの集合を生成する）段階を含む。これは、再生環境における相異なるゾーンに設置されている再生スピーカーの諸グループを、各グループが前記ゾーンのうちの異なるゾーンに設置されているスピーカーからなるよう同定し、各グループによる再生のためのオーディオ・コンテンツの透かし入れのための好適性を同定し、それらのグループの少なくとも部分集合の各グループによる再生のためのオーディオ・コンテンツの透かし入れのための好適性に従って、再生スピーカー・チャネルの前記集合の前記部分集合を選択することによることを含む。典型的には、プログラム（またはプログラムのセグメント）のオーディオ・コンテンツ（たとえば、オブジェクト・チャネル・コンテンツおよびスピーカー・チャネル・コンテンツ）がレンダリングされ、それにより再生スピーカー・チャネルの集合（各再生スピーカー・チャネルは再生スピーカーの前記集合の異なるスピーカーに対応し、該異なるスピーカーによって再生されるコンテンツを示す）を決定する。再生システムは、スピーカーの各グループまたはグループの部分集合の各グループに対応する一つの再生スピーカー・チャネル（または少数の再生スピーカー・チャネル）（たとえば、各グループにおいて一つのスピーカーを駆動するためのスピーカー・チャネル）を選択し、選択されたそのような各再生スピーカー・チャネルに透かし入れする。これは、典型的には特定の型（単数または複数）のオーディオ・コンテンツを示すチャネルのみの透かし入れを与えることができ、大きな計算コストを被ることなく透かしの（高い成功確率での）復元を可能にすることができる。これらの実施形態は、透かし入れのために選択された各チャネルのオーディオ・コンテンツのラウドネス（または他の特性）を測定しない。その代わりに、（再生スピーカー・チャネルのフル集合のうちの）いくつかの再生スピーカー・チャネルが透かし入れのために好適であり（たとえば、ラウドなコンテンツおよび／または特定の型（単数または複数）のコンテンツを示す可能性が高く）、透かし入れされるべきであると想定する。典型的には、透かし入れのために好適である可能性が高いと想定される再生スピーカー・チャネルのみが透かし入れされ、スピーカーのフル集合の各グループからのスピーカーを駆動するための信号は透かし入れされる。

本発明の諸側面は、本発明の方法の任意の実施形態を実装するよう構成された（たとえばプログラムされた）システムまたは装置、本発明の方法の任意の実施形態またはその段階によって生成されたエンコードされたマルチチャネル・オーディオ・プログラムの少なくとも一つのフレームまたは他のセグメントを（たとえば非一時的な仕方で）記憶するバッファを含むシステムまたは装置、ならびに本発明の方法の任意の実施形態またはその段階を実装するためのコードを（たとえば非一時的な仕方で）記憶するコンピュータ可読媒体（たとえばディスク）を含む。たとえば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサであって本発明の方法の実施形態またはその段階を含むデータに対する多様な動作の任意のものを実行するようソフトウェアもしくはファームウェアによってプログラムされたおよび／または他の仕方で構成されたものであるまたはそれを含むことができる。そのような汎用コンピュータは、入力装置と、メモリと、呈されたデータに応答して本発明の方法の実施形態（またはその段階）を実行するようプログラムされた（および／または他の仕方で構成された）処理回路とを含むコンピュータ・システムであってもよく、あるいはそれを含んでいてもよい。

エンコーダ、送達サブシステムおよびデコーダを含む通常のシステムのブロック図である。エンコーダおよび／またはデコーダは本発明の実施形態に従って構成されている。本発明の方法のある実施形態の図である。本発明の方法のもう一つの実施形態の図である。本発明の方法のある実施形態の図である。スピーカーのアレイの図である。これらのスピーカーのいくつかは、本発明の方法のある実施形態に従って生成された透かし入れされた信号によって駆動されうる。

〈記法および命名法〉
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する（たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する）という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して（たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して）該動作を実行することを表わすために広義で使用される。

請求項を含む本開示を通じて、「システム」という表現は、装置、システムまたはサブシステムを表わす広義で使用される。たとえば、デコーダを実装するサブシステムは、デコーダ・システムと称されてもよく、そのようなサブシステムを含むシステム（たとえば、複数の入力に応答してY個の出力信号を生成するシステムであって、前記サブシステムが入力のうちのM個を生成し、他のY−M個の入力は外部源から受領されるもの）もデコーダ・システムと称されることがある。

請求項を含む本開示を通じて、用語「プロセッサ」は、データ（たとえばオーディオまたはビデオまたは他の画像データ）に対して動作を実行するよう（たとえばソフトウェアまたはファームウェアを用いて）プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わす広義で使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ（または他の構成可能な集積回路またはチップセット）、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび／または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。

請求項を含む本開示を通じて、表現「オーディオ・プロセッサ」および「オーディオ処理ユニット」は、交換可能に、オーディオ・データを処理するよう構成されたシステムを表わす広義で使用される。オーディオ処理ユニットの例は、エンコーダ（たとえばトランスコーダ）、デコーダ、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム（時にビットストリーム処理ツールと称される）を含むがこれに限られない。

請求項を含む本開示を通じて、（たとえば「処理状態メタデータ」という表現における）「メタデータ」という表現は、対応するオーディオ・データ（メタデータをも含むビットストリームのオーディオ・コンテンツ）とは別個の異なるデータを指す。メタデータは、オーディオ・データに関連付けられ、該オーディオ・データの少なくとも一つの特徴または特性（たとえばそのオーディオ・データまたはそのオーディオ・データによって示されるオブジェクトの軌跡に対してどの型（単数または複数）の処理がすでに実行されているか、あるいは実行されるべきか）を示す。メタデータのオーディオ・データとの関連付けは、時間同期的である。このように、現在の（最も最近受領または更新された）メタデータは、対応するオーディオ・データが同時的に、示される特徴をもつおよび／または示される型のオーディオ・データ処理の結果を含むことを示しうる。

請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために使われる。よって、第一の装置が第二の装置に結合する場合、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。

請求項を含む本開示を通じて、以下の表現は以下の定義をもつ。

スピーカーおよびラウドスピーカーは、任意の音を発するトランスデューサを表わすものとして同義に使われる。この定義は、複数のトランスデューサ（たとえばウーファーおよびツイーター）として実装されるラウドスピーカーを含む。

スピーカー・フィード：ラウドスピーカーに直接加えられるオーディオ信号または直列の増幅器およびラウドスピーカーに加えられるオーディオ信号。

チャネル（または「オーディオ・チャネル」）：モノフォニック・オーディオ信号。そのような信号は典型的には、該信号を所望されるまたは公称上の位置にあるラウドスピーカーに直接加えるのと等価であるようにレンダリングされることができる。所望される位置は、物理的なラウドスピーカーでは典型的にそうであるように静的であってもよく、あるいは動的であってもよい。

オーディオ・プログラム：一つまたは複数のオーディオ・チャネル（少なくとも一つのスピーカー・チャネルおよび／または少なくとも一つのオブジェクト・チャネル）および任意的には関連するメタデータ（たとえば、所望される空間的オーディオ呈示を記述するメタデータ）の集合。

スピーカー・チャネル（または「スピーカー・フィード・チャネル」）：（所望されるまたは公称上の位置にある）指定されたラウドスピーカーに関連付けられているまたは定義されたスピーカー配位内での指定されたスピーカー・ゾーンに関連付けられているオーディオ・チャネル。スピーカー・チャネルは、該オーディオ信号を（所望されるまたは公称上の位置にある）指定されたラウドスピーカーにまたは指定されたスピーカー・ゾーン内のスピーカーに直接加えるのと等価であるようにレンダリングされる。

オブジェクト・チャネル：オーディオ源（時にオーディオ「オブジェクト」と称される）によって発される音を示すオーディオ・チャネル。典型的には、オブジェクト・チャネルは、パラメトリックなオーディオ源記述を決定する（たとえば、パラメトリックなオーディオ源記述を示すメタデータがオブジェクト・チャネル内に含められるまたはオブジェクト・チャネルと一緒に提供される）。源記述は、（時間の関数としての）源によって発された音、時間の関数としての源の見かけの位置（たとえば、3D空間座標）および任意的には源を特徴付ける少なくとも一つの追加的パラメータ（たとえば見かけの源サイズまたは幅）を決定してもよい。

オブジェクト・ベースのオーディオ・プログラム：一つまたは複数のオブジェクト・チャネルの集合を（および任意的には少なくとも一つのスピーカー・チャネルも）および任意的には関連するメタデータ（たとえば、オブジェクト・チャネルによって示される音を発するオーディオ・オブジェクトの軌跡を示すメタデータ、あるいは他の仕方でオブジェクト・チャネルによって示される音の所望される空間的オーディオ呈示を示すメタデータまたはオブジェクト・チャネルによって示される音の源である少なくとも一つのオーディオ・オブジェクトの識別情報を示すメタデータ）も含むオーディオ・プログラム。

レンダリング：オーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換するプロセスまたはオーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換し、該スピーカー・フィードを一つまたは複数のラウドスピーカーを使って音に変換するプロセス。（後者の場合、レンダリングは本稿では時にラウドスピーカー「による」レンダリングと称される。）オーディオ・チャネルは、信号を所望される位置にある物理的なラウドスピーカーに直接加えることによって（所望される位置「において」）トリビアルにレンダリングされることができる。あるいは、一つまたは複数のオーディオ・チャネルは、（聴取者にとって）そのようなトリビアルなレンダリングと実質的に等価であるよう設計された多様な仮想化技法の一つを使ってレンダリングされることができる。この後者の場合、各オーディオ・チャネルは、一般には所望される位置とは異なる既知の位置にあるラウドスピーカー（単数または複数）に加えられるべき一つまたは複数のスピーカー・フィードに変換されてもよく、それによりフィードに応答してラウドスピーカーによって発される音は、所望される位置から発しているように知覚されることになる。そのような仮想化技法の例は、ヘッドフォンを介したバイノーラル・レンダリング（たとえばヘッドフォン装着者のために7.1チャネルまでのサラウンドサウンドをシミュレートするドルビー・ヘッドフォン処理を使う）および波面合成（wave field synthesis）を含む。

〈発明の実施形態の詳細な説明〉
本発明の実施形態の例は図１、図２，図３、図４、図５を参照して記述される。

図１は、オーディオ・データ処理システムであって、システムの要素の一つまたは複数が本発明の実施形態に基づいて構成される、オーディオ・データ処理システムのブロック図である。図１のシステムは、図のように一緒に結合されたエンコーダ３、送達サブシステム５およびデコーダ７を含む。サブシステム７はここでは「デコーダ」と称されるが、これは典型的には（エンコードされたマルチチャネル・オーディオ・プログラムを示すビットストリームをパースし、デコードするよう構成された）デコード・サブシステムと、（透かし入れを含む）レンダリングおよびデコード・サブシステムの出力の再生の少なくともいくつかの段階を実装するよう構成された他のサブシステムとを含む再生システムとして実装されることは理解しておくべきである。本発明のいくつかの実施形態は、レンダリングおよび／または再生を実行するよう構成されていない（そして典型的には別個のレンダリングおよび／または再生システムと一緒に使われる）デコーダ（たとえば、本稿に記載される型のバッファ・メモリを含むデコーダ）である。本発明のいくつかの実施形態は、再生システムである（たとえば、デコード・サブシステムと、（透かし入れを含む）レンダリングデコード・サブシステムの出力の再生の少なくともいくつかの段階を実装するよう構成された他のサブシステムとを含む再生システム）。

エンコーダ３の典型的な実装は、オーディオ・データの複数のストリームおよびエンコーダ３に提供される（図１に示されるように）またはエンコーダ３によって生成されるメタデータに応答して、オブジェクト・ベースのエンコードされたマルチチャネル・オーディオ・プログラムを生成するよう構成されている。プログラムを示すビットストリームは、エンコーダ３から送達サブシステム５に出力される。他の実装では、エンコーダ３は、オブジェクト・ベースのエンコードされたオーディオ・プログラムではないマルチチャネル・オーディオ・プログラムを生成し、該プログラムを示すビットストリームを送達サブシステム５に対して出力するよう構成される。エンコーダ３によって生成されたプログラムは、送達サブシステム５によって、（サブシステム８による）デコード、（サブシステム９による）オブジェクト処理および再生システム・スピーカー（図示せず）による再生のための（システム１１による）レンダリングのために、デコーダ７に送達される。

エンコーダ３のエンコード・サブシステム４は、オーディオ・データの複数のストリームをエンコードして、プログラムに含められるべきチャネル（スピーカー・チャネル；典型的にはオブジェクト・チャネルも）のそれぞれのオーディオ・コンテンツを示すエンコードされたオーディオ・ビットストリームを生成するよう構成される。サブシステム４によって実行されるエンコードは典型的には圧縮を実装し、それにより、サブシステム４から出力されるエンコードされたビットストリームの少なくともいくつかは圧縮されたオーディオ・ビットストリームである。

エンコーダ３の典型的な実装では、エンコーダ３の透かし入れメタデータ生成サブシステム２が、本発明のある実施形態に従って透かし入れメタデータ（たとえば、透かし好適性値）を生成するよう結合され、構成される。透かし入れメタデータは、本稿に記載される方法の任意のものによって生成されてもよい。たとえば、該メタデータは、（エンコーダ３によって生成されるべき）マルチチャネル・オーディオ・プログラムのセグメントによって示されるべきオーディオ・データを解析し、プログラムの各セグメントの各チャネルについての少なくとも一つの透かし好適性値を決定することによって生成されてもよい。いくつかの実施形態では、あるセグメントのあるチャネルについての透かし入れメタデータは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツの二乗平均平方根（RMS）振幅から決定される。いくつかの実施形態では、透かし入れメタデータは、プログラムの諸セグメントによって示されるべきオーディオ・データおよび該オーディオ・データに対応するメタデータを解析することによって生成される。たとえば、あるセグメントのあるチャネルについての透かし入れメタデータは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツのRMS振幅からおよびかかるオーディオ・コンテンツに対応するメタデータから決定される。

他の実装では、透かし入れメタデータ生成サブシステム２は、エンコーダ３から省略され、本発明のチャネル選択的透かし入れの実施形態を実行するために必要とされる透かし好適性値は再生システムまたはデコーダにおいて（たとえばデコーダ７のサブシステム１１の実装において）生成される。

エンコーダ６のフォーマット段６は、サブシステム４から出力されるエンコードされたオーディオ・ビットストリームおよび対応するメタデータ（サブシステム２によって生成された透かし入れメタデータを含む）を集めてマルチチャネル・オーディオ・プログラム（たとえば、かかるプログラムを示すビットストリーム）にするよう結合され、構成されている。

ある典型的な実装では、エンコーダ３は、バッファ３Ａを含む。これは、段６から出力されたマルチチャネル・オーディオ・プログラム（たとえばオブジェクト・ベースのオーディオ・プログラム）の少なくとも一つのフレームまたは他のセグメントを（たとえば非一時的な仕方で）記憶する。プログラムは、サブシステム５からデコーダ７への送達のためにバッファ３Ａから出力される。典型的には、プログラムはオブジェクト・ベースのオーディオ・プログラムであり、プログラムの各セグメント（またはいくつかのセグメントのそれぞれ）は、スピーカー・チャネルのベッドのオーディオ・コンテンツと、オブジェクト・チャネルの集合のオーディオ・コンテンツと、メタデータとを含む。メタデータは、典型的には、オブジェクト・チャネルのためのオブジェクト関係メタデータと、オブジェクト・チャネルおよびスピーカー・チャネルのための透かし入れメタデータ（たとえば、透かし好適性値）（エンコーダ３の透かし入れメタデータ生成サブシステム２がそのような透かし入れメタデータを生成した実装の場合）とを含む。

図１のデコーダ７は、図のように一緒に結合された、デコード・サブシステム８、オブジェクト処理サブシステム９およびレンダリング（およし透かし入れ）サブシステム１１を含む。図のようなシステムに対する変形では、要素の一つまたは複数が省略されるまたは追加的なオーディオ・データ処理ユニットが含められる。いくつかの実装では、デコーダ７は、典型的には再生スピーカーの集合（たとえば図５に示されるスピーカー）を含む（たとえば映画シアターまたはエンドユーザーの家庭シアター・システムにおける）再生システムであるまたは該再生システムに含まれる。

いくつかの実装では、デコーダ７は、サブシステム５によって送達されるマルチチャネル・オーディオ・プログラム（たとえばオブジェクト・ベースのマルチチャネル・オーディオ・プログラム）の諸チャネルについて透かし好適性値を決定するよう、本発明の実施形態に従って構成される。これらの実装では、デコーダ７は典型的には、そのような透かし好適性値を使ってプログラムのいくつかのチャネルの（たとえばサブシステム１１における）透かし入れを実行するようにも構成される。

いくつかの実装では、デコーダ７およびエンコーダ３を一緒に考えたものが、本発明の実施形態を実行するよう構成される。これらの実装では、エンコーダ３は、送達されるべきマルチチャネル・オーディオ・プログラム（たとえば、オブジェクト・ベースのマルチチャネル・オーディオ・プログラム）の諸チャネルについての透かし入れメタデータ（たとえば透かし好適性値）を決定し、そのような透かし入れメタデータをプログラムに含めるよう構成される。デコーダ７は、（デコーダ７に送達された）プログラムの対応するチャネルについて透かし入れメタデータ（たとえば透かし好適性値またはそれから決定される値）を同定（パース）し、該透かしメタデータを使ってプログラムの選択されたチャネルの透かし入れを実行するよう構成される。

図１の送達サブシステム５は、エンコーダ３によって生成されたプログラムを記憶および／または伝送（たとえば放送）するよう構成されている。いくつかの実施形態では、サブシステム５は、マルチチャネル・オーディオ・プログラム（たとえばオブジェクト・ベースのオーディオ・プログラム）の、放送システムまたはネットワーク（たとえばインターネット）を通じた、デコーダ７への送達を実装する（たとえば送信する）。いくつかの他の実施形態では、サブシステムは、マルチチャネル・オーディオ・プログラム（たとえばオブジェクト・ベースのオーディオ・プログラム）を記憶媒体（たとえばディスクまたは一組のディスク）に記憶し、デコーダ７が該記憶媒体からプログラムを読むよう構成される。

典型的な動作では、デコーダ７のデコード・サブシステム８は、送達サブシステム５によって送達されたプログラムを受け入れる（受領するまたは読む）。典型的な実装では、サブシステム８はバッファ８Ａを含んでいる。これは、デコーダ７に送達されたオブジェクト・ベースのオーディオ・プログラムの（典型的にはスピーカー・チャネルのベッドのオーディオ・コンテンツと、オブジェクト・チャネルのオーディオ・コンテンツと、メタデータとを含む）少なくとも一つのフレームまたは他のセグメントを（たとえば非一時的な仕方で）記憶する。メタデータは典型的には、プログラムのオブジェクト・チャネルのためのオブジェクト関係メタデータを含み、プログラムのオブジェクト・チャネルおよびスピーカー・チャネルのための、本発明の実施形態に基づいて生成された透かし入れメタデータ（たとえば、透かし好適性値）をも含む。デコード・サブシステム８は、バッファ８Ａからプログラムの各セグメントを読み、そのような各セグメントをデコードする。典型的には、サブシステム８は、プログラムを示すビットストリームをパースして、（たとえばスピーカー・チャネルのベッドの）スピーカー・チャネル、オブジェクト・チャネルおよびメタデータを同定し、該スピーカー・チャネルをデコードし、デコードされたスピーカー・チャネルおよびメタデータをサブシステム９に出力する。サブシステム８は、（必要なら）オブジェクト・チャネルの全部または一部をもデコードし、（デコードされたオブジェクト・チャネルがあればそれを含む）該オブジェクト・チャネルをサブシステム９に出力する。

オブジェクト処理サブシステム９は、デコードされたスピーカー・チャネルおよびオブジェクト・チャネルのオーディオ・サンプルならびに送達されたプログラムのメタデータを（デコード・サブシステム８から）受領し、プログラムによって示されるまたはプログラムから決定されるオブジェクト・チャネルの集合（たとえばオブジェクト・チャネルのフル集合の選択された部分集合）および対応するメタデータをレンダリング・サブシステム１１に出力するよう結合される。サブシステム９は、典型的には、サブシステム８から出力されるデコードされたスピーカー・チャネルおよびそれに対応するメタデータは、不変のまま（サブシステム１１に）素通しにするようにも構成される。サブシステム９は、呈されたオブジェクト・チャネル（および／またはメタデータ）の少なくとも一部を処理して、サブシステム１１に呈するオブジェクト・チャネルおよび対応するメタデータを生成するよう構成されていてもよい。サブシステム９は典型的には、選択されたオブジェクト・チャネルの集合（たとえば、送達されたプログラムのすべてのオブジェクト・チャネルまたは該プログラムのオブジェクト・チャネルのフル集合の部分集合、ここで、該部分集合はデフォルトによりまたは他の仕方で決定される）を決定し、選択されたオブジェクト・チャネルおよびそれに対応するメタデータをサブシステム１１に出力するよう構成される。オブジェクト選択はユーザー選択（コントローラからサブシステム９に呈される制御データによって示される）および／またはサブシステム９が実装するよプログラムされているまたは他の仕方で構成されている規則（たとえば条件および／または制約を示す）によって決定されてもよい。

サブシステム９が、本発明の典型的な実施形態に従って構成される場合、典型的な動作におけるサブシステム９の出力は次のものを含む：
送達されたプログラムのスピーカー・チャネルのベッドを示すオーディオ・サンプル（および任意的には対応するメタデータ、たとえばスピーカー・チャネルについての透かし好適性値も）のストリーム；および
プログラムのオブジェクト・チャネルを示すオーディオ・サンプル（またはたとえば混合によってプログラムのオブジェクト・チャネルから決定されたオブジェクト・チャネル）のストリームおよびメタデータ（オブジェクト関係メタデータおよび任意的にはオブジェクト・チャネルについての透かし好適性値をも含む）の対応するストリーム。

レンダリング・サブシステム１１は、サブシステム９の出力によって決定されるオーディオ・コンテンツを、再生システム・スピーカー（図１には示さず）による再生のためにレンダリングするよう構成されている。該レンダリングは、オーディオ・コンテンツの選択されたチャネルの透かし入れを含む（これは典型的には、サブシステム９から受領されるまたはサブシステム１１によって生成される透かし好適性値を使う）。サブシステム１１は、サブシステム９から出力されるオブジェクト・チャネルによって決定されるオーディオ・オブジェクトを、サブシステム９から出力されるレンダリング・パラメータ（たとえば、レベルおよび空間位置もしくは軌跡を示しうるオブジェクト関係メタデータ値）を使って、利用可能な再生スピーカー・チャネルにマッピングするよう構成される。典型的には、レンダリング・パラメータの少なくともいくつかは、サブシステム９から出力されるオブジェクト関係メタデータによって決定される。レンダリング・システム１１は、サブシステム９によって素通しにされるスピーカー・チャネルのベッドをも受領する。典型的には、サブシステム１１は、知的な混合器であり、利用可能な再生スピーカーのためのスピーカー・フィードを決定するよう構成される。これは、（サブシステム９の出力によって決定される）一つまたは複数のオブジェクトをいくつかの個別のスピーカー・チャネルのそれぞれにマッピングし、該オブジェクトを、プログラムのそれぞれの対応するスピーカー・チャネルによって示される「ベッド」オーディオ・コンテンツと混合することによることを含む。

いくつかの実施形態では、オーディオをレンダリングするよう駆動されるスピーカーは、単に（公称上）水平な面内ではなく、再生環境における任意の位置に位置していると想定される。いくつかのそのような場合、プログラムに含まれるメタデータは、スピーカーの三次元アレイを使って（三次元体積中の）任意の見かけの空間位置にプログラムの少なくとも一つのオブジェクトをレンダリングするためのレンダリング・パラメータを示す。たとえば、オブジェクト・チャネルは、（該オブジェクト・チャネルによって示される）オブジェクトがレンダリングされるべき見かけの空間位置の三次元的な軌跡を示す対応するメタデータを有していてもよい。軌跡は、「床（floor）」位置（再生環境の床にまたは他の水平面内に位置されると想定されるスピーカーの部分集合の平面内）のシーケンスおよび「床上方（above-floor）」位置（それぞれ、再生環境の少なくとも一つの他の水平面内に位置されると想定されるスピーカーの部分集合を駆動することによって決定される）のシーケンスを含んでいてもよい。そのような場合、レンダリングは、本発明によれば、スピーカーが、前記軌跡を含む三次元空間内のオブジェクト位置のシーケンスから発しているものとして知覚される音（関連するオブジェクト・チャネルによって決定される音）が、「ベッド」オーディオ・コンテンツによって決定される音と混合されたものを発するよう駆動されることができるように実行されることができる。

任意的に、デジタル・オーディオ処理（DAP）段（たとえば、いくつかのあらかじめ決定された出力スピーカー・チャネル構成のそれぞれについて一つ）が、レンダリング・サブシステムの出力に対して後処理を実行するよう、レンダリング・サブシステム１１の出力に結合される。そのような処理の例は、知的な等化またはスピーカー仮想化処理を含む。

レンダリング・サブシステム１１（またはサブシステム１１に続くDAP段）の出力はPCMビットストリーム（これが利用可能なスピーカーについてのスピーカー・フィードを決定する）であってもよい。

あるクラスの実施形態では、本発明は、マルチチャネル・オーディオ・プログラムに透かし入れする方法であって、該プログラムの少なくともあるセグメントのチャネル（たとえば、該セグメントから決定されるチャネル）の部分集合を、透かし入れするために選択する段階と、該チャネルの部分集合内の各チャネルに透かし入れする段階とを含む、方法である。いくつかの実施形態では、プログラムは、オブジェクト・ベースのオーディオ・プログラム（たとえば映画サウンドトラック）であり、プログラムの少なくとも一つのオブジェクト・チャネルおよび／または少なくとも一つのスピーカー・チャネルが透かし入れされる。いくつかの実施形態では、レンダリング・システム（たとえば図１のデコーダ７のサブシステム１１の実装）は、オブジェクト・ベースのオーディオ・プログラムから（すなわち、プログラムの少なくとも一つのオブジェクト・チャネルおよび／または少なくとも一つのスピーカー・チャネルから）再生スピーカー・チャネルの集合（各チャネルは再生システムの異なるスピーカーによる再生のためのもの）を決定し、スピーカー・チャネルのこの集合の部分集合が透かし入れされる。いくつかの実施形態では、選択された部分集合は、プログラムのチャネルに応答してスピーカー・フィードが生成される前に（たとえば、プログラムを受領し、デコードし、レンダリングするよう構成されたデコーダによって、あるいはデコードおよびレンダリングのためにデコーダに送達されるべきプログラムの生成の間に）透かし入れされる。いくつかの実施形態では、選択された部分集合は、プログラムのエンコードされたバージョン（たとえば、プログラムを示すエンコードされたビットストリーム）がデコードされたあとに、ただしデコードされたプログラムのオーディオ・コンテンツに応答してスピーカー・フィードが生成される前に、（レンダリング・システムによって）透かし入れされる。いくつかの実施形態では、選択された部分集合は、プログラムのレンダリングの間に透かし入れされる（たとえば、プログラムのチャネルに応答してスピーカー・フィードが生成され、該スピーカー・フィードはプログラムのチャネルに対応するまたはプログラムのチャネルから決定され、スピーカー・フィードの該集合の選択された部分集合が透かし入れされる）。

典型的には、透かし入れは、マルチチャネル・オーディオ・プログラムをデコードし、レンダリングするよう結合され、構成されており、限られた透かし入れ機能をもつ再生システム（すなわち、該再生システムは、無制限の数のオーディオ・プログラム・チャネルに透かし入れする機能をもたない）において（たとえば、図１のデコーダ７の実装において）実行される。

いくつかの実施形態では、（たとえば、映画館に設定されている）デコーダは、マルチチャネル・オーディオ・プログラムを示すエンコードされたビットストリームをデコードし、プログラムのチャネル（スピーカー・チャネルおよび／またはオブジェクト・チャネル）またはプログラムから決定されるチャネル（スピーカー・チャネル）を決定する。それらのチャネルの選択された部分集合は（デコードされたオーディオのレンダリングの前またはレンダリング中に）透かし入れされ、それにより、該プログラムがレンダリングおよび再生を受けたときに、透かしは、再生中にスピーカー集合から放出される音から（たとえば該音を処理することによって）決定できる。こうして、該オーディオが（たとえば携帯電話または他の装置によって不正に）記録される場合、透かしは記録された信号を処理することによって検出可能である。透かしは、再生システムID（たとえば映画館ID）および再生時間を示してもよい。

いくつかの実施形態では、チャネルの選択された部分集合は、透かし検出および透かしに埋め込まれている情報の復元のために最適化される。チャネル部分集合の選択がコンテンツ生成（たとえば、プログラムのエンコードされたバージョンの生成）の間に実行される場合には、透かし入れメタデータ（プログラムのセグメントのシーケンスの各セグメントについて選択された部分集合を示す）が典型的には、プログラムのオーディオ・コンテンツと一緒に配布される（たとえば、透かし入れメタデータがプログラムに含められる）。あるいはまた、チャネル部分集合の選択は、デコーダ、レンダリングまたは再生の間に実行される。

第一のクラスの実施形態では、本発明の方法は、オーディオ・プログラム生成の間に（たとえば図１のエンコーダ３の実装のサブシステム２において）透かし入れメタデータ（たとえば透かし好適性値）を生成する。これは、マルチチャネル・オーディオ・プログラムの諸セグメントに含まれるべきオーディオ・コンテンツを解析し（たとえばそれぞれT分の継続時間をもつプログラムのセグメントにおけるオーディオ・コンテンツを解析する。ここで、Tの値は使用されるべき透かし入れアルゴリズム透かし復元のために必要とされる時間の量に基づく）、プログラムの各セグメントの各チャネルについて少なくとも一つの透かし好適性値（本稿では時に「重み」または透かし好適性重みと称される）を決定することによることを含む。典型的な実施形態では、各透かし好適性値（WSV: watermark suitability value）は、透かし入れするための（プログラムの関連するセグメントにおける）対応するチャネルのコンテンツの好適性を示す（たとえば、WSVは、対応するコンテンツのRMS振幅および／または透かしがコンテンツに適用された場合の透かしの復元可能性を示していてもよい）。透かし好適性値（またはそれから決定される透かし入れデータ）は、メタデータとして、オーディオ・プログラムに含められる（たとえば、プログラムの各チャネルの各セグメントが、そのチャネルのそのセグメントの透かし好適性またはそのチャネルのそのセグメントが透かし入れされるべきであるかどうかを示す透かし入れメタデータを含む）。透かし入れメタデータを使って、再生システムは、プログラムの各セグメントのチャネルのどれが透かし入れのために最も好適であるか、あるいはどれが透かし入れされるべきであるかを（典型的には簡単に）検出できる。

図２は、第一のクラスのある実施形態の図である。図２に示されるように、透かし入れされ、レンダリングされるべきマルチチャネル・プログラムを生成するプロセス（図１のエンコーダ３の実装によって実行されてもよい「コンテンツ生成」プロセス）は、以下の段階を含む。
「重み付け」段階（５０）。これは、プログラムのあるセグメントの各チャネル（すなわち、該セグメントのスピーカー・チャネルの各「ベッド」の各スピーカー・チャネルおよび該セグメントの各オブジェクト・チャネル）の透かし入れ好適性を、該セグメント内のチャネルのコンテンツ（たとえば、該セグメント内のチャネルのオーディオ・コンテンツのRMS振幅）から、および任意的には該オーディオ・コンテンツに対応するメタデータからも、決定することを含む。
該セグメントの各チャネルについての、該セグメントの各チャネルの対応するオーディオ・コンテンツについてのメタデータとして含められるべき、透かし好適性値（「WSV」）を決定する段階（５１）。
パッケージング段階（５２）。これは、該セグメントの各チャネルのオーディオ・コンテンツのサンプル（典型的にはエンコードされたサンプル）を、該セグメントの各前記チャネルについての対応するWSV（段階５１において決定される）およびもとのメタデータとパッケージングしたものを含むビットストリームとして該セグメントをエンコードする。

図２に示されるように、段階５２において生成されたマルチチャネル・プログラムの再生のプロセス（これは図１のデコーダ７の実装によって実行されてもよい）は、以下の段階を含む。
アンパッキング段階（５３）。これは、プログラムのセグメントを、該セグメントの各チャネルのオーディオ・コンテンツと、該セグメントのチャネルに対応するWSVと、該セグメントのチャネルに対応する他のメタデータとにパースすること（そしてそのようなオーディオ・コンテンツを示すオーディオ・サンプルの必要なデコードがあればそれを実行すること）を含む。
該セグメントの諸チャネルについてのWSV値を処理して、前記チャネルのうちのどれが透かし入れされるべきかを同定する（選択する）段階（５４）。
段階５４において選択された前記セグメントの各チャネルに透かし入れする段階（５５）。
前記セグメントの各透かし入れされた段階の透かし入れされたオーディオ・コンテンツと、レンダリングされるべき前記セグメントの各他のチャネルの透かし入れされていないオーディオ・コンテンツとを同期させる段階（５６）。
レンダリングされるべき前記セグメントの各チャネルの、同期された、透かし入れされたおよび透かし入れされていないオーディオ・コンテンツをレンダリングし、それにより前記セグメントの各前記チャネルについてのスピーカー・フィードを生成する段階（５７）。

１．セグメントのあるチャネルについてのWSVは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツの二乗平均平方根（RMS）振幅から（たとえば、該RMS振幅であるように）決定される。

２．セグメントのあるチャネルについてのWSVは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツのRMS振幅および該オーディオ・コンテンツに対応するメタデータ（プログラムと一緒に送達されるメタデータ）から決定される。たとえば、メタデータは、そのセグメントにおけるそのチャネルのオーディオ・コンテンツに適用される利得（または利得増大または減少）を示してもよい。

３．当該セグメントは、部屋（たとえば公会堂）の中央または中央近くにおいて知覚されるであろうようにレンダリングされ（当該セグメントのすべてのチャネルから当該セグメントについてスピーカー・フィードが決定され）、レンダリングされたセグメントの各チャネルについてのWSVが、そのレンダリングされたセグメントの前記チャネルのRMS振幅から（たとえば図１のデコーダ７のサブシステム１１の実装によってまたは図１のエンコーダ３のサブシステム２によって）決定される。たとえば、セグメントは、そのセグメントについての（オブジェクト・ベースのオーディオ・プログラムと一緒に送達される）ゾーン排除メタデータ（zone exclusion metadata）を使ってレンダリングされてもよく、ゾーン排除メタデータは、そのセグメントについての各スピーカー・フィードに対してどのオブジェクト・チャネルが寄与することを許されるか（そしてどのオブジェクト・チャネルが許されないか）を示す（たとえば、該メタデータは、いくつかのオブジェクトを示すオーディオ・コンテンツを、シアターの特定のゾーンにあるスピーカーによってしか再生させないことがある）。このように、メタデータが「排除」ゾーン内のスピーカーが「第一の」オブジェクトを示す音を放出すべきではないことを示す場合、排除ゾーン内のスピーカーについてのスピーカー・フィードは前記第一のオブジェクトを示さず、レンダリングされるセグメントの各対応するチャネルについてのWSVは前記第一のオブジェクトに対応するオーディオ・コンテンツのRMS振幅を示さない（ただし、前記第一のオブジェクト以外のオブジェクトに対応するオーディオ・オブジェクトのRMS振幅を示すことはありうる）。

４．セグメントのあるチャネルについてのWSVは、少なくとも部分的には、そのセグメントのレンダリングの間にそのチャネルを示すコンテンツを放出するよう駆動されるべきスピーカーの数（たとえば、室内の利用可能なスピーカーのフル集合のうちの、そのセグメントのレンダリングの間にそのチャネルを示すコンテンツを放出するよう駆動されるスピーカーの割合）から決定される。透かし入れのいくつかの型は、透かしが複数のスピーカーの間に分散される場合によりよく機能する。たとえば、オブジェクト・チャネルが（比較的多数のスピーカーを駆動することによって）大きいまたは「ワイドな」オブジェクトとしてレンダリングされるべきである場合、セグメントのこのチャネルは大きなWSVを割り当てられてもよく（該チャネルが透かし入れに好適であることを示す）、オブジェクト・チャネルが（比較的少数のスピーカーによって）小さいまたは「狭い」オブジェクトとしてレンダリングされるべきである場合、セグメントのこのチャネルは小さなWSVを割り当てられてもよい（該チャネルが透かし入れに好適でないことを示す）。

６．セグメントのあるチャネルについてのWSVは、（たとえば図１のデコーダ７のサブシステム１１の実施形態によって実装される）透かし埋め込み器を使って決定される。たいていの透かし入れアルゴリズムは、透かし埋め込み強さを、時間および周波数の関数として調整して、知覚されるオーディオ品質への最小限の影響で最大限の透かし復元を提供するために音響心理学的モデルを実装する。したがって、埋め込み器は、各信号に適用される透かし入れ強さのメトリックを内部的に有しており、（あるセグメントのあるチャネルについての）このメトリックが（そのセグメントのそのチャネルについての）WSV値として使用されることができる。

７．セグメントのあるチャネルについてのWSVは、（たとえば図１のデコーダ７のサブシステム１１の実施形態によって実装される）透かし検出器を使って決定される。たいていの透かし入れ検出器は、透かしを復元するほか、抽出された情報の正確さまたは信頼性の指標（たとえば、抽出された透かしが正しくない確率である偽透かし確率）も生成する。（セグメントのあるチャネルについて透かし検出器によって決定される）そのような指標が、（そのセグメントのそのチャネルについての）WSV値として、あるいはそのセグメントのそのチャネルについてのWSVを少なくとも部分的に決定するために、使用されることができる。

第二のクラスの実施形態では、本発明は、再生システムのみによって（たとえば図１のデコーダ７の実装によって）実装される。（透かし入れされ、再生のためにレンダリングされる）マルチチャネル・オーディオ・プログラムを生成するエンコード・システムが本発明の実施形態に従って構成されていることは要求しない（すなわち、エンコード・システムはプログラムのチャネルについてWSVを同定する必要はない）。これらの実施形態では、再生システムが、たとえば上記の方法のいずれかを使って、プログラムの各セグメントのチャネルについてWSVを決定する。図３は、第二のクラスのそのような実施形態の図である（これは、図１のデコーダ７の実装によって実行されてもよい）。

図３に示されるように、マルチチャネル・プログラムの再生のプロセスは、以下の段階を含む。
アンパッキング段階（６０）。これは、プログラムのセグメントを、該セグメントの各チャネルのオーディオ・コンテンツ（および対応するメタデータがあればそれも）にパースすること（そしてそのようなオーディオ・コンテンツを示すオーディオ・サンプルの必要なデコードがあればそれを実行すること）を含む。
「重み付け」段階（６１）。これは、プログラムのあるセグメントの各チャネル（すなわち、該セグメントのスピーカー・チャネルの各「ベッド」の各スピーカー・チャネルおよび該セグメントの各オブジェクト・チャネル）の透かし入れのための好適性を示す透かし入れ好適性データを、該セグメント内のそのチャネルのコンテンツ（たとえば、該セグメント内のそのチャネルのオーディオ・コンテンツのRMS振幅）から、および任意的には該オーディオ・コンテンツに対応するメタデータからも、生成することを含む。
透かし入れ好適性データを使って該セグメントの諸チャネルの部分集合を選択し、該セグメントのチャネルの前記部分集合の各チャネルに透かし入れする段階（６２）。
前記セグメントの各透かし入れされたチャネルの透かし入れされたオーディオ・コンテンツと、レンダリングされるべき前記セグメントの他の各チャネルの透かし入れされていないオーディオ・コンテンツとを同期させる段階（６３）。
レンダリングされるべき前記セグメントの各チャネルの、同期された、透かし入れされたおよび透かし入れされていないオーディオ・コンテンツをレンダリングし、それにより前記セグメントの各前記チャネルについてのスピーカー・フィードを生成する段階（６４）。

第二のクラスのいくつかの実施形態では、再生システムは、マルチチャネル・プログラムから決定される個々のスピーカー・チャネルの集合の部分集合を、透かし入れするために選択する。たとえば、プログラムが、オブジェクト・チャネルおよびスピーカー・チャネルのベッドを含むオブジェクト・ベースのオーディオ・プログラムである場合、再生システム（たとえば、図１のデコーダ７のサブシステム１１の実装）は、プログラムのオブジェクト・チャネルおよび／またはスピーカー・チャネルから再生スピーカー・チャネル（各再生スピーカー・チャネルは再生スピーカーの集合の異なるスピーカーに対応）の集合を決定してもよく、次いで、再生システムはそれらの再生スピーカー・チャネルの部分集合を透かし入れのために選択する。プログラムのあるセグメントについての部分集合選択は、プログラムのそのセグメントから決定される各スピーカー・チャネルのRMS振幅に基づいていてもよく、あるいは別の基準に基づいていてもよい。図４は、第二のクラスのそのような実施形態の図である（これは図１のデコーダ７の実装によって実行されてもよい）。

図４に示されるように、マルチチャネル・プログラムの再生のプロセスは、以下の段階を含む。
アンパッキング段階（７０）。これは、プログラムのあるセグメントを、該セグメントの各チャネルのオーディオ・コンテンツ（および対応するメタデータがあればそれも）にパースすること（そしてそのようなオーディオ・コンテンツを示すオーディオ・サンプルの必要なデコードがあればそれを実行すること）を含む。
前記セグメントのオーディオ・コンテンツをレンダリングし、それにより再生スピーカー・チャネルの集合を決定する段階（７１）（各再生スピーカー・チャネルは再生スピーカーの集合の異なるスピーカーに対応し、異なるスピーカーによって再生されるコンテンツを示す）。
「重み付け」段階（７２）。これは、再生スピーカー・チャネルのそれぞれの透かし入れのための好適性を示す透かし入れ好適性データを生成することを含む。
透かし入れ好適性データを使って該セグメントの再生スピーカー・チャネルチャネルの部分集合を選択し、該セグメントの再生スピーカー・チャネルの前記部分集合の各チャネルに透かし入れする段階（７３）。
前記セグメントの再生スピーカー・チャネルの部分集合の各透かし入れされたチャネルの透かし入れされたオーディオ・コンテンツと、前記セグメントの再生スピーカー・チャネルの部分集合の他の各チャネルの透かし入れされていないオーディオ・コンテンツとを同期させる段階（７４）。

第二のクラスのいくつかの実施形態では、再生システムは、再生環境中の相異なる位置（ゾーン）にある再生スピーカーのフル集合のグループ（部分集合）を同定することによることを含め、透かし入れされるべきチャネルの部分集合を選択するために、（公会堂または他の再生環境に設置されている）再生スピーカーの構成を使う。これらの実施形態は、プログラムの諸チャネルから再生スピーカー・チャネルの集合を決定する段階であって、各再生スピーカー・チャネルは再生スピーカー（各スピーカーは一つまたは複数のトランスデューサを有していてもよい）のうちの異なるものによる再生のためである、段階と、再生スピーカー・チャネルの前記集合の部分集合を透かし入れのために選択する段階と、再生スピーカー・チャネルの前記集合の前記部分集合内の各チャネルに透かし入れする（それにより透かし入れされたチャネルの集合を生成する）段階とを含む。これは、再生環境における相異なるゾーンに設置されている再生スピーカーの諸グループを、各グループが前記ゾーンのうちの異なるゾーンに設置されているスピーカーからなるよう同定し、各グループによる再生のためのオーディオ・コンテンツの透かし入れのために好適性を同定し、それらのグループの少なくとも部分集合の各グループによる再生のためのオーディオ・コンテンツの透かし入れのための前記好適性に従って、再生スピーカー・チャネルの前記集合の前記部分集合を選択することによることを含む。典型的には、プログラム（またはプログラムのセグメント）のオーディオ・コンテンツ（たとえば、オブジェクト・チャネル・コンテンツおよびスピーカー・チャネル・コンテンツ）がレンダリングされ、それにより再生スピーカー・チャネルの集合（各再生スピーカー・チャネルは再生スピーカーの前記集合の異なるスピーカーに対応し、該異なるスピーカーによって再生されるコンテンツを示す）を決定する。再生システムは、スピーカーの各グループまたはグループの部分集合の各グループに対応する一つの再生スピーカー・チャネル（または少数の再生スピーカー・チャネル）（たとえば、各グループにおいて一つのスピーカーを駆動するためのスピーカー・チャネル）を選択し、選択されたそのような各再生スピーカー・チャネルに透かし入れする。これは、典型的には特定の型（単数または複数）のオーディオ・コンテンツを示すチャネルのみの透かし入れを与えることができ、大きな計算コストを被ることなく透かしの（高い成功確率での）復元を可能にすることができる。これらの実施形態は、透かし入れのために選択された各チャネルのオーディオ・コンテンツのラウドネス（または他の特性）を測定しない。その代わりに、（再生スピーカー・チャネルのフル集合のうちの）いくつかの再生スピーカー・チャネルが透かし入れのために好適であり（たとえば、ラウドなコンテンツおよび／または特定の型（単数または複数）のコンテンツを示す可能性が高く）、透かし入れされるべきであると想定する。典型的には、透かし入れのために好適である可能性が高いと想定される再生スピーカー・チャネルのみが透かし入れされ、スピーカーのフル集合の各グループからのスピーカーを駆動するための信号は透かし入れされる。第二のクラスのそのような実施形態の例が図５を参照して記述される。

図５は、部屋（たとえば映画シアター）における再生スピーカーのアレイを示している。スピーカーは次のグループにグループ化される：前方左スピーカー（L）、前方中央スピーカー（C）、前方右スピーカー（R）、左側方スピーカー（Lss1,Lss2,Lss3,Lss4）、右側方スピーカー（Rss1,Rss2,Rss3,Rss4）、左天井取り付けスピーカー（Lts1,Lts2,Lts3,Lts4）、右天井取り付けスピーカー（Rts1,Rts2,Rts3,Rts4）、左後方（サラウンド）スピーカー（Lrs1,Lrs2）および右後方（サラウンド）スピーカー（Rrs1,Rrs2）。

前方左スピーカー（L）、前方中央スピーカー（C）、前方右スピーカー（R）、左後方スピーカー（Lrs1,Lrs2）および右後方スピーカー（Rrs1,Rrs2）によって再生されるコンテンツは、透かし入れのために好適であると想定され、よってこれらのスピーカーのそれぞれに対応する再生スピーカー・チャネルは（たとえばデコーダ７のサブシステム１１の実装によって）透かし入れされる。左側方スピーカー（Lss1,Lss2,Lss3,Lss4）および右側方スピーカー（Rss1,Rss2,Rss3,Rss4）によって再生されるコンテンツは透かし入れのためにそれほど好適ではないと想定され、よってこれら二つのグループのそれぞれにおいて二つまたは三つのスピーカー（すなわち、図５に示されるところではLss1,Lss2,Lss3,Rss1,Rss2）だけに対応する再生スピーカー・チャネルが（たとえばデコーダ７のサブシステム１１の実装によって）透かし入れされる。左天井取り付けスピーカー（Lts1,Lts2,Lts3,Lts4）および右天井取り付けスピーカー（Rts1,Rts2,Rts3,Rts4）によって再生されるべきコンテンツも透かし入れのためにそれほど好適ではないと想定され、よってこれら二つのグループのそれぞれにおいて二つスピーカー（すなわち、図５に示されるところではLts1,Lts2,Rts1,Rts2）だけに対応する再生スピーカー・チャネルが（たとえばデコーダ７のサブシステム１１の実装によって）透かし入れされる。

再生スピーカー・チャネルのある最大数（「M」）だけがマークされることがあらかじめ決定されている場合（たとえば図５ではM＝16）、プログラムのレンダリングは「M」個より多い再生スピーカーを駆動するための再生スピーカー・チャネル（たとえば、図５では23個の再生スピーカーを駆動するための23個の再生スピーカー・チャネル）を生成するが、透かし入れされるべき特定の再生スピーカー・チャネルは、次のように選択されてもよい：スピーカーの各グループについて一つの再生スピーカー・チャネル（たとえば、図５におけるL,C,R,Lss1,Lrs1,Rss1,Rrs1,Lts1,Rts1）が透かし入れのために選択される；次いで、透かし入れされるべきチャネルの総数が「M」を超えない限り（または透かし入れされるべきチャネルの総数が「M」に達するまで）、各グループからの追加的な再生スピーカー・チャネルが透かし入れのために選択される（たとえば、図５におけるLss2,Lrs2,Rss2,Rrs2,Lts2,,Rts2）；などとなる。このようにして、図５の例では、一つのグループからの第三の再生スピーカー・チャネル（Lss3）が透かし入れのために選択され、それで透かし入れされるべきチャネルの総数が「M」（すなわち、図５の例ではM＝16）になる。典型的には、マークされるべきスピーカー・チャネルの選択はある再生環境（たとえば公会堂）について一度行なわれ、この選択は、該環境において再生されるコンテンツに関わりなく、変化しない（すなわち静的なままである）。

用いられる透かし入れ技術に依存して、透かし入れはしばしば、透かし〔ウォーターマーク〕信号がオーディオ信号に加算される加法的プロセスとして定式化されることができる。透かし信号は、ホスト（オーディオ）信号に従ってレベルおよびスペクトル属性の点で調整される。よって、透かしは、十分なフェード期間（典型的には約10ms以上）が使われる限り、アーチファクトを作り出すことなく、あるストリーム（チャネル）でフェードアウトされ、別のストリーム（チャネル）でフェードインされることが簡単にできる。こうして、透かし入れのためのチャネルのフル集合の部分集合の選択は、典型的には、数十ミリ秒のオーダーの時間的粒度をもって実行されうる（すなわち、選択が、数十ミリ秒のオーダーの継続時間をもつプログラムの各セグメントについて実行される）。ただし、より底頻度で実行する（すなわち、数十ミリ秒のオーダーより長い継続時間をもつプログラムの各セグメントについて選択を実行する）ことが有益であることがありうる。

（たとえば映画スタジオにおける）コンテンツ生成システムは典型的には、コンテンツ・オーサリング・プロセスの間にオーディオ透かし入れを有効または無効にすることができる。コンテンツ生成の間に透かし入れ属性を動的に修正することによって（すなわち、透かし入れされるべきコンテンツのチャネルの異なる部分集合を動的に選択することによって）、ミキシング・エンジニアは透かし入れプロセスに影響して、コンテンツにおける枢要な抜粋が透かし入れされるまたはされないこと（またはより知覚可能なまたはそれほど知覚可能でない透かし入れにかけられること）を保証しうる。

本発明の実施形態は、ハードウェア、ファームウェアまたはソフトウェアまたはそれらの組み合わせにおいて（たとえばプログラム可能な論理アレイとして）実装されてもよい。たとえば、図１のエンコーダ３またはデコーダ７またはデコーダ７のサブシステム８、９および／または１１が、適切にプログラムされた（または他の仕方で構成された）ハードウェアまたはファームウェアにおいて、たとえばプログラムされた汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサとして実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していない。特に、さまざまな汎用機械が、本願の教示に従って書かれたプログラムとともに使用されてもよく、あるいは必要とされる方法ステップを実行するためにより特化した装置（たとえば集積回路）を構築することがより便利であることがある。このように、本発明は、一つまたは複数のプログラム可能なコンピュータ・システム（図１のエンコーダ３またはデコーダ７またはデコーダ７のサブシステム８、９および／または１１を実装するコンピュータ・システム）上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは、少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム（揮発性および不揮発性メモリおよび／または記憶要素を含む）、少なくとも一つの入力装置またはポートおよび少なくとも一つの出力装置またはポートを有する。本稿に記載される機能を実行し、出力情報を生成するようプログラム・コードが入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。

そのような各プログラムは、コンピュータ・システムと通信するためにいかなる所望されるコンピュータ言語（機械、アセンブリーまたは高水準手続き型、論理的またはオブジェクト指向のプログラミング言語を含む）において実装されてもよい。いずれの場合にも、言語はコンパイルされる言語でもインタープリットされる言語でもよい。

たとえば、コンピュータ・ソフトウェア命令のシーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド式のソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応してもよい。

そのような各コンピュータ・プログラムは好ましくは、汎用または専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス（たとえば半導体メモリまたはメディアまたは磁気式もしくは光学式メディア）に記憶されるまたはダウンロードされ、記憶媒体またはデバイスがコンピュータ・システムによって読まれたときに、本稿に記載される手順を実行するようコンピュータを構成するまたは動作させる。本発明のシステムは、コンピュータ・プログラムをもって構成された（すなわちコンピュータ・プログラムを記憶している）コンピュータ可読記憶媒体として実装されてもよく、そのように構成された記憶媒体はコンピュータ・システムを、本稿に記載される機能を実行するよう特定のあらかじめ定義された仕方で動作させる。

諸実装が例として、例示的な特定の実施形態を用いて記述されてきたが、本発明の実装は開示される実施形態に限定されないことは理解しておくものとする。逆に、当業者に明白なさまざまな修正および類似の構成をカバーすることが意図されている。したがって、付属の請求項の範囲は、そのようなあらゆる修正および類似の構成を包含するよう最も広い解釈が与えられるべきである。

Claims

マルチチャネル・オーディオ・プログラムに透かし入れする方法であって、
（ａ）前記プログラムの少なくともあるセグメントのチャネルの部分集合を、透かし入れするために選択する段階であって、前記部分集合の前記選択は、前記プログラムまたは前記プログラムの再生のために用いられる再生スピーカーの構成に基づく、段階と；
（ｂ）前記チャネルの部分集合内の各チャネルに透かし入れし、それにより透かし入れされたチャネルの集合を生成する段階と；
（ｃ）前記プログラムのセグメント内のオーディオ・コンテンツを解析し、前記セグメントにおける前記プログラムの諸チャネルのオーディオ・コンテンツの透かし入れについての好適性を示す値を決定する段階をさらに含み、
段階（ａ）は、前記値に応答して前記チャネルの部分集合を選択する段階を含み、
段階（ｃ）は：
前記セグメントにおける各チャネルのオーディオ・コンテンツの二乗平均平方根振幅を決定する段階または
前記セグメントにおける各チャネルの、限られた周波数範囲におけるオーディオ・コンテンツのエネルギーまたは二乗平均平方根振幅を決定する段階を含む、
方法。
前記プログラムの諸チャネルから、それぞれ再生環境に設置されているスピーカーの集合の異なるスピーカーによる再生のための、再生スピーカー・チャネルの集合を決定する段階であって、段階（ａ）において選択される前記プログラムのチャネルの前記部分集合は、前記再生スピーカー・チャネルの集合の部分集合であり、
段階（ａ）は：
再生環境における相異なるゾーンに設置されているスピーカーの諸グループを、各グループが前記ゾーンのうちの異なるゾーンに設置されているスピーカーからなるよう同定し、各グループによる再生のためのオーディオ・コンテンツの透かし入れ好適性を同定する段階と；
それらのグループの少なくとも部分集合の各グループによる再生のためのオーディオ・コンテンツの透かし入れ好適性に従って、再生スピーカー・チャネルの前記集合の前記部分集合を選択する段階とをさらに含む、
請求項１記載の方法。
段階（ａ）および（ｂ）の後、透かし入れされたチャネルの前記集合および前記プログラムの少なくとも一つの透かし入れされていないチャネルに応答してスピーカー・フィードを生成する段階をさらに含む、請求項１または２記載の方法。
前記プログラムはチャネルの集合を含み、当該方法は：
前記プログラムのチャネルの少なくともいくつかに応答してスピーカー・フィードを生成することによることを含め前記プログラムをレンダリングする段階をさらに含み、
段階（ａ）は前記スピーカー・フィードの部分集合を透かし入れのために選択する段階を含み、段階（ｂ）はスピーカー・フィードの前記部分集合における各スピーカー・フィードの少なくともあるセグメントに透かし入れする段階を含む、
請求項１ないし３のうちいずれか一項記載の方法。
前記プログラムはオブジェクト・ベースのオーディオ・プログラムであり、当該方法は：
前記プログラムの少なくとも一つのオブジェクト・チャネルおよび／または少なくとも一つのスピーカー・チャネルから、それぞれ再生システムの異なるスピーカーによる再生のための、再生スピーカー・チャネルの集合を決定する段階を含み、段階（ａ）において選択されるチャネルの前記部分集合は、前記再生スピーカー・チャネルの集合の部分集合である、
請求項１ないし４のうちいずれか一項記載の方法。
前記プログラムは透かし入れメタデータを含み、当該方法は、前記プログラムをデコードし、レンダリングするようデコーダを動作させる段階を含み、段階（ａ）は、前記透かし入れメタデータを使ってチャネルの前記部分集合を選択する段階を含む、請求項１ないし５のうちいずれか一項記載の方法。
前記透かし入れメタデータは透かし好適性値であり、前記プログラムのセグメントの前記透かし好適性値のそれぞれは、そのセグメントにおける前記プログラムの対応するチャネルのオーディオ・コンテンツの透かし入れのための好適性を示す、請求項６記載の方法。
前記セグメントの少なくとも一つのチャネルについての透かし入れ好適性値は、少なくとも部分的には、前記セグメントの再生の間に前記チャネルを示すコンテンツを発するよう駆動されるべきスピーカーの数から決定される、請求項１ないし７のうちいずれか一項記載の方法。
オーディオ再生システムであって：
エンコードされたビットストリームをパースし、デコードして、それからマルチチャネル・オーディオ・プログラムを示すオーディオ・データおよびメタデータを抽出するよう結合され、構成されたデコード・サブシステムと；
前記プログラムの少なくともあるセグメントのチャネルの部分集合を、透かし入れするために選択し、前記チャネルの部分集合内の各チャネルを示すデータに透かし入れし、それにより透かし入れされたチャネルの集合を決定するよう結合され、構成された第二のサブシステムとを含んでおり、
前記部分集合の前記選択は、前記プログラムまたは前記プログラムの再生のために用いられる再生スピーカーの構成に基づき、
前記第二のサブシステムは、前記プログラムのセグメントのオーディオ・データを解析し、前記セグメントにおける前記プログラムの諸チャネルのオーディオ・コンテンツの透かし入れ好適性を示す値を決定する段階であって、前記セグメントにおける各チャネルのオーディオ・データの二乗平均平方根振幅を決定するまたは前記セグメントにおける各チャネルの、限られた周波数範囲におけるオーディオ・データのエネルギーまたは二乗平均平方根振幅を決定することによることを含む、段階と、前記値に応答して前記チャネルの部分集合を選択する段階とを実行するよう構成されている、
システム。
前記第二のサブシステムが、前記オーディオ・データおよび前記メタデータから、それぞれ再生環境に設置されているスピーカーの集合の異なるスピーカーによる再生のための、再生スピーカー・チャネルの集合を決定し、前記チャネルの部分集合として、再生スピーカー・チャネルの前記集合の部分集合を選択するよう構成されており、該選択は：
再生環境における相異なるゾーンに設置されているスピーカーの諸グループを、各グループが前記ゾーンのうちの異なるゾーンに設置されているスピーカーからなるよう同定し、各グループによる再生のためのオーディオ・コンテンツの透かし入れ好適性を同定し；
それらのグループの少なくとも部分集合の各グループによる再生のためのオーディオ・コンテンツの透かし入れ好適性に従って、再生スピーカー・チャネルの前記集合の前記部分集合を選択することによることを含む、
請求項９記載のシステム。
前記プログラムはチャネルの集合を含み、前記第二のサブシステムは：
前記プログラムのチャネルの少なくともいくつかに応答してスピーカー・フィードを生成することによることを含め前記プログラムをレンダリングし、
前記スピーカー・フィードの部分集合を透かし入れのために選択し、スピーカー・フィードの前記部分集合における各スピーカー・フィードの少なくともあるセグメントに透かし入れするよう構成されている、
請求項９または１０記載のシステム。
前記プログラムはオブジェクト・ベースのオーディオ・プログラムであり、前記第二のサブシステムは、前記プログラムの少なくとも一つのオブジェクト・チャネルおよび／または少なくとも一つのスピーカー・チャネルから、それぞれ再生システムの異なるスピーカーによる再生のための、再生スピーカー・チャネルの集合を決定し、前記チャネルの部分集合として、前記再生スピーカー・チャネルの集合の部分集合を選択するよう構成されている、請求項９ないし１１のうちいずれか一項記載のシステム。
前記プログラムは透かし入れメタデータを含み、前記デコード・サブシステムは前記透かし入れメタデータを抽出するよう構成されており、前記第二のサブシステムは、前記透かし入れメタデータを使って前記チャネルの部分集合を透かし入れのために選択するよう構成されている、請求項９ないし１２のうちいずれか一項記載のシステム。
前記透かし入れメタデータは透かし好適性値であり、前記プログラムのセグメントの前記透かし好適性値のそれぞれは、そのセグメントにおける前記プログラムの対応するチャネルのオーディオ・コンテンツの透かし入れのための好適性を示す、請求項１３記載のシステム。
前記セグメントの少なくとも一つのチャネルについての透かし入れ好適性値は、少なくとも部分的には、前記セグメントの再生の間に前記チャネルを示すコンテンツを発するよう駆動されるべきスピーカーの数から決定される、請求項９ないし１４のうちいずれか一項記載のシステム。
エンコードされたマルチチャネル・オーディオ・プログラムを示すビットストリームを生成するよう構成されたオーディオ・エンコーダであって、
オーディオ・コンテンツのストリームの諸セグメントに応答して透かし入れメタデータを生成するよう結合され、構成された第一のサブシステムであって、前記透かし入れメタデータは各ストリームの少なくとも一つのセグメントの透かし入れについての好適性を示す、または前記透かし入れメタデータは各ストリームの少なくとも一つのセグメントに対して透かし入れが実行されるべきであるかどうかを示す、第一のサブシステムと；
オーディオ・コンテンツの前記ストリームの少なくとも一部をエンコードして、オーディオ・コンテンツのエンコードされたストリームを生成し、オーディオ・コンテンツの各エンコードされたストリーム、エンコードされていないオーディオ・コンテンツの各ストリームおよび前記透かし入れメタデータを前記ビットストリームに含めることによることを含め、前記エンコードされたマルチチャネル・オーディオ・プログラムを示す前記ビットストリームを生成するよう結合され、構成されている第二のサブシステムとを含み、
前記第一のサブシステムは、オーディオ・コンテンツの各ストリームの少なくとも一つのセグメントを解析し、前記セグメントにおける各ストリームのオーディオ・コンテンツの透かし入れ好適性を示す値を決定する段階であって、前記セグメントにおける前記各ストリームのオーディオ・コンテンツの二乗平均平方根振幅を決定するまたは前記セグメントにおける各チャネルの、限られた周波数範囲におけるオーディオ・コンテンツのエネルギーまたは二乗平均平方根振幅を決定することによることを含む、段階と、前記値に応答して前記チャネルの部分集合を選択する段階とを実行するよう構成されている、
エンコーダ。
前記セグメントの少なくとも一つのチャネルについての透かし入れ好適性値は、少なくとも部分的には、前記セグメントの再生の間に前記チャネルを示すコンテンツを発するよう駆動されるべきスピーカーの数から決定される、請求項１６記載のエンコーダ。