JP2023078431A

JP2023078431A - 高次アンビソニックス・オーディオ信号の再生のための方法および装置

Info

Publication number: JP2023078431A
Application number: JP2023051465A
Authority: JP
Inventors: ジャックスピーター; Jax Peter; ベームヨハネス; Johannes Boehm; ギベンズレッドマンウィリアム; Gibbens Redmann William
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-03-06
Filing date: 2023-03-28
Publication date: 2023-06-06
Also published as: CN106714072A; JP6325718B2; CN106714072B; CN106954173B; EP2637428A1; CN106714074B; KR20210049771A; KR102182677B1; KR20200132818A; KR20200002743A; US11570566B2; JP6548775B2; KR20130102015A; EP2637428B1; EP2637427A1; CN103313182B; KR20220112723A; US20230171558A1; JP2019193292A; US11228856B2

Abstract

【課題】現在の画面上に呈示されるべきであるがもとの異なる画面のために生成されたものであるビデオ信号に割り当てられたもとの高次アンビソニックス・オーディオ信号の再生のための方法および装置を提供する。【解決手段】記憶装置９２は、ＨＯＡエンコードされた信号を記憶している。たとえば映画館における呈示のために、装置９２からのＨＯＡ表現された信号は、ＨＯＡデコーダ９３においてＨＯＡデコードされ、歪め段９４を通ってレンダラー９５にはいり、一組のスピーカーのためのスピーカー信号９１として出力される。歪め段９４は、現在のスクリーンの間の幅および可能性としては高さおよび可能性としては曲率の差から導かれる再生適応情報９０を受け取り、これをデコードされたＨＯＡ信号をしかるべく適応させるために使う。【選択図】図９

Description

本発明は、現在の画面上に呈示されるべきであるがもとの異なる画面のために生成されたものであるビデオ信号に割り当てられたもとの高次アンビソニックス・オーディオ信号の再生のための方法および装置に関する。

球状マイクロホン・アレイの三次元音場を記憶および処理する一つの方法は、高次アンビソニックス（HOA: Higher-Order Ambisonics）表現である。アンビソニックスは、原点またはスイートスポットとしても知られる空間内の基準点のまわりの領域およびその点における音場を記述するために正規直交球面関数を使う。そのような記述の精度はアンビソニックス次数Nによって決定される。ここで、有限個のアンビソニックス係数が音場を記述している。球状アレイの最大のアンビソニックス次数はマイクロホン・カプセルの数によって制限される。マイクロホン・カプセルの数はアンビソニックス係数の数O＝(N＋1)²以上でなければならない。そのようなアンビソニックス表現の利点は、音場の再現を、ほとんど任意の所与のスピーカー位置配置に個別的に適応させることができるということである。

EP1518443B1 EP1318502B1 PCT/EP2011/068782 EP11305845.7 EP11192988.0

Sandra Brix, Thomas Sporer, Jan Plogsties、"CARROUSO - An European Approach to 3D-Audio"、Proc. of 110th AES Convention, Paper 5314, 12-15 May 2001, Amsterdam, The Netherlands Ulrich Horbach, Etienne Corteel, Renato S. Pellegrini and Edo Hulsebos、"Real-Time Rendering of Dynamic Scenes Using Wave Field Synthesis"、Proc. of IEEE Intl. Conf. on Multimedia and Expo (ICME)、pp.517-520、August 2002, Lausanne, Switzerland Richard Schultz-Amling, Fabian Kuech, Oliver Thiergart, Markus Kallinger、"Acoustical Zooming Based on a Parametric Sound Field Representation"、128th AES Convention, Paper 8120, 22-25 May2010, London, UK Franz Zotter, Hannes Pomberger, Markus Noisternig、"Ambisonic Decoding With and Without Mode-Matching: A Case Study Using the Hemisphere"、Proc. of the 2nd International Symposium on Ambisonics and Spherical Acoustics, 6-7 May 2010, Paris, France

スピーカー・セットアップからほぼ独立な空間的オーディオの柔軟かつ普遍的な表現を容易にしながらの種々のサイズの画面上でのビデオ再生との組み合わせは、空間的音再生がしかるべき適応されないので、わずらわしくなることがある。

ステレオおよびサラウンド・サウンドは離散的なスピーカー・チャネルに基づき、ビデオ・ディスプレイとの関係でどこにスピーカーを置くかについての非常に特定的な規則が存在する。たとえば、劇場環境において、中央のスピーカーはスクリーンの中央に位置され、左右のスピーカーはスクリーンの左側および右側に位置される。それにより、スピーカー・セットアップは本来的に、スクリーンとともにスケーリングする。すなわち、小さなスクリーンについてはスピーカーは互いにより近く、大きなスクリーンについてはスピーカーはより遠くに離れている。これは、音の混合が非常にコヒーレントな仕方でできるという利点がある。すなわち、スクリーン上の見えるオブジェクトに関係したサウンド・オブジェクトが、左、中央および右のチャネルの間で信頼できる形で定位されることができる。よって、聴取者の経験は、混合段からのサウンド・アーチストの創造的な意図に合致する。

だが、そのような利点は同時に、チャネル・ベースのシステムの欠点でもある。すなわち、スピーカー設置を変更する柔軟性が非常に限定されるのである。この欠点は、スピーカー・チャネルの数が増すにつれて増大する。たとえば、7.1および22.2フォーマットは個々のスピーカーの精密な設置を必要とし、最適でないスピーカー位置に合わせてオーディオ・コンテンツを適応させることはきわめて困難である。

チャネル・ベースのフォーマットのもう一つの欠点は、先行音効果のため、特に劇場環境におけるような大規模な聴取セットアップについて、左、中央および右チャネルの間でサウンド・オブジェクトをパンする能力が制限されるということである。中央から外れた聴取位置について、パンされたオーディオ・オブジェクトは、聴取者に最も近いスピーカー中に「はいる」ことがある。したがって、多くの映画は、重要なスクリーンに関係する音、特に会話を中央チャネルのみにマッピングしてミキシングされてきた。それにより、スクリーン上でのそうしたサウンドの非常に安定した定位が得られるが、全体的なサウンド・シーンの広がりは最適ではなくなるという代償が伴う。

同様の妥協は、典型的には、後方サラウンド・チャネルについて選ばれる。それらのチャネルを再生するスピーカーの精密な位置は制作においてほとんど知られておらず、またそれらのチャネルの密度がどちらかというと低いので、通例、周辺音および相関のない項目のみがサラウンド・チャネルにミキシングされる。それにより、サラウンド・チャネルにおける顕著な再生誤差の可能性を低下させることができるが、離散的なサウンド・オブジェクトをスクリーン上（またさらには上記で論じたように中央チャネル）以外に忠実に置くことはできないという代償が伴う。

上述したように、空間的オーディオの、種々のサイズのスクリーン上でのビデオ再生との組み合わせは、空間的音再生がしかるべく適応されないので、わずらわしくなることがある。実際のスクリーン・サイズが制作において使われたスクリーン・サイズに一致するか否かに依存して、サウンド・オブジェクトの方向は、スクリーン上の見えるオブジェクトの方向から乖離することがある。たとえば、小さなスクリーンをもつ環境においてミキシングが実行されたのであれば、スクリーン・オブジェクトに結び付けられたサウンド・オブジェクト（たとえば役者の声）は、ミキサーの位置から見た比較的狭い円錐内に定位される。このコンテンツが音場ベースの表現にマスタリングされて、ずっと大きなスクリーンをもつ劇場環境において再生されるとすると、スクリーンへの幅広い視野とスクリーンに関係したサウンド・オブジェクトの狭い円錐との間に顕著なミスマッチが生じる。オブジェクトの見える像の位置と対応する音の位置との間の大きなミスマッチは、視聴者にとってわずらわしいものであり、そのため映画の知覚に深刻な影響を与える。

より最近、一組のパラメータおよび特性とともに個々のオーディオ・オブジェクトの合成（composition）によってオーディオ・シーンを記述する、オーディオ・シーンのパラメトリックまたはオブジェクト指向の表現が提案されている。たとえば、非特許文献１、２等において、オブジェクト指向のシーン記述が、主として、波面合成（wave-field synthesis）システムに向けて提案されている。

特許文献１は、オーディオ再生を目に見えるスクリーン・サイズに合わせて適応させる問題に取り組むための二つの異なるアプローチを記述している。第一のアプローチは、各サウンド・オブジェクトについて再生位置を、基準点までのその方向および距離ならびに開口角（aperture angles）ならびにカメラおよび投影設備両方の位置のようなパラメータに依存して、個々に決定する。実際上、そのようなオブジェクトの可視性と関係したサウンド・ミキシングとの間の緊密な結び付きは、典型的ではない。それどころか、サウンド・ミックスの、関係する目に見えるオブジェクトからのいくらかの逸脱は、実際には芸術上の理由のため、許容されうる。さらに、直接音と周辺音の間の区別をすることが重要である。最後になったが重要性では劣らないこととして、物理的なカメラおよび投影のパラメータの組み込みはどちらかというと複雑で、そのようなパラメータが常に利用可能とは限らない。第二のアプローチ（請求項１６参照）は上記の手順に基づくサウンド・オブジェクトの事前計算を記述しているが、固定の基準サイズのスクリーンを想定している。この方式は、シーンを、基準スクリーンより大きいまたは小さいスクリーンに適応させるための（デカルト座標での）あらゆる位置パラメータの線形スケーリングを必要とする。しかしながら、これは二倍のサイズのスクリーンに適応するとサウンド・オブジェクトへの仮想距離も二倍になるということを意味する。これは、基準座席（すなわち、スイートスポット）における聴取者に対してサウンド・オブジェクトの角位置に全く変化のない、音響シーンの単なる「呼吸（breathing）」である。このアプローチでは、角座標でのスクリーンの相対サイズ（開口角）の変化について忠実な聴取結果を生成することは可能ではない。

オブジェクト指向のサウンド・シーン記述フォーマットのもう一つの例は、特許文献２に記載されている。ここで、オーディオ・シーンは、種々のサウンド・オブジェクトおよびそれらの特性のほかに、再現されるべき部屋の特性についての情報ならびに基準スクリーンの水平方向および垂直方向の開き角（opening angle）についての情報を含む。デコーダでは、特許文献１の原理と同様に、実際の利用可能なスクリーンの位置およびサイズが決定され、サウンド・オブジェクトの再生が、基準スクリーンとマッチするよう、個々に最適化される。

たとえば、特許文献３では、高次アンビソニックスHOAのような音場指向のオーディオ・フォーマットがサウンド・シーンの普遍的な空間的表現のために提案されており、記録および再生に関しては、音場指向の処理は、普遍性と実用性との間の優れたトレードオフを提供する。オブジェクト指向フォーマットと同様、事実上任意の空間解像度にスケーリングできるからである。他方、オブジェクト指向フォーマットに要求される完全に合成による表現とは対照的に、本物の音場の自然な記録を導出することを許容するいくつかのストレートな記録および生成技法が存在する。明らかに、音場指向のオーディオ・コンテンツは、個々のサウンド・オブジェクトについての情報は含まないので、オブジェクト指向のフォーマットを異なるスクリーン・サイズに適応させるための上記で紹介した機構は適用できない。

今日のところ、音場指向のオーディオ・シーンに含まれる個々のサウンド・オブジェクトの相対位置を操作する手段を記述する刊行物はわずかしか利用可能でない。非特許文献３に記載されるアルゴリズムのファミリーは、音場を限られた数の離散的なサウンド・オブジェクトに分解することを必要とする。これらのサウンド・オブジェクトの位置パラメータが操作できる。このアプローチには、オーディオ・シーン分解が誤りを起こしやすく、オーディオ・オブジェクトの判別におけるいかなる誤りも音のレンダリングにおけるアーチファクトにつながる可能性が高いという欠点がある。

上記の非特許文献１や非特許文献４のような多くの刊行物は、HOAコンテンツの再生の「柔軟な再生レイアウト」への最適化に関係している。これらの技法は、不規則な間隔のスピーカーを使う問題に取り組むが、いずれもオーディオ・シーンの空間組成を変更することを目標としてはいない。

本発明によって解決される問題は、音場分解の係数として表現されている空間的オーディオ・コンテンツを、種々のサイズのビデオ・スクリーンに適応させ、スクリーン上のオブジェクトの音再生位置が対応する目に見える位置に合致するようにすることである。この問題は、請求項１に開示される方法によって解決される。この方法を利用する装置は請求項２に開示される。

本発明は、空間的音場指向のオーディオの再生を、そのリンクされた目に見えるオブジェクトの再生に系統的に適応させることを許容する。それにより、映画のための空間的オーディオの忠実な再生のための有意な必須要件が満たされる。

本発明によれば、特許文献４に開示されるような空間歪め（space warping）処理を特許文献３、５に開示されるような音場指向のオーディオ・フォーマットと組み合わせて適用することによって、音場指向のオーディオ・シーンが種々のビデオ・スクリーン・サイズに適応される。ある有利な処理は、コンテンツ制作において使われたスクリーンの基準サイズ（または基準聴取位置か（viewing angle）らの視角）をエンコードし、コンテンツと一緒にメタデータとして伝送することである。

あるいはまた、エンコードおよびデコードにおいて固定した基準スクリーン・サイズが想定され、デコーダが目標スクリーンの実際のサイズを知っている。デコーダは、スクリーンの方向におけるすべてのサウンド・オブジェクトが目標スクリーンのサイズと基準スクリーンのサイズの比にしたがって圧縮または伸長されるような仕方で音場を歪める。これは、たとえば、下記で説明するような単純な二セグメントの区分線形歪め関数を用いて達成できる。上記の現状技術とは対照的に、この伸長は基本的にはサウンド項目の角位置に限定され、必ずしもサウンド・オブジェクトの聴取領域までの距離の変化にはつながらない。

オーディオ・シーンのどの部分が操作されるまたはされないかについての支配権を握ることを許容する本発明のいくつかの実施形態が下記に記述される。

原理的には、本発明の方法は、現在のスクリーン上に呈示されるべきであるがもとの異なるスクリーンのために生成されたものであるビデオ信号に割り当てられたもとの高次アンビソニックス・オーディオ信号の再生に好適である。当該方法は：
・前記高次アンビソニックス・オーディオ信号をデコードしてデコードされたオーディオ信号を与える段階と；
・前記もとのスクリーンと前記現在のスクリーンの間の幅および可能性としては高さおよび可能性としては曲率の差から導かれる再生適応情報を受領または確立する段階と；
・前記デコードされたオーディオ信号を、空間領域で歪めることによって適応させる段階であって、前記再生適応情報は、現在のスクリーンを見る者および前記適応されたデコードされたオーディオ信号の聴取者にとって、前記適応されたデコードされたオーディオ信号によって表現される少なくとも一つのオーディオ・オブジェクトの知覚される位置が、関係したビデオ・オブジェクトの前記スクリーン上での知覚される位置にマッチするよう前記歪めを制御する、段階と；
・適応されたデコードされたオーディオ信号をスピーカーのためにレンダリングおよび出力する段階とを含む。

原理的には、本発明の装置は、現在のスクリーン上に呈示されるべきであるがもとの異なるスクリーンのために生成されたものであるビデオ信号に割り当てられたもとの高次アンビソニックス・オーディオ信号の再生に好適である。当該装置は：
・前記高次アンビソニックス・オーディオ信号をデコードしてデコードされたオーディオ信号を与えるよう適応された手段と；
・前記もとのスクリーンと前記現在のスクリーンの間の幅および可能性としては高さおよび可能性としては曲率の差から導かれる再生適応情報を受領または確立するよう適応された手段と；
・前記デコードされたオーディオ信号を、空間領域で歪めることによって適応させるよう適応された手段であって、前記再生適応情報は、現在のスクリーンを見る者および前記適応されたデコードされたオーディオ信号の聴取者にとって、前記適応されたデコードされたオーディオ信号によって表現される少なくとも一つのオーディオ・オブジェクトの知覚される位置が、関係したビデオ・オブジェクトの前記スクリーン上での知覚される位置にマッチするよう前記歪めを制御する、手段と；
・適応されたデコードされたオーディオ信号をスピーカーのためにレンダリングおよび出力する手段とを含む。

本発明の有利な追加的な実施形態はそれぞれの従属請求項において開示される。

本発明の例示的な実施形態について付属の図面を参照して述べる。
例示的なスタジオ環境を示す図である。例示的な映画館環境を示す図である。歪め関数f(φ)を示す図である。重み付け関数g(φ)を示す図である。もとの重みを示す図である。歪め後の重みを示す図である。歪め行列を示す図である。既知のHOA処理を示す図である。本発明に基づく処理を示す図である。

図１は、基準点およびスクリーンをもつ例示的なスタジオ環境を示しており、図２は、基準点およびスクリーンをもつ例示的な映画館環境を示している。異なる投影環境は基準点から見たときのスクリーンの異なる開き角につながる。現状技術の音場指向の再生技法では、スタジオ環境（開き角60°）において制作されたオーディオ・コンテンツは映画館環境（開き角90°）でのスクリーン・コンテンツにマッチしない。コンテンツを再生環境の異なる特性に適応させることを許容するためには、オーディオ・コンテンツと一緒に、スタジオ環境での開き角60°を伝送する必要がある。

わかりやすさのため、これらの図面は状況を2Dシナリオに単純化している。

高次アンビソニックス理論では、空間的オーディオ・シーンは、フーリエ・ベッセル級数の係数A_n ^m(k)を介して記述される。源のない体積について、音圧は球面座標（動径r、傾斜角θ、方位角φおよび空間周波数k＝ω/c（cは空気中の音速）の関数として記述される。

ここで、j_n(kr)は動径依存性を記述する第一種の球面ベッセル関数であり、Y_n ^m(θ,φ)は実際上は実数値である球面調和関数（SH: Spherical Harmonics）であり、Nはアンビソニックス次数である。

オーディオ・シーンの空間組成は特許文献４に開示される技法によって歪められることができる。

オーディオ・シーンの二次元または三次元の高次アンビソニックスHOA表現内に含まれるサウンド・オブジェクトの相対位置は変えられることができる。ここで、大きさO_inをもつ入力ベクトルA_inが入力信号のフーリエ級数の係数を決定し、大きさO_outをもつ出力ベクトルA_outが対応して変化した出力信号のフーリエ級数の係数を決定する。入力HOA係数の入力ベクトルA_inは、モード行列Ψ₁の逆行列Ψ₁ ^-1を使って、s_in＝Ψ₁ ^-1A_inを計算することによって、規則的に位置されるスピーカー位置について、空間領域において入力信号s_inにデコードされる。入力信号s_inは、A_out＝Ψ₂s_inを計算することによって空間領域において歪められ、エンコードされて、適応された出力HOA係数の出力ベクトルA_outになる。ここで、モード行列Ψ₂のモード・ベクトルは、もとのスピーカー位置の角度を出力ベクトルA_outにおける目標スピーカー位置の目標角度に一対一にマッピングする歪め関数f(φ)に従って修正される。

スピーカー密度の修正は、利得重み付け関数g(φ)を仮想スピーカー出力信号s_inに適用して結果としてs_outを与えることによって打ち消すことができる。原理的には、いかなる重み付け関数g(φ)を指定することもできる。一つの特に有利な変形例は、歪め関数f(φ)の導関数に比例するもの

であることが経験的に判別されている。この特定の重み付け関数を用いると、適切に高い内部次数（inner order）および出力次数（output order）の想定のもと、特定の歪められた角におけるパン関数f(φ)の振幅は、もとの角度φにおけるもとのパン関数に等しく保持される。それにより、開き角当たりの均一な音バランス（振幅）が得られる。三次元アンビソニックスについては、利得関数はφ方向およびθ方向において次のようになる。

ここで、φ_εは小さな方位角である。

デコード、重み付けおよび歪め／デコードは普通、サイズO_warp×O_warpの変換行列T＝diag(w)Ψ₂diag(g)Ψ₁ ^-1を使うことによって実行できる。ここで、diag(w)は窓ベクトルwの値をその主対角線成分としてもつ対角行列を表し、diag(g)は利得関数gの値をその主対角線成分としてもつ対角行列を表す。サイズO_out×O_inを得るよう変換行列Tを整形するために、空間歪め演算A_out＝TA_inを実行するよう、変換行列Tの対応する列および／または行が除去される。

図３ないし図７は、二次元（円形）の場合における空間歪めを示しており、図１／図２におけるシナリオについての例示的な区分線形歪め関数および13個の規則的に配置された例示的なスピーカーのパン関数へのその影響を示している。システムは、映画館におけるより大きなスクリーンに適応するために前面の音場を1.5倍に伸長する。したがって、他の方向から来るサウンド項目は圧縮される。歪め関数f(φ)は、単一の実数値のパラメータをもつ離散時間の全域通過フィルタの位相応答に似ており、図３に示されている。対応する重み付け関数g(φ)は図４に示されている。

図７は、13×65の単一ステップの変換歪め行列Tを描いている。この行列の個々の係数の対数絶対値は、付随するグレースケールまたは陰影付けバーに基づく、グレースケールまたは陰影型によって示されている。この例示的な行列はN_orig＝6の入力HOA次数およびN_warp＝32の出力次数について設計されたものである。このより高い出力次数は、低次係数からより高次の係数への変換によって拡散される情報の大半を捕捉するために必要とされる。

この特定の歪め行列の有用な特性は、そのかなりの部分がゼロであるということである。これは、この動作を実装するとき多大な計算パワーを節約することを許容する。

図５および図６は、いくつかの平面波によって生成されるビーム・パターンの歪め特性を示している。いずれの図面も、φ位置0、2/13π、4/13π、6/13π、……、22/13πおよび24/13πにおける、みな同一の振幅「1」をもつ同じ13個の入力平面波から帰結するものであり、13通りの角振幅分布、すなわち、過剰決定された正規の（regular）デコード演算s＝Ψ^-1Aの結果ベクトルsを示している。ここで、HOAベクトルAは、上記一組の平面波のもとのまたは歪められた異形のいずれかである。円の外側の数字は角度φを表す。仮想スピーカーの数はHOAパラメータの数よりかなり多い。前方向から来る平面波についての振幅分布またはビーム・パターンはφ＝0に位置されている。

図５は、もとのHOA表現の重みおよび振幅分布を示している。13通りの分布はすべて同様の形をしており、主ローブの同じ幅を特徴とする。図６は、同じサウンド・オブジェクトについての重みおよび振幅分布を示しているが、歪め動作が実行されたあとのものである。オブジェクトはφ＝0度の前方向から離れており、前方向のまわりの諸主ローブはより幅広くなっている。ビーム・パターンのこれらの修正は、歪められたHOAベクトルのより高い次数N_warp＝32によって容易にされる。空間にわたって変動する局所的な次数をもつ混合次数（mixed-order）信号が生成されている。

オーディオ・シーンの再生を実際のスクリーン構成に適応させるために好適な歪め特性（f(φ_in)）を導出するために、HOA係数のほかに追加的な情報が送られるまたは提供される。たとえば、ミキシング・プロセスにおいて使われた基準スクリーンの以下の特性がビットストリーム中に含められることができる：
・スクリーン中心の方向、
・幅、
・基準スクリーンの高さ。
これらはみな基準聴取位置（「スイートスポット」ともいう）から測った極座標で表される。

さらに、特殊な用途のために以下のパラメータが必要とされてもよい：
・スクリーンの形、たとえば平面状であるか球面状であるか、
・スクリーンの距離、
・立体視3Dビデオ投影の場合における最大および最小可視奥行きについての情報。

そのようなメタデータがいかにしてエンコードされうるかは当業者には既知である。

以下では、エンコードされたオーディオ・ビットストリームが少なくとも上記の三つのパラメータ、すなわち基準スクリーンの中心の方向、幅および高さを含むものと想定する。わかりやすさのため、さらに実際のスクリーンの中心は基準スクリーンの中心と同一、たとえば聴取者の真正面であるとする。さらに、音場は（3Dフォーマットではなく）2Dフォーマットのみで表現され、これについての傾きの変化は無視されるとする（たとえば、選択されたHOAフォーマットが垂直方向成分を表さないとき、またはサウンド編集者がピクチャーと画面上音源の傾きの間のミスマッチが、何気ない観察者には気づかれないほど十分小さいと判断する場合など）。任意のスクリーン位置および3Dの場合への遷移は当業者にはストレートなことである。さらに、簡単のため、スクリーン構成は球状であるとする。

これらの想定を使うと、スクリーンの幅だけが、コンテンツと実際のセットアップとの間で変動がありうる。以下では、好適な二セグメントの区分線形の歪め特性が定義される。実際の（actual）スクリーン幅（width）は開口角2φ_w,aによって定義される（すなわち、φ_w,aは片側角を表す）。基準（reference）スクリーン幅は角φ_w,rによって定義され、これはビットストリーム内で送達されるメタ情報の一部である。前方方向における、すなわちビデオ・スクリーン上でのサウンド・オブジェクトの忠実な再現のためには、サウンド・オブジェクトの（極座標での）すべての位置に因子φ_w,a/φ_w,rが乗算される。逆に、他の方向におけるすべてのサウンド・オブジェクトは残りのスペースに従って動かされる。歪め特性は次のような結果につながる。

この特性を得るために必要とされる歪め動作は、特許文献４に開示される規則を用いて構築されることができる。たとえば、結果として、単一ステップの線形歪め演算子が導出されることができ、これが操作されるベクトルがHOAレンダリング処理に入力される前に各HOAベクトルに適用される。上記の例は、多くの可能な歪め特性の一つである。他の特性は、複雑さと、動作後に残る歪みの量との間の最良のトレードオフを見出すために適用されることができる。たとえば、上記の単純な区分線形歪め特性が3D音場レンダリングを操作するために適用される場合、空間的再生の典型的な糸巻き型または樽型歪みが生成されることがあるが、因子φ_w,a/φ_w,rが「1」に近い場合には、空間的レンダリングのそのような歪みは無視できる。非常に大きなまたは非常に小さな因子については、空間的歪めを最小化する、より洗練された歪め特性が適用されることができる。

さらに、選ばれたHOA表現が傾きのための備えもしており、サウンド編集者がスクリーンが張る垂直方向の角度が関心対象であると考える場合には、スクリーンの角高さθ_h（片側高さ）および関係した因子（たとえば、実際の高さと基準高さの比θ_h,a/θ_h,r）に基づく同様の式が、歪め演算子の一部として、上記傾きに適用されることができる。

もう一つの例として、聴取者の前に球状のスクリーンではなく平面状のスクリーンを想定すると、上記の例よりも精巧な歪め特性が必要となることがある。ここでもまた、これは幅のみまたは幅＋高さの歪めに関することができる。

上記の例示的な実施形態は、固定的であり、実装がかなり単純であるという利点をもつ。他方、制作側からの適応プロセスの制御は全く許容しない。以下の実施形態は、異なる仕方でより多くの制御のための処理を導入する。

実施例１：スクリーンに関係したサウンドと他のサウンドとの間の分離
そのような制御技法が必要とされるにはさまざまな理由がありうる。たとえば、オーディオ・シーンにおけるサウンド・オブジェクトのすべてがスクリーン上で可視のオブジェクトに直接結合されているのではなく、直接音を周辺音とは異なる仕方で操作することが有利となりうる。この区別は、レンダリング側におけるシーン解析によって実行されることができる。しかしながら、それは、送信ビットストリームに追加的な情報を加えることによって、有意に改善され、制御されることができる。理想的には、どのサウンド項目が実際のスクリーン特性に適応されるべきか――そしてどのサウンド項目を手つかずにしておくか――の決定は、サウンド・ミキシングを行うアーチストに委ねられるべきである。

この情報をレンダリング・プロセスに伝送するために異なる方法が可能である。

●HOA係数（信号）の二つのフル・セットがビットストリーム内で定義され、一方は可視項目に関係したオブジェクトを記述するもの、他方は独立したまたは周辺の音を表すものである。デコーダでは、第一のHOA信号だけが実際のスクリーン幾何形状への適応を受け、他方は手つかずのままにされる。再生前に、操作された第一のHOA信号および未修正の第二のHOA信号が組み合わされる。

例として、サウンド・エンジニアが対話または個別的な効果音項目のようなスクリーンに関係したサウンドを第一の信号にミキシングし、周辺音を第二の信号にミキシングすることを決定しうる。そのようにして、周辺音は、オーディオ／ビデオ信号の再生のためにどのスクリーンが使われようとも、常に同一のままとなる。

この種の処理は、二つの構成サブ信号のHOA次数が個々に最適化されることができ、それによりスクリーンに関係したサウンド・オブジェクト（すなわち第一のサブ信号）についてのHOA次数が周辺信号成分（すなわち第二のサブ信号）について使われるものよりも高いという追加的な利点を有する。

●時間‐空間‐周波数タイルに取り付けられたフラグを介して、サウンドのマッピングはスクリーンに関係しているか独立であるかと定義される。この目的のため、HOA信号の空間的特性が、たとえば平面波分解を介して決定される。すると、空間領域信号のそれぞれは時間切り出し（time segmentation）（窓掛け（windowing））および時間‐周波数変換に入力される。それにより、タイルの三次元セットが定義され、それらのタイルは、たとえばそのタイルの内容が実際のスクリーン幾何形状に適応されるべきか否かを述べる二値フラグによって、個々にマークされることができる。このサブ実施例は先のサブ実施例よりも効率的であるが、サウンド・シーンのどの部分が操作されるべきであるまたは操作されるべきでないかを定義する柔軟性を制限する。

実施例２：動的な適応
いくつかの応用では、信号伝達される基準スクリーン特性を動的な仕方で変更することが必要とされるであろう。たとえば、オーディオ・コンテンツは、種々の混合からの転用されたコンテンツ・セグメントを連結した結果であることがある。この場合、基準スクリーン・パラメータを記述するパラメータは時間とともに変化し、適応アルゴリズムは動的に変更される。すなわち、スクリーン・パラメータの変化毎について、適用される歪め関数がしかるべく再計算される。

もう一つの応用例は、最終的な可視のビデオおよびオーディオ・シーンの異なるサブ部分について用意された異なるHOAストリームを混合することから生じる。その際、共通ビットストリーム内に、それぞれが個別のスクリーン特性をもつ二つ以上（または上記の実施例１では三つ以上）のHOA信号を許容することが有利である。

実施例３：代替的な実装
固定したHOAデコーダを介するデコードに先立ってHOA表現を歪める代わりに、どのようにして信号を実際のスクリーンに適応させるかについての情報がデコーダ設計に統合されることもできる。この実装は、上記の例示的な実施形態において記述された基本的な実現に対する代替である。しかしながら、これはビットストリーム内のスクリーン特性の信号伝達を変えるものではない。

図８では、HOAエンコードされた信号が記憶装置８２に記憶されている。映画館における呈示のために、装置８２からのHOA表現された信号は、HOAデコーダ８３においてHOAデコードされ、レンダラー８５を通り、一組のスピーカーのためのスピーカー信号８１として出力される。

図９では、HOAエンコードされた信号が記憶装置９２に記憶されている。たとえば映画館における呈示のために、装置９２からのHOA表現された信号は、HOAデコーダ９３においてHOAデコードされ、歪め段９４を通ってレンダラー９５にはいり、一組のスピーカーのためのスピーカー信号９１として出力される。歪め段９４は、上記の再生適応情報９０を受け取り、これをデコードされたHOA信号をしかるべく適応させるために使う。

いくつかの付記を記載しておく。
〔付記１〕
現在のスクリーン上に呈示されるべきであるがもとの異なるスクリーンのために生成されたものであるビデオ信号に割り当てられたもとの高次アンビソニックス・オーディオ信号の再生方法であって、当該方法は：
・前記高次アンビソニックス・オーディオ信号をデコードしてデコードされたオーディオ信号を与える段階と；
・前記もとのスクリーンと前記現在のスクリーンの間の幅および可能性としては高さおよび可能性としては曲率の差から導かれる再生適応情報を受領または確立する段階と；
・前記デコードされたオーディオ信号を、空間領域で歪めることによって適応させる段階であって、前記再生適応情報は、現在のスクリーンを見る者および前記適応されたデコードされたオーディオ信号の聴取者にとって、前記適応されたデコードされたオーディオ信号によって表現される少なくとも一つのオーディオ・オブジェクトの知覚される位置が、関係したビデオ・オブジェクトの前記スクリーン上での知覚される位置にマッチするよう前記歪めを制御する、段階と；
・適応されたデコードされたオーディオ信号をスピーカーのためにレンダリングおよび出力する段階とを含む、
方法。
〔付記２〕
前記高次アンビソニックス・オーディオ信号が、対応するビデオ・オブジェクトに割り当てられた複数のオーディオ・オブジェクトを含み、前記現在の画面を見る者および聴取者にとって、前記オーディオ・オブジェクトの角度または距離が前記もとの画面上での前記ビデオ・オブジェクトのそれぞれ角度または距離と異なる、付記１記載の方法。
〔付記３〕
前記もとの高次アンビソニックス・オーディオ信号を担持するビットストリームが、前記再生適応情報をも含む、付記１または２記載の方法。
〔付記４〕
前記歪めることに加えて、開き角当たりの結果的な均一な音振幅が得られるよう利得関数による重み付けが実行される、付記１ないし３のうちいずれか一項記載の方法。
〔付記５〕
高次アンビソニックス・オーディオ信号の二つのフル係数セットがデコードされ、第一のオーディオ信号は見えるオブジェクトに関係したオブジェクトを表し、第二のオーディオ信号は独立したまたは周辺の音を表し、第一のデコードされたオーディオ信号だけが歪めることによる実際のスクリーン幾何形状への適応を受け、第二のデコードされたオーディオ信号は手つかずのままにされ、再生前に、適応された第一のデコードされたオーディオ信号および適応されていない第二のデコードされたオーディオ信号が組み合わされる、付記１ないし４のうちいずれか一項記載の方法。
〔付記６〕
前記第一および第二のオーディオ信号のHOA次数が異なる、付記５記載の方法。
〔付記７〕
前記再生適応情報が動的に変更される、付記１ないし６のうちいずれか一項記載の方法。
〔付記８〕
現在のスクリーン上に呈示されるべきであるがもとの異なるスクリーンのために生成されたものであるビデオ信号に割り当てられたもとの高次アンビソニックス・オーディオ信号の再生装置であって、当該装置は：
・前記高次アンビソニックス・オーディオ信号をデコードしてデコードされたオーディオ信号を与えるよう適応された手段と；
・前記もとのスクリーンと前記現在のスクリーンの間の幅および可能性としては高さおよび可能性としては曲率の差から導かれる再生適応情報を受領または確立するよう適応された手段と；
・前記デコードされたオーディオ信号を、空間領域で歪めることによって適応させるよう適応された手段であって、前記再生適応情報は、現在のスクリーンを見る者および前記適応されたデコードされたオーディオ信号の聴取者にとって、前記適応されたデコードされたオーディオ信号によって表現される少なくとも一つのオーディオ・オブジェクトの知覚される位置が、関係したビデオ・オブジェクトの前記スクリーン上での知覚される位置にマッチするよう前記歪めを制御する、手段と；
・適応されたデコードされたオーディオ信号をスピーカーのためにレンダリングおよび出力する手段とを含む、
装置。
〔付記９〕
前記高次アンビソニックス・オーディオ信号が、対応するビデオ・オブジェクトに割り当てられた複数のオーディオ・オブジェクトを含み、前記現在の画面を見る者および聴取者にとって、前記オーディオ・オブジェクトの角度または距離が前記もとの画面上での前記ビデオ・オブジェクトのそれぞれ角度または距離と異なる、付記８記載の装置。
〔付記１０〕
前記もとの高次アンビソニックス・オーディオ信号を担持するビットストリームが、前記再生適応情報をも含む、付記８または９記載の装置。
〔付記１１〕
前記歪めることに加えて、開き角当たりの結果的な均一な音振幅が得られるよう利得関数による重み付けが実行される、付記８ないし１０のうちいずれか一項記載の装置。
〔付記１２〕
高次アンビソニックス・オーディオ信号の二つのフル係数セットがデコードされ、第一のオーディオ信号は見えるオブジェクトに関係したオブジェクトを表し、第二のオーディオ信号は独立したまたは周辺の音を表し、第一のデコードされたオーディオ信号だけが歪めることによる実際のスクリーン幾何形状への適応を受け、第二のデコードされたオーディオ信号は手つかずのままにされ、再生前に、適応された第一のデコードされたオーディオ信号および適応されていない第二のデコードされたオーディオ信号が組み合わされる、付記８ないし１１のうちいずれか一項記載の装置。
〔付記１３〕
前記第一および第二のオーディオ信号のHOA次数が異なる、付記１２記載の装置。
〔付記１４〕
前記再生適応情報が動的に変更される、付記８ないし１３のうちいずれか一項記載の装置。
〔付記１５〕
デジタル・オーディオ信号データを生成する方法であって、当該方法は：
・ビデオ信号に割り当てられるもとの高次アンビソニックス・オーディオ信号のデータを与える段階と；
・前記ビデオ信号を呈示できるもとのスクリーンの幅および可能性としては高さおよび可能性としては曲率から導かれる再生適応情報データを与える段階とを含み、
前記再生適応情報データは、前記高次アンビソニックス・オーディオ信号のデコードされたバージョンを、前記もとのスクリーンの幅と異なる幅をもつ現在スクリーン上で前記ビデオ信号を見る者兼前記適応されたデコードされたオーディオ信号の聴取者にとって、前記適応されたデコードされたオーディオ信号によって表現される少なくとも一つのオーディオ・オブジェクトの知覚される位置が、関係したビデオ・オブジェクトの前記現在スクリーン上での知覚される位置にマッチするよう、空間領域での歪めによって適応させるために使用されることができる、
方法。

Claims

エンコードされた高次アンビソニックス（HOA）信号をデコードする方法であって：
制作スクリーン・サイズに関連する音場を記述する前記エンコードされたHOA信号を含むビットストリームを受領する段階と；
前記エンコードされたHOAをデコードして、前記音場の優勢成分を表わすデコードされたHOA信号の第一の集合および前記音場の周囲成分を表わすデコードされたHOA信号の第二の集合を得る段階と；
デコードされたHOA信号の前記第一の集合およびデコードされたHOA信号の前記第二の集合を組み合わせて、デコードされたHOA信号の組み合わされた集合を生じる段階と；
デコードされたHOA信号の前記組み合わされた集合を歪めるための変換行列を決定する段階であって、前記変換行列は、前記制作スクリーン・サイズおよび目標スクリーン・サイズに基づき、前記変換行列はさらに、スピーカー補正利得の対角行列に基づく、段階とを含む、
方法。
前記目標スクリーン・サイズまたは前記制作スクリーン・サイズを、基準聴取位置からの角度として受領する段階をさらに含み、前記角度は前記目標スクリーンの幅に関係する、請求項１に記載の方法。
前記目標スクリーン・サイズまたは前記制作スクリーン・サイズを角度として受領する段階をさらに含み、前記角度は前記目標スクリーンの高さに関係する、請求項１に記載の方法。
前記目標スクリーン・サイズまたは前記制作スクリーン・サイズを、第一の角度および第二の角度として受領する段階をさらに含み、前記第一の角度は前記目標スクリーンの幅に関係し、前記第二の角度は前記目標スクリーンの高さに関係する、請求項１に記載の方法。
前記レンダリング行列は、前記目標スクリーン・サイズおよび前記制作スクリーン・サイズの比に基づいて適応される、請求項１記載の方法。
前記レンダリングは空間領域で実行される、請求項１記載の方法。
デコードされた高次アンビソニックス信号の前記第二の集合が、デコードされた高次アンビソニックス信号の前記第一の集合のアンビソニックス次数より低いアンビソニックス次数をもつ、請求項１記載の方法。
デコードされた高次アンビソニックス信号の前記第一の集合およびデコードされた高次アンビソニックス信号の前記第二の集合が(N＋1)²に等しいアンビソニックス次数（O）をもち、Nはそれぞれ前記第一の集合および第二の集合における高次アンビソニックス信号の数であり、デコードされた高次アンビソニックス信号の前記第二の集合が、デコードされた高次アンビソニックス信号の前記第一の集合のアンビソニックス次数より低いアンビソニックス次数をもつ、請求項１記載の方法。
プロセッサによって実行されたときに請求項１記載の方法を実行する命令を含んでいる非一時的なコンピュータ可読媒体。
エンコードされた高次アンビソニックス（HOA）信号をデコードするための装置であって：
制作スクリーン・サイズに関連する音場を記述する前記エンコードされたHOA信号を含むビットストリームを受領する受領器と；
前記エンコードされたHOAをデコードして、前記音場の優勢成分を表わすデコードされたHOA信号の第一の集合および前記音場の周囲成分を表わすデコードされたHOA信号の第二の集合を得るオーディオ・デコーダと；
デコードされたHOA信号の前記第一の集合およびデコードされたHOA信号の前記第二の集合を統合して、デコードされたHOA信号の組み合わされた集合を生じる組み合わせ器と；
デコードされたHOA信号の前記組み合わされた集合を歪めるための変換行列を決定するプロセッサであって、前記変換行列は、前記制作スクリーン・サイズおよび目標スクリーン・サイズに基づき、前記変換行列はさらに、スピーカー補正利得の対角行列に基づく、プロセッサとを有する、
装置。
前記受領器が、前記目標スクリーン・サイズまたは前記制作スクリーン・サイズを、基準聴取位置からの角度として受領するようさらに構成されており、前記角度は前記目標スクリーンの幅に関係する、請求項１０に記載の装置。
前記受領器が、前記目標スクリーン・サイズまたは前記制作スクリーン・サイズを角度として受領するようさらに構成されており、前記角度は前記目標スクリーンの高さに関係する、請求項１０に記載の装置。
前記受領器が、前記目標スクリーン・サイズまたは前記制作スクリーン・サイズを、第一の角度および第二の角度として受領するようさらに構成されており、前記第一の角度は前記目標スクリーンの幅に関係し、前記第二の角度は前記目標スクリーンの高さに関係する、請求項１０に記載の装置。
前記レンダリング行列は、前記目標スクリーン・サイズおよび前記制作スクリーン・サイズの比に基づいて適応される、請求項１０記載の装置。
前記レンダリングは空間領域で実行される、請求項１０記載の装置。
デコードされた高次アンビソニックス信号の前記第二の集合が、デコードされた高次アンビソニックス信号の前記第一の集合のアンビソニックス次数より低いアンビソニックス次数をもつ、請求項１０記載の装置。
デコードされた高次アンビソニックス信号の前記第一の集合およびデコードされた高次アンビソニックス信号の前記第二の集合が(N＋1)²に等しいアンビソニックス次数（O）をもち、Nはそれぞれ前記第一の集合および第二の集合における高次アンビソニックス信号の数であり、デコードされた高次アンビソニックス信号の前記第二の集合が、デコードされた高次アンビソニックス信号の前記第一の集合のアンビソニックス次数より低いアンビソニックス次数をもつ、請求項１０記載の装置。