JP6908718B2

JP6908718B2 - オーディオストリームに関連付けられた空間性の大きさを提供するための装置および方法

Info

Publication number: JP6908718B2
Application number: JP2019548682A
Authority: JP
Inventors: ウリスクーダ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2017-03-08
Filing date: 2018-03-06
Publication date: 2021-07-28
Anticipated expiration: 2038-03-06
Also published as: RU2019131467A3; RU2019131467A; JP2020509429A; EP3373604A1; EP3373604B1; CN110603820A; US10952003B2; EP3593544B1; BR112019018592A2; US20200021934A1; EP3593544A1; RU2762232C2; CN110603820B; WO2018162487A1

Description

技術分野
本発明の実施形態は、オーディオストリームに関連付けられた空間特性、すなわち空間性の大きさの評価に関する。

背景技術
３Ｄ−ネスに焦点を当てた３Ｄ−オーディオコンテンツの評価は、特定のリスニングルームとすべてのコンテンツを聞く経験豊富なオーディオエンジニアを必要とする単調な作業である。

プロフェッショナルレベルでオーディオを使用する場合、すべての制作段階は固有であり、その特定の分野の専門家が必要である。初期の制作段階からコンテンツを受け取り、編集する。最後に、次の製作段階または配布段階に渡される。コンテンツを受信すると、通常、品質チェックが実行され、素材が適切に機能し、指定された基準を満たしていることを確認する。例えば、放送局はすべての入ってくる素材に対してチェックを実行し、全体のレベルまたは動的範囲が目的の範囲［１、２、３］内にあるかどうかを確認する。したがって、必要なリソースを削減するために、説明したプロセスを可能な限り自動化することが望まれている。

３Ｄ−オーディオを扱う場合、新しい態様が既存の状況に加わる。ラウドネス評価とダウンミックスの可能性とを監視する多くのチャネルが存在するだけでなく、３Ｄ効果がいつ発生するのか、どの程度強力なのかという問題もある。後者は、次の理由で興味深いものである。これまで、５．１は国内市場で映画や長編映画の標準的なサウンド形式であった。制作および流通チェーンのすべてのワークフローおよびセグメント（例えば、ミキシング、マスタリング機能、ストリーミングプラットフォーム、放送局、Ａ／Ｖレシーバーなど）は５．１サウンドを通過できるが、この再生方法は過去５年間に生まれたため、これは３Ｄ−オーディオの場合ではない。コンテンツ制作者は、現在、そのフォーマットの制作を始めている。

３Ｄ−オーディオコンテンツが含まれている場合、より多くのリソースはレガシーコンテンツと比較して制作チェーンのすべてのポイントで提供されなければならない。多くの場合、サウンド編集スタジオ、ミキシングスタジオ、および、マスタリングスタジオは、３Ｄ−オーディオコンテンツで作業できるように、よい室内音響、より多くのスピーカーや拡張された信号フローを有するより大きな部屋を作り上げることによって、彼らの仕事環境をかなり改善する必要があるため、重要なコスト要因である。そのため、どの制作が３Ｄ−オーディオを使用してより高い予算と余分な作業を顧客にもたらすかについて、慎重に決定される。

今まで、３Ｄ−オーディオコンテンツを評価すること、および、３Ｄ−オーディオ効果がどれほど印象的かに関して発表することは、それを聞くことによってのみ行われていた。これは、たいてい経験のあるサウンドエンジニアまたはトーンマイスターによって行われ、長くない場合、すべてのプログラムの時間が少なくともかかる。３Ｄ−オーディオリスニング設備には高い追加費用がかかるため、リスニングと評価は効果的である必要がある。

マルチチャネル信号を分析するための一般的な方法は、レベルやラウドネスを監視することである［４、５、６］。信号のレベルはピークメーターまたは過負荷インジケータを有するトゥルーピークメーターを用いて測定される。人間の知覚に近い大きさがラウドネス値である。インテグレーテッドラウドネス（ＢＳ．１７７０−３）、ラウドネスレンジ（ＥＢＵＲ１２８ＬＲＡ）、ＡＴＳＣＡ／８５（ＣａｌｍＡｃｔ）の後のラウドネス、短期および瞬間的なラウドネス、ラウドネス値の分散またはラウドネスヒストリーは、よく用いられているラウドネスの測定である。これらのすべての測定は、ステレオおよび５．１信号によく使用される。３Ｄ−オーディオについてのラウドネスは、現在ＩＴＵで調査中である。

２つ（ステレオ）または５つ（５．１）の信号の位相関係を比較するために、ゴニオメーター、ベクトルスコープ、相関メーターを利用することができる。エネルギーのスペクトル分布をリアルタイムアナライザー（ＲＴＡ）またはスペクトルグラフを用いて分析することができる。５．１信号内のバランスを測定するためにサラウンドサウンドアナライザーも利用可能である。

経時的な立体映像の３Ｄ効果を可視化する方法は、深度スクリプト、深度チャートまたは深度プロットである［７、８］。

これらすべての方法は、共通の２つのことを有する。ステレオおよび５．１信号のために開発されているので、それらは３Ｄ−オーディオを分析することはできない。そして、３Ｄ−オーディオ信号の３Ｄ−ネスについての情報を得ることができない。

それゆえに、オーディオストリームについての空間性の大きさを得るための改良された概念が望まれている。

本発明の概要
本発明の実施形態は、オーディオストリームを評価するための装置であって、オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを備える。２つの空間層は空間軸に沿って距離を開けて配置される。装置は、さらに、オーディオストリームに関連付けられた空間性の大きさを提供するようにオーディオストリームのオーディオチャネルを評価するように構成される。

説明される実施形態は、オーディオストリームに関連付けられた空間性を評価するための概念、すなわち、オーディオストリームに含まれるオーディオチャネルによって説明されるオーディオシーンの空間性の大きさを提供するものである。このような概念により、評価はサウンドエンジニアによる評価よりも時間と費用効果が高くなる。特に、異なる空間層のラウドスピーカーに割り当てることができるオーディオチャネルを含むオーディオストリームを評価することは、オーディオストリームを手動で評価するときに、高価なリスニングルーム施設が必要である。オーディオストリームのオーディオチャネルは、空間層に配置されたラウドスピーカーに割り当てられてもよく、空間層は聴取者の正面および／または背面に配置されたラウドスピーカーによって形成されてもよい、すなわち、それらは正面および／または背面層であってもよく、および／または、空間層は、聴取者の頭が位置する層および／または聴取者の頭よりも上または下に配置される層などの水平層であってもよく、これらはすべて３Ｄ−オーディオの典型的な設定である。したがって、この概念は、再生設定を必要とせずに、前記オーディオストリームを評価するという利点を提供する。さらに、サウンドエンジニアがオーディオストリームを聞くことでオーディオストリームを評価するために投資しなければならない時間を節約できる。説明される実施形態は、例えば、サウンドエンジニアまたは他の当業者に、どの時間間隔がオーディオストリームの特別な関心があるかについての指示を提供し得る。それにより、サウンドエンジニアは、装置の評価結果を検証するために、オーディオストリームのこれらの示された時間間隔を聞くだけでよく、人件費の大幅な削減につながる可能性がある。

いくつかの実施形態において、空間軸は水平方向に方向づけられる、または、空間軸が垂直方向に方向づけられる。空間軸を水平方向に方向づけられる場合、第１層を聴取者の前に配置し、第２層を聴取者の後ろに配置することができる。垂直方向に方向付けられた空間軸の場合、第１層を聴取者の上に配置し、第２層を聴取者と同じ層または聴取者の下に配置することができる。

いくつかの実施形態において、装置は、オーディオストリームのオーディオチャネルの第１のセットに基づいて第１のレベル情報を取得し、またオーディオストリームのオーディオチャネルの第２のセットに基づいて第２のレベル情報を取得するように構成される。さらに、装置は、第１のレベル情報および第２のレベル情報に基づいて空間レベル情報を決定し、また空間レベル情報に基づいて空間性のレベルを決定するように構成される。グループ化のために、互いに近いラウドスピーカーで再生されるチャネルを使用してグループを形成することができる。さらに、空間性を評価するため、または空間レベル情報を取得するために、好ましくはラウドスピーカーに割り当てられたグループが使用され、あるグループのラウドスピーカーは別のグループのラウドスピーカーから離れて配置される。それにより、音がおそらく聴取者の片側でのみ、例えば聴取者の上のラウドスピーカーのグループからのみ再生され、音が聞こえない、または音量の小さい音だけが別の側、例えば聴取者の下のラウドスピーカーのグループから再生される場合、強い空間効果が観察され、決定される場合がある。

いくつかの実施形態において、オーディオストリームのオーディオチャネルの第１のセットは、オーディオストリームのオーディオチャネルの第２のセットから離れている。例えば反対に配置されたラウドスピーカーのチャネルを使用する場合に、離れたセットを使用することは、より意味のある空間レベル情報を決定できる。離れたセットは、聴取者とは異なる方向に向けられたラウドスピーカーで再生されることが好ましいため、そこから得られる空間レベル情報に基づいて、改善された空間性の大きさを得ることができる。

いくつかの実施形態において、オーディオストリームのオーディオチャネルの第１のセットは１つ以上の第１の空間層においてラウドスピーカーで再生され、オーディオストリームのオーディオチャネルの第２のセットは１つ以上の第２の空間層においてラウドスピーカーで再生される。１つ以上の第１層および１つ以上の第２層は、例えばそれらが離れたセットであるように、空間的に離れている。例えば、聴取者の上にある第１層と下にある第２層を使用すると、音源が上部のスピーカーからより顕著になり、下部または中間層のラウドスピーカーが周囲または低レベルのバックグラウンドサウンドを提供する場合、空間層の情報を導出することができる。

いくつかの実施形態において、装置は、オーディオチャネルの第１のセットのレベル情報に基づいてマスキング閾値を決定し、マスキング閾値をオーディオチャネルの第２のセットのレベル情報と比較するように構成される。さらに、比較によってオーディオチャネルの第２のセットのレベル情報がマスキング閾値を超えていることが示された場合、装置は、空間レベル情報を増強するように構成される。レベル情報は、オーディオチャネルのサウンドレベルの瞬間的または平均化された推定によって取得しうるサウンドレベルとすることができる。レベル情報は、例えば、オーディオチャネルの信号の二乗値（例えば、平均化）によって推定できるエネルギーを説明することもできる。代わりに、レベル情報は、オーディオ信号の時間フレームの絶対値または最大値を使用して取得されてもよい。説明される実施形態は、例えば、心理音響知覚閾値を使用してマスキング閾値を定義することができる。マスキング閾値に基づいて、信号または音源がオーディオチャネルのセット、例えばオーディオチャネルの第２のセットのみから来ると認識されるかどうかを決定できる。

いくつかの実施形態において、装置は、１つ以上の第１の空間層で再生するオーディオストリームのオーディオチャネルの第１のセットと、１つ以上の第２の空間層で再生するオーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさを決定するように構成される。さらに、装置は、類似性の大きさに基づいて空間性の大きさを決定するように構成される。オーディオチャネルの第１のセットで再生される信号成分がオーディオチャネルの第２のセットで再生される信号成分と無相関の場合、２つの異なるオーディオオブジェクトがオーディオチャネルの各セットで再生されると想定でき、チャネルは異なるラウドスピーカーに割り当てられる。つまり、無相関の信号は、異なるチャネルで再生される非類似のオーディオコンテンツを示す。これにより、さまざまなチャネルのセットから異なるオブジェクトが知覚される可能性があるため、聴取者に強い空間的印象を与えることができる。さらに、相互相関は、チャネルのグループからの個々の信号を使用して、または和信号を相互相関することによって取得される。和信号は、チャネルのグループまたはチャネルのペアの個々の信号を合計することで取得できる。したがって、類似性の評価は、チャネルのグループまたはチャネルのペア間の平均相互相関に基づいてもよい。

いくつかの実施形態において、装置は、類似性の大きさが小さいほど、空間性の大きさが大きくなるように、空間性の大きさを決定するように構成される。類似性の大きさと空間性の大きさの間の説明された単純な関係（例えば、逆比例性）を使用することは、類似性の大きさに基づく空間性の大きさの単純な決定が可能になる。

いくつかの実施形態において、装置は、オーディオチャネルの第１のセットのレベル情報に基づいてマスキング閾値を決定し、マスキング閾値をオーディオチャネルの第２のセットのレベル情報と比較するように構成される。さらに、比較によってオーディオチャネルの第２のセットのレベル情報がマスキング閾値を超えている（例えば、わずかに超えている）ことが示され、且つ、類似性の大きさがオーディオチャネルの第１のセットとオーディオチャネルの第２のセットとの間の類似性が低いことを示す場合、装置は、空間性の大きさを増大するように構成される。空間レベル情報と類似性の大きさとを組み合わせて使用することは、空間性の大きさのより正確で信頼性の高い決定が可能になる。さらに、１つのインジケータ（例えば、空間レベル情報または類似性の大きさ）がニュートラルな空間性を示す場合、他のインジケータを使用して、オーディオストリームの高い空間性または低い空間性を決定する方向に進むことができる。

いくつかの実施形態において、装置は、オーディオチャネルへの音源のパンニングの時間的変動に関してオーディオストリームのオーディオチャネルを分析するように構成される。パンニングの変更に関してオーディオチャネルを分析することは、オーディオチャネル上のオーディオオブジェクトを簡単に追跡できる。時間の経過とともにオーディオチャネル間のオーディオオブジェクトを移動することは、知覚される空間的な印象を増大し、前記パンニングを分析することは、意味のある空間性の大きさに役立つ。

いくつかの実施形態において、装置は、オーディオストリームのオーディオチャネルの第１のセットとオーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさに基づいてアップミックス原点の推定を取得するように構成される。さらに、アップミックス原点の推定に基づいて空間性の大きさを決定するように構成される。アップミックス原点の推定は、オーディオストリームが、より少ないオーディオチャネルを有するオーディオストリームから取得されるかどうかを示す場合がある（例えば、ステレオを５．１または７．１にアップミックスするか、５．１オーディオストリームに基づく２２．２のオーディオストリーム）。したがって、オーディオストリームがアップミックスに基づいている場合、オーディオチャネルの信号成分は、一般により少ないソース信号の数から導出されるため、類似性が高くなる。代わりに、例えば、第１層で主に音源の直接音が再生され（例えば、残響なしまたはほとんどない）、第２層で音源の拡散成分が再生される（例、遅い残響）ことが検出される場合、アップミックスが検出されてもよい。アップミックスに基づくオーディオストリームは、空間的な印象の品質に影響を与え、空間性の大きさを決定するのに役立つ。

いくつかの実施形態において、装置は、オーディオストリームのオーディオチャネルがより少ないオーディオチャネルのオーディオストリームから導出されることをアップミックス原点の推定が示す場合、アップミックス原点の推定に基づいて空間性の大きさを低減するように構成される。一般に、オーディオチャネルが少ないオーディオストリームから取得されたオーディオストリームは、空間的印象の点で品質が低いと認識される。したがって、オーディオストリームがより少ないチャネルのオーディオストリームに基づいていることが検出された場合、空間性の大きさを低減することが適切である。

いくつかの実施形態において、装置は、空間性の大きさをアップミックス原点の推定を伴って出力するように構成される。サウンドエンジニアが重要な副次情報として使用することができるため、アップミックス原点の推定を個別に出力することは便利である。サウンドエンジニアは、アップストリーム原点の推定を、例えばオーディオストリームの空間性の評価のための重要な情報として使用できる。

いくつかの実施形態において、装置は、次のパラメータのうち少なくとも２つのパラメータの重み付けに基づいて空間性の大きさを提供するように構成され、パラメータは、オーディオストリームの空間レベル情報、および／または、オーディオストリームの類似性の大きさ、および／または、オーディオストリームのパンニング情報、および／または、オーディオストリームのアップミックス原点の推定である。説明された装置は、重要性に従って個々の因子に有利に重み付けして、空間性の大きさを得ることができる。この重み付けから得られた空間性の大きさは、説明されたインジケータの１つからのみ得られた空間性の大きさよりも改善される、すなわち、より意味があるかもしれない。

いくつかの実施形態において、装置は、空間性の大きさを視覚的に出力するように構成される。視覚的な出力を使用して、サウンドエンジニアは視覚的な出力の視覚的な検査に基づくオーディオストリームの空間性を決定することができる。

いくつかの実施形態において、装置は、空間性の大きさをグラフとして提供するように構成され、グラフは、経時的な空間性の大きさに関する情報を提供するように構成される。グラフの時間軸は、好ましくは、オーディオストリームの時間軸に整合される。サウンドエンジニアは、空間性の大きさのグラフで示されるオーディオストリームのセクションを検査（例えば、聞く）ことができるため、時間の経過に伴う空間性の大きさに関する情報を提供することは、空間的な印象的なコンテンツを含むので、サウンドエンジニアにとって役立つ。これにより、サウンドエンジニアは、空間的に印象的なオーディオシーンをオーディオストリームから高速に抽出したり、決定された空間性の大きさを検証したりできる。

いくつかの実施形態において、装置は、空間性の大きさを数値として提供するように構成され、数値はオーディオストリーム全体を表わすように構成される。例えば、単純な数値は、異なるオーディオストリームの高速な分類とランク付けに使用することができる。

いくつかの実施形態において、装置は、空間性の大きさをログファイルに書き込むように構成される。ログファイルを使用することは、特に自動評価に役立つ。

本発明の実施形態は、オーディオストリームを評価するための方法を備える。方法は、オーディオストリームに関連付けられた空間性の大きさを提供するためにオーディオストリームのオーディオチャネルを評価するステップを備える。さらに、オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを備え、２つの空間層は空間軸に沿って距離を開けて配置される。

図面の簡単な説明
以下において、本発明のより好ましい実施形態を、添付図面を参照して説明する。

図１は、本発明の実施形態による装置のブロック図を示す。図２は、本発明の実施形態による装置のブロック図を示す。図３は、本発明の実施形態による装置のブロック図を示す。図４は、３Ｄ−オーディオラウドスピーカーの配置を示す。図５は、本発明の実施形態による方法のフローチャートを示す。

実施形態の詳細な説明
図１は、本発明の実施形態による装置１００のブロック図を示す。装置１００は評価装置１１０を備える。

装置１００は、どのオーディオチャネル１０６が評価装置１１０に提供されるかに基づいてオーディオストリーム１０５の入力を受け取る。評価装置１１０は、オーディオチャネル１０６を評価し、評価に基づいて、装置１００は空間性の大きさ１１５を提供する。

空間性の大きさ１１５は、オーディオストストリーム１０５の主観的な空間印象を表現する。慣例的に、人、より好ましくは、サウンドエンジニアは、オーディオストリームに関連付けられた空間性の大きさを提供するためにオーディオストリームを聞かなければならない。したがって、装置１００は、評価のためにオーディオストリームを聞く当業者の必要性を回避する。さらに、信頼性のために、サウンドエンジニアは、装置１００によって高い空間性の大きさを有することを示すことができるという検証に対してオーディオストリームの特定の部分だけを聞くことができる。したがって、オーディオエンジニアは示されたセクションまたは時間間隔を聞くことだけを必要とすることができるので、時間を節約することができる。例えば、サウンドエンジニアは、空間性の大きさ１１５を使用して、印象的な３Ｄ−オーディオ効果を有するような空間性の大きさ１１５によって、すなわち、主観的な空間印象であるオーディオストリームの時間間隔またはセクションだけ調べることができる。この指示に基づいて、サウンドエンジニアまたは熟練の聴取者はオーディオストリームの適切なセクションを見つけるまたは変更するために特定のセクションを聞く必要があるとされる。さらに、装置１００は、高価な設備の取得を避けることができ、または、高価な設備の使用時間を低減することができる。例えば、オーディオチャネル１０６を聞くための必要なプレイバック環境である（例えば、高価な）サウンドラボは、得られた空間性の大きさの確認のためだけに使用することができる。したがって、サウンドラボはより効果的に使用することができ、評価装置がすべて装置１００に基づく場合、必須とされない。

図２は、本発明の実施形態による装置２００のブロック図を示す。言い換えると、図２は、異なる段階（例えば、分析段階）の信号フローとして解釈することができる。実線は、オーディオ信号を示し、（太い）破線は、３Ｄ−ネス（例えば空間性の大きさ）を評価するために使用される値を示し、小さい（または細い）破線は、異なる段階の間の情報交換を示す。装置２００は、個々のまたは装置１００との組み合わせの何れも含む特徴および機能を備える。装置２００は、追加の信号またはチャネルアライナ／グルーパー２１０、追加のレベル分析装置２２０ａ、追加の相関分析装置２２０ｂ、追加の動的パンニング分析装置２２０ｃおよび追加のアップミックス推定装置２２０ｄを備える。さらに、装置２００は追加の重み付け装置２３０を備える。個々の要素２１０、２２０ａ−ｄおよび２３０は、評価装置１１０に含まれる個々のまたは組み合わせである場合があり、オーディオチャネル２０６はオーディオストリーム１０５、同様にオーディオチャネル１０６から得ることができる。

装置２００は、出力として空間性の大きさ２３５を備えることに基づいて、マルチチャネルオーディオ信号２０６のオーディオ信号の入力を受け取る。装置２００は、以下でより詳細に説明される評価装置１１０による評価装置２０４を備える。アライナ／グルーパー２１０において、信号またはチャネルは、例えば、異なる空間層（例えば、空間的にグループ化される）で再生できるチャネルに整合（例えば時間で）およびグループ化される。したがって、２つまたはグループが取得され、分析および推定段階２２０ａ−ｄに提供される。グループ化は段階２２０ａ−ｄと異なる場合があり、この点に関する詳細は以下に記載される。例えば、グループは、図４に記載するように、２つの層を持つラウドスピーカーの配置が示されている層に基づく。第１のグループは、層４１０に関連するオーディオチャネルに基づき、第２のグループは、層４２０に関連するオーディオチャネルに基づく場合がある。代わりに、第１のグループは、左側のラウドスピーカーに割り当てられたチャネルに基づき、第２のグループは、右側のラウドスピーカーに割り当てられたチャネルに基づく場合がある。さらに、可能なグループ化は以下でより詳細に説明する。

レベル分析段階２２０ａでは、異なるグループのサウンドレベルが比較され、グループは１つ以上のチャネルから構成されてもよい。音レベルは、例えば、自発的な信号値、平均化された信号値、最大信号値、または信号のエネルギー値に基づいて推定されてもよい。平均値、最大値、またはエネルギー値は、チャネル２０６のオーディオ信号の時間フレームから取得されてもよく、または、再帰的推定を使用して取得されてもよい。第１のグループが第２のグループよりも高いレベル（例えば、平均レベルまたは最大レベル）を有すると決定され、第１のグループが第２のグループから空間的に離れている場合、空間レベル情報２２０ａ´が取得され、オーディオチャネル２０６の高い空間性を示す。次いで、この空間レベル情報２２０ａ´は、重み付け段階２３０に提供される。空間レベル情報２２０ａ´は、以下の詳細に概説されるように、最終的な空間性の大きさの計算に寄与する。さらに、レベル分析段階２２０ａは、オーディオチャネルの第１グループに基づいてマスキング閾値を決定し、チャネルの第２グループが決定されたマスキング閾値よりも高いレベルを有する場合に高い空間レベル情報２２０ａ´を取得してもよい。

さらに、グルーパー／アライナ２１０による出力としてのチャネルのグループまたはペアは、類似性を評価するために異なるグループまたはペアの個々の信号、すなわちチャネルの信号間の相関（例えば、相互相関）を計算できる相関分析段階２２０ｂに提供される。代わりに、相関分析段階は、和信号間の相互相関を決定してもよい。各グループにおいて、個々の信号を合計することにより、異なるグループから和信号を取得することができ、それにより、グループ間の平均相互相関を取得し、グループ間の平均類似性を特徴付けることができる。相関分析段階２２０ｂがグループまたはペア間の高い類似性を決定する場合、類似性値２２０ｂ´が、オーディオチャネル２０６の低い空間性を示す重み付け段階２３０に提供される。相関は、サンプルごとに、または、チャネル、チャネルのグループ、またはチャネルのペアの信号の時間フレームを相関させることによって、相関分析段階２２０ｂで推定することができる。さらに、相関分析段階２２０ｂは、レベル分析段階２２０ａによって提供された情報に基づいて相関分析を実行するために、レベル情報２２０ａ´´を使用してもよい。例えば、レベル分析段階２２０ａから取得された異なるチャネル、チャネルのグループまたはチャネルのペアの信号エンベロープは、レベル情報２２０ａ´´に含まれ得る。エンベロープに基づいて、相関を実行して、個々のチャネル、チャネルのグループ、またはチャネルのペア間の類似性に関する情報を取得することができる。さらに、相関分析段階２２０ｂは、レベル分析段階２２０ａに提供されたのと同じチャネルグループ化を使用してもよく、または全く異なるグループ化を使用してもよい。

さらに、装置２００は、ペアまたはグループに基づいて動的パンニング分析／検出２２０ｃを実行することができる。動的パンニング検出２２０ｃは、チャネルの１つのペアまたはグループから別のチャネルのペアまたはグループに移動するサウンドオブジェクトを検出することができ、例えば、チャネルの第１のグループからチャネルの第２のグループへのレベルの展開である。サウンドオブジェクトが異なるペアまたはグループ間を移動することにより、高い空間的印象が得られる。したがって、ソースの移動がパンニング分析段階２２０ｃによって検出される場合、動的パンニング情報２２０ｃ´が高い空間性を示す重み付け段階２３０に提供される。さらに、チャネルのペアまたはグループ間で音源の動き（または、小さな動きのみ、例えばチャネルのグループ内のみ）が検出されない場合、動的パンニング情報２２０ｃ´は、低い空間性を示し得る。パンニング検出段階２２０ｃは、サンプルごとに、またはフレームごとに、パンニング分析を実行することができる。さらに、動的パンニング検出段階２２０ｃは、レベル分析段階２２０ａから取得されたレベル情報２２０ａ´´´を使用して、パンニングを検出することができる。代わりに、パンニング検出段階２２０ｄは、パンニング検出を実行するためにそれ自体でレベル情報を推定してもよい。動的パンニング検出２２０ｃは、レベル分析段階２２０ａまたは相関分析段階２２０ｂと同じグループ、またはグルーパー／アライナ２１０によって提供される異なるグループを使用してもよい。

さらに、アップミックス推定段階２２０ｄは、相関分析段階２２０ｂからの相関情報２２０ｂ´´を使用するか、さらなる相関分析を実行して、チャネル２０６がより少ないオーディオチャネルを有するオーディオストリームを使用して形成されたかどうかを検出する。例えば、チャネル２０６が相関情報２２０ｂ´´から直接アップミックスに基づいているかどうかをアップミックス推定段階２２０ｄが評価し得る。代わりに、個々のチャネル間の相互相関は、アップミックス推定段階２２０ｄで実行されてもよく、相関情報２２０ｂ´´によって示される高い相関に基づいて、チャネル２０６がアップミックスに由来するかどうかを評価する。相関分析段階２２０ｂまたはアップミックス推定段階２２０ｃのいずれかによって実行される相関分析は、アップミックスを生成する一般的な方法が信号非相関機によるものであるため、アップミックス原点の検出に有用な情報である。アップミックス原点の推定値２２０ｄ´は、アップミックス推定段階２２０ｄによって重み付け段階２３０に提供される。アップミックス原点の推定値２２０ｄ´が、チャネル２０６がより少ないチャネルを有するオーディオストリームから導出されることを示す場合、アップミックス原点の推定値２２０ｄ´は、重み付け２３５にマイナスまたはわずかな寄与を与える場合がある。アップミックス推定段階２２０ｄは、レベル分析段階２２０ａ、相関分析段階２２０ｂまたは動的パンニング検出段階２２０ｃと同じグループ、またはグルーパー／アライナ２１０によって提供される異なるグループを使用することができる。

例えば、重み付け段階２３５は、空間性の大きさへの寄与を平均化して、空間性の大きさを得ることができる。寄与は、因子２２０ａ´、２２０ｂ´、２２０ｃ´および／または２２０ｄ´の組み合わせに基づいてもよい。平均化は均一であっても重み付けされていてもよく、重み付けは因子の有意性に基づいて実行されてもよい。

いくつかの実施形態では、空間性の大きさは、分析段階２２０ａ−ｃのうちの１つ以上のみに基づいて取得することができる。さらに、グルーパー／アライナは、分析段階２２０ａ−ｃのいずれか１つに統合されてもよく、例えば、各分析段階は独自にグループ化を実行する。

図３は、本発明の実施形態による装置３００のブロック図を示す。言い換えれば、図３は、３Ｄ−ネスメーター３０４の一般的な信号の流れを示している。装置３００は、装置１００および２００に匹敵し、入力としてマルチチャネルオーディオ信号３０５を取り、それはそのまま出力されてもよい。３Ｄ−ネスメーター３０４は、評価装置１１０および評価装置２０４による評価装置である。マルチチャネルオーディオ信号３０５に基づいて、図形出力またはディスプレイ３１０（例えば、グラフ）を使用して、数値出力またはディスプレイ３２０を使用して（例えば、オーディオストリーム全体に対して１つの数値スカラー値を使用して）、および／または、例えば、グラフまたはスカラー値が書き込まれ得るログファイル３３０を使用して、空間性の大きさをグラフィカルに出力することができる。さらに、装置３００は、音声信号３０５または音声信号３０５を含む音声ストリームに含めることができる追加のメタデータ３４０を提供することができ、メタデータは空間性の大きさを含むことができる。さらに、追加のメタデータは、アップミックス原点の推定値または装置２００における分析段階の出力のいずれかを含んでもよい。

図４は、３Ｄ−オーディオラウドスピーカーの配置４００を示す。言い換えると、図４は、５＋４構成における３Ｄ−オーディオ再生のレイアウトを示す。中間層のラウドスピーカーは文字Ｍで示され、上部層のスピーカーはＵとラベル付けされる。数字は、聴取者に対するスピーカーの方位角を指す（例えば、Ｍ３０は３０°の方位角で中間層にあるスピーカーである）。ラウドスピーカーの配置４００は、オーディオストリーム（例えば、ストリーム１０５、オーディオチャネル１０６、２０６または３０５）からオーディオチャネルを割り当てることによって使用され、オーディオストリームを再生する。ラウドスピーカーの配置は、ラウドスピーカーの第１層４１０と、ラウドスピーカーの第１層４１０から垂直方向に離れて配置されたラウドスピーカーの第２層４２０とを含む。ラウドスピーカーの第１層は５つのラウドスピーカー、すなわち、中央Ｍ０、正面右Ｍ−３０、正面左Ｍ３０、サラウンド右Ｍ−１１０およびサラウンド左Ｍ１１０を含む。さらに、ラウドスピーカーの第２層４２０は４つのラウドスピーカー、すなわち、左上Ｕ３０、右上Ｕ−３０、上後右Ｕ−１１０および後左上Ｕ１１０を含む。装置１００、２００、または３００を使用する分析のために、層、すなわち層４１０および層４２０に基づいてグループ化を提供することができる。さらに、第２のグループを取得するために、例えば第１のグループから形成される聴取者から左側のラウドスピーカーと聴取者から右側のラウドスピーカーとを使用して層をまたいでグループを形成することができる。代わりに、第１のグループは、聴取者の前に位置するラウドスピーカーに基づき、第２のグループは、聴取者の後ろに位置するラウドスピーカーに基づき、第１のグループまたは第２のグループは、垂直に離れた、すなわちグループは垂直の層で形成されるラウドスピーカーを含む。さらに、別の任意のグループ化を定義でき、ラウドスピーカーの配置を検討できる。

図５は、本発明の実施形態による方法５００のフローチャートを示す。方法は、オーディオストリームに関連付けられた空間性の大きさを提供するために、オーディオストリームのオーディオチャネルを評価するステップ５１０を含む。さらに、オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを含み、２つの空間層は空間軸に沿って距離を置いて配置される。

以下では、図２を参照して詳細を説明する。

実施形態は、与えられた３Ｄ−オーディオ信号の３Ｄ−オーディオ効果のパワー（または強度）を測定する方法を説明する。３Ｄ−オーディオコンテンツを見て、３Ｄ効果を特徴とする素材のセクションを見つけ、そのパワーを評価することは、手作業で行う必要がある主観的なタスクであることがわかっている。実施形態は、このプロセスをサポートするために使用することができ、３Ｄ効果が発生する位置を示し、３Ｄ効果の強さを評価することによってそれを加速することができる３Ｄ−ネスメーターを説明する。

「３Ｄ−ネス」という用語は、非常に広範な意味をカバーするため、これまで学術分野で３Ｄ−オーディオ効果の強さには使用されていなかった。したがって、より正確な用語と定義が詳しく説明されている［９，１０］。これらの用語は、印象全体ではなく、再生されたオーディオの特定の１つの態様にのみ適用される。一般的な印象として、全体的なリスニングエクスペリエンス（ＯＬＥ）またはエクスペリエンスの品質（ＱｏＥ）という用語が導入されている［１１］。後者の用語は３Ｄ−オーディオに限定されない。３Ｄ−オーディオ効果の強さをＯＬＥやＱｏＥなどの用語と区別するために、このドキュメントでは３Ｄ−ネスという用語が使用されることがある。

一般に、少なくとも２つの異なる垂直層で音源を生成できる場合（図４を参照）、再生システムは３Ｄ−オーディオまたは「没入型」と呼ばれる。一般的な３Ｄ−オーディオ再生レイアウトは、５．１＋４、７．１＋４または２２．２である［１２］。

３Ｄ−オーディオに固有の効果は次のとおりである。
・高音の音源の知覚
・ローカライズ精度（方位角、仰角、距離）［９］
・動的なローカライズ精度（移動オブジェクトの場合）［９］
・巻き込み（音に覆われている感覚）［１３，１４，１５］
・空間の明瞭さ（空間シーンをどれだけはっきりと認識できるか）［１４，１５］

これらの効果は、３Ｄ−オーディオの品質機能［９］または属性のカテゴリ［１０，１６］と呼ばれる。３Ｄ−オーディオ効果のパワーは、ＯＬＥまたはＱｏＥと直接相関しないことに留意すべきである。

３Ｄ−ネスの実用的な例を示すために、いくつかのシナリオがリスト化されている。
・音源は異なる垂直層を移動し、例えば、ヒューという効果音は中間（または水平）層から上部層に移動する。
・音源は中間層と上部層で再生され、例えば、主音は中間層で知覚され、上から話しているときの音声セットまたは直接音は中間層で再生され、周囲音は上部層で再生される。

さらに、製作者側では、サウンドトラックがファイナライズされるフィルムサウンドミキシング施設で３Ｄ−ネスを測定する要求がある。コンテンツがブルーレイ（登録商標）またはストリーミングサービスで配信されるように準備されている場合、３Ｄ−ネスの監視も重要である。放送局などのトップ（ＯＴＴ）ストリーミングおよびダウンロードサービス［１７］を介したコンテンツディストリビューターは、３Ｄ―ネスを測定して、３Ｄ−オーディオハイライトプログラムとして宣伝するコンテンツを決定する必要がある。研究、教育機関、映画批評は、異なる理由で３Ｄ−ネスを測定することに関心を持つ他の存在である。

従来の方法は、３Ｄ−オーディオ信号の３Ｄ−ネスの測定には適していない。したがって、３Ｄ−ネスメーターがここで提案されている。一般的に、マルチチャネルオーディオ信号は、オーディオ分析が行われるメーターに送られる（図３を参照）。出力は、さまざまな表現の３Ｄ−ネス測定とともに、未処理かつ未変更のオーディオコンテンツであるかもしれない。３Ｄ−ネスメーターは、時間の関数として３Ｄ−ネスをグラフィカルに表示できる。代わりに、測定値を数値で表現し、統計を計算して異なる材料を比較可能にすることもできる。すべての結果はログファイルにエクスポートすることも、適切なメタデータ形式で元のオーディオ（ストリーム）に追加することもできる。オブジェクトベースまたはシーンベースのオーディオの場合、例えば１次アンビソニックス（ＦＯＡ）または高次アンビソニックス（ＨＯＡ）、表現形式、オーディオチャネルは、最初に基準スピーカーレイアウトにレンダリングすることで評価できる。

実施形態では、３Ｄ−ネスメーターの動作モードは、並行作業の異なる分析段階にわたって共有される。各段階では、特定の３Ｄ−オーディオ効果に固有のオーディオ信号の特性を検出できる（図２を参照）。分析段階の結果は、重み付け、合計、および表示し得る。最後に、ディスプレイ上で、サウンドエンジニアに合計の３Ｄ−ネスインジケータ（例えば、空間性の大きさ）と最も重要なサブ結果（例えば、個々の分析段階の結果）を提供することができる。これにより、サウンドエンジニアは、関心のあるセクションを見つけたり、３Ｄ−ネスに関する決定を下したりするのに役立つさまざまなデータを有する。合計の３Ｄ−ネスインジケータは、０から２まで（０．．．２）の範囲の線形スケールであり、３Ｄ−ネス＝０は、評価されたオーディオストリームに期待される３Ｄ−オーディオ効果がない、またはまったくないことを意味する。３Ｄ−ネス=２の最大値は、オーディオストリームで非常に強い３Ｄ−オーディオ効果が発生することを示す場合がある。範囲と合計の３Ｄ−ネスインジケータスケールの単位とは、事前に決定されている場合があり、他の値、単位または範囲（例えば、−１．．．１、０．．．１０など）を使用できる。

ステップでは、入力チャネルを特定のチャネルペアまたはチャネルグループに割り当てることができる。可能なチャネルペアは次のとおりである。
・中間層の左および上部層の左
・中間層の左サラウンドと上部層の左サラウンド
・中間層の中央と上部層の左
・…
可能なチャネルグループは次のとおりである。
・中間層および上部層
・中間層の左右と上部層の左右
・…

以下において、実施形態において使用および／または決定され得るパラメータが説明される。さらに、以下では、層によるチャネルのグループ化が主に考慮されるが、他の実施形態では他のグループ化が使用されてもよい。

レベル分析段階
レベル分析段階２２０ａは、上部層にレベルがあるかどうか、もしあればレベルが中間層に対してどれだけ高いかを監視することができる。重要な測定は、垂直音源のマスキング閾値である［１８、１９］。この分析段階では、中間層の信号のマスキング閾値が上部層によって大幅に超えた場合、またはその逆の場合にのみ、３Ｄ−ネスを検出できる。上部層で測定された信号（またはレベル）がない場合、またはその時点で対応する中間層の信号に対してレベルが低すぎる場合、３Ｄ−ネスメーターは低い３Ｄ−ネス値（例えば、レベル分析段階から取得した情報に基づいて）を報告する場合がある。
実施形態では、３Ｄ−ネスメーターを設定して、（ｉ）上部層のレベルを中間層のマスキング閾値と比較する、（ｉｉ）中間層のレベルを上部層のマスキング閾値と比較するまたは（ｉｉｉ）指定されたすべての層を比較し、下位レベルの層のレベル（例えば、最低レベルの層）を対応する他の層と比較する。

相関段階
実施形態では、相関段階２２０ｂを使用して、正規化された短期相互相関についてチャネルペアまたはチャネルグループを分析する。この測定は、２つの信号がどれほど似ているかを表し、時間の経過によるエネルギーの違いから導出される可能性がある。上部層信号の非常に高い類似性は、中間層信号の最も可能性の高い要素、または中間層信号全体が上部層にも供給されることを示す。これは、特定の知覚された包絡線またはわずかに上に移動したサウンドシーンを提供する場合がある。

低い相関関係は、中間層と上部層の信号が類似していないことを示しており、３Ｄ−オーディオ効果が強くなる。相関段階とレベル分析段階とは、情報を交換できる（図２の点線を参照）。例えば、上部層のレベルがマスキング閾値に近いか、わずかに上にある場合、相関段階が高い相関度を示すとき、示された３Ｄ−ネスは低くなることがある。しかしながら、同じレベルの関係で相関が低い場合は、示された３Ｄ−ネスが高い可能性がある。

動的なパンニング検出
実施形態では、パンニング段階２２０ｃは、異なる位置に異なる時間に現れるサウンド要素を探す。動的なパンニングは、中間層の左前の位置から上層の右後の位置に飛ぶヘリコプターのように、空間を移動する信号によって特徴付けられる。信号に関しては、パンニングの動きにより、１つのチャネルまたはチャネルのグループから別のチャネルへのクロスフェードが発生する。そのようなクロスフェードが信号内で検出された場合、パンニング効果は３Ｄ−オーディオ効果（例えば、知覚された高い空間性）を生成する可能性がある。レベル分析段階からのレベル情報は、他の時定数でより詳細に処理される場合がある（例えば、平均化ウィンドウが長くなる）。

アップミックス推定
アップミキシングアルゴリズムは、サウンド処理で確立される。通常、デコレーションと信号分離を使用して、より広く、より包み込み、より刺激的なサウンド再生を実現するために、使用するチャネルの数を増やす。
アップミックス検出段階２２０ｄは、所定の非相関が以前に適用された自動アップミックスの結果であり得るかどうかを調べる。したがって、相関段階のデータ（例えば２２０ａ）が使用される。さらに、信号を分析して、最も一般的なアップミックス方法から生じる可能性のあるアーチファクトと結果を見つけることができる。
自動アップミックスのヒントを見つけることができるかどうかは、後続のダウンミックスの可能性がサウンドカラーレーションを引き起こす可能性があるため、重要な情報になる可能性がある。さらに、自動アップミックスは、芸術的に作成された３Ｄ−オーディオミックスに比べて価値が低いと見なされる可能性がある。したがって、オーディオストリームがアップミックスに基づいていると推定されている場合、取得された空間性の大きさから低い空間性が示されることがある。

更なる応用
本発明の実施形態の有用性を説明するために、３Ｄ−ネスメーターのいくつかの実際的な使用事例が提示される。

シナリオ１
サウンドエンジニアは、特定の映画ミックスに３Ｄ−オーディオが含まれているかどうかを求められる。３Ｄ−ネスメーターがない場合、エンジニアはサウンドトラック全体を聴いて、関連する３Ｄ−効果が発生するかどうかを確認する必要がある。３Ｄ−ネスメーターがある場合、オーディオはオフラインで分析される。これは、リアルタイムよりもはるかに高速であることを意味し、３Ｄ−効果が発生するセクションがマークされる。

シナリオ２
エンジニアは、映画のサウンドトラックで最も印象的な３Ｄ−オーディオセクションを見つけるよう求められる。３Ｄ−ネスメーターの結果を見ると、３Ｄ効果のあるスポットをすばやく見つけることができる。３Ｄ−ネスメーターで指摘されたセクションのみを聞く必要がある。

シナリオ３
制作会社は、２つ可能性のあるタイトルのうち、どちらを追加の３Ｄ−オーディオトラックを有するブルーレイ（登録商標）用にリリースするかを決定する必要がある。３Ｄ−ネスメーターの結果は、どのタイトルが３Ｄ−オーディオ効果をより頻繁に使用しているかを示しており、経済的な判断の基礎となる。

シナリオ４
３Ｄ−オーディオ製作がミキシングされる。所望の３Ｄ効果がとても強く、混乱する可能性がある場合に、３Ｄ−ネスメーターは、信号を監視し、ミキシングエンジニアに示すことができる。または、エンジニアが３Ｄ効果を作りたいと考えており、３Ｄ−ネスメーターが示すように、その効果は容易に知覚できるほど強くはない。

シナリオ５
３Ｄオーディオミックスが配信され、クライアントは、ミックスが芸術的な意図を持つエンジニアによって作成されたものであるか、自動アップミックスのみであるかを調べたいと考えている。自動アップミキシングが適用されている場合、３Ｄ−ネスメーターが表示する場合がある。

実施形態では、３Ｄ−ネスメーターの概念は、測定されたパラメータのグラフィックまたは数値の表現だけでなく、３Ｄオーディオ信号における聴覚３Ｄ−効果の存在および量を決定するプロセス全体を含む。

さらに、３Ｄ−ネスメーターの方法は、非３Ｄ−オーディオコンテンツまたは２Ｄマルチチャネルサラウンドコンテンツにも使用でき、どれぐらいのサラウンド効果が予想されるか、および、プログラムの何時にそれらが位置するかを示す。このため、垂直方向に間隔を空けた２つのチャネルまたはチャネルのグループを比較する代わりに、水平方向に間隔を空けたチャネルまたはチャネルのグループ、例えばフロントチャネルおよびサラウンドチャネルを比較できる。

いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述をも表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテムまたは機能の記述をも表す。いくつかのまたはすべての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（または用いて）実行することができる。いくつかの実施形態において、いくつかの１つ以上の最も重要な方法ステップは、このような装置によって実行することができる。

特定の実現要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）、デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ブルーレイ（登録商標）ディスク、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができる。それ故に、デジタル記憶媒体は、コンピュータ読取可能とすることができる。

本発明に係るいくつかの実施形態は、本願明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の１つを実行するように動作可能であるプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。

他の実施形態は、機械読取可能なキャリアに記憶された、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備える。

言い換えれば、本発明の方法の一実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の１つを実行するプログラムコードを有するコンピュータプログラムである。

本発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の１つを実行するコンピュータプログラムを備えるデータキャリア（またはデジタル記憶媒体またはコンピュータ読取可能媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、通常は有形および／または不揮発性である。

本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の１つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネットによって転送されるように構成することができる。

更なる実施形態は、本願明細書に記載された方法の１つを実行するように構成されたまたは適合された処理手段、例えばコンピュータまたはプログラマブルロジックデバイスを備える。

更なる実施形態は、本願明細書に記載された方法の１つを実行するコンピュータプログラムがインストールされたコンピュータを備える。

本発明に係る更なる実施形態は、本願明細書に記載された方法の１つを実行するコンピュータプログラムを、受信者に転送（例えば、電子的または光学的に）するように構成された装置またはシステムを備える。受信者は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信者へ転送するファイルサーバを備えることができる。

いくつかの実施形態において、本願明細書に記載された方法のいくつかまたは全ての機能を実行するために、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の１つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。

本明細書で記載される装置は、ハードウェア装置を用いて、または、コンピュータを用いて、または、ハードウェア装置とコンピュータとの組み合わせを用いて、実装することができる。

本明細書で記載される装置、または、本明細書で記載される装置のいずれかのコンポーネントは、ハードウェアでおよび／またはソフトウェアで少なくとも部分的に実装することができる。

本明細書に記載される方法は、ハードウェア装置を用いて、または、コンピュータを用いて、または、ハードウェア装置とコンピュータとの組み合わせを用いて、実装することができる。

本明細書に記載される方法、または、本明細書で記載される装置のいずれかのコンポーネントは、ハードウェアでおよび／またはソフトウェアで少なくとも部分的に実装することができる。

上記記載された実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成および詳細の修正および変更は、当業者にとって明らかであると理解される。それ故に、本発明は、間近に迫った特許請求の範囲のスコープのみによって制限され、本願明細書の実施形態の記載および説明の方法によって表された特定の詳細によって制限されないことが意図される。

参考文献
[1] EBU. EBU TECH 3344: Practical guidelines for distribution systems in accordance with EBU R 128. Geneva, 2011.
[2] IRT. Technische Richtlinien - HDTV. Zur Herstellung von Fernsehproduktionen fur ARD, ZDF und ORF. Frankfurt a.M., 2011.
[3] ARTE. Allgemeine technische Richtlinien. ARTE, Kehl, 2013.
[4] Gerhard Spikofski and Siegfried Klar. Levelling and Loudness in Radio and Television Broadcasting. European Broadcast Union, Geneva, 2004.
[5] ITU. ITU-R BS.2054-2: Audio Levels and Loudness, volume 2. International Telecommunication Union, Geneva, 2011.
[6] Robin Gareus and Chris Goddard. Audio Signal Visualisation and Measurement. In International Computer Music and Sound & Music Computing Conference, Athens, 2014.
[7] B Mendiburu. 3D Movie Making - Stereoscopic Digital Cinema from Script to Screen. Focal Press, 2009.
[8] B. Mendiburu. 3D TV and 3D Cinema. Tools and Processes for Creative Stereoscopy. Focal Press, 2011.
[9] Andreas Silzle. 3D Audio Quality Evaluation: Theory and Practice. In International Conference on Spatial Audio, Erlangen, 2014. VDT.
[10] Nick Zacharov and Torben Holm Pedersen. Spatial sound attributes - development of a common lexicon. In AES 139th Convention, New York, 2015. Audio Engineering Society.
[11] Michael Schoeffler, Sarah Conrad, and Jurgen Herre. The Inuence of the Single / Multi-Channel-System on the Overall Listening Experience. In AES 55th Conference, Helsinki, 2014.
[12] Ulli Scuda. Comparison of Multichannel Surround Speaker Setups in 2D and 3D. In Malte Kob, editor, International Conference on Spatial Audio, Erlangen, 2014. VDT.
[13] R Sazdov, G Paine, and K Stevens. Perceptual Investigation into Envelopment, Spatial Clarity and Engulfment in Reproduced Multi-Channel Audio. In AES 31st Conference, London, 2007. Audio Engineering Society.
[14] R Sazdov. The effect of elevated loudspeakers on the perception of engulfment, and the effect of horizontal loudspeakers on the perception of envelopment. In ICSA 2011. VDT.
[15] Robert Sazdov. Envelopment vs. Engulfment: Multidimensional scaling on the effect of spectral content and spatial dimension within a three-dimensional loudspeaker setup. In International Conference on Spatial Audio, Graz, 2015. VdT.
[16] Torben Holm Pedersen and Nick Zacharov. The development of a Sound Wheel for Reproduced Sound. In AES 138th Convention, Warsaw, 2015. AES.
[17] AES. Technical Document AESTD1005.1.16-09: Audio Guidelines for Over the Top Television and Video Streaming. AES, New York, 2016.
[18] Hyunkook Lee. The Relationship between Interchannel Time and Level Differences in Vertical Sound Localisation and Masking. In AES 131st Convention, number Icld, pages 1-13, 2011.
[19] Hanne Stenzel, Ulli Scuda, and Hyunkook Lee. Localization and Masking Thresholds of Diagonally Positioned Sound Sources and Their Relationship to Interchannel Time and Level Differences. In International Conference on Spatial Audio, Erlangen, 2014. VDT.

Claims

オーディオストリームを評価するための装置（１００、２００、３０４）であって、
前記オーディオストリーム（１０５）は、少なくとも２つの異なる空間層（４２０、４１０）で再生されるオーディオチャネル（１０６、２０６、３０５）を備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、
前記装置は、前記オーディオストリームの前記オーディオチャネルを評価して、
前記オーディオストリームのオーディオチャネルの第１のセットと前記オーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさに基づいてアップミックス原点の推定（２２０ｄ´）を取得し、前記アップミックス原点の推定に基づいて空間性の大きさを決定すること
によって、前記オーディオストリームに関連付けられた空間性の大きさ（１１５、２３５）を提供するように構成される、装置。
前記装置は、前記オーディオストリームの前記オーディオチャネルがより少ないオーディオチャネルのオーディオストリームから導出されることを前記アップミックス原点の推定が示す場合、前記アップミックス原点の推定に基づいて前記空間性の大きさを低減するように構成される、請求項１に記載の装置。
前記装置は、前記空間性の大きさを前記アップミックス原点の推定を伴って出力するように構成される、請求項１または請求項２に記載の装置。
前記空間軸は水平方向に方向づけられる、または、前記空間軸は垂直方向に方向づけられる、請求項１ないし３のいずれかに記載の装置。
前記装置は、前記オーディオストリームのオーディオチャネルの第１のセットに基づいて第１のレベル情報を取得し、また前記オーディオストリームのオーディオチャネルの第２のセットに基づいて第２のレベル情報を取得するように構成され、
前記装置は、前記第１のレベル情報および前記第２のレベル情報に基づいて空間レベル情報（２２０ａ´）を決定し、また前記空間レベル情報に基づいて前記空間性の大きさを決定するように構成される、請求項１ないし４のいずれかに記載の装置。
前記オーディオストリームの前記オーディオチャネルの第１のセットは、前記オーディオストリームの前記オーディオチャネルの第２のセットから離れている、請求項５に記載の装置。
前記オーディオストリームの前記オーディオチャネルの第１のセットは１つ以上の第１の空間層においてラウドスピーカーで再生され、前記オーディオストリームの前記オーディオチャネルの第２のセットは１つ以上の第２の空間層においてラウドスピーカーで再生され、
前記１つ以上の第１の空間層および前記１つ以上の第２の空間層は空間的に離れている、請求項５または請求項６に記載の装置。
オーディオストリームを評価するための装置（１００、２００、３０４）であって、
前記オーディオストリーム（１０５）は、少なくとも２つの異なる空間層（４２０、４１０）で再生されるオーディオチャネル（１０６、２０６、３０５）を備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、
前記装置は、前記オーディオストリームの前記オーディオチャネルを評価して、
前記オーディオストリームのオーディオチャネルの第１のセットに基づいて第１のレベル情報を取得し、また前記オーディオストリームのオーディオチャネルの第２のセットに基づいて第２のレベル情報を取得すること、および、
前記第１のレベル情報および前記第２のレベル情報に基づいて空間性の大きさを決定すること、
によって、前記オーディオストリームに関連付けられた空間性の大きさ（１１５、２３５）を提供するように構成され、
前記オーディオストリームの前記オーディオチャネルの第１のセットは１つ以上の第１の空間層においてラウドスピーカーで再生され、前記オーディオストリームの前記オーディオチャネルの第２のセットは１つ以上の第２の空間層においてラウドスピーカーで再生され、
前記１つ以上の第１の空間層および前記１つ以上の第２の空間層は空間的に離れていて、
前記装置は、前記オーディオチャネルの第１のセットのレベル情報に基づいてマスキング閾値を決定し、前記マスキング閾値を前記オーディオチャネルの第２のセットのレベル情報と比較するように構成され、
前記比較によって前記オーディオチャネルの第２のセットの前記レベル情報が前記マスキング閾値を超えていることが示された場合、前記装置は空間レベル情報を増強するように構成される、装置。
前記装置は、１つ以上の第１の空間層で再生する前記オーディオストリームのオーディオチャネルの第１のセットと、１つ以上の第２の空間層で再生する前記オーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさ（２２０ｂ´）を決定し、前記類似性の大きさに基づいて前記空間性の大きさを決定するように構成される、請求項１ないし請求項８のいずれかに記載の装置。
前記装置は、前記類似性の大きさが小さいほど、前記空間性の大きさが大きくなるように、前記空間性の大きさを決定するように構成される、請求項９に記載の装置。
オーディオストリームを評価するための装置（１００、２００、３０４）であって、
前記オーディオストリーム（１０５）は、少なくとも２つの異なる空間層（４２０、４１０）で再生されるオーディオチャネル（１０６、２０６、３０５）を備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、
前記装置は、前記オーディオストリームの前記オーディオチャネルを評価して、
１つ以上の第１の空間層で再生する前記オーディオストリームのオーディオチャネルの第１のセットと、１つ以上の第２の空間層で再生する前記オーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさ（２２０ｂ´）を決定し、前記類似性の大きさに基づいて前記空間性の大きさを決定すること、
前記オーディオチャネルの第１のセットのレベル情報に基づいてマスキング閾値を決定し、前記マスキング閾値を前記オーディオチャネルの第２のセットのレベル情報と比較すること、および、
前記比較によって前記オーディオチャネルの第２のセットの前記レベル情報が前記マスキング閾値を超えていることが示され、且つ、前記類似性の大きさが前記第１のセットと前記第２のセットとの間の類似性が低いことを示す場合、前記空間性の大きさを増大すること、
によって、前記オーディオストリームに関連付けられた空間性の大きさ（１１５、２３５）を提供するように構成される、装置。
オーディオストリームを評価するための装置（１００、２００、３０４）であって、
前記オーディオストリーム（１０５）は、少なくとも２つの異なる空間層（４２０、４１０）で再生されるオーディオチャネル（１０６、２０６、３０５）を備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、
前記装置は、前記オーディオストリームの前記オーディオチャネルを評価して、前記オーディオストリームに関連付けられた空間性の大きさ（１１５、２３５）を提供するように構成され、
前記装置は、前記オーディオチャネルへの音源のパンニングの時間的変動に関して前記オーディオストリームの前記オーディオチャネルを分析するように構成される、装置。
オーディオストリームを評価するための装置（１００、２００、３０４）であって、
前記オーディオストリーム（１０５）は、少なくとも２つの異なる空間層（４２０、４１０）で再生されるオーディオチャネル（１０６、２０６、３０５）を備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、
前記装置は、前記オーディオストリームの前記オーディオチャネルを評価して、前記オーディオストリームに関連付けられた空間性の大きさ（１１５、２３５）を提供するように構成され、
前記装置は、
前記オーディオストリームの空間レベル情報、および／または、
前記オーディオストリームの類似性の大きさ、および／または、
前記オーディオストリームのパンニング情報、および／または、
前記オーディオストリームのアップミックス原点の推定
のうち少なくとも２つのパラメータの重み付け（２３０）に基づいて、前記空間性の大きさを提供するように構成される、装置。
前記装置は、前記空間性の大きさを視覚的に出力（３２０）するように構成される、請求項１ないし請求項１３のいずれかに記載の装置。
オーディオストリームを評価するための装置（１００、２００、３０４）であって、
前記オーディオストリーム（１０５）は、少なくとも２つの異なる空間層（４２０、４１０）で再生されるオーディオチャネル（１０６、２０６、３０５）を備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、
前記装置は、
前記オーディオストリームの前記オーディオチャネルを評価して、前記オーディオストリームに関連付けられた空間性の大きさ（１１５、２３５）を提供し、
前記空間性の大きさを視覚的に出力（３２０）するとともに、前記空間性の大きさをグラフ（３１０）として提供するように構成され、ここで前記グラフは、経時的な前記空間性の大きさに関する情報を提供するように構成され、前記グラフの時間軸は前記オーディオストリームに整合される、装置。
前記装置は、前記空間性の大きさを数値（３２０）として提供するように構成され、前記数値は前記オーディオストリーム全体を表わす、請求項１ないし請求項１５の１つに記載の装置。
前記装置は、前記空間性の大きさをログファイル（３３０）に書き込むように構成される、請求項１ないし請求項１６の１つに記載の装置。
オーディオストリームを評価するための方法（５００）であって、
前記オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、前記方法は、
前記オーディオストリームのオーディオチャネルの第１のセットと前記オーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさに基づいてアップミックス原点の推定（２２０ｄ´）を取得して、
前記アップミックス原点の推定に基づいて前記空間性の大きさを決定すること
によって、前記オーディオストリームに関連付けられた空間性の大きさを提供するために前記オーディオストリームのオーディオチャネルを評価するステップ（５１０）を備える、方法。
オーディオストリームを評価するための方法（５００）であって、
前記オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、前記方法は、
前記オーディオストリームのオーディオチャネルの第１のセットに基づいて第１のレベル情報を取得し、また前記オーディオストリームのオーディオチャネルの第２のセットに基づいて第２のレベル情報を取得すること、および
前記第１のレベル情報および前記第２のレベル情報に基づいて前記空間性の大きさを決定すること、
によって、前記オーディオストリームに関連付けられた空間性の大きさを提供するために前記オーディオストリームのオーディオチャネルを評価するステップ（５１０）を備え、
前記オーディオストリームの前記オーディオチャネルの第１のセットは１つ以上の第１の空間層においてラウドスピーカーで再生され、前記オーディオストリームの前記オーディオチャネルの第２のセットは１つ以上の第２の空間層においてラウドスピーカーで再生され、
前記１つ以上の第１の空間層および前記１つ以上の第２の空間層は空間的に離れていて、
前記方法はさらに、
前記オーディオチャネルの第１のセットのレベル情報に基づいてマスキング閾値を決定し、前記マスキング閾値を前記オーディオチャネルの第２のセットのレベル情報と比較するステップと、
前記比較によって前記オーディオチャネルの第２のセットの前記レベル情報が前記マスキング閾値を超えていることが示された場合、空間レベル情報を増強するステップと、
を含む、方法。
オーディオストリームを評価するための方法（５００）であって、
前記オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、前記方法は、
１つ以上の第１の空間層で再生する前記オーディオストリームのオーディオチャネルの第１のセットと、１つ以上の第２の空間層で再生する前記オーディオストリームのオーディオチャネルの第２のセットとの間の類似性の大きさ（２２０ｂ´）を決定し、前記類似性の大きさに基づいて前記空間性の大きさを決定すること、
前記オーディオチャネルの第１のセットのレベル情報に基づいてマスキング閾値を決定し、前記マスキング閾値を前記オーディオチャネルの第２のセットのレベル情報と比較すること、および
前記比較によって前記オーディオチャネルの第２のセットの前記レベル情報が前記マスキング閾値を超えていることが示され、且つ、前記類似性の大きさが前記第１のセットと前記第２のセットとの間の類似性が低いことを示す場合、前記空間性の大きさを増大すること
によって、前記オーディオストリームに関連付けられた空間性の大きさを提供するために前記オーディオストリームのオーディオチャネルを評価するステップ（５１０）を備える、方法。
オーディオストリームを評価するための方法（５００）であって、
前記オーディオストリームは、少なくとも２つの異なる空間層で再生されるオーディオチャネルを備え、前記２つの空間層は空間軸に沿って距離を開けて配置されており、前記方法は、
前記オーディオストリームに関連付けられた空間性の大きさを提供するために前記オーディオストリームのオーディオチャネルを評価するステップ（５１０）を備え、
前記空間性の大きさは、
前記オーディオストリームの空間レベル情報、および／または、
前記オーディオストリームの類似性の大きさ、および／または、
前記オーディオストリームのパンニング情報、および／または、
前記オーディオストリームのアップミックス原点の推定
のうち少なくとも２つのパラメータの重み付け（２３０）に基づいて、提供される、方法。
コンピュータプログラムがコンピュータまたはマイクロコントローラ上で動作しているときに、請求項１８ないし２１のいずれかに記載する方法を実行するためのプログラムコードを有するコンピュータプログラム。