JP2017511048A

JP2017511048A - オブジェクトベースのオーディオ音量管理

Info

Publication number: JP2017511048A
Application number: JP2016554441A
Authority: JP
Inventors: ファディマラク; テミスカトシアノス; ジャン−マルクジョット
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2014-02-27
Filing date: 2015-02-27
Publication date: 2017-04-13
Anticipated expiration: 2035-02-27
Also published as: PL3111677T3; KR102341971B1; EP3111677A1; JP6670752B2; US10063207B2; EP3111677B1; WO2015131063A1; KR20160125511A; ES2714905T3; EP3111677A4; CN106170992B; US20150245153A1; CN106170992A

Abstract

オブジェクトベースのオーディオ信号を処理する方法及び装置を提供する。装置は、複数のオブジェクトベースのオーディオ信号を受信する。これらのオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ、及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。オブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定する。一構成では、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする。別の構成では、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信（例えば、放送、ファイル配信、又はストリーミング）する。【選択図】図９

Description

〔関連出願への相互参照〕
本出願は、引用によってその全体が本明細書に明示的に組み込まれている「オブジェクトベースのオーディオ音量管理（ＯＢＪＥＣＴ−ＢＡＳＥＤＡＵＤＩＯＬＯＵＤＮＥＳＳＭＡＮＡＧＥＭＥＮＴ）」という名称の２０１４年２月２７日出願の米国仮特許出願第６１／９４５，７３４号、及び「オブジェクトベースのオーディオ音量管理（ＯＢＪＥＣＴ−ＢＡＳＥＤＡＵＤＩＯＬＯＵＤＮＥＳＳＭＡＮＡＧＥＭＥＮＴ）」という名称の２０１５年２月２６日出願の米国特許出願第１４／６３２，９９７号の利益を主張するものである。

本発明の開示は、一般的に音量管理に関し、より具体的には、オブジェクトベースのオーディオ音量管理に関する。

音量は、主として線形（リアルタイム）エンターテインメントのストリームタイプ配信において繰り返し発生する問題である。線形エンターテインメントは、放送線形計画、ビデオオンデマンド（ＶＯＤ）、及びオーバー・ザ・トップ（ＯＴＴ）ストリーミングを含むことができる。過去には、オーディオ技術者及び専門家の世界的集団で構成されるいくつかの国際標準化機構が、放送オーディオミックスの知覚音量を正確に測定する方法を定めてきた。この作業は、最初は標準化機構によって行われたが、最終的には、国家政府の監督機関が関わるようになった。これらの監督機関は、技術仕様の標準化されたセットを実施し、これらの使用方法を明記し、かつ最良の実施方法を推奨するための規程を公表した。しかし、この作業は、ステレオのチャネルベースのオーディオ世界においてのみ、つい最近では５．１チャネルサラウンド音響においてのみ行われている。

本発明の開示の態様において、再生システムを通して再生するためにオブジェクトベースのオーディオ信号を処理する方法及び装置を提供する。装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。オブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定する。装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする。

本発明の開示の態様において、放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためにオブジェクトベースのオーディオ信号を処理する方法及び装置を提供する。装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びオーディオ波形データに関連付けられたオブジェクトメタデータを含む。オブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定する。装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信する。

全体を通して対応する部分を同じ参照番号が表す図面をここで参照する。

空間的標準化オブジェクトベースのオーディオ（ＯＢＡ）音量管理システム及び方法の実施形態によって使用される多次元オーディオビットストリームの例示的構成を示す図である。多次元オーディオ（ＭＤＡ）放送ビットストリーム生成処理の例示的実施の概要を示すブロック図である。全体的に合計された音量メタデータの発生の概要を示すブロック図である。空間的標準化ＯＢＡ音量管理システム及び方法の実施形態によって計算された基本空間的標準化音量メトリック及び強化空間的標準化音量メトリックの想定される使用を示すブロック図である。図４に示す空間的標準化音量メトリックの計算の概要を示すブロック図である。コンテンツ生成／符号化段階の概要を示すブロック図である。空間的標準化ＯＢＡ音量管理システム及び方法に関連してオブジェクトに対するかつモニタ段階中に使用される聴取者のヘッドの向き及び幾何学形状を示す図である。空間的標準化ＯＢＡ音量管理システム及び方法の実施形態の全ての３つの段階の一般的作動を示す流れ図である。再生システムを通して再生するためにオブジェクトベースのオーディオ信号を処理する方法の流れ図である。放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためにオブジェクトベースのオーディオ信号を処理する方法の流れ図である。例示的装置内の異なるモジュール／手段／構成要素の間のデータフローを示す概念的データフロー図である。

添付図面と共に以下で示される詳細説明は、様々な構成の説明として意図されており、本明細書で説明する概念を実施することができる構成のみを表すように想定されているものではない。詳細説明は、様々な概念の完全な理解をもたらすための特定の詳細を含む。しかし、当業者には、これらの概念は、これらの特定の詳細なしに実施することができることが明らかであろう。場合によっては、そのような概念を曖昧にすることを回避するために、公知の構造及び構成要素は、ブロック図の形態で示される。装置及び方法は、以下の詳細説明に説明され、添付図面において、様々なブロック、モジュール、構成要素、回路、段階、処理、アルゴリズム、要素などに示す場合がある。

空間的標準化ＯＢＡ音量管理システム及び方法の実施形態の以下の説明では、添付図面を参照する。これらの図面は、空間的標準化ＯＢＡ音量管理システム及び方法の実施形態をどのようにして実施することができるかに関する具体例を例証として示している。他の実施形態も利用することができ、特許請求する主題の範囲から逸脱することなく構造的変更を行うことができることが理解される。

Ｉ．序論
ＯＢＡの出現と共に、新しい機会及び課題が明らかになっている。１つの主要な課題は、ミックスにおいてあらゆる数のオーディオオブジェクトが存在することができる場合に、どのようにして音量を測定及び管理するかである。音量を測定及び管理する機能は、住居内での対話型制御を導入することによって消費者がオーディオオブジェクトを追加又は削除することを可能にする場合に特に重要である。ＯＢＡの柔軟性は多くの利点を有するが、チャネルベースの音量管理及び制御の既存の方法が許容不能であるので、ＯＢＡは、実際に課題を導入している。

図１は、空間的標準化ＯＢＡ音量管理システム及び方法の実施形態によって使用されるＭＤＡ番組ビットストリーム１００の例示的構成を示している。図２は、ＭＤＡ放送ビットストリーム生成処理の例示的実施の概要を示すブロック図２００である。ＭＤＡ番組ビットストリーム１００は、番組特定のメタデータ１０２及び複数のオーディオオブジェクト１０４を含むことができる。オーディオオブジェクト１０４は、動的又は静的なオブジェクト特定のメタデータ１０６を有する１又は２以上のオーディオ波形であり、このメタデータ１０６は、これらのオーディオ波形の特定の特性を説明する。これらの特性は、与えられた時点での３次元（３Ｄ）空間内の位置、測定された音量値、オブジェクトの性質（楽器、効果、音楽、背景、又は対話など）、対話言語、オブジェクトをどのようにして表示するか、及びオブジェクトをどのようにして処理、レンダリング、又は再生するかに関する命令の形式でのメタデータを含むことができる。純粋なＯＢＡでは、オーディオオブジェクト１０４は、特定のチャネルにマップされない。実際には、再生構成が何個のチャネルを含むかが認識されない場合がある。言い換えると、オーディオオブジェクト１０４は、レンダリングするスピーカのいずれかの特定の事前に定められた又は固定の再生構成と無関係な統一された方法で処理されるように意図されている。これらの状況では、レンダリング処理は、再生チャネル（再生構成によって定められるような）に変換及びミキシングするように後で行われる。

一般的に、音量は、サウンドをそれによって静音から大音量にわたる等級で順序付けることができる聴覚知覚の属性として定められる。音量は、音圧レベル（ＳＰＬ）、周波数、帯域幅、継続時間、及び近接性の影響を受ける主観的な測定基準である。更に、国際電気通信連合（ＩＴＵ）放送サービス（ＢＳ）１７７０（ＩＴＵＢＳ．１７７０）は、音量を定義かつ計算するための放送規格であり、欧州放送連合（ＥＢＵ）Ｒ−１２８は、放送事業者が、オーディオをどのようにして測定及び標準化することができるかを定めている。

現在、ＯＢＡの公開された及び知的所有権下にある両方の例が存在する。本明細書で説明する空間的標準化ＯＢＡ音量管理システム及び方法は、音量値に関する広範なセットを含むメタデータの豊富なセットを有するＯＢＡを使用する。公開ＯＢＡビットストリームは、メタデータがこのビットストリームの存在中にいずれかの与えられた時点で可読かつアクセス可能であるような公開アーキテクチャを有する。例示的に、限定するものではないが、ＭＤＡは、このようなビットストリーム表現及びＯＢＡペイロードを含む公開形式である。ＭＤＡは、いずれのコンテンツプロバイダもオブジェクトベースのオーディオ、又はオブジェクトベースのオーディオとチャネルベースのオーディオーディオとのいずれかの組合せをミキシングすることを可能にする完全公開のオブジェクトベースのオーディオ没入型オーディオプラットフォームである。例えば、コンテンツは、１２個のスピーカを使用してミキシングすることができ、ＭＤＡは、このコンテンツを５．１又はステレオのようないずれかの再生構成にマップすることになる。本明細書では、ＭＤＡは、空間的標準化ＯＢＡ音量管理システム及び方法の実施形態に適用することができる一例として言及される。しかし、空間的標準化ＯＢＡ音量管理システム及び方法の実施形態には、ビットストリーム形式の他のタイプ（例えば、ＤＴＳ：Ｘ）も適用可能である場合がある。ＭＤＡは、オブジェクト、チャネル、及び情景ベースのオーディオ（高次アンビソニック（ＨＯＡ））をサポートすることができるが、本明細書では、ＭＤＡは、主としてＯＢＡペイロードに言及するものであることに注意しなければならない。

ＩＩ．作動及びシステム概要
オーディオ生成の世界がチャネルベースのオーディオからＯＢＡに移行する時に、音量に対処するために新しい技術を定めるか又は既存の技術を更新することが望ましい。しかし、現時点で、３Ｄ空間内のオーディオオブジェクトの音量を測定するための公知の又は同意された方法が存在しない。近い将来、世界業界専門家、例えば、ＥＢＵにおける専門家は、明らかに、オブジェクト、チャネル＋オブジェクト、又はＨＯＡのような没入型オーディオペイロードを有する場合の音量管理に対処するための新しい方法を探索することになる。

ＯＢＡに適用される音量測定方法を更新することが望ましいだけではなく、ターゲットレンダリング構成を認識することなく具体的で有効な音量測定を規定及び決定することができる技術を設計することも同じく望ましい。この技術が、オブジェクトをレンダリングすることを必要とせずに測定値を計算することができる場合に更に適切である。空間的標準化ＯＢＡ音量管理システム及び方法の実施形態は、これらの目標を達成する。

全体的に合計された音量
全体的に合計された音量値と呼ばれるメタデータパラメータは、ＭＤＡ番組ビットストリームの番組特定のメタデータ内で定めることができる。全体的に合計された音量値は、一般的なＯＢＡ番組又はミックスの組み合わされて測定された音量値を表すことができる。現在のオーディオ産業界で理解されている値を達成するための唯一の公知の方法は、ストリーム内のオーディオオブジェクトのペイロードを強制的なレンダリングを通してチャネルループに送ることである。ここで、オブジェクトは、ＭＤＡ参照レンダラー（ベクトルベース振幅パンニング（ＶＢＡＰ）などの図２を参照）を使用して、ＩＴＵ規定の５．１スピーカレイアウト構成にレンダリングする。このＭＤＡ参照レンダラーは、本質的に、全てのオブジェクトを５．１チャネルフィードに向ける。次に、これらのオブジェクトは、既存のＥＢＵＲ−１２８又は高度テレビジョンシステム委員会（ＡＴＳＣ）Ａ８５準拠音量測定処理に供給される。次に、測定された値（フルスケールに対する音量Ｋ重み付け（ＬＫＦＳ）又はフルスケールに対する音量ユニット（ＬＵＦＳ））が、元のＭＤＡビットストリーム内にビットストリームレベルで記録され、個々のオブジェクトレベル（図１を参照）ではなく、番組の全体的に合計された音量値（例えば、ＩＴＵ５．１の−２３ＬＵＦＳ）として記録される。この値は、ステレオにも適用することができる。

図３は、全体的に合計された音量メタデータの発生の概要を示すブロック図３００である。３０２において、ＯＢＡメタデータがメタデータ発生段階において発生される。このようなメタデータは、例えば、ＭＤＡ又はＤＴＳ：Ｘに対して発生させることができる。次に、３０４において、オーディオオブジェクト信号に対してレンダリング又は事前レンダリングを実行し、このオーディオオブジェクト信号の各々の平均電力又は音量を決定することができる。３０６において、音量モニタ／測定を実行し、全体的に合計された音量値を特定ことができる。このようなモニタ／測定は、ＥＢＵＲ−１２８又は商業広告音量緩和（ＣＡＬＭ）決議に準拠することができる。全体的に合計された音量値が計算されると、次に、３０８において、計算されたかつ全体的に合計された音量値は、ＣＡＬＭ決議における−２４ＬＫＦＳ又はＥＢＵＲ−１２８における−２３ＬＫＦＳのような国際規制基準で定められたターゲット音量レベルと比較することができる。ターゲット音量レベルは、ＭＤＡビットストリーム内の番組特定のメタデータ内に担持することができる。３１０において、この比較結果に基づいて、オフセットを計算することができ、３１２において、このオフセットは、ＭＤＡビットストリーム内の番組特定のメタデータ内に全体的に合計された音量オフセットとして格納することができる。全体的に合計された音量オフセットは、後で、消費者が再生するために最終的にオーディオがレンダリングされる時に下流で適用することができる。

空間的標準化音量メトリック
空間的標準化ＯＢＡ音量管理システム及び方法の実施形態は、ターゲットレンダリング構成（例えば、スピーカの数又はスピーカ構成）を認識することなく具体的で有効な音量測定を規定及び決定する。これは、これが、ＯＢＡコンテンツが消費者配信及び再生を意図している場合のものであるので重要である。更に、本発明のシステム及び方法の実施形態は、オブジェクトをレンダリングすることを必要とせずにこの音量測定値を計算する。

図４は、空間的標準化ＯＢＡ音量管理システム及び方法の実施形態によって計算される基本及び強化空間的標準化音量メトリックの想定される使用を示すブロック図４００である。図５は、図４に示されている空間的標準化音量メトリックの計算の概要を示すロック図５００である。空間的標準化ＯＢＡ音量管理システム及び方法は、空間的標準化音量メトリックの２つのタイプを定める。基本空間的標準化音量メトリックは、最終的なミックス（すなわち、オーディオオブジェクトの全てを使用して音量を特定）及びターゲットレンダリング環境を認識して計算することができる。この計算は、再生構成の固定リストの必要性を軽減し、消費者の住居内のチェーンの可能な最後の時点で行うことができる。強化空間的標準化音量メトリックは、聴取者の位置及び向きのような追加の情報に基づいて計算することができる。空間的標準化音量メトリックは、放送生成／配信／再生チェーン内のいずれかの与えられた時点で決定することができる。

技術及び値の両方は、確認される２つの問題を解決することを望ましい。第１の問題は、厳重な国家規制の下にある放送事業者に対して音量制御を維持し、これらの放送事業者の消費者向けの安定した音量体験を確保するように、放送事業者が住居に配信するコンテンツを提供することである。第２の問題は、ＯＢＡ配信を処理するための新しい技術を考案する必要性に対処することである。これらの状況では、このようなシステムの適用及び要件（新しい国際的放送規格など）は、オーディオオブジェクトの位置に対する住居内の聴取者のいずれかの与えられた位置／向きを適応するための適応性を有することを要求している。

空間的標準化ＯＢＡ音量管理システム及び方法の実施形態は、エンド・ツー・エンド・チェーンがより高性能で適応可能であることを可能にする。更に、本発明のシステム及び方法は、非常に困難な作業をヘッドエンド又はクラウドベースアーキテクチャにシフトしている。いずれかの与えられた環境及びいずれかの任意のミックス又は変更されるミックス（遅延バインディング又はホームネットワーク供給装置を通して消費者の双方向介入によって変更）に適応するためのいくつかのアルゴリズム計算は、消費者側で維持される。また、本発明のシステム及び方法は、特定の消費者再生環境を考慮に入れる。

基本空間的標準化音量メトリックが使用される場合に、放送事業者は、オーディオチャネルの音量を抜き取り検査、検証、又は補正するために多くのシステム構成要素を利用することができる。その一部は、ファイルベースのシステムであって、一部は、リアルタイム装置を使用する。コンプライアンスを維持する（又は特定の認定されたコンテンツに影響しない）責務は、配信チェーンの一部分からコンテンツ権利契約を通して次の部分に伝えられる。最終的に、個々の特定の企業を法的責任のある状態にするための法律が作り上げられる。米国では、コンテンツを作り出すのは、プログラマー及び放送事業者である。最初に制作されたオーディオコンテンツのオーディオ品質（ダイナミックレンジなど）に対して影響を与えないように最低限にしながら、音量を検証、検査、又は調節するためのツールが必要である。例示的システム及び方法は、レンダリングするか又はエンドユーザ構成を認識することを必要とせずに、いずれか与えられた時点でビットストリームに「タップ接続」してＯＢＡ番組の音量の計算結果を得るための非侵入的方法である。

強化空間的標準化音量メトリックが使用される場合に、聴取者の正確な位置／向きが認識される。この環境では、配信チェーンの最後の段階（消費者の住居内、図４を参照）において、本発明のシステムは、オブジェクトが、聴取者に対して部屋の中のどこでレンダリングされることになるかに関する情報を有する。これは、本発明のシステム及び方法、並びに本発明のシステム及び方法の計算の精度を高める。

近接性がオリジナルミックスの生成に使用される場合に、その効果を利用することができる強化レンダラーが使用される。本発明のシステム及び方法の実施形態は、更に正確に測定及び補償するために近接性を使用することができる。本発明のシステム及び方法は、３Ｄ聴取空間内のオブジェクトの位置に対する聴取者の位置のいずれかの変化を使用することもできる。この変化は、環境フィードバックシステムを通して本発明のシステム及び方法に認識されるようになる。本発明のシステム及び方法の実施形態が追加の情報を利用することができる場合に、本発明のシステム及び方法の実施形態は、３Ｄ空間内でレンダリングされる全てのオブジェクトの聴取者の視点に対する「知覚」音量レベルを計算することができる。

基本及び強化空間的標準化音量メトリック技術は、第１のかつ最も新しい測定処理であることに注意し、そのことを理解することが重要である。本発明のシステム及び方法の実施形態は、ファイルベース又はリアルタイムであるか否かに関わらず、チェーン内のいずれかの与えられた時点においてＯＢＡビットストリームに適用することができる。両方のタイプの空間的標準化音量メトリックは、生成及び配信段階におけるいずれかの時点で計算することができ、また、この音量メトリックが計算及び発生された後、元のＯＢＡビットストリームにメタデータとして挿入することができる。ＭＤＡでは、空間的標準化音量メトリックは、ＩＴＵ５．１の方法へのレンダラーを使用して、全体的に合計された音量値を置換することができる。

強化空間的標準化音量メトリックは、消費者再生環境における配信チェーン内の最後の時点で計算することができる。この時点は、対話が行われた後、聴取者及びミックスにおけるオブジェクトの最終セットに関するより多くの情報がシステムに認識される時点である。強化空間的標準化音量メトリックは、没入型オーディオの消費者復号器におけるリアルタイムシステムの中に設けることができる。更に、最終的には、この音量メトリックを使用してあらゆる不要な音量矛盾を補正することができる。本発明のシステム及び方法は、オーディオの特質又は芸術的意図に影響を与えることなく（メタデータの補正だけにより）、放送ヘッドエンドワークフローにおける音量問題を測定、モニタ、又は補正するように設計されたプロフェッショナル放送製品にライセンス供与し、かつそこに実施することができる。

一般的に、ＯＢＡ音量管理システム及び方法の実施形態は、オーディオが３Ｄ空間内のオーディオオブジェクトの形式にある場合に、音量を測定するための技術を含む。本発明のシステム及び方法の実施形態は、オーディオオブジェクトメタデータを使用して、新しい測定値及び新しいＯＢＡペイロード参照ユニットを生成する。現在、主として、放送線形計画、ＶＯＤ、及びＯＴＴストリーミングのような線形エンターテインメントのストリームタイプ配信における世界では、音量の課題が存在する。既存の技術は、従来型ステレオ及び５．１チャネルシナリオのための音量のみを管理する。

ＯＢＡ音量管理システム及び方法は、コンテンツ制作者及び配信者が、オーディオオブジェクトをレンダリングすることなくペイロードの音量のための新しい値を測定及び参照することを可能にする。更に、再生構成は、認識する必要がない。

現在の技術には、ＯＢＡのような没入型オーディオを測定する機能がない。本発明のシステム及び方法の実施形態は、ペイロードをレンダリングすることを必要とせずに、個々のオブジェクト音量／電力情報と組み合わせた空間情報を使用して新しい参照値を発生させる。例示的システム及び方法は、３Ｄ空間内のオブジェクトの位置及びオブジェクト生成中の測定される個々の音量に関する情報を担持するビットストリームを使用する。例示的に、限定するものではないが、ビットストリームは、ＭＤＡビットストリーム又は別のＯＢＡ公開仕様とすることができる。例示的システム及び方法は、空間的標準化技術も含み、この技術は、この技術が必要とする情報が与えられた場合に（レンダリングすることなく）、空間的標準化音量メトリックを計算する。

一般的に、空間的標準化音量メトリックは、２つのタイプのうちの一方とすることができる。一部の実施形態において、オーディオオブジェクトの位置に対する特定の聴取者の位置／向きを仮定することにより、いずれかの与えられた時間に計算することができる基本空間的標準化音量メトリックを使用することができる。この音量メトリックは、ファイルベースの環境及びリアルタイム環境の両方において正確である。他の実施形態において、強化空間的標準化音量メトリックが使用される。これらの実施形態において、聴取者の特定の位置／向きが認識される。基本空間的標準化音量メトリックと比較すると、強化空間的標準化音量メトリックは、より正確で個人別の知覚音量値を発生させることができる。次に、この強化音量メトリックを使用して、番組中、番組から番組まで、又は番組からコマーシャルまでのいずれかの音量矛盾を管理することができる。この強化空間的標準化音量メトリックは、他の様々な音量関連情報も考慮に入れることができる。例示的に、限定するものではないが、この音量関連情報は、近接性情報を含む。更に、一部の実施形態において、強化音量メトリックは、消費者側のあらゆる対話性、及びコンテンツがどこで再ミキシングされるかを考慮することができる（オブジェクトをミックスに追加すること、オブジェクトをミックスから削除するか、又はミックスにおけるオブジェクトの位置を変更することによるが（例えば、ミックスにおいて、オブジェクトを異なる位置に移動するか又はオブジェクトをパンニングすることによる）、これらの全ては、ミックスの全体の音量を変更する）。

基本空間的標準化音量メトリックは、オーディオ生成、処理、及び符号化／復号／トランスコーディング機器を作るプロフェッショナル製品にライセンス供与されるプロフェッショナル放送機器コードとしての形状を取ることになる。この音量メトリックは、独立型ツール（ハードウエアボックス又はソフトウエア）、他の第三者ツール、又は符号器に組み込むか又はオーディオを調節及び標準化するサーバベース又はクラウドベースの処理機器の一部分として組み込むことができる。

強化空間的標準化音量メトリックは、ライセンス供与された統合消費者解決法（コーデックスイート又は前処理）の一部分として使用することができる。これらのツールは、現在の配信及び再生解決法のための放送及びＯＴＴ前処理の一部分である。強化空間的標準化音量メトリックのクライアント側の実施は、ＰＣ、タブレット、モバイルスマートフォン、テレビ、及びセットトップボックスのようなマルチスクリーンアプリケーション内で実施された復号器及びプレーヤを含む。更に、これらのデバイスは、ヘッドフォン再生も適用可能であるので、依然としてラウドスピーカを必要としない。

ＩＩＩ．作動及びシステム詳細
空間的標準化ＯＢＡ音量管理システム及び方法は、ＯＢＡにおける音量測定及び管理を説明するものである。各オーディオオブジェクトに関連するメタデータは、例えば、３Ｄ空間内のオブジェクトの位置、オブジェクトをレンダリングする時の波形に適用される波形振幅倍率、介入するオブジェクトの相関関係に関するデータ、又はオブジェクトが開始及び終了する時のようなオブジェクトに関する時間的情報とすることができる。以下の説明では、本発明のシステム及び方法は、３つの段階、すなわち、ａ）コンテンツ生成（又は符号化）段階、ｂ）中間モニタ段階、及びｃ）コンテンツ消費段階との関連に説明される。

メタデータ符号化段階
図６は、コンテンツ生成／符号化段階の概要を示すブロック図６００である。生成段階中、各オーディオオブジェクト（６０２）に関連するメタデータ（各オーディオオブジェクトの電力又は音量など）が、ビットストリームのいくつかのタイプの「事前レンダリング」を実行することによって測定される（６０４）。この段階では、短期間、中間、又はファイルベースの測定を行うことができる。入力信号ｙ_iに関する電力測定値ｚ_iは、期間Ｔにわたって以下のように定義される。

ここで、ｉ∈Ｉであり、Ｉは、オーディオオブジェクト信号のセットである。電力測定情報は、オーディオオブジェクト信号と共にメタデータ（６０６）として格納することができる。これに代えて、電力測定情報は、音量情報として格納することができる。利得／振幅、オーディオオブジェクトの位置、及び聴取者の位置／向きを含む追加情報は、オブジェクト特定のメタデータとして格納することができる。オーディオオブジェクトに関する電力／音量測定メタデータ情報の処理について、モニタ段階に関連して以下に説明する。

モニタ段階
Ｉが、チャネル（オーディオオブジェクトではない）の電力測定のための入力チャネルのセットである場合に、測定された電力の音量値へのマッピングは、ｌｏｇ変換、すなわち、

によって行うことができ、ここで、Ｇ_iは、ｉ番目のオーディオオブジェクト信号のための重み係数である。

中間音量測定に関して、ゲート制御された重複タイプ（７５％までに設定可能）の変換、すなわち、

を使用することができ、ここで、Ｊ_gは、ゲート制御ブロックの音量が、典型的に−７０ｄＢＦＳに用いられるゲート制御閾値を超える場合のブロックインデックスのセットであり、｜Ｊ_g｜は、Ｊ_g内の要素数であり、かつ

である。

単一チャネル波形オブジェクトの音量測定の場合に、上記式における合計は、１に折り畳まれており（すなわち、Ｎ＝１）、スケーリング係数Ｇ₁は、１．０に設定することができる。一部の実施形態において、単一チャネルオブジェクトの群が、各チャネルを空間内の固定位置に割り当てたマルチチャネルオーディオ信号を表す（マルチチャネル「ベッド」と呼ばれる）場合に、上記式におけるスケーリング係数Ｇ_iは、ＢＳ．１７７０−ｘ規格において用いられており、「５．１」構成のような標準マルチチャネルラウドスピーカ再生構成に関してのみ定められたチャネル毎の重み付け値にマップすることができる。電力／音量測定（６１２）は、単一チャネルオブジェクト（６１０）に対して実行され、メタデータ（６１４）として格納することができる。ここで、音量測定を行う前に事前フィルタリング段階を適用することができることに注意しなければならない。この事前フィルタリング段階は、ヘッド及び修正されたＢ周波数重み付けフィルタの音響効果を考慮するためのフィルタを含むことができる。オブジェクト毎の電力／音量情報が測定された状態で、次に、測定値は、後に使用することができるメタデータとして格納される。更に、この段階では、オブジェクトの相関関係を表すメタデータを計算することができ（６０８）、このメタデータは、後で空間的標準化音量メトリックの計算を助けることができる。オブジェクトの相関関係は、１つのサウンドの知覚が別のサウンドの存在の影響を受ける場合に生じる聴覚マスキングを表している。周波数領域における聴覚マスキングは、同時マスキング、周波数マスキング、又はスペクトルマスキングと呼ばれる場合がある。時間領域における聴覚マスキングは、時間的マスキング又は非同時マスキングと呼ばれる場合がある。

モニタ段階中、オブジェクト毎の電力／音量メタデータ情報が抽出され（式（１）参照）、一般的音量値を計算するのに使用される。抽出された個々の電力／音量測定値を組み合わせて／合計して、一般的音量測定値が得られる。更に、個々の測定値は、組み合わされる／合計される前に、オブジェクト毎の重み付けメタデータ情報に基づいてスケーリングすることができる。組み合わされた／合計された一般的音量測定値は、空間的標準化音量メトリック（ＳＮＭとも呼ばれる）として定められる。空間的標準化音量メトリックは、電力又は音量のいずれかがマップされた形式で計算することができることを理解しなければならない。

上述の式（２）及び（３）は、チャネル又はチャネルの群毎の音量測定値を説明している。ここで、式（２）及び（３）は、オーディオオブジェクト又はオーディオオブジェクトの群毎に空間的標準化音量メトリックを発生させるように一般化することができる。

具体的には、間隔Ｔにわたる空間的標準化音量メトリック（ＳＮＭ）の特定は、

として一般化することができ、ここで、ｉ∈Ｉであり、Ｉは、オーディオオブジェクト信号のセットであり、Ｎは、オーディオオブジェクト信号のセットＩにおけるオーディオオブジェクト信号の数である。

間隔Ｔにわたるゲート制御された空間的標準化音量メトリック（ゲート制御ＳＮＭ）の特定は、

ゲート制御ＳＮＭの場合に、間隔Ｔは、重複するゲート制御ブロック間隔のセットに分割される。ゲート制御ブロックは、４００ｍｓの継続時間を有することができる継続時間Ｔ_gの隣接するオーディオサンプルのセットである。各ゲート制御ブロックの重複は、ゲート制御ブロック継続時間Ｔ_gの７５％とすることができる。７５％の重複及び４００ｍｓのウィンドウ継続時間を用いると、ゲート制御ＳＮＭは、ゲート制御ＳＮＭの以前の計算に使用される３００ｍｓのオーディオオブジェクト信号に基づいて決定される。従って、７５％の重複及び４００ｍｓのウィンドウ継続時間を用いると、ゲート制御ＳＮＭは、１００ｍｓ毎に決定される。

一般化された式（５）及び（６）は、

として定められた関数ＦＪＪＴを導入することにより、式（２）及び（３）から得られ、ここで、ｃ_iは、ｉ番目のオブジェクトの相関係数であり、かつ他のＮ−１個のオブジェクトのうちの１又は２以上によるｉ番目のオブジェクトのオーディオマスキングの相関関係尺度であり、ａ_iは、メタデータストリーム内で伝えられるｉ番目のオブジェクトの振幅倍率（オーディオオブジェクト信号の意図された振幅を得るための倍率）であり、

は、任意的にあり、ｉ番目のオブジェクト及び聴取者の相対距離逆二乗則に従い、ｇ_iは、ヘッドに対して及び仮定された視線方向に対してのサウンドの角度位置（典型的に、「前方中心」チャネルの位置と一致）の関数として人間の聴覚音量感度を考慮するための任意的な周波数依存重み係数であることを認識することができる。この重み係数は、ヘッドの音響効果を考慮するように設計されたＢＳ．１７７０−ｘに説明されている事前フィルタリング段階の一般化された形式として考えることができる。相関係数ｃ_iは、オーディオマスキングと逆相関することができる。例えば、オーディオマスキングが存在しない場合に、相関係数ｃ_iは、１とすることができ、１００％のオーディオマスキングが存在する場合に、相関係数ｃ_iは、０とすることができる。

Ο（θ_i，φ_i）は、上記で説明した重み係数ｇ_iに関係する追加の補正係数である。Ο（θ_i，φ_i）は、それぞれ、図７に示されているｉ番目のオブジェクトに対する聴取者のヘッドの配置を説明する右及び上方向ベクトルの外積：

及び

を使用する。図７に示すように、右方向ベクトルの方向は、聴取者のヘッドから聴取者の右耳が向く方向に沿っている。上方ベクトルの方向は、聴取者のヘッドの上である。

右及び上方向ベクトルに対して説明され角度変換θ−（θ_R−π／２）及びφ_orientation＝φ−φ’で説明したオブジェクトの方位角（θ）／仰角（φ）の変化に関係する聴取者が存在する場合に、Ο（θ_i，φ_i）は、ｉ番目のオブジェクトの音量に関する補正倍率を計算する。

これに加えて、方位角及び仰角の様々な対に関する連続関数Ο（θ_i，φ_i）の離散的出力テーブルを発生させることができ、このテーブルは、向きの重み係数を計算する必要がある場合に検索することができる。デフォルトの前方中心位置（典型的に前方中心スピーカの位置に対応）の場合に、Ο（θ_i，φ_i）＝１であることに注意しなければならない。相対距離及び方位係数の両方は、この段階において１に設定することができ、任意的に、後述する消費者デバイス段階において再計算することができる。

ｉ番目のオブジェクトの位置は、聴取者のヘッドに対するオーディオオブジェクト信号の意図された位置（例えば、効果、対話、楽器、音楽、背景など）であり、再生スピーカ構成と無関係である。聴取者のヘッドは、受け入れ点と呼ばれる場合があり、全てのオブジェクトは、レンダリングされる時にこの受け入れ点で受け入れられるように意図されている。例えば、オーディオオブジェクト信号ｉの特定の効果は、意図された受け入れ点に対するθ_iの方位角及びφ_iの仰角に位置すると意図することができる。別の例に関して、このようなオーディオオブジェクト信号ｉの特定の効果は、受け入れ点に対するθ_iの方位角及びφ_iの仰角において、受け入れ点からの意図された距離：

を有することができる。

この段階は、「音量モニタ」作動であることに注意しなければならない。言い換えると、この段階で行われるあらゆるＯＢＡレンダリングは、必ずしも存在するとは限らない。空間的標準化ＯＢＡ音量管理システム及び方法が、オーディオ波形復号及び電力又は音量計算を必要とすることなく、ＯＢＡコンテンツの音量を測定することを可能にすることが、本発明のシステム及び方法の本質的な利点である。これに代えて、空間的標準化音量メトリック計算は、上記で説明したＯＢＡコンテンツ形式及び計算においてオブジェクト毎の音量メタデータの提供により、非常に助長及び単純化される。

消費者デバイス（消費）段階
この最後の段階において、全体的に合計された音量又は空間的標準化音量メトリックは、オブジェクト生成、オブジェクト削除、オブジェクト変更（例えば、減衰）、又は聴取者の位置又はヘッドの向きの変化のいずれかを考慮するように再計算することができる（必要な場合）。この変更は、限定するものではないが、モニタ段階において与えられる対応する説明毎の相対距離及び向きの更新情報を含むことができる。

全体的に合計された音量メタデータ
一部の実施形態において、全体的に合計された音量メタデータ値は、オーディオストリーム（ＭＤＡ又はＤＴＳ：Ｘなど）の生成中に計算される。この計算は、参照レンダラー（ＶＢＡＰなど）を使用して、ストリームをターゲット構成（限定されるものではないが、ＩＴＵ５．１など）にレンダリングすることによって行われる。ストリームがレンダリングされた状態で、レンダリングされたストリームの音量特性を測定するためのＲ１２８／ＣＡＬＭ準拠である既存の音量モニタ／測定ツールを使用することができる。これらの特性は、限定するものではないが、瞬間的音量、短期的音量、正確なピーク、及び音量範囲を含むことができ、対話のようなアンカー要素を使用して又はそれを使用せずに測定することができる。

これらの測定値は、ＢＳ．１７７０−ｘのような音量モデル規格毎に重み付けすることができるが、そのような重み付けに従うことに限定されない。これに加えて、相関関係測定値は、レンダリングされる信号の相関関係を識別するのに使用することができ、ＢＳ．１７７０−ｘの電力合計値ではなく相関関係モデルに基づいて全体の音量を計算するのに使用することができる。音量が計算された状態で、次に、計算された音量は、ＣＡＬＭ決議における−２４ＬＫＦＳ又はＥＢＵＲ−１２８における−２３ＬＵＦＳのような国際規制基準と比較される。この比較結果に基づいて、全体的に合計された音量であるオフセットが計算され、このオフセットが、次に、発生されるストリームにメタデータ値として保存される。

全体的に合計された音量は、強化空間的標準化音量メトリックが用いられる場合に、上書きされる可能性があることに注意しなければならない。これは、そのような場合に使用される追加の動的情報によるものである。

ＩＶ．代替実施形態及び例示的作動環境
本明細書に説明されるもの以外の多くの変形は、本明細書から明らかであろう。例えば、実施形態に応じて、本明細書で説明する方法及びアルゴリズムのいずれかのある一定の作用、事象、又は機能は、異なる順番で実行することができ、かつ追加、融合、又は完全に省略することができる（説明する全ての作用又は事象が方法及びアルゴリズムの実施に必要であるとは限らない）。更に、特定の実施形態において、作用及び事象は、例えば、マルチスレッド処理、割り込み処理、又はマルチプロセッサ又はプロセッサコアを通して、又は連続的にではなく他のパラレルアーキテクチャに基づいて同時に実行することができる。更に、一緒に機能することができる異なる機械及びコンピュータシステムが、異なるタスク又は処理を実行することができる。

図８は、空間的標準化ＯＢＡ音量管理システム及び方法の実施形態の３つ全ての段階の全体的作動を示す流れ図８００である。メタデータ発生段階８０２において、番組ビットストリーム内のオーディオオブジェクトに関するメタデータを発生させる。このようなメタデータは、上記で説明した式１及び式５から７に使用される情報を含むことができる。ブロック８０４において、電力／音量測定を実行する。電力／音量測定は、式１に従って実行することができる。電力／音量測定値は、それ自体、オーディオオブジェクトに関するメタデータ内に格納することができる。次に、ブロック８０６において、空間的標準化音量メトリックを決定することができる。空間的標準化音量メトリックは、オーディオオブジェクトに対する聴取者の位置／場所に関するメタデータ及び仮定に基づいて決定することができる。例えば、聴取者は、この聴取者の周りの特定の半径／距離に位置するオーディオオブジェクトに対して３Ｄ空間内の位置０，０，０に存在すると仮定することができる。次に、８０８において、オーディオオブジェクトを消費者デバイスに送信する（例えば、ストリーミング、ファイル配信で送る、放送する）（８１０）。８１２において、消費者デバイスにおいて、ミックスに含まれるオーディオオブジェクトに基づいて空間的標準化音量メトリックを再度決定することができる。例えば、聴取者は、ミックスからオーディオオブジェクトを更新（例えば、追加、削除）するか、又はミックスにおいてオーディオオブジェクトを変更することができる（８１４）。８１２において、更新された聴取者の位置８１６のような追加情報に基づいて、強化空間的標準化音量メトリックを決定することができる。例えば、聴取者は、聴取者がもはや３Ｄ空間内の位置０，０，０に存在しないように、オーディオオブジェクトを聴取している時に聴取者の位置を変更する場合があり、又は聴取者が起き上がるのではなく横になることによってこの聴取者のヘッドの向きを変える場合がある。強化空間的標準化メトリックは、意図されたオーディオオブジェクトの位置に対する聴取者の更新された仰角、方位角、及び位置情報に基づいて決定することができる。

図９は、再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理する方法の流れ図９００である。本方法は、中央演算処理ユニット（ＣＰＵ）のようなプロセッサによって実施することができる。このプロセッサは、再生システムに存在するか、又は後で再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するシステムに存在することができる。図９では、このプロセッサは、装置と呼ばれる。９０２において、装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。例えば、オブジェクトメタデータは、上記で説明した電力パラメータｚ_iを含むことができる。これに代えて、オブジェクトメタデータは、電力パラメータｚ_iの関数である音量パラメータ（ＬＫＦＳ又はＬＵＦＳの単位）を含むことができる。９０４において、装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定することができる。例えば、装置は、式５、６、及び７に基づいて空間的標準化音量メトリックを決定することができる。９１０において、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする。

一構成では、９１０において、装置は、受信したオブジェクトベースのオーディオ信号をレンダリングする時に、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅ａ_iを調節することができる。例えば、９０６において、装置は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定することができる。ターゲット音量メトリックは、上記で説明したＣＡＬＭ決議における−２４ＬＫＦＳ又はＥＢＵＲ−１２８における−２３ＬＫＦＳのような国際規制基準で定められたターゲット音量レベルとすることができる。受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅ａ_iは、音量メトリックとターゲット音量メトリックの間の比較に基づいて調節することができる。具体的には、９０８において、装置は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定することができる。９０８において、音量メトリックが、ターゲット音量メトリックよりも大きいと決定された時に、９１０において、装置は、音量が小さくなってターゲット音量メトリックに近づくように、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅ａ_iを調節／スケーリングすることができる。

一構成では、音量メトリックはまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データに基づいて決定される。受け入れ点は、３Ｄ空間内の０，０，０のような仮定された受け入れ点、又は３Ｄ空間内の聴取者の実際の位置とすることができる。オブジェクトベースのオーディオ信号の位置データは、受け入れ点０，０，０に対するオブジェクトベースのオーディオ信号の意図された位置である。例えば、第１のオブジェクトベースのオーディオ信号は、受け入れ点に対して第１の仰角及び第１の方位角で聴取者の右側に位置すると意図することができ、第２のオブジェクトベースのオーディオ信号は、受け入れ点に対して第２の仰角及び第２の方位角で聴取者の左側に位置すると意図することができる。

一構成では、位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角、又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも一方を含む。位置データはまた、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離を含むことができる。一構成では、全てのオブジェクトベースのオーディオ信号は、受け入れ点０，０，０からの固定の距離／半径を有すると仮定することができる。

一構成では、音量メトリックはまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、このオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数ｃ_i、オブジェクトベースのオーディオ信号の振幅倍率ａ_i、又は受け入れ点に対するオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのオブジェクトベースのオーディオ信号の周波数依存重み係数ｇ_iのうちの少なくとも１つに基づいて決定される。

一構成では、音量メトリックは、

に基づいて決定され、ここでｉ∈Ｉであり、Ｉは、オブジェクトベースのオーディオ信号のセットであり、Ｎは、受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ｚ_iは、ｉ番目のオブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方であり、ｒ_iは、ｉ番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、ｒ_Lは、受け入れ点に関連付けられた位置であり、θ_iは、ｉ番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角であり、φ_iは、ｉ番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角であり、ａ_iは、ｉ番目のオブジェクトベースのオーディオ信号の振幅倍率であり、ｇ_iは、受け入れ点に対するｉ番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのｉ番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ｃ_iは、ｉ番目のオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数である。

一構成では、受信したオブジェクトベースのオーディオ信号は、ユーザによって指定される。すなわち、ユーザは、オブジェクトベースのオーディオ信号を追加、削除、又は他に変更することができる。従って、９１２において、装置は、オブジェクトベースのオーディオ信号の新しいセットを示す情報を受け入れることができる。オブジェクトベースのオーディオ信号のセットを示す情報は、ユーザ入力に基づいて受け入れられる。次に、装置は、オブジェクトベースのオーディオ信号のセットに基づいて、かつオブジェクトベースのオーディオ信号のセットの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを再度決定することができる（９０４）。

上述のように、各オブジェクトベースのオーディオ信号のオブジェクトメタデータは、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データ、又はオブジェクトベースのオーディオ信号の振幅倍率のうちの少なくとも一方を含む。受け入れ点に対するオブジェクトベースのオーディオ信号の位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角、又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも１つを含むことができる。

一構成では、音量メトリックは、Ｔｍｓにわたる平均音量であり、音量メトリックは、Ｔｍｓ毎に決定される。一構成では、音量メトリックは、Ｔｍｓにわたる平均音量であり、音量メトリックは、Ｄ＜ＴであるＤｍｓ毎に決定される。例えば、音量メトリックは、４００ｍｓにわたる平均音量であり、音量メトリックは、１００ｍｓ毎に決定することができる。一構成では、音量メトリックは、各々が以前のウィンドウと重複する複数のウィンドウ期間にわたって決定される。例えば、ウィンドウ期間の各々は、４００ｍｓの継続時間を有し、３００ｍｓだけ他のウィンドウ期間と重複することができる。

一構成では、受信したオブジェクトベースのオーディオ信号は、Ｎ個のオブジェクトベースのオーディオ信号を含み、受信したオブジェクトベースのオーディオ信号は、ｎ個のチャネルを有するスピーカを通してレンダリングされるが、Ｎは、ｎと無相関である。具体的には、オブジェクトベースのオーディオ信号の数Ｎは、チャネルの数ｎと全く相関関係がない。

再度９１０を参照すると、一構成では、必要な場合に、受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の振幅が調節／修正された後、装置は、出力信号のセットを発生させる時に、オブジェクトベースのオーディオ信号を特定のスピーカ（又はチャネル）にマップすることができる。各オブジェクトベースのオーディオ信号は、オブジェクトベースのオーディオ信号の位置に基づいて、かつオブジェクトベースのオーディオ信号に最も近いスピーカの位置に基づいて、最も近いスピーカセット（例えば、三角形パターン内の３つのスピーカ）にマップすることができる。別の構成では、出力信号のセットは、特定のスピーカ（チャネル）へのマッピングを実行する別の装置に供給される。

図１０は、放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためのオブジェクトベースのオーディオ信号を処理する方法の流れ図１０００である。本方法は、ＣＰＵのようなプロセッサによって実施することができる。図１０では、このプロセッサは、装置と呼ばれる。１００２において、装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。１００４において、装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定する。１０１２において、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信する。

一構成では、１００６において、装置は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定することができる。１００８において、装置は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定することができる。音量メトリックが、ターゲット音量メトリックよりも大きいと決定された時に、１０１０において、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を調節することができる。その後、１０１２において、装置は、次に、受信したオブジェクトベースのオーディオ信号のうちの少なくとも一方の調節された振幅を有する受信したオブジェクトベースのオーディオ信号を送信することができる。これに代えて、１０１０において、装置は、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を決定された音量メトリックに基づいて、番組ビットストリームの番組特定のメタデータ内で変更することができる。次に、１０１２において、装置は、番組特定のメタデータ内の変更された振幅を有する受信したオブジェクトベースのオーディオ信号を送信することができる。

図１１は、例示的装置１１０２内の異なるモジュール／手段／構成要素間のデータフローを示す概念的データフロー図１１００である。装置は、再生システムを通して再生し、又は放送、ファイル配信、又はストリーミングによって送信するようにオブジェクトベースのオーディオ信号を処理するためのものである。装置１１０２は、複数のオブジェクトベースのオーディオ信号を受信するように構成された受け入れモジュール１１０４を含む。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置１１０２はまた、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定するように構成された音量メトリック決定モジュール１１０６を含む。装置１１０２は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングするように構成することができるレンダリング／送信モジュール１１０８を更に含む。これに代えて、レンダリング／送信モジュール１１０８は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信するように構成される。

一構成では、レンダリング／送信モジュール１１０８は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を調節するように構成される。一構成では、音量メトリック決定モジュール１１０６は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定するように構成することができる。レンダリング／送信モジュール１１０８は、音量メトリックとターゲット音量メトリックの間の比較に基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を決定するように構成することができる。一構成では、音量メトリック決定モジュール１１０６は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定するように構成することができる。レンダリング／送信モジュール１１０８は、音量メトリックがターゲット音量メトリックよりも大きいと決定された時に、受信したオブジェクトベースのオーディオ信号の少なくとも１つの振幅を調節するように構成することができる。

一構成では、レンダリング／送信モジュール１１０８は、受信したオブジェクトベースのオーディオ信号を送信する前に、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を調節することができる。一構成では、オブジェクトベースのオーディオ信号は、番組ビットストリームに関連しており、レンダリング／送信モジュール１１０８は、受信したオブジェクトベースのオーディオ信号を送信する前に、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を決定された音量メトリックに基づいて、番組ビットストリームの番組特定のメタデータ内で変更するように構成される。

一構成では、音量メトリック決定モジュール１１０６はまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データに基づいて、音量メトリックを決定するように構成することができる。この位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも一方を含むことができる。位置データはまた、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離を含むことができる。音量メトリック決定モジュール１１０６はまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、このオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数、オブジェクトベースのオーディオ信号の振幅倍率、又は受け入れ点に対するオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのオブジェクトベースのオーディオ信号の周波数依存重み係数のうちの少なくとも１つに基づいて音量メトリックを決定することができる。

一構成では、音量メトリック決定モジュール１１０６は、

に基づいて音量メトリックを決定することができ、ここで、ｉ∈Ｉであり、Ｉは、オブジェクトベースのオーディオ信号のセットであり、Ｎは、受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ｚ_iは、ｉ番目のオブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方であり、ｒ_iは、ｉ番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、ｒ_Lは、受け入れ点に関連付けられた位置であり、θ_iは、ｉ番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角であり、φ_iは、ｉ番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角であり、ａ_iは、ｉ番目のオブジェクトベースのオーディオ信号の振幅倍率であり、ｇ_iは、受け入れ点に対するｉ番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのｉ番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ｃ_iは、ｉ番目のオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数である。

一構成では、受け入れモジュール１１０４は、受信したオブジェクトベースのオーディオ信号を示すユーザ指定入力を受信することができる。一構成では、受け入れモジュール１１０４は、オブジェクトベースのオーディオ信号の新しいセットを示す情報を受け入れることができる。オブジェクトベースのオーディオ信号のセットを示す情報は、ユーザ入力に基づいて受信することができる。このような構成では、音量メトリック決定モジュール１１０６は、オブジェクトベースのオーディオ信号のセットに基づいて、かつオブジェクトベースのオーディオ信号のセットの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを再度決定することができる。

一構成では、各オブジェクトベースのオーディオ信号のオブジェクトメタデータは、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データ、又はオブジェクトベースのオーディオ信号の振幅倍率のうちの少なくとも一方を含む。一構成では、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角、又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも１つを含む。

一構成では、音量メトリックは、Ｔｍｓにわたる平均音量であり、音量メトリックは、Ｔｍｓ毎に決定される。一構成では、音量メトリックは、Ｔｍｓにわたる平均音量であり、音量メトリックは、Ｄ＜ＴであるＤｍｓ毎に決定される。一構成では、音量メトリックは、各々が以前のウィンドウと重複する複数のウィンドウ期間にわたって決定される。一構成では、ウィンドウ期間の各々は、４００ｍｓの継続時間を有し、３００ｍｓだけ他のウィンドウ期間と重複する。一構成では、受信したオブジェクトベースのオーディオ信号は、Ｎ個のオブジェクトベースのオーディオ信号を含み、受信したオブジェクトベースのオーディオ信号は、ｎ個のチャネルを有するスピーカを通してレンダリングされるが、Ｎは、ｎと無相関である。

装置は、図９及び１０の上述の流れ図におけるアルゴリズムのブロックの各々を実行する追加のモジュールを含むことができる。従って、図９及び１０の上述の流れ図における各ブロックは、モジュールによって実行することができ、装置は、これらのモジュールのうちの１又は２以上を含むことができる。モジュールは、記載した処理／アルゴリズムを実行するように構成されたプロセッサによって実施され、プロセッサによって実施されるようにコンピュータ可読媒体内に格納され、又はこれらの何らかの組合せである記載した処理／アルゴリズムを実行するように専用に構成された１又は２以上のハードウエア構成要素である場合がある。

一構成では、再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するための装置は、複数のオブジェクトベースのオーディオ信号を受信する手段を含む。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置はまた、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定するための手段を含む。装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングするための手段を更に含む。

一構成では、受信したオブジェクトベースのオーディオ信号をレンダリングするための手段は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を調節するように構成される。一構成では、装置は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックを決定するための手段を含む。このような構成では、受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅は、音量メトリックとターゲット音量メトリックの間の比較に基づいて調節される。一構成では、装置は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定するための手段を含む。このような構成では、音量メトリックがターゲット音量メトリックよりも大きいと決定された時に、受信したオブジェクトベースのオーディオ信号の少なくとも１つの振幅が調節される。

一構成では、放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためのオブジェクトベースのオーディオ信号を処理するための装置は、複数のオブジェクトベースのオーディオ信号を受信する手段を含む。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置はまた、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定するための手段を含む。装置はまた、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信するための手段を含む。

本明細書に開示する実施形態に関連して説明する様々な例示的論理ブロック、モジュール、方法、及びアルゴリズム処理及びシーケンスは、電子的ハードウエア、コンピュータソフトウエア、又はこれら両方の組合せとして実施することができる。このハードウエアとソフトウエアとの互換性を明確に示すために、様々な例示的構成要素、ブロック、モジュール、及び処理アクションについて、これらの機能に関して一般的に上記で説明した。このような機能がハードウエアとして実施されるか又はソフトウエアとして実施されるかは、個別の用途、及びシステム全体に課せられた設計制約条件に依存している。説明する機能は、それぞれの個別用途に対して様々な方法で実施することができるが、そのような実施の決定は、本明細書の範囲からの逸脱を引き起こすものと解釈すべきではない。

本明細書に開示する実施形態に関連して説明する様々な例示的論理ブロック及びモジュールは、本明細書で説明する機能を実行するように設計された汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理回路、個別ハードウエア構成要素、又は上述のいずれかの組合せのような機械によって実施又は実行することができる。汎用プロセッサは、マイクロプロセッサとすることができるが、これに代えて、プロセッサは、コントローラ、マイクロコントローラ、状態機械、又はこれらの組合せなどとすることができる。プロセッサはまた、コンピュータデバイスの組合せとして、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、ＤＳＰコアと連携した１又は２以上のマイクロプロセッサの組合せとして、又は他のいずれかのそのような構成として実施することができる。

本明細書で説明する空間的標準化ＯＢＡ音量管理システム及び方法の実施形態は、多数のタイプの汎用又は専用コンピュータシステム環境又は構成内で作動する。一般的に、コンピュータ環境は、いくつかの例を含めると、限定するものではないが、１又は２以上のマイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯式コンピュータデバイス、個人用システム手帳、デバイスコントローラ、電化製品内の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び組込型コンピュータを有する電化製品に基づくコンピュータシステムを含むコンピュータシステムのいくつかのタイプを含むことができる。

このようなコンピュータデバイスは、典型的に、限定するものではないが、パーソナルコンピュータ、サーバコンピュータ、手持ち式コンピュータデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びＰＤＡのマルチプロセッサシステムのような通信デバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤなどを含む少なくともいずれかの最低限の計算機能を有するデバイスに見つけることができる。一部の実施形態において、コンピュータデバイスは、１又は２以上のプロセッサを含む。各プロセッサは、ＤＳＰ、超長命令語（ＶＬＩＷ）、又は他のマイクロコントローラのような専用マイクロプロセッサとするか、又はマルチコアＣＰＵ内の専用グラフィック処理ユニット（ＧＰＵ）ベースのコアを含む１又は２以上の処理コアを有する従来型ＣＰＵとすることができる。

本明細書に開示する実施形態に関連して説明する方法、処理、又はアルゴリズムの処理アクションは、ハードウエアにおいて直接に、プロセッサによって実施されるソフトウエアモジュールにおいて、又はこれら２つのいずれかの組合せに具現化することができる。ソフトウエアモジュールは、コンピュータデバイスがアクセス可能なコンピュータ可読媒体に収容することができる。コンピュータ可読媒体は、取外し可能、取外し不能、又はこれらのいずれかの組合せである揮発性媒体及び不揮発性媒体の両方を含む。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータのような情報を格納するのに使用される。例示的に、限定するものではないが、コンピュータ可読媒体は、コンピュータストレージ媒体及び通信媒体を含むことができる。

コンピュータストレージ媒体は、限定するものではないが、光学ストレージデバイス、Ｂｌｕ−ｒａｙディスク（ＢＤ）（登録商標）、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、フロッピーディスク、テープドライブ、ハードドライブ、光学式ドライブ、半導体メモリデバイス、ランダムアクセスメモリ（ＲＡＭ）メモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージデバイス、又は他の磁気ストレージデバイス、又は１又は２以上のコンピュータデバイスがアクセス可能な望ましい情報を格納するのに使用することができる他のいずれかのデバイスのようなコンピュータ又は機械可読媒体又はストレージデバイスを含む。

ソフトウエアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、又は当業技術で公知の非一時的コンピュータ可読ストレージ媒体、媒体、又は物理的コンピュータストレージデバイスの他の形態に存在することができる。例示的ストレージ媒体は、プロセッサが、ストレージ媒体から情報を読み取ることができ、かつストレージ媒体に情報を書き込むことができるようにプロセッサに結合することができる。これに代えて、ストレージ媒体は、プロセッサと一体化することができる。プロセッサ及びストレージ媒体は、ＡＳＩＣに存在することができる。ＡＳＩＣは、ユーザ端末に存在することができる。これに代えて、プロセッサ及びストレージ媒体は、ユーザ端末内の個別構成要素として存在することができる。

本明細書に使用される「非一時的」という用語は、「持続する又は長寿命」を意味する。「非一時的コンピュータ可読媒体」という用語は、一時的な伝播信号の唯一の例外はあるが、いくつかの及び全てのコンピュータ可読媒体を含む。この「非一時的コンピュータ可読媒体」という用語は、例として、限定するものではないが、レジスタメモリ、プロセッサキャッシュ、及びＲＡＭのような非一時的コンピュータ可読媒体を含む。

また、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュールのような情報の保持は、１又は２以上の変調されたデータ信号又は電磁波（搬送波など）を符号化するための様々な通信媒体、又は他の伝達機構又は通信プロトコルを使用することによって達成することができ、いずれかの有線又は無線情報配信機構を含む。一般的に、これらの通信媒体は、信号内の情報又は命令を符号化するように信号の特性セットのうちの１又は２以上が設定又は変更された信号を指す。例えば、通信媒体は、１又は２以上の変調されたデータ信号を搬送する有線ネットワーク又は直接有線接続のような有線媒体と、１又は２以上の変調されたデータ信号又は電磁波を送信、受信、又は送受信するための音響、無線周波数（ＲＦ）、赤外線、レーザ、及び他の無線媒体のような無線媒体とを含む。また、上述のいずれかの組合せは、通信媒体の範囲に含まれるべきである。

更に、本明細書で説明する空間的標準化ＯＢＡ音量管理システム及び方法の様々な一部の実施形態又は全てを具現化するソフトウエア、プログラム、及びコンピュータプログラム製品の１つ又はいずれかの組合せ、又はこれらの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式でコンピュータ又は機械可読媒体又はストレージデバイス、及び通信媒体のいずれかの望ましい組合せから格納、受信、送信、又は読み取ることができる。

更に、本明細書で説明する空間的標準化ＯＢＡ音量管理システム及び方法の実施形態は、プログラムモジュールのようなコンピュータデバイスによって実行されるコンピュータ実行可能命令との関連で一般的に説明される場合がある。一般的に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実施するルーチン、プログラム、オブジェクト、構成要素、及びデータ構造などを含む。本明細書で説明する実施形態はまた、１又は２以上の通信ネットワーク上でリンクされて１又は２以上のリモート処理デバイスにより又は１又は２以上のデバイスから構成されるクラウド内でタスクが実行される分散コンピュータ環境内で実施することができる。分散コンピュータ環境では、プログラムモジュールは、媒体ストレージデバイスを含むローカルとリモートの両方のコンピュータストレージ媒体に置くことができる。更に、上述の命令は、その一部又は全部において、プロセッサを含むことができるか又はそれを含まない場合があるハードウエア論理回路として実施することができる。

取りわけ、本明細書に使用される「可能である」、「かもしれない」、「場合がある」、及び「例えば」などのような条件付きの表現は、それ以外に明示されない限り、又は使用される関連においてそれ以外に理解されない限り、一般的に、特定の実施形態が、ある特徴、要素、及び／又は状態を含む一方、他の実施の形態は、そのような特徴、要素、及び／又は状態を含まないことを伝えるように意図している。従って、このような条件付きの表現は、通常は、特徴、要素、及び／又は状態が、１又は２以上の実施形態に必要ないか、又は１又は２以上の実施形態が、著者の入力又は示唆の有無にかかわらず、これらの特徴、要素、及び／又は状態が含まれるか否か又はいずれかの特定の実施形態において実行されるか否かを決定するための論理部を必ずしも含まないことを示すこと意図している。「備える」、「含む」、及び「有する」などの用語は、同義語であり、制約のない方法で包含的に使用されるものであり、別の要素、特徴、作用、及び作動などを除外するものではない。同じく「又は」という用語は、この用語が使用される場合に、例えば、要素のリストを結び付けるために、「又は」という用語がリストの中の要素の１つ、一部、又は全てを意味するように包含的意味（この用語の排他的意味ではなく）で使用される。

上述の詳細説明は、様々な実施形態に適用される新規性のある特徴を示し、説明し、指摘したが、本発明の開示の精神から逸脱することなく、示されているデバイス又はアルゴリズムの形態及び詳細における様々な省略、代用、及び変更を行うことができることが理解されるであろう。認識されるように、本明細書で説明する空間的標準化ＯＢＡ音量管理システム及び方法のある一定の実施形態は、本明細書で示される特徴及び利点の必ずしも全てを提供するとは限らない形態に具現化することができるが、それは、一部の特徴が、他の特徴から切り離して使用又は実施することができるためである。

更に、構造的特徴及び方法的作用に独特の言語で主題を説明したが、特許請求の範囲において定められる主題は、上記で説明した特定の特徴又は作用に必ずしも限定されないことを理解しなければならない。そうではなく、上記で説明した特定の特徴及び作用は、特許請求の範囲を実施する例示的形態として開示されている。

以上の説明は、当業者が、本明細書で説明する様々な態様を実施することを可能にするために与えられている。これらの態様に対する様々な変更は、当業者に容易に明らかになるであろうし、本明細書で定められる一般的原理は、他の態様に適用することができる。従って、特許請求の範囲は、本明細書に示されている態様に限定されるように想定されているものではなく、言語による特許請求の範囲と整合性のある完全な範囲を与えられるべきであり、要素への単数形での言及は、明示的に説明しない限り、「１つ及び１つのみ」ではなく、「１又は２以上」を意味するように意図したものである。本明細書に使用される「例示的」という用語は、「例、事例、又は例証として機能する」を意味する。本明細書において「例示的」として説明するいずれの態様も、必ずしも他の態様よりも好ましいか又は有利と解釈されるものではない。「一部の」という用語は、別途明示しない限り、「１又は２以上」を意味する。「Ａ、Ｂ、又はＣのうちの少なくとも１つ」、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」、及び「Ａ、Ｂ、Ｃ、又はそれらのいずれかの組合せ」のような組合せに関する用語は、Ａ、Ｂ、及び／又はＣのいずれかの組合せを含み、複数のＡ、複数のＢ、又は複数のＣを含む。具体的には、「Ａ、Ｂ、又はＣのうちの少なくとも１つ」、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」、及び「Ａ、Ｂ、Ｃ、又はそれらのいずれかの組合せ」のような組合せに関する用語は、Ａのみ、Ｂのみ、Ｃのみ、Ａ及びＢ、Ａ及びＣ、Ｂ及びＣ、又はＡ及びＢ及びＣとすることができ、ここで、このような組合せに関する用語は、いずれもが、Ａ、Ｂ、又はＣのうちの１又は２以上の要素を含むことができる。本発明の開示全体を通して説明する当業技術で公知の又は後で公知になる様々な態様の要素に対する全ての構造的及び機能的均等物は、引用によって本明細書に明示的に組み込まれており、特許請求の範囲に包含されるように意図されている。更に、本明細書に開示するいずれのものも、このような開示内容が特許請求の範囲で明示的に説明されているか否かにかかわらず、公共に献呈されるようには意図されていない。特許請求の範囲の要素のどれも、これらの要素が「のための手段」という語句を使用して明示的に示されていない限り、手段プラス機能と解釈されないものとする。

９００オーディオ信号を処理する方法の流れ図
９０２装置が複数のオブジェクトベースのオーディオ信号を受信する段階
９０４装置が音量メトリックを決定する段階
９０６装置が音量メトリックオフセットを決定する段階
９１０装置がオーディオ信号を出力信号のセットにレンダリングする段階

Claims

再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理する方法であって、
前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信する段階と、
前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定する段階と、
前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする段階と、
を含むことを特徴とする方法。
前記受信したオブジェクトベースのオーディオ信号を前記レンダリングする段階は、前記決定された音量メトリックに基づいて、該受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つのものの振幅を調節する段階を含むことを特徴とする請求項１に記載の方法。
前記音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定する段階を更に含み、
前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも１つのものの前記振幅は、前記音量メトリックと前記ターゲット音量メトリックの間の前記比較に基づいて調節される、
ことを特徴とする請求項２に記載の方法。
前記音量メトリックが前記ターゲット音量メトリックよりも大きいか否かを決定する段階を更に含み、
前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも１つのものの前記振幅は、前記音量メトリックが前記ターゲット音量メトリックよりも大きいと決定された時に調節される、
ことを特徴とする請求項３に記載の方法。
前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に関して、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データに更に基づいて決定されることを特徴とする請求項１に記載の方法。
前記位置データは、前記オブジェクトベースのオーディオ信号の位置と前記受け入れ点の間の方位角、又は該オブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角のうちの少なくとも一方を含むことを特徴とする請求項５に記載の方法。
前記位置データは、前記オブジェクトベースのオーディオ信号の前記位置と前記受け入れ点の間の距離を更に含むことを特徴とする請求項６に記載の方法。
前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に関して、該オブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数と、該オブジェクトベースのオーディオ信号の振幅倍率と、又は受け入れ点に対する該オブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該オブジェクトベースのオーディオ信号の周波数依存重み係数とのうちの少なくとも１つに更に基づいて決定されることを特徴とする請求項１に記載の方法。
前記音量メトリックは、

に基づいて決定され、ここで、ｉ∈Ｉであり、Ｉは、オブジェクトベースのオーディオ信号のセットであり、Ｎは、前記受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ｚ_iは、ｉ番目のオブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方であり、ｒ_iは、該ｉ番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、ｒ_Lは、受け入れ点に関連付けられた位置であり、θ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角であり、φ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角であり、ａ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の振幅倍率であり、ｇ_iは、該受け入れ点に対する該ｉ番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該ｉ番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ｃ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数であることを特徴とする請求項１に記載の方法。
前記受信したオブジェクトベースのオーディオ信号は、ユーザ指定のものであることを特徴とする請求項１に記載の方法。
オブジェクトベースのオーディオ信号の新しいセットを示し、オブジェクトベースのオーディオ信号の前記セットがユーザ入力に基づいて受け入れられていることを示す情報を受け入れる段階を更に含み、
方法が、
オブジェクトベースのオーディオ信号の前記セットに基づいて、かつオブジェクトベースのオーディオ信号の該セットの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて前記音量メトリックを再度決定する段階、
を更に含む、
ことを特徴とする請求項１０に記載の方法。
各オブジェクトベースのオーディオ信号の前記オブジェクトメタデータは、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データ又は該オブジェクトベースのオーディオ信号の振幅倍率のうちの少なくとも一方を含むことを特徴とする請求項１に記載の方法。
前記受け入れ点に対する前記オブジェクトベースのオーディオ信号の前記位置データは、該オブジェクトベースのオーディオ信号の位置と該受け入れ点の間の距離、該オブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角、又は該オブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角のうちの少なくとも１つを含むことを特徴とする請求項１２に記載の方法。
前記音量メトリックは、Ｔｍｓにわたる平均音量であり、該音量メトリックは、Ｔｍｓ毎に決定されることを特徴とする請求項１に記載の方法。
前記音量メトリックは、Ｔｍｓにわたる平均音量であり、該音量メトリックは、Ｄ＜ＴであるＤｍｓ毎に決定されることを特徴とする請求項１に記載の方法。
前記音量メトリックは、各々が以前のウィンドウと重複する複数のウィンドウ期間にわたって決定されることを特徴とする請求項１５に記載の方法。
前記ウィンドウ期間の各々が、４００ｍｓの継続時間を有し、かつ３００ｍｓだけ他のウィンドウ期間と重複することを特徴とする請求項１６に記載の方法。
前記受信したオブジェクトベースのオーディオ信号は、Ｎ個のオブジェクトベースのオーディオ信号を含み、該受信したオブジェクトベースのオーディオ信号は、ｎ個のチャネルを含むスピーカを通してレンダリングされ、Ｎは、ｎと無相関であることを特徴とする請求項１に記載の方法。
放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためにオブジェクトベースのオーディオ信号を処理する方法であって、
前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信する段階と、
前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定する段階と、
前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を送信する段階と、
を含むことを特徴とする方法。
前記受信したオブジェクトベースのオーディオ信号を送信する前に、前記決定された音量メトリックに基づいて、該受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つの振幅を調節する段階を更に含むことを特徴とする請求項１９に記載の方法。
前記オブジェクトベースのオーディオ信号は、番組ビットストリームに関連付けられており、
方法が、
前記受信したオブジェクトベースのオーディオ信号を送信する前に、前記決定された音量メトリックに基づいて、前記番組ビットストリームの番組特定のメタデータで該受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つのものの振幅を修正する段階、
を更に含む、
ことを特徴とする請求項１９に記載の方法。
再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するための装置であって、
前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信するための手段と、
前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定するための手段と、
前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングするための手段と、
を含むことを特徴とする装置。
前記受信したオブジェクトベースのオーディオ信号をレンダリングするための前記手段は、前記決定された音量メトリックに基づいて、該受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つのものの振幅を調節するように構成されることを特徴とする請求項２２に記載の装置。
前記音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定するための手段を更に含み、
前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも１つの前記振幅は、前記音量メトリックと前記ターゲット音量メトリックの間の前記比較に基づいて調節される、
ことを特徴とする請求項２３に記載の装置。
前記音量メトリックが前記ターゲット音量メトリックよりも大きいか否かを決定するための手段を更に含み、
前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも１つのものの前記振幅は、前記音量メトリックが前記ターゲット音量メトリックよりも大きいと決定された時に調節される、
ことを特徴とする請求項２４に記載の装置。
前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データに更に基づいて決定されることを特徴とする請求項２２に記載の装置。
前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、該オブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数と、該オブジェクトベースのオーディオ信号の振幅倍率と、又は受け入れ点に対する該オブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該オブジェクトベースのオーディオ信号の周波数依存重み係数とのうちの少なくとも１つに更に基づいて決定されることを特徴とする請求項２２に記載の装置。
前記音量メトリックは、

に基づいて決定され、ここで、ｉ∈Ｉであり、Ｉは、オブジェクトベースのオーディオ信号のセットであり、Ｎは、前記受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ｚ_iは、ｉ番目のオブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方であり、ｒ_iは、該ｉ番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、ｒ_Lは、受け入れ点に関連付けられた位置であり、θ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角であり、φ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角であり、ａ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の振幅倍率であり、ｇ_iは、該受け入れ点に対する該ｉ番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該ｉ番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ｃ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数であることを特徴とする請求項２２に記載の装置。
放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためにオブジェクトベースのオーディオ信号を処理するための装置であって、
前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信するための手段と、
前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定するための手段と、
前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を送信するための手段と、
を含むことを特徴とする装置。
再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するための装置であって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサであって、
前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信し、
前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定し、かつ
前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする、
ように構成された前記少なくとも１つのプロセッサと、
を含むことを特徴とする装置。
前記少なくとも１つのプロセッサは、前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号のうちの少なくとも１つのものの振幅を調節することにより、該受信したオブジェクトベースのオーディオ信号をレンダリングするように構成されることを特徴とする請求項３０に記載の装置。
前記少なくとも１つのプロセッサは、前記音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定するように更に構成され、
前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも１つのものの前記振幅は、前記音量メトリックと前記ターゲット音量メトリックの間の前記比較に基づいて調節される、
ことを特徴とする請求項３１に記載の装置。
前記少なくとも１つのプロセッサは、前記音量メトリックが前記ターゲット音量メトリックよりも大きいか否かを決定するように更に構成され、
前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも１つのものの前記振幅は、前記音量メトリックが前記ターゲット音量メトリックよりも大きいと決定された時に調節される、
ことを特徴とする請求項３２に記載の装置。
前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データに更に基づいて決定されることを特徴とする請求項３０に記載の装置。
前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、該オブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数と、該オブジェクトベースのオーディオ信号の振幅倍率と、又は受け入れ点に対する該オブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該オブジェクトベースのオーディオ信号の周波数依存重み係数とのうちの少なくとも１つに更に基づいて決定されることを特徴とする請求項３０に記載の装置。
前記音量メトリックは、

に基づいて決定され、ここで、ｉ∈Ｉであり、Ｉは、オブジェクトベースのオーディオ信号のセットであり、Ｎは、前記受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ｚ_iは、ｉ番目のオブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方であり、ｒ_iは、該ｉ番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、ｒ_Lは、受け入れ点に関連付けられた位置であり、θ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角であり、φ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角であり、ａ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の振幅倍率であり、ｇ_iは、該受け入れ点に対する該ｉ番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該ｉ番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ｃ_iは、該ｉ番目のオブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの１又は２以上の他のオブジェクトベースのオーディオ信号に対する相関係数であることを特徴とする請求項３０に記載の装置。
放送、ファイル配信、又はストリーミングのうちの少なくとも１つのためにオブジェクトベースのオーディオ信号を処理するための装置であって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサであって、
前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信し、
前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定し、かつ
前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を送信する、
ように構成された前記少なくとも１つのプロセッサと、
を含むことを特徴とする装置。