JP2017511048A - オブジェクトベースのオーディオ音量管理 - Google Patents

オブジェクトベースのオーディオ音量管理 Download PDF

Info

Publication number
JP2017511048A
JP2017511048A JP2016554441A JP2016554441A JP2017511048A JP 2017511048 A JP2017511048 A JP 2017511048A JP 2016554441 A JP2016554441 A JP 2016554441A JP 2016554441 A JP2016554441 A JP 2016554441A JP 2017511048 A JP2017511048 A JP 2017511048A
Authority
JP
Japan
Prior art keywords
based audio
audio signal
volume
metric
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016554441A
Other languages
English (en)
Other versions
JP6670752B2 (ja
Inventor
ファディ マラク
ファディ マラク
テミス カトシアノス
テミス カトシアノス
ジャン−マルク ジョット
ジャン−マルク ジョット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2017511048A publication Critical patent/JP2017511048A/ja
Application granted granted Critical
Publication of JP6670752B2 publication Critical patent/JP6670752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/002Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • H03G3/3026Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers the gain being discontinuously variable, e.g. controlled by switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

オブジェクトベースのオーディオ信号を処理する方法及び装置を提供する。装置は、複数のオブジェクトベースのオーディオ信号を受信する。これらのオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ、及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。オブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定する。一構成では、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする。別の構成では、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信(例えば、放送、ファイル配信、又はストリーミング)する。【選択図】図9

Description

〔関連出願への相互参照〕
本出願は、引用によってその全体が本明細書に明示的に組み込まれている「オブジェクトベースのオーディオ音量管理(OBJECT−BASED AUDIO LOUDNESS MANAGEMENT)」という名称の2014年2月27日出願の米国仮特許出願第61/945,734号、及び「オブジェクトベースのオーディオ音量管理(OBJECT−BASED AUDIO LOUDNESS MANAGEMENT)」という名称の2015年2月26日出願の米国特許出願第14/632,997号の利益を主張するものである。
本発明の開示は、一般的に音量管理に関し、より具体的には、オブジェクトベースのオーディオ音量管理に関する。
音量は、主として線形(リアルタイム)エンターテインメントのストリームタイプ配信において繰り返し発生する問題である。線形エンターテインメントは、放送線形計画、ビデオオンデマンド(VOD)、及びオーバー・ザ・トップ(OTT)ストリーミングを含むことができる。過去には、オーディオ技術者及び専門家の世界的集団で構成されるいくつかの国際標準化機構が、放送オーディオミックスの知覚音量を正確に測定する方法を定めてきた。この作業は、最初は標準化機構によって行われたが、最終的には、国家政府の監督機関が関わるようになった。これらの監督機関は、技術仕様の標準化されたセットを実施し、これらの使用方法を明記し、かつ最良の実施方法を推奨するための規程を公表した。しかし、この作業は、ステレオのチャネルベースのオーディオ世界においてのみ、つい最近では5.1チャネルサラウンド音響においてのみ行われている。
本発明の開示の態様において、再生システムを通して再生するためにオブジェクトベースのオーディオ信号を処理する方法及び装置を提供する。装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。オブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定する。装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする。
本発明の開示の態様において、放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためにオブジェクトベースのオーディオ信号を処理する方法及び装置を提供する。装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びオーディオ波形データに関連付けられたオブジェクトメタデータを含む。オブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定する。装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信する。
全体を通して対応する部分を同じ参照番号が表す図面をここで参照する。
空間的標準化オブジェクトベースのオーディオ(OBA)音量管理システム及び方法の実施形態によって使用される多次元オーディオビットストリームの例示的構成を示す図である。 多次元オーディオ(MDA)放送ビットストリーム生成処理の例示的実施の概要を示すブロック図である。 全体的に合計された音量メタデータの発生の概要を示すブロック図である。 空間的標準化OBA音量管理システム及び方法の実施形態によって計算された基本空間的標準化音量メトリック及び強化空間的標準化音量メトリックの想定される使用を示すブロック図である。 図4に示す空間的標準化音量メトリックの計算の概要を示すブロック図である。 コンテンツ生成/符号化段階の概要を示すブロック図である。 空間的標準化OBA音量管理システム及び方法に関連してオブジェクトに対するかつモニタ段階中に使用される聴取者のヘッドの向き及び幾何学形状を示す図である。 空間的標準化OBA音量管理システム及び方法の実施形態の全ての3つの段階の一般的作動を示す流れ図である。 再生システムを通して再生するためにオブジェクトベースのオーディオ信号を処理する方法の流れ図である。 放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためにオブジェクトベースのオーディオ信号を処理する方法の流れ図である。 例示的装置内の異なるモジュール/手段/構成要素の間のデータフローを示す概念的データフロー図である。
添付図面と共に以下で示される詳細説明は、様々な構成の説明として意図されており、本明細書で説明する概念を実施することができる構成のみを表すように想定されているものではない。詳細説明は、様々な概念の完全な理解をもたらすための特定の詳細を含む。しかし、当業者には、これらの概念は、これらの特定の詳細なしに実施することができることが明らかであろう。場合によっては、そのような概念を曖昧にすることを回避するために、公知の構造及び構成要素は、ブロック図の形態で示される。装置及び方法は、以下の詳細説明に説明され、添付図面において、様々なブロック、モジュール、構成要素、回路、段階、処理、アルゴリズム、要素などに示す場合がある。
空間的標準化OBA音量管理システム及び方法の実施形態の以下の説明では、添付図面を参照する。これらの図面は、空間的標準化OBA音量管理システム及び方法の実施形態をどのようにして実施することができるかに関する具体例を例証として示している。他の実施形態も利用することができ、特許請求する主題の範囲から逸脱することなく構造的変更を行うことができることが理解される。
I.序論
OBAの出現と共に、新しい機会及び課題が明らかになっている。1つの主要な課題は、ミックスにおいてあらゆる数のオーディオオブジェクトが存在することができる場合に、どのようにして音量を測定及び管理するかである。音量を測定及び管理する機能は、住居内での対話型制御を導入することによって消費者がオーディオオブジェクトを追加又は削除することを可能にする場合に特に重要である。OBAの柔軟性は多くの利点を有するが、チャネルベースの音量管理及び制御の既存の方法が許容不能であるので、OBAは、実際に課題を導入している。
図1は、空間的標準化OBA音量管理システム及び方法の実施形態によって使用されるMDA番組ビットストリーム100の例示的構成を示している。図2は、MDA放送ビットストリーム生成処理の例示的実施の概要を示すブロック図200である。MDA番組ビットストリーム100は、番組特定のメタデータ102及び複数のオーディオオブジェクト104を含むことができる。オーディオオブジェクト104は、動的又は静的なオブジェクト特定のメタデータ106を有する1又は2以上のオーディオ波形であり、このメタデータ106は、これらのオーディオ波形の特定の特性を説明する。これらの特性は、与えられた時点での3次元(3D)空間内の位置、測定された音量値、オブジェクトの性質(楽器、効果、音楽、背景、又は対話など)、対話言語、オブジェクトをどのようにして表示するか、及びオブジェクトをどのようにして処理、レンダリング、又は再生するかに関する命令の形式でのメタデータを含むことができる。純粋なOBAでは、オーディオオブジェクト104は、特定のチャネルにマップされない。実際には、再生構成が何個のチャネルを含むかが認識されない場合がある。言い換えると、オーディオオブジェクト104は、レンダリングするスピーカのいずれかの特定の事前に定められた又は固定の再生構成と無関係な統一された方法で処理されるように意図されている。これらの状況では、レンダリング処理は、再生チャネル(再生構成によって定められるような)に変換及びミキシングするように後で行われる。
一般的に、音量は、サウンドをそれによって静音から大音量にわたる等級で順序付けることができる聴覚知覚の属性として定められる。音量は、音圧レベル(SPL)、周波数、帯域幅、継続時間、及び近接性の影響を受ける主観的な測定基準である。更に、国際電気通信連合(ITU)放送サービス(BS)1770(ITU BS.1770)は、音量を定義かつ計算するための放送規格であり、欧州放送連合(EBU)R−128は、放送事業者が、オーディオをどのようにして測定及び標準化することができるかを定めている。
現在、OBAの公開された及び知的所有権下にある両方の例が存在する。本明細書で説明する空間的標準化OBA音量管理システム及び方法は、音量値に関する広範なセットを含むメタデータの豊富なセットを有するOBAを使用する。公開OBAビットストリームは、メタデータがこのビットストリームの存在中にいずれかの与えられた時点で可読かつアクセス可能であるような公開アーキテクチャを有する。例示的に、限定するものではないが、MDAは、このようなビットストリーム表現及びOBAペイロードを含む公開形式である。MDAは、いずれのコンテンツプロバイダもオブジェクトベースのオーディオ、又はオブジェクトベースのオーディオとチャネルベースのオーディオーディオとのいずれかの組合せをミキシングすることを可能にする完全公開のオブジェクトベースのオーディオ没入型オーディオプラットフォームである。例えば、コンテンツは、12個のスピーカを使用してミキシングすることができ、MDAは、このコンテンツを5.1又はステレオのようないずれかの再生構成にマップすることになる。本明細書では、MDAは、空間的標準化OBA音量管理システム及び方法の実施形態に適用することができる一例として言及される。しかし、空間的標準化OBA音量管理システム及び方法の実施形態には、ビットストリーム形式の他のタイプ(例えば、DTS:X)も適用可能である場合がある。MDAは、オブジェクト、チャネル、及び情景ベースのオーディオ(高次アンビソニック(HOA))をサポートすることができるが、本明細書では、MDAは、主としてOBAペイロードに言及するものであることに注意しなければならない。
II.作動及びシステム概要
オーディオ生成の世界がチャネルベースのオーディオからOBAに移行する時に、音量に対処するために新しい技術を定めるか又は既存の技術を更新することが望ましい。しかし、現時点で、3D空間内のオーディオオブジェクトの音量を測定するための公知の又は同意された方法が存在しない。近い将来、世界業界専門家、例えば、EBUにおける専門家は、明らかに、オブジェクト、チャネル+オブジェクト、又はHOAのような没入型オーディオペイロードを有する場合の音量管理に対処するための新しい方法を探索することになる。
OBAに適用される音量測定方法を更新することが望ましいだけではなく、ターゲットレンダリング構成を認識することなく具体的で有効な音量測定を規定及び決定することができる技術を設計することも同じく望ましい。この技術が、オブジェクトをレンダリングすることを必要とせずに測定値を計算することができる場合に更に適切である。空間的標準化OBA音量管理システム及び方法の実施形態は、これらの目標を達成する。
全体的に合計された音量
全体的に合計された音量値と呼ばれるメタデータパラメータは、MDA番組ビットストリームの番組特定のメタデータ内で定めることができる。全体的に合計された音量値は、一般的なOBA番組又はミックスの組み合わされて測定された音量値を表すことができる。現在のオーディオ産業界で理解されている値を達成するための唯一の公知の方法は、ストリーム内のオーディオオブジェクトのペイロードを強制的なレンダリングを通してチャネルループに送ることである。ここで、オブジェクトは、MDA参照レンダラー(ベクトルベース振幅パンニング(VBAP)などの図2を参照)を使用して、ITU規定の5.1スピーカレイアウト構成にレンダリングする。このMDA参照レンダラーは、本質的に、全てのオブジェクトを5.1チャネルフィードに向ける。次に、これらのオブジェクトは、既存のEBU R−128又は高度テレビジョンシステム委員会(ATSC)A85準拠音量測定処理に供給される。次に、測定された値(フルスケールに対する音量K重み付け(LKFS)又はフルスケールに対する音量ユニット(LUFS))が、元のMDAビットストリーム内にビットストリームレベルで記録され、個々のオブジェクトレベル(図1を参照)ではなく、番組の全体的に合計された音量値(例えば、ITU5.1の−23LUFS)として記録される。この値は、ステレオにも適用することができる。
図3は、全体的に合計された音量メタデータの発生の概要を示すブロック図300である。302において、OBAメタデータがメタデータ発生段階において発生される。このようなメタデータは、例えば、MDA又はDTS:Xに対して発生させることができる。次に、304において、オーディオオブジェクト信号に対してレンダリング又は事前レンダリングを実行し、このオーディオオブジェクト信号の各々の平均電力又は音量を決定することができる。306において、音量モニタ/測定を実行し、全体的に合計された音量値を特定ことができる。このようなモニタ/測定は、EBU R−128又は商業広告音量緩和(CALM)決議に準拠することができる。全体的に合計された音量値が計算されると、次に、308において、計算されたかつ全体的に合計された音量値は、CALM決議における−24LKFS又はEBU R−128における−23LKFSのような国際規制基準で定められたターゲット音量レベルと比較することができる。ターゲット音量レベルは、MDAビットストリーム内の番組特定のメタデータ内に担持することができる。310において、この比較結果に基づいて、オフセットを計算することができ、312において、このオフセットは、MDAビットストリーム内の番組特定のメタデータ内に全体的に合計された音量オフセットとして格納することができる。全体的に合計された音量オフセットは、後で、消費者が再生するために最終的にオーディオがレンダリングされる時に下流で適用することができる。
空間的標準化音量メトリック
空間的標準化OBA音量管理システム及び方法の実施形態は、ターゲットレンダリング構成(例えば、スピーカの数又はスピーカ構成)を認識することなく具体的で有効な音量測定を規定及び決定する。これは、これが、OBAコンテンツが消費者配信及び再生を意図している場合のものであるので重要である。更に、本発明のシステム及び方法の実施形態は、オブジェクトをレンダリングすることを必要とせずにこの音量測定値を計算する。
図4は、空間的標準化OBA音量管理システム及び方法の実施形態によって計算される基本及び強化空間的標準化音量メトリックの想定される使用を示すブロック図400である。図5は、図4に示されている空間的標準化音量メトリックの計算の概要を示すロック図500である。空間的標準化OBA音量管理システム及び方法は、空間的標準化音量メトリックの2つのタイプを定める。基本空間的標準化音量メトリックは、最終的なミックス(すなわち、オーディオオブジェクトの全てを使用して音量を特定)及びターゲットレンダリング環境を認識して計算することができる。この計算は、再生構成の固定リストの必要性を軽減し、消費者の住居内のチェーンの可能な最後の時点で行うことができる。強化空間的標準化音量メトリックは、聴取者の位置及び向きのような追加の情報に基づいて計算することができる。空間的標準化音量メトリックは、放送生成/配信/再生チェーン内のいずれかの与えられた時点で決定することができる。
技術及び値の両方は、確認される2つの問題を解決することを望ましい。第1の問題は、厳重な国家規制の下にある放送事業者に対して音量制御を維持し、これらの放送事業者の消費者向けの安定した音量体験を確保するように、放送事業者が住居に配信するコンテンツを提供することである。第2の問題は、OBA配信を処理するための新しい技術を考案する必要性に対処することである。これらの状況では、このようなシステムの適用及び要件(新しい国際的放送規格など)は、オーディオオブジェクトの位置に対する住居内の聴取者のいずれかの与えられた位置/向きを適応するための適応性を有することを要求している。
空間的標準化OBA音量管理システム及び方法の実施形態は、エンド・ツー・エンド・チェーンがより高性能で適応可能であることを可能にする。更に、本発明のシステム及び方法は、非常に困難な作業をヘッドエンド又はクラウドベースアーキテクチャにシフトしている。いずれかの与えられた環境及びいずれかの任意のミックス又は変更されるミックス(遅延バインディング又はホームネットワーク供給装置を通して消費者の双方向介入によって変更)に適応するためのいくつかのアルゴリズム計算は、消費者側で維持される。また、本発明のシステム及び方法は、特定の消費者再生環境を考慮に入れる。
基本空間的標準化音量メトリックが使用される場合に、放送事業者は、オーディオチャネルの音量を抜き取り検査、検証、又は補正するために多くのシステム構成要素を利用することができる。その一部は、ファイルベースのシステムであって、一部は、リアルタイム装置を使用する。コンプライアンスを維持する(又は特定の認定されたコンテンツに影響しない)責務は、配信チェーンの一部分からコンテンツ権利契約を通して次の部分に伝えられる。最終的に、個々の特定の企業を法的責任のある状態にするための法律が作り上げられる。米国では、コンテンツを作り出すのは、プログラマー及び放送事業者である。最初に制作されたオーディオコンテンツのオーディオ品質(ダイナミックレンジなど)に対して影響を与えないように最低限にしながら、音量を検証、検査、又は調節するためのツールが必要である。例示的システム及び方法は、レンダリングするか又はエンドユーザ構成を認識することを必要とせずに、いずれか与えられた時点でビットストリームに「タップ接続」してOBA番組の音量の計算結果を得るための非侵入的方法である。
強化空間的標準化音量メトリックが使用される場合に、聴取者の正確な位置/向きが認識される。この環境では、配信チェーンの最後の段階(消費者の住居内、図4を参照)において、本発明のシステムは、オブジェクトが、聴取者に対して部屋の中のどこでレンダリングされることになるかに関する情報を有する。これは、本発明のシステム及び方法、並びに本発明のシステム及び方法の計算の精度を高める。
近接性がオリジナルミックスの生成に使用される場合に、その効果を利用することができる強化レンダラーが使用される。本発明のシステム及び方法の実施形態は、更に正確に測定及び補償するために近接性を使用することができる。本発明のシステム及び方法は、3D聴取空間内のオブジェクトの位置に対する聴取者の位置のいずれかの変化を使用することもできる。この変化は、環境フィードバックシステムを通して本発明のシステム及び方法に認識されるようになる。本発明のシステム及び方法の実施形態が追加の情報を利用することができる場合に、本発明のシステム及び方法の実施形態は、3D空間内でレンダリングされる全てのオブジェクトの聴取者の視点に対する「知覚」音量レベルを計算することができる。
基本及び強化空間的標準化音量メトリック技術は、第1のかつ最も新しい測定処理であることに注意し、そのことを理解することが重要である。本発明のシステム及び方法の実施形態は、ファイルベース又はリアルタイムであるか否かに関わらず、チェーン内のいずれかの与えられた時点においてOBAビットストリームに適用することができる。両方のタイプの空間的標準化音量メトリックは、生成及び配信段階におけるいずれかの時点で計算することができ、また、この音量メトリックが計算及び発生された後、元のOBAビットストリームにメタデータとして挿入することができる。MDAでは、空間的標準化音量メトリックは、ITU5.1の方法へのレンダラーを使用して、全体的に合計された音量値を置換することができる。
強化空間的標準化音量メトリックは、消費者再生環境における配信チェーン内の最後の時点で計算することができる。この時点は、対話が行われた後、聴取者及びミックスにおけるオブジェクトの最終セットに関するより多くの情報がシステムに認識される時点である。強化空間的標準化音量メトリックは、没入型オーディオの消費者復号器におけるリアルタイムシステムの中に設けることができる。更に、最終的には、この音量メトリックを使用してあらゆる不要な音量矛盾を補正することができる。本発明のシステム及び方法は、オーディオの特質又は芸術的意図に影響を与えることなく(メタデータの補正だけにより)、放送ヘッドエンドワークフローにおける音量問題を測定、モニタ、又は補正するように設計されたプロフェッショナル放送製品にライセンス供与し、かつそこに実施することができる。
一般的に、OBA音量管理システム及び方法の実施形態は、オーディオが3D空間内のオーディオオブジェクトの形式にある場合に、音量を測定するための技術を含む。本発明のシステム及び方法の実施形態は、オーディオオブジェクトメタデータを使用して、新しい測定値及び新しいOBAペイロード参照ユニットを生成する。現在、主として、放送線形計画、VOD、及びOTTストリーミングのような線形エンターテインメントのストリームタイプ配信における世界では、音量の課題が存在する。既存の技術は、従来型ステレオ及び5.1チャネルシナリオのための音量のみを管理する。
OBA音量管理システム及び方法は、コンテンツ制作者及び配信者が、オーディオオブジェクトをレンダリングすることなくペイロードの音量のための新しい値を測定及び参照することを可能にする。更に、再生構成は、認識する必要がない。
現在の技術には、OBAのような没入型オーディオを測定する機能がない。本発明のシステム及び方法の実施形態は、ペイロードをレンダリングすることを必要とせずに、個々のオブジェクト音量/電力情報と組み合わせた空間情報を使用して新しい参照値を発生させる。例示的システム及び方法は、3D空間内のオブジェクトの位置及びオブジェクト生成中の測定される個々の音量に関する情報を担持するビットストリームを使用する。例示的に、限定するものではないが、ビットストリームは、MDAビットストリーム又は別のOBA公開仕様とすることができる。例示的システム及び方法は、空間的標準化技術も含み、この技術は、この技術が必要とする情報が与えられた場合に(レンダリングすることなく)、空間的標準化音量メトリックを計算する。
一般的に、空間的標準化音量メトリックは、2つのタイプのうちの一方とすることができる。一部の実施形態において、オーディオオブジェクトの位置に対する特定の聴取者の位置/向きを仮定することにより、いずれかの与えられた時間に計算することができる基本空間的標準化音量メトリックを使用することができる。この音量メトリックは、ファイルベースの環境及びリアルタイム環境の両方において正確である。他の実施形態において、強化空間的標準化音量メトリックが使用される。これらの実施形態において、聴取者の特定の位置/向きが認識される。基本空間的標準化音量メトリックと比較すると、強化空間的標準化音量メトリックは、より正確で個人別の知覚音量値を発生させることができる。次に、この強化音量メトリックを使用して、番組中、番組から番組まで、又は番組からコマーシャルまでのいずれかの音量矛盾を管理することができる。この強化空間的標準化音量メトリックは、他の様々な音量関連情報も考慮に入れることができる。例示的に、限定するものではないが、この音量関連情報は、近接性情報を含む。更に、一部の実施形態において、強化音量メトリックは、消費者側のあらゆる対話性、及びコンテンツがどこで再ミキシングされるかを考慮することができる(オブジェクトをミックスに追加すること、オブジェクトをミックスから削除するか、又はミックスにおけるオブジェクトの位置を変更することによるが(例えば、ミックスにおいて、オブジェクトを異なる位置に移動するか又はオブジェクトをパンニングすることによる)、これらの全ては、ミックスの全体の音量を変更する)。
基本空間的標準化音量メトリックは、オーディオ生成、処理、及び符号化/復号/トランスコーディング機器を作るプロフェッショナル製品にライセンス供与されるプロフェッショナル放送機器コードとしての形状を取ることになる。この音量メトリックは、独立型ツール(ハードウエアボックス又はソフトウエア)、他の第三者ツール、又は符号器に組み込むか又はオーディオを調節及び標準化するサーバベース又はクラウドベースの処理機器の一部分として組み込むことができる。
強化空間的標準化音量メトリックは、ライセンス供与された統合消費者解決法(コーデックスイート又は前処理)の一部分として使用することができる。これらのツールは、現在の配信及び再生解決法のための放送及びOTT前処理の一部分である。強化空間的標準化音量メトリックのクライアント側の実施は、PC、タブレット、モバイルスマートフォン、テレビ、及びセットトップボックスのようなマルチスクリーンアプリケーション内で実施された復号器及びプレーヤを含む。更に、これらのデバイスは、ヘッドフォン再生も適用可能であるので、依然としてラウドスピーカを必要としない。
III.作動及びシステム詳細
空間的標準化OBA音量管理システム及び方法は、OBAにおける音量測定及び管理を説明するものである。各オーディオオブジェクトに関連するメタデータは、例えば、3D空間内のオブジェクトの位置、オブジェクトをレンダリングする時の波形に適用される波形振幅倍率、介入するオブジェクトの相関関係に関するデータ、又はオブジェクトが開始及び終了する時のようなオブジェクトに関する時間的情報とすることができる。以下の説明では、本発明のシステム及び方法は、3つの段階、すなわち、a)コンテンツ生成(又は符号化)段階、b)中間モニタ段階、及びc)コンテンツ消費段階との関連に説明される。
メタデータ符号化段階
図6は、コンテンツ生成/符号化段階の概要を示すブロック図600である。生成段階中、各オーディオオブジェクト(602)に関連するメタデータ(各オーディオオブジェクトの電力又は音量など)が、ビットストリームのいくつかのタイプの「事前レンダリング」を実行することによって測定される(604)。この段階では、短期間、中間、又はファイルベースの測定を行うことができる。入力信号yiに関する電力測定値ziは、期間Tにわたって以下のように定義される。
Figure 2017511048
ここで、i∈Iであり、Iは、オーディオオブジェクト信号のセットである。電力測定情報は、オーディオオブジェクト信号と共にメタデータ(606)として格納することができる。これに代えて、電力測定情報は、音量情報として格納することができる。利得/振幅、オーディオオブジェクトの位置、及び聴取者の位置/向きを含む追加情報は、オブジェクト特定のメタデータとして格納することができる。オーディオオブジェクトに関する電力/音量測定メタデータ情報の処理について、モニタ段階に関連して以下に説明する。
モニタ段階
Iが、チャネル(オーディオオブジェクトではない)の電力測定のための入力チャネルのセットである場合に、測定された電力の音量値へのマッピングは、log変換、すなわち、
Figure 2017511048
によって行うことができ、ここで、Giは、i番目のオーディオオブジェクト信号のための重み係数である。
中間音量測定に関して、ゲート制御された重複タイプ(75%までに設定可能)の変換、すなわち、
Figure 2017511048
を使用することができ、ここで、Jgは、ゲート制御ブロックの音量が、典型的に−70dBFSに用いられるゲート制御閾値を超える場合のブロックインデックスのセットであり、|Jg|は、Jg内の要素数であり、かつ
Figure 2017511048
である。
単一チャネル波形オブジェクトの音量測定の場合に、上記式における合計は、1に折り畳まれており(すなわち、N=1)、スケーリング係数G1は、1.0に設定することができる。一部の実施形態において、単一チャネルオブジェクトの群が、各チャネルを空間内の固定位置に割り当てたマルチチャネルオーディオ信号を表す(マルチチャネル「ベッド」と呼ばれる)場合に、上記式におけるスケーリング係数Giは、BS.1770−x規格において用いられており、「5.1」構成のような標準マルチチャネルラウドスピーカ再生構成に関してのみ定められたチャネル毎の重み付け値にマップすることができる。電力/音量測定(612)は、単一チャネルオブジェクト(610)に対して実行され、メタデータ(614)として格納することができる。ここで、音量測定を行う前に事前フィルタリング段階を適用することができることに注意しなければならない。この事前フィルタリング段階は、ヘッド及び修正されたB周波数重み付けフィルタの音響効果を考慮するためのフィルタを含むことができる。オブジェクト毎の電力/音量情報が測定された状態で、次に、測定値は、後に使用することができるメタデータとして格納される。更に、この段階では、オブジェクトの相関関係を表すメタデータを計算することができ(608)、このメタデータは、後で空間的標準化音量メトリックの計算を助けることができる。オブジェクトの相関関係は、1つのサウンドの知覚が別のサウンドの存在の影響を受ける場合に生じる聴覚マスキングを表している。周波数領域における聴覚マスキングは、同時マスキング、周波数マスキング、又はスペクトルマスキングと呼ばれる場合がある。時間領域における聴覚マスキングは、時間的マスキング又は非同時マスキングと呼ばれる場合がある。
モニタ段階中、オブジェクト毎の電力/音量メタデータ情報が抽出され(式(1)参照)、一般的音量値を計算するのに使用される。抽出された個々の電力/音量測定値を組み合わせて/合計して、一般的音量測定値が得られる。更に、個々の測定値は、組み合わされる/合計される前に、オブジェクト毎の重み付けメタデータ情報に基づいてスケーリングすることができる。組み合わされた/合計された一般的音量測定値は、空間的標準化音量メトリック(SNMとも呼ばれる)として定められる。空間的標準化音量メトリックは、電力又は音量のいずれかがマップされた形式で計算することができることを理解しなければならない。
上述の式(2)及び(3)は、チャネル又はチャネルの群毎の音量測定値を説明している。ここで、式(2)及び(3)は、オーディオオブジェクト又はオーディオオブジェクトの群毎に空間的標準化音量メトリックを発生させるように一般化することができる。
具体的には、間隔Tにわたる空間的標準化音量メトリック(SNM)の特定は、
Figure 2017511048
として一般化することができ、ここで、i∈Iであり、Iは、オーディオオブジェクト信号のセットであり、Nは、オーディオオブジェクト信号のセットIにおけるオーディオオブジェクト信号の数である。
間隔Tにわたるゲート制御された空間的標準化音量メトリック(ゲート制御SNM)の特定は、
Figure 2017511048
として一般化することができ、ここで、i∈Iであり、Iは、オーディオオブジェクト信号のセットであり、Nは、オーディオオブジェクト信号のセットIにおけるオーディオオブジェクト信号の数である。
ゲート制御SNMの場合に、間隔Tは、重複するゲート制御ブロック間隔のセットに分割される。ゲート制御ブロックは、400msの継続時間を有することができる継続時間Tgの隣接するオーディオサンプルのセットである。各ゲート制御ブロックの重複は、ゲート制御ブロック継続時間Tgの75%とすることができる。75%の重複及び400msのウィンドウ継続時間を用いると、ゲート制御SNMは、ゲート制御SNMの以前の計算に使用される300msのオーディオオブジェクト信号に基づいて決定される。従って、75%の重複及び400msのウィンドウ継続時間を用いると、ゲート制御SNMは、100ms毎に決定される。
一般化された式(5)及び(6)は、
Figure 2017511048
として定められた関数FJJTを導入することにより、式(2)及び(3)から得られ、ここで、ciは、i番目のオブジェクトの相関係数であり、かつ他のN−1個のオブジェクトのうちの1又は2以上によるi番目のオブジェクトのオーディオマスキングの相関関係尺度であり、aiは、メタデータストリーム内で伝えられるi番目のオブジェクトの振幅倍率(オーディオオブジェクト信号の意図された振幅を得るための倍率)であり、
Figure 2017511048
は、任意的にあり、i番目のオブジェクト及び聴取者の相対距離逆二乗則に従い、giは、ヘッドに対して及び仮定された視線方向に対してのサウンドの角度位置(典型的に、「前方中心」チャネルの位置と一致)の関数として人間の聴覚音量感度を考慮するための任意的な周波数依存重み係数であることを認識することができる。この重み係数は、ヘッドの音響効果を考慮するように設計されたBS.1770−xに説明されている事前フィルタリング段階の一般化された形式として考えることができる。相関係数ciは、オーディオマスキングと逆相関することができる。例えば、オーディオマスキングが存在しない場合に、相関係数ciは、1とすることができ、100%のオーディオマスキングが存在する場合に、相関係数ciは、0とすることができる。
Ο(θi,φi)は、上記で説明した重み係数giに関係する追加の補正係数である。Ο(θi,φi)は、それぞれ、図7に示されているi番目のオブジェクトに対する聴取者のヘッドの配置を説明する右及び上方向ベクトルの外積:
Figure 2017511048
及び
Figure 2017511048
を使用する。図7に示すように、右方向ベクトルの方向は、聴取者のヘッドから聴取者の右耳が向く方向に沿っている。上方ベクトルの方向は、聴取者のヘッドの上である。
右及び上方向ベクトルに対して説明され角度変換θ−(θR−π/2)及びφorientation=φ−φ’で説明したオブジェクトの方位角(θ)/仰角(φ)の変化に関係する聴取者が存在する場合に、Ο(θi,φi)は、i番目のオブジェクトの音量に関する補正倍率を計算する。
これに加えて、方位角及び仰角の様々な対に関する連続関数Ο(θi,φi)の離散的出力テーブルを発生させることができ、このテーブルは、向きの重み係数を計算する必要がある場合に検索することができる。デフォルトの前方中心位置(典型的に前方中心スピーカの位置に対応)の場合に、Ο(θi,φi)=1であることに注意しなければならない。相対距離及び方位係数の両方は、この段階において1に設定することができ、任意的に、後述する消費者デバイス段階において再計算することができる。
i番目のオブジェクトの位置は、聴取者のヘッドに対するオーディオオブジェクト信号の意図された位置(例えば、効果、対話、楽器、音楽、背景など)であり、再生スピーカ構成と無関係である。聴取者のヘッドは、受け入れ点と呼ばれる場合があり、全てのオブジェクトは、レンダリングされる時にこの受け入れ点で受け入れられるように意図されている。例えば、オーディオオブジェクト信号iの特定の効果は、意図された受け入れ点に対するθiの方位角及びφiの仰角に位置すると意図することができる。別の例に関して、このようなオーディオオブジェクト信号iの特定の効果は、受け入れ点に対するθiの方位角及びφiの仰角において、受け入れ点からの意図された距離:
Figure 2017511048
を有することができる。
この段階は、「音量モニタ」作動であることに注意しなければならない。言い換えると、この段階で行われるあらゆるOBAレンダリングは、必ずしも存在するとは限らない。空間的標準化OBA音量管理システム及び方法が、オーディオ波形復号及び電力又は音量計算を必要とすることなく、OBAコンテンツの音量を測定することを可能にすることが、本発明のシステム及び方法の本質的な利点である。これに代えて、空間的標準化音量メトリック計算は、上記で説明したOBAコンテンツ形式及び計算においてオブジェクト毎の音量メタデータの提供により、非常に助長及び単純化される。
消費者デバイス(消費)段階
この最後の段階において、全体的に合計された音量又は空間的標準化音量メトリックは、オブジェクト生成、オブジェクト削除、オブジェクト変更(例えば、減衰)、又は聴取者の位置又はヘッドの向きの変化のいずれかを考慮するように再計算することができる(必要な場合)。この変更は、限定するものではないが、モニタ段階において与えられる対応する説明毎の相対距離及び向きの更新情報を含むことができる。
全体的に合計された音量メタデータ
一部の実施形態において、全体的に合計された音量メタデータ値は、オーディオストリーム(MDA又はDTS:Xなど)の生成中に計算される。この計算は、参照レンダラー(VBAPなど)を使用して、ストリームをターゲット構成(限定されるものではないが、ITU5.1など)にレンダリングすることによって行われる。ストリームがレンダリングされた状態で、レンダリングされたストリームの音量特性を測定するためのR128/CALM準拠である既存の音量モニタ/測定ツールを使用することができる。これらの特性は、限定するものではないが、瞬間的音量、短期的音量、正確なピーク、及び音量範囲を含むことができ、対話のようなアンカー要素を使用して又はそれを使用せずに測定することができる。
これらの測定値は、BS.1770−xのような音量モデル規格毎に重み付けすることができるが、そのような重み付けに従うことに限定されない。これに加えて、相関関係測定値は、レンダリングされる信号の相関関係を識別するのに使用することができ、BS.1770−xの電力合計値ではなく相関関係モデルに基づいて全体の音量を計算するのに使用することができる。音量が計算された状態で、次に、計算された音量は、CALM決議における−24LKFS又はEBU R−128における−23 LUFSのような国際規制基準と比較される。この比較結果に基づいて、全体的に合計された音量であるオフセットが計算され、このオフセットが、次に、発生されるストリームにメタデータ値として保存される。
全体的に合計された音量は、強化空間的標準化音量メトリックが用いられる場合に、上書きされる可能性があることに注意しなければならない。これは、そのような場合に使用される追加の動的情報によるものである。
IV.代替実施形態及び例示的作動環境
本明細書に説明されるもの以外の多くの変形は、本明細書から明らかであろう。例えば、実施形態に応じて、本明細書で説明する方法及びアルゴリズムのいずれかのある一定の作用、事象、又は機能は、異なる順番で実行することができ、かつ追加、融合、又は完全に省略することができる(説明する全ての作用又は事象が方法及びアルゴリズムの実施に必要であるとは限らない)。更に、特定の実施形態において、作用及び事象は、例えば、マルチスレッド処理、割り込み処理、又はマルチプロセッサ又はプロセッサコアを通して、又は連続的にではなく他のパラレルアーキテクチャに基づいて同時に実行することができる。更に、一緒に機能することができる異なる機械及びコンピュータシステムが、異なるタスク又は処理を実行することができる。
図8は、空間的標準化OBA音量管理システム及び方法の実施形態の3つ全ての段階の全体的作動を示す流れ図800である。メタデータ発生段階802において、番組ビットストリーム内のオーディオオブジェクトに関するメタデータを発生させる。このようなメタデータは、上記で説明した式1及び式5から7に使用される情報を含むことができる。ブロック804において、電力/音量測定を実行する。電力/音量測定は、式1に従って実行することができる。電力/音量測定値は、それ自体、オーディオオブジェクトに関するメタデータ内に格納することができる。次に、ブロック806において、空間的標準化音量メトリックを決定することができる。空間的標準化音量メトリックは、オーディオオブジェクトに対する聴取者の位置/場所に関するメタデータ及び仮定に基づいて決定することができる。例えば、聴取者は、この聴取者の周りの特定の半径/距離に位置するオーディオオブジェクトに対して3D空間内の位置0,0,0に存在すると仮定することができる。次に、808において、オーディオオブジェクトを消費者デバイスに送信する(例えば、ストリーミング、ファイル配信で送る、放送する)(810)。812において、消費者デバイスにおいて、ミックスに含まれるオーディオオブジェクトに基づいて空間的標準化音量メトリックを再度決定することができる。例えば、聴取者は、ミックスからオーディオオブジェクトを更新(例えば、追加、削除)するか、又はミックスにおいてオーディオオブジェクトを変更することができる(814)。812において、更新された聴取者の位置816のような追加情報に基づいて、強化空間的標準化音量メトリックを決定することができる。例えば、聴取者は、聴取者がもはや3D空間内の位置0,0,0に存在しないように、オーディオオブジェクトを聴取している時に聴取者の位置を変更する場合があり、又は聴取者が起き上がるのではなく横になることによってこの聴取者のヘッドの向きを変える場合がある。強化空間的標準化メトリックは、意図されたオーディオオブジェクトの位置に対する聴取者の更新された仰角、方位角、及び位置情報に基づいて決定することができる。
図9は、再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理する方法の流れ図900である。本方法は、中央演算処理ユニット(CPU)のようなプロセッサによって実施することができる。このプロセッサは、再生システムに存在するか、又は後で再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するシステムに存在することができる。図9では、このプロセッサは、装置と呼ばれる。902において、装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。例えば、オブジェクトメタデータは、上記で説明した電力パラメータziを含むことができる。これに代えて、オブジェクトメタデータは、電力パラメータziの関数である音量パラメータ(LKFS又はLUFSの単位)を含むことができる。904において、装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定することができる。例えば、装置は、式5、6、及び7に基づいて空間的標準化音量メトリックを決定することができる。910において、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする。
一構成では、910において、装置は、受信したオブジェクトベースのオーディオ信号をレンダリングする時に、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅aiを調節することができる。例えば、906において、装置は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定することができる。ターゲット音量メトリックは、上記で説明したCALM決議における−24LKFS又はEBU R−128における−23LKFSのような国際規制基準で定められたターゲット音量レベルとすることができる。受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅aiは、音量メトリックとターゲット音量メトリックの間の比較に基づいて調節することができる。具体的には、908において、装置は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定することができる。908において、音量メトリックが、ターゲット音量メトリックよりも大きいと決定された時に、910において、装置は、音量が小さくなってターゲット音量メトリックに近づくように、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅aiを調節/スケーリングすることができる。
一構成では、音量メトリックはまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データに基づいて決定される。受け入れ点は、3D空間内の0,0,0のような仮定された受け入れ点、又は3D空間内の聴取者の実際の位置とすることができる。オブジェクトベースのオーディオ信号の位置データは、受け入れ点0,0,0に対するオブジェクトベースのオーディオ信号の意図された位置である。例えば、第1のオブジェクトベースのオーディオ信号は、受け入れ点に対して第1の仰角及び第1の方位角で聴取者の右側に位置すると意図することができ、第2のオブジェクトベースのオーディオ信号は、受け入れ点に対して第2の仰角及び第2の方位角で聴取者の左側に位置すると意図することができる。
一構成では、位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角、又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも一方を含む。位置データはまた、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離を含むことができる。一構成では、全てのオブジェクトベースのオーディオ信号は、受け入れ点0,0,0からの固定の距離/半径を有すると仮定することができる。
一構成では、音量メトリックはまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、このオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数ci、オブジェクトベースのオーディオ信号の振幅倍率ai、又は受け入れ点に対するオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのオブジェクトベースのオーディオ信号の周波数依存重み係数giのうちの少なくとも1つに基づいて決定される。
一構成では、音量メトリックは、
Figure 2017511048
に基づいて決定され、ここでi∈Iであり、Iは、オブジェクトベースのオーディオ信号のセットであり、Nは、受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ziは、i番目のオブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方であり、riは、i番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、rLは、受け入れ点に関連付けられた位置であり、θiは、i番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角であり、φiは、i番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角であり、aiは、i番目のオブジェクトベースのオーディオ信号の振幅倍率であり、giは、受け入れ点に対するi番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのi番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ciは、i番目のオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数である。
一構成では、受信したオブジェクトベースのオーディオ信号は、ユーザによって指定される。すなわち、ユーザは、オブジェクトベースのオーディオ信号を追加、削除、又は他に変更することができる。従って、912において、装置は、オブジェクトベースのオーディオ信号の新しいセットを示す情報を受け入れることができる。オブジェクトベースのオーディオ信号のセットを示す情報は、ユーザ入力に基づいて受け入れられる。次に、装置は、オブジェクトベースのオーディオ信号のセットに基づいて、かつオブジェクトベースのオーディオ信号のセットの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを再度決定することができる(904)。
上述のように、各オブジェクトベースのオーディオ信号のオブジェクトメタデータは、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データ、又はオブジェクトベースのオーディオ信号の振幅倍率のうちの少なくとも一方を含む。受け入れ点に対するオブジェクトベースのオーディオ信号の位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角、又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも1つを含むことができる。
一構成では、音量メトリックは、Tmsにわたる平均音量であり、音量メトリックは、Tms毎に決定される。一構成では、音量メトリックは、Tmsにわたる平均音量であり、音量メトリックは、D<TであるDms毎に決定される。例えば、音量メトリックは、400msにわたる平均音量であり、音量メトリックは、100ms毎に決定することができる。一構成では、音量メトリックは、各々が以前のウィンドウと重複する複数のウィンドウ期間にわたって決定される。例えば、ウィンドウ期間の各々は、400msの継続時間を有し、300msだけ他のウィンドウ期間と重複することができる。
一構成では、受信したオブジェクトベースのオーディオ信号は、N個のオブジェクトベースのオーディオ信号を含み、受信したオブジェクトベースのオーディオ信号は、n個のチャネルを有するスピーカを通してレンダリングされるが、Nは、nと無相関である。具体的には、オブジェクトベースのオーディオ信号の数Nは、チャネルの数nと全く相関関係がない。
再度910を参照すると、一構成では、必要な場合に、受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の振幅が調節/修正された後、装置は、出力信号のセットを発生させる時に、オブジェクトベースのオーディオ信号を特定のスピーカ(又はチャネル)にマップすることができる。各オブジェクトベースのオーディオ信号は、オブジェクトベースのオーディオ信号の位置に基づいて、かつオブジェクトベースのオーディオ信号に最も近いスピーカの位置に基づいて、最も近いスピーカセット(例えば、三角形パターン内の3つのスピーカ)にマップすることができる。別の構成では、出力信号のセットは、特定のスピーカ(チャネル)へのマッピングを実行する別の装置に供給される。
図10は、放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためのオブジェクトベースのオーディオ信号を処理する方法の流れ図1000である。本方法は、CPUのようなプロセッサによって実施することができる。図10では、このプロセッサは、装置と呼ばれる。1002において、装置は、複数のオブジェクトベースのオーディオ信号を受信する。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。1004において、装置は、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定する。1012において、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信する。
一構成では、1006において、装置は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定することができる。1008において、装置は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定することができる。音量メトリックが、ターゲット音量メトリックよりも大きいと決定された時に、1010において、装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を調節することができる。その後、1012において、装置は、次に、受信したオブジェクトベースのオーディオ信号のうちの少なくとも一方の調節された振幅を有する受信したオブジェクトベースのオーディオ信号を送信することができる。これに代えて、1010において、装置は、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を決定された音量メトリックに基づいて、番組ビットストリームの番組特定のメタデータ内で変更することができる。次に、1012において、装置は、番組特定のメタデータ内の変更された振幅を有する受信したオブジェクトベースのオーディオ信号を送信することができる。
図11は、例示的装置1102内の異なるモジュール/手段/構成要素間のデータフローを示す概念的データフロー図1100である。装置は、再生システムを通して再生し、又は放送、ファイル配信、又はストリーミングによって送信するようにオブジェクトベースのオーディオ信号を処理するためのものである。装置1102は、複数のオブジェクトベースのオーディオ信号を受信するように構成された受け入れモジュール1104を含む。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置1102はまた、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて音量メトリックを決定するように構成された音量メトリック決定モジュール1106を含む。装置1102は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングするように構成することができるレンダリング/送信モジュール1108を更に含む。これに代えて、レンダリング/送信モジュール1108は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信するように構成される。
一構成では、レンダリング/送信モジュール1108は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を調節するように構成される。一構成では、音量メトリック決定モジュール1106は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定するように構成することができる。レンダリング/送信モジュール1108は、音量メトリックとターゲット音量メトリックの間の比較に基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を決定するように構成することができる。一構成では、音量メトリック決定モジュール1106は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定するように構成することができる。レンダリング/送信モジュール1108は、音量メトリックがターゲット音量メトリックよりも大きいと決定された時に、受信したオブジェクトベースのオーディオ信号の少なくとも1つの振幅を調節するように構成することができる。
一構成では、レンダリング/送信モジュール1108は、受信したオブジェクトベースのオーディオ信号を送信する前に、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を調節することができる。一構成では、オブジェクトベースのオーディオ信号は、番組ビットストリームに関連しており、レンダリング/送信モジュール1108は、受信したオブジェクトベースのオーディオ信号を送信する前に、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を決定された音量メトリックに基づいて、番組ビットストリームの番組特定のメタデータ内で変更するように構成される。
一構成では、音量メトリック決定モジュール1106はまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データに基づいて、音量メトリックを決定するように構成することができる。この位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも一方を含むことができる。位置データはまた、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離を含むことができる。音量メトリック決定モジュール1106はまた、受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、このオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数、オブジェクトベースのオーディオ信号の振幅倍率、又は受け入れ点に対するオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのオブジェクトベースのオーディオ信号の周波数依存重み係数のうちの少なくとも1つに基づいて音量メトリックを決定することができる。
一構成では、音量メトリック決定モジュール1106は、
Figure 2017511048
に基づいて音量メトリックを決定することができ、ここで、i∈Iであり、Iは、オブジェクトベースのオーディオ信号のセットであり、Nは、受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ziは、i番目のオブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方であり、riは、i番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、rLは、受け入れ点に関連付けられた位置であり、θiは、i番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角であり、φiは、i番目のオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角であり、aiは、i番目のオブジェクトベースのオーディオ信号の振幅倍率であり、giは、受け入れ点に対するi番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するためのi番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ciは、i番目のオブジェクトベースのオーディオ信号の受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数である。
一構成では、受け入れモジュール1104は、受信したオブジェクトベースのオーディオ信号を示すユーザ指定入力を受信することができる。一構成では、受け入れモジュール1104は、オブジェクトベースのオーディオ信号の新しいセットを示す情報を受け入れることができる。オブジェクトベースのオーディオ信号のセットを示す情報は、ユーザ入力に基づいて受信することができる。このような構成では、音量メトリック決定モジュール1106は、オブジェクトベースのオーディオ信号のセットに基づいて、かつオブジェクトベースのオーディオ信号のセットの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを再度決定することができる。
一構成では、各オブジェクトベースのオーディオ信号のオブジェクトメタデータは、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データ、又はオブジェクトベースのオーディオ信号の振幅倍率のうちの少なくとも一方を含む。一構成では、受け入れ点に対するオブジェクトベースのオーディオ信号の位置データは、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の距離、オブジェクトベースのオーディオ信号の位置と受け入れ点の間の方位角、又はオブジェクトベースのオーディオ信号の位置と受け入れ点の間の仰角のうちの少なくとも1つを含む。
一構成では、音量メトリックは、Tmsにわたる平均音量であり、音量メトリックは、Tms毎に決定される。一構成では、音量メトリックは、Tmsにわたる平均音量であり、音量メトリックは、D<TであるDms毎に決定される。一構成では、音量メトリックは、各々が以前のウィンドウと重複する複数のウィンドウ期間にわたって決定される。一構成では、ウィンドウ期間の各々は、400msの継続時間を有し、300msだけ他のウィンドウ期間と重複する。一構成では、受信したオブジェクトベースのオーディオ信号は、N個のオブジェクトベースのオーディオ信号を含み、受信したオブジェクトベースのオーディオ信号は、n個のチャネルを有するスピーカを通してレンダリングされるが、Nは、nと無相関である。
装置は、図9及び10の上述の流れ図におけるアルゴリズムのブロックの各々を実行する追加のモジュールを含むことができる。従って、図9及び10の上述の流れ図における各ブロックは、モジュールによって実行することができ、装置は、これらのモジュールのうちの1又は2以上を含むことができる。モジュールは、記載した処理/アルゴリズムを実行するように構成されたプロセッサによって実施され、プロセッサによって実施されるようにコンピュータ可読媒体内に格納され、又はこれらの何らかの組合せである記載した処理/アルゴリズムを実行するように専用に構成された1又は2以上のハードウエア構成要素である場合がある。
一構成では、再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するための装置は、複数のオブジェクトベースのオーディオ信号を受信する手段を含む。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置はまた、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定するための手段を含む。装置は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングするための手段を更に含む。
一構成では、受信したオブジェクトベースのオーディオ信号をレンダリングするための手段は、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を調節するように構成される。一構成では、装置は、音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックを決定するための手段を含む。このような構成では、受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅は、音量メトリックとターゲット音量メトリックの間の比較に基づいて調節される。一構成では、装置は、音量メトリックがターゲット音量メトリックよりも大きいか否かを決定するための手段を含む。このような構成では、音量メトリックがターゲット音量メトリックよりも大きいと決定された時に、受信したオブジェクトベースのオーディオ信号の少なくとも1つの振幅が調節される。
一構成では、放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためのオブジェクトベースのオーディオ信号を処理するための装置は、複数のオブジェクトベースのオーディオ信号を受信する手段を含む。オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号は、オーディオ波形データ及びこのオーディオ波形データに関連付けられたオブジェクトメタデータを含む。このオブジェクトメタデータは、オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含む。装置はまた、受信したオブジェクトベースのオーディオ信号に基づいて、かつ受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための音量パラメータ又は電力パラメータのうちの少なくとも一方に基づいて、音量メトリックを決定するための手段を含む。装置はまた、決定された音量メトリックに基づいて、受信したオブジェクトベースのオーディオ信号を送信するための手段を含む。
本明細書に開示する実施形態に関連して説明する様々な例示的論理ブロック、モジュール、方法、及びアルゴリズム処理及びシーケンスは、電子的ハードウエア、コンピュータソフトウエア、又はこれら両方の組合せとして実施することができる。このハードウエアとソフトウエアとの互換性を明確に示すために、様々な例示的構成要素、ブロック、モジュール、及び処理アクションについて、これらの機能に関して一般的に上記で説明した。このような機能がハードウエアとして実施されるか又はソフトウエアとして実施されるかは、個別の用途、及びシステム全体に課せられた設計制約条件に依存している。説明する機能は、それぞれの個別用途に対して様々な方法で実施することができるが、そのような実施の決定は、本明細書の範囲からの逸脱を引き起こすものと解釈すべきではない。
本明細書に開示する実施形態に関連して説明する様々な例示的論理ブロック及びモジュールは、本明細書で説明する機能を実行するように設計された汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、離散ゲート又はトランジスタ論理回路、個別ハードウエア構成要素、又は上述のいずれかの組合せのような機械によって実施又は実行することができる。汎用プロセッサは、マイクロプロセッサとすることができるが、これに代えて、プロセッサは、コントローラ、マイクロコントローラ、状態機械、又はこれらの組合せなどとすることができる。プロセッサはまた、コンピュータデバイスの組合せとして、例えば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、DSPコアと連携した1又は2以上のマイクロプロセッサの組合せとして、又は他のいずれかのそのような構成として実施することができる。
本明細書で説明する空間的標準化OBA音量管理システム及び方法の実施形態は、多数のタイプの汎用又は専用コンピュータシステム環境又は構成内で作動する。一般的に、コンピュータ環境は、いくつかの例を含めると、限定するものではないが、1又は2以上のマイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯式コンピュータデバイス、個人用システム手帳、デバイスコントローラ、電化製品内の計算エンジン、携帯電話、デスクトップコンピュータ、モバイルコンピュータ、タブレットコンピュータ、スマートフォン、及び組込型コンピュータを有する電化製品に基づくコンピュータシステムを含むコンピュータシステムのいくつかのタイプを含むことができる。
このようなコンピュータデバイスは、典型的に、限定するものではないが、パーソナルコンピュータ、サーバコンピュータ、手持ち式コンピュータデバイス、ラップトップ又はモバイルコンピュータ、携帯電話及びPDAのマルチプロセッサシステムのような通信デバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオメディアプレーヤなどを含む少なくともいずれかの最低限の計算機能を有するデバイスに見つけることができる。一部の実施形態において、コンピュータデバイスは、1又は2以上のプロセッサを含む。各プロセッサは、DSP、超長命令語(VLIW)、又は他のマイクロコントローラのような専用マイクロプロセッサとするか、又はマルチコアCPU内の専用グラフィック処理ユニット(GPU)ベースのコアを含む1又は2以上の処理コアを有する従来型CPUとすることができる。
本明細書に開示する実施形態に関連して説明する方法、処理、又はアルゴリズムの処理アクションは、ハードウエアにおいて直接に、プロセッサによって実施されるソフトウエアモジュールにおいて、又はこれら2つのいずれかの組合せに具現化することができる。ソフトウエアモジュールは、コンピュータデバイスがアクセス可能なコンピュータ可読媒体に収容することができる。コンピュータ可読媒体は、取外し可能、取外し不能、又はこれらのいずれかの組合せである揮発性媒体及び不揮発性媒体の両方を含む。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータのような情報を格納するのに使用される。例示的に、限定するものではないが、コンピュータ可読媒体は、コンピュータストレージ媒体及び通信媒体を含むことができる。
コンピュータストレージ媒体は、限定するものではないが、光学ストレージデバイス、Blu−rayディスク(BD)(登録商標)、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、フロッピーディスク、テープドライブ、ハードドライブ、光学式ドライブ、半導体メモリデバイス、ランダムアクセスメモリ(RAM)メモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、フラッシュメモリ、又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスクストレージデバイス、又は他の磁気ストレージデバイス、又は1又は2以上のコンピュータデバイスがアクセス可能な望ましい情報を格納するのに使用することができる他のいずれかのデバイスのようなコンピュータ又は機械可読媒体又はストレージデバイスを含む。
ソフトウエアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、又は当業技術で公知の非一時的コンピュータ可読ストレージ媒体、媒体、又は物理的コンピュータストレージデバイスの他の形態に存在することができる。例示的ストレージ媒体は、プロセッサが、ストレージ媒体から情報を読み取ることができ、かつストレージ媒体に情報を書き込むことができるようにプロセッサに結合することができる。これに代えて、ストレージ媒体は、プロセッサと一体化することができる。プロセッサ及びストレージ媒体は、ASICに存在することができる。ASICは、ユーザ端末に存在することができる。これに代えて、プロセッサ及びストレージ媒体は、ユーザ端末内の個別構成要素として存在することができる。
本明細書に使用される「非一時的」という用語は、「持続する又は長寿命」を意味する。「非一時的コンピュータ可読媒体」という用語は、一時的な伝播信号の唯一の例外はあるが、いくつかの及び全てのコンピュータ可読媒体を含む。この「非一時的コンピュータ可読媒体」という用語は、例として、限定するものではないが、レジスタメモリ、プロセッサキャッシュ、及びRAMのような非一時的コンピュータ可読媒体を含む。
また、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュールのような情報の保持は、1又は2以上の変調されたデータ信号又は電磁波(搬送波など)を符号化するための様々な通信媒体、又は他の伝達機構又は通信プロトコルを使用することによって達成することができ、いずれかの有線又は無線情報配信機構を含む。一般的に、これらの通信媒体は、信号内の情報又は命令を符号化するように信号の特性セットのうちの1又は2以上が設定又は変更された信号を指す。例えば、通信媒体は、1又は2以上の変調されたデータ信号を搬送する有線ネットワーク又は直接有線接続のような有線媒体と、1又は2以上の変調されたデータ信号又は電磁波を送信、受信、又は送受信するための音響、無線周波数(RF)、赤外線、レーザ、及び他の無線媒体のような無線媒体とを含む。また、上述のいずれかの組合せは、通信媒体の範囲に含まれるべきである。
更に、本明細書で説明する空間的標準化OBA音量管理システム及び方法の様々な一部の実施形態又は全てを具現化するソフトウエア、プログラム、及びコンピュータプログラム製品の1つ又はいずれかの組合せ、又はこれらの一部分は、コンピュータ実行可能命令又は他のデータ構造の形式でコンピュータ又は機械可読媒体又はストレージデバイス、及び通信媒体のいずれかの望ましい組合せから格納、受信、送信、又は読み取ることができる。
更に、本明細書で説明する空間的標準化OBA音量管理システム及び方法の実施形態は、プログラムモジュールのようなコンピュータデバイスによって実行されるコンピュータ実行可能命令との関連で一般的に説明される場合がある。一般的に、プログラムモジュールは、特定のタスクを実行するか又は特定の抽象データタイプを実施するルーチン、プログラム、オブジェクト、構成要素、及びデータ構造などを含む。本明細書で説明する実施形態はまた、1又は2以上の通信ネットワーク上でリンクされて1又は2以上のリモート処理デバイスにより又は1又は2以上のデバイスから構成されるクラウド内でタスクが実行される分散コンピュータ環境内で実施することができる。分散コンピュータ環境では、プログラムモジュールは、媒体ストレージデバイスを含むローカルとリモートの両方のコンピュータストレージ媒体に置くことができる。更に、上述の命令は、その一部又は全部において、プロセッサを含むことができるか又はそれを含まない場合があるハードウエア論理回路として実施することができる。
取りわけ、本明細書に使用される「可能である」、「かもしれない」、「場合がある」、及び「例えば」などのような条件付きの表現は、それ以外に明示されない限り、又は使用される関連においてそれ以外に理解されない限り、一般的に、特定の実施形態が、ある特徴、要素、及び/又は状態を含む一方、他の実施の形態は、そのような特徴、要素、及び/又は状態を含まないことを伝えるように意図している。従って、このような条件付きの表現は、通常は、特徴、要素、及び/又は状態が、1又は2以上の実施形態に必要ないか、又は1又は2以上の実施形態が、著者の入力又は示唆の有無にかかわらず、これらの特徴、要素、及び/又は状態が含まれるか否か又はいずれかの特定の実施形態において実行されるか否かを決定するための論理部を必ずしも含まないことを示すこと意図している。「備える」、「含む」、及び「有する」などの用語は、同義語であり、制約のない方法で包含的に使用されるものであり、別の要素、特徴、作用、及び作動などを除外するものではない。同じく「又は」という用語は、この用語が使用される場合に、例えば、要素のリストを結び付けるために、「又は」という用語がリストの中の要素の1つ、一部、又は全てを意味するように包含的意味(この用語の排他的意味ではなく)で使用される。
上述の詳細説明は、様々な実施形態に適用される新規性のある特徴を示し、説明し、指摘したが、本発明の開示の精神から逸脱することなく、示されているデバイス又はアルゴリズムの形態及び詳細における様々な省略、代用、及び変更を行うことができることが理解されるであろう。認識されるように、本明細書で説明する空間的標準化OBA音量管理システム及び方法のある一定の実施形態は、本明細書で示される特徴及び利点の必ずしも全てを提供するとは限らない形態に具現化することができるが、それは、一部の特徴が、他の特徴から切り離して使用又は実施することができるためである。
更に、構造的特徴及び方法的作用に独特の言語で主題を説明したが、特許請求の範囲において定められる主題は、上記で説明した特定の特徴又は作用に必ずしも限定されないことを理解しなければならない。そうではなく、上記で説明した特定の特徴及び作用は、特許請求の範囲を実施する例示的形態として開示されている。
以上の説明は、当業者が、本明細書で説明する様々な態様を実施することを可能にするために与えられている。これらの態様に対する様々な変更は、当業者に容易に明らかになるであろうし、本明細書で定められる一般的原理は、他の態様に適用することができる。従って、特許請求の範囲は、本明細書に示されている態様に限定されるように想定されているものではなく、言語による特許請求の範囲と整合性のある完全な範囲を与えられるべきであり、要素への単数形での言及は、明示的に説明しない限り、「1つ及び1つのみ」ではなく、「1又は2以上」を意味するように意図したものである。本明細書に使用される「例示的」という用語は、「例、事例、又は例証として機能する」を意味する。本明細書において「例示的」として説明するいずれの態様も、必ずしも他の態様よりも好ましいか又は有利と解釈されるものではない。「一部の」という用語は、別途明示しない限り、「1又は2以上」を意味する。「A、B、又はCのうちの少なくとも1つ」、「A、B、及びCのうちの少なくとも1つ」、及び「A、B、C、又はそれらのいずれかの組合せ」のような組合せに関する用語は、A、B、及び/又はCのいずれかの組合せを含み、複数のA、複数のB、又は複数のCを含む。具体的には、「A、B、又はCのうちの少なくとも1つ」、「A、B、及びCのうちの少なくとも1つ」、及び「A、B、C、又はそれらのいずれかの組合せ」のような組合せに関する用語は、Aのみ、Bのみ、Cのみ、A及びB、A及びC、B及びC、又はA及びB及びCとすることができ、ここで、このような組合せに関する用語は、いずれもが、A、B、又はCのうちの1又は2以上の要素を含むことができる。本発明の開示全体を通して説明する当業技術で公知の又は後で公知になる様々な態様の要素に対する全ての構造的及び機能的均等物は、引用によって本明細書に明示的に組み込まれており、特許請求の範囲に包含されるように意図されている。更に、本明細書に開示するいずれのものも、このような開示内容が特許請求の範囲で明示的に説明されているか否かにかかわらず、公共に献呈されるようには意図されていない。特許請求の範囲の要素のどれも、これらの要素が「のための手段」という語句を使用して明示的に示されていない限り、手段プラス機能と解釈されないものとする。
900 オーディオ信号を処理する方法の流れ図
902 装置が複数のオブジェクトベースのオーディオ信号を受信する段階
904 装置が音量メトリックを決定する段階
906 装置が音量メトリックオフセットを決定する段階
910 装置がオーディオ信号を出力信号のセットにレンダリングする段階

Claims (37)

  1. 再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理する方法であって、
    前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信する段階と、
    前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定する段階と、
    前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする段階と、
    を含むことを特徴とする方法。
  2. 前記受信したオブジェクトベースのオーディオ信号を前記レンダリングする段階は、前記決定された音量メトリックに基づいて、該受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つのものの振幅を調節する段階を含むことを特徴とする請求項1に記載の方法。
  3. 前記音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定する段階を更に含み、
    前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも1つのものの前記振幅は、前記音量メトリックと前記ターゲット音量メトリックの間の前記比較に基づいて調節される、
    ことを特徴とする請求項2に記載の方法。
  4. 前記音量メトリックが前記ターゲット音量メトリックよりも大きいか否かを決定する段階を更に含み、
    前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも1つのものの前記振幅は、前記音量メトリックが前記ターゲット音量メトリックよりも大きいと決定された時に調節される、
    ことを特徴とする請求項3に記載の方法。
  5. 前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に関して、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データに更に基づいて決定されることを特徴とする請求項1に記載の方法。
  6. 前記位置データは、前記オブジェクトベースのオーディオ信号の位置と前記受け入れ点の間の方位角、又は該オブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角のうちの少なくとも一方を含むことを特徴とする請求項5に記載の方法。
  7. 前記位置データは、前記オブジェクトベースのオーディオ信号の前記位置と前記受け入れ点の間の距離を更に含むことを特徴とする請求項6に記載の方法。
  8. 前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に関して、該オブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数と、該オブジェクトベースのオーディオ信号の振幅倍率と、又は受け入れ点に対する該オブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該オブジェクトベースのオーディオ信号の周波数依存重み係数とのうちの少なくとも1つに更に基づいて決定されることを特徴とする請求項1に記載の方法。
  9. 前記音量メトリックは、
    Figure 2017511048
    に基づいて決定され、ここで、i∈Iであり、Iは、オブジェクトベースのオーディオ信号のセットであり、Nは、前記受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ziは、i番目のオブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方であり、riは、該i番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、rLは、受け入れ点に関連付けられた位置であり、θiは、該i番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角であり、φiは、該i番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角であり、aiは、該i番目のオブジェクトベースのオーディオ信号の振幅倍率であり、giは、該受け入れ点に対する該i番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該i番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ciは、該i番目のオブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数であることを特徴とする請求項1に記載の方法。
  10. 前記受信したオブジェクトベースのオーディオ信号は、ユーザ指定のものであることを特徴とする請求項1に記載の方法。
  11. オブジェクトベースのオーディオ信号の新しいセットを示し、オブジェクトベースのオーディオ信号の前記セットがユーザ入力に基づいて受け入れられていることを示す情報を受け入れる段階を更に含み、
    方法が、
    オブジェクトベースのオーディオ信号の前記セットに基づいて、かつオブジェクトベースのオーディオ信号の該セットの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて前記音量メトリックを再度決定する段階、
    を更に含む、
    ことを特徴とする請求項10に記載の方法。
  12. 各オブジェクトベースのオーディオ信号の前記オブジェクトメタデータは、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データ又は該オブジェクトベースのオーディオ信号の振幅倍率のうちの少なくとも一方を含むことを特徴とする請求項1に記載の方法。
  13. 前記受け入れ点に対する前記オブジェクトベースのオーディオ信号の前記位置データは、該オブジェクトベースのオーディオ信号の位置と該受け入れ点の間の距離、該オブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角、又は該オブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角のうちの少なくとも1つを含むことを特徴とする請求項12に記載の方法。
  14. 前記音量メトリックは、Tmsにわたる平均音量であり、該音量メトリックは、Tms毎に決定されることを特徴とする請求項1に記載の方法。
  15. 前記音量メトリックは、Tmsにわたる平均音量であり、該音量メトリックは、D<TであるDms毎に決定されることを特徴とする請求項1に記載の方法。
  16. 前記音量メトリックは、各々が以前のウィンドウと重複する複数のウィンドウ期間にわたって決定されることを特徴とする請求項15に記載の方法。
  17. 前記ウィンドウ期間の各々が、400msの継続時間を有し、かつ300msだけ他のウィンドウ期間と重複することを特徴とする請求項16に記載の方法。
  18. 前記受信したオブジェクトベースのオーディオ信号は、N個のオブジェクトベースのオーディオ信号を含み、該受信したオブジェクトベースのオーディオ信号は、n個のチャネルを含むスピーカを通してレンダリングされ、Nは、nと無相関であることを特徴とする請求項1に記載の方法。
  19. 放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためにオブジェクトベースのオーディオ信号を処理する方法であって、
    前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信する段階と、
    前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定する段階と、
    前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を送信する段階と、
    を含むことを特徴とする方法。
  20. 前記受信したオブジェクトベースのオーディオ信号を送信する前に、前記決定された音量メトリックに基づいて、該受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つの振幅を調節する段階を更に含むことを特徴とする請求項19に記載の方法。
  21. 前記オブジェクトベースのオーディオ信号は、番組ビットストリームに関連付けられており、
    方法が、
    前記受信したオブジェクトベースのオーディオ信号を送信する前に、前記決定された音量メトリックに基づいて、前記番組ビットストリームの番組特定のメタデータで該受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つのものの振幅を修正する段階、
    を更に含む、
    ことを特徴とする請求項19に記載の方法。
  22. 再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するための装置であって、
    前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信するための手段と、
    前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定するための手段と、
    前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングするための手段と、
    を含むことを特徴とする装置。
  23. 前記受信したオブジェクトベースのオーディオ信号をレンダリングするための前記手段は、前記決定された音量メトリックに基づいて、該受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つのものの振幅を調節するように構成されることを特徴とする請求項22に記載の装置。
  24. 前記音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定するための手段を更に含み、
    前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも1つの前記振幅は、前記音量メトリックと前記ターゲット音量メトリックの間の前記比較に基づいて調節される、
    ことを特徴とする請求項23に記載の装置。
  25. 前記音量メトリックが前記ターゲット音量メトリックよりも大きいか否かを決定するための手段を更に含み、
    前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも1つのものの前記振幅は、前記音量メトリックが前記ターゲット音量メトリックよりも大きいと決定された時に調節される、
    ことを特徴とする請求項24に記載の装置。
  26. 前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データに更に基づいて決定されることを特徴とする請求項22に記載の装置。
  27. 前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、該オブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数と、該オブジェクトベースのオーディオ信号の振幅倍率と、又は受け入れ点に対する該オブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該オブジェクトベースのオーディオ信号の周波数依存重み係数とのうちの少なくとも1つに更に基づいて決定されることを特徴とする請求項22に記載の装置。
  28. 前記音量メトリックは、
    Figure 2017511048
    に基づいて決定され、ここで、i∈Iであり、Iは、オブジェクトベースのオーディオ信号のセットであり、Nは、前記受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ziは、i番目のオブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方であり、riは、該i番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、rLは、受け入れ点に関連付けられた位置であり、θiは、該i番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角であり、φiは、該i番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角であり、aiは、該i番目のオブジェクトベースのオーディオ信号の振幅倍率であり、giは、該受け入れ点に対する該i番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該i番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ciは、該i番目のオブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数であることを特徴とする請求項22に記載の装置。
  29. 放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためにオブジェクトベースのオーディオ信号を処理するための装置であって、
    前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信するための手段と、
    前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定するための手段と、
    前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を送信するための手段と、
    を含むことを特徴とする装置。
  30. 再生システムを通して再生するようにオブジェクトベースのオーディオ信号を処理するための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサであって、
    前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信し、
    前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定し、かつ
    前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を出力信号のセットにレンダリングする、
    ように構成された前記少なくとも1つのプロセッサと、
    を含むことを特徴とする装置。
  31. 前記少なくとも1つのプロセッサは、前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号のうちの少なくとも1つのものの振幅を調節することにより、該受信したオブジェクトベースのオーディオ信号をレンダリングするように構成されることを特徴とする請求項30に記載の装置。
  32. 前記少なくとも1つのプロセッサは、前記音量メトリックとターゲット音量メトリックの間の比較に基づいて音量メトリックオフセットを決定するように更に構成され、
    前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも1つのものの前記振幅は、前記音量メトリックと前記ターゲット音量メトリックの間の前記比較に基づいて調節される、
    ことを特徴とする請求項31に記載の装置。
  33. 前記少なくとも1つのプロセッサは、前記音量メトリックが前記ターゲット音量メトリックよりも大きいか否かを決定するように更に構成され、
    前記受信したオブジェクトベースのオーディオ信号のうちの前記少なくとも1つのものの前記振幅は、前記音量メトリックが前記ターゲット音量メトリックよりも大きいと決定された時に調節される、
    ことを特徴とする請求項32に記載の装置。
  34. 前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、受け入れ点に対する該オブジェクトベースのオーディオ信号の位置データに更に基づいて決定されることを特徴とする請求項30に記載の装置。
  35. 前記音量メトリックは、前記受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号に対して、該オブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数と、該オブジェクトベースのオーディオ信号の振幅倍率と、又は受け入れ点に対する該オブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該オブジェクトベースのオーディオ信号の周波数依存重み係数とのうちの少なくとも1つに更に基づいて決定されることを特徴とする請求項30に記載の装置。
  36. 前記音量メトリックは、
    Figure 2017511048
    に基づいて決定され、ここで、i∈Iであり、Iは、オブジェクトベースのオーディオ信号のセットであり、Nは、前記受信したオブジェクトベースのオーディオ信号内のオブジェクトベースのオーディオ信号の数であり、ziは、i番目のオブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方であり、riは、該i番目のオブジェクトベースのオーディオ信号に関連付けられた位置であり、rLは、受け入れ点に関連付けられた位置であり、θiは、該i番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の方位角であり、φiは、該i番目のオブジェクトベースのオーディオ信号の該位置と該受け入れ点の間の仰角であり、aiは、該i番目のオブジェクトベースのオーディオ信号の振幅倍率であり、giは、該受け入れ点に対する該i番目のオブジェクトベースのオーディオ信号の角度位置の関数として聴覚音量感度を考慮するための該i番目のオブジェクトベースのオーディオ信号の周波数依存重み係数であり、ciは、該i番目のオブジェクトベースのオーディオ信号の相関係数であって、該受信したオブジェクトベースのオーディオ信号のうちの1又は2以上の他のオブジェクトベースのオーディオ信号に対する相関係数であることを特徴とする請求項30に記載の装置。
  37. 放送、ファイル配信、又はストリーミングのうちの少なくとも1つのためにオブジェクトベースのオーディオ信号を処理するための装置であって、
    メモリと、
    前記メモリに結合された少なくとも1つのプロセッサであって、
    前記オブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号が、オーディオ波形データと、該オーディオ波形データに関連付けられ、該オーディオ波形データに関連付けられた音量パラメータ又は電力パラメータのうちの少なくとも一方を含むオブジェクトメタデータと、を含む、複数のオブジェクトベースのオーディオ信号を受信し、
    前記受信したオブジェクトベースのオーディオ信号に基づいて、かつ該受信したオブジェクトベースのオーディオ信号のうちの各オブジェクトベースのオーディオ信号のための前記音量パラメータ又は前記電力パラメータのうちの前記少なくとも一方に基づいて音量メトリックを決定し、かつ
    前記決定された音量メトリックに基づいて、前記受信したオブジェクトベースのオーディオ信号を送信する、
    ように構成された前記少なくとも1つのプロセッサと、
    を含むことを特徴とする装置。
JP2016554441A 2014-02-27 2015-02-27 オブジェクトベースのオーディオ音量管理 Active JP6670752B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461945734P 2014-02-27 2014-02-27
US61/945,734 2014-02-27
US14/632,997 US10063207B2 (en) 2014-02-27 2015-02-26 Object-based audio loudness management
US14/632,997 2015-02-26
PCT/US2015/018045 WO2015131063A1 (en) 2014-02-27 2015-02-27 Object-based audio loudness management

Publications (2)

Publication Number Publication Date
JP2017511048A true JP2017511048A (ja) 2017-04-13
JP6670752B2 JP6670752B2 (ja) 2020-03-25

Family

ID=53883555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016554441A Active JP6670752B2 (ja) 2014-02-27 2015-02-27 オブジェクトベースのオーディオ音量管理

Country Status (8)

Country Link
US (1) US10063207B2 (ja)
EP (1) EP3111677B1 (ja)
JP (1) JP6670752B2 (ja)
KR (1) KR102341971B1 (ja)
CN (1) CN106170992B (ja)
ES (1) ES2714905T3 (ja)
PL (1) PL3111677T3 (ja)
WO (1) WO2015131063A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020153092A1 (ja) * 2019-01-25 2020-07-30 ソニー株式会社 情報処理装置及び情報処理方法
JP2020190615A (ja) * 2019-05-21 2020-11-26 日本放送協会 音声配信システム、配信サーバ、再生装置、及びプログラム

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9451296B2 (en) * 2014-08-19 2016-09-20 At&T Intellectual Property I, L.P. Extracting data from advertisement files for ad insertion
US10032447B1 (en) * 2014-11-06 2018-07-24 John Mitchell Kochanczyk System and method for manipulating audio data in view of corresponding visual data
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频系统和方法
ES2936089T3 (es) 2015-06-17 2023-03-14 Fraunhofer Ges Forschung Control de intensidad del sonido para interacción del usuario en sistemas de codificación de audio
US10091581B2 (en) * 2015-07-30 2018-10-02 Roku, Inc. Audio preferences for media content players
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9980078B2 (en) * 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074921B2 (en) * 2017-03-28 2021-07-27 Sony Corporation Information processing device and information processing method
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CA3078420A1 (en) 2017-10-17 2019-04-25 Magic Leap, Inc. Mixed reality spatial audio
WO2019161191A1 (en) * 2018-02-15 2019-08-22 Dolby Laboratories Licensing Corporation Loudness control methods and devices
CN111713091A (zh) 2018-02-15 2020-09-25 奇跃公司 混合现实虚拟混响
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
JP7102024B2 (ja) * 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
EP3804132A1 (en) 2018-05-30 2021-04-14 Magic Leap, Inc. Index scheming for filter parameters
GB2574238A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
GB2593117A (en) * 2018-07-24 2021-09-22 Nokia Technologies Oy Apparatus, methods and computer programs for controlling band limited audio objects
US11716586B2 (en) * 2018-09-28 2023-08-01 Sony Corporation Information processing device, method, and program
JP7504091B2 (ja) 2018-11-02 2024-06-21 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびオーディオ・デコーダ
JP7446420B2 (ja) 2019-10-25 2024-03-08 マジック リープ, インコーポレイテッド 反響フィンガプリント推定
EP4055840A1 (en) * 2019-11-04 2022-09-14 Qualcomm Incorporated Signalling of audio effect metadata in a bitstream
KR102295287B1 (ko) * 2019-12-26 2021-08-30 네이버 주식회사 오디오 신호 처리 방법 및 시스템
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050078833A1 (en) * 2003-10-10 2005-04-14 Hess Wolfgang Georg System for determining the position of a sound source
JP2013257569A (ja) * 2006-10-16 2013-12-26 Fraunhofer Ges Zur Foerderung Der Angewandten Forschung Ev マルチチャネル・パラメータ変換のための装置および方法
WO2014025752A1 (en) * 2012-08-07 2014-02-13 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
US8437480B2 (en) 2009-12-17 2013-05-07 Stmicroelectronics Asia Pacific Pte Ltd. Adaptive loudness levelling for digital audio signals
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103582913B (zh) * 2011-04-28 2016-05-11 杜比国际公司 有效内容分类及响度估计
CN103024125A (zh) * 2011-09-28 2013-04-03 宏碁股份有限公司 在免提模式下提供最佳化音响特性的方法和移动通信装置
CN103456334B (zh) * 2012-06-01 2016-04-06 腾讯科技(深圳)有限公司 音频文件播放方法及播放装置
EP2936485B1 (en) 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
JP6271586B2 (ja) 2013-01-16 2018-01-31 ドルビー・インターナショナル・アーベー Hoaラウドネスレベルを測定する方法及びhoaラウドネスレベルを測定する装置
UA112249C2 (uk) 2013-01-21 2016-08-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
EP3075173B1 (en) * 2013-11-28 2019-12-11 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050078833A1 (en) * 2003-10-10 2005-04-14 Hess Wolfgang Georg System for determining the position of a sound source
JP2013257569A (ja) * 2006-10-16 2013-12-26 Fraunhofer Ges Zur Foerderung Der Angewandten Forschung Ev マルチチャネル・パラメータ変換のための装置および方法
WO2014025752A1 (en) * 2012-08-07 2014-02-13 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020153092A1 (ja) * 2019-01-25 2020-07-30 ソニー株式会社 情報処理装置及び情報処理方法
JP7415954B2 (ja) 2019-01-25 2024-01-17 ソニーグループ株式会社 情報処理装置及び情報処理方法
JP2020190615A (ja) * 2019-05-21 2020-11-26 日本放送協会 音声配信システム、配信サーバ、再生装置、及びプログラム
JP7235590B2 (ja) 2019-05-21 2023-03-08 日本放送協会 音声配信システム、配信サーバ、再生装置、及びプログラム

Also Published As

Publication number Publication date
PL3111677T3 (pl) 2019-06-28
KR102341971B1 (ko) 2021-12-23
EP3111677A1 (en) 2017-01-04
JP6670752B2 (ja) 2020-03-25
US10063207B2 (en) 2018-08-28
EP3111677B1 (en) 2019-01-02
WO2015131063A1 (en) 2015-09-03
KR20160125511A (ko) 2016-10-31
ES2714905T3 (es) 2019-05-30
EP3111677A4 (en) 2017-10-11
CN106170992B (zh) 2019-12-06
US20150245153A1 (en) 2015-08-27
CN106170992A (zh) 2016-11-30

Similar Documents

Publication Publication Date Title
JP6670752B2 (ja) オブジェクトベースのオーディオ音量管理
US20240055007A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
US10477311B2 (en) Merging audio signals with spatial metadata
CN107820711B (zh) 用于音频编码系统中用户交互性的响度控制
RU2639663C2 (ru) Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US10251016B2 (en) Dialog audio signal balancing in an object-based audio program
CN109076250B (zh) 交互式音频元数据处置
JP2016529801A (ja) 一定出力ペアワイズパニングによるマトリクスデコーダ
JP2023072027A (ja) 復号装置および方法、並びにプログラム
US10346126B2 (en) User preference selection for audio encoding
TW202348047A (zh) 用於沉浸式3自由度/6自由度音訊呈現的方法和系統

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190507

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200302

R150 Certificate of patent or registration of utility model

Ref document number: 6670752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250