JP6388939B2 - 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 - Google Patents

空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 Download PDF

Info

Publication number
JP6388939B2
JP6388939B2 JP2016531766A JP2016531766A JP6388939B2 JP 6388939 B2 JP6388939 B2 JP 6388939B2 JP 2016531766 A JP2016531766 A JP 2016531766A JP 2016531766 A JP2016531766 A JP 2016531766A JP 6388939 B2 JP6388939 B2 JP 6388939B2
Authority
JP
Japan
Prior art keywords
audio
audio object
signal
metadata
decorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016531766A
Other languages
English (en)
Other versions
JP2016530803A (ja
Inventor
ジェロエン ブリーバルト,ディルク
ジェロエン ブリーバルト,ディルク
ルー,リエ
エール. トウィンゴ,ニコラ
エール. トウィンゴ,ニコラ
ソレ,アントニオ マテオス
ソレ,アントニオ マテオス
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2016530803A publication Critical patent/JP2016530803A/ja
Application granted granted Critical
Publication of JP6388939B2 publication Critical patent/JP6388939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

関連出願への相互参照
本願は2013年7月31日に出願されたスペイン特許出願第P201331193号および2013年10月2日に出願された米国仮出願第61/885,805号からの優先権を主張する。各出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本開示は、オーディオ・データを処理することに関する。特に、本開示は、拡散したまたは空間的に大きなオーディオ・オブジェクトに対応するオーディオ・データを処理することに関する。
1927年に映画に音声が導入されて以来、映画サウンドトラックの芸術的な意図を捉えてその内容を再現するために使われる技術は着実に進歩を遂げてきた。1970年代には、ドルビーは、3つのスクリーン・チャネルおよびモノのサラウンド・チャネルとの混合をエンコードおよび配布するコスト効率のよい手段を導入した。ドルビーは1990年代に、離散的な左、中央および右スクリーン・チャネル、左および右のサラウンド・アレイおよび低域効果のためのサブウーファー・チャネルを与える5.1チャネル・フォーマットをもって映画館にデジタル・サウンドをもたらした。2010年に導入されたドルビー・サラウンド7.1は、既存の左および右サラウンド・チャネルを四つの「ゾーン」に分割することによって、サラウンド・チャネルの数を増やした。
映画館およびホームシアターのオーディオ再生システムはいずれもますます多用途かつ複雑になりつつある。ホームシアターのオーディオ再生システムはますます多くのスピーカーを含むようになってきている。チャネル数が増し、ラウドスピーカー・レイアウトが平面的な二次元(2D)アレイから高さを含む三次元(3D)アレイに移行するにつれ、再生環境における音の再現はますます複雑なプロセスになりつつある。改善されたオーディオ処理方法が望ましいであろう。
V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio Robinson and Vinton、"Automated Speech/Other Discrimination for Loudness Monitoring"、Audio Engineering Society, Preprint number 6437 of Convention 118, May 2005
拡散したまたは空間的に大きなオーディオ・オブジェクトを処理するための改善された方法が提供される。本稿での用法では、用語「オーディオ・オブジェクト」は、オーディオ信号(本稿では「オーディオ・オブジェクト信号」とも称される)および関連するメタデータを指してもよい。関連するメタデータは、いかなる特定の再生環境も参照することなく生成または「オーサリング」されてもよい。関連するメタデータは、オーディオ・オブジェクト位置データ、オーディオ・オブジェクト利得データ、オーディオ・オブジェクト・サイズ・データ、オーディオ・オブジェクト軌跡データなどを含んでいてもよい。本稿での用法では、用語「レンダリング」は、オーディオ・オブジェクトを、特定の再生環境のためのスピーカー・フィード信号に変換するプロセスを指しうる。レンダリング・プロセスは、少なくとも部分的には、前記関連するメタデータに従って、かつ再生環境データに従って実行されてもよい。再生環境データは、再生環境中のスピーカーの数の指示および再生環境内の各スピーカーの位置の指示を含んでいてもよい。
空間的に大きなオーディオ・オブジェクトは、点音源として知覚されることは意図されておらず、その代わり、大きな空間領域をカバーするものとして知覚されるべきである。いくつかの事例では、大きなオーディオ・オブジェクトは聴取者を取り囲むものとして知覚されるべきである。そのようなオーディオ効果は、単なるパンによっては達成可能でないことがあり、むしろ追加的な処理を必要とすることがある。説得力のある空間的なオブジェクト・サイズまたは空間的な拡散性を生成するためには、再生環境におけるスピーカー信号のかなりの割合が互いに独立である、または少なくとも無相関(たとえば、一次の相互相関または共分散に関して独立)であるべきである。シアター用のレンダリング・システムのような十分に複雑なレンダリング・システムはそのような脱相関を提供することができることがある。しかしながら、ホームシアター・システムのために意図されたもののようなそれほど複雑でないレンダリング・システムは十分な脱相関を提供することができないことがありうる。
本稿に記載されるいくつかの実装は、拡散的なまたは空間的に大きなオーディオ・オブジェクトを特殊な処理のために特定することに関わっていてもよい。脱相関プロセスが該大きなオーディオ・オブジェクトに対応するオーディオ信号に対して実行されて、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成してもよい。これらの脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられていてもよい。オブジェクト位置は静的なまたは時間変化する位置でありうる。関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。たとえば、脱相関された大きなオーディオ・オブジェクトのオーディオ信号は、仮想スピーカー位置にレンダリングされてもよい。いくつかの実装では、そのようなレンダリング・プロセスの出力はシーン単純化プロセスに入力されてもよい。
よって、本開示の少なくともいくつかの側面は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わってもよい方法において実装されてもよい。オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含んでいてもよい。メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含んでいてもよい。
本方法は、オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別し、該大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付けることに関わっていてもよい。関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。実際の再生スピーカー配位は、最終的に、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われてもよい。
本発明は、大きなオーディオ・オブジェクトについての脱相関メタデータを受領することに関わっていてもよい。脱相関プロセスは、少なくとも部分的には、脱相関メタデータに従って実行されてもよい。本方法は、関連付けプロセスから出力されるオーディオ・データをエンコードすることに関わってもよい。いくつかの実装では、エンコード・プロセスは、大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。
前記オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置データの少なくとも一部に対応する位置を含んでいてもよい。前記オブジェクト位置の少なくとも一部は、静的であってもよい。しかしながら、いくつかの実装では、前記オブジェクト位置の少なくとも一部は時間とともに変化してもよい。
関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を仮想スピーカー位置に従ってレンダリングすることに関わっていてもよい。いくつかの例では、受領プロセスは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を受領することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、受領されたオーディオ・ベッド信号または受領されたオーディオ・オブジェクト信号の少なくとも一部と混合することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力することに関わっていてもよい。
本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用することに関わっていてもよい。いくつかの実装では、大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよく、レベル調整プロセスは少なくとも部分的には、該大きなオーディオ・オブジェクトのオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存してもよい。
本方法は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除することに関わっていてもよい。しかしながら、いくつかの実装では、本方法は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持することに関わってもよい。
大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよい。いくつかのそのような実装では、本方法は、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することに関わってもよい。本方法は、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合することに関わっていてもよい。
いくつかの実装では、本方法は、脱相関プロセス後にオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わっていてもよい。いくつかのそのような実装では、オーディオ・オブジェクト・クラスタリング・プロセスは、関連付けプロセス後に実行されてもよい。
本方法はさらに、コンテンツ型を判別するためにオーディオ・データを評価することに関わっていてもよい。いくつかのそのような実装では、脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、実行されるべき脱相関の量はコンテンツ型に依存してもよい。脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタおよび/または残響アルゴリズムに関わってもよい。
本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよい。たとえば、本開示の少なくともいくつかの側面は、インターフェース・システムおよび論理システムを含む装置において実装されてもよい。インターフェース・システムはユーザー・インターフェースおよび/またはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、論理システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。
論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような少なくとも一つのプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントおよび/またはそれらの組み合わせを含んでいてもよい。
いくつかの実装では、論理システムは、インターフェース・システムを介して、オーディオ・オブジェクトを含むオーディオ・データを受領することができてもよい。オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含んでいてもよい。いくつかの実装では、メタデータは、少なくともオーディオ・オブジェクト・サイズ・データを含んでいてもよい。論理システムは、オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きなオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別し、該大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付けることができてもよい。
関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。たとえば、関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、仮想スピーカー位置にレンダリングすることに関わっていてもよい。実際の再生スピーカー配位は、最終的に、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われてもよい。
論理システムは、大きなオーディオ・オブジェクトについての脱相関メタデータを、インターフェース・システムを介して受領することができてもよい。脱相関プロセスは、少なくとも部分的には、脱相関メタデータに従って実行されてもよい。
論理システムは、関連付けプロセスから出力されるオーディオ・データをエンコードすることができてもよい。いくつかの実装では、エンコード・プロセスは、大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。
前記オブジェクト位置の少なくとも一部は、静的であってもよい。大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよい。オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置メタデータの少なくとも一部に対応する位置を含んでいてもよい。
受領プロセスは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を受領することに関わっていてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、受領されたオーディオ・ベッド信号または受領されたオーディオ・オブジェクト信号の少なくとも一部と混合することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力することができてもよい。
論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用することができてもよい。レベル調整プロセスは少なくとも部分的には、該大きなオーディオ・オブジェクトのオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存してもよい。
論理システムは、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除することができてもよい。しかしながら、本装置は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持することができてもよい。
論理システムは、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することができてもよい。論理システムは、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合することに関わっていてもよい。
論理システムは、脱相関プロセス後にオーディオ・オブジェクト・クラスタリング・プロセスを実行することができてもよい。いくつかの実装では、オーディオ・オブジェクト・クラスタリング・プロセスは、関連付けプロセス後に実行されてもよい。
論理システムは、コンテンツ型を判別するためにオーディオ・データを評価することができてもよい。脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、実行されるべき脱相関の量はコンテンツ型に依存してもよい。脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタおよび/または残響アルゴリズムに関わってもよい。
本明細書に記載される主題の一つまたは複数の実装の詳細が、付属の図面および以下の記述において記載される。他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。以下の図の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。
ドルビー・サラウンド5.1配位をもつ再生環境の例を示す図である。 ドルビー・サラウンド7.1配位をもつ再生環境の例を示す図である。 AおよびBは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示す図である。 仮想再生環境においてさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース(GUI)の例を示す図である。 別の再生環境の例を示す図である。 空間的に大きなオーディオ・オブジェクトのためのオーディオ処理の例を与える流れ図である。 大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。 大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。 大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。 大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。 大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。 大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。 クラスタリング・プロセスを実行できるシステムの例を示すブロック図である。 適応的なオーディオ処理システムにおいてオブジェクトおよび/またはベッドをクラスタリングすることのできるシステムの例を示すブロック図である。 大きなオブジェクトのための脱相関処理後のクラスタリング・プロセスの例を与えるブロック図である。 再生環境に対する仮想源位置の例を示す図である。 再生環境に対する仮想源位置の代替的な例を示す図である。 オーディオ処理装置のコンポーネントの例を与えるブロック図である。 さまざまな図面における同様の参照符号および指定は同様の要素を示す。
以下の記述は、本開示のいくつかの斬新な側面およびこれら斬新な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。さらに、記載される実装は、ハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステム等のようなさまざまな装置およびシステムにおいて少なくとも部分的には実装されてもよい。したがって、本開示の教示は、図面に示されるおよび/または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。
図1は、ドルビー・サラウンド5.1配位をもつ再生環境の例を示している。この例において、再生環境は映画館再生環境である。ドルビー・サラウンド5.1は1990年代に開発されたが、この配位はいまだ広く家庭および映画館の再生環境に配備されている。映画館再生環境では、プロジェクター105が、たとえば映画のためのビデオ画像をスクリーン150に投影するよう構成されていてもよい。オーディオ・データは、該ビデオ画像と同期され、サウンド・プロセッサ110によって処理されてもよい。電力増幅器115はスピーカー・フィード信号を再生環境100のスピーカーに与えてもよい。
ドルビー・サラウンド5.1配位は、左サラウンド・アレイ122のための左サラウンド・チャネル120および右サラウンド・アレイ127のための右サラウンド・チャネル125を含む。ドルビー・サラウンド5.1配位は左スピーカー・アレイ132のための左チャネル130、中央スピーカー・アレイ137のための中央チャネル135および右スピーカー・アレイ142のための右チャネル140をも含む。映画館環境では、これらのチャネルはそれぞれ左スクリーン・チャネル、中央スクリーン・チャネルおよび右スクリーン・チャネルと称されることがある。サブウーファー145について別個の低域効果(LFE: low-frequency effects)チャネル144が設けられる。
2010年に、ドルビーはドルビー・サラウンド7.1を導入することによってデジタル映画館サウンドに対する向上を提供した。図2は、ドルビー・サラウンド7.1配位をもつ再生環境の例を示している。デジタル・プロジェクター205はデジタル・ビデオ・データを受領し、ビデオ画像をスクリーン150上に投影するよう構成されていてもよい。オーディオ・データは、サウンド・プロセッサ210によって処理されてもよい。電力増幅器215がスピーカー・フィード信号を再生環境200のスピーカーに提供してもよい。
ドルビー・サラウンド5.1と同様に、ドルビー・サラウンド7.1配位は、左スピーカー・アレイ132のための左チャネル、中央スピーカー・アレイ137のための中央チャネル135、右スピーカー・アレイ142のための右チャネル140およびサブウーファー145のためのLFEチャネル144を含む。ドルビー・サラウンド7.1配位は、左側方サラウンド(Lss: left side surround)・アレイ220および右側方サラウンド(Rss: right side surround)・アレイ225を含み、そのそれぞれは単一チャネルによって駆動されてもよい。
しかしながら、ドルビー・サラウンド7.1は、ドルビー・サラウンド5.1の左および右のサラウンド・チャネルを四つのゾーンに分割することによって、サラウンド・チャネルの数を増している。すなわち、左側方サラウンド・アレイ220および右側方サラウンド・アレイ225に加えて、左後方サラウンド(Lrs: left rear surround)・スピーカー224および右後方サラウンド(Rrs: right rear surround)・スピーカー226のために別個のチャネルが含まれる。再生環境200内のサラウンド・ゾーンの数を増すことは、音の定位を著しく改善できる。
より没入的な環境を生成しようとする努力において、いくつかの再生環境は、増加した数のチャネルによって駆動される増加した数のスピーカーをもって構成されることがある。さらに、いくつかの再生環境は、さまざまな高さに配備されるスピーカーを含むことがあり、そのようなスピーカーの一部は再生環境の座席領域より上方のエリアからの音を生成するよう構成された「高さスピーカー(height speaker)」であることがある。
図3のAおよびBは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示している。これらの例では、再生環境300aおよび300bは、左サラウンド・スピーカー322、右サラウンド・スピーカー327、左スピーカー332、右スピーカー342、中央スピーカー337およびサブウーファー145を含むドルビー・サラウンド5.1配位の主な特徴を含む。しかしながら、再生環境300は、高さスピーカーのためのドルビー・サラウンド5.1配位の拡張を含み、これはドルビー・サラウンド5.1.2配位と称されることがある。
図3のAは、ホームシアター再生環境の天井360に取り付けられた高さスピーカーをもつ再生環境の例を示している。この例では、再生環境300aは、左上中間(Ltm: left top middle)位置にある高さスピーカー352および右上中間(Rtm: right top middle)位置にある高さスピーカー357を含んでいる。図3のBに示される例では、左スピーカー332および右スピーカー342は、天井360から音を反射させるよう構成されたドルビー・エレベーション(Dolby Elevation)・スピーカーである。適正に構成されれば、反射音は、聴取者365によって、あたかも音源が天井360から発しているかのように知覚されうる。しかしながら、これらのスピーカーの数および配位は単に例として挙げられている。いくつかの現行のホームシアター実装は、34個までのスピーカー位置を提供しており、構想されているホームシアター実装はさらに多くのスピーカー位置を許容することがありうる。
よって、現在のトレンドは、より多くのスピーカーおよびより多くのチャネルを含めるだけでなく、異なる高さのスピーカーをも含めるものである。チャネルの数が増し、スピーカー・レイアウトが2Dから3Dに移行するにつれて、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。
よって、ドルビーは、3Dオーディオ・サウンド・システムのための機能を高めるおよび/またはオーサリング複雑さを軽減する、ユーザー・インターフェースを含むがそれに限られないさまざまなツールを開発した。いくつかのそのようなツールは、オーディオ・オブジェクトおよび/またはオーディオ・オブジェクトのためのメタデータを生成するために使用されうる。
図4Aは、仮想再生環境におけるさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース(GUI)の例を示している。GUI 400はたとえば、論理システムからの命令に従って、ユーザー入力装置から受領される信号に従って、などにより表示装置上に表示されてもよい。いくつかのそのような装置は図11を参照して後述する。
仮想再生環境404のような仮想再生環境への言及に関する本稿での用法では、用語「スピーカー・ゾーン」は概括的に、実際の再生環境の再生スピーカーと一対一対応があってもなくてもよい論理的な構造体を指す。たとえば、「スピーカー・ゾーン位置」は、映画館再生環境の特定の再生スピーカー位置に対応してもしなくてもよい。その代わり、用語「スピーカー・ゾーン位置」は概括的に、仮想再生環境のゾーンを指してもよい。いくつかの実装では、仮想再生環境のスピーカー・ゾーンは、たとえば、二チャネル・ステレオ・ヘッドホンの組を使ってリアルタイムに仮想サラウンド・サウンド環境を生成するドルビー・ヘッドホン(商標)(時にモバイル・サラウンド(商標)と称される)のような仮想化技術の使用を通じて、仮想スピーカーに対応してもよい。GUI 400には、第一の高さに七つのスピーカー・ゾーン402aがあり、第二の高さに二つのスピーカー・ゾーン402bがあり、仮想再生環境404内のスピーカー・ゾーンは合計九つとなっている。この例では、スピーカー・ゾーン1〜3は仮想再生環境404の前方領域405にある。前方領域405はたとえば、映画館再生環境の、スクリーン150が位置する領域、家庭の、テレビジョン・スクリーンが位置する領域などに対応してもよい。
ここで、スピーカー・ゾーン4は概括的には左領域410のスピーカーに対応し、スピーカー・ゾーン5は仮想再生環境404の右領域415のスピーカーに対応する。スピーカー・ゾーン6は左後方領域412に対応し、スピーカー・ゾーン7は仮想再生環境404の右後方領域414に対応する。スピーカー・ゾーン8は上領域420aのスピーカーに対応し、スピーカー・ゾーン9は上領域420bのスピーカーに対応し、これは仮想天井領域であってもよい。したがって、図4Aに示されるスピーカー・ゾーン1〜9の位置は実際の再生環境の再生スピーカーの位置に対応してもしなくてもよい。さらに、他の実装はより多数またはより少数のスピーカー・ゾーンおよび/または高さを含んでいてもよい。
本稿に記載されるさまざまな実装において、GUI 400のようなユーザー・インターフェースが、オーサリング・ツールおよび/またはレンダリング・ツールの一部として使用されてもよい。いくつかの実装では、オーサリング・ツールおよび/またはレンダリング・ツールは、一つまたは複数の非一時的な媒体上に記憶されるソフトウェアを介して実装されてもよい。オーサリング・ツールおよび/またはレンダリング・ツールは、(少なくとも部分的には)図11を参照して後述する論理システムおよび他の装置のようなハードウェア、ファームウェアなどによって実装されてもよい。いくつかのオーサリング実装では、関連するオーサリング・ツールが関連するオーディオ・データについてのメタデータを生成するために使用されてもよい。メタデータは、たとえば、三次元空間におけるオーディオ・オブジェクトの位置および/または軌跡を示すデータ、スピーカー・ゾーン制約条件データなどを含んでいてもよい。メタデータは、実際の再生環境の特定のスピーカー・レイアウトに関してではなく、仮想再生環境404のスピーカー・ゾーン402に関して生成されてもよい。レンダリング・ツールは、オーディオ・データおよび関連するメタデータを受領してもよく、再生環境のためのオーディオ利得およびスピーカー・フィード信号を計算してもよい。そのようなオーディオ利得およびスピーカー・フィード信号は、振幅パン・プロセスに従って計算されてもよい。振幅パン・プロセスは、音が再生環境中の位置Pから来ているような知覚を創り出すことができるものである。たとえば、スピーカー・フィード信号は、次式
xi(t)=gix(t) i=1,…,N (式1)
に従って再生環境の再生スピーカー1ないしNに与えられてもよい。
式(1)において、xi(t)はスピーカーiに加えられるスピーカー・フィード信号を表し、giは対応するチャネルの利得因子を表し、x(t)はオーディオ信号を表し、tは時間を表す。利得因子はたとえばここに参照により組み込まれる非特許文献1のSection 2、pp.3-4に記載される振幅パン方法(amplitude panning methods)に従って決定されてもよい。いくつかの実装では、利得は周波数依存であってもよい。いくつかの実装では、x(t)をx(t−Δt)で置き換えることによって時間遅延が導入されてもよい。
いくつかのレンダリング実装では、スピーカー・ゾーン402を参照して生成されたオーディオ再生データは、ドルビー・サラウンド5.1配位、ドルビー・サラウンド7.1配位、浜崎22.2配位または他の配位であってもよい幅広い範囲の再生環境のスピーカー位置にマッピングされうる。たとえば、図2を参照するに、レンダリング・ツールは、スピーカー・ゾーン4および5についてのオーディオ再生データを、ドルビー・サラウンド7.1配位をもつ再生環境の左側方サラウンド・アレイ220および右側方サラウンド・アレイ225にマッピングしてもよい。スピーカー・ゾーン1、2および3についてのオーディオ再生データは、それぞれ左スクリーン・チャネル230、右スクリーン・チャネル240および中央スクリーン・チャネル235にマッピングされてもよい。スピーカー・ゾーン6および7についてのオーディオ再生データは、左後方サラウンド・スピーカー224および右後方サラウンド・スピーカー226にマッピングされてもよい。
図4Bは、別の再生環境の例を示している。いくつかの実装では、レンダリング・ツールは、スピーカー・ゾーン1、2および3についてのオーディオ再生データを再生環境450の対応するスクリーン・スピーカー455にマッピングしてもよい。レンダリング・ツールは、スピーカー・ゾーン4および5についてのオーディオ再生データを、左側方サラウンド・アレイ460および右側方サラウンド・アレイ465にマッピングしてもよく、スピーカー・ゾーン8および9についてのオーディオ再生データを、左頭上スピーカー470aおよび右頭上スピーカー470bにマッピングしてもよい。スピーカー・ゾーン6および7についてのオーディオ再生データは、左後方サラウンド・スピーカー480aおよび右後方サラウンド・スピーカー480bにマッピングされてもよい。
いくつかのオーサリング実装では、オーサリング・ツールは、オーディオ・オブジェクトについてのメタデータを生成するために使われてもよい。メタデータは、オブジェクトの3D位置、レンダリング制約条件、コンテンツ型(たとえばダイアログ、効果など)および/または他の情報を指示してもよい。実装に依存して、メタデータは、幅データ、利得データ、軌跡データなどの他の型のデータを含んでいてもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは動いてもよい。
オーディオ・オブジェクトは、所与の時点における三次元空間内でのオーディオ・オブジェクトの位置を示す位置メタデータを一般に含む関連するメタデータに従ってレンダリングされる。オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、ドルビー5.1およびドルビー7.1のような伝統的なチャネル・ベースのシステムの場合のようにあらかじめ決められた物理的チャネルに出力されるのではなく、前記位置メタデータに従って、再生環境に存在するスピーカーを使ってレンダリングされる。
位置メタデータに加えて、意図されるオーディオ効果を生成するために他の型のメタデータが必要とされることがある。たとえば、いくつかの実装では、オーディオ・オブジェクトに関連付けられたメタデータは、「幅」と称されることもあるオーディオ・オブジェクト・サイズを示してもよい。サイズ・メタデータは、オーディオ・オブジェクトが占める空間的な面積または体積を示すために使用されてもよい。空間的に大きなオーディオ・オブジェクトは、単にオーディオ・オブジェクト位置メタデータによってのみ定義される位置をもつ点音源としてではなく、大きな空間的領域をカバーするものとして知覚されるべきである。たとえば、いくつかの事例では、大きなオーディオ・オブジェクトは、再生環境のかなりの部分、可能性としては聴取者を取り囲みさえする部分を占めるものとして知覚されるべきである。
人間の聴覚系は、両方の耳に到達する信号の相関またはコヒーレンスの変化に非常に敏感であり、規格化された相関が+1の値より小さければ、この相関を知覚されるオブジェクト・サイズ属性にマッピングする。したがって、説得力のある空間的オブジェクト・サイズまたは空間的拡散性を作り出すためには、再生環境におけるスピーカー信号のかなりの割合が相互に独立であるまたは少なくとも無相関である(たとえば、一次相互相関または共分散の点で独立)べきである。満足のいく脱相関プロセスは典型的にはかなり複雑であり、通常は時間変化するフィルタに関わる。
映画館サウンドトラックは、数百のオブジェクトを含むことがあり、それぞれが関連付けられた位置メタデータ、サイズ・メタデータおよび可能性としては他の空間的メタデータをもつ。さらに、映画館サウンド・システムは数百のスピーカーを含むことができ、それらのスピーカーは、オーディオ・オブジェクト位置およびサイズの満足のいく知覚を与えるよう個々に制御されうる。したがって、映画館では、数百のスピーカーによって数百のオブジェクトが再生されることがあり、オブジェクトからスピーカーへの信号マッピングは、パン係数の非常に大きな行列からなる。オブジェクトの数がMによって与えられ、スピーカーの数がNによって与えられるとき、この行列はN×N個までの要素をもつ。このことは、拡散したまたは大きなサイズのオブジェクトの再生に関わってくる。説得力のある空間的オブジェクト・サイズまたは空間的拡散性を作り出すためには、N個のスピーカー信号の有意な割合が相互に独立であるまたは少なくとも無相関であるべきである。このことは一般に、多数の(N個までの)独立な脱相関プロセスの使用に関わり、レンダリング・プロセスについての有意な処理負荷を引き起こす。さらに、脱相関の量は各オブジェクトについて異なることがあり、このことがレンダリング・プロセスをさらに複雑にする。商業シアターのためのレンダリング・システムのような十分複雑なレンダリング・システムは、そのような脱相関を与えることができることがある。
しかしながら、ホームシアター・システムのために意図されたもののようなそれほど複雑でないレンダリング・システムは、十分な脱相関を提供できないことがありうる。いくつかのそのようなレンダリング・システムは全く脱相関を提供できない。ホームシアター・システム上で実行されるのに十分単純な脱相関プログラムはアーチファクトを導入することがある。たとえば、ダウンミックス・プロセスに続いて低計算量の脱相関プロセスが用いられる場合には、櫛形フィルタ・アーチファクトが導入されることがある。
もう一つの潜在的な問題は、いくつかの用途では、オブジェクト・ベースのオーディオが後方互換な混合(ドルビー・デジタルまたはドルビー・デジタル・プラスなど)の形で、該後方互換の混合から一つまたは複数のオブジェクトを取り出すための追加的情報で増強されて伝送されるということである。後方互換の混合は通常、脱相関の効果を含めない。いくつかのそのようなシステムでは、オブジェクトの再構成が信頼できるように機能するのは、後方互換な混合が単純なパン手順を使って生成された場合のみである。そのようなプロセスにおける脱相関器の使用は、オーディオ・オブジェクト再構成プロセスを、時には厳しく、損なうことがある。過去には、このことは、後方互換な混合においては脱相関を適用しないことにして、それによりその混合の芸術的意図を損なうか、あるいはオブジェクト再構成プロセスにおける劣化を受け入れるかしかできないということだった。
そのような潜在的な問題に対処するために、本稿に記載されるいくつかの実装は、特殊な処理のために拡散したまたは空間的に大きなオーディオ・オブジェクトを識別することに関わる。そのような方法および装置は、ホームシアターにおいてレンダリングされるべきオーディオ・データのために特に好適でありうる。しかしながら、これらの方法および装置は、ホームシアター用途に限定されるものではなく、広い適用可能性をもつものである。
空間的に拡散した性質のため、大きなサイズをもつオブジェクトは、コンパクトかつ簡潔な位置をもつ点源としては知覚されない。したがって、そのように空間的に拡散したオブジェクトを再生するためには複数のスピーカーが使われる。しかしながら、大きなオーディオ・オブジェクトを再生するために使われる再生環境中のスピーカーの厳密な位置は、コンパクトで小さなサイズのオーディオ・オブジェクトを再生するために使われるスピーカーの位置ほど決定的に重要ではない。よって、大きなオーディオ・オブジェクトの高品質の再生は、脱相関された大きなオーディオ・オブジェクトの信号を再生環境の実際のスピーカーに最終的にレンダリングするために使われる実際の再生スピーカー配位についての事前の知識なしでも可能である。結果として、大きなオーディオ・オブジェクトについての脱相関プロセスは、ホームシアター・システムのような再生環境において聴取者のための再生のためにオーディオ・データをレンダリングするプロセスの前に、「上流」で実行されることができる。いくつかの例では、大きなオーディオ・オブジェクトについての脱相関プロセスは、そのような再生環境への伝送のためにオーディオ・データをエンコードする前に実行される。
そのような実装は、再生環境のレンダラーが高い複雑さの脱相関の機能をもつことを要求しない。それにより、比較的より単純であり、より効率的であり、より安価でありうるレンダリング・プロセスを許容する。後方互換なダウンミックスは、レンダリング側脱相関のためにオブジェクトを再構成する必要なしに、可能な最善の芸術的意図を維持するよう、脱相関の効果を含みうる。高品質脱相関器は、最終的なレンダリング・プロセスの上流で、たとえばサウンド・スタジオにおけるオーサリングまたはポストプロダクション・プロセスの間に、大きなオーディオ・オブジェクトに適用されることができる。そのような脱相関器は、ダウンミックスおよび/または他の下流のオーディオ処理に関して堅牢であってもよい。
図5は、空間的に大きなオーディオ・オブジェクトについてのオーディオ処理の例を与える流れ図である。方法500の動作は、本稿に記載される他の方法と同様に、必ずしも示された順序で実行されない。さらに、これらの方法は、図示および/または記述されるより多数または少数のブロックを含んでいてもよい。これらの方法は、少なくとも部分的には、図11に示され、後述する論理システム1110のような論理システムによって実装されてもよい。そのような論理システムは、オーディオ処理システムのコンポーネントであってもよい。代替的または追加的に、そのような方法は、ソフトウェアが記憶されている非一時的媒体を介して実装されてもよい。ソフトウェアは、少なくとも部分的には、本稿に記載される方法を実行するよう一つまたは複数の装置を制御するための命令を含んでいてもよい。
この例では、方法500は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わるブロック505で始まる。該オーディオ・データはオーディオ処理システムによって受領されてもよい。この例では、オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するメタデータを含む。ここで、関連するメタデータは、オーディオ・オブジェクト・サイズ・データを含む。関連するメタデータは、三次元空間におけるオーディオ・オブジェクトの位置を示すオーディオ・オブジェクト位置データ、脱相関メタデータ、オーディオ・オブジェクト利得情報なども含んでいてもよい。オーディオ・データは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号も含んでいてもよい。
この実装では、ブロック510は、オーディオ・オブジェクト・サイズ・データに基づいて、閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別することに関わる。たとえば、ブロック510は、数値的なオーディオ・オブジェクト・サイズ値が所定のレベルを超えるかどうかを判定することに関わっていてもよい。数値的なオーディオ・オブジェクト・サイズ値はたとえば、オーディオ・オブジェクトが占める再生環境の部分に対応してもよい。代替的または追加的に、ブロック510は、フラグ、脱相関メタデータなどのような別の型の指示が、オーディオ・オブジェクトが閾値サイズより大きいオーディオ・オブジェクト・サイズをもつことを示しているかどうかを判定することに関わっていてもよい。方法500の議論の多くは単一の大きなオーディオ・オブジェクトを処理することに関わるが、同じ(または同様の)処理が複数の大きなオーディオ・オブジェクトに適用されてもよいことは認識されるであろう。
この例では、ブロック515は、大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行し、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することに関わる。いくつかの実装では、脱相関プロセスは、少なくとも部分的には、受領された脱相関メタデータに従って実行されてもよい。脱相関プロセスは、遅延、全域通過フィルタ、擬似ランダム・フィルタおよび/または残響アルゴリズムに関わってもよい。
ここで、ブロック520では、脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられる。この例では、関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境の実際の再生スピーカーに最終的にレンダリングするために使用されうる実際の再生スピーカー配位とは独立である。しかしながら、いくつかの代替的な実装では、オブジェクト位置は、実際の再生スピーカー位置と対応してもよい。たとえば、いくつかのそのような代替的な実装によれば、オブジェクト位置は、一般的に使われる再生スピーカー配位の再生スピーカー位置と対応していてもよい。ブロック505においてオーディオ・ベッド信号が受領される場合、前記オブジェクト位置は、前記オーディオ・ベッド信号の少なくともいくつかに対応する再生スピーカー位置と対応してもよい。代替的または追加的に、オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置データの少なくとも一部に対応する位置であってもよい。よって、前記オブジェクト位置の少なくともいくつかが静的であってもよく、前記オブジェクト位置の少なくともいくつかが時間とともに変化してもよい。いくつかの実装では、ブロック520は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値距離だけ空間的に隔てられたオーディオ・オブジェクトについてのオーディオ信号と混合することに関わってもよい。
いくつかの実装では、ブロック520は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、仮想スピーカー位置に応じてレンダリングすることに関わってもよい。いくつかのそのような実装は、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することに関わってもよい。そのような実装は、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することに関わっていてもよい。いくつかの例が後述される。
いくつかの実装は、関連付けプロセスから出力されたオーディオ・データをエンコードすることに関わっていてもよい。いくつかのそのような実装によれば、エンコード・プロセスは、オーディオ・オブジェクトのオーディオ信号および関連するメタデータをエンコードすることに関わる。いくつかの実装では、エンコード・プロセスはデータ圧縮プロセスを含む。データ圧縮プロセスは可逆であっても、不可逆であってもよい。いくつかの実装では、データ圧縮プロセスは量子化プロセスに関わる。いくつかの例によれば、エンコード・プロセスは大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。
いくつかの実装は、本稿で「シーン単純化」プロセスとも称されるオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わる。たとえば、オーディオ・オブジェクト・クラスタリング・プロセスはブロック520の一部であってもよい。エンコードに関わる実装については、エンコード・プロセスは、オーディオ・オブジェクト・クラスタリング・プロセスから出力されるオーディオ・データをエンコードすることに関わってもよい。いくつかのそのような実装では、オーディオ・オブジェクト・クラスタリング・プロセスは脱相関プロセス後に実行されてもよい。シーン単純化プロセスを含め方法500の諸ブロックに対応するプロセスのさらなる例は後述する。
図6A〜図6Fは、本稿に記載される大きなオーディオ・オブジェクトを処理することのできるオーディオ処理システムのコンポーネントの例を示すブロック図である。これらのコンポーネントは、たとえば、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよいオーディオ処理システムの論理システムのモジュールに対応していてもよい。論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような一つまたは複数のプロセッサを含んでいてもよい。論理システムは、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイスをを含んでいてもよい。
図6Aでは、オーディオ処理システム600は、大きなオーディオ・オブジェクト605のような大きなオーディオ・オブジェクトを検出することができる。検出プロセスは、図5のブロック510を参照して述べたプロセスの一つと実質的に同様であってもよい。この例では、大きなオーディオ・オブジェクト605のオーディオ信号は、脱相関システム610によって脱相関されて、脱相関された大きなオーディオ・オブジェクト信号611を生成する。脱相関システム610は、少なくとも部分的には、大きなオーディオ・オブジェクト605についての受領された脱相関メタデータに従って脱相関プロセスを実行してもよい。脱相関プロセスは、遅延、全域通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムの一つまたは複数に関わってもよい。
オーディオ処理システム600は、この例では他のオーディオ・オブジェクトおよび/またはベッド615である他のオーディオ信号を受領することもできる。ここで、他のオーディオ・オブジェクトは、オーディオ・オブジェクトを大きなオーディオ・オブジェクトとして特徴付けるための閾値サイズを下回るサイズをもつオーディオ・オブジェクトである。
この例では、オーディオ処理システム600は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号611を他のオブジェクト位置と関連付けることができる。オブジェクト位置は静的であってもよく、あるいは時間とともに変化してもよい。関連付けプロセスは、図5のブロック520を参照して上述したプロセスの一つまたは複数と同様であってもよい。
関連付けプロセスは混合プロセスに関わってもよい。混合プロセスは、少なくとも部分的には、大きなオーディオ・オブジェクト位置と別のオブジェクト位置との間の距離に基づいていてもよい。図6Aに示される実装では、オーディオ処理システム600は、脱相関された大きなオーディオ・オブジェクト信号611を、オーディオ・オブジェクトおよび/またはベッド615に対応する少なくともいくつかのオーディオ信号と混合することができる。たとえば、オーディオ処理システム600は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号611を、その大きなオーディオ・オブジェクトからある閾値量の距離だけ空間的に離れている他のオーディオ・オブジェクトについてのオーディオ信号と混合することができてもよい。
いくつかの実装では、関連付けプロセスはレンダリング・プロセスに関わっていてもよい。たとえば、関連付けプロセスは、仮想スピーカー位置に従って脱相関された大きなオーディオ・オブジェクトのオーディオ信号をレンダリングすることに関わってもよい。レンダリング・プロセス後は、脱相関システム610によって受領された大きなオーディオ・オブジェクトに対応するオーディオ信号を保持する必要がないことがある。よって、オーディオ処理システム600は、脱相関プロセスが脱相関システム610によって実行された後、大きなオーディオ・オブジェクト605のオーディオ信号を減衰させるまたは削除するよう構成されていてもよい。あるいはまた、オーディオ処理システム600は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクト605のオーディオ信号の少なくとも一部(たとえば、大きなオーディオ・オブジェクト605の点源寄与に対応するオーディオ信号)を保持するよう構成されていてもよい。
この例では、オーディオ処理システム600は、オーディオ・データをエンコードすることができるエンコーダ620を含む。ここで、エンコーダ620は、関連付けプロセス後にオーディオ・データをエンコードするよう構成される。この実装では、エンコーダ620は、オーディオ圧縮プロセスをオーディオ・データに適用することができる。エンコードされたオーディオ・データ622は、記憶されるおよび/または下流の処理、再生などのために他のオーディオ処理システムに伝送されることができる。
図6Bに示される実装では、オーディオ処理システム600はレベル調整の機能をもつ。この例では、レベル調整システム612は、脱相関システム610の出力のレベルを調整するよう構成される。レベル調整プロセスは、もとの内容でのオーディオ・コンテンツのメタデータに依存してもよい。この例では、レベル調整プロセスは、少なくとも部分的には、大きなオーディオ・オブジェクト605のオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存する。そのようなレベル調整は、オーディオ・オブジェクトおよび/またはベッド615のような他のオーディオ・オブジェクトへの脱相関器出力の配送を最適化するために使用されることができる。結果として得られるレンダリングの空間的な拡散性を改善するために、空間的に遠い他のオブジェクト信号への複数の脱相関器出力を混合することを選んでもよい。
代替的または追加的に、レベル調整プロセスは、脱相関された大きなオーディオ・オブジェクト605に対応する音が、ある方向から諸スピーカーによって再生されるだけであることを保証するために使われてもよい。これは、所望される方向または位置の近傍におけるオブジェクトに脱相関器出力を加えるだけであることによって達成されうる。そのような実装では、大きなオーディオ・オブジェクト605の位置メタデータは、その音が到来する知覚される方向に関する情報を保存するために、レベル調整プロセスの考慮に入れられる。そのような実装は、中間サイズのオブジェクトについて、たとえば大きいと見なされるが、そのサイズが再現/再生環境全体を含むほどには大きくないオーディオ・オブジェクトについて、適切でありうる。
図6Cに示される実装では、オーディオ処理システム600は脱相関プロセスの間に追加的なオブジェクトまたはベッド・チャネルを生成することができる。そのような機能は、たとえば前記他のオーディオ・オブジェクトおよび/またはベッド615が好適または最適でない場合に、望ましいことがありうる。たとえば、いくつかの実装では、脱相関された大きなオーディオ・オブジェクトの信号611は、仮想スピーカー位置に対応してもよい。前記他のオーディオ・オブジェクトおよび/またはベッド615が、所望される仮想スピーカー位置に十分に近い位置に対応しない場合、脱相関された大きなオーディオ・オブジェクトの信号611は、新たな仮想スピーカー位置に対応してもよい。
この例では、大きなオーディオ・オブジェクト605はまず、脱相関システム610によって処理される。その後、脱相関されたオーディオ・オブジェクトの信号611に対応する追加的なオブジェクトまたはベッド・チャネルがエンコーダ620に提供される。この例では、脱相関された大きなオーディオ・オブジェクトの信号611は、エンコーダ620に送られる前にレベル調整を受ける。脱相関された大きなオーディオ・オブジェクトの信号611は、ベッド・チャネル信号および/またはオーディオ・オブジェクト信号であってもよく、この後者は静的なまたは動きのあるオブジェクトに対応しうる。
いくつかの実装では、エンコーダ620に出力されるオーディオ信号は、もとの大きなオーディオ・オブジェクトの信号の少なくとも一部を含んでいてもよい。上記のように、オーディオ処理システム600は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクト605の点源寄与に対応するオーディオ信号を保持することができてもよい。これは、たとえば、種々の信号が異なる度合いで互いに相関していることがありうるので、有益でありうる。したがって、大きなオーディオ・オブジェクト605に対応するもとのオーディオ信号の少なくとも一部(たとえば点源寄与)をそのまま通過させて、それを別個にレンダリングすることが有益でありうる。そのような実装では、脱相関された諸信号および大きなオーディオ・オブジェクト605に対応するもとの諸信号を平準化することが有利であることがある。
一つのそのような例が図6Dに示されている。この例では、もとの大きなオーディオ・オブジェクトの信号613の少なくとも一部が、レベル調整システム612aによる第一の平準化プロセスにかけられ、脱相関された大きなオーディオ・オブジェクトの信号611がレベル調整システム612bによる平準化プロセスにかけられる。ここで、レベル調整システム612aおよびレベル調整システム612bは、出力オーディオ信号をエンコーダ620に与える。レベル調整システム612bの出力は、この例では、前記他のオーディオ・オブジェクトおよび/またはベッド615と混合もされる。
いくつかの実装では、オーディオ処理システム600は、コンテンツ型を判別する(または少なくとも推定する)ために入力オーディオ・データを評価することができてもよい。脱相関プロセスは、少なくとも部分的にはコンテンツ型に基づいていてもよい。いくつかの実装では、脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、入力オーディオ・データに対して実行されるべき脱相関の量は、少なくとも部分的にはコンテンツ型に依存してもよい。たとえば、一般に、発話については脱相関の量を下げることが望まれるであろう。
一つの例が図6Eに示されている。この例では、メディア・インテリジェンス・システム625が、オーディオ信号を評価して、コンテンツ型を推定することができる。たとえば、メディア・インテリジェンス・システム625は、大きなオーディオ・オブジェクト605に対応するオーディオ信号を評価して、コンテンツ型が発話、音楽、サウンド効果などであるかどうかを推定することができてもよい。図6Eに示される例では、メディア・インテリジェンス・システム625は、コンテンツ型の推定に応じてオブジェクトの脱相関もしくはサイズ処理の量を制御するために制御信号627を送ることができる。
たとえば、メディア・インテリジェンス・システム625が、大きなオーディオ・オブジェクト605のオーディオ信号が発話に対応すると推定する場合、メディア・インテリジェンス・システム625は、これらの信号についての脱相関の量は低減されるべきであることまたはこれらの信号は脱相関されるべきではないことを示す制御信号627を送ってもよい。信号が発話信号である確からしさを自動的に決定するさまざまな方法が使用されうる。ある実施形態によれば、メディア・インテリジェンス・システム625は、少なくとも部分的には中央チャネルにおけるオーディオ情報に基づいて発話確からしさ値を生成することができる発話確からしさ推定器を含んでいてもよい。いくつかの例は、非特許文献2によって記述されている。
いくつかの実装では、制御信号627は、レベル調整の量を指示してもよく、および/または脱相関された大きなオーディオ・オブジェクトの信号611をオーディオ・オブジェクトおよび/またはベッド615についてのオーディオ信号と混合するためのパラメータを指示してもよい。
代替的または追加的に、大きなオーディオ・オブジェクトについての脱相関の量は、「ステム」、「タグ」またはコンテンツ型の他の明示的な指示に基づいていてもよい。コンテンツ型のそのような明示的な指示はたとえば、コンテンツ制作者によって(たとえばポストプロダクション・プロセスの間に)生成されて、対応するオーディオ信号と一緒にメタデータとして伝送されてもよい。いくつかの実装では、そのようなメタデータは人間が読むことができるものであってもよい。たとえば、人間が読むことのできるステムまたはタグは、事実上、「これはダイアログである」、「これは特殊効果である」、「これは音楽である」などを明示的に示すものであってもよい。
いくつかの実装は、何らかの観点で、たとえば空間位置、空間的サイズまたはコンテンツ型に関して同様であるオブジェクトを組み合わせるクラスタリング・プロセスに関わっていてもよい。クラスタリングのいくつかの例が図7および図8を参照して下記で記述される。図6Fに示される例では、オブジェクトおよび/またはベッド615aがクラスタリング・プロセス630に入力される。クラスタリング・プロセス630からは、より少数のオブジェクトおよび/またはベッド615bが出力される。オブジェクトおよび/またはベッド615bに対応するオーディオ・データは、平準化された脱相関された大きなオーディオ・オブジェクトの信号611と混合される。いくつかの代替的な実装では、クラスタリング・プロセスは脱相関プロセスに後続してもよい。一つの例が図9を参照して後述される。そのような実装はたとえば、ダイアログが、中央スピーカーに近くない位置または大きなクラスター・サイズなど、望ましくないメタデータをもつクラスターに混合されることを防ぎうる。
〈オブジェクト・クラスタリングを通じたシーン単純化〉
以下の記述の目的のためには、用語「クラスタリング」および「グループ化」または「組み合わせ」は、適応的なオーディオ再生システムにおける伝送およびレンダリングのために適応的なオーディオ・コンテンツのユニット中のデータの量を低減するために、オブジェクトおよび/またはベッド(チャネル)を組み合わせることを記述するために交換可能に使われ;用語「低減」は、オブジェクトおよびベッドのそのようなクラスタリングを通じて適応的なオーディオのシーン単純化を実行する工程を指すために使用されうる。本記述を通じた用語「クラスタリング」「グループ化」または「組み合わせ」は、オブジェクトまたはベッド・チャネルの単一のクラスターへの厳密に一意的な割り当てのみに限定されず、オブジェクトまたはベッド・チャネルは、オブジェクトまたはベッド信号の出力クラスターまたは出力ベッド信号への相対的な寄与を決定する重みまたは利得ベクトルを使って、二つ以上の出力ベッドまたはクラスターにわたって分散されてもよい。
ある実施形態では、適応的なオーディオ・システムは、オブジェクト・クラスタリングおよびチャネル・ベッドおよびオブジェクトの組み合わせによって作り出される空間的シーンの知覚的に透明な単純化を通じて、オブジェクト・ベースのオーディオ・コンテンツの帯域幅を低減するよう構成される少なくとも一つのコンポーネントを含む。該コンポーネント(単数または複数)によって実行されるオブジェクト・クラスタリング・プロセスは、空間位置、オブジェクト・コンテンツ型、時間的属性、オブジェクト・サイズおよび/またはその他を含みうるオブジェクトについてのある種の情報を使って、同様のオブジェクトを、もとのオブジェクトを置き換えるオブジェクト・クラスターにグループ化することによって、空間的シーンの複雑さを低減する。
もとの複雑なベッドおよびオーディオ・トラックに基づいて説得力のあるユーザー経験を配送し、レンダリングするための標準的なオーディオ符号化のための追加的なオーディオ処理は、一般に、シーン単純化および/またはオブジェクト・クラスタリングと称される。この処理の主要な目的は、再生装置に送達される個々のオーディオ要素(ベッドおよびオブジェクト)の数を減らすが、それでももともとオーサリングされたコンテンツとレンダリングされる出力との間の知覚される差が最小化されるように十分な空間的情報を保持するクラスタリングまたはグループ化技法を通じて、空間的シーンを低減することである。
シーン単純化プロセスは、空間位置、時間的属性、コンテンツ型、サイズおよび/または他の適切な特性といったオブジェクトについての情報を使って動的にオブジェクトを低減された数にクラスタリングして、低減された帯域幅のチャネルまたは符号化システムにおいてオブジェクト+ベッドのコンテンツのレンダリングを容易にすることができる。このプロセスは、次のクラスタリング動作のうちの一つまたは複数を実行することによって、オブジェクトの数を減らすことができる:(1)オブジェクトをオブジェクトにクラスタリングする;(2)オブジェクトをベッドとクラスタリングする;(3)オブジェクトおよび/またはベッドをオブジェクトにクラスタリングする。さらに、オブジェクトは、二つ以上のクラスターにわたって分配されることができる。プロセスは、オブジェクトのクラスタリングおよびクラスタリング解除を制御するために、オブジェクトについての時間的情報を使ってもよい。
いくつかの実装では、オブジェクト・クラスターは構成要素となるオブジェクトの個々の波形およびメタデータ要素を、単一の等価な波形およびメタデータのセットで置き換えて、N個のオブジェクトについてのデータが、単一のオブジェクトについてのデータで置き換えられるようにする。これにより本質的にはオブジェクト・データをNから1に圧縮する。代替的または追加的に、オブジェクトまたはベッド・チャネルは、(たとえば振幅パン技法を使って)二つ以上のクラスターにわたって分配されてもよい。これは、M<Nとして、オブジェクト・データをNからMに減らす。クラスタリング・プロセスは、クラスタリングによる圧縮とクラスタリングされたオブジェクトの音の劣化との間のトレードオフを決定するために、クラスタリングされるオブジェクトの位置、ラウドネスまたは他の特性における変化に起因する歪みに基づく誤差メトリックを使ってもよい。いくつかの実施形態では、クラスタリング・プロセスは、同期的に実行されることができる。代替的または追加的に、クラスタリング・プロセスは、クラスタリングを通じたオブジェクト単純化を制御するために聴覚的シーン解析(ASA: auditory scene analysis)および/またはイベント境界検出を使うことによるなどの、イベント駆動であってもよい。
いくつかの実施形態では、プロセスは、エンドポイント・レンダリング・アルゴリズムおよび/または装置の知識を、クラスタリングを制御するために利用してもよい。このようにして、再生装置のある種の特性または属性が、クラスタリング・プロセスに情報を与えるために使用されてもよい。たとえば、スピーカーとヘッドフォンあるいは他のオーディオ・ドライバとで異なるクラスタリング方式が利用されてもよく、可逆符号化と不可逆符号化とで異なるクラスタリング方式が使われてもよい、などとなる。
図7は、クラスタリング・プロセスを実行することのできるシステムの例を示すブロック図である。図7に示されるように、システム700は、低下した帯域幅で出力オーディオ信号を生成するために入力オーディオ信号を処理するエンコーダ704およびデコーダ706段を含む。いくつかの実装では、部分720および部分730は異なる位置にあってもよい。たとえば、部分720はポスト・プロダクション・オーサリング・システムに対応してもよく、部分730はホームシアター・システムのような再生環境に対応してもよい。図7に示される例では、入力信号の一部709が既知の圧縮技法を通じて処理されて、圧縮されたオーディオ・ビットストリーム705を生成する。この圧縮されたオーディオ・ビットストリーム705がデコーダ段706によってデコードされて出力707の少なくとも一部を生成してもよい。そのような既知の圧縮技法は、入力オーディオ・コンテンツ709を解析し、オーディオ・データを量子化し、次いでオーディオ・データ自身に対してマスキングなどの圧縮技法を実行することに関わってもよい。圧縮技法は不可逆であっても可逆であってもよく、ユーザーが192kbps、256kbps、512kbpsなどといった圧縮された帯域幅を選択することを許容しうるシステムにおいて実装されてもよい。
適応オーディオ・システムにおいて、入力オーディオの少なくとも一部は、オーディオ・オブジェクトを含む入力信号701を含み、該オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含む。メタデータは、オブジェクト空間位置、オブジェクト・サイズ、コンテンツ型、ラウドネスなどといった、関連するオーディオ・コンテンツのある種の特性を定義する。いかなる実際的な数のオーディオ・オブジェクト(たとえば数百のオブジェクト)が再生のために上記システムを通じて処理されてもよい。幅広い多様な再生システムおよび伝送媒体における多数のオブジェクトの正確な再生を容易にするために、システム700は、もとのオブジェクトをより少数のオブジェクト・グループに組み合わせることによってオブジェクトの数を、オブジェクトのより少ない、より扱いやすい数まで削減するクラスタリング・プロセスまたはコンポーネント702を含む。
このように、クラスタリング・プロセスはオブジェクトのグループを構築して、個々の入力オブジェクト701のもとのセットから、より少数の出力グループ703を生成する。クラスタリング・プロセス702は本質的には、オーディオ・データ自身のほかにオブジェクトのメタデータを処理して、削減された数のオブジェクト・グループを生成する。任意の時点におけるどのオブジェクトが他のオブジェクトと最も適切に組み合わされるかを決定するために、メタデータが解析され、組み合わされる諸オブジェクトについての対応する諸オーディオ波形が合計されて、代替オブジェクトまたは組み合わされたオブジェクトを生成してもよい。この例では、組み合わされたオブジェクト・グループは次いでエンコーダ704に入力され、該エンコーダ704が、デコーダ706への伝送のためのオーディオおよびメタデータを含むビットストリーム705を生成するよう構成される。
一般に、オブジェクト・クラスタリング・プロセス702を組み込む適応オーディオ・システムは、もとの空間的オーディオ・フォーマットからメタデータを生成する諸コンポーネントを含む。システム700は、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを処理するよう構成されたオーディオ処理システムの一部を含む。諸オーディオ・オブジェクト符号化要素を含む拡張層が、チャネル・ベースのオーディオ・コーデック・ビットストリームまたはオーディオ・オブジェクト・ビットストリームに加えられてもよい。よって、この例では、ビットストリーム705は、既存のスピーカーおよびドライバ設計または個々に指定可能なドライバおよびドライバ定義を利用する次世代スピーカーと一緒に使うためのレンダラーによって処理されるべき拡張層を含む。
この空間的オーディオ・プロセッサからの空間的オーディオ・コンテンツは、オーディオ・オブジェクト、チャネルおよび位置メタデータを含んでいてもよい。オブジェクトがレンダリングされるとき、該オブジェクトは、位置メタデータおよび再生スピーカーの位置に従って、一つまたは複数のスピーカーに割り当てられてもよい。サイズ・メタデータのような追加的なメタデータがオブジェクトに関連付けられていて、再生位置を変更したりまたは他の仕方で再生のために使われるスピーカーを制限したりしてもよい。メタデータは、空間的パラメータ(たとえば位置、サイズ、速度、強度、音色など)を制御するレンダリング手がかりを提供し、聴取環境におけるどのドライバ(単数または複数)またはスピーカー(単数または複数)が披露の間にそれぞれの音を再生するかを指定するエンジニアのミキシング入力に応答して、オーディオ・ワークステーションにおいて生成されてもよい。該メタデータは、空間的オーディオ・プロセッサによるパッケージングおよび転送のために、ワークステーションにおいてそれぞれのオーディオ・データと関連付けられてもよい。
図8は、適応オーディオ処理システムにおけるオブジェクトおよび/またはベッドをクラスタリングできるシステムの例を示すブロック図である。図8に示される例では、シーン単純化タスクを実行することのできるオブジェクト処理コンポーネント806は、任意の数の入力オーディオ・ファイルおよびメタデータを読み込む。入力オーディオ・ファイルは入力オブジェクト802および関連付けられたオブジェクト・メタデータを含み、ベッド804および関連付けられたベッド・メタデータを含んでいてもよい。このように、この入力ファイル/メタデータは、「ベッド」または「オブジェクト」トラックに対応する。
この例では、オブジェクト処理コンポーネント806は、より少数の出力オブジェクトおよびベッド・トラックを生成するために、メディア・インテリジェンス/コンテンツ分類、空間的歪み解析およびオブジェクト選択/クラスタリング情報を組み合わせることができる。具体的には、オブジェクトは一緒にクラスタリングされて、新たな等価な諸オブジェクトまたは諸オブジェクト・クラスター808を、関連付けられたオブジェクト/クラスター・メタデータとともに生成することができる。これらのオブジェクトは、ベッドへのダウンミックス〔下方混合〕のために選択されることもできる。これは、図8では、出力ベッド・オブジェクトおよび関連付けられたメタデータ820を形成するためにベッド812との組み合わせ818のためにレンダラー816に入力される下方混合されたオブジェクト810の出力として示されている。出力ベッド構成820(たとえば、ドルビー5.1配位)は必ずしも、たとえばAtmos映画館については9.1であることができる入力ベッド構成と一致する必要はない。この例では、入力トラックからのメタデータを組み合わせることによって、出力トラックについて新しいメタデータが生成され、入力トラックからのオーディオを組み合わせることによって、出力トラックについて新しいオーディオ・データも生成される。
この実装では、オブジェクト処理コンポーネント806はある種の処理構成設定情報822を使うことができる。そのような処理構成設定情報822は出力オブジェクトの数、フレーム・サイズおよびある種のメディア・インテリジェンス設定を含んでいてもよい。メディア・インテリジェンスとは、コンテンツ型(すなわち、ダイアログ/音楽/効果/など)、領域(セグメント/分類)、前処理結果、聴覚的シーン解析結果および他の同様の情報といった、オブジェクトの(またはオブジェクトに関連付けられた)パラメータまたは特性を含むことができる。たとえば、オブジェクト処理コンポーネント806は、どのオーディオ信号が発話、音楽および/または特殊効果音に対応するかを判別することができてもよい。この実装では、オブジェクト処理コンポーネント806は、オーディオ信号を解析することによって、少なくともいくつかのそのような特性を決定することができる。代替的または追加的に、オブジェクト処理コンポーネント806は、タグ、ラベルなどといった関連付けられたメタデータに従って少なくともいくつかのそのような特性を決定することができてもよい。
ある代替的な実施形態では、単純化メタデータ(たとえば、どのオブジェクトがどのクラスターに属するか、どのオブジェクトがベッドにレンダリングされるか、など)のほかにすべてのもとのトラックへの参照を保持することによって、オーディオ生成は猶予されることができる。そのような情報は、たとえば、スタジオとエンコード・ハウスとの間で、または他の同様のシナリオにおいてシーン単純化プロセスの機能を分散させるために有用であることがある。
図9は、大きなオブジェクトについての脱相関プロセスに後続するクラスタリング・プロセスの例を与えるブロック図である。オーディオ処理システム600のブロックは、非一時的媒体に記憶されているハードウェア、ファームウェア、ソフトウェアなどの任意の適切な組み合わせを介して実装されうる。たとえば、オーディオ処理システム600のブロックは、図11を参照して後述するような論理システムおよび/または他の要素を介して実装されてもよい。
この実装では、オーディオ処理システム600は、オーディオ・オブジェクトO1ないしOMを含むオーディオ・データを受領する。ここで、オーディオ・オブジェクトはオーディオ・オブジェクト信号と、少なくともオーディオ・オブジェクト位置メタデータを含む関連するメタデータとを含む。この例では、大きなオブジェクト検出モジュール905は、少なくとも部分的には、オーディオ・オブジェクト・サイズ・メタデータに基づいて、ある閾値サイズより大きいサイズをもつ大きなオーディオ・オブジェクト605を判別することができる。該大きなオーディオ・オブジェクト検出モジュール905は、たとえば図5のブロック510を参照して上記したように機能してもよい。
この実装では、モジュール910は、大きなオーディオ・オブジェクト605のオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号611を生成することができる。この例では、モジュール910はまた、大きなオーディオ・オブジェクト605のオーディオ信号を仮想スピーカー位置にレンダリングすることができる。よって、この例では、モジュール910によって出力される脱相関された大きなオーディオ・オブジェクトのオーディオ信号611は、仮想スピーカー位置と対応する。オーディオ・オブジェクト信号を仮想スピーカー位置にレンダリングすることのいくつかの例についてここで図10Aおよび図10Bを参照して記述する。
図10Aは、再生環境に対する仮想源位置の例を示している。再生環境は実際の再生環境または仮想再生環境でありうる。仮想源位置1005およびスピーカー位置1025は単に例である。しかしながら、この例では、再生環境は仮想再生環境であり、スピーカー位置1025は仮想スピーカー位置に対応する。
いくつかの実装では、仮想源位置1005はすべての方向において一様に離間されていてもよい。図10Aに示した例では、仮想源位置1005はx、y、z軸に沿って一様に離間している。仮想源位置1005はNxかけるNyかけるNz個の仮想源位置1005の直方体グリッドをなしてもよい。いくつかの実装では、Nの値は5ないし100の範囲であってもよい。Nの値は、少なくとも部分的には、再生環境における(または再生環境にあると期待される)スピーカー数に依存してもよい。すなわち、各スピーカー位置の間に二つ以上の仮想源位置1005を含めることが望ましいことがありうる。
しかしながら、代替的な実装では、仮想源位置1005は異なる仕方で離間されていてもよい。たとえば、いくつかの実装では、仮想源位置1005はxおよびy軸に沿って第一の一様な離間を、z軸に沿って第二の一様な離間を有していてもよい。他の実装では、仮想源位置1005は非一様に離間されていてもよい。
この例では、オーディオ・オブジェクト体積1020aは、オーディオ・オブジェクトのサイズに対応する。オーディオ・オブジェクト1010は、オーディオ・オブジェクト体積1020aによって囲まれる諸仮想源位置1005に従ってレンダリングされてもよい。図10Aに示される例では、オーディオ・オブジェクト体積1020aは、再生環境1000aの全部ではなく一部を占める。大きなオーディオ・オブジェクトは再生環境1000aのより多くの部分(またはその全部)を占めてもよい。いくつかの例では、オーディオ・オブジェクト1010が点源に対応する場合には、オーディオ・オブジェクト1010はサイズ0を有していてもよく、オーディオ・オブジェクト体積1020aは0に設定されてもよい。
いくつかのそのような実装によれば、オーサリング・ツールは、オーディオ・オブジェクト・サイズがあるサイズ閾値以上であるときに脱相関がオンにされるべきであり、オーディオ・オブジェクト・サイズが該サイズ閾値を下回っている場合には脱相関がオフにされるべきであることを(たとえば関連するメタデータに含まれる脱相関フラグを介して)指示することによって、オーディオ・オブジェクト・サイズを脱相関とリンクさせてもよい。いくつかの実装では、脱相関は、サイズ閾値および/または他の入力値に関するユーザー入力に従って制御されてもよい(たとえば、増大、減少または無効化されてもよい)。
この例では、仮想源位置1005は、仮想源体積1002内で定義される。いくつかの実装では、仮想源体積は、その中でオーディオ・オブジェクトが動くことができる体積と対応してもよい。図10Aに示される例では、再生環境1000aおよび仮想源体積1002aは同一の広がりをもち、よって仮想源位置1005のそれぞれは再生環境1000a内のある位置に対応する。しかしながら、代替的な実装では、再生環境1000aおよび仮想源体積1002は同一の広がりでなくてもよい。
たとえば、仮想源位置10005のいくつかは再生環境の外部の位置に対応してもよい。図10Bは、再生環境に対する仮想源位置の代替的な例を示している。この例では、仮想源体積1002bは再生環境1000bの外側に広がっている。オーディオ・オブジェクト体積1020b内の仮想源位置1005のいくつかは再生環境1000bの内部に位置しており、オーディオ・オブジェクト体積1020b内の他の仮想源位置1005は再生環境1000bの外部に位置している。
他の実装では、仮想源位置1005はxおよびy軸に沿って第一の一様な離間を有し、z軸に沿って第二の一様な離間を有していてもよい。仮想源位置1005はNxかけるNyかけるNz個の仮想源位置1005の直方体グリッドをなしてもよい。たとえば、いくつかの実装では、xまたはy軸に沿ってよりもz軸に沿ってより少数の仮想源位置1005があってもよい。いくつかのそのような実装では、Nの値は10ないし100の範囲であってもよい。一方、Mの値は5ないし10の範囲であってもよい。
いくつかの実装は、オーディオ・オブジェクト体積1020内の仮想源位置1005のそれぞれについて利得値を計算することに関わる。いくつかの実装では、再生環境(これは実際の再生環境であっても仮想再生環境であってもよい)の複数の出力チャネルの各チャネルについて利得値が、オーディオ・オブジェクト体積1020内の仮想源位置1005のそれぞれについて、計算される。いくつかの実装では、利得値は、オーディオ・オブジェクト体積1020内の各仮想源位置1005に位置する点源についての利得値を計算するためにベクトル・ベースの振幅パン(VBAP: vector-based amplitude panning)アルゴリズム、ペア毎パン(pairwise panning)アルゴリズムまたは同様のアルゴリズムを適用することによって計算されてもよい。他の実装では、オーディオ・オブジェクト体積1020内の各仮想源位置1005に位置する点源についての利得値を計算するために分離可能(separable)アルゴリズム。本稿での用法では、「分離可能」アルゴリズムというのは、所与のスピーカーの利得が複数の因子(たとえば三つの因子)の積として表現でき、各因子が仮想源位置1005の座標の一つのみに依存するものである。例は、ProTools(商標)ソフトウェアを含むがそれに限られないさまざまな既存のミキシング・コンソール・パナーおよびAMS Neveによって提供されるデジタル・フィルム・コンソールにおいて実装されるパナーにおいて実装されているアルゴリズムを含む。
再び図9に戻ると、この例では、オーディオ処理システム600はベッド・チャネルB1ないしBNならびに低域効果(LFE)チャネルをも受領する。オーディオ・オブジェクトおよびベッド・チャネルは、たとえば図7および図8を参照して上述したような、シーン単純化または「クラスタリング」プロセスに従って処理される。しかしながら、この例では、LFEチャネルはクラスタリング・プロセスに入力されず、代わりにエンコーダ620にそのまま渡される。
この実装では、ベッド・チャネルB1ないしBNはモジュール915によって静的なオーディオ・オブジェクト917に変換される。モジュール920は、大きなオブジェクト検出モジュール905が大きなオーディオ・オブジェクトではないと判定したオーディオ・オブジェクトに加えて静的なオーディオ・オブジェクト917を受領する。ここで、モジュール920は、この例では仮想スピーカー位置に対応する脱相関された大きなオーディオ・オブジェクトの信号611をも受領する。
この実装では、モジュール920は、静的なオブジェクト917、受領されたオーディオ・オブジェクトおよび脱相関された大きなオーディオ・オブジェクトの信号611をクラスターC1ないしCPにレンダリングすることができる。一般に、モジュール920は、受領されたオーディオ・オブジェクトの数より少数のクラスターを出力する。この実装では、モジュール920は、たとえば図5のブロック520を参照して上記したように、脱相関された大きなオーディオ・オブジェクトの信号611を適切なクラスターの位置と関連付けることができる。
この例では、クラスターC1ないしCPおよびLFEチャネルのオーディオ・データがエンコーダ620によってエンコードされて、再生環境925に伝送される。いくつかの実装では、再生環境925はホームシアター・システムを含んでいてもよい。オーディオ処理システム930は、エンコードされたオーディオ・データを受領し、デコードするとともに、デコードされたオーディオ・データを、再生環境925の実際の再生スピーカー構成、たとえば再生環境925の実際の再生スピーカーのスピーカー位置、スピーカー機能(たとえばベース再生能力)などに応じてレンダリングすることができる。
図11は、オーディオ処理システムのコンポーネントの例を与えるブロック図である。この例では、オーディオ処理システム1100はインターフェース・システム1105を含む。インターフェース・システム1105は無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム1105は、ユニバーサル・シリアル・バス(USB)インターフェースまたは他のそのようなインターフェースを含んでいてもよい。
オーディオ処理システム1100は論理システム1110を含む。論理システム1110は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム1110は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム1110は、オーディオ処理システム1100の他のコンポーネントを制御するよう構成されていてもよい。図11にはオーディオ処理システム1100のコンポーネント間のインターフェースは示されていないが、論理システム1110は、他のコンポーネントとの通信のためのインターフェースをもって構成されていてもよい。それらの他のコンポーネントは、適宜互いとの通信のために構成されていてもいなくてもよい。
論理システム1110は、本稿に記載される型の機能を含むがそれに限られないオーディオ処理機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム1110は、(少なくとも部分的には)一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような、論理システム1110に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム1115のメモリを含んでいてもよい。メモリ・システム1115は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的記憶媒体を含んでいてもよい。
表示システム1130は、オーディオ処理システム1100の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム1130は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。
ユーザー入力システム1135は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、表示システム1130のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム1135はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび/または表示システム1130上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、マイクロホン1125を含んでいてもよい:ユーザーは、マイクロホン1125を介してオーディオ処理システム1100についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従ってオーディオ処理システム1100の少なくともいくつかの動作を制御するために構成されていてもよい。いくつかの実装では、ユーザー入力システム1135はユーザー・インターフェースであり、したがってインターフェース・システム1105の一部であると考えられてもよい。
電力システム1140は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム1140は電気コンセントから電力を受領するよう構成されていてもよい。
本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装に適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本稿に開示される開示、原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。

Claims (20)

  1. オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と;
    前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と;
    前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と;
    前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と
    前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスはデータ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを含む、
    方法。
  2. 前記大きなオーディオ・オブジェクトについての脱相関メタデータを受領する工程をさらに含み、前記脱相関プロセスは、少なくとも部分的には、前記脱相関メタデータに従って実行される、請求項1記載の方法。
  3. 前記オブジェクト位置のうち少なくともいくつかは静的である、請求項1または2記載の方法。
  4. 前記オブジェクト位置のうち少なくともいくつかは時間とともに変化する、請求項1ないしのうちいずれか一項記載の方法。
  5. 前記関連付けるプロセスは、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を仮想スピーカー位置に従ってレンダリングすることを含む、請求項1ないしのうちいずれか一項記載の方法。
  6. 前記実際の再生スピーカー配位が、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われる、請求項1ないしのうちいずれか一項記載の方法。
  7. 前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力する工程をさらに含む、請求項1ないしのうちいずれか一項記載の方法。
  8. 前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用する工程をさらに含む、請求項1ないしのうちいずれか一項記載の方法。
  9. 前記大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含み、前記レベル調整プロセスは少なくとも部分的には、前記大きなオーディオ・オブジェクトの前記オーディオ・オブジェクト・サイズ・メタデータおよび前記オーディオ・オブジェクト位置メタデータに依存する、請求項記載の方法。
  10. 前記脱相関プロセスが実行された後、前記大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除する工程をさらに含む、請求項1ないしのうちいずれか一項記載の方法。
  11. 前記脱相関プロセスが実行された後、前記大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持する工程をさらに含む、請求項1ないし10のうちいずれか一項記載の方法。
  12. 前記大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含み、当該方法はさらに:
    前記大きなオーディオ・オブジェクトの位置データおよび前記大きなオーディオ・オブジェクトのサイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算する工程と;
    少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定する工程とを含む、
    請求項1ないし11のうちいずれか一項記載の方法。
  13. 前記脱相関プロセスの後にオーディオ・オブジェクト・クラスタリング・プロセスを実行する工程をさらに含む、請求項1ないし12のうちいずれか一項記載の方法。
  14. 前記オーディオ・オブジェクト・クラスタリング・プロセスは、前記関連付けるプロセスの後に実行される、請求項13記載の方法。
  15. コンテンツ型を判別するために前記オーディオ・データを評価する工程をさらに含み、前記脱相関プロセスは、コンテンツ型に応じて選択的に実行される、請求項1ないし14のうちいずれか一項記載の方法。
  16. 実行される脱相関の量がコンテンツ型に依存する、請求項15記載の方法。
  17. 前記脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムのうちの一つまたは複数に関わる、請求項1ないし16のうちいずれか一項記載の方法。
  18. 前記大きなオーディオ・オブジェクトのメタデータがオーディオ・オブジェクト位置メタデータを含み、当該方法は、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合する工程をさらに含む、請求項1ないし17のうちいずれか一項記載の方法。
  19. インターフェース・システムと;
    論理システムとを有する装置であって、前記論理システムは:
    前記インターフェース・システムを介して、オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは、少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と;
    前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きなオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と;
    前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と;
    前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と
    前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスはデータ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを実行可能である、
    装置。
  20. ソフトウェアが記憶されている非一時的媒体であって、前記ソフトウェアは、少なくとも一つを制御して:
    オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と;
    前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と;
    前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と;
    前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と
    前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスは、データ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを実行させるための命令を含む、
    非一時的媒体。
JP2016531766A 2013-07-31 2014-07-24 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 Active JP6388939B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
ESP201331193 2013-07-31
ES201331193 2013-07-31
US201361885805P 2013-10-02 2013-10-02
US61/885,805 2013-10-02
PCT/US2014/047966 WO2015017235A1 (en) 2013-07-31 2014-07-24 Processing spatially diffuse or large audio objects

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018152854A Division JP6804495B2 (ja) 2013-07-31 2018-08-15 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理

Publications (2)

Publication Number Publication Date
JP2016530803A JP2016530803A (ja) 2016-09-29
JP6388939B2 true JP6388939B2 (ja) 2018-09-12

Family

ID=52432343

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2016531766A Active JP6388939B2 (ja) 2013-07-31 2014-07-24 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2018152854A Active JP6804495B2 (ja) 2013-07-31 2018-08-15 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2020200132A Active JP7116144B2 (ja) 2013-07-31 2020-12-02 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2022120409A Active JP7493559B2 (ja) 2013-07-31 2022-07-28 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2024082267A Pending JP2024105657A (ja) 2013-07-31 2024-05-21 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理

Family Applications After (4)

Application Number Title Priority Date Filing Date
JP2018152854A Active JP6804495B2 (ja) 2013-07-31 2018-08-15 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2020200132A Active JP7116144B2 (ja) 2013-07-31 2020-12-02 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2022120409A Active JP7493559B2 (ja) 2013-07-31 2022-07-28 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP2024082267A Pending JP2024105657A (ja) 2013-07-31 2024-05-21 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理

Country Status (9)

Country Link
US (6) US9654895B2 (ja)
EP (2) EP3028273B1 (ja)
JP (5) JP6388939B2 (ja)
KR (5) KR102395351B1 (ja)
CN (3) CN105431900B (ja)
BR (1) BR112016001738B1 (ja)
HK (1) HK1229945A1 (ja)
RU (2) RU2716037C2 (ja)
WO (1) WO2015017235A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015017037A1 (en) 2013-07-30 2015-02-05 Dolby International Ab Panning of audio objects to arbitrary speaker layouts
RU2716037C2 (ru) 2013-07-31 2020-03-05 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка пространственно-диффузных или больших звуковых объектов
CN112954580B (zh) 2014-12-11 2022-06-28 杜比实验室特许公司 元数据保留的音频对象聚类
ES2922373T3 (es) * 2015-03-03 2022-09-14 Dolby Laboratories Licensing Corp Realce de señales de audio espacial por decorrelación modulada
US10304467B2 (en) 2015-04-24 2019-05-28 Sony Corporation Transmission device, transmission method, reception device, and reception method
EP4333461A3 (en) * 2015-11-20 2024-04-17 Dolby Laboratories Licensing Corporation Improved rendering of immersive audio content
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
JP2017163432A (ja) * 2016-03-10 2017-09-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US10325610B2 (en) * 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
CN116709161A (zh) 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
EP3488623B1 (en) 2016-07-20 2020-12-02 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
CN106375778B (zh) * 2016-08-12 2020-04-17 南京青衿信息科技有限公司 一种符合数字电影规范的三维音频节目码流传输的方法
US10187740B2 (en) 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10419866B2 (en) * 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
JP7140766B2 (ja) 2017-01-27 2022-09-21 アウロ テクノロジーズ エンフェー. オーディオオブジェクトをパンする処理方法及び処理システム
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
CN110447071B (zh) * 2017-03-28 2024-04-26 索尼公司 信息处理装置、信息处理方法和记录程序的可拆卸介质
EP3619922B1 (en) 2017-05-04 2022-06-29 Dolby International AB Rendering audio objects having apparent size
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
US11323757B2 (en) * 2018-03-29 2022-05-03 Sony Group Corporation Information processing apparatus, information processing method, and program
TWI844529B (zh) * 2018-04-24 2024-06-11 日商索尼股份有限公司 顯示控制裝置、顯示控制方法及程式
GB2577885A (en) * 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
US11968520B2 (en) 2019-01-08 2024-04-23 Telefonaktiebolaget Lm Ericsson (Publ) Efficient spatially-heterogeneous audio elements for virtual reality
EP3925236B1 (en) * 2019-02-13 2024-07-17 Dolby Laboratories Licensing Corporation Adaptive loudness normalization for audio object clustering
US20230019535A1 (en) * 2019-12-19 2023-01-19 Telefonaktiebolaget Lm Ericsson (Publ) Audio rendering of audio sources
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
CN115943461A (zh) * 2020-07-09 2023-04-07 索尼集团公司 信号处理装置、方法及程序
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
US11930348B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
JP7536735B2 (ja) 2020-11-24 2024-08-20 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
KR102508815B1 (ko) * 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN113923584A (zh) * 2021-09-01 2022-01-11 赛因芯微(北京)电子科技有限公司 基于矩阵音频通道元数据和生成方法、设备及存储介质
CN113905321A (zh) * 2021-09-01 2022-01-07 赛因芯微(北京)电子科技有限公司 基于对象音频通道元数据和生成方法、设备及存储介质
CN114143695A (zh) * 2021-10-15 2022-03-04 赛因芯微(北京)电子科技有限公司 一种音频流元数据和生成方法、电子设备及存储介质
EP4210353A1 (en) * 2022-01-11 2023-07-12 Koninklijke Philips N.V. An audio apparatus and method of operation therefor
EP4210352A1 (en) 2022-01-11 2023-07-12 Koninklijke Philips N.V. Audio apparatus and method of operation therefor

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6175631B1 (en) * 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
JP2002369152A (ja) * 2001-06-06 2002-12-20 Canon Inc 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
DE60312553T2 (de) * 2002-10-14 2007-11-29 Thomson Licensing Verfahren zum kodieren und dekodieren von der breite einer schallquelle in einer audioszene
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
EP1969901A2 (en) * 2006-01-05 2008-09-17 Telefonaktiebolaget LM Ericsson (publ) Personalized decoding of multi-channel surround sound
US8284713B2 (en) * 2006-02-10 2012-10-09 Cisco Technology, Inc. Wireless audio systems and related methods
US8204237B2 (en) * 2006-05-17 2012-06-19 Creative Technology Ltd Adaptive primary-ambient decomposition of audio signals
CN101484935B (zh) * 2006-09-29 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5270557B2 (ja) * 2006-10-16 2013-08-21 ドルビー・インターナショナル・アクチボラゲット 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
ES2404563T3 (es) * 2008-02-14 2013-05-28 Dolby Laboratories Licensing Corporation Ampliación estereofónica
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
WO2010101446A2 (en) * 2009-03-06 2010-09-10 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
EP2465259A4 (en) * 2009-08-14 2015-10-28 Dts Llc OBJECT-ORIENTED AUDIOSTREAMING SYSTEM
KR101844511B1 (ko) * 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR101764175B1 (ko) * 2010-05-04 2017-08-14 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
WO2012094335A1 (en) * 2011-01-04 2012-07-12 Srs Labs, Inc. Immersive audio rendering system
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
ES2871224T3 (es) * 2011-07-01 2021-10-28 Dolby Laboratories Licensing Corp Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo
ES2909532T3 (es) * 2011-07-01 2022-05-06 Dolby Laboratories Licensing Corp Aparato y método para renderizar objetos de audio
CN103650536B (zh) * 2011-07-01 2016-06-08 杜比实验室特许公司 上混合基于对象的音频
CN103050124B (zh) * 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
RU2716037C2 (ru) 2013-07-31 2020-03-05 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка пространственно-диффузных или больших звуковых объектов

Also Published As

Publication number Publication date
US11736890B2 (en) 2023-08-22
KR102395351B1 (ko) 2022-05-10
US20220046378A1 (en) 2022-02-10
JP6804495B2 (ja) 2020-12-23
US10003907B2 (en) 2018-06-19
JP2016530803A (ja) 2016-09-29
RU2018104812A3 (ja) 2019-02-26
JP2022136263A (ja) 2022-09-15
JP7116144B2 (ja) 2022-08-09
EP3028273A1 (en) 2016-06-08
WO2015017235A1 (en) 2015-02-05
EP3564951B1 (en) 2022-08-31
RU2016106913A (ru) 2017-09-01
CN110808055A (zh) 2020-02-18
EP3564951A1 (en) 2019-11-06
JP7493559B2 (ja) 2024-05-31
JP2024105657A (ja) 2024-08-06
US10595152B2 (en) 2020-03-17
KR20210141766A (ko) 2021-11-23
KR20220061284A (ko) 2022-05-12
EP3028273B1 (en) 2019-09-11
CN105431900A (zh) 2016-03-23
JP2018174590A (ja) 2018-11-08
HK1229945A1 (zh) 2017-11-24
KR20230007563A (ko) 2023-01-12
RU2018104812A (ru) 2019-02-26
BR112016001738B1 (pt) 2023-04-04
BR112016001738A2 (pt) 2017-08-01
US11064310B2 (en) 2021-07-13
KR101681529B1 (ko) 2016-12-01
KR102484214B1 (ko) 2023-01-04
US20180295464A1 (en) 2018-10-11
RU2646344C2 (ru) 2018-03-02
RU2716037C2 (ru) 2020-03-05
CN110808055B (zh) 2021-05-28
JP2021036729A (ja) 2021-03-04
US20230353970A1 (en) 2023-11-02
US9654895B2 (en) 2017-05-16
CN105431900B (zh) 2019-11-22
CN110797037A (zh) 2020-02-14
US20200221249A1 (en) 2020-07-09
KR20160021892A (ko) 2016-02-26
US20160192105A1 (en) 2016-06-30
KR102327504B1 (ko) 2021-11-17
KR20160140971A (ko) 2016-12-07
US20170223476A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
JP7493559B2 (ja) 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
JP6055576B2 (ja) 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
JP6467561B1 (ja) 適応的な量子化
RU2803638C2 (ru) Обработка пространственно диффузных или больших звуковых объектов
BR122020021378B1 (pt) Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes
BR122020021391B1 (pt) Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180815

R150 Certificate of patent or registration of utility model

Ref document number: 6388939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250