JP6212624B2 - オブジェクト・ベース・オーディオの対話的にレンダリングのための方法およびシステム - Google Patents

オブジェクト・ベース・オーディオの対話的にレンダリングのための方法およびシステム Download PDF

Info

Publication number
JP6212624B2
JP6212624B2 JP2016506323A JP2016506323A JP6212624B2 JP 6212624 B2 JP6212624 B2 JP 6212624B2 JP 2016506323 A JP2016506323 A JP 2016506323A JP 2016506323 A JP2016506323 A JP 2016506323A JP 6212624 B2 JP6212624 B2 JP 6212624B2
Authority
JP
Japan
Prior art keywords
channel
audio
metadata
program
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016506323A
Other languages
English (en)
Other versions
JP2016519788A (ja
Inventor
アンドリュー フランス,ロバート
アンドリュー フランス,ロバート
ツィーゲラー,トマス
エス メータ,スリパル
エス メータ,スリパル
ジョナサン ドゥエル,アンドリュー
ジョナサン ドゥエル,アンドリュー
サウングソムボーン,プリンヤー
デイヴィッド ドワイヤー,マイケル
デイヴィッド ドワイヤー,マイケル
フラハニ,ファーハッド
エール ツインゴス,ニコラス
エール ツインゴス,ニコラス
サンチェス,フレッディー
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2016519788A publication Critical patent/JP2016519788A/ja
Application granted granted Critical
Publication of JP6212624B2 publication Critical patent/JP6212624B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

関連出願への相互参照
本願は2013年4月3日に出願された米国仮特許出願第61/807,922号および2013年6月7日に出願された米国仮特許出願第61/832,397号の出願日の利益を主張する。両出願の内容はここに参照によって組み込まれる。
技術分野
本発明はオーディオ信号処理に、より詳細には(典型的にはスピーカー・チャネルおよび少なくとも一つの選択可能なオーディオ・オブジェクト・チャネルを示す)オーディオ・コンテンツおよび該オーディオ・コンテンツの対話的レンダリングをサポートするメタデータを含むオーディオ・データ・ビットストリームのエンコード、デコードおよび対話的レンダリングに関する。本発明のいくつかの実施形態は、ドルビー・デジタル(AC-3)、ドルビー・デジタル・プラス(Enhanced AC-3[向上AC-3]またはE-AC-3)またはドルビーEとして知られるフォーマットの一つでオーディオ・データを生成、デコードおよび/またはレンダリングする。
ドルビー、ドルビー・デジタル、ドルビー・デジタル・プラスおよびドルビーEはドルビー・ラボラトリーズ・ライセンシング・コーポレイションの商標である。ドルビー・ラボラトリーズはそれぞれドルビー・デジタルおよびドルビー・デジタル・プラスとして知られるAC-3およびE-AC-3の独自の実装を提供している。
オーディオ・データの典型的なストリームは、オーディオ・コンテンツ(たとえば一つまたは複数のチャネルのオーディオ・コンテンツ)および該オーディオ・コンテンツの少なくとも一つの特性を示すメタデータの両方を含む。たとえば、AC-3ビットストリームでは、聴取環境に送達されるプログラムの音を変える際に使うよう特に意図されているいくつかのオーディオ・メタデータ・パラメータがある。メタデータ・パラメータの一つはDIALNORMパラメータである。これは、オーディオ・プログラムに現われるダイアログの平均レベルを示すために意図されており、オーディオ再生信号レベルを決定するために使われる。
本発明はAC-3ビットストリーム、E-AC-3ビットストリームまたはドルビーEビットストリームとの使用に限定されないが、便宜上、ラウドネス処理状態メタデータを含むそのようなビットストリームを生成、デコードまたは他の仕方で処理する実施形態において記述される。
AC-3エンコードされたビットストリームおよび一ないし六個のチャネルのオーディオ・コンテンツを含む。オーディオ・コンテンツは、知覚的オーディオ符号化を使って圧縮されたオーディオ・データである。メタデータは、聴取環境に送達されるプログラムの音を変えることにおいて使うことが意図されているいくつかのオーディオ・メタデータ・パラメータを含む。
AC-3(ドルビー・デジタルとしても知られる)符号化の詳細はよく知られており、非特許文献1を含む多くの刊行物で記述されている。
ドルビー・デジタル・プラス(E-AC-3)の詳細は非特許文献2に記載されている。
ドルビーE符号化の詳細は、非特許文献3および非特許文献4に記載されている。
AC-3エンコードされたオーディオ・ビットストリームの各フレームは、デジタル・オーディオの1536サンプルについてのオーディオ・コンテンツおよびメタデータを含む。48kHzのサンプリング・レートについては、これは32ミリ秒のデジタル・オーディオまたはオーディオの31.25フレーム毎秒のレートを表わす。
E-AC-3エンコードされたオーディオ・ビットストリームの各フレームは、フレームに含まれるオーディオ・データが一、二、三または六ブロックのいずれであるかに依存して、それぞれデジタル・オーディオの256、512、768または1536サンプルについてのオーディオ・コンテンツおよびメタデータを含む。48kHzのサンプリング・レートについては、これはそれぞれ5.333、10.667、16または32ミリ秒のデジタル・オーディオまたはそれぞれオーディオの189.9、93.75、62.5または31.25フレーム毎秒のレートを表わす。
図1に示されるように、各AC-3フレームはセクション(セグメント)に分割される。セクションは、(図2に示されるように)同期語(SW)および二つの誤り訂正語のうち第一のもの(CRC1)を含む同期情報(SI)セクションと;メタデータの大半を含むビットストリーム情報(BSI)セクションと;データ圧縮されたオーディオ・コンテンツを含む(そしてメタデータも含むことができる)六つのオーディオ・ブロック(AB0からAB5)と;オーディオ・コンテンツが圧縮されたのちに残される未使用ビットがあればそれを含む余剰(waste)ビット(W)と;さらなるメタデータを含んでいてもよい補助(AUX)情報セクションと;二つの誤り訂正語のうちの第二のもの(CRC2)とを含む。
図4に示されるように、各E-AC-3フレームはセクション(セグメント)に分割される。セクションは、(図2に示されるように)同期語(SW)を含む同期情報(SI)セクションと;メタデータの大半を含むビットストリーム情報(BSI)セクションと;データ圧縮されたオーディオ・コンテンツを含む(そしてメタデータも含むことができる)一から六個までの間のオーディオ・ブロック(AB0からAB5)と;オーディオ・コンテンツが圧縮されたのちに残される未使用ビットがあればそれを含む余剰(waste)ビット(W)と;さらなるメタデータを含んでいてもよい補助(AUX)情報セクションと;誤り訂正語(CRC)とを含む。
AC-3(またはE-AC-3)ビットストリームでは、聴取環境に送達されるプログラムの音を変える際に使うよう特に意図されたいくつかのオーディオ・メタデータ・パラメータがある。そうしたメタデータ・パラメータの一つはDIALNORMパラメータであり、これはBSIセグメントに含まれる。
図3に示されるように、AC-3フレーム(またはE-AC-3フレーム)のBSIセグメントは、当該プログラムについてのDIALNORM値を示す五ビットのパラメータ(「DIALNORM」)を含む。当該AC-3フレームのオーディオ符号化モード(「acmod」)が「0」であってデュアル・モノあるいは「1+1」チャネル構成が使われていることを示す場合には、同じAC-3フレームにおいて担持される第二のオーディオ・プログラムについてのDIALNORM値を示す五ビットのパラメータ(「DIALNORM2」)が含まれる。
BSIセグメントは、フラグ(「addbsie」)であって、該「addbsie」ビットに続く追加的なビットストリーム情報の存在(または不在)を示すフラグと、パラメータ(「addbsil」)であって、該「addbsil」値に続く追加的なビットストリーム情報があればその長さを示すパラメータと、「addbsil」値に続く64ビットまでの追加的なビットストリーム情報(「addbsi」)とを含む。
BSIセグメントは、図3に具体的に示されない他のメタデータ値を含む。
オーディオ・ビットストリームに他の型のメタデータを含めることが提案されている。たとえば、オーディオ・コンテンツの処理状態(たとえばラウドネス処理状態)および特性(たとえばラウドネス)を示すメタデータを含むオーディオ・ビットストリームを生成、デコードおよび処理するための方法およびシステムが、2011年12月1日の国際出願日をもち本願の被譲渡者に譲渡されている国際公開第2012/075246号に記載されている。この文献は、メタデータを使ったビットストリームのオーディオ・コンテンツの適応的な処理およびメタデータを使ったビットストリームのオーディオ・コンテンツのラウドネス処理状態およびラウドネスの有効性の検証をも記載している。
オブジェクト・ベース・オーディオ・プログラムを生成し、レンダリングする方法も知られている。そのようなプログラムの生成の際、典型的には、レンダリングのために用いられるラウドスピーカーは、必ずしも(公称上)水平面内にあるまたはプログラム生成の時点で知られている他の任意の所定の配置にあるのではなく、再生環境中の任意の位置に位置されることが想定される。典型的には、プログラムに含まれるメタデータが、プログラムの少なくとも一つのオブジェクトを、たとえばスピーカーの三次元アレイを使って、(三次元体積において)ある見かけの空間位置にまたは軌跡に沿ってレンダリングするためのレンダリング・パラメータを示す。たとえば、プログラムのオブジェクト・チャネルは、(該オブジェクト・チャネルによって示される)オブジェクトがレンダリングされるべき見かけの空間位置の三次元軌跡を示す対応するメタデータを有していてもよい。軌跡は、(再生環境の、床の上に位置していると想定されるスピーカーの部分集合の面内または別の水平面内の)「床」位置のシーケンスと、(再生環境の少なくとも一つの他の水平面内に位置されると想定されるスピーカーの部分集合を駆動することによってそれぞれ決定される)「床上方」位置のシーケンスとを含んでいてもよい。オブジェクト・ベース・オーディオ・プログラムのレンダリングの例はたとえば、2011年9月29日に国際公開第2011/119401号のもとに公開された、本願の被譲渡者に譲渡されているPCT国際出願第PCT/US2001/028783号において記載されている。
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001 "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", AES Convention Paper 6196, 117th AES Convention, October 28, 2004 "Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System", AES Preprint 5068, 107th AES Conference, August 1999 "Professional Audio Coder Optimized for Use with Video", AES Preprint 5033, 107th AES Conference August 1999
本発明のある実施形態によれば、(本発明に基づいて生成される)オブジェクト・ベース・オーディオ・プログラムが、プログラムのオーディオ・コンテンツの没入的なパーソナル化可能な知覚を提供するようレンダリングされる。典型的には、コンテンツは、観客イベント(たとえばサッカーまたはラグビー・ゲーム、自動車もしくはオートバイ・レースまたは他のスポーツ・イベント)における雰囲気(すなわち、そのようなイベントにおけるまたはそのようなイベントにおいて生起している音)および/または観客イベントについてのコメンタリーを示す。いくつかの実施形態では、コンテンツは観客イベントにおける雰囲気や観客イベントについてのコメンタリーを示すのではない(たとえば、いくつかの実施形態では、コンテンツは複数の選択されたバージョンのダイアログおよび/または他のオーディオ・コンテンツをもつ脚本化されたまたは映画のプログラムを示す)。いくつかの実施形態では、プログラムのオーディオ・コンテンツは、複数のオーディオ・オブジェクト・チャネル(たとえば、ユーザー選択可能な諸オブジェクトまたは諸オブジェクト集合および典型的には、ユーザーによるオブジェクト選択がないときにレンダリングされるべきオブジェクトのデフォルト集合も)およびスピーカー・チャネルの少なくとも一つの集合(本稿では時にベッド(bed)と称される)を示す。スピーカー・チャネルのベッドは、オブジェクト・チャネルを含まない通常の放送プログラムに含められてもよい型のスピーカー・チャネルの通常の混合(たとえば、5.1チャネル混合)であってもよい。
いくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラムによって示される(すなわちその一部として送達される)オブジェクト関係メタデータが、再生側での混合対話性(たとえば大きな度合いの混合対話性)を提供する。かかる混合対話性の提供は、単に事前混合された音場の再生を許容するのではなくユーザーがレンダリングのための当該プログラムのオーディオ・コンテンツの混合を選択することを許容することによることを含む。たとえば、ユーザーは、本発明のプログラムの典型的な実施形態のメタデータによって提供されるレンダリング・オプションの中で選択をして、レンダリングのための利用可能なオブジェクト・チャネルの部分集合を、また任意的にはレンダリングされるべき該オブジェクト・チャネル(単数または複数)によって示される少なくとも一つのオーディオ・オブジェクト(音源)の再生レベルをも選択してもよい。選択された各音源がレンダリングされる空間位置は、プログラム中に含まれるメタデータによってあらかじめ決定されていてもよいが、いくつかの実施形態では、(たとえばあらかじめ決定された規則または制約条件のもとで)ユーザーによって選択されることができる。いくつかの実施形態では、プログラムに含まれるメタデータは、レンダリング・オプションのメニュー(たとえば、少数のレンダリング・オプション、たとえば「ホーム・チームの群衆ノイズ」オブジェクト、「ホーム・チーム群衆ノイズ」および「ホーム・チーム・コメンタリー」のオブジェクト集合、「アウェー・チーム群衆ノイズ」オブジェクトおよび「アウェー・チーム群衆ノイズ」および「アウェー・チーム・コメンタリー」オブジェクト集合)のうちからのユーザー選択を許容する。メニューは、コントローラのユーザー・インターフェースによってユーザーに提示されてもよい。コントローラは典型的には、オブジェクト・ベース・プログラムを(少なくとも部分的に)デコードし、レンダリングするよう構成されているセットトップデバイス(または他のデバイス、たとえばTV、AVR、タブレットまたは電話)に(たとえば無線リンクによって)結合される。いくつかの端お実施形態では、プログラムに含まれるメタデータは、他の仕方で、オブジェクト・チャネルによって示されるどのオブジェクト(単数または複数)がレンダリングされるべきかについておよびレンダリングされるべきオブジェクト(単数または複数)がどのように構成されるべきかについてのオプションの集合のうちからのユーザー選択を許容する。
あるクラスの実施形態では、本発明は、オブジェクト・ベース・オーディオ・プログラムを生成する(たとえば、オーディオ・コンテンツをエンコードしてプログラムを生成することによることを含む)方法である。プログラムが、プログラムのオーディオ・コンテンツの没入的な知覚を提供するよう、パーソナル化可能な仕方でレンダリング可能であるようにする。端お実施形態は、そのようなプログラムを送達(たとえば放送)、デコードおよび/またはレンダリングする段階を含む。プログラムによって示される(含まれる)オーディオ・オブジェクトのレンダリングは、没入的な経験を提供できる(たとえば、再生システムがスピーカーの三次元が例を含むとき、あるいはさらには再生システムがスピーカーの公称上二次元のアレイを含むときでも)。
典型的には、プログラムのオーディオ・コンテンツは、複数のオーディオ・オブジェクト(たとえばユーザー選択可能なオブジェクトおよび典型的にはユーザーによる選択がないときにレンダリングされるオブジェクトのデフォルト集合も)と、スピーカー・チャネルの集合(「ベッド」)とを示す。いくつかの実施形態では、消費者は(ユーザー・インターフェースを実装する)コントローラを使って、プログラムのオブジェクト・チャネル・コンテンツ(および対応するレンダリング・パラメータ)を選択するが、コントローラは、ユーザーがプログラムのスピーカー・チャネル・コンテンツ(すなわち、ベッドの個々のスピーカー・チャネル)を選択するオプションを提供しない。
いくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラムは、プログラムのオーディオ・コンテンツの少なくともいくらか(すなわち、少なくとも一部)(たとえば、スピーカー・チャネルのベッドおよびプログラムのオブジェクト・チャネルの少なくともいくつか)およびオブジェクト関係メタデータを示すエンコードされたオーディオ・ビットストリームと、任意的には、プログラムのオーディオ・コンテンツの一部(たとえばオブジェクト・チャネルの少なくともいくつか)および/またはオブジェクト関係メタデータを示す少なくとも一つの追加的なビットストリームまたはファイル(本稿では時に「サイド混合」と称される)とである。
いくつかの実施形態では、プログラムのオブジェクト関係メタデータは耐久メタデータを含む(たとえば耐久メタデータおよび非耐久メタデータを含む)。たとえば、オブジェクト関係メタデータは、(コンテンツ生成施設から消費者のユーザー・インターフェースまでの)放送チェーン内の少なくとも一点において変更できる非耐久メタデータ(たとえば、ユーザー選択可能なオブジェクトについてのデフォルトのレベルおよび/またはレンダリング位置もしくは軌跡)と、そのプログラムの(典型的にはコンテンツ生成施設における)初期生成後に変更可能であることが意図されていない(または変更できない)耐久メタデータを含んでいてもよい。耐久メタデータの例は:プログラムの各ユーザー選択可能なオブジェクトまたは他のオブジェクトまたは一組のオブジェクトについてのオブジェクトID;各ユーザー選択可能なオブジェクトまたは他のオブジェクトの、プログラムのスピーカー・チャネルのベッドまたは他の要素に対するタイミングを示す同期語(たとえば時間コード)を含む。耐久メタデータは典型的には、コンテンツ生成施設からユーザー・インターフェースまでの放送チェーン全体を通じて、プログラムの放送の継続時間全体を通じて、あるいはプログラムの再放送の間にも、保存される。いくつかの実施形態では、少なくとも一つのユーザー選択可能なオブジェクトのオーディオ・コンテンツ(および関連するメタデータ)がオブジェクト・ベース・オーディオ・プログラムのメイン混合において送られ、少なくともいくらかの耐久メタデータ(たとえば時間コード)および任意的には少なくとも一つの他のオブジェクトのオーディオ・コンテンツ(および関連するメタデータ)がプログラムのサイド混合において送られる。
本発明のオブジェクト・ベース・オーディオ・プログラムのいくつかの実施形態における耐久メタデータは、オブジェクト・コンテンツおよびベッド(スピーカー・チャネル)・コンテンツのユーザー選択された混合を(たとえば、プログラムの放送後でも)保存するために用いられる。たとえば、これは、ユーザーが自分の選択を変えるまで、ユーザーが指定された型のプログラム(たとえば何らかのサッカーの試合)をするたびにまたはユーザーが(任意の型の)任意のプログラムを見るたびに、選択された混合をデフォルト混合として提供しうる。たとえば、第一のプログラムの放送中に、ユーザーが耐久IDをもつオブジェクト(たとえば、「ホーム・チーム群衆ノイズ」オブジェクトとして同定されるオブジェクト)を含む混合を選択してもよい。すると、ユーザーが混合選択を変えるまでは、ユーザーが(同じ耐久IDをもつオブジェクトを含む)別のプログラムを見る(または聴く)たびに、再生システムは自動的に同じ混合をもつプログラムをレンダリングすることになる。本発明のオブジェクト・ベース・オーディオ・プログラムのいくつかの実施形態における耐久的なオブジェクト関係メタデータは、プログラム全体の間、いくつかのオブジェクトのレンダリングを必須にしてもよい(たとえば、ユーザーがそのようなレンダリングをやめたくても)。
いくつかの実施形態では、オブジェクト関係メタデータは、オブジェクト・コンテンツおよびベッド(スピーカー・チャネル)・コンテンツのデフォルト混合を、デフォルト・レンダリング・パラメータ(たとえば、レンダリングされるオブジェクトのデフォルトの空間位置)とともに提供する。
いくつかの実施形態では、オブジェクト関係メタデータは、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合の集合を提供する。各プリセット混合はあらかじめ決定された一組のレンダリング・パラメータ(たとえばレンダリングされるオブジェクトの空間位置)をもつ。これらは、再生システムのユーザー・インターフェースによって、利用可能な混合の限られたメニューまたはパレットとして呈示されてもよい。各プリセット混合(および/または各選択可能なオブジェクト)は、耐久ID(たとえば、名前、ラベルまたはロゴ)を有していてもよい。そのようなIDの指示は典型的には、(たとえばiPadまたは他のコントローラの画面上で)表示可能である。たとえば、プリセット混合の各オブジェクトの、オーディオ・コンテンツまたは非耐久メタデータの詳細に対する(たとえば放送局によってなされる)変更に関わりなく耐久的であるID(たとえばチーム・ロゴ)との、選択可能な「ホーム・チーム」混合があってもよい。
いくつかの実施形態では、プログラムのオブジェクト関係メタデータ(またはプログラムと一緒に送達されるメタデータによって指示されるのでない、再生またはレンダリング・システムの事前構成設定)が、オブジェクトおよびベッド(スピーカー・チャネル)コンテンツの選択可能な混合に対する制約条件または条件を与える。たとえば、デジタル権利管理(DRM)が用いられる場合、ユーザーがオブジェクト・ベース・オーディオ・プログラムに含まれる一組のオーディオ・オブジェクトへの「階層的な(tiered)」アクセスをもつことを許容するようDRM階層が実装されてもよい。顧客がより多くの金額を(たとえば放送局に)支払うなら、顧客は当該プログラムのより多くのオーディオ・オブジェクトをデコードし、選択する(そして聴く)ことを許諾されうる。もう一つの例として、オブジェクト関係メタデータは、ユーザーによるオブジェクト選択に対する制約条件を提供してもよい(たとえば、「ホーム・チーム群衆ノイズ」オブジェクトおよび「ホーム・チーム・アナウンサー」オブジェクトの両方が選択される場合、メタデータは、これら二つのオブジェクトがあらかじめ決定された相対的な空間位置をもってレンダリングされることを保証する)。制約条件は、(少なくとも部分的には)再生システムに関するデータ(たとえばユーザーが入力したデータ)によって決定されてもよい。たとえば、再生システムが(二つのみのスピーカーを含む)ステレオ・システムである場合、システムのオブジェクト処理サブシステムは、二つのスピーカーだけでは十分な空間分解能をもってレンダリングできない混合(オブジェクト関係メタデータによって同定される)のユーザー選択を防止するよう構成されてもよい。もう一つの例として、オブジェクト関係メタデータ(および/または再生システムに入力される他のデータ)によって示される法的な(たとえばDRM)理由または他の理由(たとえば送達チャネルの帯域幅に基づく理由)により、選択可能なオブジェクトのカテゴリーからいくつかの送達されるオブジェクトが除去されてもよい。ユーザーは、より多くの帯域幅のためにコンテンツ制作者または放送局に支払いをしてもよく、結果として、選択可能なオブジェクトおよび/またはオブジェクト/ベッド混合のより大きなメニューから選択することを許容されてもよい。
いくつかの実施形態では、本発明は、少なくとも一つのあらかじめ決定された規則がオブジェクト・ベース・オーディオ・プログラムのどのオブジェクト・チャネル(単数または複数)が(たとえばスピーカー・チャネルのベッドと一緒に)レンダリングされるかを決定する、規則ベースのオブジェクト・チャネル選択を実装する。典型的には、ユーザーは、オブジェクト・チャネル選択のための少なくとも一つの規則を(たとえば再生システム・コントローラのユーザー・インターフェースによって呈示される利用可能な規則のメニューから選択することによって)指定してもよく、再生システムは、そのような各規則を適用して、オブジェクト・ベース・オーディオ・プログラムのどのオブジェクト・チャネルがレンダリングされるべきチャネルの混合中に含められるべきかを決定する。再生システムは、プログラムのどのオブジェクト・チャネルが所定の規則(単数または複数)を満たすかをプログラム中のオブジェクト関係メタデータから決定してもよい。
いくつかの実施形態では、本発明のオブジェクト・ベース・オーディオ・プログラムは、並列に生成され、伝送される一組のビットストリーム(複数ビットストリーム、時に「サブストリーム」と称されることがある)を含む。典型的には、それらをデコードするために複数のデコーダが用いられる(たとえば、プログラムが複数のE-AC-3サブストリームを含み、再生システムはそれらのサブストリームをデコードするために複数のE-AC-3デコーダを用いる)。典型的には、各サブストリームは、オブジェクト・チャネルのフル・セットの異なる部分集合および対応するオブジェクト関係メタデータを含み、少なくとも一つのサブストリームはスピーカー・チャネルのベッドを含む。各サブストリームは、それらのサブストリームが互いに同期されるまたは時間整列されることを許容するよう同期語(たとえば時間コード)を含む。たとえば、各サブストリームにおいて、オブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータを含む各コンテナは、一意的なIDまたはタイムスタンプを含む。
もう一つの例として、本発明のドルビーEビットストリームのうちのN個の集合が生成され、並列に伝送される。そのような各ドルビーEビットストリームはバーストのシーケンスを含む。各バーストは、スピーカー・チャネル・オーディオ・コンテンツ(スピーカー・チャネルの「ベッド」)および本発明のオブジェクト・チャネルおよびオブジェクト関係メタデータのフル・オブジェクト・チャネル・セット(これは大きな集合であることがある)の部分集合を担持してもよい(すなわち、各バーストは、フル・オブジェクト・チャネル・セットのうちのいくつかのオブジェクト・チャネルおよび対応するオブジェクト関係メタデータを示してもよい)。前記集合内の各ビットストリームは、集合内のビットストリームが互いと同期または時間整列されることを許容するための同期語(たとえば時間コード)を含む。たとえば、各ビットストリームにおいて、オブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータを含む各コンテナは、集合中のビットストリームが互いと同期または時間整列されることを許容するための一意的なIDまたはタイムスタンプを含むことができる。
本発明のいくつかの実施形態(たとえば、本発明の再生システムのいくつかの実施形態)は、分散式レンダリングを実装する。たとえば、プログラムの選択されたオブジェクト・チャネル(および対応するオブジェクト関係メタデータ)は、セットトップデバイス(STB)から下流の装置(たとえばAVRまたはサウンドバー)に(デコードされたスピーカー・チャネルのベッドと一緒に)渡される。下流の装置は、オブジェクト・チャネルおよびスピーカー・チャネルのベッドの混合をレンダリングするよう構成されている。STBはオーディオを部分的にレンダリングし、下流の装置が(たとえば、オーディオ・オブジェクトを特定の見かけの源位置に配置するよう特定の最上層(tier)のスピーカー(たとえば諸天井スピーカー)を駆動するためのスピーカー・フィードを生成することによって)レンダリングを完成させてもよい(ここで、STBの出力は単に、オブジェクトが何らかの指定されていない仕方で、何らかの指定されていない最上層のスピーカーにおいてレンダリングされることができることを示す)。たとえば、STBは、再生システムのスピーカーの特定の編成についての知識をもたなくてもよく、下流の装置(たとえばAVRまたはサウンドバー)がそのような知識を有していてもよい。
いくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラムは、少なくとも一つのAC-3(またはE-AC-3)ビットストリームであるまたはそれを含み、オブジェクト・チャネル・コンテンツ(および/またはオブジェクト関係メタデータ)を含むプログラムの各コンテナは、ビットストリームのフレームの末尾にある補助データ・フィールド(たとえば図1または図4に示したAUXセグメント)またはビットストリームの「スキップ・フィールド」セグメントに含まれる。いくつかのそのような実施形態では、AC-3またはE-AC-3ビットストリームの各フレームは、一つまたは二つのメタデータ・コンテナを含む。一つのコンテナがフレームのAuxフィールドに含まれることができ、別のコンテナがフレームのaddbsiフィールドに含まれることができる。各コンテナはコア・ヘッダをもち、一つまたは複数のペイロードを含む(または一つまたは複数のペイロードに関連付けられる)。(Auxフィールドに含まれるコンテナのまたは該コンテナに関連付けられた)一つのそのようなペイロードは、(やはり当該プログラムによって示されるスピーカー・チャネルのベッドに関係する)本発明のオブジェクト・チャネルの一つまたは複数の各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとの組であってもよい。各コンテナのコア・ヘッダは典型的には、当該コンテナに含まれるまたは関連付けられたペイロード(単数または複数)の型を示す少なくとも一つのID値と;サブストリーム関連付け指示(そのコア・ヘッダがどのサブストリームと関連付けられているかを示す)と;保護ビットとを含む。典型的には、各ペイロードは独自のヘッダ(または「ペイロード識別子」)をもつ。オブジェクト・レベル・メタデータがオブジェクト・チャネルである各サブストリームにおいて担持されてもよい。
他の実施形態では、オブジェクト・ベース・オーディオ・プログラムは、AC-3ビットストリームまたはE-AC-3ビットストリームではないビットストリームであるまたはそれを含む。いくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラムは、少なくとも一つのドルビーEビットストリームであるまたはそれを含み、プログラムのオブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータ(たとえばオブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータを含むプログラムの各コンテナ)は、通常は有用な情報を担持しないドルビーEビットストリームのビット位置に含まれる。ドルビーEビットストリームの各バーストは、対応するビデオ・フレームの時間期間と等価な時間期間を占める。オブジェクト・チャネル(およびオブジェクト関係メタデータ)は、ドルビーEバーストどうしの間の保護帯(guard band)に、および/または各ドルビーEバースト内の(それぞれAES3フレームのフォーマットをもつ)各データ構造内の未使用ビット位置に含まれてもよい。たとえば、各保護帯は、セグメント(たとえば100個のセグメント)のシーケンスからなり、各保護帯の最初のX個のセグメント(たとえばX=20)のそれぞれはオブジェクト・チャネルおよびオブジェクト関係メタデータを含み、前記各保護帯の残りのセグメントのそれぞれは保護帯シンボルを含んでいてもよい。いくつかの実施形態では、ドルビーEビットストリームのオブジェクト・チャネルおよびオブジェクト関係メタデータはメタデータ・コンテナに含まれる。各コンテナはコア・ヘッダをもち、一つまたは複数のペイロードを含む(または一つまたは複数のペイロードに関連付けられる)。(Auxフィールドに含まれるコンテナのまたは該コンテナに関連付けられた)一つのそのようなペイロードは、(やはり当該プログラムによって示されるスピーカー・チャネルに関係する)本発明のオブジェクト・チャネルの一つまたは複数の各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとの組であってもよい。各コンテナのコア・ヘッダは典型的には、当該コンテナに含まれるまたは関連付けられたペイロード(単数または複数)の型を示す少なくとも一つのID値と;サブストリーム関連付け指示(そのコア・ヘッダがどのサブストリームと関連付けられているかを示す)と;保護ビットとを含む。典型的には、各ペイロードは独自のヘッダ(または「ペイロード識別子」)をもつ。オブジェクト・レベル・メタデータがオブジェクト・チャネルである各サブストリームにおいて担持されてもよい。
いくつかの実施形態では、放送施設(たとえばそのような施設内のエンコード・システム)が、捕捉された音に基づいて複数のオーディオ表現(オブジェクト・ベース・オーディオ・プログラム)(たとえば、5.1の平坦化された混合、国際混合および国内混合)を生成する。たとえば、プログラムのスピーカー・チャネルのベッドおよび/または選択可能なオブジェクト(またはオブジェクトをレンダリングおよび混合するための選択可能もしくは選択可能でないレンダリング・パラメータ)のメニューはプログラムによって異なっていてもよい。
いくつかの実施形態では、(本発明のオブジェクト・チャネルおよびオブジェクト関係メタデータをパースするよう構成されていない)レガシー・デコーダおよびレガシー・レンダリング・システムによって、オブジェクト・ベース・オーディオ・プログラムはデコード可能であり、そのスピーカー・チャネル・コンテンツはレンダリング可能である。同じプログラムが、本発明のオブジェクト・チャネルおよびオブジェクト関係メタデータをパースし、プログラムによって示されるスピーカー・チャネルおよびオブジェクト・チャネル・コンテンツの混合をレンダリングするよう(本発明の実施形態に従って)構成されたセットトップデバイス(または他のデコードおよびレンダリング・システム、たとえばTV、AVR、タブレットまたは電話)によって、本発明のいくつかの実施形態に従ってレンダリングされてもよい。
本発明のいくつかの実施形態に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、スピーカー・チャネルおよびオブジェクト・チャネル(単数または複数)の選択可能な混合(たとえばあらゆる選択可能な混合)を示す層構成のグラフ(時に層構成の「混合グラフ」と称される)を示すメタデータとを含む。たとえば、混合グラフは、スピーカーおよびオブジェクト・チャネルの部分集合の選択に適用可能な各規則を示す。典型的には、エンコードされたオーディオ・ビットストリームは、プログラムのオーディオ・コンテンツ(たとえば、スピーカー・チャネルのベッドと、プログラムのオブジェクト・チャネルの少なくとも一部)およびオブジェクト関係メタデータ(混合グラフを示すメタデータを含む)の少なくともいくらか(すなわち少なくとも一部)を示し、任意的にはまた、少なくとも一つの追加的なエンコードされたオーディオ・ビットストリームまたはファイルが、プログラムのオーディオ・コンテンツおよび/またはオブジェクト関係メタデータの一部を示す。
層構成の混合グラフは、ノード(各ノードは選択可能なチャネルまたはチャネル集合または選択可能なチャネルまたはチャネル集合のカテゴリーを示していてもよい)およびノード間の接続(たとえば、それらのノードへの制御インターフェースおよび/またはチャネルを選択するための規則)を示し、本質的なデータ(「基本」層)および任意的な(すなわち任意的に省略される)データ(少なくとも一つの「拡張」層)を含む。典型的には、層構成の混合グラフは、プログラムを示すエンコードされたオーディオ・ビットストリームの一つに含められ、(たとえば再生システムによって実施される)グラフをたどることによって評価されて、チャネルのデフォルト混合および該デフォルト混合を修正するためのオプションを判別することができる。
混合グラフが木グラフとして表現できる場合には、基本層は木グラフの枝(または二本以上の枝)であることができ、各拡張層は木グラフの別の枝(または二本以上の枝の別の集合)であることができる。たとえば、(基本層によって示される)木グラフのある枝は、すべてのエンドユーザーに利用可能な選択可能なチャネルおよびチャネル集合を示していてもよく、(拡張層によって示される)木グラフの別の枝は、一部のエンドユーザーにのみ利用可能な追加的な選択可能なチャネルおよび/またはチャネル集合を示していてもよい(そのような拡張層は、それを使うことが許諾されたエンドユーザーのみに提供されるだけであってもよい)。
典型的には、基本層は、グラフ構造およびグラフのノードへの制御インターフェース(たとえば、パンおよび利得制御インターフェース)を含む(示す)。基本層は任意のユーザー対話をデコード/レンダリング・プロセスにマッピングするために必要である。
各拡張層は、基本層への拡張を含む(示す)。拡張は、ユーザー対話をデコード・プロセスにマッピングするためにただちに必要なわけではなく、よってより遅いレートで伝送されたり、および/または遅延もしくは省略されたりすることができる。
本発明のいくつかの実施形態に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、スピーカー・チャネルおよびオブジェクト・チャネル(単数または複数)の選択可能な混合(たとえばあらゆる選択可能な混合)を示す(層構成の混合グラフであってもなくてもよい)混合グラフを示すメタデータとを含む。エンコードされたオーディオ・ビットストリーム(たとえばドルビーEまたはE-AC-3ビットストリーム)は、プログラムの少なくとも一部分を示し、混合グラフを(典型的には選択可能なオブジェクトおよび/またはスピーカー・チャネルも)示すメタデータがビットストリームの毎フレームに(またはビットストリームのフレームの部分集合の各フレームに)含まれる。たとえば、各フレームは、少なくとも一つのメタデータ・セグメントおよび少なくとも一つのオーディオ・データ・セグメントを含んでいてもよく、混合グラフは各フレームの少なくとも一つのメタデータ・セグメントに含められてもよい。各メタデータ・セグメント(これは「コンテナ」と称されてもよい)は、メタデータ・セグメント・ヘッダ(および任意的には他の要素も)と、該メタデータ・セグメント・ヘッダに続く一つまたは複数のメタデータ・ペイロードとを含むフォーマットを有していてもよい。各メタデータ・ペイロード自身はペイロード・ヘッダによって同定される。混合グラフは、メタデータ・セグメント中に存在すれば、メタデータ・セグメントのメタデータ・ペイロードの一つに含まれる。
本発明のいくつかの実施形態に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも二つのベッドと、少なくとも一つのオブジェクト・チャネルと、(層構成の混合グラフであってもなくてもよい)混合グラフを示すメタデータとを含む。混合グラフは、スピーカー・チャネルおよびオブジェクト・チャネルの選択可能な諸混合(たとえばすてべの選択可能な混合)を示し、少なくとも一つの「ベッド混合」ノードを含む。各「ベッド混合」ノードは、スピーカー・チャネル・ベッドのあらかじめ決定された混合を定義し、よってプログラムの二つ以上のスピーカー・ベッドのスピーカー・チャネルを混合するための混合規則(任意的にはユーザー選択可能なパラメータをもつ)のあらかじめ決定された集合を示すまたは実装する。
別のクラスの実施形態では、本発明に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、オブジェクト関係メタデータとを含む。オブジェクト関係メタデータは、「サブストリーム」メタデータ(プログラムのサブストリーム構造および/またはそれらのサブストリームがデコードされるべき仕方を示す)を、および典型的にはスピーカー・チャネルおよびオブジェクト・チャネル(単数または複数)の選択可能な混合(たとえばあらゆる選択可能な混合)を示す混合グラフをも含む。サブストリーム・メタデータは、プログラムのどのサブストリームがプログラムの他のサブストリームと独立にデコードされるべきかおよびプログラムのどのサブストリームがプログラムの少なくとも一つの他のサブストリームとの関連でデコードされるべきかを示してもよい。
ある例示的実施形態では、オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、メタデータとを含む。メタデータは、(プログラムのオーディオ・コンテンツのサブストリーム構造および/またはプログラムのオーディオ・コンテンツのサブストリームがデコードされるべき仕方を示す)「サブストリーム」メタデータを含み、典型的には、スピーカー・チャネルおよびオブジェクト・チャネルの選択可能な混合を示す混合グラフをも含む。サッカー試合に関連付けられたオーディオ・プログラム。エンコードされたオーディオ・ビットストリーム(たとえばE-AC-3ビットストリーム)は、プログラムのオーディオ・コンテンツおよびメタデータを示す。プログラムの(よってビットストリームの)オーディオ・コンテンツは、少なくとも二つの独立サブストリームを含む。一つの独立サブストリームは、サッカー試合における中立の群衆ノイズを示す5.1スピーカー・チャネル・ベッドを示す。別の独立サブストリームは、一方のチーム(「チームA」)寄りに偏っている試合群衆の部分からの音を示す2.0チャネルの「チームA」ベッド、他方のチーム(「チームB」)寄りに偏っている試合群衆の部分からの音を示す2.0チャネルの「チームB」ベッドおよび試合についてのコメンタリーを示すモノフォニック・オブジェクト・チャネルを示す。ビットストリームのサブストリーム・メタデータは、デコードの間に、独立サブストリームの各対の間で結合が「オフ」であるべきであることを示す(それにより、各独立サブストリームは他の独立サブストリームとは独立にデコードされる)。ビットストリームのサブストリーム・メタデータは、各サブストリーム内の、結合が「オン」であるべき(よってこれらのチャネルが互いと独立にはデコードされない)または「オフ」であるべき(よってこれらのチャネルは互いと独立にデコードされる)プログラム・チャネルを示す。たとえば、サブストリーム・メタデータは、結合が、第二のサブストリームの二つのステレオ・スピーカー・チャネル・ベッド(2.0チャネルの「チームA」ベッドおよび2.0チャネルの「チームB」ベッド)のそれぞれの内部では「オン」であるべきだが、第二のサブストリームのスピーカー・チャネル・ベッド間、および、(モノフォニック・オブジェクト・チャネルとスピーカー・チャネル・ベッドが互いに独立にデコードされるよう)第二のサブストリームのモノフォニック・オブジェクト・チャネルと各スピーカー・チャネル・ベッドとの間では無効にされるべきであることを示す。同様に、サブストリーム・メタデータは、結合が、第一のサブストリームI0の5.1スピーカー・チャネル・ベッドの内部では「オン」であるべきであることを示す。
本発明のもう一つの側面は、本発明の方法の任意の実施形態を実行するよう構成されたオーディオ処理ユニット(APU: audio processing unit)である。別のクラスの実施形態では、本発明は、本発明の方法の任意の実施形態によって生成されたオブジェクト・ベース・オーディオ・プログラムの少なくとも一つのフレームまたは他のセグメント(スピーカー・チャネルのベッドとオブジェクト・チャネルとのオーディオ・コンテンツおよびオブジェクト関係メタデータを含む)を(たとえば非一時的な仕方で)記憶するバッファ・メモリ(バッファ)を含むAPUである。APUの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、コーデック、前処理システム(前処理器)、後処理システム(後処理器)、オーディオ・ビットストリーム処理システムおよびそのような要素の組み合わせを含むがそれに限定されるものではない。
本発明の諸側面は、本発明の方法の任意の実施形態を実行するよう構成された(たとえばプログラムされた)システムまたは装置ならびに本発明の方法またはそのステップの任意の実施形態を実装するためのコードを(たとえば非一時的な仕方で)記憶するコンピュータ可読媒体(たとえばディスク)を含む。たとえば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサであって、データに対して本発明の方法またはそのステップの実施形態を含む多様な動作のうちの任意のものを実行するようソフトウェアまたはファームウェアによってプログラムされたおよび/または他の仕方で構成されたものであるまたはそれを含むことができる。そのような汎用プロセッサは、入力装置と、メモリと、呈されるデータに応答して本発明の方法(またはそのステップ)の実施形態を実行するようプログラムされた(および/または他の仕方で構成された)処理回路とを含むコンピュータ・システムであるまたはそれを含むものであってもよい。
AC-3フレームを、それが分割された諸セグメントを含めて描く図である。 AC-3フレームの同期情報(SI)セグメントを、それが分割された諸セグメントを含めて描く図である。 AC-3フレームのビットストリーム情報(BSI)セグメントを、それが分割された諸セグメントを含めて描く図である。 E-AC-3フレームを、それが分割された諸セグメントを含めて描く図である。 本発明の実施形態を実行するよう構成されうるシステムの実施形態のブロック図である。 本発明の実施形態に基づいて構成された再生システムのブロック図である。 本発明の実施形態に基づいて構成された再生システムのブロック図である。 本発明の別の実施形態に基づいて構成されたく、オブジェクト・ベース・オーディオ・プログラム(および対応するビデオ・プログラム)を生成するよう構成された放送システムのブロック図である。 オブジェクト・チャネルのどの部分集合がユーザーによって選択可能であるかを示す、本発明のプログラムのある実施形態のオブジェクト・チャネル間の関係を示す図である。 本発明の実施形態を実装するシステムのブロック図である。 本発明のある実施形態に基づいて生成されたオブジェクト・ベース・オーディオ・プログラムのコンテンツを示す図である。
〈記号および用語法〉
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する)という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して(たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して)該動作を実行することを表わすために広義で使用される。
請求項を含む本開示を通じて、「システム」という表現は、装置、システムまたはサブシステムを表わす広義で使用される。たとえば、デコーダを実装するサブシステムは、デコーダ・システムと称されてもよく、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、前記サブシステムが入力のうちのM個を生成し、他のX−M個の入力は外部源から受領されるもの)もデコーダ・システムと称されることがある。
請求項を含む本開示を通じて、「プロセッサ」という表現は、データ(たとえばオーディオまたはビデオまたは他の画像データ)に対して動作を実行するよう(たとえばソフトウェアまたはファームウェアを用いて)プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わす広義で使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。
請求項を含む本開示を通じて、「オーディオ・ビデオ受領器(audio video receiver)」(または「AVR」)という表現は、たとえば家庭シアターにおいてオーディオおよびビデオ・コンテンツの再生を制御するために使われる消費者電子設備のクラスにおける受領器を表わす。
請求項を含む本開示を通じて、「サウンドバー」という表現は、(典型的には家庭シアター・システムにおいて設置される)ある型の消費者電子設備であって、少なくとも一つのスピーカーと、含まれる各スピーカーによる再生のために(または含まれる各スピーカーおよび該サウンドバーの外部の少なくとも一つの追加的なスピーカーによる再生のために)オーディオをレンダリングするサブシステムと含む装置を表わす。
請求項を含む本開示を通じて、「オーディオ・プロセッサ」および「オーディオ処理ユニット」という表現は交換可能に、オーディオ・データを処理するよう構成されたシステムを表わす広義で使用される。オーディオ処理ユニットの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム(時にビットストリーム処理ツールと称される)を含むがこれに限られない。
請求項を含む本開示を通じて、「メタデータ」(たとえば「処理状態メタデータ」という表現におけるような)という表現は、対応するオーディオ・データ(メタデータをも含むビットストリームのオーディオ・コンテンツ)とは別個の異なるデータを指す。メタデータは、オーディオ・データに関連付けられ、該オーディオ・データの少なくとも一つの特徴または特性(たとえばそのオーディオ・データまたはそのオーディオ・データによって示されるオブジェクトの軌跡に対してどの型(単数または複数)の処理がすでに実行されているか、あるいは実行されるべきか)を示す。メタデータのオーディオ・データとの関連付けは、時間同期的である。このように、現在の(最も最近受領または更新された)メタデータは、対応するオーディオ・データが同時的に、示される特徴をもつおよび/または示される型(単数または複数)のオーディオ・データ処理の結果を含むことを示す。
請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために使われる。よって、第一の装置が第二の装置に結合するとき、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。
請求項を含む本開示を通じて、以下の表現は以下の定義をもつ。
スピーカーおよびラウドスピーカーは、任意の音を発するトランスデューサを表わすものとして同義に使われる。この定義は、複数のトランスデューサ(たとえばウーファーおよびツイーター)として実装されるラウドスピーカーを含む。
スピーカー・フィード:ラウドスピーカーに直接加えられるオーディオ信号または直列の増幅器およびラウドスピーカーに加えられるオーディオ信号。
チャネル(または「オーディオ・チャネル」):モノフォニック・オーディオ信号。そのような信号は典型的には、該信号を所望されるまたは公称上の位置にあるラウドスピーカーに直接加えるのと等価であるようにレンダリングされることができる。
オーディオ・プログラム:一つまたは複数のオーディオ・チャネル(少なくとも一つのスピーカー・チャネルおよび/または少なくとも一つのオブジェクト・チャネル)および任意的には関連するメタデータ(たとえば、所望される空間的オーディオ呈示を記述するメタデータ)の集合。
スピーカー・チャネル(または「スピーカー・フィード・チャネル」):(所望されるまたは公称上の位置にある)指定されたラウドスピーカーに関連付けられているまたは定義されたスピーカー配位内での指定されたスピーカー・ゾーンに関連付けられているオーディオ・チャネル。スピーカー・チャネルは、該オーディオ信号を(所望されるまたは公称上の位置にある)指定されたラウドスピーカーにまたは指定されたスピーカー・ゾーン内のスピーカーに直接加えるのと等価であるようにレンダリングされる。
オブジェクト・チャネル:オーディオ源(時にオーディオ「オブジェクト」と称される)によって発される音を示すオーディオ・チャネル。典型的には、オブジェクト・チャネルは、パラメトリックなオーディオ源記述を決定する(たとえば、パラメトリックなオーディオ源記述を示すメタデータがオブジェクト・チャネル内に含められるまたはオブジェクト・チャネルと一緒に提供される)。源記述は、(時間の関数としての)源によって発された音、時間の関数としての源の見かけの位置(たとえば、3D空間座標)および任意的には源を特徴付ける少なくとも一つの追加的パラメータを決定してもよい。
オブジェクト・ベース・オーディオ・プログラム:一つまたは複数のオブジェクト・チャネルの集合を(および任意的には少なくとも一つのスピーカー・チャネルも)および任意的には関連するメタデータ(たとえば、オブジェクト・チャネルによって示される音を発するオーディオ・オブジェクトの軌跡を示すメタデータ、あるいは他の仕方でオブジェクト・チャネルによって示される音の所望される空間的オーディオ呈示を示すメタデータまたはオブジェクト・チャネルによって示される音の源である少なくとも一つのオーディオ・オブジェクトの識別情報を示すメタデータ)も含むオーディオ・プログラム。
レンダリング:オーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換するプロセスまたはオーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換し、該スピーカー・フィードを一つまたは複数のラウドスピーカーを使って音に変換するプロセス。(後者の場合、レンダリングは本稿では時にラウドスピーカー「による」レンダリングと称される。)オーディオ・チャネルは、信号を所望される位置にある物理的なラウドスピーカーに直接加えることによって(所望される位置「において」)トリビアルにレンダリングされることができる。あるいは、(聴取者にとって)そのようなトリビアルなレンダリングと実質的に等価であるよう設計された多様な仮想化技法の一つを使ってレンダリングされることができる。この後者の場合、各オーディオ・チャネルは、一般には所望される位置とは異なる既知の位置にあるラウドスピーカー(単数または複数)に加えられるべき一つまたは複数のスピーカー・フィードに変換されてもよく、それによりフィードに応答してラウドスピーカーによって発される音は、所望される位置から発しているように知覚されることになる。そのような仮想化技法の例は、ヘッドフォンを介したバイノーラル・レンダリング(たとえばヘッドフォン装着者のために7.1チャネルまでのサラウンドサウンドをシミュレートするドルビー・ヘッドフォン処理を使う)および波面合成(wave field synthesis)を含む。
〈発明の実施形態の詳細な説明〉
いくつかの実施形態では、本発明は、放送のためのオブジェクト・ベース・オーディオを送達するための方法およびシステムであり、これは改善されたレンダリング・プロセス(消費者がレンダリングされるプログラムの諸側面を対話的に制御できる)および改善されたライブ放送作業フローおよび/または改善された後処理作業フローを含む。
図5は、システムであって、システムの要素の一つまたは複数が本発明の実施形態に基づいて構成されうる、オーディオ処理チェーン(オーディオ・データ処理システム)の例のブロック図である。本システムは、図のように一緒に結合された以下の要素を含む:捕捉ユニット1、プロダクション・ユニット3(これはエンコード・サブシステムを含む)、送達サブシステム5、デコーダ7、オブジェクト処理サブシステム9、コントローラ10およびレンダリング・サブシステム11。図示したシステムに対する諸変形においては、要素の一つまたは複数が省略されたり、あるいは追加的なオーディオ・データ処理ユニットが含められたりする。典型的には、要素7、9、10および11は再生システム(たとえばエンドユーザーの家庭シアター・システム)は再生システムに含まれる。
捕捉ユニット1は典型的には、オーディオ・コンテンツをなすPCM(時間領域)サンプルを生成し、該PCMサンプルを出力するよう構成される。それらのサンプルは、(たとえばスポーツ・イベントまたは他の観客イベントにおいて)マイクロホンによって捕捉されたオーディオの複数のストリームを示す。典型的には放送局によって運用されるプロダクション・ユニット3は、前記PCMサンプルを入力として受け入れ、前記オーディオ・コンテンツを示すオブジェクト・ベース・オーディオ・プログラムを出力するよう構成される。プログラムは典型的には、前記オーディオ・コンテンツの少なくとも一部を示すエンコードされた(たとえば圧縮された)オーディオ・ビットストリーム(本稿では時に「メイン混合」と称される)ならびに任意的にはまた前記オーディオ・コンテンツの少なくとも一部を示す少なくとも一つの追加的なビットストリームまたはファイル(本稿では時に「サイド混合」と称される)であるまたはそれらを含む。前記オーディオ・コンテンツを示すエンコードされたビットストリームの(そしてもし生成されるなら各生成されたサイド混合の)データは本稿では時に「オーディオ・データ」と称される。プロダクション・ユニット3のエンコード・サブシステムが本発明の典型的な実施形態に従って構成される場合、ユニット3から出力されるオブジェクト・ベース・オーディオ・プログラムは、オーディオ・データの複数のスピーカー・チャネル(スピーカー・チャネルの「ベッド」)と、オーディオ・データの複数のオブジェクト・チャネルと、オブジェクト関係メタデータと示す(すなわち含む)。プログラムはメイン混合を含んでいてもよく、該メイン混合は、スピーカー・チャネルのベッドを示すオーディオ・コンテンツと、少なくとも一つのユーザー選択可能なオブジェクト・チャネル(および任意的な少なくとも一つの他のオブジェクト・チャネル)を示すオーディオ・コンテンツと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとを含む。プログラムは、少なくとも一つの他のオブジェクト・チャネル(たとえば少なくとも一つのユーザー選択可能なオブジェクト・チャネル)を示すオーディオ・コンテンツおよび/またはオブジェクト関係メタデータを含む少なくとも一つのサイド混合をも含んでいてもよい。プログラムのオブジェクト関係メタデータは、耐久メタデータ(後述)を含んでいてもよい。プログラム(たとえばそのメイン混合)は、スピーカー・チャネルの一つまたはベッドを示していてもよく、ベッドを示していなくてもよい。たとえば、メイン混合は、スピーカー・チャネルの二つ以上のベッド(たとえば、5.1チャネルの中立群衆ノイズ・ベッドと、2.0チャネルのホーム・チーム群衆ノイズ・ベッドと、2.0チャネルのアウェー・チーム群衆ノイズ・ベッド)を示していてもよい。該二つ以上のベッドは、少なくとも一つのユーザー選択可能なベッド(これは、オブジェクト・チャネル・コンテンツまたは構成のユーザー選択のために用いられるのと同じユーザー・インターフェースを使って選択されることができる)と、デフォルト・ベッド(これは、別のベッドのユーザー選択がないときにレンダリングされる)とを含む。デフォルト・ベッドは、再生システムのスピーカー集合の構成(たとえば初期構成)を示すデータによって決定されてもよく、任意的に、ユーザーが、デフォルト・ベッドの代わりにレンダリングされるべき別のベッドを選択してもよい。
図5の送達サブシステム5は、ユニット3によって生成されたプログラム(たとえばメイン混合および何らかのサイド混合が生成されるならそのそれぞれのサイド混合)を記憶および/または送信(たとえば放送)するよう構成される。
いくつかの実施形態では、サブシステム5は、オブジェクト・ベース・オーディオ・プログラムの送達を実装する。この場合、オーディオ・オブジェクト(および少なくともいくらかの対応するオブジェクト関係メタデータ)が放送システムを通じて(放送されるオーディオ・ビットストリームによって示されるプログラムのメイン混合において)送られ、少なくともいくらかのオブジェクト関係メタデータ(たとえばプログラムのオブジェクト・チャネルのレンダリングまたは混合についての制約条件を示すメタデータ)および/またはプログラムの少なくとも一つのオブジェクト・チャネルは別の仕方で(前記メイン混合の「サイド混合」として)送達される(たとえば、サイド混合はインターネット・プロトコルまたは「IP」ネットワークによって特定のエンドユーザーに送られる)。あるいはまた、エンドユーザーのデコードおよび/またはレンダリング・システムが、少なくともいくらかのオブジェクト関係メタデータ(たとえば、本発明のオブジェクト・ベース・オーディオ・プログラムの実施形態のオーディオ・オブジェクトのレンダリングまたは混合についての制約条件を示すメタデータ)を事前に組み込まれており、そのようなオブジェクト関係メタデータは対応するオブジェクト・チャネルと一緒に(オブジェクト・ベース・オーディオ・プログラムのメイン混合またはサイド混合内で)(サブシステム5によって)放送されたり、他の仕方で送達されたりしない。
いくつかの実施形態では、別個の経路を通じて送達されるオブジェクト・ベース・オーディオ・プログラムの諸部分または諸要素(たとえば、放送システムを通じて放送されるメイン混合およびIPネットワークを通じてサイド混合として送られる関係したメタデータ)のタイミングおよび同期が、すべての送達経路を通じて(たとえばメイン混合および対応する各サイド混合内で)送られる同期語(たとえば時間コード)によって提供される。
再び図5を参照するに、デコーダ7は送達サブシステム5によって送達されるプログラム(または該プログラムの少なくとも一つのビットストリームまたは他の要素)を受け入れ(受信しまたは読み)、該プログラム(またはそのそれぞれの受け入れられた要素)をデコードする。本発明のいくつかの実施形態では、プログラムはメイン混合(エンコードされたビットストリーム、たとえばAC-3またはE-AC-3エンコードされたビットストリーム)および該メイン混合の少なくとも一つのサイド混合を含み、デコーダ7は前記メイン混合を(任意的には少なくとも一つのサイド混合も)受領する。任意的に、デコードされる必要のない、プログラムの少なくとも一つのサイド混合(たとえばオブジェクト・チャネル)が、サブシステム5によってオブジェクト処理サブシステム9に直接送達される。デコーダ7が本発明の典型的な実施形態に基づいて構成される場合には、典型的な動作におけるデコーダ7の出力は次のものを含む:
プログラムのスピーカー・チャネルのベッドを示すオーディオ・サンプルのストリーム;および
プログラムのオブジェクト・チャネル(たとえば、ユーザー選択可能なオーディオ・オブジェクト・チャネル)を示すオーディオ・サンプルのストリームおよびオブジェクト関係メタデータの対応するストリーム。
オブジェクト処理サブシステム9は、(デコーダ7から)送達されたプログラムのデコードされたスピーカー・チャネル、オブジェクト・チャネルおよびオブジェクト関係メタデータを、そして任意的には該プログラムの(少なくとも一つの他のオブジェクト・チャネルを示す)少なくとも一つのサイド混合をも受領するよう結合されている。たとえば、サブシステム9は、(デコーダ7から)プログラムのスピーカー・チャネルおよびプログラムの少なくとも一つのオブジェクト・チャネルのオーディオ・サンプルならびにプログラムのオブジェクト関係メタデータを受領してもよく、(送達サブシステム5から)(デコーダ7におけるデコードを受けていない)プログラムの少なくとも一つの他のオブジェクト・チャネルのオーディオ・サンプルを受領してもよい。
サブシステム9は、レンダリング・サブシステム11に、プログラムによって示されるオブジェクト・チャネルの完全な集合の選択された部分集合および対応するオブジェクト関係メタデータを出力するよう結合され、構成される。サブシステム9はまた、典型的には、デコーダ7からのデコードされたスピーカー・チャネルを不変のまま(サブシステム11)に素通りさせるよう構成され、それに呈されたオブジェクト・チャネル(および/またはメタデータ)の少なくとも一部を処理してサブシステム11に呈するオブジェクト・チャネルおよびメタデータを生成するよう構成されていてもよい。
サブシステム9によって実行されるオブジェクト・チャネル選択は典型的には、(コントローラ10からサブシステム9に呈される制御データによって示される)ユーザー選択(単数または複数)および/またはサブシステム9が実装するようプログラムされているまたは他の仕方で構成されている規則(たとえば条件および/または制約条件を示す規則)によって決定される。そのような規則は、プログラムのオブジェクト関係メタデータによっておよび/または(たとえばコントローラ10または他の外部源から)サブシステム9に呈される他のデータ(たとえば再生システムのスピーカー・アレイの機能および編成を示すデータ)によっておよび/またはサブシステムを事前構成する(たとえばプログラムする)ことによって、決定されうる。いくつかの実施形態では、コントローラ10は(コントローラ10によって実装されるユーザー・インターフェースを介して)ユーザーに、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な諸「プリセット」混合のメニューまたはパレットを提供する(たとえば、タッチスクリーン上に表示する)。選択可能なプリセット混合は、プログラムのオブジェクト関係メタデータによって、および典型的にはサブシステム9によって実装される規則(たとえば、サブシステム9が実装するよう事前構成されている規則)にもよって、決定されてもよい。ユーザーは、コントローラ10にコマンドを入力することによって(たとえばそのタッチスクリーンを作動させることによって)選択可能な混合のうちから選択をし、応答して、コントローラ10は対応する制御データをサブシステム9に呈する。
図5のレンダリング・サブシステム11は、再生システムのスピーカー(図示せず)による再生のために、サブシステム9の出力によって決定されたオーディオ・コンテンツをレンダリングするよう構成される。サブシステム11は、選択された各オブジェクトに関連付けられている、サブシステム9から出力されたレンダリング・パラメータ(たとえば空間位置およびレベルのユーザー選択されたおよび/またはデフォルトの値)を使って、オブジェクト処理サブシステム9によって選択されたオブジェクト・チャネルによって決定されたオーディオ・オブジェクト(たとえば、デフォルト・オブジェクトおよび/またはコントローラ10を使ったユーザー対話の結果として選択されたユーザー選択されたオブジェクト)を利用可能なスピーカー・チャネルにマッピングするよう構成される。レンダリング・パラメータの少なくともいくつかは、サブシステム9から出力されるオブジェクト関係メタデータによって決定される。レンダリング・システム11は、サブシステム9によって素通しされたスピーカー・チャネルのベッドをも受領する。典型的には、サブシステム11は知的な混合器であり、利用可能なスピーカーについてのスピーカー・フィードを決定するよう構成されている。該決定は、一つまたは複数の選択された(たとえばデフォルト選択された)オブジェクトをいくつかの個々のスピーカー・チャネルのそれぞれにマッピングして、それらのオブジェクトをプログラムのスピーカー・チャネル・ベッドの各対応するスピーカー・チャネルによって示される「ベッド」オーディオ・コンテンツと混合することによることを含む。
図6は、デコーダ20、オブジェクト処理サブシステム22、空間的レンダリング・サブシステム25、コントローラ23(これがユーザー・インターフェースを実装する)および任意的にはデジタル・オーディオ処理サブシステム25、26および27をも図のように結合されて含んでいる再生システムの実施形態のブロック図である。いくつかの実装では、図6のシステムの要素20、22、24、25、26、27、29、31および33はセットトップデバイスとして実装される。
図6のシステムでは、デコーダ20は、オブジェクト・ベース・オーディオ・プログラム(またはオブジェクト・ベース・オーディオ・プログラムのメイン混合)を示すエンコードされた信号を受領し、デコードするよう構成される。プログラム(たとえばプログラムのメイン混合)は、少なくとも二つのスピーカー・チャネル(すなわち、少なくとも二つのスピーカー・チャネルの「ベッド」)を含むオーディオ・コンテンツを示す。プログラムは、少なくとも一つのユーザー選択可能なオブジェクト・チャネル(および任意的には少なくとも一つの他のオブジェクト・チャネル)および各オブジェクト・チャネルに対応するオブジェクト関係メタデータをも示す。各オブジェクト・チャネルは、オーディオ・オブジェクトを示し、よって、オブジェクト・チャネルは本稿では時に便宜上「オブジェクト」と称される。ある実施形態では、プログラムは、オーディオ・オブジェクト、オブジェクト関係メタデータおよびスピーカー・チャネルのベッドを示すAC-3またはE-AC-3ビットストリームである(またはかかるビットストリームであるメイン混合を含む)。典型的には、個々のオーディオ・オブジェクトはモノまたはステレオ符号化され(すなわち、各オーディオ・オブジェクト・チャネルはオブジェクトの左または右チャネルを示すまたはオブジェクトを示すモノフォニック・チャネルである)、ベッドは伝統的な5.1混合であり、デコーダ20は同時にオーディオ・コンテンツの(ベッドの六つのスピーカー・チャネルおよび10個までのオブジェクト・チャネルを含む)16個までのチャネルのオーディオ・コンテンツをデコードするよう構成されていてもよい。はいってくるE-AC-3(またはAC-3)ビットストリームは、10個より多いオーディオ・オブジェクトを示してもよい。ある特定の混合を達成するために、そのすべてがデコードされる必要がないこともあるのである。
本発明の再生システムのいくつかの実施形態では、はいってくるE-AC-3(またはAC-3)エンコードされたビットストリームの各フレームは、一つまたは複数のメタデータ「コンテナ」を含む。はいってくるビットストリームは、オブジェクト・ベース・オーディオ・プログラムまたはそのようなプログラムのメイン混合を示し、プログラムのスピーカー・チャネルは、通常のE-AC-3(またはAC-3)ビットストリームのオーディオ・コンテンツのように編成される。一つのコンテナがフレームのAuxフィールドに含まれることができ、別のコンテナはフレームのaddbsiフィールドに含まれることができる。各コンテナはコア・ヘッダをもち、一つまたは複数のペイロードを含む(または一つまたは複数のペイロードに関連付けられる)。(Auxフィールドに含まれるコンテナのまたは該コンテナに関連付けられた)一つのそのようなペイロードは、(やはり当該プログラムによって示されるスピーカー・チャネルのベッドに関係する)本発明のオブジェクト・チャネルの一つまたは複数の各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとの組であってもよい。そのようなペイロードでは、オブジェクト・チャネル(および関連付けられたメタデータ)のうちの一部または全部のサンプルは標準的なE-AC-3(またはAC-3)フレームとして編成されてもよく、あるいは他の仕方で編成されてもよい(たとえば、E-AC-3またはAC-3ビットストリームとは異なるサイド混合に含まれてもよい)。(addbsiフィールドまたはAuxフィールドに含まれるコンテナのまたは該コンテナに関連付けられた)別のそのようなペイロードの例は、当該フレームのオーディオ・コンテンツに関連付けられたラウドネス処理状態メタデータのセットである。
いくつかのそのような実施形態では、デコーダ(たとえば図6のデコーダ20)は、Auxフィールド内のコンテナのコア・ヘッダをパースし、該コンテナから(たとえばAC-3またはE-AC-3フレームのAuxフィールドから)および/またはコア・ヘッダによって示される位置(たとえばサイド混合)から本発明のオブジェクト・チャネルおよび関連付けられたメタデータを抽出する。ペイロード(オブジェクト・チャネルおよび関連付けられたメタデータ)を抽出したのち、デコーダは、抽出されたペイロードに対して任意の必要なデコードを実行する。
各コンテナのコア・ヘッダは典型的には:当該コンテナに含まれるまたは関連付けられたペイロード(単数または複数)の型を示す少なくとも一つのID値と;サブストリーム関連付け指示(そのコア・ヘッダがどのサブストリームと関連付けられているかを示す)と;保護ビットとを含む。該保護ビット(これはハッシュ・ベースのメッセージ認証コードまたは「HMAC」からなるまたはそれを含むのでもよい)は典型的には、当該コンテナに含まれるまたは関連付けられた少なくとも一つのペイロードに含まれるオブジェクト関係メタデータおよび/またはラウドネス処理状態メタデータ(および任意的には他のメタデータも)および/またはフレームに含まれる対応するオーディオ・データの解読、認証または有効確認のために有用であろう。サブストリームは「帯域内」(E-AC-3またはAC-3ビットストリーム内)に位置されてもよく、あるいは「帯域外」(たとえばE-AC-3またはAC-3ビットストリームとは別個のサイド混合ビットストリーム内)に位置されてもよい。そのようなペイロードの一つの型は、(やはりプログラムによって示されるスピーカー・チャネルのベッドに関係した)本発明のオブジェクト・チャネルのうち一つまたは複数の各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとの組である。各オブジェクト・チャネルは、別個のサブストリームであり、典型的にはコア・ヘッダにおいて同定される。ペイロードの別の型は、ラウドネス処理状態メタデータである。
典型的には、各ペイロードはそれ自身のヘッダ(または「ペイロード識別子」)をもつ。オブジェクト・レベル・メタデータは、オブジェクト・チャネルである各サブストリームにおいて担持されてもよい。プログラム・レベル・メタデータは、コンテナのコア・ヘッダ内および/または本発明のオブジェクト・チャネルのうち一つまたは複数のオブジェクト・チャネルのオーディオ・サンプル(および各オブジェクト・チャネルに関連付けられたメタデータ)の集合であるペイロードについてのヘッダ内に含まれてもよい。
いくつかの実施形態では、フレームの補助データ(またはaddbsi)フィールド内の各コンテナは三レベルの構造をもつ:
高レベル構造。これは、補助データ(またはaddbsi)フィールドがメタデータを含むかどうかを示すフラグ(ここで、このコンテキストにおける「メタデータ」は本発明のオブジェクト・チャネル、本発明のオブジェクト関係メタデータおよびビットストリームによって担持されるが、記載される型のいかなるコンテナも欠く通常のE-AC-3またはAC-3ビットストリームには通常担持されない他の任意のオーディオ・コンテンツまたはメタデータを表わす)と、どの型(単数または複数)のメタデータが存在しているかを示す少なくとも一つのID値と、典型的にはまた(メタデータが存在する場合)(たとえば各型の)何ビットのメタデータが存在するかを示す値とを含む。このコンテキストにおいて、メタデータの一つのそのような「型」の例は、本発明のオブジェクト・チャネル・データおよび関連付けられたオブジェクト関係メタデータ(すなわち、(やはりプログラムによって示されるスピーカー・チャネルのベッドに関係する)一つまたは複数のオブジェクト・チャネルの各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたメタデータとの組)である。
中間レベル構造。これは、メタデータのそれぞれの同定される型についてのコア要素を含む(たとえば、メタデータのそれぞれの同定される型についての、たとえば上述した型の、コア・ヘッダ、保護値およびペイロードIDおよびペイロード・サイズ値);および
一つのコア要素について各ペイロードを含む低レベル構造。これは、少なくとも一つのそのようなペイロードがコア要素によって存在していると同定される場合である。そのようなペイロードの例は、やはりプログラムによって示されるスピーカー・チャネルのベッドに関係する)一つまたは複数のオブジェクト・チャネルの各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたメタデータとの組である。そのようなペイロードのもう一つの例は、時にLPSMペイロードと称される、ラウドネス処理状態メタデータ(LPSM: loudness processing state metadata)を含むペイロードである。
そのような三レベル構造におけるデータ値は、ネストされることができる。たとえば、コア要素によって同定されるペイロード(たとえばLPSMペイロード)についての保護値(単数または複数)がコア要素によって同定される各ペイロード後に(よって、該コア要素のコア・ヘッダ後に)含まれることができる。一例では、コア・ヘッダは第一のペイロード(たとえばLPSMペイロード)および別のペイロードを同定することができ、前記第一のペイロードについてのペイロードIDおよびペイロード・サイズは、コア・ヘッダに続くことができ、第一のペイロード自身がIDおよびサイズ値に続くことができ、第二のペイロードについてのペイロードIDおよびペイロード・サイズ値が第一のペイロードに続くことができ、第二のペイロード自身がこれらのIDおよびサイズ値に続くことができ、これらのペイロードの一方または両方についての(またはコア要素値およびこれらのペイロードの一方または両方についての)保護値が最後のペイロードに続くことができる。
再び図6を参照するに、ユーザーは、レンダリングされるべきオブジェクト(オブジェクト・ベース・オーディオ・プログラムによって示される)を選択するためにコントローラ23を用いる。コントローラ23は、図6のシステムの他の要素と両立するユーザー・インターフェース(たとえばiPadアプリ)を実装するようプログラムされているハンドヘルド処理装置(たとえばiPad)であってもよい。ユーザー・インターフェースは、ユーザーに対して、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合のメニューまたはパレットを提供(たとえばタッチスクリーン上に表示)してもよい。選択可能なプリセット混合は、プログラムのオブジェクト関係メタデータによって、そして典型的にはまたサブシステム22によって実装される規則(たとえばサブシステム22が実装するようあらかじめ構成されている規則)によって、決定されてもよい。ユーザーは、選択可能な混合のうちから、コントローラ23にコマンドを入力することによって(たとえば、コントローラ23のタッチスクリーンを作動させることにより)選択し、応答して、コントローラ23は対応する制御データをサブシステム22に呈する。
デコーダ20は、プログラムのスピーカー・チャネルのベッドのスピーカー・チャネルのスピーカー・チャネルをデコードし、サブシステム22に、デコードされたスピーカー・チャネルを出力する。オブジェクト・ベース・オーディオ・プログラムに応答し、かつレンダリングされるべき当該プログラムのオブジェクト・チャネルのフル・セットのある選択された部分集合を示す、コントローラ23からの制御データに応答して、デコーダ20は、(必要であれば)選択されたオブジェクト・チャネルをデコードし、選択された(たとえばデコードされた)オブジェクト・チャネル(そのそれぞれは、パルス符号変調されたまたは「PCM」ビットストリームであってもよい)および選択されたオブジェクト・チャネルに対応するオブジェクト関係メタデータを、サブシステム22に出力する。
デコードされたオブジェクト・チャネルによって示されるオブジェクトは、典型的には、ユーザー選択可能なオーディオ・オブジェクトであるまたはそれを含む。たとえば、図6に示されるように、デコーダは5.1スピーカー・チャネル・ベッド、ホーム・チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル(「コメント1モノ」)、遠征チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル(「コメント2モノ」)、スポーツ・イベントに臨場するホーム・チームのファンからの群衆雑音を示すオブジェクト・チャネル(「ファン(ホーム)」)、スポーツ・イベント参加者によって打たれたときにゲーム・ボールが出す音を示す左および右のオブジェクト・チャネル(「ボール音ステレオ」)および特殊効果を示す四つのオブジェクト・チャネル(「効果4xモノ」)を抽出してもよい。「コメント1モノ」「コメント2モノ」「ファン(ホーム)」「ボール音ステレオ」および「効果4xモノ」オブジェクト・チャネルの任意のものが(デコーダ20において必要なデコードがあればそれを経た後に)選択されうる。そのうちのそれぞれの選択されたものがサブシステム22からレンダリング・サブシステム24に渡されることになる。
デコーダ20からのデコードされたスピーカー・チャネル、デコードされたオブジェクト・チャネルおよびデコードされたオブジェクト関係メタデータのほかに、オブジェクト処理サブシステム22への入力は任意的に、当該システムに(デコーダ20に呈されたメイン混合のプログラムの一つまたは複数のサイド混合として)呈される外部オーディオ・オブジェクト・チャネルを含む。そのような外部オーディオ・オブジェクト・チャネルによって示されるオブジェクトの例は、ローカル・コメンター(たとえば、ラジオ・チャネルによって送達されるモノフォニック・オーディオ・コンテンツ)、着信スカイプ通話、(図6に示されないテキスト音声化システムによって変換された)着信ツイッター接続およびシステム音を含む。
サブシステム22は、プログラムによって示されるオブジェクト・チャネルのフル・セットのある選択された部分集合およびプログラムの対応するオブジェクト関係メタデータを出力するよう構成される。オブジェクト選択は、(コントローラ23からサブシステム22に呈される制御データによって示される)ユーザー選択および/またはサブシステム22が実装するようプログラムされているまたは他の仕方で構成されている(たとえば条件および/または制約を示す)規則によって決定されてもよい。そのような規則は、プログラムのオブジェクト関係メタデータによっておよび/または(たとえばコントローラ23または別の外部源から)サブシステム22に呈される他のデータ(たとえば、再生システムのスピーカー・アレイの機能および編成を示すデータ)によっておよび/またはサブシステム22を事前に構成する(たとえばプログラムする)ことによって決定されてもよい。いくつかの実施形態では、オブジェクト関係メタデータは、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合の集合を提供する。サブシステム22は典型的には、デコーダ20からのデコードされたスピーカー・チャネルを不変のまま(サブシステム24)に通過させ、それに呈されたオブジェクト・チャネルの選択されたものを処理する。
サブシステム22によって実行されるオブジェクト処理(オブジェクト選択を含む)は典型的には、コントローラ23からの制御データおよびデコーダ20からのオブジェクト関係メタデータ(そして任意的には、デコーダ20から以外のサブシステム22に呈されたサイド混合のオブジェクト関係メタデータ)によって制御され、典型的には、各選択されたオブジェクトについての空間位置およびレベルの決定を含む(オブジェクト選択がユーザー選択またはルール適用による選択のいずれによるものであるかによらない)。典型的には、オブジェクトをレンダリングするためのデフォルトの空間位置およびデフォルトのレベルが、任意的にはまた、オブジェクトおよびその空間位置およびレベルのユーザー選択についての制約も、サブシステム22に(たとえばデコーダ20から)呈されるオブジェクト関係メタデータに含まれる。そのような制約は、オブジェクトの禁止される組み合わせまたは選択されたオブジェクトがレンダリングされうる禁止された空間位置(たとえば選択されたオブジェクトが互いにあまりに近接してレンダリングされることを防ぐため)を示していてもよい。さらに、個々の選択されたオブジェクトのラウドネスは典型的には、コントローラ23を使って入力される制御データおよび/または(たとえばデコーダ20からの)オブジェクト関係メタデータによっておよび/またはサブシステム22の事前構成設定によって示されるデフォルト・レベルに応答して、オブジェクト処理サブシステム22によって制御される。
典型的には、デコーダ20によって実行されるデコードは、プログラムによって示される各オブジェクトのオーディオ・コンテンツの型(たとえばプログラムのオーディオ・コンテンツによって示されるスポーツ・イベントの型およびプログラムによって示される選択可能なおよびデフォルトのオブジェクトの名前または他の識別印(たとえばチーム・ロゴ))を示すメタデータの(入力プログラムからの)抽出を含む。コントローラ23およびオブジェクト処理サブシステム22はこのメタデータまたは該メタデータによって示される関連情報を受領する。典型的にはまた、コントローラ23は、ユーザーのオーディオ・システムの再生機能(たとえばスピーカーの数およびスピーカーの想定される配置または他の想定される編成)に関する情報を受領する(たとえばプログラムされる)。
図6の空間的レンダリング・サブシステム24(または少なくとも一つの下流の装置またはシステムと一緒のサブシステム24)は、サブシステム22から出力されるオーディオ・コンテンツを、ユーザーの再生システムのスピーカーによる再生のために、レンダリングするよう構成される。任意的に含まれるデジタル・オーディオ処理サブシステム25、26および27の一つまたは複数がサブシステム24の出力に対する後処理を実装してもよい。
空間的レンダリング・サブシステム24は、利用可能なスピーカー・チャネルに対して、オブジェクト処理サブシステム22によって選択されたオーディオ・オブジェクト・チャネル(たとえば、デフォルト選択されたオブジェクトおよび/またはコントローラ23を使ったユーザー対話の結果として選択されたユーザー選択されたオブジェクト)を、選択された各オブジェクトに関連付けられている、サブシステム22から出力されたレンダリング・パラメータ(たとえば空間位置およびレベルのユーザー選択されたおよび/またはデフォルトの値)を使ってマッピングするよう構成される。空間的レンダリング・システム24は、サブシステム22によって素通しにされたスピーカー・チャネルのデコードされたベッドをも受領する。典型的には、サブシステム24は、知的な混合器であり、いくつかの個別スピーカー・チャネルのそれぞれに一つ、二つまたは三つ以上の選択されたオブジェクト・チャネルをマッピングし、選択されたオブジェクト・チャネル(単数または複数)を、プログラムのスピーカー・チャネル・ベッドの対応する各スピーカー・チャネルによって示されるオーディオ・コンテンツと混合することによることを含め、利用可能なスピーカーについてのスピーカー・フィードを決定するよう構成される。
出力スピーカー・チャネルの数は2.0から7.1までの間で変わりうる。(「ベッド」オーディオ・コンテンツとの混合内の)選択されたオーディオ・オブジェクト・チャネルをレンダリングするために駆動されるスピーカーは、(名目上)再生環境における水平面内に位置していると想定されてもよい。そのような場合、レンダリングは、スピーカーが、それらのスピーカーの面内の相異なるオブジェクト位置(すなわち、それぞれの選択されたまたはデフォルトのオブジェクトについて、一つのオブジェクト位置または軌跡に沿ったオブジェクト位置の一つのシーケンス)から発しているものとして知覚される音が、「ベッド」オーディオ・コンテンツによって決定される音と混合されたものを発するよう駆動されることができるように実行される。
いくつかの実施形態では、オーディオをレンダリングするよう駆動されるフルレンジ・スピーカーの数は、広い範囲内の任意の数であることができ(必ずしも2から7の範囲に限定されない)、よって、出力スピーカー・チャネルの数は2.0から7.1の範囲内に限定されない。
いくつかの実施形態では、オーディオをレンダリングするために駆動されるスピーカーは、単に(名目上)水平面内ではなく、再生環境中の任意の位置に位置されると想定される。いくつかのそのような場合において、プログラムに含まれるメタデータは、スピーカーの三次元アレイを使って(三次元体積中の)任意の見かけの空間位置にプログラムの少なくとも一つのオブジェクトをレンダリングするためのレンダリング・パラメータを示す。たとえば、オブジェクト・チャネルは、(該オブジェクト・チャネルによって示される)オブジェクトがレンダリングされるべき見かけの空間位置の三次元的な軌跡を示す対応するメタデータを有していてもよい。軌跡は、「床(floor)」位置(再生環境の床または別の水平面の上に位置されると想定されるスピーカーの部分集合の平面内)のシーケンスおよび「床上方(above-floor)」位置(それぞれ、再生環境の少なくとも一つの他の水平面内に位置されると想定されるスピーカーの部分集合を駆動することによって決定される)のシーケンスを含んでいてもよい。そのような場合、レンダリングは、本発明によれば、スピーカーが、前記軌跡を含む三次元空間内のオブジェクト位置のシーケンスから発しているものとして知覚される音(関連するオブジェクト・チャネルによって決定される音)が、「ベッド」オーディオ・コンテンツによって決定される音と混合されたものを発するよう駆動されることができるように実行されることができる。サブシステム24は、そのようなレンダリングまたはそのステップを実装するよう構成されていてもよく、レンダリングの残りのステップは下流のシステムまたは装置(たとえば図6のレンダリング・サブシステム35)によって実行されてもよい。
任意的に、デジタル・オーディオ処理(DAP)段(たとえば、いくつかのあらかじめ決定された出力スピーカー・チャネル構成のそれぞれについて一つ)が、空間的レンダリング・サブシステムの出力に対して後処理を実行するよう、空間的レンダリング・サブシステム24の出力に結合される。そのような処理の例は、知的な等化または(ステレオ出力の場合)スピーカー仮想化処理を含む。
図6のシステムの出力(たとえば、空間的レンダリング・サブシステムまたは空間的レンダリング段に続くDAP段の出力)はPCMビットストリーム(これが利用可能なスピーカーについてのスピーカー・フィードを決定する)であってもよい。たとえば、ユーザーの再生システムがスピーカーの7.1アレイを含む場合、システムは、そのようなアレイのスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム(サブシステム24において生成される)またはそのようなビットストリームの後処理されたバージョン(DAP 25において生成される)を出力してもよい。もう一つの例として、ユーザーの再生システムがスピーカーの5.1アレイを含む場合、システムは、そのようなアレイのスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム(サブシステム24において生成される)またはそのようなビットストリームの後処理されたバージョン(DAP 26において生成される)を出力してもよい。もう一つの例として、ユーザーの再生システムが左および右のスピーカーを含むだけである場合、システムは、該左右のスピーカーについてのスピーカー・フィードを決定するPCMビットストリーム(サブシステム24において生成される)またはそのようなビットストリームの後処理されたバージョン(DAP 27において生成される)を出力してもよい。
図6のシステムは、任意的に、再エンコード・サブシステム31および33の一方または両方をも含む。再エンコード・サブシステム31は、E-AC-3エンコードされたビットストリームとしてDAP 25から出力される(7.1スピーカー・アレイのためのフィードを示す)PCMビットストリームを再エンコードするよう構成されており、結果として得られるエンコードされた(圧縮された)E-AC-3ビットストリームがシステムから出力されてもよい。再エンコード・サブシステム33は、AC-3またはE-AC-3エンコードされたビットストリームとしてDAP 27から出力される(5.1スピーカー・アレイのためのフィードを示す)PCMビットストリームを再エンコードするよう構成されており、結果として得られるエンコードされた(圧縮された)AC-3またはE-AC-3ビットストリームがシステムから出力されてもよい。
図6のシステムは、任意的に、再エンコード(またはフォーマット)サブシステム29およびサブシステム29の出力を受領するよう結合された下流のレンダリング・サブシステム35をも含む。サブシステム29は、選択されたオーディオ・オブジェクト(またはオーディオ・オブジェクトのデフォルト混合)、対応するオブジェクト関係メタデータおよびスピーカー・チャネルのベッドを示す(サブシステム22から出力される)データを受領するよう結合され、そのようなデータをサブシステム35によるレンダリングのために再エンコードする(および/またはフォーマットする)よう構成されている。サブシステム35は、AVRまたはサウンドバー(またはサブシステム29から下流の他のシステムまたは装置)において実装されてもよく、サブシステム29の出力に応答して、利用可能な再生スピーカー(スピーカー・アレイ36)のためのスピーカー・フィード(またはスピーカー・フィードを決定するビットストリーム)を生成するよう構成される。たとえば、サブシステム29は、選択された(またはデフォルトの)オーディオ・オブジェクト、対応するメタデータおよびスピーカー・チャネルのベッドを示す前記データをサブシステム35におけるレンダリングのための好適なフォーマットに再エンコードすることによってエンコードされたオーディオを生成し、エンコードされたオーディオを(たとえばHDMIリンクを介して)サブシステム35に伝送するよう構成されていてもよい。サブシステム35によって生成される(またはその出力によって決定される)スピーカー・フィードに応答して、利用可能なスピーカー36は、スピーカー・チャネル・ベッドおよび選択された(またはデフォルトの)オブジェクト(単数または複数)の、サブシステム29の出力のオブジェクト関係メタデータによって決定される見かけの源位置をもつオブジェクト(単数または複数)との混合を示す音を発する。サブシステム29および35が含まれるとき、レンダリング・サブシステム24は任意的に、システムから省略される。
いくつかの実施形態では、本発明は、レンダリングの一部(すなわち少なくとも一つのステップ)(たとえば、図6のシステムのサブシステム22およびコントローラ23によって実行されるような、レンダリングされるべきオーディオ・オブジェクトの選択および各選択されたオブジェクトのレンダリングの特性の選択)が第一のサブシステム(たとえば、セットトップデバイスまたはセットトップ装置およびハンドヘルド・コントローラにおいて実装される図6の要素20、22および23)において実装され、レンダリングの別の部分(たとえば、スピーカー・フィードまたはスピーカー・フィードを決定する信号が第一のサブシステムの出力に応答して生成される没入的レンダリング)が第二のサブシステム(たとえば、AVRまたはサウンドバーにおいて実装されるサブシステム35)において実装される、オブジェクト・ベース・オーディオをレンダリングするための分散式システムである。分散式レンダリングを提供するいくつかの実施形態は、オーディオ・レンダリングの諸部分(およびレンダリングされるオーディオに対応するビデオの任意の処理)が実行される異なる時刻および異なるサブシステムを考慮に入れるためにレイテンシー管理も実装する。
本発明の再生システムのいくつかの実施形態では、各デコーダおよびオブジェクト処理サブシステム(時にパーソナル化エンジンと称される)は、セットトップデバイス(STB)において実装される。たとえば、図6の要素20および22および/または図7のシステムのすべての要素はSTBにおいて実装されてもよい。本発明の再生システムのいくつかの実施形態では、すべてのSTB出力(たとえば、STBのHDMI、S/PDIFおよびステレオ・アナログ出力)が可能にされることを保証するよう、複数のレンダリングが、パーソナル化エンジンの出力に対して実行される。任意的に、選択されたオブジェクト・チャネル(および対応するオブジェクト関係メタデータ)が(デコードされたスピーカー・チャネルのベッドと一緒に)STBから、オブジェクト・チャネルとスピーカー・チャネルのベッドとの混合をレンダリングするよう構成された下流の装置(たとえばAVRまたはサウンドバー)に渡される。
あるクラスの実施形態では、本発明のオブジェクト・ベース・オーディオ・プログラムは、並列に生成され、伝送される一組のビットストリーム(複数ビットストリーム、「サブストリーム」と称されることもある)を含む。このクラスのいくつかの実施形態では、それらのサブストリームのコンテンツをデコードするために複数のデコーダが用いられる(たとえば、プログラムは複数のE-AC-3サブストリームを含み、再生システムはサブストリームのコンテンツをデコードするために複数のE-AC-3デコーダを用いる)。図7は、並列に送達される複数シリアル・ビットストリームを含む本発明のオブジェクト・ベース・オーディオ・プログラムのある実施形態をデコードおよびレンダリングするよう構成された再生システムのブロック図である。
図7の再生システムは、オブジェクト・ベース・オーディオ・プログラムが並列に再生システムに送達され、再生システムによって受領される複数ビットストリーム(B1、B2、……、BN、ここでNは何らかの正の整数)を含む図6のシステムに対する変形である。各ビットストリーム(「サブストリーム」)B1、B2、……、BNは、それらのサブストリームが互いに同期されるまたは時間整列されることを許容するよう時間コードまたは他の同期語(シンク語とも称される)を含むシリアル・ビットストリームである。各サブストリームは、オブジェクト・チャネルのフル・セットの異なる部分集合および対応するオブジェクト関係メタデータをも含み、それらのサブストリームのうちの少なくとも一つはスピーカー・チャネルのベッドを含む。たとえば、各サブストリームB1、B2、……、BNにおいて、オブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータを含む各コンテナは一意的なIDまたはタイムスタンプを含む。
図7のシステムは、N個のフォーマット解除器50、51、……、53を含み、そのそれぞれは入力サブストリームのうちの異なるものをパースし、(その同期語を含む)メタデータおよびそのオーディオ・コンテンツをビットストリーム同期段59に呈するよう結合され、構成されている。
フォーマット解除器50は、サブストリームB1をパースし、その同期語(T1)、他のメタデータおよびそのオブジェクト・チャネル・コンテンツ(M1)(オブジェクト関係メタデータおよびプログラムの少なくとも一つのオブジェクト・チャネルを含む)およびそのスピーカー・チャネル・オーディオ・コンテンツ(A1)(プログラムのベッドの少なくとも一つのスピーカー・チャネルを含む)をビットストリーム同期段59に呈する。同様に、フォーマット解除器51は、サブストリームB2をパースし、その同期語(T2)、他のメタデータおよびそのオブジェクト・チャネル・コンテンツ(M2)(オブジェクト関係メタデータおよびプログラムの少なくとも一つのオブジェクト・チャネルを含む)およびそのスピーカー・チャネル・オーディオ・コンテンツ(A2)(プログラムのベッドの少なくとも一つのスピーカー・チャネルを含む)をビットストリーム同期段59に呈する。同様に、フォーマット解除器53は、サブストリームBNをパースし、その同期語(TN)、他のメタデータおよびそのオブジェクト・チャネル・コンテンツ(MN)(オブジェクト関係メタデータおよびプログラムの少なくとも一つのオブジェクト・チャネルを含む)およびそのスピーカー・チャネル・オーディオ・コンテンツ(AN)(プログラムのベッドの少なくとも一つのスピーカー・チャネルを含む)をビットストリーム同期段59に呈する。
図7のシステムのビットストリーム同期段59は、典型的には、サブストリームB1、B2、……、BNのオーディオ・コンテンツおよびメタデータのためのバッファと、各サブストリームの同期語を使って入力サブストリームにおけるデータの整列不良(たとえば各ビットストリームが典型的には独立なインターフェースおよび/またはメディア・ファイル内の独立なトラックを通じて搬送されるので、入力サブストリームの間の緊密な同期が配送/寄与において失われる可能性によってそのような不揃いが生じうる)があればそれを判別するよう結合され、構成されているストリーム・オフセット補償要素とを含む。段59のストリーム・オフセット補償要素は典型的には、ビットストリームのオーディオ・データおよびメタデータを含むバッファに適切な制御値を呈することによって判別された整列不良があればそれを補正し、スピーカー・チャネル・オーディオ・データの時間整列されたビットがバッファから、それぞれ対応するバッファに結合されているデコーダ(デコーダ60、61および63を含む)に読み込まれるようにし、オブジェクト・チャネル・オーディオ・データおよびメタデータの時間整列されたビットがバッファから、オブジェクト・データ結合段66に読み込まれるようにするようにも構成される。
サブストリームB1からのスピーカー・チャネル・オーディオ・コンテンツA1'の時間整列されたビットは段59からデコーダ60に読み込まれ、サブストリームB1からのオブジェクト・チャネル・コンテンツおよびメタデータM1'の時間整列されたビットは段59からメタデータ結合器66に読み込まれる。デコーダ60は、それに呈されたスピーカー・チャネル・オーディオ・データに対してデコードを実行し、結果として得られるデコードされたスピーカー・チャネル・オーディオをオブジェクト処理およびレンダリング・サブシステム67に呈するよう構成される。
同様に、サブストリームB2からのスピーカー・チャネル・オーディオ・コンテンツA2'の時間整列されたビットは段59からデコーダ61に読み込まれ、サブストリームB2からのオブジェクト・チャネル・コンテンツおよびメタデータM2'の時間整列されたビットは段59からメタデータ結合器66に読み込まれる。デコーダ61は、それに呈されたスピーカー・チャネル・オーディオ・データに対してデコードを実行し、結果として得られるデコードされたスピーカー・チャネル・オーディオをオブジェクト処理およびレンダリング・サブシステム67に呈するよう構成される。
同様に、サブストリームBNからのスピーカー・チャネル・オーディオ・コンテンツAN'の時間整列されたビットは段59からデコーダ63に読み込まれ、サブストリームBNからのオブジェクト・チャネル・コンテンツおよびメタデータMN'の時間整列されたビットは段59からメタデータ結合器66に読み込まれる。デコーダ63は、それに呈されたスピーカー・チャネル・オーディオ・データに対してデコードを実行し、結果として得られるデコードされたスピーカー・チャネル・オーディオをオブジェクト処理およびレンダリング・サブシステム67に呈するよう構成される。
たとえば、各サブストリームB1、B2、……、BNはE-AC-3サブストリームであってもよく、各デコーダ60、61、63は、またデコーダ60、61、63と並列にサブシステム59に結合される他のデコーダ(単数または複数)があればそれも、入力E-AC-3サブストリームのうちの一つのサブストリームのスピーカー・チャネル・コンテンツをデコードするよう構成されたE-AC-3デコーダであってもよい。
オブジェクト・データ結合器66は、プログラムのすべてのオブジェクト・チャネルについての時間整列されたオブジェクト・チャネル・データおよびメタデータを、適切なフォーマットで、オブジェクト処理およびレンダリング・サブシステム67に呈するよう構成されている。
サブシステム67は、結合器66の出力およびデコーダ60、61、63(およびサブシステム59と67の間にデコーダ60、61、63と並列に結合された他のデコーダがあればそれも)の出力に結合され、コントローラ68はサブシステム67に結合される。サブシステム67は、結合器66およびデコーダの出力に対してオブジェクト処理(たとえば図6のシステムのサブシステム22によって実行されるステップまたはそのようなステップの変形を含む)を、コントローラ68からの制御データに応答して本発明のある実施形態に従って対話的な仕方で実行するよう構成されている。コントローラ68は、ユーザーからの入力に応答して、図6のシステムのコントローラ23が実行するよう構成されている動作(またはそのような動作の変形)を実行するよう構成されていてもよい。サブシステム67は、本発明のある実施形態に基づいて、それに呈されるスピーカー・チャネル・オーディオおよびオブジェクト・チャネル・オーディオ・データに対してレンダリング(たとえば、レンダリング・サブシステム24または図6のシステムのサブシステム24、25、26、31、33または図6のシステムのサブシステム24、25、26、31、33、29、35によって実行される動作またはそのような動作の変形)を実行するように構成されたサブシステムをも含む。
図7のシステムのある実装では、各サブストリームB1、B2、……、BNはドルビーEビットストリームである。そのような各ドルビーEビットストリームはバーストのシーケンスを含む。各バーストは、スピーカー・チャネル・オーディオ・コンテンツ(スピーカー・チャネルの「ベッド」)および本発明のオブジェクト・チャネルおよびオブジェクト関係メタデータのフル・オブジェクト・チャネル・セット(これは大きな集合であることがある)の部分集合を担持してもよい(すなわち、各バーストは、フル・オブジェクト・チャネル・セットのうちのいくつかのオブジェクト・チャネルおよび対応するオブジェクト関係メタデータを示してもよい)。ドルビーEビットストリームの各バーストは、典型的には、対応するビデオ・フレームの時間期間と等価な時間期間を占める。セット内の各ドルビーEビットストリームは、セット内のビットストリームが互いと同期または時間整列されることを許容するための同期語(たとえば時間コード)を含む。たとえば、各ビットストリームにおいて、オブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータを含む各コンテナは、セット中のビットストリームが互いと同期または時間整列されることを許容するための一意的なIDまたはタイムスタンプを含むことができる。図7のシステムの印された実装では、フォーマット解除器50、51、53(およびフォーマット解除器50、51、53と並列に結合された他のフォーマット解除器があればそれも)のそれぞれは、SMPTE 337フォーマット解除器であり、デコーダ60、61、63およびデコーダ60、61、63と並列にサブシステム59に結合された他の任意のデコーダのうちのそれぞれは、ドルビーEデコーダであってもよい。
本発明のいくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラムのオブジェクト関係メタデータは耐久メタデータを含む。たとえば、図6のシステムのサブシステム20に入力されるプログラムに含まれるオブジェクト関係メタデータは、(そのプログラムを生成したコンテンツ生成施設からコントローラ23によって実装されるユーザー・インターフェースまでの)放送チェーン内の少なくとも一点において変更できる非耐久メタデータ(たとえば、ユーザー選択可能なオブジェクトについてのデフォルトのレベルおよび/またはレンダリング位置もしくは軌跡)と、そのプログラムの(典型的にはコンテンツ生成施設における)初期生成後に変更可能であることが意図されていない(または変更できない)耐久メタデータを含んでいてもよい。耐久メタデータの例は:プログラムの各ユーザー選択可能なオブジェクトまたは他のオブジェクトまたは一組のオブジェクトについてのオブジェクトID;および各ユーザー選択可能なオブジェクトまたは他のオブジェクトの、プログラムのスピーカー・チャネルのベッドのオーディオ・コンテンツまたは他の要素に対するタイミングを示す時間コードまたは他の同期語を含む。耐久メタデータは典型的には、コンテンツ生成施設からユーザー・インターフェースまでの放送チェーン全体を通じて、プログラムの放送の継続時間全体を通じて、あるいはプログラムの再放送の間にも、保存される。いくつかの実施形態では、少なくとも一つのユーザー選択可能なオブジェクトのオーディオ・コンテンツ(および関連するメタデータ)がオブジェクト・ベース・オーディオ・プログラムのメイン混合において送られ、少なくともいくらかの耐久メタデータ(たとえば時間コード)および任意的には少なくとも一つの他のオブジェクトのオーディオ・コンテンツ(および関連するメタデータ)がプログラムのサイド混合において送られる。
本発明のオブジェクト・ベース・オーディオ・プログラムのいくつかの実施形態における耐久的なオブジェクト関係メタデータは、オブジェクト・コンテンツおよびベッド(スピーカー・チャネル)・コンテンツのユーザー選択された混合を(たとえば、プログラムの放送後でも)保存するために用いられる。たとえば、これは、ユーザーが自分の選択を変えるまで、ユーザーが指定された型のプログラム(たとえば何らかのサッカーの試合)をするたびにまたはユーザーが(任意の型の)任意のプログラムを見るたびに、選択された混合をデフォルト混合として提供しうる。たとえば、第一のプログラムの放送中に、ユーザーが(図6のシステムの)コントローラ23を用いて、耐久IDをもつオブジェクト(たとえば、コントローラ23のユーザー・インターフェースによって「ホーム・チーム群衆ノイズ」オブジェクトとして同定されるオブジェクト、ここで、耐久IDは「ホーム・チーム群衆ノイズ」である)を含む混合を選択してもよい。すると、ユーザーが混合選択を変えるまでは、ユーザーが(同じ耐久IDをもつオブジェクトを含む)別のプログラムを見る(または聴く)たびに、再生システムは自動的に同じ混合(すなわち、プログラムのスピーカー・チャネルのベッドをプログラムの「ホーム・チーム群衆ノイズ」オブジェクト・チャネルと混合したもの)をもつプログラムをレンダリングすることになる。本発明のオブジェクト・ベース・オーディオ・プログラムのいくつかの実施形態における耐久的なオブジェクト関係メタデータは、プログラム全体の間、いくつかのオブジェクトのレンダリングを必須にしてもよい(たとえば、ユーザーがそのようなレンダリングをやめたくても)。
いくつかの実施形態では、オブジェクト関係メタデータは、オブジェクト・コンテンツおよびベッド(スピーカー・チャネル)・コンテンツのデフォルト混合を、デフォルト・レンダリング・パラメータ(たとえば、レンダリングされるオブジェクトのデフォルトの空間位置)とともに提供する。たとえば、図6のシステムのサブシステム20に入力されるプログラムのオブジェクト関係メタデータは、オブジェクト・コンテンツおよびベッド(スピーカー・チャネル)・コンテンツのデフォルト混合にデフォルト・レンダリング・パラメータが伴ったものでもよく、サブシステム22および24は、ユーザーがコントローラ23を用いてオブジェクト・コンテンツおよびベッド・コンテンツの別の混合および/またはレンダリング・パラメータの別のセットを選択しない限り、デフォルト混合およびデフォルト・レンダリング・パラメータをもってプログラムをレンダリングさせる。
いくつかの実施形態では、オブジェクト関係メタデータは、オブジェクトおよび「ベッド」スピーカー・チャネル・コンテンツの選択可能な「プリセット」混合の集合を提供する。各プリセット混合はあらかじめ決定された一組のレンダリング・パラメータ(たとえばレンダリングされるオブジェクトの空間位置)をもつ。これらは、再生システムのユーザー・インターフェースによって、利用可能な混合の限られたメニューまたはパレット(たとえば、図6のシステムのコントローラ23によって表示される限られたメニューまたはパレット)として呈示されてもよい。各プリセット混合(および/または各選択可能なオブジェクト)は、耐久ID(たとえば、名前、ラベルまたはロゴ)を有していてもよい。コントローラ23(または本発明の再生システムの別の実施形態のコントローラ)は、そのようなIDの指示を(たとえばコントローラ23のiPad実装のタッチスクリーン上で)表示するよう構成されていてもよい。たとえば、プリセット混合の各オブジェクトの、オーディオ・コンテンツの詳細に対する(たとえば放送局によってなされる)変更に関わりなく耐久的であるID(たとえばチーム・ロゴ)または非耐久メタデータがあってもよい。
いくつかの実施形態では、プログラムのオブジェクト関係メタデータ(またはプログラムと一緒に送達されるメタデータによって指示されるのでない、再生またはレンダリング・システムの事前構成設定)が、オブジェクトおよびベッド(スピーカー・チャネル)コンテンツの選択可能な混合に対する制約条件または条件を与える。たとえば、図6のシステムのある実装は、デジタル権利管理(DRM)を実装してもよく、より詳細には図6のシステムのユーザーがオブジェクト・ベース・オーディオ・プログラムに含まれる一組のオーディオ・オブジェクトへの「階層的な(tiered)」アクセスをもつことを許容するDRM階層を実装してもよい。ユーザー(たとえば再生システムに関連付けられた顧客)がより多くの金額を(たとえば放送局に)支払うなら、ユーザーは当該プログラムのより多くのオーディオ・オブジェクトをデコードし、選択する(そして聴く)ことを許諾されうる。
もう一つの例として、オブジェクト関係メタデータは、ユーザーによるオブジェクト選択に対する制約条件を提供してもよい。そのような制約条件の例は、ユーザーがコントローラ23を用いてプログラムの「ホーム・チーム群衆ノイズ」オブジェクトおよび「ホーム・チーム・アナウンサー」オブジェクトの両方を選択する(すなわち、図6のサブシステム24によって決定される混合に含めるために選択する)場合、プログラムに含まれるメタデータは、サブシステム24がそれら二つの選択されたオブジェクトがあらかじめ決定された相対的な空間位置をもってレンダリングされることを保証しうる。制約条件は、(少なくとも部分的には)再生システムに関するデータ(たとえばユーザーが入力したデータ)によって決定されてもよい。たとえば、再生システムが(二つのみのスピーカーを含む)ステレオ・システムである場合、図6のシステムのオブジェクト処理サブシステム24(および/またはコントローラ23)は、二つのスピーカーだけでは十分な空間分解能をもってレンダリングできない混合(オブジェクト関係メタデータによって同定される)のユーザー選択を防止するよう構成されてもよい。もう一つの例として、図6のシステムのオブジェクト処理サブシステム24(および/またはコントローラ23)は、オブジェクト関係メタデータ(および/または再生システムに入力される他のデータ)によって示される法的な(たとえばDRM)理由または他の理由(たとえば送達チャネルの帯域幅に基づく理由)により、選択可能なオブジェクトのカテゴリーからいくつかの送達されるオブジェクトを除去してもよい。ユーザーは、より多くの帯域幅のためにコンテンツ制作者または放送局に支払いをしてもよく、結果として、システム(たとえば図6のシステムのオブジェクト処理サブシステム24および/またはコントローラ23)は、ユーザーが、選択可能なオブジェクトおよび/またはオブジェクト/ベッド混合のより大きなメニューから選択することを許容してもよい。
本発明のいくつかの実施形態(たとえば、上記の要素29および35を含む図6の再生システムの実装)は、分散式レンダリングを実装する。たとえば、プログラムのデフォルトのまたは選択されたオブジェクト・チャネル(および対応するオブジェクト関係メタデータ)は、セットトップデバイスから(たとえば図6のシステムのある実装のサブシステム22および29から)下流の装置(たとえばサブシステム22および29が実装されるセットトップデバイス(STB)から下流のAVRまたはサウンドバーにおいて実装される、図6のサブシステム35)に(スピーカー・チャネルのデコードされたベッドと一緒に)渡される。下流の装置は、オブジェクト・チャネルとスピーカー・チャネルのベッドとの混合をレンダリングするよう構成される。STBはオーディオを部分的にレンダリングし、下流の装置が(たとえば、オーディオ・オブジェクトを特定の見かけの源位置に配置するよう特定の最上層(tier)のスピーカー(たとえば諸天井スピーカー)を駆動するためのスピーカー・フィードを生成することによって)レンダリングを完成させてもよい(ここで、STBの出力は単に、オブジェクトが何らかの指定されていない仕方で、何らかの指定されていない最上層のスピーカーにおいてレンダリングされることができることを示す)。たとえば、STBは、再生システムのスピーカーの特定の編成についての知識をもたなくてもよく、下流の装置(たとえばAVRまたはサウンドバー)がそのような知識を有していてもよい。
いくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラム(たとえば、図6のシステムのサブシステム20または図7のシステムの要素50、51、53に入力されるプログラム)は、少なくとも一つのAC-3(またはE-AC-3)ビットストリームであるまたはそれを含み、オブジェクト・チャネル・コンテンツ(および/またはオブジェクト関係メタデータ)を含むプログラムの各コンテナは、ビットストリームのフレームの末尾にある補助データ・フィールド(たとえば図1または図4に示したAUXセグメント)に含まれる。いくつかのそのような実施形態では、AC-3またはE-AC-3ビットストリームの各フレームは、一つまたは複数のメタデータ・コンテナを含む。一つのコンテナがフレームのAuxフィールドに含まれることができ、別のコンテナがフレームのaddbsiフィールドに含まれることができる。各コンテナはコア・ヘッダをもち、一つまたは複数のペイロードを含む(または一つまたは複数のペイロードに関連付けられる)。(Auxフィールドに含まれるコンテナのまたは該コンテナに関連付けられた)一つのそのようなペイロードは、(やはり当該プログラムによって示されるスピーカー・チャネルのベッドに関係する)本発明のオブジェクト・チャネルの一つまたは複数の各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとの組であってもよい。各コンテナのコア・ヘッダは典型的には、当該コンテナに含まれるまたは関連付けられたペイロード(単数または複数)の型を示す少なくとも一つのID値と;サブストリーム関連付け指示(そのコア・ヘッダがどのサブストリームと関連付けられているかを示す)と;保護ビットとを含む。典型的には、各ペイロードは独自のヘッダ(または「ペイロード識別子」)をもつ。オブジェクト・レベル・メタデータがオブジェクト・チャネルである各サブストリームにおいて担持されてもよい。
他の実施形態では、オブジェクト・ベース・オーディオ・プログラム(たとえば、図6のシステムのサブシステム20または図7のシステムの要素50、51、53に入力されるプログラム)は、AC-3ビットストリームまたはE-AC-3ビットストリームではないビットストリームであるまたはそれを含む。いくつかの実施形態では、オブジェクト・ベース・オーディオ・プログラムは、少なくとも一つのドルビーEビットストリームであるまたはそれを含み、プログラムのオブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータ(たとえばオブジェクト・チャネル・コンテンツおよびオブジェクト関係メタデータを含むプログラムの各コンテナ)は、通常は有用な情報を担持しないドルビーEビットストリームのビット位置に含まれる。ドルビーEビットストリームの各バーストは、対応するビデオ・フレームの時間期間と等価な時間期間を占める。オブジェクト・チャネル(および/またはオブジェクト関係メタデータ)は、ドルビーEバーストどうしの間の保護帯(guard band)に、および/または各ドルビーEバース都内の(それぞれAES3フレームのフォーマットをもつ)各データ構造内の未使用ビット位置に含まれてもよい。たとえば、各保護帯は、セグメント(たとえば100個のセグメント)のシーケンスからなり、各保護帯の最初のX個のセグメント(たとえばX=20)のそれぞれはオブジェクト・チャネルおよびオブジェクト関係メタデータを含み、前記各保護帯の残りのセグメントのそれぞれは保護帯シンボルを含んでいてもよい。いくつかの実施形態では、ドルビーEビットストリームのオブジェクト・チャネルおよびオブジェクト関係メタデータは、メタデータ・コンテナに含まれる。各コンテナはコア・ヘッダをもち、一つまたは複数のペイロードを含む(または一つまたは複数のペイロードに関連付けられる)。(Auxフィールドに含まれるコンテナのまたは該コンテナに関連付けられた)一つのそのようなペイロードは、(やはり当該プログラムによって示されるスピーカー・チャネルのベッドに関係する)本発明のオブジェクト・チャネルの一つまたは複数の各オブジェクト・チャネルのオーディオ・サンプルと、各オブジェクト・チャネルに関連付けられたオブジェクト関係メタデータとの組であってもよい。各コンテナのコア・ヘッダは典型的には、当該コンテナに含まれるまたは関連付けられたペイロード(単数または複数)の型を示す少なくとも一つのID値と;サブストリーム関連付け指示(そのコア・ヘッダがどのサブストリームと関連付けられているかを示す)と;保護ビットとを含む。典型的には、各ペイロードは独自のヘッダ(または「ペイロード識別子」)をもつ。オブジェクト・レベル・メタデータがオブジェクト・チャネルである各サブストリームにおいて担持されてもよい。
いくつかの実施形態では、(本発明のオブジェクト・チャネルおよびオブジェクト関係メタデータをパースするよう構成されていない)レガシー・デコーダおよびレガシー・レンダリング・システムによって、オブジェクト・ベース・オーディオ・プログラム(たとえば、図6のシステムのサブシステム20または図7のシステムの要素50、51、53に入力されるプログラム)はデコード可能であり、そのスピーカー・チャネル・コンテンツはレンダリング可能である。同じプログラムが、本発明のオブジェクト・チャネルおよびオブジェクト関係メタデータをパースし、プログラムによって示されるスピーカー・チャネルおよびオブジェクト・チャネル・コンテンツの混合をレンダリングするよう(本発明の実施形態に従って)構成されたセットトップデバイス(または他のデコードおよびレンダリング・システム)によって、本発明のいくつかの実施形態に従ってレンダリングされてもよい。
本発明のいくつかの実施形態は、放送プログラムに応答して最終消費者のためのパーソナル化された(そして好ましくは没入的な)オーディオ経験を提供するおよび/または放送パイプラインにおいてメタデータを使う新たな方法を提供するよう意図される。いくつかの実施形態はマイクロホン捕捉(たとえばスタジアム・マイクロホン捕捉)を改善して、最終消費者のためのより没入的な経験を提供するオーディオ・プログラムを生成し、本発明のオブジェクト・ベース・オーディオ・プログラム(単数または複数)のオブジェクト・チャネル(単数または複数)およびメタデータがプロフェッショナル・チェーンを通じて流れることを許容するよう既存の制作、寄与および配送作業フローを修正し、通常放送されるオーディオ(たとえば、本発明の放送オーディオ・プログラムのいくつかの実施形態に含まれるスピーカー・チャネルのベッド)のほかに本発明のオブジェクト・チャネルおよびメタデータをサポートする新たな再生パイプライン(たとえば、セットトップデバイスにおいて実装されるもの)を作り出す。
図8は、放送のための、本発明のある実施形態に基づくオブジェクト・ベース・オーディオ・プログラム(および対応するビデオ・プログラム)を生成するよう構成された放送システムのブロック図である。図8のシステムのマイクロホン100、101、102、103を含むX個のマイクロホン(Xは整数)の集合が、プログラムに含められるべきオーディオ・コンテンツを捕捉するよう位置されており、それらの出力がオーディオ・コンソール104の入力に結合されている。
あるクラスの実施形態では、プログラムは、観客イベント(たとえばサッカーまたはラグビー試合、自動車またはオートバイ・レースまたは別のスポーツ・イベント)内でのまたは観客イベントにおける雰囲気および/または観客イベントについてのコメンタリーを示す対話的オーディオ・コンテンツを含む。いくつかの実施形態では、プログラムのオーディオ・コンテンツは、(ユーザー選択可能な諸オブジェクトまたは諸オブジェクト集合および典型的にはユーザーによるオブジェクト選択がないときにレンダリングされるオブジェクトのデフォルト集合も含む)複数のオーディオ・オブジェクトと、プログラムのスピーカー・チャネルの混合(「ベッド」)とを示す。スピーカー・チャネルのベッドは、オブジェクト・チャネルを含まない通常の放送プログラムに含まれてもよい型のスピーカー・チャネルの通常の混合(たとえば5.1チャネル混合)であってもよい。
マイクロホン(たとえばマイクロホン100および101、また任意的にはその出力がオーディオ・コンソール104に結合されている他のマイクロホン)の部分集合は、動作の際、(スピーカー・チャネルのベッドとしてエンコードされ、送達されるべき)オーディオを捕捉する通常のマイクロホン・アレイである。動作において、マイクロホン(たとえばマイクロホン102および103、また任意的にはその出力がオーディオ・コンソール104に結合されている他のマイクロホン)の別の部分集合は、プログラムのオブジェクト・チャネルとしてエンコードされ、送達されるべきオーディオ(たとえば群衆ノイズおよび/または他の「オブジェクト」)を捕捉する。たとえば、図8のシステムのマイクロホン・アレイは、音場マイクロホンとして実装され、スタジアムに恒久的に設定されている(たとえば音場マイクロホンがそれとともに設置されたヒーターをもつ)少なくとも一つのマイクロホン(たとえばマイクロホン100);一方のチーム(たとえばホーム・チーム)をサポートする観客の位置に向けられた少なくとも一つのステレオ・マイクロホン(たとえば、Sennheiser MKH416マイクロホンまたは他のステレオ・マイクロホンとして実装されたマイクロホン102)および他方のチーム(たとえば遠征チーム)をサポートする観客の位置に向けられた少なくとも一つの他のステレオ・マイクロホン(たとえば、Sennheiser MKH416マイクロホンまたは他のステレオ・マイクロホンとして実装されたマイクロホン103)を含んでいてもよい。
本発明の放送システムは、スタジアム(または他のイベント位置)の外部に位置する可動ユニット(これはトラックであってもよく、時に「試合トラック」と称される)を含んでいてもよい。この可動ユニットは、スタジアム(または他のイベント位置)内のマイクロホンからのオーディオ・フィードの最初の受領者である。試合トラックは、(放送されるべき)オブジェクト・ベース・オーディオ・プログラムを生成する。これは、送達のためのマイクロホンからのオーディオ・コンテンツをプログラムのオブジェクト・チャネルとしてエンコードし、対応するオブジェクト関係メタデータ(たとえば、各オブジェクトがレンダリングされるべき空間位置を示すメタデータ)を生成し、そのようなメタデータをプログラム中に含め、送達のためのいくつかのマイクロホンからのオーディオ・コンテンツをプログラムのスピーカー・チャネルのベッドとしてエンコードすることによることを含む。
たとえば、図8のシステムでは、コンソール104、オブジェクト処理サブシステム106(コンソール104の出力に結合されている)、埋め込みサブシステム108および寄与エンコーダ110が試合トラック内に設置されてもよい。サブシステム106において生成されるオブジェクト・ベース・オーディオ・プログラムは、(たとえばサブシステム108内で)(たとえばスタジアム内に位置されるカメラからの)ビデオ・コンテンツと組み合わされて、組み合わされたオーディオおよびビデオ信号を生成してもよい。該組み合わされた信号がその後(たとえばエンコーダ110によって)エンコードされて、それにより(たとえば図5の送達サブシステム5による)放送のためのエンコードされたオーディオ/ビデオ信号を生成する。そのようなエンコードされたオーディオ/ビデオ信号をデコードおよびレンダリングする再生システムは、送達されるオーディオ/ビデオ信号のオーディオ・コンテンツおよびビデオ・コンテンツをパースするためのサブシステム(個別には図示せず)と、本発明の実施形態に基づいてオーディオ・コンテンツをデコードおよびレンダリングするためのサブシステム(たとえば図6のシステムと同様または同一のもの)と、ビデオ・コンテンツをデコードおよびレンダリングするためのもう一つのサブシステム(個別には図示せず)とを含むことになる。
コンソール104のオーディオ出力は、スポーツ・イベントにおいて捕捉された音を示す5.1スピーカー・チャネル・ベッド(図8では「5.1中立」とラベル付けされている)と、イベントに臨場するホーム・チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネルのオーディオ・コンテンツ(「2.0ホーム」とラベル付けされている)と、イベントに臨場する遠征チームのファンからの群衆ノイズを示すステレオ・オブジェクト・チャネルのオーディオ・コンテンツ(「2.0アウェー」とラベル付けされている)と、ホーム・チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル・オーディオ・コンテンツ(「1.0cmm1」とラベル付けされている)と、遠征チームの都市からのアナウンサーによるコメンタリーを示すオブジェクト・チャネル・オーディオ・コンテンツ(「1.0cmm2」とラベル付けされている)と、スポーツ・イベント参加者によってボールが打たれる際の試合ボールによって生成される音を示すオブジェクト・チャネル・オーディオ・コンテンツ(「1.0ボールキック」とラベル付けされている)とを含んでいてもよい。
オブジェクト処理サブシステム106は、コンソール104からのオーディオ・ストリームをオブジェクト・チャネルに(たとえば、「2.0アウェー」とラベル付けされた左右のオーディオ・ストリームを遠征群衆ノイズ・オブジェクト・チャネルにグループ化)および/またはオブジェクト・チャネルの諸セットに編成(たとえばグループ化)し、それらのオブジェクト・チャネル(またはオブジェクト・チャネル・セット)を示すオブジェクト関係メタデータを生成し、それらのオブジェクト・チャネル(またはオブジェクト・チャネル・セット)、オブジェクト関係メタデータおよびスピーカー・チャネル・ベッド(コンソール104からのオーディオ・ストリームから決定される)をオブジェクト・ベース・オーディオ・プログラム(たとえば、ドルビーEビットストリームとしてエンコードされるオブジェクト・ベース・オーディオ・プログラム)としてエンコードするよう構成される。典型的にはまた、サブシステム106は、オブジェクト・チャネル(および/またはオブジェクト・チャネル・セット)およびスピーカー・チャネル・ベッドの少なくとも選択された部分集合をレンダリング(そしてスタジオ・モニタ・スピーカーのセットで再生)する(これはオブジェクト関係メタデータを使って選択されたオブジェクト・チャネルおよびスピーカー・チャネルを示す混合を生成することによることを含む)よう構成され、それにより再生される音はコンソール104およびサブシステム106の操作者(単数または複数)によってモニタリングされることができる(図8の「モニター経路」によって示されるように)。
サブシステム104の出力とサブシステム106の入力との間のインターフェースは、マルチチャネル・オーディオ・デジタル・インターフェース(MADI)であってもよい。
動作では、図8のシステムのサブシステム108は、サブシステム106において生成されたオブジェクト・ベース・オーディオ・プログラムを(たとえばスタジアム内に位置されたカメラからの)ビデオ・コンテンツと組み合わせて、組み合わされたオーディオおよびビデオ信号を生成し、それがエンコーダ110に呈される。サブシステム108の出力とサブシステム110の入力との間のインターフェースは、高精細度シリアル・デジタル・インターフェース(HD-SDI)であってもよい。動作では、エンコーダ110はサブシステム108の出力をエンコードし、それにより(たとえば図5の送達サブシステム5による)放送のためのエンコードされたオーディオ/ビデオ信号を生成する。
いくつかの実施形態では、放送施設(たとえば図8のシステムのサブシステム106、108および110)は、捕捉された音を示す複数のオブジェクト・ベース・オーディオ・プログラム(たとえば、図8のサブシステム110から出力される複数のエンコードされたオーディオ/ビデオ信号によって示されるオブジェクト・ベース・オーディオ・プログラム)を生成するよう構成される。そのようなオブジェクト・ベース・オーディオ・プログラムの例は、5.1の平坦化された混合、国際混合および国内混合を含む。たとえば、すべてのプログラムは、スピーカー・チャネルの共通ベッドを含んでいてもよいが、プログラムのオブジェクト・チャネル(および/またはプログラムによって決定される選択可能なオブジェクト・チャネルおよび/またはオブジェクト・チャネルをレンダリングおよび混合するための選択可能もしくは選択可能でないレンダリング・パラメータのメニュー)はプログラムによって異なっていてもよい。
いくつかの実施形態では、放送局または他のコンテンツ・クリエーターの施設(たとえば、図8のシステムのサブシステム106、108および110)は、多様な異なる再生環境(たとえば、5.1チャネル国内再生システム、5.1チャネル国際再生システムおよびステレオ再生システム)の任意のものにおいてレンダリングできる単一のオブジェクト・ベース・オーディオ・プログラム(すなわちマスター)を生成するよう構成される。マスターは、いかなる特定の環境における消費者への放送のために混合される(たとえばダウンミックスされる)必要もない。
上記のように、本発明のいくつかの実施形態では、プログラムのオブジェクト関係メタデータ(またはプログラムと一緒に送達されるメタデータによって指示されるのでない、再生またはレンダリング・システムの事前構成設定)は、オブジェクトおよびベッド(スピーカー・チャネル)・コンテンツの選択可能な混合に対する制約条件または条件を与える。たとえば、図6のシステムのある実装は、DRM階層を実装して、ユーザーがオブジェクト・ベース・オーディオ・プログラムに含まれる一組のオーディオ・チャネルへの階層的な(tiered)アクセスをもつことを許容してもよい。ユーザーがより多くの金額を(たとえば放送局に)支払うなら、ユーザーは当該プログラムのより多くのオブジェクト・チャネルをデコードし、選択し、レンダリングすることを許諾されうる。
オブジェクト(またはオブジェクト群)のユーザー選択に対する制約条件および条件の例について、図9を参照して述べる。図9では、プログラムP0は七つのオブジェクト・チャネルを含む:中立的な群衆ノイズを示すオブジェクト・チャネルN0、ホーム群衆ノイズを示すオブジェクト・チャネルN1、アウェー群衆ノイズを示すオブジェクト・チャネルN2、イベントについての公式コメンタリー(たとえば商業ラジオ・アナウンサーによる放送コメンタリー)を示すオブジェクト・チャネルN3、イベントについてのファン・コメンタリーを示すオブジェクト・チャネルN4、イベントにおける公共アナウンスを示すオブジェクト・チャネルN5およびイベントに関する着信ツイッター接続(テキスト音声化システムによって変換される)を示すオブジェクト・チャネルN5。
プログラムP0に含まれるデフォルト指示メタデータは、プログラムによって示される「ベッド」スピーカー・チャネル・コンテンツおよびオブジェクト・チャネル・コンテンツのレンダリングされる混合に(デフォルトで)含められるべきデフォルト・オブジェクト・セット(一つまたは複数の「デフォルト」オブジェクト)およびデフォルト・レンダリング・パラメータ・セット(たとえば、デフォルト・オブジェクト・セット内の各デフォルト・オブジェクトの空間位置)を示す。たとえば、デフォルト・オブジェクト・セットは、拡散式に(たとえばいかなる特定の源位置から発しているようにも知覚されないよう)レンダリングされるオブジェクト・チャネルN0(中立的な群衆ノイズを示す)と、聴取者の真正面の(すなわち、聴取者に対して方位角0度の)源位置から発しているように知覚されるようレンダリングされるオブジェクト・チャネルN3(公式コメンタリーを示す)との混合であってもよい。
(図9の)プログラムP0は、ユーザー選択可能なプリセット混合の複数のセットを示すメタデータをも含む。各プリセット混合は、プログラムのオブジェクト・チャネルの部分集合および対応するレンダリング・パラメータ・セットによって決定される。ユーザー選択可能なプリセット混合は、再生システムのコントローラのユーザー・インターフェース上にメニュー(たとえば、図6のシステムのコントローラ23によって表示されるメニュー)として呈示されてもよい。たとえば、一つのそのようなプリセット混合は、図9のオブジェクト・チャネルN0(中立的な群衆ノイズを示す)とオブジェクト・チャネルN1(ホーム群衆ノイズを示す)とオブジェクト・チャネルN4(ファン・コメンタリーを示す)との混合であり、該混合中のチャネルN0およびN1コンテンツは聴取者の真後ろの(すなわち聴取者に対して180度の方位角の)源位置から発しているように知覚され、該混合中のチャネルN1のコンテンツのレベルは該混合中のチャネルN0のレベルより3dB低く、該混合中のチャネルN4のコンテンツは拡散式に(たとえば、いかなる特定の源位置から発しているようにも知覚されないよう)レンダリングされるよう、レンダリングされる。
再生システムは、オブジェクト・チャネルN0、N1、N2のうちの少なくとも一つを含む各ユーザー選択可能なプリセット混合は、オブジェクト・チャネルN0のコンテンツのみ、あるいはオブジェクト・チャネルN0のコンテンツにオブジェクト・チャネルN1およびN2の少なくとも一方のコンテンツを混合したものを含まなければならないという規則(たとえば、プログラムのメタデータによって決定される図9に示されるグループ化規則「G」)を実装してもよい。再生システムは、オブジェクト・チャネルN0のコンテンツにオブジェクト・チャネルN1およびN2の少なくとも一方のコンテンツを混合したものを含む各ユーザー選択可能なプリセット混合は、オブジェクト・チャネルN0のコンテンツにオブジェクト・チャネルN1のコンテンツを混合したものを含まなければならないまたはオブジェクト・チャネルN0のコンテンツにオブジェクト・チャネルN2のコンテンツを混合したものを含まなければならないという規則(たとえば、プログラムのメタデータによって決定される図9に示される条件規則「C1」)をも実装してもよい。
再生システムはまた、オブジェクト・チャネルN3およびN4の少なくとも一方のコンテンツを含む各ユーザー選択可能なプリセット混合は、オブジェクト・チャネルN3のコンテンツのみを含まなければならないまたはオブジェクト・チャネルN4のコンテンツのみを含まなければならないという規則(たとえば、プログラムのメタデータによって決定される図9に示される条件規則「C2」)をも実装してもよい。
本発明のいくつかの実施形態は、オブジェクト・ベース・オーディオ・プログラムのオブジェクト・チャネルの条件付きデコード(および/またはレンダリング)を実装する。たとえば、再生システムは、オブジェクト・チャネルが再生環境またはユーザーの権利に基づいて条件付きでデコードされることを許容するよう構成されていてもよい。たとえば、DRM階層が顧客が、オブジェクト・ベース・オーディオ・プログラムに含まれるオーディオ・オブジェクト・チャネルのセットへの「階層的な(tiered)」アクセスをもつことを許容するよう実装される場合、再生システムは、該再生システムがユーザーが少なくとも一つの条件(たとえばコンテンツ・プロバイダーに特定の金額を支払うこと)を満足したことを通知されるのでない限り、オブジェクトのいくつかのレンダリングのためのデコードおよび選択を防止するよう(プログラムのメタデータに含まれる制御ビットによって)自動的に構成されてもよい。たとえば、ユーザーは、図9のプログラムP0の「公式コメンタリー」オブジェクト・チャネルN3を聴くために権利を購入する必要があってもよく、再生システムは、図9に示される条件規則「C2」を実装してもよい。それにより、再生システムのユーザーが必要な権利を購入したことを再生システムが通知されるのでない限り、オブジェクト・チャネルN3は選択されることができない。
もう一つの例として、再生システムは、再生スピーカー・アレイが条件を満たさない場合には、オブジェクトのうちいくつかの、デコードおよび選択を防止するよう(利用可能な再生スピーカー・アレイの特定のフォーマットを示す、プログラムのメタデータに含まれる制御ビットによって)自動的に構成されてもよい。(たとえば、再生システムは、図9に示される条件規則「C1」を実装してもよい。それにより、5.1スピーカー・アレイが選択されるコンテンツをレンダリングするために利用可能であることを再生システムが通知されるのでない限り、オブジェクト・チャネルN0およびN1のプリセット混合は選択されることができない。利用可能なスピーカー・アレイが2.0スピーカー・アレイだけであるときはだめである。)
いくつかの実施形態では、本発明は、少なくとも一つのあらかじめ決定された規則がオブジェクト・ベース・オーディオ・プログラムのどのオブジェクト・チャネル(単数または複数)が(たとえばスピーカー・チャネルのベッドと一緒に)レンダリングされるかを決定する、規則ベースのオブジェクト・チャネル選択を実装する。ユーザーは、オブジェクト・チャネル選択のための少なくとも一つの規則を(たとえば再生システム・コントローラのユーザー・インターフェースによって呈示される利用可能な規則のメニューから選択することによって)指定してもよく、再生システム(たとえば図6のシステムのオブジェクト処理サブシステム22)は、そのような各規則を適用して、レンダリングされるべきオブジェクト・ベース・オーディオ・プログラムのどのオブジェクト・チャネルが(たとえば図6のシステムのサブシステム24またはサブシステム24および35によって)レンダリングされるべき混合中に含められるべきかを決定するよう構成されていてもよい。再生システムは、プログラムのどのオブジェクト・チャネルが所定の規則(単数または複数)を満たすかをプログラム中のオブジェクト関係メタデータから決定してもよい。
簡単な例として、オブジェクト・ベース・オーディオ・プログラムがスポーツ・イベントを示す場合を考える。プログラムに含まれるオブジェクト(たとえば特定のチームまたは自動車またはオートバイからのラジオ・コメンタリー)の特定の集合の静的な選択を実行するためにコントローラ(たとえば図6のコントローラ23)を操作する代わりに、ユーザーはコントローラを操作して、(たとえば、どれであれ勝っているまたは一位であるチームまたは自動車またはオートバイを示すオブジェクト・チャネルをレンダリングのために自動的に選択するよう)規則を設定する。この規則は、再生システムによって適用されて、(単一のプログラムまたは異なるプログラムのシーケンスのレンダリングの間に)プログラムに含まれる諸オブジェクト(オブジェクト・チャネル)の異なる部分集合のシーケンスの動的な選択を実装する。(たとえば、あるチームを示すオブジェクトの第一の部分集合、第二のチームがスコアして現在勝っているチームになる場合には自動的に第二のチームを示すオブジェクトの第二の集合がこれに続く。)このように、いくつかのそのような実施形態では、リアルタイムのイベントがどのオブジェクト・チャネルがレンダリングされる混合に含められるかを制御するまたはこれに影響する。再生システム(たとえば、図6のシステムのオブジェクト処理サブシステム22)はプログラムに含まれるメタデータ(たとえば、少なくとも一つの対応するオブジェクトが現在勝っているチームを示す、たとえば該チームのファンの群衆ノイズまたは勝っているチームに関連付けられたラジオ・アナウンサーのコメンタリーを示すことを示すメタデータ)に応答して、どのオブジェクト・チャネルがレンダリングされるべきスピーカーおよびオブジェクト・チャネルの混合に含められるべきかを選択してもよい。たとえば、コンテンツ・クリエーターは、プログラムの少なくともいくつかのオーディオ・オブジェクト・チャネルの各チャネルの順位(または順序階層)を示す(たとえば、どのオブジェクト・チャネルが現在一位であるチームまたは自動車に対応するか、どのオブジェクト・チャネルが二位であるチームまたは自動車に対応するかなどを示す)メタデータを(オブジェクト・ベース・オーディオ・プログラムに)含めてもよい。再生システムは、ユーザー指定された規則を満たすオブジェクト・チャネル(たとえば、プログラムのオブジェクト関係メタデータによって示されるn位のチームに関係するオブジェクト・チャネル(単数または複数))のみを選択し、レンダリングすることによって、そのようなメタデータに応答するよう構成されていてもよい。
本発明のオブジェクト・ベース・オーディオ・プログラムのオブジェクト・チャネルに関するオブジェクト関係メタデータの例は:オブジェクト・チャネルをどのようにレンダリングするかについての詳細情報を示すメタデータ;動的な時間的メタデータ(たとえば、オブジェクトのパンのための軌跡、オブジェクト・サイズ、利得などを示す);およびオブジェクト・チャネルを(たとえば利用可能な再生スピーカー・アレイの編成の知識を用いて)レンダリングするためにAVR(または本発明のいくつかの実装のデコードおよびオブジェクト処理サブシステムから下流の他の装置またはシステム)によって使うためのメタデータを含む(ただしそれに限定されない)。そのようなメタデータは、オブジェクト位置、利得、ミュートまたは他のレンダリング・パラメータについての制約条件および/またはオブジェクトがどのように他のオブジェクトと相互作用するかについての制約条件(たとえば、特定のオブジェクトが選択されることが与えられたとき、どの追加的なオブジェクトが選択されうるかについての制約条件)を指定してもよく、および/または(他のオブジェクトおよび/またはレンダリング・パラメータのユーザー選択がないときに使用される)デフォルトのオブジェクトおよび/またはデフォルトのレンダリング・パラメータを指定してもよい。
いくつかの実装では、本発明のオブジェクト・ベース・オーディオ・プログラムの少なくともいくつかのオブジェクト関係メタデータが(および任意的にはオブジェクト・チャネルの少なくともいくつかも)プログラムのスピーカー・チャネルのベッドおよび通常のメタデータとは別個のビットストリームまたは他のコンテナ内で(たとえば受領および/または利用するためにユーザーが追加料金を支払う必要があってもよいサイド混合として)送られる。そのようなオブジェクト関係メタデータ(またはオブジェクト関係メタデータおよびオブジェクト・チャネル)へのアクセスなしでは、ユーザーはスピーカー・チャネルのベッドをデコードしてレンダリングすることはできるが、プログラムのオーディオ・オブジェクトを選択することはできず、スピーカー・チャネル・ベッドによって示されるオーディオとの混合においてプログラムのオーディオ・オブジェクトをレンダリングすることはできない。本発明のオブジェクト・ベース・オーディオ・プログラムの各フレームは、複数のオブジェクト・チャネルおよび対応するオブジェクト関係メタデータのオーディオ・コンテンツを含んでいてもよい。
本発明のいくつかの実施形態に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、スピーカー・チャネルおよびオブジェクト・チャネル(単数または複数)の選択可能な混合(たとえばあらゆる選択可能な混合)を示す層構成のグラフ(時に層構成の「混合グラフ」と称される)を示すメタデータとを含む。たとえば、混合グラフは、スピーカーおよびオブジェクト・チャネルの部分集合の選択に適用可能な各規則を示す。典型的には、エンコードされたオーディオ・ビットストリームは、プログラムのオーディオ・コンテンツ(たとえば、スピーカー・チャネルのベッドと、プログラムのオブジェクト・チャネルの少なくとも一部)およびオブジェクト関係メタデータ(混合グラフを示すメタデータを含む)の少なくともいくらか(すなわち少なくとも一部)を示し、任意的にはまた、少なくとも一つの追加的なエンコードされたオーディオ・ビットストリームまたはファイルが、プログラムのオーディオ・コンテンツおよび/またはオブジェクト関係メタデータの一部を示す。
層構成の混合グラフは、ノード(各ノードは選択可能なチャネルまたはチャネル集合または選択可能なチャネルまたはチャネル集合のカテゴリーを示していてもよい)およびノード間の接続(たとえば、それらのノードへの制御インターフェースおよび/またはチャネルを選択するための規則)を示し、本質的なデータ(「基本」層)および任意的な(すなわち任意的に省略される)データ(少なくとも一つの「拡張」層)を含む。典型的には、層構成の混合グラフは、プログラムを示すエンコードされたオーディオ・ビットストリームの一つに含められ、(再生システム、たとえばエンドユーザーの再生システムによって実施される)グラフをたどることによって評価されて、チャネルのデフォルト混合および該デフォルト混合を修正するためのオプションを判別することができる。
混合グラフが木グラフとして表現できる場合には、基本層は木グラフの枝(または二本以上の枝)であることができ、各拡張層は木グラフの別の枝(または二本以上の枝の別の集合)であることができる。たとえば、(基本層によって示される)木グラフのある枝は、すべてのエンドユーザーに利用可能な選択可能なチャネルおよびチャネル集合を示していてもよく、(拡張層によって示される)木グラフの別の枝は、一部のエンドユーザーにのみ利用可能な追加的な選択可能なチャネルおよび/またはチャネル集合を示していてもよい(そのような拡張層は、それを使うことが許諾されたエンドユーザーのみに提供されるだけであってもよい)。図9は、オブジェクト・チャネル・ノード(オブジェクト・チャネルN0、N1、N2、N3、N4、N5、N6を示すノード)および混合グラフの他の要素を含む木グラフの例である。
典型的には、基本層は、グラフ構造およびグラフのノードへの制御インターフェース(たとえば、パンおよび利得制御インターフェース)を含む(示す)。基本層は任意の対話をデコード/レンダリング・プロセスにマッピングするために必要である。
各拡張層は、基本層への拡張を含む(示す)。拡張は、ユーザー対話をデコード・プロセスにマッピングするためにただちに必要なわけではなく、よってより遅いレートで伝送されたり、および/または遅延もしくは省略されたりすることができる。
いくつかの実施形態では、基本層はプログラムの独立サブストリームのメタデータとして含められる(たとえば、独立サブストリームのメタデータとして伝送される)。
本発明のいくつかの実施形態に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、スピーカー・チャネルおよびオブジェクト・チャネル(単数または複数)の選択可能な混合(たとえばあらゆる選択可能な混合)を示す(層構成の混合グラフであってもなくてもよい)混合グラフを示すメタデータとを含む。エンコードされたオーディオ・ビットストリーム(たとえばドルビーEまたはE-AC-3ビットストリーム)は、プログラムの少なくとも一部分を示し、混合グラフを(典型的には選択可能なオブジェクトおよび/またはスピーカー・チャネルも)示すメタデータがビットストリームの毎フレームに(またはビットストリームのフレームの部分集合の各フレームに)含まれる。たとえば、各フレームは、少なくとも一つのメタデータ・セグメントおよび少なくとも一つのオーディオ・データ・セグメントを含んでいてもよく、混合グラフは各フレームの少なくとも一つのメタデータ・セグメントに含められてもよい。各メタデータ・セグメント(これは「コンテナ」と称されてもよい)は、メタデータ・セグメント・ヘッダ(および任意的には他の要素も)と、該メタデータ・セグメント・ヘッダに続く一つまたは複数のメタデータ・ペイロードとを含むフォーマットを有していてもよい。各メタデータ・ペイロード自身はペイロード・ヘッダによって同定される。混合グラフは、メタデータ・セグメント中に存在すれば、メタデータ・セグメントのメタデータ・ペイロードの一つに含まれる。
いくつかの実施形態では、本発明に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも二つのベッドと、少なくとも一つのオブジェクト・チャネルと、(層構成の混合グラフであってもなくてもよい)混合グラフを示すメタデータとを含む。混合グラフは、スピーカー・チャネルおよびオブジェクト・チャネルの選択可能な諸混合を示し、少なくとも一つの「ベッド混合」ノードを含む。各「ベッド混合」ノードは、スピーカー・チャネル・ベッドのあらかじめ決定された混合を定義し、よってプログラムの二つ以上のスピーカー・ベッドのスピーカー・チャネルを混合するための混合規則(任意的にはユーザー選択可能なパラメータをもつ)のあらかじめ決定された集合を示すまたは実装する。
オーディオ・プログラムがスタジアムにおけるチームA(ホーム・チーム)とチームBの間のサッカー(フットボール)試合に関連し、スタジアム内の群中全体についての(マイクロホン・フィードによって決定される)5.1スピーカー・チャネル・ベッドと、チームAに向けて偏った群衆の部分についてのステレオ・フィード(すなわち、チームAのファンによって主として占められるスタジアムのセクションに座っている観客から捕捉されたオーディオ)と、チームBに向けて偏った群衆の部分についてのもう一つのステレオ・フィード(すなわち、チームBのファンによって主として占められるスタジアムのセクションに座っている観客から捕捉されたオーディオ)とを含む例を考える。これら三つのフィード(5.1チャネル中立ベッド、2.0チャネル「チームA」ベッドおよび2.0チャネル「チームB」ベッド)をミキシング・コンソール上で混合して次の四つの5.1スピーカー・チャネル・ベッド(これらは「ファン・ゾーン」ベッドと称されてもよい)を生成することが可能である:偏りのない、ホームに偏った(中立およびチームAのベッドの混合)、アウェーに偏った(中立およびチームBのベッドの混合)および対立(中立ベッドを、部屋の一方の側にパンされたチームAベッドおよび部屋の反対側にパンされたチームBベッドと混合したもの)。しかしながら、四つの5.1チャネル・ベッドの伝送は、ビットレートの点で高価である。そこで、本発明のビットストリームのある実施形態は、ユーザー混合選択(単数または複数)に基づいて(たとえばエンドユーザーの家庭における)再生システムによって実装されるべき(たとえば上記の四つの混合された5.1チャネル・ベッドを生成するよう、スピーカー・チャネル・ベッドを混合するための)ベッド混合規則を指定するメタデータと、該規則に従って混合されることのできるスピーカー・チャネル・ベッド(たとえば、もとの5.1チャネル・ベッドおよび二つの偏ったステレオ・スピーカー・チャネル・ベッド)とを含む。混合グラフのベッド混合ノードに応答して、再生システムは、ユーザーに対して、四つの上記の混合された5.1チャネル・ベッドのうちの一つを選択するオプション(図6のシステムのコントローラ23によって実装されるユーザー・インターフェースを介して表示される)を呈示することができる。この混合された5.1チャネル・ベッドのユーザー選択に応答して、再生システム(たとえば図6のシステムのサブシステム22)は、ビットストリームにおいて伝送される(混合されない)スピーカー・チャネル・ベッドを使って選択された混合を生成する。
いくつかの実施形態では、ベッド混合規則は、以下の動作を考えている(これらは、あらかじめ決定されたパラメータまたはユーザー選択可能なパラメータを有していてもよい)。
ベッド「回転」(すなわち、左、右、前または後へのスピーカー・チャネル・ベッドのパン)。たとえば、上述した「対立」混合を生成するために、ステレオのチームAベッドは再生スピーカー・アレイの左側に回転され(チームAベッドのLおよびRチャネルは再生システムのLおよびLsチャネルにマップされる)、ステレオのチームBベッドは再生スピーカー・アレイの右側に回転される(チームBベッドのLおよびRチャネルは再生システムのRおよびRsチャネルにマップされる)。このように、再生システムのユーザー・インターフェースは、上述した四つの「偏りのない」「ホームに偏った」「アウェーに偏った」および「対立」ベッド混合のうちの一つの選択をエンドユーザーに対して呈示してもよく、「対立」ベッド混合がユーザー選択されると、再生システムは、「対立」ベッド混合のレンダリングの間に適切なベッド回転を実施する。
ベッド混合中の特定のスピーカー・チャネル(目標チャネル)の(典型的には上余地を作るための)ダッキング(すなわち減衰)。たとえば、上述したサッカー試合の例において、再生システムのユーザー・インターフェースは、上述した四つの「偏りのない」「ホームに偏った」「アウェーに偏った」および「対立」ベッド混合のうちの一つの選択をエンドユーザーに対して呈示してもよく、「対立」ベッド混合のユーザー選択に応答して、再生システムは、中立的な5.1チャネル・ベッドのL、Ls、R、Rsチャネルのそれぞれを(ビットストリーム中のメタデータによって指定される)所定量だけダッキング(減衰)してから、減衰された5.1チャネル・ベッドをステレオの「チームA」および「チームB」ベッドと混合して「対立」ベッド混合を生成することによって、「対立」ベッド混合のレンダリングの間に目標ダッキングを実施してもよい。
別のクラスの実施形態では、本発明に従って生成される(または伝送、記憶、バッファリング、デコード、レンダリングまたは他の処理をされる)オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、オブジェクト関係メタデータとを含む。オブジェクト関係メタデータは、「サブストリーム」メタデータ(プログラムのサブストリーム構造および/またはそれらのサブストリームがデコードされるべき仕方を示す)を、および典型的にはスピーカー・チャネルおよびオブジェクト・チャネル(単数または複数)の選択可能な混合(たとえばあらゆる選択可能な混合)を示す混合グラフをも含む。サブストリーム・メタデータは、プログラムのどのサブストリームがプログラムの他のサブストリームと独立にデコードされるべきかおよびプログラムのどのサブストリームがプログラムの少なくとも一つの他のサブストリームとの関連でデコードされるべきかを示してもよい。
たとえば、いくつかの実施形態では、エンコードされたオーディオ・ビットストリームは、プログラムのオーディオ・コンテンツ(たとえば、スピーカー・チャネルの少なくとも一つのベッドと、プログラムのオブジェクト・チャネルの少なくとも一部)およびメタデータ(たとえば混合グラフおよびサブストリーム・メタデータおよび任意的には他のメタデータも)の少なくともいくらか(すなわち少なくとも一部)を示し、少なくとも一つの追加的なエンコードされたオーディオ・ビットストリーム(またはファイル)が、プログラムのオーディオ・コンテンツおよび/またはメタデータの一部を示す。各サブストリームがドルビーEビットストリームである(またはAES3シリアル・デジタル・オーディオ・ビットストリーム内に非pcmデータを担持するSMPTE337フォーマットに整合する仕方でエンコードされている)場合、それらのビットストリームは集団的に、8チャネルまでのオーディオ・コンテンツのいくつかを示すことができる。各ビットストリームは8チャネルまでのオーディオ・データを担持し、典型的にはメタデータも含む。各ビットストリームは、すべてのオーディオ・データおよびすべてのビットストリームによって担持されるメタデータを示す組み合わされたビットストリームのサブストリームと考えられることができる。
もう一つの例として、いくつかの実施形態では、エンコードされたオーディオ・ビットストリームは、少なくとも一つのオーディオ・プログラムの、メタデータ(たとえば、混合グラフおよびサブストリーム・メタデータおよび任意的には他のオブジェクト関係メタデータも)およびオーディオ・コンテンツの複数のサブストリームを示す。典型的には、各サブストリームは、プログラムのチャネル(および典型的にはメタデータも)の一つまたは複数を示す。いくつかの場合には、エンコードされたオーディオ・ビットストリームの複数のサブストリームは、いくつかのオーディオ・プログラム、たとえば「メイン」オーディオ・プログラム(これはマルチチャネル・プログラムであってもよい)および少なくとも一つの他のオーディオ・プログラム(たとえばメイン・オーディオ・プログラムについてのコメンタリーであるプログラム)のオーディオ・コンテンツを示す。
少なくとも一つのオーディオ・プログラムを示すエンコードされたオーディオ・ビットストリームは、オーディオ・コンテンツの少なくとも一つの「独立」サブストリームを必ず含む。独立サブストリームは、オーディオ・プログラムの少なくとも一つのチャネルを示す(たとえば、独立サブストリームは、通常の5.1チャネル・オーディオ・プログラムの五つのフルレンジ・チャネルを示してもよい)。ここで、このオーディオ・プログラムは「メイン」プログラムと称される。
いくつかの場合には、エンコードされたオーディオ・ビットストリームは、二つ以上のオーディオ・プログラム(「メイン」プログラムおよび少なくとも一つの他のオーディオ・プログラム)を示す。そのような場合、ビットストリームは、二つ以上の独立サブストリームを含む。メイン・プログラムの少なくとも一つのチャネルを示す第一の独立サブストリームと、別のオーディオ・プログラム(メイン・プログラムとは異なるプログラム)の少なくとも一つのチャネルを示す少なくとも一つの他の独立サブストリームである。各独立ビットストリームは、独立にデコードされることができ、デコーダは、エンコードされたビットストリームの独立サブストリームのうちの部分集合(全部ではない)のみをデコードするよう動作できる。
任意的に、メイン・プログラム(および任意的には少なくとも一つの他のオーディオ・プログラムも)を示すエンコードされたオーディオ・ビットストリームは、オーディオ・コンテンツの少なくとも一つの「従属」サブストリームを含む。各従属サブストリームは、ビットストリームの一つの独立サブストリームに関連付けられており、関連付けられた独立サブストリームによって示されるコンテンツをもつ当該プログラム(たとえばメイン・プログラム)の少なくとも一つの追加的チャネルを示す(すなわち、従属サブストリームは、関連付けられた独立サブストリームによって示されているのではないプログラムの少なくとも一つのチャネルを示し、関連付けられた独立サブストリームはプログラムの少なくとも一つのチャネルを示す)。
(メイン・プログラムの少なくとも一つのチャネルを示す)独立サブストリームを含むエンコードされたビットストリームでは、ビットストリームは、メイン・プログラムの一つまたは複数の追加的スピーカー・チャネルを示す(独立ビットストリームに関連付けられた)従属サブストリームをも含む。そのような追加的なスピーカー・チャネルは、独立サブストリームによって示されるメイン・プログラム・チャネルに対して追加的である。たとえば、独立サブストリームが7.1チャネル・メイン・プログラムの標準フォーマットの左、右、中央、左サラウンド、右サラウンドのフルレンジ・スピーカー・チャネルを示す場合、従属サブストリームは、メイン・プログラムの残りの二つのフルレンジ・スピーカー・チャネルを示してもよい。
E-AC-3規格によれば、通常のE-AC-3ビットストリームは、少なくとも一つの独立サブストリーム(たとえば単一のAC-3ビットストリーム)を示す必要があり、八つまでの独立サブストリームを示してもよい。E-AC-3ビットストリームの各独立サブストリームは、八つまでの従属サブストリームに関連付けられてもよい。
ある例示的実施形態(図11を参照して後述)では、オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、少なくとも一つのオブジェクト・チャネルと、メタデータとを含む。メタデータは、(プログラムのオーディオ・コンテンツのサブストリーム構造および/またはプログラムのオーディオ・コンテンツのサブストリームがデコードされるべき仕方を示す)「サブストリーム」メタデータを含み、典型的には、スピーカー・チャネルおよびオブジェクト・チャネルの選択可能な混合を示す混合グラフをも含む。サッカー試合に関連付けられたオーディオ・プログラム。エンコードされたオーディオ・ビットストリーム(たとえばE-AC-3ビットストリーム)は、プログラムのオーディオ・コンテンツおよびメタデータを示す。プログラムの(よってビットストリームの)オーディオ・コンテンツは、図11に示されるように四つの独立サブストリームを含む。一つの独立サブストリーム(図11においてサブストリームI0とラベル付けされている)は、サッカー試合における中立の群衆ノイズを示す5.1スピーカー・チャネル・ベッドを示す。別の独立サブストリーム(図11においてサブストリームI1とラベル付けされている)は、一方のチーム(「チームA」)寄りに偏っている試合群衆の部分からの音を示す2.0チャネルの「チームA」ベッド(「M群衆」)、他方のチーム(「チームB」)寄りに偏っている試合群衆の部分からの音を示す2.0チャネルの「チームB」ベッド(「LibP群衆」)および試合についてのコメンタリーを示すモノフォニック・オブジェクト・チャネル(「Sky comm1」)を示す。第三の独立サブストリーム(図11においてサブストリームI2とラベル付けされている)は、サッカー試合イベント参加者によってボールが打撃された際に試合ボールによって出される音を示すオブジェクト・チャネル・オーディオ・コンテンツ(「2/0ボールキック」とラベル付けされている)およびサッカー試合についての異なるコメンタリーをそれぞれ示す三つのオブジェクト・チャネル(「Sky comm2」、「Man comm」および「Liv Comm」)を示す。第四の独立サブストリーム(図11ではサブストリームI3とラベル付けされている)は、サッカー試合におけるスタジアムの公共アナウンス・システムによって生成される音を示すオブジェクト・チャネル(「PA」とラベル付けされている)、サッカー試合のラジオ放送を示すオブジェクト・チャネル(「ラジオ」とラベル付けされている)およびサッカー試合の間のゴールのスコアすることを示すオブジェクト・チャネル(「ゴールフラッシュ」とラベル付けされている)を示す。
図11の例では、サブストリームI0は、プログラムについての混合グラフと、サブストリーム・メタデータの少なくとも一部および少なくともいくらかのオブジェクト・チャネル関係メタデータを含むメタデータ(「obj md」)とを含む。サブストリームI1、I2およびI3のそれぞれは、少なくともいくらかのオブジェクト・チャネル関係メタデータおよび任意的には少なくともいくらかのサブストリーム・メタデータのメタデータ(「obj md」)を含む。
図11の例では、ビットストリームのサブストリーム・メタデータは、デコードの間に、独立サブストリームの各対の間で結合が「オフ」であるべきであることを示す(それにより、各独立サブストリームは他の独立サブストリームとは独立にデコードされる)。ビットストリームのサブストリーム・メタデータは、各サブストリーム内の、結合が「オン」であるべき(よってこれらのチャネルは互いと独立にはデコードされない)または「オフ」であるべき(よってこれらのチャネルは互いと独立にデコードされる)プログラム・チャネルを示す。たとえば、サブストリーム・メタデータは、結合が、サブストリームI1の二つのステレオ・スピーカー・チャネル・ベッド(2.0チャネルの「チームA」ベッドおよび2.0チャネルの「チームB」ベッド)のそれぞれの内部では「オン」であるべきだが、サブストリームI1のスピーカー・チャネル・ベッド間、および、(モノフォニック・オブジェクト・チャネルとスピーカー・チャネル・ベッドが互いに独立にデコードされるよう)サブストリームI1のモノフォニック・オブジェクト・チャネルと各スピーカー・チャネル・ベッドとの間では無効にされるべきであることを示す。同様に、サブストリーム・メタデータは、結合が、(当該ベッドのスピーカー・チャネルが互いとの関連でデコードされるよう)サブストリームI0の5.1スピーカー・チャネル・ベッドの内部では「オン」であるべきであることを示す。
いくつかの実施形態では、スピーカー・チャネルおよびオブジェクト・チャネルは、プログラムの混合グラフに適切な仕方でオーディオ・プログラムのサブストリーム内に含められる(「パッキングされる」)。たとえば、混合グラフが木グラフであれば、グラフのある枝のすべてのチャネルが一つのサブストリーム内に含まれてもよく、グラフの別の枝のすべてのチャネルは別のサブストリーム内に含まれてもよい。
あるクラスの実施形態では、本発明は、オブジェクト・ベース・オーディオ・プログラムを生成する方法である。前記方法は:
捕捉されたオーディオ・コンテンツ(たとえば図8のシステムのマイクロホンの出力または図10のシステムのサブシステム210への入力)を示すオーディオ信号の集合の第一の部分集合のオーディオ・コンテンツを示すスピーカー・チャネルのベッドを決定する段階と;
オーディオ信号の前記集合の第二の部分集合のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定する段階と;
前記オブジェクト・チャネルを示すオブジェクト関係メタデータを生成する段階と;
前記オブジェクト・ベース・オーディオ・プログラムを生成する段階とを含む。それにより、前記オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの前記ベッドと、前記オブジェクト・チャネルと、前記オブジェクト関係メタデータとを示し、スピーカー・チャネルの前記ベッドによって示される第一のオーディオ・コンテンツと前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされる。典型的には、前記オブジェクト関係メタデータの少なくともいくらか(すなわち少なくとも一部)は、前記オブジェクト・チャネルの少なくともいくつかの各チャネルの識別情報を示す、および/または前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合の部分集合のエンドユーザーによる選択がないときにレンダリングされるべきオブジェクト・チャネルの前記集合のデフォルトの部分集合を示す。このクラスのいくつかの実施形態は、(たとえば観客イベントにおいて)オーディオ・コンテンツを捕捉することによることを含め、オーディオ信号の前記集合を生成する段階をも含む。
別のクラスの実施形態では、本発明は、オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングする方法である。前記プログラムは、スピーカー・チャネルのベッドと、オブジェクト・チャネルの集合と、オブジェクト関係メタデータとを含む。本方法は:
(a)オブジェクト・チャネルの前記集合の選択された部分集合を決定する段階と;
(b)前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングする段階とを含む。該レンダリングは、スピーカー・チャネルの前記ベッドによって示される第一のオーディオ・コンテンツおよび前記オブジェクト・チャネルの前記選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む。
いくつかの実施形態では、本方法は、スピーカーのセットを含む再生システムによって実行され、(b)は、前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの混合に応答して、音を発するようスピーカーの前記セットを駆動するためのスピーカー・フィードを生成する段階を含む。該音は、前記第二のオーディオ・コンテンツを示すオブジェクト・チャネル音を含み、該オブジェクト・チャネル音は、前記オブジェクト・チャネルの前記選択された部分集合によって決定される見かけの源位置から発しているものとして知覚できる。スピーカー・チャネルの前記ベッドは、スピーカーの前記セットにおける各スピーカーについてのスピーカー・チャネルを含んでいてもよい。
図10は、本発明のある実施形態を実装するシステムのブロック図である。
図10のシステムのオブジェクト処理システム(オブジェクト・プロセッサ)200は、メタデータ生成サブシステム210と、中間(mezzanine)エンコーダ212と、エミュレーション・サブシステム211とを図のように結合されて含んでいる。メタデータ生成サブシステム210は、捕捉されたオーディオ・ストリーム(たとえば、観客イベントのところに位置されているマイクロホンによって捕捉された音を示すストリームおよび任意的には他のオーディオ・ストリームも)を受領するよう結合され、コンソール104からのオーディオ・ストリームをスピーカー・チャネルのベッドおよびいくつかのオブジェクト・チャネルおよび/またはオブジェクト・チャネル集合に編成(たとえばグループ化)するよう構成されている。サブシステム210は、オブジェクト・チャネル(および/またはオブジェクト・チャネル集合)を示すオブジェクト関係メタデータを生成するようにも構成されている。エンコーダ212は、オブジェクト・チャネル(および/またはオブジェクト・チャネル集合)、オブジェクト関係メタデータおよびスピーカー・チャネル・ベッドを中間(mezzanine)型オブジェクト・ベース・オーディオ・プログラム(たとえば、ドルビーEビットストリームとしてエンコードされたオブジェクト・ベース・オーディオ・プログラム)としてエンコードするよう構成されている。
オブジェクト・プロセッサ200のエミュレーション・サブシステム211は、オブジェクト・チャネル(および/またはオブジェクト・チャネル集合)およびスピーカー・チャネル・ベッドの少なくとも選択された部分集合をレンダリング(およびスタジオ・モニタ・スピーカーで再生)して(オブジェクト関係メタデータを使って選択されたオブジェクト・チャネルおよびスピーカー・チャネルを示す混合を生成することによることを含む)、再生された音がサブシステム200の操作者によってモニタリングできるようにするよう構成されている。
図10のシステムのトランスコーダ202は、中間デコーダ・サブシステム(中間デコーダ)213およびエンコーダ214を図のように結合されて含む。中間デコーダ213は、オブジェクト・プロセッサ200から出力される中間型オブジェクト・ベース・オーディオ・プログラムを受領してデコードするよう結合され、構成されている。デコーダ213のデコードされた出力は、エンコーダ214によって放送に好適なフォーマットに再エンコードされる。ある実施形態では、エンコーダ214から出力されるエンコードされたオブジェクト・ベース・オーディオ・プログラムはE-AC-3ビットストリームである(よって、エンコーダ214は図10では「DD+エンコーダ」とラベル付けされている)。他の実施形態では、エンコーダ214から出力されるエンコードされたオブジェクト・ベース・オーディオ・プログラムはAC-3ビットストリームであるまたは他の何らかのフォーマットをもつ。トランスコーダ202のオブジェクト・ベース・オーディオ・プログラム出力は、幾人かのエンドユーザーに放送される(または他の仕方で送達される)。
デコーダ204は、あるそのようなエンドユーザーの再生システムに含まれる。デコーダ204は、デコーダ215およびレンダリング・サブシステム(レンダラー)216を図のように結合されて含む。デコーダ215は、トランスコーダ202から送達されるオブジェクト・ベース・オーディオ・プログラムを受け入れ(受領しまたは読み出し)、デコードする。デコーダ215が本発明の典型的な実施形態に従って構成されている場合、典型的な動作におけるデコーダ215の出力は、プログラムのスピーカー・チャネルのベッドを示すオーディオ・サンプルのストリームと、プログラムのオブジェクト・チャネル(たとえばユーザー選択可能なオーディオ・オブジェクト・チャネル)を示すオーディオ・サンプルのストリームと、オブジェクト関係メタデータの対応するストリームとを含む。ある実施形態では、デコーダ215に入力されるエンコードされたオブジェクト・ベース・オーディオ・プログラムはE-AC-3ビットストリームであり、よってデコーダ215は図10では「DD+デコーダ」とラベル付けされている。
デコーダ204のレンダラー216は、送達されたプログラムのデコードされたスピーカー・チャネル、オブジェクト・チャネルおよびオブジェクト関係メタデータを(デコーダ215から)受領するよう結合されているオブジェクト処理サブシステムを含む。レンダラー216は、オブジェクト処理サブシステムによって決定されたオーディオ・コンテンツを、再生システムのスピーカー(図示せず)による再生のためにレンダリングするよう構成されたレンダリング・サブシステムをも含む。
典型的には、レンダラー216のオブジェクト処理サブシステムは、レンダラー216のレンダリング・サブシステムに対して、プログラムによって示されるオブジェクト・チャネルのフル・セットの選択された部分集合と、対応するオブジェクト関係メタデータとを出力するよう構成される。レンダラー216のオブジェクト処理サブシステムは、典型的には、デコーダ215からのデコードされたスピーカー・チャネルを不変のまま(レンダリング・サブシステムに)通過させるようにも構成される。オブジェクト処理サブシステムによって実行されるオブジェクト・チャネル選択は、本発明のある実施形態に基づいて、たとえばユーザー選択(単数または複数)および/またはレンダラー216が実装するようプログラムされているまたは他の仕方で構成されている(たとえば条件および/または制約を示す)規則によって、決定される。
図10の要素200、202および204のそれぞれ(および図8の要素104、106、108および110のそれぞれ)は、ハードウェア・システムとして実装されてもよい。プロセッサ200(またはプロセッサ106)のそのようなハードウェア実装の入力は典型的にはマルチチャネル・オーディオ・デジタル・インターフェース(MADI)入力である。典型手金は、図8のプロセッサ106および図10のエンコーダ212および214のそれぞれは、フレーム・バッファを含む。典型的には、このフレーム・バッファは、エンコードされた入力オーディオ・ビットストリームを受領するよう結合されたバッファ・メモリであり、動作では、バッファ・メモリは、エンコードされたオーディオ・ビットストリームの少なくとも一つのフレームを(たとえば非一時的な仕方で)記憶し、エンコードされたオーディオ・ビットストリームのフレームのシーケンスはバッファ・メモリから下流の装置またはシステムに呈される。また、典型的には、図10のデコーダ213および215のそれぞれは、フレーム・バッファを含む。典型的には、このフレーム・バッファは、エンコードされた入力オーディオ・ビットストリームを受領するよう結合されたバッファ・メモリであり、動作では、バッファ・メモリは、デコーダ213または215によってデコードされるべきエンコードされたオーディオ・ビットストリームの少なくとも一つのフレームを(たとえば非一時的な仕方で)記憶する。
図8のプロセッサ106(または図10のサブシステム200、202および/または204)のコンポーネントまたは要素はいずれも、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として実装されてもよい。
本発明のある側面は、本発明の方法の任意の実施形態を実行するよう構成されたオーディオ処理ユニット(APU)である。APUの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、コーデック、前処理システム(前処理器)、後処理システム(後処理器)、オーディオ・ビットストリーム処理システムおよびそのような要素の組み合わせを含むがそれに限定されるものではない。
あるクラスの実施形態では、本発明は、本発明の方法の任意の実施形態によって生成されたオブジェクト・ベース・オーディオ・プログラムの少なくとも一つのフレームまたは他のセグメント(スピーカー・チャネルのベッドとオブジェクト・チャネルとのオーディオ・コンテンツおよびオブジェクト関係メタデータを含む)を(たとえば非一時的な仕方で)記憶するバッファ・メモリ(バッファ)を含むAPUである。たとえば、図5のプロダクション・ユニット3は、バッファ3Aを含んでいてもよく、これがユニット3によって生成されたオブジェクト・ベース・オーディオ・プログラムの少なくとも一つのフレームまたは他のセグメント(スピーカー・チャネルのベッドとオブジェクト・チャネルとのオーディオ・コンテンツおよびオブジェクト関係メタデータを含む)を(たとえば非一時的な仕方で)記憶する。もう一つの例として、図5のデコーダ7は、バッファ7Aを含んでいてもよく、これがサブシステム5からデコーダ7に送達されたオブジェクト・ベース・オーディオ・プログラムの少なくとも一つのフレームまたは他のセグメント(スピーカー・チャネルのベッドとオブジェクト・チャネルとのオーディオ・コンテンツおよびオブジェクト関係メタデータを含む)を(たとえば非一時的な仕方で)記憶する。
本発明の実施形態は、ハードウェア、ファームウェアまたはソフトウェアまたはそれらの組み合わせにおいて(たとえばプログラム可能な論理アレイとして)実装されてもよい。たとえば、図8または図7のシステムのサブシステム106または図6のシステムの要素20、22、24、25、26、29、35、31、35の全部もしくは一部または図10の要素200、202、204の全部もしくは一部は、適切にプログラムされた(または他の仕方で構成された)ハードウェアまたはファームウェアにおいて、たとえばプログラムされた汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサとして実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していない。特に、さまざまな汎用機械が、本願の教示に従って書かれたプログラムとともに使用されてもよく、あるいは必要とされる方法ステップを実行するためにより特化した装置(たとえば集積回路)を構築することがより便利であることがある。このように、本発明は、一つまたは複数のプログラム可能なコンピュータ・システム(たとえば、図6の要素20、22、24、25、26、29、35、31、35の全部もしくは一部の実装)上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは、少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶要素を含む)、少なくとも一つの入力装置またはポートおよび少なくとも一つの出力装置またはポートを有する。本稿に記載される機能を実行し、出力情報を生成するようプログラム・コードが入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。
そのような各プログラムは、コンピュータ・システムと通信するためにいかなる所望されるコンピュータ言語(機械、アセンブリーまたは高水準手続き型、論理的またはオブジェクト指向のプログラミング言語を含む)において実装されてもよい。いずれの場合にも、言語はコンパイルされる言語でもインタープリットされる言語でもよい。
たとえば、コンピュータ・ソフトウェア命令のシーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド式のソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応してもよい。
そのような各コンピュータ・プログラムは好ましくは、汎用または専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス(たとえば半導体メモリまたはメディアまたは磁気式もしくは光学式メディア)に記憶されるまたはダウンロードされ、記憶媒体またはデバイスがコンピュータ・システムによって読まれたときに、本稿に記載される手順を実行するようコンピュータを構成するまたは動作させる。本発明のシステムは、コンピュータ・プログラムをもって構成された(すなわちコンピュータ・プログラムを記憶している)コンピュータ可読記憶媒体として実装されてもよく、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう特定のあらかじめ定義された仕方で動作させる。
本発明のいくつかの実施形態を記述してきたが、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解しておくべきである。上記の教示に照らして、本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明が、本稿で具体的に記載される以外の仕方で実施されてもよいことは理解される。
いくつかの態様を記載しておく。
〔態様1〕
オブジェクト・ベース・オーディオ・プログラムを生成する方法であって:
捕捉されたオーディオ・コンテンツを示すオーディオ信号の集合の第一の部分集合のオーディオ・コンテンツを示すスピーカー・チャネルの少なくとも一つのベッドを決定する段階と;
オーディオ信号の前記集合の第二の部分集合のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定する段階と;
前記オブジェクト・チャネルを示すオブジェクト関係メタデータを生成する段階と;
前記オブジェクト・ベース・オーディオ・プログラムを生成する段階であって、前記オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの各前記ベッドと、前記オブジェクト・チャネルと、前記オブジェクト関係メタデータとを示し、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツと前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされる、段階とを含む、
方法。
〔態様2〕
前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合の部分集合のエンドユーザーによる選択がないときにレンダリングされるべきオブジェクト・チャネルの前記集合のデフォルトの部分集合を示す、態様1記載の方法。
〔態様3〕
前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合のどのオブジェクト・チャネルが少なくとも一つのオブジェクト選択規則を満たすかを示す、態様1記載の方法。
〔態様4〕
前記オブジェクト・ベース・オーディオ・プログラムを生成する段階が、前記オブジェクト・ベース・オーディオ・プログラムが、エンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含むように実行され、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの少なくとも一つの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルおよび/または前記オブジェクト関係メタデータの第二の部分集合のオーディオ・コンテンツを示す、態様1記載の方法。
〔態様5〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの少なくとも一つによって示されるオーディオ・コンテンツが、前記観客イベントにおける群衆ノイズまたは前記観客イベントについてのコメンタリーの少なくとも一方を示す、態様1記載の方法。
〔態様6〕
前記第一のオーディオ・コンテンツがスポーツ・イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記スポーツ・イベントにおけるホーム・チーム群衆ノイズまたはアウェー・チーム群衆ノイズを示す、態様1記載の方法。
〔態様7〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記観客イベントについてのコメンタリーを示す、態様1記載の方法。
〔態様8〕
前記オブジェクト・ベース・オーディオ・プログラムの前記オブジェクト関係メタデータが、耐久メタデータおよび非耐久メタデータを含み、当該方法はさらに:
前記オブジェクト・ベース・オーディオ・プログラムを少なくとも一つの再生システムに送達する段階を含み、前記非耐久メタデータの少なくとも一部は前記オブジェクト・ベース・プログラムを送達する段階の間に修正されるが、前記耐久メタデータは前記オブジェクト・ベース・プログラムを送達する段階の間、保存される、態様1記載の方法。
〔態様9〕
前記耐久メタデータの少なくとも一部は同期語を示し、前記同期語は、前記プログラムの少なくとも一部のオーディオ・コンテンツの、前記プログラムの少なくとも一つの他の要素のタイミングに対するタイミングを示し、前記オブジェクト・ベース・オーディオ・プログラムは、前記オブジェクト・ベース・オーディオ・プログラムがエンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含み、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの少なくとも一つの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルの第二の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示すように生成され、
前記同期語の第一の部分集合が前記エンコードされたオーディオ・ビットストリームに含められ、前記同期語の第二の部分集合が少なくとも一つの前記サイド混合に含められる、
態様8記載の方法。
〔態様10〕
前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドに含まれる、態様1記載の方法。
〔態様11〕
前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームのaddbsiフィールドに含まれる、態様1記載の方法。
〔態様12〕
前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、態様1記載の方法。
〔態様13〕
オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングする方法であって、前記プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、オブジェクト・チャネルの集合と、オブジェクト関係メタデータとを含み、当該方法は:
(a)オブジェクト・チャネルの前記集合の選択された部分集合を決定する段階と;
(b)前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングする段階とを含み、該レンダリングは、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツおよびオブジェクト・チャネルの前記集合の前記選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む、
方法。
〔態様14〕
段階(b)は、オブジェクト・チャネルの前記選択された部分集合のユーザー選択と、オブジェクト・チャネルの前記集合の前記選択された部分集合によって示される少なくとも一つのオブジェクトについてのユーザー指定された利得と、オブジェクト・チャネルの前記集合の前記選択された部分集合によって示される少なくとも一つのオブジェクトの、レンダリング環境内におけるユーザー指定された位置とに基づいて、前記オーディオ・コンテンツを条件付きでレンダリングする段階を含む、態様13記載の方法。
〔態様15〕
当該方法が、スピーカーのセットを含む再生システムによって実行され、段階(b)が:
前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの混合に応答して、音を発するようスピーカーの前記セットを駆動するためのスピーカー・フィードを生成する段階を含む。該音は、前記第二のオーディオ・コンテンツを示すオブジェクト・チャネル音を含み、該オブジェクト・チャネル音は、オブジェクト・チャネルの前記集合の前記選択された部分集合によって決定される見かけの源位置から発しているものとして知覚可能である、
態様13記載の方法。
〔態様16〕
段階(a)が:
選択のために利用可能である前記オブジェクト・チャネルの諸部分集合のメニューを提供する段階と;
前記メニューによって示される前記オブジェクト・チャネルの前記諸部分集合のうちの一つを選択することによって、オブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階とを含む、
態様13記載の方法。
〔態様17〕
前記メニューがコントローラのユーザー・インターフェースによって呈示され、前記コントローラがセットトップデバイスに結合され、前記セットトップデバイスは前記オブジェクト・ベース・オーディオ・プログラムを受領するよう結合され、段階(b)を実行するよう構成されている、態様16記載の方法。
〔態様18〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、オブジェクト・チャネルの前記集合の前記選択された部分集合のオブジェクト・チャネルの少なくとも一つによって示されるオーディオ・コンテンツが、前記観客イベントにおける群衆ノイズまたは前記観客イベントについてのコメンタリーの少なくとも一方を示す、態様13記載の方法。
〔態様19〕
前記第一のオーディオ・コンテンツがスポーツ・イベントにおける音を示し、オブジェクト・チャネルの前記集合の前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記スポーツ・イベントにおけるホーム・チーム群衆ノイズまたはアウェー・チーム群衆ノイズを示す、態様13記載の方法。
〔態様20〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、オブジェクト・チャネルの前記集合の前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記観客イベントについてのコメンタリーを示す、態様13記載の方法。
〔態様21〕
前記オブジェクト・ベース・オーディオ・プログラムが、エンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含み、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルの第二の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示す、態様13記載の方法。
〔態様22〕
前記オブジェクト関係メタデータの少なくとも一部が前記オブジェクト・チャネルの少なくともいくつかの各オブジェクト・チャネルの識別情報を示す、態様13記載の方法。
〔態様23〕
前記オブジェクト関係メタデータの少なくとも一部が、オブジェクト・チャネルの前記集合の部分集合のエンドユーザーによる選択がないときにレンダリングされるべきオブジェクト・チャネルの前記集合のデフォルトの部分集合を示す、態様13記載の方法。
〔態様24〕
前記オブジェクト関係メタデータの少なくとも一部が同期語を示し、前記同期語は、前記プログラムの少なくとも一部のオーディオ・コンテンツの、前記プログラムの少なくとも一つの他の要素のタイミングに対するタイミングを示し、前記オブジェクト・ベース・オーディオ・プログラムは、エンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含み、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの少なくとも一つの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルの第二の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、
前記同期語の第一の部分集合が前記エンコードされたオーディオ・ビットストリームに含められ、前記同期語の第二の部分集合が少なくとも一つの前記サイド混合に含められ、当該方法が、前記同期語の少なくとも一部を使って、前記エンコードされたオーディオ・ビットストリームの、少なくとも一つの前記サイド混合との時間整列を実行する段階を含む、
態様13記載の方法。
〔態様25〕
段階(a)が:
オーディオ・コンテンツの諸混合のメニューを提供する段階であって、選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツとオブジェクト・チャネルの前記集合の部分集合のオーディオ・コンテンツの異なる混合を示し、前記オブジェクト関係メタデータの少なくとも一部は、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を示す、段階と;
前記メニューから前記選択可能な諸混合のうちの一つを選択し、それによりオブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階とを含む、
態様13記載の方法。
〔態様26〕
前記オブジェクト関係メタデータの少なくとも一部が前記オブジェクト・チャネルのそれぞれの識別情報およびそれらの間の関係を示し、前記オブジェクト関係メタデータの前記少なくとも一部は、前記選択可能な諸混合のどれが前記メニューに含められるかについての前記少なくとも一つの制約条件または条件を決定する、態様25記載の方法。
〔態様27〕
当該方法が再生システムによって実行され、段階(a)が:
オーディオ・コンテンツの選択可能な諸混合のメニューを提供する段階であって、選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツとオブジェクト・チャネルの前記集合の部分集合のオーディオ・コンテンツの異なる混合を示し、前記再生システムの事前構成設定が、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を決定する、段階と;
前記メニューから前記選択可能な諸混合のうちの一つを選択し、それによりオブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階とを含む、
態様13記載の方法。
〔態様28〕
(c)段階(a)を実行する前に、オブジェクト・チャネル選択についての少なくとも一つの規則を決定する段階をさらに含み、
段階(a)は、前記少なくとも一つの規則に従って、オブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階を含む、
態様13記載の方法。
〔態様29〕
段階(c)が:
オブジェクト・チャネル選択についての選択可能な諸規則のメニューを提供する段階と;
前記メニューから前記選択可能な諸規則のうちの一つを選択し、それにより前記少なくとも一つの規則を決定する段階とを含む、
態様28記載の方法。
〔態様30〕
前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合のどのオブジェクト・チャネルが前記少なくとも一つの規則を満たすかを示し、段階(a)は、前記オブジェクト関係メタデータの前記少なくとも一部に応答してオブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階を含む、態様28記載の方法。
〔態様31〕
前記オブジェクト・ベース・オーディオ・プログラムがビットストリームの集合を含み、段階(a)および(b)は、再生システムによって実行され、当該方法は:
(c)前記オブジェクト・ベース・オーディオ・プログラムの前記ビットストリームを前記再生システムに伝送する段階を含む、
態様13記載の方法。
〔態様32〕
前記ビットストリームのうちの一つはオブジェクト・チャネルの前記集合の第一の部分集合を示し、前記ビットストリームのうちの別の一つはオブジェクト・チャネルの前記集合の第二の部分集合を示す、態様31記載の方法。
〔態様33〕
前記オブジェクト・ベース・オーディオ・プログラムがビットストリームの集合を含み、段階(a)および(b)は、再生システムによって実行され、当該方法は:
(c)段階(a)を実行する前に、前記再生システムにおいて並列に前記オブジェクト・ベース・オーディオ・プログラムの前記ビットストリームを受領する段階を含む、
態様13記載の方法。
〔態様34〕
前記ビットストリームのうちの一つはオブジェクト・チャネルの前記集合の第一の部分集合を示し、前記ビットストリームのうちの別の一つはオブジェクト・チャネルの前記集合の第二の部分集合を示す、態様31記載の方法。
〔態様35〕
当該方法が第一のサブシステムおよび第二のサブシステムを含む再生システムにおいて実行され、前記第二のサブシステムは、前記第一のサブシステムより下流で前記第一のサブシステムに結合されており、段階(a)は前記再生システムの前記第一のサブシステムにおいて実行され、段階(b)は少なくとも部分的には前記再生システムの前記第二のサブシステムにおいて実行される、態様13記載の方法。
〔態様36〕
段階(b)が:
前記再生システムの前記第二のサブシステムにおいて、前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの前記混合を決定する段階と;
前記再生システムの前記第二のサブシステムにおいて、前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの前記混合に応答して、前記再生システムのスピーカーのセットを駆動するためのスピーカー・フィードを生成する段階とを含む、
態様35記載の方法。
〔態様37〕
前記再生システムの前記第一のサブシステムがセットトップデバイスにおいて実装され、前記再生システムの前記第二のサブシステムが前記セットトップデバイスに結合された下流の装置において実装される、態様35記載の方法。
〔態様38〕
前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドに含まれる、態様13記載の方法。
〔態様39〕
前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームのaddbsiフィールドに含まれる、態様13記載の方法。
〔態様40〕
前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、態様13記載の方法。
〔態様41〕
前記オブジェクト関係メタデータの少なくとも一部は層構成の混合グラフを示し、前記層構成の混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記層構成の混合グラフは、メタデータの基本層およびメタデータの少なくとも一つの拡張層を含む、態様1記載の方法。
〔態様42〕
前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記混合グラフを示すオブジェクト関係メタデータを含む、態様1記載の方法。
〔態様43〕
当該方法が、オーディオ信号の前記集合の部分集合を示す少なくとも二つのスピーカー・チャネル・ベッドを決定する段階を含み、前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記混合グラフは、前記スピーカー・チャネル・ベッドのあらかじめ決定された混合を示す少なくとも一つのベッド混合ノードを含む、態様1記載の方法。
〔態様44〕
前記オブジェクト・ベース・オーディオ・プログラムがサブストリームを含み、前記オブジェクト関係メタデータの少なくとも一部が、前記プログラムのサブストリーム構造または前記サブストリームがデコードされるべき仕方のうちの少なくとも一方を示すサブストリーム・メタデータである、態様1記載の方法。
〔態様45〕
オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングするシステムであって、前記プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、オブジェクト・チャネルの集合と、オブジェクト関係メタデータとを含み、当該システムは:
前記オブジェクト・ベース・オーディオ・プログラムを受領するよう結合され、前記スピーカー・チャネル、前記オブジェクト・チャネルおよび前記オブジェクト関係メタデータをパースし、前記オブジェクト・チャネルの選択された部分集合を決定するよう構成された第一のサブシステムと;
前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングするよう構成された、前記第一のサブシステムに結合されたレンダリング・サブシステムであって、該レンダリングは、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツおよびオブジェクト・チャネルの前記選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む、レンダリング・サブシステムとを有する、
システム。
〔態様46〕
当該システムがスピーカーのセットを含むまたはスピーカーのセットに結合されるよう構成されており、前記レンダリング・サブシステムは、前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの前記混合に応答してスピーカー・フィードを生成するよう構成されており、前記スピーカーのセットは、前記スピーカー・フィードによって駆動されるとき、該生成は、前記第二のオーディオ・コンテンツを示すオブジェクト・チャネル音を含む音を発するように行なわれ、該オブジェクト・チャネル音は、前記オブジェクト・チャネルの前記選択された部分集合によって決定される見かけの源位置から発しているものとして知覚可能である、態様45記載のシステム。
〔態様47〕
前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、選択のために利用可能である前記オブジェクト・チャネルの諸部分集合のメニューを提供し、前記メニューによって示される前記オブジェクト・チャネルの前記諸部分集合のうちの一つのユーザー選択に応答して、前記オブジェクト・チャネルの前記選択された部分集合を決定するよう構成されている、態様45記載のシステム。
〔態様48〕
前記コントローラが、前記メニューを表示するユーザー・インターフェースを実装するよう構成されている、態様47記載のシステム。
〔態様49〕
前記第一のサブシステムがセットトップデバイスにおいて実装され、前記コントローラが前記セットトップデバイスに結合されている、態様47記載のシステム。
〔態様50〕
前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、オーディオ・コンテンツの選択可能な諸混合のメニューを提供するよう構成されており、前記選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツと前記オブジェクト・チャネルの部分集合のオーディオ・コンテンツの異なる混合を示し、前記オブジェクト関係メタデータの少なくとも一部は、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を示し、前記コントローラは、前記メニューからの前記選択可能な諸混合のうちの一つのユーザー選択に応答して、前記オブジェクト・チャネルの前記選択された部分集合を決定するよう構成されている、態様45記載のシステム。
〔態様51〕
前記コントローラが、前記メニューを表示するユーザー・インターフェースを実装するよう構成されている、態様50記載のシステム。
〔態様52〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの少なくとも一つによって示されるオーディオ・コンテンツが、前記観客イベントにおける群衆ノイズまたは前記観客イベントについてのコメンタリーの少なくとも一方を示す、態様45記載のシステム。
〔態様53〕
前記第一のオーディオ・コンテンツがスポーツ・イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記スポーツ・イベントにおけるホーム・チーム群衆ノイズまたはアウェー・チーム群衆ノイズを示す、態様45記載のシステム。
〔態様54〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記観客イベントについてのコメンタリーを示す、態様45記載のシステム。
〔態様55〕
前記オブジェクト・ベース・オーディオ・プログラムが、エンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含み、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルの第二の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示す、態様45記載のシステム。
〔態様56〕
前記オブジェクト関係メタデータの少なくとも一部が、前記オブジェクト・チャネルの部分集合のエンドユーザーによる選択がないときにレンダリングされるべき前記オブジェクト・チャネルのデフォルトの部分集合を示す、態様45記載のシステム。
〔態様57〕
前記オブジェクト関係メタデータの少なくとも一部が同期語を示し、前記同期語は、前記プログラムの少なくとも一部のオーディオ・コンテンツの、前記プログラムの少なくとも一つの他の要素のタイミングに対するタイミングを示し、前記オブジェクト・ベース・オーディオ・プログラムは、エンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含み、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルの第二の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、
前記同期語の第一の部分集合が前記エンコードされたオーディオ・ビットストリームに含められ、前記同期語の第二の部分集合が少なくとも一つの前記サイド混合に含められ、前記第一のサブシステムが、前記同期語の少なくとも一部を使って、前記エンコードされたオーディオ・ビットストリームの、少なくとも一つの前記サイド混合との時間整列を実行するよう構成されている、
態様45記載のシステム。
〔態様58〕
前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、オーディオ・コンテンツの選択可能な諸混合のメニューを提供するよう構成されており、前記選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツと前記オブジェクト・チャネルの部分集合のオーディオ・コンテンツの異なる混合を示し、前記第一のサブシステムの事前構成設定が、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を決定し、前記コントローラは、前記メニューから前記選択可能な諸混合のうちの一つのユーザー選択に応答して、前記オブジェクト・チャネルの前記選択された部分集合を決定するよう構成されている、態様45記載のシステム。
〔態様59〕
前記コントローラが、前記メニューを表示するユーザー・インターフェースを実装するよう構成されている、態様58記載のシステム。
〔態様60〕
前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、オブジェクト・チャネル選択についての選択可能な諸規則のメニューを提供するよう構成されており、前記コントローラは、前記メニューから前記選択可能な諸規則のうちの一つのユーザー選択に応答して、オブジェクト・チャネル選択のための少なくとも一つの規則を適用するよう前記第一のサブシステムを構成するよう構成されている、態様45記載のシステム。
〔態様61〕
前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合のどのオブジェクト・チャネルが前記少なくとも一つの規則を満たすかを示す、態様60記載のシステム。
〔態様62〕
前記レンダリング・サブシステムは、第一のレンダリング・サブシステムおよび第二のレンダリング・サブシステムを含む再生システムにおいて実行され、前記第二のレンダリング・サブシステムは、前記第一のレンダリング・サブシステムより下流で前記第一のレンダリング・サブシステムに結合されている、態様45記載のシステム。
〔態様63〕
前記第二のレンダリング・サブシステムは、前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの前記混合を決定するよう構成されており、前記第二のレンダリング・サブシステムは、前記第一のオーディオ・コンテンツおよび前記第二のオーディオ・コンテンツの前記混合に応答して、スピーカーのセットを駆動するためのスピーカー・フィードを生成するよう構成されている、態様62記載のシステム。
〔態様64〕
前記第一のレンダリング・サブシステムがセットトップデバイスにおいて実装され、前記第二のレンダリング・サブシステムが前記セットトップデバイスに結合された下流の装置において実装される、態様63記載のシステム。
〔態様65〕
前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドまたはaddbsiフィールドに含まれる、態様45記載のシステム。
〔態様66〕
前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、態様45記載のシステム。
〔態様67〕
前記オブジェクト関係メタデータの少なくとも一部は層構成の混合グラフを示し、前記層構成の混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記層構成の混合グラフは、メタデータの基本層およびメタデータの少なくとも一つの拡張層を含む、態様45記載のシステム。
〔態様68〕
前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記混合グラフを示すオブジェクト関係メタデータを含む、態様45記載のシステム。
〔態様69〕
前記プログラムが、少なくとも二つのスピーカー・チャネル・ベッドを示し、前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記混合グラフは、前記スピーカー・チャネル・ベッドのあらかじめ決定された混合を示す少なくとも一つのベッド混合ノードを含む、態様45記載のシステム。
〔態様70〕
前記オブジェクト・ベース・オーディオ・プログラムがサブストリームを含み、前記オブジェクト関係メタデータの少なくとも一部が、前記プログラムのサブストリーム構造または前記サブストリームがデコードされるべき仕方のうちの少なくとも一方を示すサブストリーム・メタデータである、態様45記載のシステム。
〔態様71〕
オブジェクト・ベース・オーディオ・プログラムを生成するシステムであって:
捕捉されたオーディオ・コンテンツを示すオーディオ信号の集合の第一の部分集合のオーディオ・コンテンツを示すスピーカー・チャネルの少なくとも一つのベッドを決定し、オーディオ信号の前記集合の第二の部分集合のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定し、前記オブジェクト・チャネルを示すオブジェクト関係メタデータを生成するよう構成されている第一のサブシステムと;
前記オブジェクト・ベース・オーディオ・プログラムを生成するよう構成された、前記第一のサブシステムに結合されたエンコード・サブシステムであって、前記オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの各前記ベッドと、前記オブジェクト・チャネルと、前記オブジェクト関係メタデータとを示し、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツと前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされる、エンコード・サブシステムとを含む、
システム。
〔態様72〕
前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合の部分集合のエンドユーザーによる選択がないときにレンダリングされるべきオブジェクト・チャネルの前記集合のデフォルトの部分集合を示す、態様71記載のシステム。
〔態様73〕
前記オブジェクト関係メタデータの少なくとも一部は、オブジェクト・チャネルの前記集合のどのオブジェクト・チャネルが少なくとも一つのオブジェクト選択規則を満たすかを示す、態様71記載のシステム。
〔態様74〕
前記エンコード・サブシステムが、前記オブジェクト・ベース・オーディオ・プログラムを生成することを、前記オブジェクト・ベース・オーディオ・プログラムが、エンコードされたオーディオ・ビットストリームおよび少なくとも一つのサイド混合を含むように実行するよう構成されており、前記エンコードされたオーディオ・ビットストリームは、スピーカー・チャネルの少なくとも一つの前記ベッドのオーディオ・コンテンツおよび前記オブジェクト・チャネルの第一の部分集合のオーディオ・コンテンツおよび/または前記オブジェクト関係メタデータを示し、少なくとも一つの前記サイド混合は、前記オブジェクト・チャネルおよび/または前記オブジェクト関係メタデータの第二の部分集合のオーディオ・コンテンツを示す、態様71記載のシステム。
〔態様75〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの少なくとも一つによって示されるオーディオ・コンテンツが、前記観客イベントにおける群衆ノイズまたは前記観客イベントについてのコメンタリーの少なくとも一方を示す、態様71記載のシステム。
〔態様76〕
前記第一のオーディオ・コンテンツがスポーツ・イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記スポーツ・イベントにおけるホーム・チーム群衆ノイズまたはアウェー・チーム群衆ノイズを示す、態様71記載のシステム。
〔態様77〕
前記第一のオーディオ・コンテンツが観客イベントにおける音を示し、前記オブジェクト・チャネルの前記選択された部分集合のオブジェクト・チャネルの一つによって示されるオーディオ・コンテンツが、前記観客イベントについてのコメンタリーを示す、態様71記載のシステム。
〔態様78〕
前記オブジェクト・ベース・オーディオ・プログラムの前記オブジェクト関係メタデータが、耐久メタデータを含む、態様71記載のシステム。
〔態様79〕
前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドまたはaddbsiフィールドに含まれる、態様71記載のシステム。
〔態様80〕
前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、態様71記載のシステム。
〔態様81〕
バッファ・メモリおよび前記バッファ・メモリに結合された少なくとも一つのオーディオ処理サブシステムを含むオーディオ処理ユニットであって、
前記バッファ・メモリは、オブジェクト・ベース・オーディオ・プログラムの少なくとも一つのセグメントを記憶し、前記プログラムは、スピーカー・チャネルの少なくとも一つのベッド、オブジェクト・チャネルの集合およびオブジェクト関係メタデータを示し、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツと、前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされ、
各前記セグメントは、スピーカー・チャネルの少なくとも一つの前記ベッドのオーディオ・コンテンツを示すデータ、前記オブジェクト・チャネルのうち少なくとも一つのオブジェクト・チャネルのオーディオ・コンテンツを示すデータおよび前記オブジェクト関係メタデータの少なくとも一部を含む、
オーディオ処理ユニット。
〔態様82〕
前記オブジェクト・ベース・オーディオ・プログラムがフレームを含むエンコードされたビットストリームであり、前記各セグメントは該フレームの一つである、態様81記載のオーディオ処理ユニット。
〔態様83〕
前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記フレームのそれぞれは、前記オブジェクト・チャネルのうちの少なくとも一つのオブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記フレームの各フレームの補助データ・フィールドまたはaddbsiフィールドに含まれる、態様82記載のオーディオ処理ユニット。
〔態様84〕
前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、態様81記載のオーディオ処理ユニット。
〔態様85〕
前記バッファ・メモリが前記セグメントを非一時的な仕方で記憶する、態様81記載のオーディオ処理ユニット。
〔態様86〕
前記オーディオ処理サブシステムがエンコーダである、態様81記載のオーディオ処理ユニット。
〔態様87〕
前記オーディオ処理サブシステムが、前記スピーカー・チャネル、前記オブジェクト・チャネルおよび前記オブジェクト関係メタデータをパースし、前記オブジェクト・チャネルの選択された部分集合を決定するよう構成されている、態様81記載のオーディオ処理ユニット。
〔態様88〕
前記オーディオ処理サブシステムが、前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングするよう構成されており、該レンダリングは、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツおよび前記オブジェクト・チャネルの前記選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む、態様81記載のオーディオ処理ユニット。
〔態様89〕
当該オーディオ処理ユニットがデジタル信号プロセッサである、態様81記載のオーディオ処理ユニット。
〔態様90〕
前記オブジェクト関係メタデータの少なくとも一部は層構成の混合グラフを示し、前記層構成の混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記層構成の混合グラフは、メタデータの基本層およびメタデータの少なくとも一つの拡張層を含む、態様81記載のオーディオ処理ユニット。
〔態様91〕
前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、各前記セグメントは、前記混合グラフを示すオブジェクト関係メタデータを含む、態様81記載のオーディオ処理ユニット。
〔態様92〕
前記プログラムが、少なくとも二つのスピーカー・チャネル・ベッドを示し、前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記混合グラフは、前記スピーカー・チャネル・ベッドのあらかじめ決定された混合を示す少なくとも一つのベッド混合ノードを含む、態様81記載のオーディオ処理ユニット。
〔態様93〕
前記オブジェクト・ベース・オーディオ・プログラムがサブストリームを含み、前記オブジェクト関係メタデータの少なくとも一部が、前記プログラムのサブストリーム構造または前記サブストリームがデコードされるべき仕方のうちの少なくとも一方を示すサブストリーム・メタデータである、態様81記載のオーディオ処理ユニット。

Claims (30)

  1. オブジェクト・ベース・オーディオ・プログラムを生成する方法であって:
    捕捉されたオーディオ・コンテンツを示すオーディオ信号の集合の第一の部分集合のオーディオ・コンテンツを示すスピーカー・チャネルの少なくとも一つのベッドを決定する段階と;
    オーディオ信号の前記集合の第二の部分集合のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定する段階と;
    前記オブジェクト・チャネルを示すオブジェクト関係メタデータを生成する段階と;
    前記オブジェクト・ベース・オーディオ・プログラムを生成する段階であって、前記オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの前少なくとも一つのベッドと、前記オブジェクト・チャネルと、前記オブジェクト関係メタデータとを示し、スピーカー・チャネルの一つの前記少なくとも一つのベッドのうちの一つによって示される第一のオーディオ・コンテンツと前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされる、段階とを含む、
    方法。
  2. 前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドに含まれる、請求項1記載の方法。
  3. 前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームのaddbsiフィールドに含まれる、請求項1記載の方法。
  4. 前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、請求項1記載の方法。
  5. 前記オブジェクト関係メタデータの少なくとも一部は層構成の混合グラフを示し、前記層構成の混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記層構成の混合グラフは、メタデータの基本層およびメタデータの少なくとも一つの拡張層を含む、請求項1記載の方法。
  6. 前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記混合グラフを示すオブジェクト関係メタデータを含む、請求項1記載の方法。
  7. オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングする方法であって、前記プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、オブジェクト・チャネルの集合と、オブジェクト関係メタデータとを含み、当該方法は:
    (a)ユーザー入力に基づいてオブジェクト・チャネルの前記集合の選択された部分集合を決定する段階と;
    (b)前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングする段階とを含み、該レンダリングは、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツおよびオブジェクト・チャネルの前記集合の前記選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む、
    方法。
  8. 段階(a)が:
    オーディオ・コンテンツの諸混合のメニューを提供する段階であって、選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツとオブジェクト・チャネルの前記集合の部分集合のオーディオ・コンテンツの異なる混合を示し、前記オブジェクト関係メタデータの少なくとも一部は、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を示す、段階と;
    前記メニューから前記選択可能な諸混合のうちの一つを選択し、それによりオブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階とを含む、
    請求項7記載の方法。
  9. 前記オブジェクト関係メタデータの少なくとも一部が前記オブジェクト・チャネルのそれぞれの識別情報およびそれらの間の関係を示し、前記オブジェクト関係メタデータの前記少なくとも一部は、前記選択可能な諸混合のどれが前記メニューに含められるかについての前記少なくとも一つの制約条件または条件を決定する、請求項8記載の方法。
  10. 当該方法が再生システムによって実行され、段階(a)が:
    オーディオ・コンテンツの選択可能な諸混合のメニューを提供する段階であって、選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツとオブジェクト・チャネルの前記集合の部分集合のオーディオ・コンテンツの異なる混合を示し、前記再生システムの事前構成設定が、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を決定する、段階と;
    前記メニューから前記選択可能な諸混合のうちの一つを選択し、それによりオブジェクト・チャネルの前記集合の前記選択された部分集合を決定する段階とを含む、
    請求項7記載の方法。
  11. 前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドに含まれる、請求項7記載の方法。
  12. 前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームのaddbsiフィールドに含まれる、請求項7記載の方法。
  13. 前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、請求項7記載の方法。
  14. オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングするシステムであって、前記プログラムは、スピーカー・チャネルの少なくとも一つのベッドと、オブジェクト・チャネルの集合と、オブジェクト関係メタデータとを含み、当該システムは:
    前記オブジェクト・ベース・オーディオ・プログラムを受領するよう結合され、前記スピーカー・チャネル、前記オブジェクト・チャネルおよび前記オブジェクト関係メタデータをパースし、ユーザー入力に基づいて前記オブジェクト・チャネルの選択された部分集合を決定するよう構成された第一のサブシステムと;
    前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングするよう構成された、前記第一のサブシステムに結合されたレンダリング・サブシステムであって、該レンダリングは、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツおよびオブジェクト・チャネルの前記選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む、レンダリング・サブシステムとを有する、
    システム。
  15. 前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、オーディオ・コンテンツの選択可能な諸混合のメニューを提供するよう構成されており、前記選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツと前記オブジェクト・チャネルの部分集合のオーディオ・コンテンツの異なる混合を示し、前記オブジェクト関係メタデータの少なくとも一部は、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を示し、前記コントローラは、前記メニューからの前記選択可能な諸混合のうちの一つのユーザー選択に応答して、前記オブジェクト・チャネルの前記選択された部分集合を決定するよう構成されている、請求項14記載のシステム。
  16. 前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、オーディオ・コンテンツの選択可能な諸混合のメニューを提供するよう構成されており、前記選択可能な諸混合のそれぞれは、スピーカー・チャネルの一つの前記ベッドのオーディオ・コンテンツと前記オブジェクト・チャネルの部分集合のオーディオ・コンテンツの異なる混合を示し、前記第一のサブシステムの事前構成設定が、前記選択可能な諸混合のどれが前記メニューに含められるかについての少なくとも一つの制約条件または条件を決定し、前記コントローラは、前記メニューから前記選択可能な諸混合のうちの一つのユーザー選択に応答して、前記オブジェクト・チャネルの前記選択された部分集合を決定するよう構成されている、請求項14記載のシステム。
  17. 前記第一のサブシステムに結合されたコントローラをさらに含み、前記コントローラは、オブジェクト・チャネル選択についての選択可能な諸規則のメニューを提供するよう構成されており、前記コントローラは、前記メニューから前記選択可能な諸規則のうちの一つのユーザー選択に応答して、オブジェクト・チャネル選択のための少なくとも一つの規則を適用するよう前記第一のサブシステムを構成するよう構成されている、請求項14記載のシステム。
  18. 前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドまたはaddbsiフィールドに含まれる、請求項14記載のシステム。
  19. 前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、請求項14記載のシステム。
  20. 前記オブジェクト関係メタデータの少なくとも一部は層構成の混合グラフを示し、前記層構成の混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記層構成の混合グラフは、メタデータの基本層およびメタデータの少なくとも一つの拡張層を含む、請求項14記載のシステム。
  21. 前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記混合グラフを示すオブジェクト関係メタデータを含む、請求項14記載のシステム。
  22. オブジェクト・ベース・オーディオ・プログラムを生成するシステムであって:
    捕捉されたオーディオ・コンテンツを示すオーディオ信号の集合の第一の部分集合のオーディオ・コンテンツを示すスピーカー・チャネルの少なくとも一つのベッドを決定し、オーディオ信号の前記集合の第二の部分集合のオーディオ・コンテンツを示すオブジェクト・チャネルの集合を決定し、前記オブジェクト・チャネルを示すオブジェクト関係メタデータを生成するよう構成されている第一のサブシステムと;
    前記オブジェクト・ベース・オーディオ・プログラムを生成するよう構成された、前記第一のサブシステムに結合されたエンコード・サブシステムであって、前記オブジェクト・ベース・オーディオ・プログラムは、スピーカー・チャネルの前少なくとも一つのベッドと、前記オブジェクト・チャネルと、前記オブジェクト関係メタデータとを示し、スピーカー・チャネルの一つの前記少なくとも一つのベッドのうちの一つによって示される第一のオーディオ・コンテンツと前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされる、エンコード・サブシステムとを含む、
    システム。
  23. 前記オブジェクト・ベース・オーディオ・プログラムは、フレームを含むエンコードされたビットストリームであり、前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記エンコードされたビットストリームの各フレームは、前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記各フレームの補助データ・フィールドまたはaddbsiフィールドに含まれる、請求項22記載のシステム。
  24. 前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、請求項22記載のシステム。
  25. バッファ・メモリおよび前記バッファ・メモリに結合された少なくとも一つのオーディオ処理サブシステムを含むオーディオ処理ユニットであって、
    前記バッファ・メモリは、オブジェクト・ベース・オーディオ・プログラムの少なくとも一つのセグメントを記憶し、前記プログラムは、スピーカー・チャネルの少なくとも一つのベッド、オブジェクト・チャネルの集合およびオブジェクト関係メタデータを示し、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツと、前記オブジェクト・チャネルの選択された部分集合によって示される第二のオーディオ・コンテンツとの混合として知覚される音を与えるようレンダリング可能であり、前記第二のオーディオ・コンテンツは前記オブジェクト・チャネルの前記選択された部分集合によって決定される源位置から発しているものとして知覚されるようにされ、
    各前記セグメントは、スピーカー・チャネルの少なくとも一つの前記ベッドのオーディオ・コンテンツを示すデータ、前記オブジェクト・チャネルのうち少なくとも一つのオブジェクト・チャネルのオーディオ・コンテンツを示すデータおよび前記オブジェクト関係メタデータの少なくとも一部を含
    前記オーディオ処理サブシステムが、前記オブジェクト・ベース・オーディオ・プログラムによって決定されるオーディオ・コンテンツをレンダリングするよう構成されており、該レンダリングは、スピーカー・チャネルの一つの前記ベッドによって示される第一のオーディオ・コンテンツおよび前記オブジェクト・チャネルの、ユーザー入力に基づいて選択された部分集合によって示される第二のオーディオ・コンテンツの混合を決定することによることを含む、
    オーディオ処理ユニット。
  26. 前記オブジェクト・ベース・オーディオ・プログラムがフレームを含むエンコードされたビットストリームであり、前記各セグメントは該フレームの一つである、請求項25記載のオーディオ処理ユニット。
  27. 前記エンコードされたビットストリームはAC-3ビットストリームまたはE-AC-3ビットストリームであり、前記フレームのそれぞれは、前記オブジェクト・チャネルのうちの少なくとも一つのオブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含むコンテナである少なくとも一つのデータ構造を示し、少なくとも一つの前記コンテナは、前記フレームの各フレームの補助データ・フィールドまたはaddbsiフィールドに含まれる、請求項26記載のオーディオ処理ユニット。
  28. 前記オブジェクト・ベース・オーディオ・プログラムは、バーストおよびバーストの対の間の保護帯のシーケンスを含むドルビーEビットストリームであり、各保護帯は、セグメントのシーケンスからなり、保護帯のうち少なくともいくつかの各保護帯の最初のX個のセグメントのそれぞれは前記オブジェクト・チャネルの一部のコンテンツおよび前記オブジェクト関係メタデータの一部を含み、Xは数である、請求項25記載のオーディオ処理ユニット。
  29. 前記オブジェクト関係メタデータの少なくとも一部は層構成の混合グラフを示し、前記層構成の混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、前記層構成の混合グラフは、メタデータの基本層およびメタデータの少なくとも一つの拡張層を含む、請求項25記載のオーディオ処理ユニット。
  30. 前記オブジェクト関係メタデータの少なくとも一部は混合グラフを示し、前記混合グラフは前記スピーカー・チャネルおよび前記オブジェクト・チャネルの選択可能な諸混合を示し、各前記セグメントは、前記混合グラフを示すオブジェクト関係メタデータを含む、請求項25記載のオーディオ処理ユニット。
JP2016506323A 2013-04-03 2014-03-19 オブジェクト・ベース・オーディオの対話的にレンダリングのための方法およびシステム Active JP6212624B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361807922P 2013-04-03 2013-04-03
US61/807,922 2013-04-03
US201361832397P 2013-06-07 2013-06-07
US61/832,397 2013-06-07
PCT/US2014/031246 WO2014165326A1 (en) 2013-04-03 2014-03-19 Methods and systems for interactive rendering of object based audio

Publications (2)

Publication Number Publication Date
JP2016519788A JP2016519788A (ja) 2016-07-07
JP6212624B2 true JP6212624B2 (ja) 2017-10-11

Family

ID=50483612

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016506323A Active JP6212624B2 (ja) 2013-04-03 2014-03-19 オブジェクト・ベース・オーディオの対話的にレンダリングのための方法およびシステム
JP2016506612A Active JP6149152B2 (ja) 2013-04-03 2014-04-03 条件付きレンダリング・メタデータをもつオブジェクト・ベース・オーディオを生成し、レンダリングする方法およびシステム
JP2016506613A Active JP6212625B2 (ja) 2013-04-03 2014-04-03 オブジェクト・ベース・オーディオを生成し、対話的にレンダリングする方法およびシステム

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2016506612A Active JP6149152B2 (ja) 2013-04-03 2014-04-03 条件付きレンダリング・メタデータをもつオブジェクト・ベース・オーディオを生成し、レンダリングする方法およびシステム
JP2016506613A Active JP6212625B2 (ja) 2013-04-03 2014-04-03 オブジェクト・ベース・オーディオを生成し、対話的にレンダリングする方法およびシステム

Country Status (8)

Country Link
US (17) US9997164B2 (ja)
EP (5) EP2982140B1 (ja)
JP (3) JP6212624B2 (ja)
KR (1) KR101800604B1 (ja)
CN (14) CN118102205A (ja)
HK (2) HK1249655A1 (ja)
TW (1) TWI530941B (ja)
WO (3) WO2014165326A1 (ja)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
US9838823B2 (en) 2013-04-27 2017-12-05 Intellectual Discovery Co., Ltd. Audio signal processing method
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
US9654076B2 (en) * 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
CN106797525B (zh) * 2014-08-13 2019-05-28 三星电子株式会社 用于生成和回放音频信号的方法和设备
RU2701126C2 (ru) * 2014-09-12 2019-09-24 Сони Корпорейшн Устройство передачи, способ передачи, устройство приема и способ приема
US10856042B2 (en) * 2014-09-30 2020-12-01 Sony Corporation Transmission apparatus, transmission method, reception apparatus and reception method for transmitting a plurality of types of audio data items
CN110364190B (zh) * 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9560467B2 (en) * 2014-11-11 2017-01-31 Google Inc. 3D immersive spatial audio systems and methods
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI732403B (zh) * 2015-03-13 2021-07-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016164760A1 (en) 2015-04-10 2016-10-13 Dolby Laboratories Licensing Corporation Action sound capture using subsurface microphones
WO2016172111A1 (en) * 2015-04-20 2016-10-27 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
WO2016171002A1 (ja) 2015-04-24 2016-10-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
PL3311379T3 (pl) 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
GB2543276A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
US9877137B2 (en) 2015-10-06 2018-01-23 Disney Enterprises, Inc. Systems and methods for playing a venue-specific object-based audio
WO2017075539A1 (en) * 2015-10-28 2017-05-04 Voke Inc. Apparatus and method for distributing multimedia events from a client
EP3174317A1 (en) * 2015-11-27 2017-05-31 Nokia Technologies Oy Intelligent audio rendering
EP3174316B1 (en) 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US10027994B2 (en) * 2016-03-23 2018-07-17 Dts, Inc. Interactive audio metadata handling
US11528554B2 (en) 2016-03-24 2022-12-13 Dolby Laboratories Licensing Corporation Near-field rendering of immersive audio content in portable computers and devices
US10325610B2 (en) * 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
KR102421292B1 (ko) * 2016-04-21 2022-07-18 한국전자통신연구원 오디오 객체 신호 재생 시스템 및 그 방법
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
GB2550877A (en) * 2016-05-26 2017-12-06 Univ Surrey Object-based audio rendering
US10271157B2 (en) * 2016-05-31 2019-04-23 Gaudio Lab, Inc. Method and apparatus for processing audio signal
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
JP6701573B2 (ja) * 2016-08-03 2020-05-27 株式会社リコー 音声処理装置、音声映像出力装置、及び遠隔会議システム
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
US10419866B2 (en) * 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
EP3533242B1 (en) * 2016-10-28 2021-01-20 Panasonic Intellectual Property Corporation of America Binaural rendering apparatus and method for playing back of multiple audio sources
US11595774B2 (en) 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
GB2563606A (en) * 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
CN109429077B (zh) * 2017-08-24 2021-10-15 北京搜狗科技发展有限公司 视频处理方法和装置、用于视频处理的装置
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11190335B2 (en) * 2018-01-23 2021-11-30 Intel Corporation Method and apparatus for performing non-unique data pattern detection and alignment in a receiver implemented on a field programmable gate array
US11395083B2 (en) * 2018-02-01 2022-07-19 Qualcomm Incorporated Scalable unified audio renderer
US20190246149A1 (en) * 2018-02-08 2019-08-08 Pccw Vuclip (Singapore) Pte. Ltd. Protected multimedia content transport and playback system
WO2019168780A1 (en) * 2018-02-27 2019-09-06 Thin Film Electronics Asa System and method for providing augmented reality experience to objects using wireless tags
WO2019187437A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
GB2575510A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial augmentation
EP3617871A1 (en) 2018-08-28 2020-03-04 Koninklijke Philips N.V. Audio apparatus and method of audio processing
WO2020089302A1 (en) 2018-11-02 2020-05-07 Dolby International Ab An audio encoder and an audio decoder
US20210006976A1 (en) * 2019-07-03 2021-01-07 Qualcomm Incorporated Privacy restrictions for audio rendering
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
EP4062649A2 (en) 2019-11-20 2022-09-28 Dolby International AB Methods and devices for personalizing audio content
WO2021098957A1 (en) * 2019-11-20 2021-05-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object renderer, methods for determining loudspeaker gains and computer program using panned object loudspeaker gains and spread object loudspeaker gains
CN111340923A (zh) * 2020-02-23 2020-06-26 广东明星创意动画有限公司 一种快速arnold分层渲染设置方法
US11315581B1 (en) * 2020-08-17 2022-04-26 Amazon Technologies, Inc. Encoding audio metadata in an audio frame
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN112860958B (zh) * 2021-01-15 2024-01-26 北京百家科技集团有限公司 一种信息显示方法及装置
CN113990355A (zh) * 2021-09-18 2022-01-28 赛因芯微(北京)电子科技有限公司 音频节目元数据和产生方法、电子设备及存储介质
CN113963724A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频内容元数据和产生方法、电子设备及存储介质
WO2023076039A1 (en) 2021-10-25 2023-05-04 Dolby Laboratories Licensing Corporation Generating channel and object-based audio from channel-based audio
GB2617442A (en) * 2022-03-03 2023-10-11 Apple Inc Audio scene description and control
CN116830193A (zh) * 2023-04-11 2023-09-29 北京小米移动软件有限公司 音频码流信号处理方法、装置、电子设备和存储介质

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583962A (en) 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
WO1993003549A1 (en) * 1991-07-31 1993-02-18 Euphonix, Inc. Automated audio mixer
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6154549A (en) 1996-06-18 2000-11-28 Extreme Audio Reality, Inc. Method and apparatus for providing sound in a spatial environment
US7210160B2 (en) * 1999-05-28 2007-04-24 Immersion Entertainment, L.L.C. Audio/video programming and charging system and method
US6931370B1 (en) 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
AUPQ570700A0 (en) 2000-02-17 2000-03-09 Lake Technology Limited Virtual audio environment
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US9008812B2 (en) * 2008-06-19 2015-04-14 Sirius Xm Radio Inc. Method and apparatus for using selected content tracks from two or more program channels to automatically generate a blended mix channel for playback to a user upon selection of a corresponding preset button on a user interface
US6553077B2 (en) 2001-07-31 2003-04-22 Xm Satellite Radio, Inc. Method and apparatus for customized selection of audio channels
JP2004072345A (ja) * 2002-08-05 2004-03-04 Pioneer Electronic Corp 情報記録媒体、情報記録装置及び方法、情報再生装置及び方法、情報記録再生装置及び方法、コンピュータプログラム、並びにデータ構造
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
US7558393B2 (en) * 2003-03-18 2009-07-07 Miller Iii Robert E System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
US7757173B2 (en) * 2003-07-18 2010-07-13 Apple Inc. Voice menu system
US20050265172A1 (en) * 2004-05-26 2005-12-01 Star Sessions, Llc Multi-channel audio/video system and authoring standard
US20060159291A1 (en) * 2005-01-14 2006-07-20 Fliegler Richard H Portable multi-functional audio sound system and method therefor
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
DE102005008343A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System
EP1897012B1 (en) 2005-06-24 2019-07-17 Dolby Laboratories Licensing Corporation Immersive audio communication
US20080152165A1 (en) * 2005-07-01 2008-06-26 Luca Zacchi Ad-hoc proximity multi-speaker entertainment
KR100802179B1 (ko) 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
US8705747B2 (en) 2005-12-08 2014-04-22 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
BRPI0706285A2 (pt) 2006-01-05 2011-03-22 Ericsson Telefon Ab L M métodos para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico e para transmitir dados digitais representando som a uma unidade móvel, decodificador envolvente paramétrico para decodificar um fluxo de bits de áudio envolvente de multicanal paramétrico, e, terminal móvel
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US9088855B2 (en) 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals
US7876903B2 (en) 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
WO2008006108A2 (en) * 2006-07-07 2008-01-10 Srs Labs, Inc. Systems and methods for multi-dialog surround audio
JP2008072206A (ja) * 2006-09-12 2008-03-27 Onkyo Corp マルチチャンネル音声増幅装置
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN101479786B (zh) * 2006-09-29 2012-10-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP5325108B2 (ja) * 2006-10-13 2013-10-23 ギャラクシー ステューディオス エヌヴェー デジタルデータ集合を結合するための方法及び符号器、結合デジタルデータ集合の復号方法及び復号器、並びに結合デジタルデータ集合を記憶するための記録媒体
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
KR100913092B1 (ko) * 2006-12-01 2009-08-21 엘지전자 주식회사 믹스신호의 인터페이스 표시 방법 및 장치
JP5941610B2 (ja) 2006-12-27 2016-06-29 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute トランスコーディング装置
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101542595B (zh) * 2007-02-14 2016-04-13 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
WO2009084919A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2009084916A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2083584B1 (en) * 2008-01-23 2010-09-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
US20110002469A1 (en) * 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
US20090237564A1 (en) 2008-03-18 2009-09-24 Invism, Inc. Interactive immersive virtual reality and simulation
JP5249408B2 (ja) * 2008-04-16 2013-07-31 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR101062351B1 (ko) 2008-04-16 2011-09-05 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
US20100064053A1 (en) 2008-09-09 2010-03-11 Apple Inc. Radio with personal dj
JP5258967B2 (ja) * 2008-07-15 2013-08-07 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR20110052562A (ko) * 2008-07-15 2011-05-18 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
PL2154677T3 (pl) * 2008-08-13 2013-12-31 Fraunhofer Ges Forschung Urządzenie do wyznaczania konwertowanego przestrzennego sygnału audio
TWI496479B (zh) * 2008-09-03 2015-08-11 Dolby Lab Licensing Corp 增進多聲道之再生
WO2010041877A2 (en) * 2008-10-08 2010-04-15 Lg Electronics Inc. A method and an apparatus for processing a signal
US8351612B2 (en) * 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8577065B2 (en) 2009-06-12 2013-11-05 Conexant Systems, Inc. Systems and methods for creating immersion surround sound and virtual speakers effects
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
US9185445B2 (en) 2009-09-24 2015-11-10 At&T Intellectual Property I, L.P. Transmitting a prioritized audio stream along with multimedia content
US20110069934A1 (en) * 2009-09-24 2011-03-24 Electronics And Telecommunications Research Institute Apparatus and method for providing object based audio file, and apparatus and method for playing back object based audio file
JP5771618B2 (ja) * 2009-10-19 2015-09-02 ドルビー・インターナショナル・アーベー 音声オブジェクトの区分を示すメタデータ時間標識情報
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
CN113490132B (zh) 2010-03-23 2023-04-11 杜比实验室特许公司 音频再现方法和声音再现系统
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI687918B (zh) 2010-12-03 2020-03-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
CA3151342A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
TWI651005B (zh) * 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US9119011B2 (en) * 2011-07-01 2015-08-25 Dolby Laboratories Licensing Corporation Upmixing object based audio
WO2013073810A1 (ko) 2011-11-14 2013-05-23 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
WO2013181272A2 (en) 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning
US8903526B2 (en) * 2012-06-06 2014-12-02 Sonos, Inc. Device playback failure recovery and redistribution
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
EP2690621A1 (en) 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
CN104604257B (zh) 2012-08-31 2016-05-25 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的系统
US9319019B2 (en) * 2013-02-11 2016-04-19 Symphonic Audio Technologies Corp. Method for augmenting a listening experience
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio

Also Published As

Publication number Publication date
JP6212625B2 (ja) 2017-10-11
US10553225B2 (en) 2020-02-04
CN114157979B (zh) 2024-04-09
CN105075295A (zh) 2015-11-18
US20180151186A1 (en) 2018-05-31
US20180268829A1 (en) 2018-09-20
CN105103571B (zh) 2017-11-10
US20160029140A1 (en) 2016-01-28
CN117880735A (zh) 2024-04-12
WO2014165326A1 (en) 2014-10-09
US20240079015A1 (en) 2024-03-07
US10515644B2 (en) 2019-12-24
EP2982140A1 (en) 2016-02-10
KR101800604B1 (ko) 2017-11-23
CN114613374A (zh) 2022-06-10
CN107731239A (zh) 2018-02-23
US20190341061A1 (en) 2019-11-07
EP3930351A1 (en) 2021-12-29
CN114157979A (zh) 2022-03-08
US20210118453A1 (en) 2021-04-22
JP2016521380A (ja) 2016-07-21
CN118102205A (zh) 2024-05-28
HK1249655A1 (zh) 2018-11-02
US20160064003A1 (en) 2016-03-03
US11727945B2 (en) 2023-08-15
HK1253941A1 (zh) 2019-07-05
US9881622B2 (en) 2018-01-30
US11948586B2 (en) 2024-04-02
US9805727B2 (en) 2017-10-31
WO2014165668A1 (en) 2014-10-09
US11568881B2 (en) 2023-01-31
KR20150123925A (ko) 2015-11-04
EP2982141A1 (en) 2016-02-10
US20230419973A1 (en) 2023-12-28
US20220180878A1 (en) 2022-06-09
US11081118B2 (en) 2021-08-03
US20200126570A1 (en) 2020-04-23
CN105103570A (zh) 2015-11-25
US10388291B2 (en) 2019-08-20
US10832690B2 (en) 2020-11-10
US10748547B2 (en) 2020-08-18
CN105103571A (zh) 2015-11-25
CN114157978B (zh) 2024-04-09
US20190251977A1 (en) 2019-08-15
CN113766413B (zh) 2024-04-09
JP2016519788A (ja) 2016-07-07
US20220059103A1 (en) 2022-02-24
US11769514B2 (en) 2023-09-26
US9997164B2 (en) 2018-06-12
CN108134978A (zh) 2018-06-08
EP3413592A1 (en) 2018-12-12
JP2016520858A (ja) 2016-07-14
CN114708873A (zh) 2022-07-05
TWI530941B (zh) 2016-04-21
US10276172B2 (en) 2019-04-30
US11270713B2 (en) 2022-03-08
JP6149152B2 (ja) 2017-06-14
EP3413592B1 (en) 2021-05-19
CN114157978A (zh) 2022-03-08
CN114613373A (zh) 2022-06-10
US20160029138A1 (en) 2016-01-28
CN108134978B (zh) 2021-11-30
CN113766414B (zh) 2024-03-01
CN113766413A (zh) 2021-12-07
WO2014165665A1 (en) 2014-10-09
CN105103570B (zh) 2018-02-13
CN107731239B (zh) 2022-04-15
EP2982141B1 (en) 2017-06-14
US20230238004A1 (en) 2023-07-27
EP2982140B1 (en) 2017-12-06
EP2982142A1 (en) 2016-02-10
US20210056978A1 (en) 2021-02-25
EP2982142B1 (en) 2018-03-07
US20180053515A1 (en) 2018-02-22
TW201445561A (zh) 2014-12-01
US20200126568A1 (en) 2020-04-23
CN113766414A (zh) 2021-12-07
CN105075295B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
US11727945B2 (en) Methods and systems for interactive rendering of object based audio
CN118283520A (zh) 用于基于对象的音频的交互式渲染的方法和系统
CN118301537A (en) Method and system for interactive rendering of object-based audio

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170915

R150 Certificate of patent or registration of utility model

Ref document number: 6212624

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250