JP2007537464A - ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオビットストリームフォーマット - Google Patents

ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオビットストリームフォーマット Download PDF

Info

Publication number
JP2007537464A
JP2007537464A JP2007509516A JP2007509516A JP2007537464A JP 2007537464 A JP2007537464 A JP 2007537464A JP 2007509516 A JP2007509516 A JP 2007509516A JP 2007509516 A JP2007509516 A JP 2007509516A JP 2007537464 A JP2007537464 A JP 2007537464A
Authority
JP
Japan
Prior art keywords
bitstream
format
node
audio
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007509516A
Other languages
English (en)
Inventor
レミュ、ピエール−アンソニー・スタイベル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2007537464A publication Critical patent/JP2007537464A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオ情報を表示するビットストリームフォーマットは、それぞれが1以上のノードを持つ複数のツリー状階層レベルからなるツリー状階層を有し、ノードには、少なくともいくつかの徐々に小さくなるオーディオ情報のサブディビジョンが徐々にツリー状階層の低いレベルにおいて表示され、前記オーディオ情報は前記1以上のレベルにおけるノードに含まれる。

Description

本発明は、ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオ情報を表示するビットストリームフォーマットと、このようなビットストリームフォーマットに基づきフォーマットされたビットストリームと、このようなビットストリームを記憶又は伝達する媒体と、このようなビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディング及びデコーディングするシステムと、このようなビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディングするためのエンコーダと、このようなビットストリームフォーマットに基づくフォーマットを有するビットストリームをデコーディングするためのデコーダと、このようなビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディング及びデコーディングするプロセスと、このようなビットストリームフォーマットに基づきフォーマットされたビットストリームを作るためのプロセスと、このようなビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディングするためのプロセスと、このようなビットストリームフォーマットに基づくフォーマットを有するビットストリームをデコーディングするためのプロセスとに関する。
本発明の特徴に基づき、ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオ情報を表示するビットストリームフォーマットは、それぞれが1以上のノードを持つ複数のツリー状階層レベルからなるツリー状階層を有し、ノードには、少なくともいくつかの徐々に小さくなるオーディオ情報のサブディビジョンが徐々にツリー状階層の低いレベルにおいて表現され、前記オーディオ情報は前記1以上のレベルにおけるノードに含まれる。前記オーディオの前記徐々に小さくなるサブディビジョンには1以上の時間的サブディビジョン、空間的サブディビジョン、及び分解能サブディビジョンが含まれる。前記ツリー状階層の第1のレベルはオーディオ情報のすべてを表現するルートノードを具備してもよく、それより低い少なくとも1つのレベルではオーディオ情報の時間的細分を表現する複数のルートノードを具備してもよく、さらに低いレベルではオーディオ情報の空間的細分を表現する複数のルートノードを具備してもよい。あるいは、又は付加的に、基本分解能のオーディオ情報レイヤーが1つのレベルにあり、1以上のオーディオ情報分解能強化レイヤーが同じレイヤー又は1以上のの他のレベルに含まれるような、多重の分解能を提供させるためにオーディオ情報をレイヤー化してもよい。本発明の他の特徴は、ここに書かれた明細書及び請求の範囲に述べられている。
本発明の特徴に基づくビットストリームフォーマットは、以下のうちの1つ以上の点で有益である。
‐オーディオ処理待ち時間を最小限にする
‐ビットストリームに大規模な修正を加えることなくメタデータを付加し、動かし又は細工する
‐ビットストリームに含まれるオーディオ素材の具体的な形態と恣意的なメタデータとを関連付ける
‐ビットストリームの構造上のオーバーヘッドを最小限にする
‐前方互換性/後方互換性を持たせるフレキシブルなビットストリーム構成を提供する
‐種々のインターフェースで効率的に伝達することができる
‐フレームベースの編集を容易にする
‐エンコードされたオーディオ情報又はエンコードされていないオーディオ情報のカプセル化を容易にする
ツリー状階層データ構造の定義及び例はNIST、すなわち(米国)国立標準技術研究所、ウェブサイト「Dictionary of Algorithms and Data Structures」(http://ist.gov/dads/)、で見つけることができる。ツリー状階層データ構造の先行順トラバーサルのデモンストレーションは、カンタベリー大学(ニュージーランド)のウェブサイトデータ構造、アルゴリズム、2分木トラバーサルアルゴリズム(http://www.cosc.canterbury.ac.nz/people/mukundan/dsal/BTree.html)で見つけることができる。
図1aと図1bは、それぞれ、本発明の特徴に基づくビットストリームのオーディオ情報(ここではしばしば「オーディオエッセンス」と称す)成分とツリー状階層を示した簡略化した図式表現である。図1aのビットストリーム表現は2つの連続するオーディオフレームを示し、その各々が第1のチャンネルと第2のチャンネル、すなわちチャンネル1及びチャンネル2を有する。後者は、例えば、それぞれ左右のスピーカにより再生されたオーディオ情報に該当する。チャンネル1及びチャンネル2は第1のフレームで1a及び2aと名づけられ、第2のフレームで1b及び2bと名づけられる。図1aにおいて、垂直方向はチャンネルを表し、水平方向はフレームと時間を表す。
図1bの例において、本発明の特徴に基づく図1aのビットストリームの下にあるツリー状階層は、3つのレベルすなわち、レベル1,レベル2,及びレベル3、を有する。レベル1における単一のルートノード3は全ビットストリームのオーディオ素材を表す。実際には、以下に説明するとおり、ビットストリームフォーマットとその下の「オーディオ素材」のツリー状階層データ構造表現には、オーディオエッセンスと他のデータについての情報である、オーディオ情報つまりオーディオ「エッセンス」、及び「メタデータ」が含まれる。しかし、この簡単な例においては、オーディオエッセンスのみがビットストリームのツリー状階層で示されている。
この例のレベル2の階層において、それぞれが固定期間又は固定ビット長さ又は可変期間又は可変ビット長さの個々のオーディオフレームにオーディオ素材を分解することができる(簡単にするため、図1aと図1bの例では2つのフレームのみが示されている)。フレームノード4と5は、それぞれ親としてノード3を有し、この例の階層におけるレベル2にて、第1のオーディオフレームと第2のオーディオフレームを表している。各オーディオフレームは、オーディオチャンネルに分解することができ(簡単にするため、図1aと図1bの例では1つのフレームに2つのチャンネルのみが記載されている)、各々は、例えば、「右」や「左」のような空間的な方向に対応する。チャンネルノード6,7,8及び9は、各々親に属するフレームノードを有し、それぞれレベル3の階層での連続するフレームにおけるオーディオチャンネルla,2a,1b及び2bを表している。
図1bの例では、チャンネルノード6〜9はリーフノードであり、各々少なくとも1つのエッセンスエレメントの形でオーディオエッセンスを含有している。原則として、オーディオエッセンスがリーフノードに含まれている必要はないが、実際にはリーフノードにオーディオエッセンスを置くこと(及び、オーディオの基本分解のレイヤーが1以上のより高い分解能の強化されたレイヤーと一緒に提供されるような「レイヤー化された」オーディオの場合に、リーフノード及び次に高い1以上の階層のレイヤーのノードにオーディオエッセンスを置くこと)は好都合であり、また、本発明の明細書を読み理解するうえで好ましい。
どの階層に置かれたとしても、階層の1以上のノードにオーディオエッセンスがあり、したがって、オーディオエッセンスが、結果として生じるビットストリーム中に存在することは、本発明の1つの特徴である。このことは、例えば、エンコーディング又はデコーディング又はオーディオエッセンスに関する情報をビットストリーム及びその下にある階層以外に置く可能性を除外するものではない。例えば、オーディオエッセンスに関するメタデータ内のポインタが、ビットストリームの外部の特定のデコーディングプロセスとその下の階層を指定することも可能である。
上述のように、「オーディオ素材」のビットストリームフォーマットとその下のツリー状階層データ構造表現には、ディオ情報又はオーディオ「エッセンス」が含まれるのみならず、オーディオエッセンス及び他のデータについての情報である「メタデータ」が含まれる。
オーディオメタデータについて役に立つ説明には、http://tvtechnology.com/features/audio_notes/f-TC-AC3-06.26.02.shtmlにある、2002年6月26日付のティム・キャロルのオーディオノート中の、「ATSCのAC-3オーディオスタンダードの探求(Exploring the AC-3 Audio Standard for ATSC)」と、http://tvtechnology.com/features/audio_notes/f-tc-metadata.shtmlにある2002年7月24日付のティム・キャロルのオーディオノート中の、「オーディオメタデータの詳細(A Closer Look at Audio Metadata)」、及び、http://tvtechnology.com/features/audio_notes/f-TC-metadata-08.21.02.shtmlにある2002年8月21日付のティム・キャロルのオーディオノート中の、「オーディオメタデータ:ここからそれが分かる(You Can Get There From Here)」が含まれる。各書類はそのすべてが参照として本明細書に組み込まれる。
本発明の特徴による階層的な表現に基づくビットストリームは、任意のメタデータ情報を正確に関連付けさせ、それによりそのオーディオエッセンスに同期させる。これは、オーディオエッセンスと同じノード中又はオーディオエッセンスを含有するノードの親ノード中の特定のオーディオエッセンスと関連づけするためにメタデータを置くことにより達成することができる。本発明の実施の形態によれば、さらに以下に説明するように、1以上のメタデータエレメントをその階層内のノードの開始部又は終了部に付加することができる。したがって、図1bの例のような3つの階層レベルにおいて、特定のオーディオエッセンスと関連づけられたメタデータを、レベル1のルートノード中の全ビットストリームのオーディオ素材の開始部又は終了部、特定のオーディオエッセンスを含むチャンネルの親であるレベル2内のフレームノード中の個々のフレームの開始部又は終了部、及び/又は特定のオーディオエッセンスを含むレベル3中のチャンネル(リーフ)ノード内のチャンネルの開始部又は終了部に付加することができる。このような構成例を図2の例の下部に示した。
メタデータは、個々のノードの「意味的な独立」に寄与するような方法で階層レベルに分配することが好ましい。例えば、図1bの構成において、ルートノードのメタデータは、オーディオ素材全体にのみ適用することが好ましく、フレームノードのメタデータは特定のフレーム及びそのチャンネルにのみ適用することが好ましく、チャンネルノード中のメタデータは特定のチャンネルのみに適用することが好ましい。メタデータ情報を適切に定義することにより、他のノードに運び込まれたメタデータを変更させることなくノードの操作を確実に行うことができる。例えば、もしフレームノードが特定のチャンネルノードに固有のメタデータがなく、他のチャンネルノードに必要とされるメタデータがチャンネルノードに含まれないならば、チャンネルノード中のメタデータだけでなくチャンネルノード全体も、他のノードにあるメタデータを変更することなく、付加、削除、又は変更することができる。この意味で、本発明はノードを意味的に独立にする。言い換えれば、メタデータとエッセンスの観点から、所定のどのノードも、それ自身とその子(もしあれば)に等しく適用可能であれば、そのシブリングから独立することができる。したがって、本発明による、適切に分配されたメタデータを有するビットストリームは、以下に説明するようにトランスコーディングが容易になる。
本発明に基づくビットストリームは、オーディオ素材を順番に並べた階層表現とするためにツリー状階層データ構造を順序付けられたトラーバーサルを用いることにより作られる。順序付けられたトラーバーサルは、先行順トラーバーサル(しばしば「プレフィックストラバーサル(prefix traversal)」と称される)の特性をもつことが好ましい。先行順トラーバーサルアルゴリズムは、ルートノードを処理し、そして、再帰的にすべてのサブツリーを処理することによりすべてのツリーを処理するプロセスであると定義することができる。特に、ボディタグが全く採用されない場合(以下の「ボディタグ」に関する記載を参照のこと)、本発明の特徴に基づく階層の順序付けに用いる適切な先行順トラーバーサルアルゴリズムは、ルートノードから始まる以下のアルゴリズム適用することにより記述することができる。すなわち、
a)ノードの開始を示す「開始タグ」をビットストリームに書き込む、
b)ノードの開始部に付加された1以上のメタデータ又はエッセンスエレメントの各々を個々のセグメントとして書き込む、
c)ステップ「a」から始まるアルゴリズムを、計画中のノードの各子ノードに適用する、
d)ノードの終了部に付加された1以上のメタデータ又はエッセンスエレメントの各々を個々のセグメントとして書き込む、そして
e)ノードの終了示す「終了タグ」セグメントをビットストリームに書き込む。
トラバーサルアルゴリズムはまた、簡略化したC言語の擬似コードで以下のように表現することができる。すなわち、

visit(root);
where
visit(node){
for segment in node.header.segments do{
write(segment);
}

for child in all node.children do{
visit(child);
}

fore segment in node.footer.sigments do{
write(segmet);
}
}
もしボディタグを採用するならば、適切な先行順トラーバーサルアルゴリズムは、ルートノードから始まる以下のアルゴリズム適用することにより記述することができる。すなわち、
a)ノードの開始を示す「開始タグ」をビットストリームに書き込む、
b)ノードの開始部に付加された1以上のメタデータ又はエッセンスエレメントの各々を個々のセグメントとして書き込む、
c)もしルートノードが子ノードを全く持たず、その終端にメタデータもエッセンスエレメントも全く持たないならば、ステップd)からステップg)までを省略する、
d)ノードの子ノードの開始を示す「ボディタグ開始」セグメントをビットストリームに書き込む、
e)ステップ「a」から始まるアルゴリズムを、計画中のノードの各子ノードに適用する、
f)ノードの子ノードの終了示す「終了タグ」セグメントをビットストリームに書き込む、
g)ノードの終端に添付した1以上のメタデータ又はエンセンスエレメントの各々を個々のセグメントとして書き込む、そして、
h)ノードの終了示す「終了タグ」セグメントをビットストリームに書き込む。
図2は、図1bに類似するがメタデータを含むツリー状階層表現の簡単な例を示す。図3は、図2のツリー状階層に順にトラバーサルを行った結果、本発明の特徴に基づき順番に並べられたビットストリームを示す。
図2は、各ノードの開始ノード/終了ノードに付加されたメタデータのセグメントも示している点で図1bと異なっている。ノードが図1bのノードを修正したものであることを示すためにプライム符号を付けた参照番号を図2で用いている。したがって、ルートノード3´は、例えば、その開始部に付加されたメタデータの表題と版権を有する。フレーム
ノード4´及び5´は、例えば、各ノードの開始部に付加された時間コードと書くノードの終了部に付加された音量メタデータを有する。チャンネルノード6´,7´,8´及び9´は、例えば、各ノードの開始部に付加されたメタデータのダウンミックスを有する。
図3は、本発明によるアルゴリズムと階層に基づき順序付けられたビットストリームの例を示す。ビットストリームは、上述の「ボディタグなし」アルゴリズムに基づいて、図2の階層に順序付けられたトラーバーサルを行った結果得られた10から37までのセグメント(セグメントは「アトミックエレメント(atomic element)」とも称される)を有する。各エレメントは、オーディオエッセンス、メタデータ、又は他のデータを含んでいるとしても、その内容を示す一意的な識別子を用いて表示することが好ましい。適切な識別子について以下に記載する。
さらに以下に記載するとおり、ルートノード3´には、すべてオーディオ素材であるセグメント10から37までが含まれる。ルートノード3´内のフレームノード4´及び5´のネスティング及び、同様にフレームノードの各々に含まれるチャンネルノードのネスティングを図3で見ることができる。図3の例のビットストリームは、オーディオ素材の開始を示す、ルートノード開始タグセグメント10から始まり、ルートノードの開始部に添付されたメタデータ(表題)セグメント11とメタデータ(版権)セグメント12が続く。次いで、フレームノード4´の開始部にフレームノード開始タグ13と、それに続くメタデータ(時間コード)セグメント14とが示された状態で、第1の子、フレームノード4´が現れる。次に、チャンネルノード開始タグ15を表示させて、フレームノードの第1の子、チャンネルノード6´が現れる。このチャンネルノード開始タグセグメントに、チャンネルノード6´の開始部に付加されたメタデータ(ダウンミックス)セグメント16が続く。このメタデータセグメント16に、チャンネルノード6´の(チャンネル1)オーディオエッセンス17とチャンネルノード終了タグ18が続く。次に、チャンネルノード開始タグ19を表示させて、フレームノード4´の第2の子、チャンネルノード7´が現れる。チャンネルノード開始タグセグメントに、チャンネルノード7´の開始部に付加されたメタデータ(ダウンミックス)セグメント20が続く。このメタデータセグメント20には、チャンネルノード7´の(チャンネル2)オーディオエッセンス21とチャンネルノード終了タグ22とが続く。フレームノード4´にはこれ以外に子はなく、またチャンネルノード6´とチャンネルノード7´はリーフノードなので、大きさのメタデータ23を記載してフレームノード4´が再び現れる(この大きさのメタデータは、大きさのメタデータの値を決めるためにチャンネル1とチャンネル2のオーディオエッセンスを訪れるプロセスに依存する)。次いで、フレームタグセグメント24の終了部がビットストリームに書き込まれる。そして、次のノード5´が現れる。
フレームノード4´について説明したのと同じようにして、フレーム5´とその子、ノード8´及びノード9´、から生じるビットストリームが書き込まれ、フレーム開始セグメント25、メタデータ(時間コード)セグメント26、チャンネルノード開始タグ27、チャンネルノードメタデータ(ダウンミックス)セグメント28、(チャンネル1)チャンネルノードオーディオエッセンスセグメント29、チャンネルノード終了タグ30、チャンネルノード開始タグ31、チャンネルノードメタデータ(ダウンミックス)セグメント32、(チャンネル2)チャンネルノードオーディオエッセンスセグメント33、チャンネルノード終了タグ34、フレームノード終了メタデータ(音量)35、及びフレームタグセグメント36が作られる。この簡単な例では2つのフレームしかないため、続いてルートノードが再度現れる。ルートノードの終了部にメタデータがない限り、オーディオ素材の終了を示すルートノード終了タグセグメント37が書き込まれる。
意味的に独立であることに加えて、上述の通り、各セグメントは、各セグメントがそれぞれの形式と長さを持ち、他のセグメントを含まずまた他のセグメント内に入れ子になっていないという意味で構造的に独立している。したがって、他のセグメントについての知識をあらかじめ持つことなくセグメントを処理することができ、したがって必然的に、ビットストリームは1度に1つのセグメントが構文解析され、それにより、短い待ち時間の動作が可能となる。さらに、ノード又はセグメントの削除及び変更により、必ずしも他のノード又はセグメントの操作を必要としない。
そのような構造的なフレキシビリティーが与えられたとすると、セグメント、及び実際の全ノードは、メタデータとオーディオエッセンスが最適に配分されたなら、他のセグメント及びノードに影響を与えることなく、付加、削除、及び操作を行うことができる。このことは例えば、ビットストリームをそっくりそのまま再マスタリングする必要なしにオーディオ素材から特定のオーディオチャンネルを取り出すことを可能とする。特に、ノードは、システムの変更(すなわち、ビットストリームの他のノードにおける変更)を必要とする、長さ又は同期情報を含まないことが好ましい。長さ情報は、開始タグと終了タグがノードの境界を定めるので必要でない。ノード内にセグメントが存在するので、ノードの内容とセグメントが明らかに同期するので、同期情報の必要はない。一方、メタデータ及び/又はオーディオエッセンスは、例えば特定の階層レベルでノード間の相互依存させるような方法で配分することができ、この場合、待ち時間は増えることになる。例えば、発明の特徴の特定の実施の形態では、各フレームノードがタイムスタンプを持つこと及びタイムスタンプは連続するものであることを必要とする。1つのフレームノードを削除することにより、それに続くすべてのフレームノードの修正と、不快な設計判断が必要となる。
上述の通り、オーディオエッセンス、メタデータ、又は他のデータを含むか否かにかかわらず、その内容を示す一意的な識別子を用いて、階層内の各エレメントを表示することが好ましい。したがって、本発明に基づきフォーマットされたビットストリームを受け取った所定のアプリケーションは、アプリケーションが認識しないエレメントを無視する。このことにより、既存のアプリケーションに外乱を与えることなくビットストリームに新しい形式のエレメントを導入することができる。例えば、1以上のオーディオエッセンス強化レイヤーを、関連するメタデータとともに、前方互換性及び後方互換性をともに維持しながらビットストリームに付加することができる。あるいは1以上の強化レイヤーを、メタデータ内に含ませることができる。
図4aから4dは、本発明の特徴に基づくビットストリームを用いたトランスコーディングプロセスを図解したものである。セグメントはビットストリーム中に現れたとき連続的に処理される。図4aは、トランスコーディング処理に先立つ本発明による2チャンネルビットストリームを示す。セグメント(a)及び(b)はフレーム1のチャンネル1及びチャンネル2に対応するオーディオ情報を有している。セグメント(c)
及び(d)はフレーム2のチャンネル1及びチャンネル2に対応するオーディオ情報を有している。図4bにおいて、トランスコーディングプロセスがオーディオ情報を含有するセグメント(a)に遭遇したとき、6つのセグメントがすでに読み込まれている。このプロセスで、ビットストリームからセグメントを読み込み、オーディオ情報を導き出し、このオーディオ情報を目的のフォーマットにトランスコードし、そして、このオーディオ情報をラップして(a)の代わりにビットストリームに書き込むセグメント(a´)に戻す。チャンネルノードがお互いにトランスコーディングの文脈で互いに依存していない限り、これまでのあるいはこれからのノードについての知識を必要としない。このことは待ち時間の短い操作で、すなわち、すべてのビットストリーム又はビットストリームの大部分で行われるトランスコーディングがトランスコーディングプロセスにより受け取られる操作で、重要である。図4cにおいて、図4bとの関連において記載したような方法で、セグメント(b´)として書き込まれるセグメント(b)にトランスコーディングプロセスが至っている。図4dは、すべてトランスコードされたビットストリームを示す。
以下に本発明の特徴の一実施の形態を記載する。本発明はこの実施の形態又は他の実施の形態に限定されるものではないことは理解されよう。以下の明細書はビットストリームの構文と文法、ビットストリームのアトミックエレメントの構造、及び、これらのエレメントに合致する構成を記述しているが、これは、メタデータとオーディオエッセンスの関係のような、ビットストリームの意味的な内容を記載するものではない。これらの関係は本発明の範囲を超えている。
ここで用いられている専門用語、特に本実施の形態との関連で用いられるものは以下に定義される。
下にあるオーディオ素材:
自己完結したビットストリームにより表され、本発明の特徴に基づきフォーマットされ、ノード及びセグメントからなるオーディオ情報である。
ノード:
開始タグと終了タグの対のタグにより区分けされた、1つの階層レベルに属する、ゼロ以上の連続するビットストリームセグメントである。ノードは入れ子になってもよい。
セグメント(アトミックエレメント):
明確に独立したものとして操作(例えば、パッケージ化、又は暗号化)することのできる最小のビットストリームエレメントである。ここには3つのタイプのセグメントがある。すなわち、オーディオエッセンスセグメント、メタデータセグメント(オーディオエッセンスセグメントとメタデータセグメントは「内容」セグメントである)、及びタグセグメント(タグセグメントは「構造的」セグメントであり、例えば、ビットストリームとツリー状階層とをお互いに関連付けるのを手助けする)。セグメントは、その長さ、型式、及び/又は内容の情報を持っている。
オーディオエッセンスセグメント:
オーディオエッセンス(オーディオ情報)を持つ内容セグメントである。オーディオエッセンスセグメントは、例えば、エンコードされていないパルスコードモジュレーション(PCM)オーディオデータ又はエンコードされたPCMオーディオデータ(例えば、知覚的にエンコードされたPCM)であることもある。
メタデータセグメント:
対応するオーディオエッセンスと関連するメタデータ情報を持つ内容セグメントである。
タグセグメント:
ノードを区分けするために用いられる内容を持たないセグメントである。
フレーム:
オーディオ素材と、このようなオーディオエッセンスセグメントに関連する1以上のメタデータセグメントとの時間間隔を表す1以上のオーディオエッセンスセグメントからなるビットストリームノードである。
フレームのグループ:
1以上のメタデータセグメント分だけ先行するフレームのシーケンスであり、任意的に、1以上のメタデータセグメントが後に続く。
本発明に基づきフォーマットされたビットストリームは、オーディオコーディング、オーディオメタデータ、及び伝送方法とは独立に定義され、それ自体は、エラー修正や圧縮固有のメタデータを含まなくてもよい。
[セグメント]
以上に示したように、セグメントつまりアトミックエレメントは、明確に独立したものとして操作(例えば、パッケージ化、又は暗号化)することのできる最小のビットストリームエレメントである。実際には、各セグメントは、ヘッダ、収容形式及び大きさの情報、及び、オーディオの場合に、メタデータセグメント及びペイロードからなる、バイトで並べた構造とすることができる。タグセグメントは構造的な情報を有し、ペイロードは持たない。内容セグメントは、ペイロードとしてメタデータ又はエッセンス情報を有する。セグメントの型式とその意味的重要性は、一意的な識別子を用いることによりさらに正確にすることができる。セグメントの構文については、以下にさらに詳細に説明する。
[ノード]
セグメントはさらに、階層的にネスト構造のノードに配列される。本実施の形態において、ノードは開始セグメントと終了セグメントの制約を受けるシーケンスにより構成される。図5に示すように、ツリー状階層におけるノードの構造は3つの明確な文脈(又は部分)、すなわち、ヘッダ(header)コンテキスト40、本体(body)コンテキスト41、及びトレイラ(trailer)コンテキスト42、により成り立つ。ヘッダコンテキストとトレイラコンテキストは各々1以上の内容セグメントを含み、本体コンテキストはゼロ又は1以上の子ノードを含む。任意的に、本体部は本体開始タグセグメントと終了タグセグメントの制約を受けることもある。
図5を詳細に参照して、ノード構造は開始タグセグメント43で始まり、終了タグセグメント44で終了する。タグセグメント43と44は、タグのタイプが階層におけるノードの位置に依存するので、それぞれ「X」で印している。本実施の形態のルートノードの場合、タグセグメントはフレームタグのグループ(GOF tag)であってもよい。開始タグセグメント43の後に、ヘッダコンテキスト40が続き、ヘッダコンテキスト40は1以上の内容セグメント45を持つことができる。続いて、本体開始タグ46により、図5に示したノードの下の1以上の階層レベルでネスト化された1以上のノード47を含む本体部41の開始部を定めることができる。本体終了タグ48により、本体コンテキスト41の終了部を定めることができる。本体終了タグ48の後に、トレイラコンテキスト42が続き、トレイラコンテキスト42は1以上の内容セグメント49を持つことができる。最後に、ノード構造は終了タグセグメント44により終了する。
リーフノードがオーディオエッセンスとそれに関連するメタデータを含むような場合、もし本体コンテキストと終了コンテキストの両方が空であるならば、本体タグを省略することができ、図6に示すように、ノードは短いノードになる。本体タグが無い場合、ヘッダコンテキストとフッタコンテキストとは区別することができないので、短いノードは開始部40´のみに限定される。図6を詳細に参照して、ノード構造は開始タグセグメント50で始まり終了タグセグメント51で終わる。図5の例の場合は、タグセグメントは、タグのタイプが階層におけるノードの位置に依存するので、「X」で印している。本実施の形態においてリーフノードの場合、タグセグメントはチャンネルタグでもよい。ヘッダコンテキスト40´は開始タグとエンドタグとの間にあり1以上の内容セグメント45´からなる。
[階層構造]
ビットストリームの階層構造は、ノードの本体部の構造により定めることができる。ノードと係わり合いのあるヘッダコンテキストとトレイラコンテキストの意味及び内容は、本発明のビットストリームフォーマットが採用されるが本発明を形成するものではない環境において、特有のものである。
拡張性を良くするために、内容セグメントとノードから外れた部分は省略してもよく、本発明の特徴に基づきフォーマットされたビットストリームを受け取り処理するアプリケーションはこれを無視してもよい。しかし、コンテキスト内にあって異常なノードはエラーとして扱うことができる。「コンテキスト内」とは、特定のノード部に属すと定義されたセグメント及びノードを意味する。例えば、以下に説明するように、先端チャンネル(TOC)ノードは、フレーム本体にあるときはコンテキスト内であるが、GOFノード内にあるときはコンテキスト外である。このようなアプローチにより、古いアプリケーションと互換性を保ちながら、付加的な内容セグメントとノードを挿入することにより前方互換性を容易に持たせることができる。
図7に示すように、本発明によるビットストリームは、そのルートに1以上のフレームのグループ(GOF)ノードの階層構造となっている。GOFノードのみがこの例のルートノードの文脈内である。
[フレームのグループ(GOF)ノード]
GOFノード60,・・・,61(図7)は、ビットストリームにより運ばれるオーディオ素材の部分を正確に再現するのに必要な情報が含まれる構成要素である。フレームノードは、各GOFノード内にネスト化される。GOFノードは、GOFの境界でビットストリームが簡単に操作(例えば、接合)できるよう、十分な情報を持つことが理想である。
Figure 2007537464
[フレームノード]
フレームノード62,・・・,63(図7)は、オーディオエッセンスと時間区間に相当するメタデータ情報により成り立つ。1つのチャンネル先端(TOC)ノードと1つのチャンネル下端(BOC)ノードを各フレームノード内にネスト化することができる。フレームレベルにあるメタデータは、すでにGOFレベルで見つかるものを補完することができ、フレームノードでの変化に影響を受けるようにすることができる。フレームレベルのメタデータがフレームを横切って変化しなければ、フレームノードは独立となるであろう。要求がなくても、フレームをピクチャーエッセンスと同期化させてもよい。あるいは、チャンネルを3以上のノードにグループ化するか又は、チャンネルをチャンネルノードがインコンテキストノードとなるように各フレームノードの下に直接ネスト化してもよい。
Figure 2007537464
[TOCノード及びBOCノード]
TOCノード及びBOCノードは、それぞれフレームに含まれる情報のほぼ半分に相当するメタデータとエッセンス情報とを有することができる。このように構成することにより、そのすべてを受信又は伝送する前にエンコーダとデコーダにフレームの処理を開始させることができるので、待ち時間を減らすことができる。TOC本体部とBOC本体部とはゼロ又は1以上のチャンネルノードを有することができる。
Figure 2007537464
Figure 2007537464
[チャンネルノード]
各チャンネルノードは、単一の独立の本質的な存在を表現し、ゼロ又は1以上のメタデータセグメントとともに一般に1以上のエッセンスセグメントを含有する。このビットストリームフォーマットの実施の形態において、チャンネルノードの本体は空であり、もし終了部が定義されない場合は、ノード構造は短いノードフォームを取ることができる。
Figure 2007537464
[セグメント仕様]
セグメントは、簡易C言語構文に基づく以下の仮のコードにより詳細仕様を定めることができる。2ビットより大きな大量の要素に対しては、ビットの到着順序はいつも最上位ビット(MSB)が最初である。フレーム中の領域又は要素は太い活字で示される。
///
///
///
///
///
///
///
///
Figure 2007537464
[タグセグメントパラメータ]

「is_tag」パラメータ
語長:1
有効範囲:1
タグセグメントは常に1のis_tagパラメータを持つ。
「start_or_end」パラメータ
語長:1
有効範囲:0(開始),1(終了)
このパラメータの値は、タグが開始タグ(0)なのか終了タグ(1)なのかを示す。
「is_long_id」パラメータ
語長:1
有効範囲:0(5ビット id field),1(13ビット id field)
このパラメータの値は、tag_id fieldが5ビットなのか13ビットなのかを示す。
「tag_id」パラメータ
語長:5又は13(前記パラメータ参照)
有効範囲:[0..31]又は[0..213−1]
このパラメータの値は、セグメントはどのタグを表示しているかを示す。以下のタグを定義することができる。
Figure 2007537464
[内容セグメントパラメータ]
「is_tag」パラメータ
語長:1
有効範囲:0
内容セグメントは常に0のis_tag値を持つ。
「metadata_or_essence」パラメータ
語長:1
有効範囲:0(メタデータ),1(エッセンス)
このパラメータの値は、セグメントがメタデータ(0)を有しているのかエッセンス(1)を有しているのかを示す。
「is_long_id」パラメータ
語長:1
有効範囲:0(5ビット id field),1(13ビット id field)
このパラメータの値は、content_id fieldが5ビットなのか13ビットなのかを示す。
「content_id」パラメータ
語長:5又は13(前記パラメータ参照)
有効範囲:[0..31]又は[0..213−1]
このパラメータの値は、セグメント内に含まれる情報の型式を一意的に特定する。
「content_length_class」パラメータ
語長:2
有効範囲:[0..31]
このcontent_length_classパラメータは、以下の表により、セグメントの最大長さを定めることができる。
Figure 2007537464
「content_length」パラメータ
語長:(content_length_class+1)*8−2
有効範囲:[0..63](content_length_class==0)
[0..16383](content_length_class==1)
[0..2^22](content_length_class==2)
[0..2^30](content_length_class==3)
このcontent_lengthパラメータは、ペイロードのトータル長さをバイト単位で定める。
[AC−3シリアルコーディッドオーディオビットストリームのカプセル化の例]
上述のように、エンコードされたオーディオ情報を、本発明の特徴に従ってフォーマットされたビットストリームのセグメントとしてカプセル化することができる。この例として、AC−3シリアルコーディッドオーディオビットストリーム(AC-3 serial coded audio bit stream)の本質的部分を、以下のようにカプセル化することができる。
AC−3ディジタルオーディオ圧縮標準は、ATSC標準、ディジタルオーディオ圧縮(AC−3),改定A,ドキュメントA/52A,次世代テレビジョンシステム協会(Advanced Television Systems Committee),2001年8月20日発行(A/52Aドキュメント)に記載されている。このA/52Aドキュメントは参照としてそのすべてを本明細書に組み込む。
このAC−3ビットストリームシンタックスは、A/52Aドキュメントの第5節(その他)に記載されている。AC−3シリアルコーディッドオーディオビットストリームは、同期したフレーム(「同期フレーム(sync flames)」)のシーケンスとして作られる。図8Aは、本発明の特徴に基づきAC−3の2つの同期フレームをビットストリームへマッピングしたものを示す。各AC−3の同期フレームは、各々が256の新しいオーディオサンプルを表す6つのコード化されたオーディオブロック(AB0からAB5まで)を有する。各フレームの開始部の同期情報(SI)ヘッダは同期を行い保持するために必要な情報を有する。SIの後にビットストリーム
情報(BSI)ヘッダが続き、コード化されたオーディオサービスを記述するパラメータを有する。コード化されたオーディオブロックの後に補助データ(Aux)領域を続けることができる。しばしば補助データは、AC−3フレームのビット長さを調整するための、空の「詰め物(padding)」ビットにより構成される。しかし、補助データに情報が含まれる場合もある。各フレームの終了部は、エラー検出のためのCRCワードを含む、エラーチェック領域となっている。付加的なCRCワードはSIヘッダにあり、この使用は任意的である。
図8aは、それ自身は2つのフレームノードからなり、各々が1以上のAC3チャンネルを表現するフレームノードのグループからなるビットストリームにAC−3の同期フレームをマッピングしたものを描いたものである。SIヘッダとBSIヘッダとに含まれるメタデータアイテムは、2つのグループに分割される。すなわち(1)フレームに対して一般的なメタデータ、例えば、時間コード、及び(2)AC3及びそのチャンネルに特有のメタデータである。一般的なメタデータは、「GFM」メタデータセグメントにラップされ、特有のメタデータは「AC3M」メタデータセグメントにラップされる。ユーザビットが含まれる場合、この補助ブロックは補助セグメントにラップされ、詰め物としてのみ使われる場合は、削除される。所定のビットストリームは、自分でエラー検出機構を有するさまざまなインターフェースを横切って動くので、エラー訂正及び検出情報は省略してもよい(CRCブロックは省略できる)(省略したものが示されている)。
より詳しくは、図8aに2つのAC−3の同期フレームが示されており、各々、順番にSI,AB0からAB5,Aux及びCRC要素を含んでいる。カプセル化のために2つのAC−3同期フレームがマッピングされている本発明の特徴に従ったビットストリームには、第1のGOF開始タグとそれに続いて、フレーム開始タグ(FRM),一般的なフレームメタデータ(GFM),AC−3チャンネル開始タグ(AC3),AC−3特有のメタデータ(AC3M),AC−3内容セグメント(AB0からAB5及びAux),AC−3チャンネル終了タグ(AC3),フレーム終了タグ(FRM),及び第2のAC−3同期フレームからマッピングされた同じシーケンスが含まれている。
図8bは、図8aに2つの補助的なオーディオチャンネルを追加したカプセル化したビットストリームが描かれている。各チャンネルを一般的なチャンネル(GCH)ノードに含ませることができる。第1のチャンネルには、線形PCMサンプルからなる管理者指示(DC)チャンネルを含ませることができる。一般チャンネルメタデータ(GCM)セグメントはこのチャンネルをDCチャンネルを含むものとして識別する。第2のチャンネルには、符号励振型線形予測(Code-Excited Linear Prediction)(「CELP」)(損失のあるエンコードされた音声オーディオフォーマット)でエンコードされたオーディオを含むことのある視覚障害者(VI)チャンネルが含まれていてもよい。また一方、一般チャンネルメタデータ(GCM)セグメントはこのチャンネルをVI素材を含むものとして識別する。各付加的なチャンネルに含まれるオーディオ内容の持続期間は、持続期間が一定である、AC3ノード中のオーディオ内容と一致していることが好ましい。さらに、ビットストリームを識別するメタデータをメタデータセグメントフレームのグループ(GOFM)に追加してもよい。
さらに詳しくは、図8bに、補助的な管理者指示と視覚障害者オーディオチャンネルが付け加えられたマッピングされた第1のAC−3同期フレームの詳細が示されている。このビットストリームには、第1のGOF開始タグとそれに続くビットストリームを識別するメタデータ(GOFM),フレーム開始タグ(FRM),一般的フレームメタデータ(GFM),AC−3チャンネル開始タグ(AC3),AC−3特有のメタデータ(AC3M),AC−3内容セグメント(AB0からAB5及びAux),AC−3チャンネル終了タグ(AC3),一般的チャンネル開始タグ(GCH),一般的チャンネルメタデータ(GCM),線形PCMオーディオエッセンスセグメント(PCM),一般的チャンネル終了タグ(GCH),一般的チャンネル開始タグ(GCH),一般的チャンネルメタデータ(GCM),CELPエンコードされたオーディオエッセンス(CELP),一般的チャンネル終了タグ(GCH),及びフレーム終了タグ(FRM)が含まれている。第2のフレーム(一部だけ図示)には、第2のフレーム情報を含む同じシーケンスが繰り返される。
本発明によるフォーマットの利点は、2つの追加のチャンネルを挿入するためにAC3データの修正を必要としないことであり、元のビットストリームが流れているかのようにチャンネルの挿入がなされることである。すなわち、第2のフレーム(不図示)にVIチャンネルを挿入するのに、第1のフレームの内容についての知識を必要としない。さらに、VI及び/又はDCチャンネルを中断することのできないデコーダがこれらのチャンネルを無視することができる。例えば、VI及びDCチャンネルを、ビットストリームの内容を指示する仕様書の改訂版に追加していてもよい。このようにして、ビットストリームは、後方互換性を持つ。
図9は、本発明の特徴に基づき、図3の例と同様のビットストリームを作るためのエンコーダ又はエンコーディングプロセスのさまざまな機能的特徴を、フローチャート又は機能ブロック線図の形式で示したものである。線形PCMエンコードされたオーディオのサンプルとすることのできるオーディオエッセンス91のストリームは、例えば、オーディオを適切な(固定された又は可変の)持続時間のブロックに区分けし、圧縮(例えば、ビットレート縮減エンコーディング)のような追加の処理を行うことのできる、オーディオ分割及び処理機能又は装置93に適用される。その結果出来たオーディオデータを、オーディオ内容セグメントにラップすることができ、その一例95が図解的に示されている。オーディオ
エッセンス上の情報はメタデータ発生器97に送られる。後者は、このような情報、及び、オーディオエッセンスと同期又は非同期のビットストリームに挿入するメタデータセグメントを作るための、ユーザ又は他の機能又は装置(不図示)からの情報のような他の情報に用いられる。
オーディオ内容セグメントは、次に、1以上のオーディオ内容セグメントと、1以上のそれに付随する、メタデータ発生装置から取得したメタデータセグメント(本例では、ダウンミックス(DM)した1つのメタデータ)とをチャンネルノード開始タグ及び終了タグとともに含むチャンネルノード(図2の階層レベル2と比較せよ)を発生させるチャンネルノード直列変換機能又は直列変換器99に送られる。チャンネル開始タグ(CHAN),ダウンミックスメタデータ(DM),オーディオエッセンスセグメント,及びチャンネル終了タグ(CHAN)を含んだものとして、チャンネルノードの一例101が図解的に示されている。
チャンネルノードは、入力チャンネルノードと、それに付随する、メタデータ発生器97から取得したフレームレベルメタデータ(本例では、時間コード(TC)メタデータの1セグメント)と、フレームノード開始タグ及び終了タグとを、ともに含むフレームノード(図2の階層レベル2と比較せよ)発生させるフレームノード直列変換器103へ送られる。フレーム開始タグ(FRAM),時間コードメタデータ(TC),チャンネルノードシーケンス,及びフレーム終了タグ(FRAM)を含んだものとして、フレームノードの一例105が図解的に示されている。
フレームノードは、フレームグループ開始タグ及び終了タグとともに連続するフレームノードとそれに付随するメタデータ発生器97から取得したメタデータ(本例では、タイトル(TITL)メタデータの1セグメント)とを1つの完全なビットストリームに結合させる(図2の階層レベル1と比較せよ)、フレームグループ(gof)ノード直列変換機能又は装置107に送られる。フレームグループ開始タグ(GOF),タイトルメタデータ(TITL),2つのフレームシーケンス,及びフレームグループの終了タグ(GOF)を含んだものとして完全なビットストリームの一例が図解的に示されている。
図10は、本発明の特徴に基づき図3と図9の例のようなビットストリームからオーディオ及びメタデータを導き出すためのデンコーダ又はデコーディングプロセスのさまざまな機能的特徴を、フローチャート又は機能ブロック線図の形式で示したものである。
図9の例で作られたようなビットストリームは、フレームグループ(gof)ノード並列変換器121に送られる。このgofノード並列変換器は、gof開始タグと終了タグ及びメタデータ(本例では、タイトル(TITL)メタデータ)を認識して除去し、このメタデータをメタデータインタープリタ123に送り、フレームノードをフレームノード並列変換器125に送る。図9のフレームノード105と本質的に同じであるフレームノード105の一例が図解的に示されている。
フレームノード並列変換器125は、フレームノード開始タグと終了タグ及びメタデータ(本例では、時間コードメタデータ(TC))を認識して除去し、このメタデータをメタデータインタープリタ123に送り、チャンネルノードをチャンネルノード並列変換器127に送る。図9のチャンネルノード101と本質的に同じであるチャンネルノード101の一例が図解的に示されている。
チャンネルノード並列変換器127は、チャンネルノード開始タグと終了タグ及びメタデータ(本例では、ダウンミックス(DM)メタデータ)を認識して除去し、このメタデータをメタデータインタープリタ123に送り、オーディオエッセンスセグメントを、図9のエンコーダ又はエンコーディングプロセスに適用されたオーディオエッセンスと本質的に同じオーディオエッセンス91のストリームに類似するオーディオレンダリングプロセス又は装置129に送る。
メタデータインタープリタ123は、さまざまなメタデータを解釈し、それを(不図示の)機能及び/又は装置及びオーディオレンダリング129に適用する。
本発明とその種々の形態はディジタル信号プロセッサ、プログラムされた汎用ディジタルコンピュータ、及び/又は特定目的のディジタルコンピュータにおけるソフトウェアのようなさまざまな方法で実施することができる。アナログ信号ストリーム及び/又はディジタル信号ストリーム同士のインターフェースは適切なハードウエア及び/又はソフトウエアの機能及び/又はファームウエアの機能として実施することができる。本発明とその種々の形態は、その元の信号としてアナログオーディオ信号を用いるが、実際の応用例では、おそらくほとんどの処理機能は、オーディオ信号がサンプルとして表現されるディジタル信号ストリームのディジタル領域で実施されるであろう。
本発明の特徴に基づきフォーマットされたビットストリームは、1以上の既知のデータ記憶媒体及び伝送手段により記憶又は伝送することができる。
本発明を変形又は修正した他の実施例及びその様々な形態は当業者には明らかであり、上記にて説明した発明の具体的実施形態に限定されるものではないことは了解されよう。したがって、本発明のすべての変形、修正、又はここに開示し請求した基本的な原則及び思想の範囲内と同等のものは、本発明に含まれると考える。
本発明の特徴に基づくビットストリームのオーディオ情報(ここではしばしば「オーディオエッセンス」と称す)成分とツリー状階層を示した簡略化した図式表現である。 本発明の特徴に基づくビットストリームのオーディオ情報(ここではしばしば「オーディオエッセンス」と称す)成分とツリー状階層表現を示した簡略化した図式表現である。 図1bに類似するがメタデータを含むツリー状階層表現を示した簡略化した図式表現である。 図2のツリー状階層に順にトラバーサルを行った結果、本発明の特徴に基づき順番に並べられたビットストリームを示した簡略化した図式表現である。ここで、図2は、各ノードの開始部及び/又は終了部に添付されたメタデータのセグメントも示している点で異なる。 本発明の特徴に基づくビットストリームを用いたトランスコーディングプロセスを示した簡略化した図式表現である。 本発明の特徴に基づくビットストリームを用いたトランスコーディングプロセスを示した簡略化した図式表現である。 本発明の特徴に基づくビットストリームを用いたトランスコーディングプロセスを示した簡略化した図式表現である。 本発明の特徴に基づくビットストリームを用いたトランスコーディングプロセスを示した簡略化した図式表現である。 本発明の特徴に基づくツリー状階層のノードの構造の簡略化した図式表現である。 短いノードの構造の簡略化した図式表現である。 本発明に基づく階層ツリーの一例の簡略化した図式表現である。 本発明の特徴に基づくビットストリームへ2つのAC-3同期フレームをマッピングしたものを示す簡略化した図式表現である。 2つの補助的なオーディオチャンネルを加えた図8aのカプセル化したAC-3ビットストリームを示す簡略化した図式表現である。 本発明の特徴に基づき、図3の例に類似するビットストリームを作るためのエンコーダ又はエンコーディングプロセスの種々の機能的特徴をフローチャート又は機能ブロック線図で示した簡略化した図式表現である。 本発明の特徴に基づき、図3及び図9の例のようなビットストリームからオーディオエッセンスとメタデータを導き出すためのデコーダ又はデコーディングプロセスの機能的特徴をフローチャート又は機能ブロック線図で示した簡略化した図式表現である。

Claims (19)

  1. ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述する、オーディオ情報を表示するビットストリームフォーマットであって、該ツリー状階層は、
    それぞれが1以上のノードを持つ複数のツリー状階層レベルであって、少なくともいくつかの徐々に小さくなるオーディオ情報のサブディビジョンが徐々に前記ツリー状階層の低いレベルにおいて表示されることを特徴とするツリー状階層レベルを具備し、前記オーディオ情報は、前記1以上のレベルにおけるノードに含まれることを特徴とするビットストリームフォーマット。
  2. 前記ビットストリームシンタックスが請求項1に記載のツリー状階層で記述されるビットストリームフォーマットであって、前記徐々に小さくなるオーディオのサブディビジョンには、1以上の時間的サブディビジョン、空間的サブディビジョン、及び分解能的サブディビジョンが含まれることを特徴とするビットストリームフォーマット。
  3. 前記ビットストリームシンタックスが請求項1に記載のツリー状階層で記述されるビットストリームフォーマットであって、前記ツリー状階層の第1のレベルは前記オーディオ情報のすべてを表示するルートノードを具備し、それより低い少なくとも1つのレベルは前記オーディオ情報の時間間隔を表示する複数のノードを具備することを特徴とするビットストリームフォーマット。
  4. 前記ビットストリームシンタックスが請求項3に記載のツリー状階層で記述されるビットストリームフォーマットであって、さらに低い少なくとも1つのレベルは前記オーディオ情報の空間的サブディビジョンを具備することを特徴とするビットストリームフォーマット。
  5. 請求項1乃至請求項4のいずれか1項に記載のビットストリームフォーマットであって、該ビットストリームは独立したタグセグメントとコンテントセグメントのシーケンスを具備し、各タグセグメントはデリミタとして機能し、各コンテントセグメントはオーディオ情報又はオーディオ情報に関するメタデータを持つペイロードを有し、前記セグメントは前記ツリー状階層レベルにて構造的に独立して階層的にネストされた構成となっていることを特徴とするビットストリームフォーマット。
  6. 請求項5に記載のビットストリームフォーマットであって、各ノードが開始タグセグメント及び終了タグセグメントにより区切られることを特徴とするビットストリームフォーマット。
  7. 請求項6に記載のビットストリームフォーマットであって、開始タグセグメント及び終了タグセグメントにより、ノード内のヘッダコンテキストとフッタコンテキストが区切られることを特徴とするビットストリームフォーマット。
  8. 請求項1乃至請求項7のいずれか1項に記載のビットストリームフォーマットであって、オーディオ情報を持つ1以上のコンテントセグメントを有するノードが、オーディオ情報を持つ前記1以上のコンテントセグメント中の前記オーディオ情報に関するメタデータを持つ1以上のコンテントセグメントを有することを特徴とするビットストリームフォーマット。
  9. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づきフォーマットされたビットストリーム。
  10. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディング及びデコーディングするシステム。
  11. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディングするエンコーダ。
  12. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをデコーディングするデコーダ。
  13. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをトランスコーディングする装置。
  14. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づきフォーマットされたビットストリームを作る工程。
  15. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディング及びデコーディングする工程。
  16. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをエンコーディングする工程。
  17. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをデコーディングする工程。
  18. 請求項1乃至請求項8のいずれか1項に記載のビットストリームフォーマットに基づくフォーマットを有するビットストリームをトランスコーディングする工程。
  19. 請求項9に記載のビットストリームを記憶又は伝送するための媒体。
JP2007509516A 2004-04-21 2005-04-13 ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオビットストリームフォーマット Pending JP2007537464A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US56446504P 2004-04-21 2004-04-21
PCT/US2005/012493 WO2005109403A1 (en) 2004-04-21 2005-04-13 Audio bitstream format in which the bitstream syntax is described by an ordered transveral of a tree hierarchy data structure

Publications (1)

Publication Number Publication Date
JP2007537464A true JP2007537464A (ja) 2007-12-20

Family

ID=34965952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007509516A Pending JP2007537464A (ja) 2004-04-21 2005-04-13 ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオビットストリームフォーマット

Country Status (11)

Country Link
US (1) US20070208571A1 (ja)
EP (1) EP1743327A1 (ja)
JP (1) JP2007537464A (ja)
KR (1) KR20070012808A (ja)
CN (1) CN1942931A (ja)
AU (1) AU2005241905A1 (ja)
BR (1) BRPI0509985A (ja)
CA (1) CA2561352A1 (ja)
IL (1) IL178123A0 (ja)
MX (1) MXPA06010867A (ja)
WO (1) WO2005109403A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016513811A (ja) * 2013-03-01 2016-05-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated 変換球面調和係数

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527267B2 (en) * 2008-12-04 2013-09-03 Linear Accoustic, Inc. Adding additional data to encoded bit streams
US20130336379A1 (en) * 2012-06-13 2013-12-19 Divx, Llc System and Methods for Encoding Live Multimedia Content with Synchronized Resampled Audio Data
CN105849801B (zh) * 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
US10068577B2 (en) * 2014-04-25 2018-09-04 Dolby Laboratories Licensing Corporation Audio segmentation based on spatial metadata
CN106688251B (zh) 2014-07-31 2019-10-01 杜比实验室特许公司 音频处理系统和方法
US9286383B1 (en) 2014-08-28 2016-03-15 Sonic Bloom, LLC System and method for synchronization of data and audio
JP6412259B2 (ja) 2014-10-03 2018-10-24 ドルビー・インターナショナル・アーベー パーソナル化されたオーディオへのスマート・アクセス
US11130066B1 (en) 2015-08-28 2021-09-28 Sonic Bloom, LLC System and method for synchronization of messages and events with a variable rate timeline undergoing processing delay in environments with inconsistent framerates
US10231001B2 (en) 2016-05-24 2019-03-12 Divx, Llc Systems and methods for providing audio content during trick-play playback
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006559A2 (en) * 2002-07-09 2004-01-15 Kaleidescape, Inc. Secure presentation of encrypted digital content

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978756A (en) * 1996-03-28 1999-11-02 Intel Corporation Encoding audio signals using precomputed silence
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
EP0919953B1 (en) * 1997-11-28 2004-08-18 Matsushita Electric Industrial Co., Ltd Audio-video decoding system
JP2001266052A (ja) * 2000-03-15 2001-09-28 Ricoh Co Ltd 情報の構造化及びアプリケーション生成の方法及び装置
EP1158420A1 (en) * 2000-05-24 2001-11-28 Robert Bosch Gmbh Method for a description of audio-visual data content in a multimedia environment
EP2302929B1 (en) * 2001-11-27 2015-03-25 Samsung Electronics Co., Ltd. Coding and decoding of a bitstream with a coordinate interpolator
US7672743B2 (en) * 2005-04-25 2010-03-02 Microsoft Corporation Digital audio processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006559A2 (en) * 2002-07-09 2004-01-15 Kaleidescape, Inc. Secure presentation of encrypted digital content
JP2005533416A (ja) * 2002-07-09 2005-11-04 カレイドスケイプ・インコーポレイテッド 暗号化されたデジタルコンテンツの安全な提示方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016513811A (ja) * 2013-03-01 2016-05-16 クゥアルコム・インコーポレイテッドQualcomm Incorporated 変換球面調和係数

Also Published As

Publication number Publication date
AU2005241905A1 (en) 2005-11-17
EP1743327A1 (en) 2007-01-17
US20070208571A1 (en) 2007-09-06
BRPI0509985A (pt) 2007-10-16
WO2005109403A1 (en) 2005-11-17
CA2561352A1 (en) 2005-11-17
IL178123A0 (en) 2006-12-31
KR20070012808A (ko) 2007-01-29
CN1942931A (zh) 2007-04-04
MXPA06010867A (es) 2006-12-15

Similar Documents

Publication Publication Date Title
JP2007537464A (ja) ツリー状階層データ構造を順に横断してゆくことによりビットストリームシンタックスを記述するオーディオビットストリームフォーマット
JP4724452B2 (ja) デジタルメディア汎用基本ストリーム
CN105474309B (zh) 高效率对象元数据编码的装置及方法
US6442517B1 (en) Methods and system for encoding an audio sequence with synchronized data and outputting the same
JP5174027B2 (ja) ミックス信号処理装置及びミックス信号処理方法
JP5113052B2 (ja) 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
TWI333771B (en) Apparatus for generating and interpreting a data stream modified in accordance with the importance of the data
AU2006233511B9 (en) Entropy coding with compact codebooks
JP5270717B2 (ja) オーディオ信号デコーディング方法、オーディオ信号デコーディング装置及びオーディオ信号を処理するシステム
CA2578190C (en) Device and method for generating a coded multi-channel signal and device and method for decoding a coded multi-channel signal
JP2005538436A (ja) 構造化された文章、特にxml文章の符号化/復号化のための方法及び装置
TW200921644A (en) Apparatus and method for encoding/decoding signal
BRPI0711094A2 (pt) método para codificação e decodificação de sinal de áudio baseado em objeto e aparelho deste
CN102047336B (zh) 用于产生或截除或改变包括至少一个报头部分在内的基于帧的比特流格式文件的方法和设备以及相应数据结构
CN106463125A (zh) 基于空间元数据的音频分割
JP5173811B2 (ja) オーディオ信号デコーディング方法及びその装置
CZ20003235A3 (cs) Zařízení a způsob pro kódování digitálního informačního signálu, zařízení pro dekódování a nosič záznamu
BR112020016948A2 (pt) Métodos e dispositivos para gerar ou decodificar um fluxo de bits compreendendo sinais de áudio imersivos
JP2006528368A (ja) オーディオファイルフォーマット変換
JP4859925B2 (ja) オーディオ信号デコーディング方法及びその装置
CN1212601C (zh) 一种嵌入式语音合成方法及系统
JP2004524776A (ja) Mp3のトリック再生
JP2007080274A (ja) グラフィックデータ圧縮に関するメタ言語を用いた入力ファイルの生成方法
JPWO2020010064A5 (ja)
CN100496124C (zh) 使用图形数据压缩的元表示产生输入文件的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111213