JP2005327442A - デジタルメディア汎用基本ストリーム - Google Patents

デジタルメディア汎用基本ストリーム Download PDF

Info

Publication number
JP2005327442A
JP2005327442A JP2005116625A JP2005116625A JP2005327442A JP 2005327442 A JP2005327442 A JP 2005327442A JP 2005116625 A JP2005116625 A JP 2005116625A JP 2005116625 A JP2005116625 A JP 2005116625A JP 2005327442 A JP2005327442 A JP 2005327442A
Authority
JP
Japan
Prior art keywords
chunk
format
digital media
stream
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005116625A
Other languages
English (en)
Other versions
JP2005327442A5 (ja
JP4724452B2 (ja
Inventor
Sudheer Sirivara
シリバラ サディール
James D Johnston
ディー.ジョンストン ジェームズ
Naveen Thumpudi
サムプディ ナビーン
Wei-Ge Chen
チェン ウェイジェ
Chris Messer
メッサー クリス
Sergey Smirnov
スミルノフ セルゲイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005327442A publication Critical patent/JP2005327442A/ja
Publication of JP2005327442A5 publication Critical patent/JP2005327442A5/ja
Application granted granted Critical
Publication of JP4724452B2 publication Critical patent/JP4724452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/0078Labyrinth games
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • A63F3/00003Types of board games
    • A63F3/00097Board games with labyrinths, path finding, line forming
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/06Patience; Other games for self-amusement
    • A63F9/12Three-dimensional jig-saw puzzles
    • A63F9/1252Three-dimensional jig-saw puzzles using pegs, pins, rods or dowels as puzzle elements
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H33/00Other toys
    • A63H33/04Building blocks, strips, or similar building parts
    • A63H33/06Building blocks, strips, or similar building parts to be assembled without the use of additional elements
    • A63H33/08Building blocks, strips, or similar building parts to be assembled without the use of additional elements provided with complementary holes, grooves, or protuberances, e.g. dovetails
    • A63H33/084Building blocks, strips, or similar building parts to be assembled without the use of additional elements provided with complementary holes, grooves, or protuberances, e.g. dovetails with grooves
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/06Patience; Other games for self-amusement
    • A63F9/12Three-dimensional jig-saw puzzles
    • A63F9/1252Three-dimensional jig-saw puzzles using pegs, pins, rods or dowels as puzzle elements
    • A63F2009/1256Three-dimensional jig-saw puzzles using pegs, pins, rods or dowels as puzzle elements using a plurality of pegs
    • A63F2009/126Configuration or arrangement of the pegs

Abstract

【課題】 与えられたフォーマットのデジタルメディアデータ(音声、映像、静止画像、および/またはテキスト)を、DVDなど光ディスクへのデータ符号化に便利な移送コンテナまたはファイルコンテナフォーマットにマッピングするための技法およびツールを提供する。
【解決手段】 デジタルメディア汎用基本ストリームは、デジタルメディアストリームを、光ディスクフォーマットを含む任意の移送コンテナまたはファイルコンテナ、および放送ストリームや無線伝送などの他の移送にマッピングするために使用できる。ストリーム中のデジタルメディアの任意の与えられたフレームを復号化する情報は、各符号化フレームに収められる。デジタルメディア汎用基本ストリームは、チャンクと呼ばれるストリーム構成要素を含む。デジタルメディア汎用基本ストリームを実施すると、メディアストリーム用データは、1つまたは複数のチャンクを有するフレーム内に構成される。
【選択図】 図5

Description

本発明は一般に、デジタルメディア(例えば、特に音声、映像、および/または静止画像)の符号化および復号化に関する。
コンパクトディスク、デジタルビデオディスク、携帯デジタルメディアプレーヤ、デジタル無線ネットワーク、インターネットを介した音声および映像配信の普及に伴い、デジタル音声および映像が一般化した。技術者は、デジタル音声または映像の品質を維持しながら、デジタル音声および映像を効率的に処理するために様々な技法を使用する。
デジタル音声情報は、音声情報を表現する一連の数値として処理される。例えば、1つの数値は、特定の時刻における振幅値(すなわち、音の大きさ)である音声サンプルを表現することができる。サンプル深度、サンプリングレート、およびチャネルモードを含む複数の要因が、音声情報の品質に影響を与える。
サンプル深度(または精度)は、サンプルを表現するのに使用する数値の範囲を表す。サンプルを表現するのにより多くの値を使用すれば、より微細な振幅変化をキャプチャすることができるので、それだけ品質も向上する。例えば、8ビットサンプルでは、256個の値が表現可能であるが、16ビットサンプルでは、65536個の値が表現可能になる。24ビットサンプルでは、通常の音の大きさの変化を非常に微細にキャプチャすることができ、異常に大きな音の大きさもキャプチャすることができる。
サンプリングレート(通常は1秒当たりのサンプル数として測定される)も、品質に影響を与える。サンプリングレートを高くすれば、より広い帯域を表現できるので、それだけ品質も向上する。一般的なサンプリングレートには、8000、11025、22050、32000、44100、48000、および96000サンプル/秒などがある。
モノラルとステレオは、2つの一般的な音声用チャネルモードである。モノラルモードでは、音声情報は、1つのチャネルに存在する。ステレオモードでは、音声情報は、左チャネルおよび右チャネルと一般に呼ばれる2つのチャネルに存在する。5.1チャネル、7.1チャネル、または9.1チャネルサラウンドサウンドなど、より多くのチャネルを有するその他のモードも一般に使用される。高品質の音声情報には、高いビットレートというコストが課される。高品質の音声情報は、大量のコンピュータ記憶領域および伝送容量を消費する。
多くのコンピュータおよびコンピュータネットワークは、未加工のデジタル音声および映像を処理できるだけの記憶領域または資源を持ち合わせていない。符号化(コード化またはビットレート圧縮とも呼ばれる)は、情報を低いビットレートに変換することによって、音声または映像情報の保存コストおよび伝送コストを下げる。符号化は、(品質が損なわれない)可逆方式、または(解析的な品質は損なわれるが、知覚的な音声品質は損なわれず、可逆方式に比べてビットレートの低減量が著しく大きい)非可逆方式で行うことができる。復号化(伸張とも呼ばれる)は、符号化形式から元の情報を再構成して取り出す。
デジタルメディアデータの効率的な符号化および復号化に対する要望に応えて、多くの音声および映像符号器/復号器システム(「コーデック」)が開発されてきた。例えば、図1を参照すると、音声符号器100は、入力音声データ110を取り込み、1つまたは複数のモジュールを使用して、入力音声データ110を符号化し、符号化音声出力データ120を生成する。図1では、符号化音声データ120を生成するために、解析モジュール130、周波数変換器モジュール140、品質低減器(非可逆符号化)モジュール150、および可逆符号器モジュール160が使用される。コントローラ170は、符号化プロセスの調整および制御を行う。
既存の音声コーデックに、マイクロソフトコーポレーションのWindows(登録商標)メディアオーディオ[「WMA」]コーデックがある。その他のコーデックシステムとしては、モーションピクチャーエキスパートグループ[「MPEG」]によって提供または仕様決定された、オーディオレイヤー3[「MP3」]規格やMPEG−2アドバンストオーディオコーディング[「AAC」]規格、または(AC−2およびAC−3規格を提供する)ドルビーなど、その他の営利業者によって提供または仕様決定されたものなどがある。
符号化システムは、異なるシステム毎に特殊化された基本ビットストリームを使用し、2以上の基本ビットストリームを搬送できる多重化ストリームの中に基本ビットストリームを収める。このような多重化ストリームは、トランスポートストリーム(transport stream)としても知られている。トランスポートストリームは一般に、バッファサイズ制限など一定の制約を基本ストリームに課し、復号化を行い易くするための一定の情報を基本ストリームに収める必要がある。基本ストリームは一般に、基本ストリームの同期化および正確な復号化を容易にするアクセスユニット(access unit)を含み、トランスポートストリーム内の異なる基本ストリームの識別を可能にする。
例えば、AC−3規格の改訂版Aに、一連の同期フレームから構成される基本ストリームについての説明がある。各同期フレームは、同期情報ヘッダ、ビットストリーム情報ヘッダ、6個の符号化音声データブロック、およびエラーチェックフィールドを含む。同期情報ヘッダは、ビットストリームの同期をとり、それを維持するための情報を含む。同期情報には、同期ワード、巡回冗長検査ワード、サンプルレート情報、およびフレームサイズ情報などがある。同期情報ヘッダの後には、ビットストリーム情報ヘッダが続く。ビットストリーム情報には、符号化モード情報(例えば、チャネル数やチャネルタイプ)、タイムコード情報、およびその他のパラメータなどがある。
AAC規格には、固定ヘッダ、可変ヘッダ、オプションのエラーチェックブロック、および未加工(生)データブロックから構成される、オーディオデータトランスポートストリーム(ADTS)フレームについての説明がある。固定ヘッダは、(例えば、同期ワード、サンプルレート情報、チャネル構成情報など)どのフレームでも変化しないが、ビットストリームへのランダムアクセスを可能にするために各フレームに繰り返し収められる情報を含む。可変ヘッダは、(例えば、フレーム長情報、バッファ満杯情報、未加工データブロック数など)フレームによって変化するデータを含む。エラーチェックブロックは、巡回冗長検査用の可変CRC検査データを含む。
既存のトランスポートストリームには、MPEG−2システムまたはMPEG−2トランスポートストリームなどがある。MPEG−2トランスポートストリームは、1つまたは複数のAC−3ストリームなど、複数の基本ストリームを含むことができる。MPEG−2トランスポートストリーム内では、AC−3基本ストリームは、少なくともストリームタイプ変数と、ストリームID変数と、オーディオディスクリプタとによって識別される。オーディオディスクリプタは、ビットレート、チャネル数、サンプルレート、および説明用テキストフィールドなど、個々のAC−3ストリーム用の情報を含む。
コーデックシステムについてさらに情報を得たい場合は、それぞれの規格または技術刊行物を参照されたい。
要約すると、説明する技法およびツールは、音声ストリームなどのデジタルメディアを符号化および復号化するための様々な技法およびツールに関する。説明する技法およびツールは、与えられたフォーマットのデジタルメディアデータ(例えば、特に音声、映像、静止画像、および/またはテキストなど)を、デジタルビデオディスク(DVD)など光ディスクへのデータ符号化に便利な移送コンテナまたはファイルコンテナフォーマットにマッピングするための技法およびツールを含む。
本明細書の説明では、デジタルメディアストリーム(例えば、音声ストリーム、映像ストリーム、または画像)を、光ディスクフォーマットだけでなく、放送ストリームや無線伝送などのその他の移送を含む、任意の移送コンテナまたはファイルコンテナにマッピングするために、上記の技法およびツールによって使用可能なデジタルメディア汎用基本ストリーム(digital media universal elementary stream)について、詳しく述べる。説明するデジタルメディア汎用基本ストリームは、ストリームを復号化するのに必要な情報を、ストリーム自体に収める。さらに、ストリーム中のデジタルメディアの任意の与えられたフレームを復号化するための情報は、各符号化フレームに収めることができる。
デジタルメディア汎用基本ストリームは、チャンク(chunk)と呼ばれるストリーム構成要素を含む。デジタルメディア汎用基本ストリームを実施することにより、メディアストリーム用データは、1つまたは複数のチャンクを有するフレーム内に構成される。チャンクは、チャンクタイプ識別子を含むチャンクヘッダと、チャンクデータとを含むが、チャンクのすべての情報がチャンクヘッダに存在するチャンクタイプ(例えば、ブロック終端チャンク)など、チャンクタイプによっては、チャンクデータが存在しないこともあり得る。いくつかの実装においては、チャンクは、チャンクヘッダと、次のチャンクヘッダが始まるまでのすべての後続情報として定義される。
本発明の一実装においては、デジタルメディア汎用基本ストリームは、同期パターンおよび長さフィールドを有する同期チャンクを始めとするチャンクを使用して、効率的な符号化方式を具現する。いくつかの実装においては、「肯定的チェックイン(positive check−in)」に基づき、オプション的な要素を使用して、ストリームを符号化する。本発明の一実装においては、ストリームフレームの末尾を示すのに、ブロック終端チャンクを、同期パターン/長さフィールドと交互に使用することができる。さらに、いくつかのストリームフレームでは、同期パターン/長さチャンクとブロック終端チャンクを共に省略することができる。したがって、同期パターン/長さチャンクとブロック終端チャンクも、ストリームのオプション的な要素である。
本発明の一実装においては、フレームには、メディアストリームおよびその特性を定義するストリーム属性チャンクと呼ばれる情報を収めることができる。したがって、基本ストリームの基本形式は、コーデック属性を指定するストリーム属性チャンクの1つのインスタンスと、メディアペイロードチャンクのストリームだけから構成することができる。この基本形式は、音声またはその他のリアルタイムのメディアストリーミングアプリケーションなど、待ち時間の短いアプリケーション、または低ビットレートのアプリケーションで有用である。
デジタルメディア汎用基本ストリームは、従来の復号器の実施との互換性を失うことなく、後に定義されるコーデックまたはチャンクタイプを符号化するため、ストリーム定義の拡張を可能にする拡張メカニズムも含む。汎用基本ストリーム定義は、以前は意味論的な意味を有していなかったチャンクタイプ符号を使用して、新しいチャンクタイプを定義できるという点で、あるいは、そのような新たに定義されたチャンクタイプを含む汎用基本ストリームが、汎用基本ストリームの既存または従来の復号器によって解析可能(parse−able)であり続けるという点で拡張可能である。新たに定義されたチャンクは、(チャンク長がチャンクの構文要素内に符号化される)「長さ提供」方式、または(チャンク長がチャンクタイプ符号から暗黙に分かる)「長さ事前定義」方式とすることができる。既存の従来の復号器の解析器では、新たに定義されたチャンクは、「廃棄」または無視されるが、ビットストリームの構文解析または韻律分析に不都合が生じることはない。
説明する実施形態は、デジタルメディアを符号化および復号化するための技法およびツールに関し、より詳細には、任意の移送コンテナまたはファイルコンテナにマッピングできるデジタルメディア汎用基本ストリームを使用するコーデックに関する。説明する技法およびツールは、与えられたフォーマットの音声データを、デジタルビデオディスク(DVD)などの光ディスクおよびその他の移送コンテナまたはファイルコンテナへの音声データの符号化に便利なフォーマットにマッピングするための技法およびツールを含む。いくつかの実施においては、デジタル音声データは、後でDVDフォーマットに変換および保存するのに適した中間フォーマットに構成される。中間フォーマットは、例えば、Windows(登録商標)メディアオーディオ(WMA)フォーマットとすることができ、より詳細には、以下に説明する汎用基本ストリームの役割を果たすWMAフォーマットとすることができる。DVDフォーマットは、例えば、DVDオーディオレコーディング(DVD−AR)フォーマット、またはDVD圧縮オーディオ(DVD−CA)フォーマットとすることができる。これらの技法の音声ストリームへの具体的な適用について説明するが、これらの技法は、特に映像、静止画像、テキスト、ハイパーテキスト、およびマルチメディアを含むが、これらには限定されず、その他の形式のデジタルメディアを符号化/復号化するために使用することもできる。
様々な技法およびツールは、組み合わせて使用することも、独立して使用することもできる。異なる実施形態は、それぞれ1つまたは複数の説明する技法およびツールを実施する。
I.コンピューティング環境
説明する汎用基本ストリームおよびトランスポートマッピング(universal elementary stream and transport mapping)の実施形態は、例えば、特にコンピュータ、デジタルメディアプレイング、送受信装置、携帯メディアプレーヤ、音声会議、およびウェブメディアストリームアプリケーションなど、デジタルメディアおよび音声信号処理が実行される様々な装置のいずれかにおいて実施することができる。汎用基本ストリームおよびトランスポートマッピングは、ハードウェア回路(例えば、ASIC、FPGAなどの回路)、およびコンピュータまたはその他のコンピューティング環境内で(中央処理装置(CPU)、デジタル信号プロセッサ、またはオーディオカードなどで実行されて)動作する、図1に示すようなデジタルメディアまたは音声処理ソフトウェアによって実施することができる。
図2に、説明する実施形態を実施できる適切なコンピューティング環境(200)の一般的な例を示す。コンピューティング環境(200)は、本発明の用途または機能の範囲に対して何らかの限定を示唆しようとするものではなく、本発明は、様々な汎用または専用コンピューティング環境において、実施することができる。
図2を参照すると、コンピューティング環境(200)は、少なくとも1つのプロセッシングユニット(210)と、メモリ(220)とを含む。図2では、この最も基本的な構成(230)は、破線で囲まれている。プロセッシングユニット(210)は、コンピュータ実行可能命令を実行するが、実プロセッサでも、仮想プロセッサでもよい。マルチプロセッシングシステムでは、処理能力を増強するために、複数のプロセッシングユニットが、コンピュータ実行可能命令を実行する。メモリ(220)は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)であっても、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリなど)であっても、または双方を組み合わせたメモリであってもよい。メモリ(220)は、音声符号化または復号化を実施するソフトウェア(280)を格納する。
コンピューティング環境は、さらなる機能を有することもできる。例えば、コンピューティング環境(200)は、記憶装置(240)、1つまたは複数の入力装置(250)、1つまたは複数の出力装置(260)、および1つまたは複数の通信コネクション(270)を含む。バス、コントローラ、またはネットワークなどの相互接続機構(図示せず)が、コンピューティング環境(200)の構成要素を相互に接続する。一般に、オペレーティングシステムソフトウェア(図示せず)が、コンピューティング環境(200)において動作するその他のソフトウェアに動作環境を提供し、コンピューティング環境(200)の構成要素の動作を調整する。
記憶装置(240)は、着脱可能または着脱不能とすることができ、磁気ディスク、磁気テープもしくはカセット、CD−ROM、CD−RW、DVD、または情報を保存するのに使用でき、コンピューティング環境(200)内でアクセス可能なその他の任意の媒体を含む。記憶装置(240)は、音声符号化または復号化を実施するソフトウェア(280)のための命令を記憶する。
入力装置(250)は、キーボード、マウス、ペン、もしくはトラックボールなどの接触型入力装置、音声入力装置、スキャニング装置、またはコンピューティング環境(200)に入力を提供するその他の装置とすることができる。音声の場合、入力装置(250)は、音声入力をアナログまたはデジタル形式で受け入れるサウンドカードもしくは類似装置、またはコンピューティング環境に音声サンプルを提供するCD−ROMもしくはCD−RWとすることができる。出力装置(260)は、ディスプレイ、プリンタ、スピーカ、CDライタ、またはコンピューティング環境(200)から出力を提供するその他の装置とすることができる。
通信コネクション(270)は、通信媒体を介して別のコンピュータエンティティと通信を行うことを可能にする。通信媒体は、コンピュータ実行可能命令、圧縮音声もしくは映像情報、またはその他のデータなどの情報を、データ信号(例えば、変調データ信号)として伝送する。変調データ信号とは、信号に情報を符号化するための方式によって、その信号の1つまたは複数の特性を設定または変更された信号のことである。例えば、通信媒体には、電気的、光学的、RF、赤外線、音響的、またはその他の搬送波を用いて実施される有線技法または無線技法が含まれるが、これらに限定されるものではない。
本発明は、コンピュータ読取り可能媒体を利用する一般的状況において説明することができる。コンピュータ読取り可能媒体は、コンピューティング環境内でアクセス可能な任意の利用可能な媒体とすることができる。例えば、コンピューティング環境(200)において、コンピュータ読取り可能媒体には、メモリ(220)、記憶装置(240)、通信媒体、およびこれらの任意のものの組み合わせが含まれるが、これらに限定されるものではない。
本発明は、プログラムモジュールに含まれる命令など、コンピューティング環境で対象とする実プロセッサまたは仮想プロセッサで実行されるコンピュータ実行可能命令を利用する一般的環境において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などが含まれる。プログラムモジュールの機能は、様々な実施形態における必要に応じて、1つに結合することができ、またはいくつかのプログラムモジュールに分割することもできる。プログラムモジュールのコンピュータ実行可能命令は、ローカルコンピューティング環境または分散コンピューティング環境内で実行することができる。
II.汎用音声符号器および復号器
いくつかの実装においては、デジタル音声データは、後に移送コンテナまたはファイルコンテナにマッピングするのに適した中間フォーマットに構成される。音声データは、音声符号器を介してそのような中間フォーマットに構成することができ、その後、音声復号器によって復号化することができる。
図3は、汎用音声符号器(300)のブロック図であり、図4は、汎用音声復号器(400)のブロック図である。符号器および復号器内のモジュール間に示された関係は、符号器および復号器内での情報の主な流れを示しており、図を簡潔にするために、その他の関係は示していない。実施および所望の圧縮タイプに応じて、符号器または復号器のモジュールを追加し、省略し、複数のモジュールに分割し、他のモジュールと結合し、かつ/または類似のモジュールによって置換することができる。
A.音声復号器
図3を参照すると、例示的な音声符号器(300)は、選択器(308)、マルチチャネルプリプロセッサ(310)、パーティショナ/タイル構成器(320)、周波数変換器(330)、知覚モデラ(340)、加重器(342)、マルチチャネル変換器(350)、量子化器(360)、エントロピー符号器(370)、コントローラ(380)、およびビットストリームマルチプレクサ[「MUX」](390)を含む。
音声符号器(300)は、一定のサンプリング深度およびレートで、パルス符号変調[「PCM」]フォーマットの時系列の入力音声サンプル(305)を受信する。音声符号器(300)は、音声サンプル(305)を圧縮し、符号器(300)の様々なモジュールによって生成された情報を多重化して、マイクロソフトのWindows(登録商標)メディアオーディオ[「WMA」]フォーマットなどのフォーマットのビットストリーム(395)を出力する。
選択器(308)は、音声サンプル(305)の符号化モード(例えば、可逆または非可逆モード)を選択する。可逆符号化モードは一般に、高品質(および高ビットレート)圧縮用に使用される。非可逆符号化モードは、加重器(342)や量子化器(360)などの構成要素を含み、一般に、調整可能品質(および制御可能ビットレート)圧縮用に使用される。選択器(308)での選択決定は、ユーザ入力またはその他の基準に応じて行われる。
マルチチャネル音声データの非可逆符号化の場合、マルチチャネルプリプロセッサ(310)が、時間領域の音声サンプル(305)を任意選択でリマトリックス化(re−matrix)する。マルチチャネルプリプロセッサ(310)は、マルチチャネル後処理用命令などの副次的情報をMUX(390)に送信することができる。
パーティショナ/タイル構成器(320)は、時間変動(time−varying)サイズおよびウィンドウ形成機能を用いて、音声入力サンプルのフレームをサブフレームブロック(すなわち、ウィンドウ)に分割する。サブフレームブロックのサイズおよびウィンドウは、フレーム内の過渡的信号の検出、符号化モード、およびその他の要因に応じて決まる。音声符号器(300)が非可逆符号化を使用する場合、可変サイズウィンドウが、可変時間分解能を可能にする。パーティショナ/タイル構成器(320)は、分割データブロックを周波数変換器(330)に出力し、ブロックサイズなどの副次的情報をMUX(390)に出力する。パーティショナ/タイル構成器(320)は、マルチチャネル音声フレームをチャネル毎に分割する。
周波数変換器(330)は、音声サンプルを受信し、それを周波数領域のデータに変換する。周波数変換器(330)は、周波数係数データのブロックを加重器(342)に出力し、ブロックサイズなどの副次的情報をMUX(390)に出力する。周波数変換器(330)は、周波数係数および副次的情報を知覚モデラ(340)に出力する。
知覚モデラ(340)は、与えられたビットレートに関して、再構成された音声信号の知覚的な品質を向上させるために、人間の聴覚系をモデル化している。一般に、知覚モデラ(340)は、聴覚モデルに従って音声データを処理し、音声データ用の重み係数を生成するのに使用できる量子化帯域加重器(342)に情報を提供する。知覚モデラ(340)は、様々な聴覚モデルのいずれかを使用し、励起パターン(excitation pattern)情報またはその他の情報を加重器(342)に渡す。
加重器(342)は、知覚モデラ(340)から受信した情報に基づいて量子化マトリックス用の重み係数を生成し、周波数変換器(330)から受信した情報に重み係数を適用する。量子化マトリックス用の重み係数は、音声データの複数の量子化帯域それぞれの重みを含む。量子化帯域加重器(342)は、係数データの重み付きブロックをチャネル加重器(344)に出力し、1組の重み係数などの副次的情報をMUX(390)に出力する。1組の重み係数は、より効率的な表現に圧縮することができる。
チャネル加重器(344)は、知覚モデラ(340)から受信した情報、さらにはローカルに再構成される信号の品質に基づいて、チャネル毎にチャネル固有の重み係数(スカラー量)を生成する。チャネル加重器(344)は、係数データの重み付きブロックをマルチチャネル変換器(350)に出力し、1組の重み係数などの副次的情報をMUX(390)に出力する。
マルチチャネル音声データの場合、チャネル加重器(344)によって生成される雑音整形周波数係数(noise−shaped frequency coefficient)データの複数のチャネルはしばしば相関するので、マルチチャネル変換器(350)は、マルチチャネル変換を利用することができる。マルチチャネル変換器(350)は、例えば、使用するマルチチャネル変換およびマルチチャネル変換されたタイル部分を示す副次的情報をMUX(390)に出力する。
量子化器(360)は、マルチチャネル変換器(350)の出力を量子化し、量子化係数データをエントロピー符号器(370)に、量子化ステップサイズを含む副次的情報をMUX(390)に提供する。
エントロピー符号器(370)は、量子化器(360)から受信した量子化係数データを可逆的に圧縮する。エントロピー符号器(370)は、音声情報を符号化するのに費やされるビット数を計算し、この情報をレート/品質コントローラ(380)に渡すことができる。
コントローラ(380)は、量子化器(360)と共に働いて、符号器(300)の出力のビットレートおよび/または品質を調整する。コントローラ(380)は、符号器(300)の他のモジュールから情報を受信し、現状において望ましい量子化係数を決定するために受信情報を処理する。コントローラ(380)は、品質および/またはビットレートの制約を満たすことを目的として、量子化係数を量子化器(360)に出力する。
MUX(390)は、音声符号器(300)の他のモジュールから受信した副次的情報を、エントロピー符号器(370)から受信したエントロピー符号化データと共に多重化する。MUX(390)は、符号器(300)によって出力されるビットストリーム(395)を格納する仮想バッファを含むことができる。コントローラ(380)は、品質および/またはビットレートを調整するために、バッファの現在の詰まり具合(使用率)およびその他の特性を使用することができる。
B.音声復号器
図4を参照すると、対応する音声復号器(400)は、ビットストリームデマルチプレクサ[「DEMUX」](410)、1つまたは複数のエントロピー復号器(420)、タイル構成復号器(430)、逆マルチチャネル変換器(440)、逆量子化器/加重器(450)、逆周波数変換器(460)、オーバーラッパー/加算器(470)、およびマルチチャネルポストプロセッサ(480)を含む。復号器(400)は、レート/品質制御または知覚モデリングのためのモジュールを含まないので、符号器(300)よりもいくぶん簡単である。
復号器(400)は、WMAフォーマットまたは別のフォーマットの圧縮音声情報のビットストリーム(405)を受信する。ビットストリーム(405)は、復号器(400)が音声サンプル(495)を再構成するのに用いるエントロピー符号化データおよび副次的情報を含む。
DEMUX(410)は、ビットストリーム(405)中の情報を構文解析し、情報を復号器(400)のモジュールに送信する。DEMUX(410)は、音声、ネットワークジッター、および/またはその他の要因の複雑な変動に起因するビットレートの変化を補償するために、1つまたは複数のバッファを含む。
1つまたは複数のエントロピー復号器(420)は、DEMUX(410)から受信したエントロピー符号を可逆的に復号化する。エントロピー復号器(420)は一般に、符号器(300)で使用されたエントロピー符号化の逆を利用する。図を簡潔にするために、図4には、エントロピー復号器モジュールが1つしか示されていないが、非可逆符号化モードと可逆符号化モードとで異なるエントロピー復号器を使用することができ、または両モードで同じエントロピー復号器を使用することもできる。やはり図を簡潔にするために、図4には、モード選択ロジックは示されていない。非可逆符号化モードで圧縮されたデータを復号化する場合、エントロピー復号器(420)は、量子化周波数係数データを生成する。
タイル構成復号器(430)は、DEMUX(410)からフレームのタイルパターンを表す情報を受信し、必要ならば、その情報を復号化する。タイル構成復号器(430)は次に、タイルパターン情報を復号器(400)の他の様々なモジュールに渡す。
逆マルチチャネル変換器(440)は、エントロピー復号器(420)から量子化周波数係数データを、タイル構成復号器(430)からタイルパターン情報を、DEMUX(410)から、例えば、使用するマルチチャネル変換およびマルチチャネル変換されたタイル部分を示す副次的情報を受信する。これらの情報を使用して、逆マルチチャネル変換器(440)は、必要ならば、変換マトリックスを伸張し、選択的かつ柔軟に1つまたは複数のマルチチャネル変換を音声データに適用する。
逆量子化器/加重器(450)は、DEMUX(410)から、タイルおよびチャネル量子化係数、ならびに量子化マトリックスを受信し、逆マルチチャネル変換器(440)から量子化周波数係数データを受信する。逆量子化器/加重器(450)は、必要ならば、受信した量子化係数/マトリックス情報を伸張してから、逆量子化器および重み付けを実行する。
逆周波数変換器(460)は、逆量子化器/加重器(450)によって出力された周波数係数データを受信し、さらにDEMUX(410)から副次的情報を、タイル構成復号器(430)からタイルパターン情報を受信する。逆周波数変換器(460)は、符号器で使用されたエントロピー符号化の逆を利用し、ブロックをオーバーラッパー/加算器(470)に出力する。
タイル構成復号器(430)からタイルパターン情報を受信するのに加えて、オーバーラッパー/加算器(470)は、逆周波数変換器(460)から復号された情報を受信する。オーバーラッパー/加算器(470)は、必要ならば、音声データを重ね合わせ、加え合わせ、異なるモードで符号化された音声データのフレームまたはその他の系列をインターリーブする。
マルチチャネルポストプロセッサ(480)は、オーバーラッパー/加算器(470)によって出力された時間領域の音声サンプルを任意選択でリマトリックス化する。マルチチャネルポストプロセッサは、再生用にファントムチャネル(phantom channel)を生成したり、スピーカ間でのチャネルの空間的回転などの特殊な効果を得たり、より少ないスピーカでの再生用にチャネルをフォールドダウン(fold down)したりするために、またはその他の目的で、選択的に音声データをリマトリックス化する。ビットストリーム制御の後処理の場合、後処理変換マトリックスは、時間とともに変化し、ビットストリーム(405)の中で伝達されるか、またはビットストリーム(405)に含まれる。
III.音声基本ストリームのマッピングに関する新方式
説明する技法およびツールは、(以下で説明する汎用基本ストリームフォーマットなど)与えられた中間フォーマットの音声基本ストリームを、(DVDなどの)光ディスクに保存し再生するのに適した移送コンテナまたは他のファイルコンテナフォーマットにマッピングするための技法およびツールを含む。本明細書の説明および図面においては、ビットストリームのフォーマットおよび意味、ならびにフォーマット間のマッピングのための技法を示し、説明する。
本明細書において説明する実装においては、デジタルメディア汎用基本ストリームは、チャンクと呼ばれるストリーム構成要素を使用して、ストリームを符号化する。例えば、デジタルメディア汎用基本ストリームの一実装においては、メディアストリーム用のデータを、1つもしくは複数のタイプの1つもしくは複数のチャンクを有するフレームに構成する。チャンクのタイプには、同期チャンク、フォーマットヘッダ/ストリーム属性チャンク、圧縮音声データ(例えば、WMA Pro音声データ)を含む音声データチャンク、メタデータチャンク、巡回冗長検査チャンク、タイムスタンプチャンク、ブロック終端チャンク、および/またはその他のタイプの既存のチャンクもしくは将来定義されるチャンクがある。チャンクは、(例えば、1バイトのチャンクタイプ構文要素を含むことができる)チャンクヘッダと、チャンクデータを含むが、チャンクのすべての情報がチャンクヘッダに存在するチャンクタイプ(例えば、ブロック終端チャンク)など、チャンクタイプによっては、チャンクデータが存在しないこともあり得る。いくつかの実装においては、チャンクは、チャンクヘッダおよび次のチャンクヘッダが始まるまでのすべての情報として定義される。
例えば、図5には、第1のフォーマットのデジタルメディアデータを、1つもしくは複数のチャンクを含むフレームまたはアクセスユニット構成を使用して、移送コンテナまたはファイルコンテナにマッピングするための技法500が示されている。510においてで、第1のフォーマットで符号化されたデジタルメディアデータを取得する。520において、取得したデジタルメディアデータを、1つまたは複数のチャンクを含むフレーム/アクセスユニット構成に構成する。次に530において、フレーム/アクセスユニット構成のデジタルメディアデータを、移送コンテナまたはファイルコンテナに挿入する。
図6は、移送コンテナまたはファイルコンテナから取得した、1つまたは複数のチャンクを含むフレームまたはアクセスユニット構成のデジタルメディアデータを復号化するための技法600を示している。610において、1つまたは複数のチャンクを含むフレーム構成の音声データを、移送コンテナまたはファイルコンテナから取得する。次に620において、取得した音声データを復号化する。
本発明の一実装においては、汎用基本ストリームフォーマットは、DVD−ARゾーンフォーマットにマッピングされる。別の実施においては、汎用基本ストリームフォーマットは、DVD−CAゾーンフォーマットにマッピングされる。また別の実装においては、汎用基本ストリームフォーマットは、任意の移送コンテナまたはファイルコンテナにマッピングされる。そのような実装においては、説明する技法およびツールは、汎用基本ストリームフォーマットのデータを、光ディスクへの保存に適した次のフォーマットに符号変換またはマッピングするので、汎用基本ストリームフォーマットは、中間フォーマットであると考えられる。
本発明のいくつかの実装においては、汎用音声基本ストリームは、Windows(登録商標)メディアオーディオ(WMA)フォーマットの変形である。WMAフォーマットに関するさらなる情報については、2003年7月18日に提出された、「Lossless Audio Encoding and Decoding Tools and Techniques」という名称の米国特許仮出願第60/488,508号明細書、および2003年7月18日に提出された、「Audio Encoding and Decoding Tools and Techniques」という名称の米国特許仮出願第60/488,727号明細書を参照されたい。それらの文献は参照により本明細書に組み込まれる。
一般に、デジタル情報は、デジタル情報の処理および保存が容易になるように、(アクセスユニット、チャンク、またはフレームなどの)一連のデータオブジェクトとして表現することができる。例えば、デジタル音声または映像ファイルは、デジタル音声または映像サンプルを含む一連のデータオブジェクトとして表現することができる。
一連のデータオブジェクトがデジタル情報を表現する場合、データオブジェクトのサイズが等しければ、一連のデータオブジェクトの処理が簡単になる。例えば、一連のサイズが等しい音声アクセスユニットが、データ構造内に保存されていると仮定する。1つの系列内のアクセスユニットのサイズが分かっていれば、系列内のアクセスユニットの順序を示す数を使用して、データ構造の先頭からのオフセットを知ることにより、特定のアクセスユニットにアクセスすることができる。
本発明のいくつかの実装においては、上述した図3の符号器(300)などの音声符号器は、汎用基本ストリームフォーマットなどの中間フォーマットの音声データを符号化する。次に、中間フォーマットのストリームを、(固定サイズのアクセスユニットを有するフォーマットなど)光ディスクへの保存に適したフォーマットにマッピングするために、音声データマッパーまたは符号変換器を使用することができる。次に、上述した図4の復号器(400)などの1つまたは複数の音声復号器によって、符号化音声データを復号化することができる。
例えば、第1のフォーマット(例えば、WMAフォーマット)の音声データは、第2のフォーマット(例えば、DVD−ARまたはDVD A−CAフォーマット)にマッピングされる。最初に、第1のフォーマットで符号化された音声データが取得される。第1のフォーマットでは、取得された音声データは、固定サイズまたは最大許容サイズ(例えば、DVD−ARフォーマットにマッピングされる場合は2011バイト、または他の最大サイズ)を有するフレームに構成されている。フレームは、同期チャンク、フォーマットヘッダ/ストリーム属性チャンク、圧縮WMA Pro音声データを含む音声データチャンク、メタデータチャンク、巡回冗長検査(CRC)チャンク、ブロック終端チャンク、および/またはその他のタイプの既存のチャンクもしくは将来定義されるチャンクなどのチャンクを含むことができる。この構成は、(デジタル音声/映像復号器などの)復号器が、音声データにアクセスし復号化することを可能にする。次に、音声データのこの構成は、第2のフォーマットの音声データストリームに挿入される。第2のフォーマットは、音声データをコンピュータ読取り可能の光データ記憶ディスク(例えば、DVD)に保存するためのフォーマットである。
同期チャンクは、ある同期パターンが有効であるかどうかを検査するための同期パターンおよび長さフィールドを含むことができる。基本ストリームフレームの末尾は、ブロック終端チャンクによって交互に通知することもできる。さらに、同期チャンクおよびブロック終端チャンクは(または可能性としてはその他のタイプのチャンクも)、リアルタイムのアプリケーションで便利なように、基本ストリームの基本形式では省略することができる。
以下、本発明のいくつかの実施形態における具体的なチャンクタイプの詳細について説明する。
IV.汎用基本ストリームのDVD音声フォーマットへのマッピングの実装
以下の例は、WMA Pro符号化音声ストリームの汎用基本ストリームフォーマット表現から、DVD−ARおよびDVD−A CAゾーンへのマッピングを詳細に説明したものである。この例においては、オプション的なコーデックとしてWMA Proを許容するDVD−CAゾーンの要件を満たすように、またオプション的なコーデックとしてWMA Proを含むDVD−AR仕様の要件を満たすように、マッピングが行われる。
図7は、WMA ProストリームからDVD−A CAゾーンへのマッピングを示す。図8は、WMA ProストリームからDVD−ARのオーディオオブジェクト(AOB)へのマッピングを示す。これらの図に示す例では、与えられたWMA Proフレームを復号化するのに必要な情報は、アクセスユニットまたはWMA Proフレーム中に収められる。図7および図8では、10バイトのデータを含むストリーム属性ヘッダは、与えられたストリームに関して一定である。ストリーム属性情報は、例えば、WMA Proフレームまたはアクセスユニットに収めることができる。代替として、ストリーム属性情報は、CAゾーン用のCAマネージャーのストリーム属性ヘッダ、またはDVD−AR PSのパケットヘッダもしくはプライベートヘッダに収めることができる。
以下、図7および図8に示す具体的なビットストリーム要素について説明する。
ストリーム属性:メディアストリームおよびその特性を定義する。ストリーム属性ヘッダは一般に、与えられたストリームに関して一定のデータを含む。以下の表1に、ストリーム属性のさらなる詳細を示す。
Figure 2005327442
チャンクタイプ:1バイトのチャンクヘッダ。この例では、チャンクヘッダフィールドは、すべてのタイプのデータチャンクの前に置かれる。チャンクヘッダフィールドには、後続のデータチャンクの種類を収める。
同期パターン:この例では、同期パターンは2バイトであり、解析器(parser)は、同期パターンを用いて、WMA Proフレームの先頭を見つけることができる。チャンクタイプは、同期パターンの第1バイトの中に埋め込まれる。
長さフィールド:この例では、長さフィールドは、直前の同期符号の先頭までのオフセットを示す。長さフィールドと結合された同期パターンは、エミュレーションを防止するのに十分な固有性をもった(unique)情報の組み合わせを提供する。読取り器は、同期パターンに出会うと、次の同期パターンまで前方に解析(parse)を進め、第2の同期パターンで指定された長さが、第1の同期パターンから第2の同期パターンに達するまでに解析したバイト数での長さに一致するかを確認する。この確認に成功すれば、解析器は、正しい同期パターンに出会っており、復号化を開始することができる。あるいは、復号器は、次の同期パターンを待つことなく、第1の同期パターンを見つけ次第、「投機的に(speculatively)」復号化を開始することができる。そうすることで、復号器は、次の同期パターンの解析および復号化を行う前に、いくつかのサンプルを再生することができる。
メタデータ:メタデータのタイプおよびサイズに関する情報を収める。この例では、メタデータチャンクは、メタデータのタイプを示す1バイト、バイト数でチャンクサイズNを示す1バイト(同じIDをもつ複数のチャンクとして送信されるメタデータ>256バイト)、およびNバイトのチャンクを含み、メタデータがもう存在しない場合、符号器は、IDタグに0バイトを出力する。
コンテンツディスクリプタメタデータ:この例では、メタデータチャンクは、音声ストリームのコンテンツに関する基本説明情報の通信用に低ビットレートチャネルを提供する。コンテンツディスクリプタメタデータは32ビット長である。このフィールドはオプションであり、必要ならば、帯域を節約するために(例えば、3秒に1回の割合で)繰り返すことができる。以下の表2に、内容ディスクリプタメタデータのさらなる詳細を示す。
Figure 2005327442
実際のコンテンツディスクリプタ文字列は、メタデータに含まれるバイトストリームから受信機によって組み立てられる。ストリームの各バイトは、UTF−8文字を表す。ブロック終端に達する前にメタデータ文字列が終了した場合、メタデータを0x00でパディングすることができる。文字列の先頭および末尾は、タイプフィールドの変化によって暗示される。このため、送信機は、コンテンツディスクリプタメタデータを送信する場合、1つまたは複数の文字列が空であっても、4つのタイプすべてを繰り返す。
CRC(巡回冗長検査):CRCは、前のCRCの後から、つまり最も近い前の同期パターンから始まり(前の同期パターンを含む)、CRCまで(CRC自体は含まない)のすべて部分を対象とする。
提示タイムスタンプ(presentation time stamp):図7および図8には示されていないが、提示タイムスタンプには、必要ならば、映像ストリームと同期をとるためのタイムスタンプ情報が収められる。この例では、100ナノ秒の精度をサポートするため、提示タイムスタンプは、6バイトで指定される。例えば、DVD−AR仕様に提示タイムスタンプを取り入れる場合、提示タイムスタンプを収める適切なロケーションは、パケットヘッダであろう。
V.別の汎用基本ストリーム定義
図9は、上述の例においてDVD音声ストリームにマッピングされるWMA音声ストリームの中間フォーマットとして使用できる汎用基本ストリームの別の定義を示す。より広範には、この例で定義される汎用基本ストリームは、その他の様々なデジタルメディアストリームを任意の移送コンテナまたはファイルコンテナにマッピングするのに使用することができる。
この例で説明する汎用基本ストリームにおいては、デジタルメディアは、デジタルメディアの一連の別個のフレーム(例えば、WMA音声フレーム)に符号化される。汎用基本ストリームは、デジタルメディアの任意の与えられたフレームをフレーム自体から復号化するのに必要なすべての情報が収められる方法によって、デジタルメディアストリームを符号化する。
以下、図9に示すストリームフレームのヘッダ構成要素についての説明を示す。
チャンクタイプ:この例では、チャンクタイプは、すべてのタイプのデータチャンクの前に置かれる1バイトのヘッダである。チャンクタイプフィールドには、続くデータチャンクの種類が収められる。基本ストリーム定義では、複数のチャンクタイプが定義されており、それには、後に定義される追加のチャンクタイプで基本ストリーム定義を補完または拡張できるようにするための拡張(escape)メカニズムが含まれる。新たに定義されたチャンクは、(チャンク長がチャンクの構文要素内に符号化される)「長さ提供」方式、または(チャンク長がチャンクタイプ符号から暗黙に分かる)「長さ事前定義」方式とすることができる。既存の従来の復号器の解析器では、新たに定義されたチャンクは、「廃棄」または無視されるが、ビットストリームの構文解析または韻律分析(scansion)に不都合が生じることはない。チャンクタイプが備えるロジックおよびその用途については、次のセクションで詳しく説明する。
同期パターン:同期パターンは2バイトであり、解析器は、同期パターンを用いて、基本ストリームフレームの先頭を見つけることができる。チャンクタイプは、同期パターンの第1バイトに埋め込まれる。この例で使用される正確なパターンについては、以下で説明する。
長さフィールド:この例では、長さフィールドは、直前の同期符号の先頭までのオフセットを示す。長さフィールドと結合された同期パターンは、エミュレーションを防止するのに十分な固有性をもった情報の組み合わせを提供する。解析器は、同期パターンに出会うと、後の長さフィールドを解析し、次の最も近い同期パターンまで解析を進め、第2の同期パターンで指定された長さが、第1の同期パターンから第2の同期パターンに遭遇するまでに解析したバイト数での長さに一致するかを確認する。この確認に成功すれば、解析器は、正しい同期パターンに出会っており、復号化を開始することができる。同期パターンおよび長さフィールドは、低ビットレートの場合など、フレームによっては、符号器によって省略される。しかし、符号器は、両方をいっしょに省略すべきである。
提示タイムスタンプ(presentation time stamp):この例では、提示タイムスタンプには、必要ならば、映像ストリームと同期をとるためのタイムスタンプ情報が収められる。この例示的な基本ストリーム定義の実施では、100ナノ秒の精度をサポートするため、提示タイムスタンプは、6バイトで指定される。しかし、このフィールドは、タイムスタンプフィールドの長さを指定するチャンクサイズフィールドの後に置かれる。
本発明のいくつかの実装においては、提示タイムスタンプは、例えば、マイクロソフトのアドバンストシステムフォーマット(ASF)またはMPEG−2プログラムストリーム(PS)ファイルコンテナなどのファイルコンテナに収めることができる。最も基本的な状態では、音声ストリームを復号化し、映像ストリームと同期させるのに必要なすべての情報を、ストリームに収めることができることを示すために、本明細書で説明する基本ストリーム定義の実装に、提示タイムスタンプフィールドを含めてある。
ストリーム属性:これは、メディアストリームおよびその特性を定義する。この例におけるストリーム属性のさらなる詳細を以下に提示する。ストリーム属性ヘッダは、同じストリームでは内部のデータは変らないので、ファイルの先頭で利用可能でありさえすればよい。
本発明のいくつかの実装においては、ストリーム属性フィールドは、例えば、ASFまたはMPEG−2 PSファイルコンテナなどのファイルコンテナに収めることができる。最も基本的な状態では、与えられた音声ストリームを復号化するのに必要なすべての情報を、ストリームに収めることができることを示すために、本明細書で説明する基本ストリーム定義の実装に、ストリーム属性フィールドを含めてある。基本ストリームに含まれる場合、このフィールドは、ストリーム属性データの長さを指定するチャンクサイズフィールドの後に置かれる。
上記の表1に、WMA Proコーデックによって符号化されるストリームのストリーム属性が示されている。同様のストリーム属性ヘッダを、各コーデックに対して定義することができる。
音声データペイロード:この例においては、音声データペイロードフィールドには、圧縮Windows(登録商標)メディアオーディオフレームデータなどの圧縮デジタルメディアデータが収められる。基本ストリームは、圧縮音声以外のデジタルメディアストリームと共に使用することができ、その場合は、データペイロードは、そのようなストリームの圧縮デジタルメディアデータとなる。
メタデータ:このフィールドには、メタデータのタイプおよびサイズに関する情報が収められる。収めることのできるメタデータのタイプには、コンテンツディスクリプタ、フォールドダウン、DRCなどが含まれる。メタデータは、以下のように構成される。
この例では、各メタデータチャンクは、
−メタデータのタイプを示す1バイトと、
−バイト数でチャンクサイズNを示す1バイト(同じIDをもつ複数のチャンクとして送信されるメタデータ>256バイト)と、
−Nバイトのチャンクと、を有する。
CRC:この例においては、巡回冗長検査(CRC)フィールドは、前のCRCの後から、つまり最も近い前の同期パターンから始まり(前の同期パターンを含む)、CRCまで(CRC自体は含まない)のすべて部分を対象とする。
EOB:この例では、EOB(ブロック終端)チャンクは、与えられたブロックまたはフレームの終端を通知するために使用される。同期チャンクが存在する場合、その前のブロックまたはフレームの終了を示すのにEOBは必要とされない。同様に、EOBが存在する場合、次のブロックまたはフレームの開始を定義するのに同期チャンクは必要とされない。低レートのストリームの場合、ブレークイン(break−in)およびスタートアップを考えないのであれば、どちらも含める必要はない。
A.チャンクタイプ
この例においては、チャンクID(チャンクタイプ)は、汎用基本ストリームに収められたデータの種類を区別する。チャンクIDは、ストリーム属性および任意のメタデータを含む、すべての異なるコーデックタイプおよび関連するコーデックデータを表せるだけの十分な柔軟性を備えるとともに、音声、映像、またはその他のデータタイプを収めるための基本ストリームの拡張も可能にする。後から追加されるチャンクタイプは、その長さを示すために、LENGTH_PROVIDEDまたはLENGTH_PREDEFINEDクラスのどちらかを使用することができ。それによって、既存の基本ストリーム復号器の解析器は、復号器に復号用のプログラミングがなされていない、そのような後から定義されたチャンクを読み飛ばすことができる。
本明細書において説明する基本ストリーム定義の実装においては、すべてのコーデックデータを表し、区別するために、1バイトのチャンクタイプフィールドが使用される。この例示的な実装においては、以下の表3で定義されているように、3つのクラスのチャンクが存在する。
Figure 2005327442
LENGTH_PROVIDEDクラスのタグの場合、データは、後続データの長さを明示的に示す長さフィールドの後に置かれる。データ自体が長さインジケータを含むこともできるが、構文全体で長さフィールドを定義する。
以下の表4に、このクラスの要素を示す。
Figure 2005327442
以下の表5に、LENGTH_PROVIDEDクラスのメタデータの要素を示す。
Figure 2005327442
LENGTHフィールド要素は、LENGTH_PROVIDEDクラスのタグの後に続く。以下の表6に、LENGTHフィールドの要素を示す。
Figure 2005327442
LENGTH_AND_MEANING_PREDEFINEDのタグの場合、以下の表7は、チャンクタイプの後に続くフィールドの長さを定義する。
Figure 2005327442
LENGTH_PREDEFINEDタグの場合、チャンクタイプのビット5から3は、そのチャンクタイプを理解しない復号器、またはそのチャンクタイプのために含まれるデータを必要としない復号器が、チャンクタイプの後で読み飛ばさなければならないデータの長さを、図8に示すように定義する。チャンクタイプの最上位2ビット(すなわち、ビット7および6)は11に等しい。
Figure 2005327442
4バイト、8バイト、および16バイトのデータの場合、最大8つの異なるタグを、チャンクタイプのビット2から0で表すことが可能である。1バイトおよび32バイトのデータの場合、1バイトおよび32バイトのデータは、それぞれ2つの方法で表すことができるので(例えば、上の表8に示すように、ビット5から3が、1バイトでは000または001、32バイトでは110または111)、可能なタグの数は倍の16になる。
B.メタデータフィールド
フォールドダウン:このフィールドは、作者管理のフォールドダウンシナリオ(author controlled fold down scenario)のためのフォールドダウン行列(fold down matrix)に関する情報を含む。これは、フォールドダウン行列を収めるフィールドであり、そのサイズは、収められるフォールドダウンの組み合わせに応じて変化することができる。最悪の場合、そのサイズは、7.1(サブウーファを含む8チャネル)から5.1(サブウーファを含む6チャネル)へのフォールドダウンのための8×6型行列となる。フォールドダウンフィールドは、フォールドダウン行列が時間とともに変化する場合に対処するため、各アクセスユニットで繰り返される。
DRC:このフィールドは、ファイルのためのDRC(ダイナミックレンジ制御)情報(例えば、DRC係数)を含む。
コンテンツディスクリプタメタデータ:この例においては、メタデータチャンクは、音声ストリームの内容に関係する基本説明情報の通信用の低ビットレートチャネルを提供する。コンテンツディスクリプタメタデータは、32ビット長である。このフィールドはオプションであり、必要ならば、帯域を節約するために、3秒に1回の割合で繰り返すことができる。上記の表2に、コンテンツディスクリプタメタデータのさらなる詳細を示す。
実際のコンテンツディスクリプタ文字列は、メタデータに含まれるバイトストリームから受信機によって組み立てられる。ストリームの各バイトは、UTF−8文字を表す。ブロック終端に達する前にメタデータ文字列が終了した場合、メタデータを0x00でパディングすることができる。文字列の先頭および末尾は、「タイプ」フィールドの変化によって暗示される。このため、送信側は、内容ディスクリプタメタデータを送信する場合、1つまたは複数の文字列が空であっても、4つのタイプすべてを繰り返す。
詳細な説明および添付の図面によって、発明者らの新考案の原理について説明し、例示してきたが、そのような原理から逸脱することなく、構成および詳細の点で、様々な実施形態に変更を施し得ることは理解されよう。本明細書で説明したプログラム、プロセッサ、または方法は、別途指摘がない限り、特定のタイプのコンピューティング環境に関連づけられたり、制限されたりするものではないことを理解されたい。様々なタイプの汎用または専用コンピューティング環境は、本明細書で説明した教示に従う動作とともに利用することができ、またはそのような動作を実行することができる。ソフトウェアによって示した実施形態の要素はハードウェアでよっても、ハードウェアで示した実施形態の要素はソフトウェアによっても実施することができる。
従来技術による音声符号器システムのブロック図である。 適切なコンピュータシステムのブロック図である。 汎用音声符号器システムのブロック図である。 汎用音声復号器システムのブロック図である。 第1のフォーマットのデジタルメディアデータを、1つまたは複数のチャンクを含むフレームまたはアクセスユニット構成を使用して、移送コンテナまたはファイルコンテナにマッピングするための技法を示したフローチャートである。 移送コンテナまたはファイルコンテナから取得した、1つまたは複数のチャンクを含むフレームまたはアクセスユニット構成のデジタルメディアデータを復号化するための技法を示したフローチャートである。 WMA Pro音声基本ストリームのDVD−A CAフォーマットへのマッピングを示した図である。 WMA Pro音声基本ストリームのDVD−ARフォーマットへのマッピングを示した図である。 任意のコンテナへのマッピングのための汎用基本ストリームの定義を示した図である。
符号の説明
100 音声符号器
230 最も基本的な構成
300 音声符号器
400 音声複合器

Claims (25)

  1. デジタルメディアシステムにおいて、第1のフォーマットのデジタルメディアデータを、移送フォーマットにマッピングする方法であって、
    前記第1のフォーマットで符号化されたデジタルメディアデータを取得するステップと、
    前記取得したデジタルメディアデータをフレーム構成に構成するステップであって、デジタルメディアデータの前記フレーム構成は、あるサイズをもち、デジタルメディアデータチャンクとメタデータチャンクとを含み、前記フレーム構成は、デジタルビデオディスク復号器が前記デジタルメディアデータチャンクにアクセスし、復号化できるように操作し得ることと、
    デジタルメディアデータの前記フレーム構成を、前記移送フォーマットのデジタルメディアデータストリームに挿入するステップと、
    を備えることを特徴とする方法。
  2. 前記デジタルメディアデータは、音声であり、前記移送フォーマットは、音声データをコンピュータ読取り可能光データ記憶ディスクに保存するためのものであることを特徴とする請求項1に記載の方法。
  3. 前記第1のフォーマットは、Windows(登録商標)メディアオーディオフォーマットであり、前記第2のフォーマットは、DVD−A圧縮音声フォーマットであることを特徴とする請求項1に記載の方法。
  4. 前記第1のフォーマットは、Windows(登録商標)メディアオーディオフォーマットであり、前記第2のフォーマットは、DVD音声記録フォーマットであることを特徴とする請求項1に記載の方法。
  5. 前記メタデータチャンクは、メタデータサイズを示す情報を含むことを特徴とする請求項1に記載の方法。
  6. 前記メタデータチャンクは、メタデータタイプを示す情報を含むことを特徴とする請求項5に記載の方法。
  7. 前記フレーム構成は、巡回冗長検査チャンクをさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記フレーム構成は、同期チャンクをさらに含み、前記同期チャンクは、有効同期パターンを検査する長さフィールドを含むことを特徴とする請求項1に記載の方法。
  9. 前記フレーム構成は、フォーマットヘッダチャンクをさらに含み、前記フォーマットヘッダチャンクは、ストリーム属性を含むことを特徴とする請求項1に記載の方法。
  10. 前記フレーム構成は、コンテンツディスクリプタメタデータをさらに含むことを特徴とする請求項1に記載の方法。
  11. 前記サイズは、固定サイズであることを特徴とする請求項1に記載の方法。
  12. 前記サイズは、可変サイズであることを特徴とする請求項1に記載の方法。
  13. 前記第1のフォーマットは、Windows(登録商標)メディアオーディオフォーマットであり、前記第2のフォーマットは、MPEG−2プログラムストリームフォーマットであることを特徴とする請求項1に記載の方法。
  14. デジタルメディアプロセッサに請求項1に記載の方法を実行させるためのコンピュータ可読命令が記憶されていることを特徴とするコンピュータ読取り可能媒体。
  15. デジタル信号プロセッサにおいて、音声データを、音声データをコンピュータ読取り可能光データ記憶ディスクに保存するためのフォーマットにマッピングする方法であって、
    音声データを取得するステップと、
    前記取得した音声データを固定サイズの音声データアクセスユニットに変換するステップであって、前記音声データアクセスユニットは、音声データチャンク、同期チャンク、メタデータチャンク、および巡回冗長検査チャンクを含むことと、
    前記音声データアクセスユニットを、音声データをコンピュータ読取り可能光データ記憶ディスクに保存するための前記フォーマットに挿入するステップと、
    を備えることを特徴とする方法。
  16. デジタルメディアシステムにおいて、音声データをコンピュータ読取り可能光データ記憶ディスクに保存するためのフォーマットの音声データを復号化する方法であって、
    音声データをコンピュータ読取り可能光データ記憶ディスクに保存するための前記フォーマットで符号化された音声データを取得するステップであって、フレーム構成をとる前記取得した音声データはある固定サイズをもち、音声データチャンクとメタデータチャンクとを含み、前記フレーム構成は中間フォーマットから変換された音声データを含むことと、
    前記取得した音声データを復号化するステップと、
    を備えることを特徴とする方法。
  17. 前記中間フォーマットは、Windows(登録商標)メディアオーディオフォーマットであり、音声データをコンピュータ読取り可能光データ記憶ディスクに保存するための前記フォーマットは、DVDフォーマットであることを特徴とする請求項16に記載の方法。
  18. デジタルメディアシステムにおいて、デジタルメディアデータを、移送コンテナへのマッピング用の汎用基本ストリームとして符号化する方法であって、
    選択されたデジタルメディアコーデックに従って符号化されたデジタルメディアストリームを取得するステップと、
    前記取得したデジタルメディアストリームを、フレーム構成をもつ基本ストリームに構成するステップであって、フレームは、メタデータ要素、同期パターン要素、および次の直後のフレームの同期パターンからの距離を示す長さ要素を少なくとも含む複数の構文要素を含むことと、
    前記基本ストリームを前記移送コンテナに挿入するステップと、
    を備えることを特徴とする方法。
  19. 請求項18に記載の方法に従って符号化されたデジタルメディアデータを復号化する方法であって、
    前記移送コンテナから前記基本ストリームを分離するステップと、
    前記同期パターンの第1の出現および長さを識別するために、前記基本ストリームを解析(parse)するステップと、
    前記長さによって示される距離において、前記同期パターンの第2の出現を識別するために、前記基本ストリームを解析するステップと、
    前記同期パターンの前記識別された出現から前記基本ストリームのフレームを識別するステップと、
    を備えることを特徴とする方法。
  20. 前記構文要素は、複数のオプション的なチャンク構成要素を含み、各チャンク構成要素は、前記チャンク構成要素のタイプを示す構文要素を有し、特定のタイプのチャンク構成要素を前記フレームに含めるか、または、前記フレームから省略するかに関わりなく、前記同期パターンおよび長さ構文要素は前記フレームの広がりを定めることを特徴とする請求項18に記載の方法。
  21. 前記チャンク構成要素タイプの構文要素の符号化方式は、前記基本ストリームの定義を後に拡張するためのエスケープコードを含むことを特徴とする請求項20に記載の方法。
  22. 前記フレーム構成をとる別のフレームの前記構文要素は、前記同期ブロックの代わりに、そのような別のフレームの末尾を示すブロック終端チャンク構成要素を含むことを特徴とする請求項18に記載の方法。
  23. デジタルメディアシステムにおいて、デジタルメディアデータを、移送コンテナへのマッピング用の汎用基本ストリームとして符号化する方法であって、
    選択されたデジタルメディアコーデックに従って符号化されたデジタルメディアストリームを取得するステップと、
    前記取得したデジタルメディアストリームを、フレーム構成をもつ基本ストリームに構成するステップであって、フレームは、前記選択されたデジタルメディアコーデックを示すコーデック属性チャンク要素を少なくとも含む複数の構文要素を含むことと、
    前記基本ストリームを前記移送コンテナに挿入するステップと、
    を備えることを特徴とする方法。
  24. 前記選択されたデジタルメディアコーデックを示す前記コーデック属性チャンク要素は、前記選択されたデジタルメディアコーデックのバージョン情報を含むことを特徴とする請求項23に記載の方法。
  25. 少なくとも1つの未加工フォーマットをとるデジタルメディアデータを、保存、伝送、または配信移送コンテナフォーマットにマッピングする方法であって、
    前記少なくとも1つの未加工フォーマットをとるデータ、並びに、前記少なくとも1つの未加工フォーマットのスキャン、解析、送信、復号化、もしくは提示に必要な任意の副次的、メタデータ的、もしくは補助的情報を取得するステップと、
    前記データを一連のチャンク構成要素として基本ストリーム内に構成するステップであって、前記チャンク構成要素は、前記チャンク構成要素の事前定義されたチャンクタイプヘッダに符号化されたオプション的に含まれるチャンクタイプのグループに属するものであり、前記構成するステップは、前記フォーマット、前記デジタルメディアの保存、伝送、配信、もしくは提示のために、望まれもしくは必要とされるように、オプション的に含まれるチャンクタイプの符号化からビットストリームへのチャンク構成要素を含め、または、これらから省き、前記一連のチャン クは未加工メディアデータを含む少なくとも1つのチャンク構成要素から構成され、少なくとも1つのチャンク構成要素は、前記副次的、メタデータ的、または補助的情報を含むことと、
    前記基本ストリームの前記チャンクを、パケットの一連の組、または、前記デジタルメディアの自己充足的な保存、伝送、配信、もしくは提示のための移送コンテナフォーマットの直列ストリームに結合するステップと、
    を備えることを特徴とする方法。
JP2005116625A 2004-04-14 2005-04-14 デジタルメディア汎用基本ストリーム Active JP4724452B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US56267104P 2004-04-14 2004-04-14
US60/562,671 2004-04-14
US58099504P 2004-06-18 2004-06-18
US60/580,995 2004-06-18
US10/966,443 2004-10-14
US10/966,443 US8131134B2 (en) 2004-04-14 2004-10-15 Digital media universal elementary stream

Publications (3)

Publication Number Publication Date
JP2005327442A true JP2005327442A (ja) 2005-11-24
JP2005327442A5 JP2005327442A5 (ja) 2010-04-15
JP4724452B2 JP4724452B2 (ja) 2011-07-13

Family

ID=34939242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005116625A Active JP4724452B2 (ja) 2004-04-14 2005-04-14 デジタルメディア汎用基本ストリーム

Country Status (6)

Country Link
US (2) US8131134B2 (ja)
EP (1) EP1587063B1 (ja)
JP (1) JP4724452B2 (ja)
KR (1) KR101159315B1 (ja)
CN (1) CN1761308B (ja)
AT (1) ATE529857T1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007234001A (ja) * 2006-01-31 2007-09-13 Semiconductor Energy Lab Co Ltd 半導体装置
JP2011523247A (ja) * 2008-04-16 2011-08-04 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2013534069A (ja) * 2010-05-03 2013-08-29 タム、キット・エス 認知ラウドスピーカシステム

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156610A1 (en) * 2000-12-25 2007-07-05 Sony Corporation Digital data processing apparatus and method, data reproducing terminal apparatus, data processing terminal apparatus, and terminal apparatus
US20060149400A1 (en) * 2005-01-05 2006-07-06 Kjc International Company Limited Audio streaming player
US20070067472A1 (en) * 2005-09-20 2007-03-22 Lsi Logic Corporation Accurate and error resilient time stamping method and/or apparatus for the audio-video interleaved (AVI) format
JP4193865B2 (ja) * 2006-04-27 2008-12-10 ソニー株式会社 デジタル信号切換え装置及びその切換え方法
US9680686B2 (en) * 2006-05-08 2017-06-13 Sandisk Technologies Llc Media with pluggable codec methods
US20070260615A1 (en) * 2006-05-08 2007-11-08 Eran Shen Media with Pluggable Codec
EP1881485A1 (en) * 2006-07-18 2008-01-23 Deutsche Thomson-Brandt Gmbh Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
JP4338724B2 (ja) * 2006-09-28 2009-10-07 沖電気工業株式会社 電話端末、電話通信システム及び電話端末構成用プログラム
JP4325657B2 (ja) * 2006-10-02 2009-09-02 ソニー株式会社 光ディスク再生装置、信号処理方法、およびプログラム
US20080256431A1 (en) * 2007-04-13 2008-10-16 Arno Hornberger Apparatus and Method for Generating a Data File or for Reading a Data File
US7778839B2 (en) 2007-04-27 2010-08-17 Sony Ericsson Mobile Communications Ab Method and apparatus for processing encoded audio data
KR101401964B1 (ko) * 2007-08-13 2014-05-30 삼성전자주식회사 메타데이터 인코딩/디코딩 방법 및 장치
KR101394154B1 (ko) * 2007-10-16 2014-05-14 삼성전자주식회사 미디어 컨텐츠 및 메타데이터를 부호화하는 방법과 그 장치
WO2009070770A1 (en) * 2007-11-28 2009-06-04 Divx Inc. System and method for playback of partially available multimedia content
US8325800B2 (en) 2008-05-07 2012-12-04 Microsoft Corporation Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
US8379851B2 (en) 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
US8789168B2 (en) * 2008-05-12 2014-07-22 Microsoft Corporation Media streams from containers processed by hosted code
US8370887B2 (en) 2008-05-30 2013-02-05 Microsoft Corporation Media streaming with enhanced seek operation
EP2131590A1 (en) * 2008-06-02 2009-12-09 Deutsche Thomson OHG Method and apparatus for generating or cutting or changing a frame based bit stream format file including at least one header section, and a corresponding data structure
US8265140B2 (en) 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
ES2715750T3 (es) * 2008-10-06 2019-06-06 Ericsson Telefon Ab L M Método y aparato para proporcionar audio alineado de múltiples canales
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
CN102484547A (zh) * 2009-09-01 2012-05-30 松下电器产业株式会社 数字广播发送装置、数字广播接收装置以及数字广播收发系统
US20110219097A1 (en) * 2010-03-04 2011-09-08 Dolby Laboratories Licensing Corporation Techniques For Client Device Dependent Filtering Of Metadata
US8755438B2 (en) * 2010-11-29 2014-06-17 Ecole De Technologie Superieure Method and system for selectively performing multiple video transcoding operations
KR101711937B1 (ko) * 2010-12-03 2017-03-03 삼성전자주식회사 비디오 및 오디오 통신 시스템에서 가변 길이 전송 패킷을 지원하기 위한 장치 및 방법
TWI687918B (zh) * 2010-12-03 2020-03-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US20120265853A1 (en) * 2010-12-17 2012-10-18 Akamai Technologies, Inc. Format-agnostic streaming architecture using an http network for streaming
US8880633B2 (en) 2010-12-17 2014-11-04 Akamai Technologies, Inc. Proxy server with byte-based include interpreter
MX2013010537A (es) 2011-03-18 2014-03-21 Koninkl Philips Nv Codificador y decodificador de audio con funcionalidad de configuracion.
US8326338B1 (en) * 2011-03-29 2012-12-04 OnAir3G Holdings Ltd. Synthetic radio channel utilizing mobile telephone networks and VOIP
EP2751993A4 (en) * 2011-08-29 2015-03-25 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR INTEGRATING METADATA IN MULTIPLEXED ANALOGUE VIDEOS DIFFUSED BY A DIGITAL BROADCAST Means
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
TWI540886B (zh) * 2012-05-23 2016-07-01 晨星半導體股份有限公司 音訊解碼方法及音訊解碼裝置
CN103943112B (zh) * 2013-01-21 2017-10-13 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
KR102071860B1 (ko) 2013-01-21 2020-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
BR122016011963B1 (pt) * 2013-01-21 2022-02-08 Dolby Laboratories Licensing Corporation Codificador e decodificador de áudio com sonoridade de programa e metadados de limite
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US20150039321A1 (en) * 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
CN105556837B (zh) 2013-09-12 2019-04-19 杜比实验室特许公司 用于各种回放环境的动态范围控制
US20150117666A1 (en) * 2013-10-31 2015-04-30 Nvidia Corporation Providing multichannel audio data rendering capability in a data processing device
US10645425B2 (en) 2014-06-13 2020-05-05 Samsung Electronics Co., Ltd. Method and device for managing multimedia data
CA2952847A1 (en) * 2014-08-07 2016-02-11 Sonic Ip, Inc. Systems and methods for protecting elementary bitstreams incorporating independently encoded tiles
EP3799044B1 (en) * 2014-09-04 2023-12-20 Sony Group Corporation Transmission device, transmission method, reception device and reception method
EP3204943B1 (en) * 2014-10-10 2018-12-05 Dolby Laboratories Licensing Corp. Transmission-agnostic presentation-based program loudness
CN105592368B (zh) * 2015-12-18 2019-05-03 中星技术股份有限公司 一种视频码流中版本标识的方法
US10923135B2 (en) * 2018-10-14 2021-02-16 Tyson York Winarski Matched filter to selectively choose the optimal audio compression for a metadata file
US11108486B2 (en) 2019-09-06 2021-08-31 Kit S. Tam Timing improvement for cognitive loudspeaker system
US11140480B2 (en) 2019-09-23 2021-10-05 Kit S. Tam Indirect sourced cognitive loudspeaker system
US11197114B2 (en) 2019-11-27 2021-12-07 Kit S. Tam Extended cognitive loudspeaker system (CLS)
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000306325A (ja) * 1999-04-16 2000-11-02 Pioneer Electronic Corp 情報変換方法及び情報変換装置並びに情報再生装置
JP2001086453A (ja) * 1999-09-14 2001-03-30 Sony Corp 信号処理装置及び方法並びに記録媒体
WO2001076256A1 (en) * 2000-03-31 2001-10-11 Koninklijke Philips Electronics N.V. Methods and apparatus for making and replaying digital video recordings, and recordings made by such methods
JP2002184114A (ja) * 2000-12-11 2002-06-28 Toshiba Corp 音楽データの記録再生システムおよび音楽データ記憶媒体
JP2002358732A (ja) * 2001-03-27 2002-12-13 Victor Co Of Japan Ltd オーディオ用ディスク、その記録装置、再生装置及び記録再生装置並びにコンピュータプログラム
JP2004078427A (ja) * 2002-08-13 2004-03-11 Sony Corp データ変換システム,変換制御装置,プログラム,記録媒体およびデータ変換方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3449776B2 (ja) * 1993-05-10 2003-09-22 松下電器産業株式会社 デジタルデータ記録方法および装置
JP4150083B2 (ja) * 1997-09-25 2008-09-17 ソニー株式会社 符号化ストリーム生成装置及び方法、ならびに編集システム及び方法
US6536011B1 (en) * 1998-10-22 2003-03-18 Oak Technology, Inc. Enabling accurate demodulation of a DVD bit stream using devices including a SYNC window generator controlled by a read channel bit counter
US7228054B2 (en) 2002-07-29 2007-06-05 Sigmatel, Inc. Automated playlist generation
US7272658B1 (en) * 2003-02-13 2007-09-18 Adobe Systems Incorporated Real-time priority-based media communication
US20040165734A1 (en) * 2003-03-20 2004-08-26 Bing Li Audio system for a vehicle
US7782306B2 (en) * 2003-05-09 2010-08-24 Microsoft Corporation Input device and method of configuring the input device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000306325A (ja) * 1999-04-16 2000-11-02 Pioneer Electronic Corp 情報変換方法及び情報変換装置並びに情報再生装置
JP2001086453A (ja) * 1999-09-14 2001-03-30 Sony Corp 信号処理装置及び方法並びに記録媒体
WO2001076256A1 (en) * 2000-03-31 2001-10-11 Koninklijke Philips Electronics N.V. Methods and apparatus for making and replaying digital video recordings, and recordings made by such methods
JP2002184114A (ja) * 2000-12-11 2002-06-28 Toshiba Corp 音楽データの記録再生システムおよび音楽データ記憶媒体
JP2002358732A (ja) * 2001-03-27 2002-12-13 Victor Co Of Japan Ltd オーディオ用ディスク、その記録装置、再生装置及び記録再生装置並びにコンピュータプログラム
JP2004078427A (ja) * 2002-08-13 2004-03-11 Sony Corp データ変換システム,変換制御装置,プログラム,記録媒体およびデータ変換方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007234001A (ja) * 2006-01-31 2007-09-13 Semiconductor Energy Lab Co Ltd 半導体装置
JP2011523247A (ja) * 2008-04-16 2011-08-04 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2013534069A (ja) * 2010-05-03 2013-08-29 タム、キット・エス 認知ラウドスピーカシステム

Also Published As

Publication number Publication date
US20050234731A1 (en) 2005-10-20
EP1587063A2 (en) 2005-10-19
CN1761308A (zh) 2006-04-19
CN1761308B (zh) 2012-05-30
US8861927B2 (en) 2014-10-14
JP4724452B2 (ja) 2011-07-13
KR101159315B1 (ko) 2012-06-22
KR20060045675A (ko) 2006-05-17
EP1587063A3 (en) 2009-11-04
US20120130721A1 (en) 2012-05-24
EP1587063B1 (en) 2011-10-19
US8131134B2 (en) 2012-03-06
ATE529857T1 (de) 2011-11-15

Similar Documents

Publication Publication Date Title
JP4724452B2 (ja) デジタルメディア汎用基本ストリーム
US7392176B2 (en) Encoding device, decoding device and audio data distribution system
US9667685B2 (en) Systems and methods for encoding and decoding
EP1987597B1 (en) Method and apparatus for processing an audio signal
US7672743B2 (en) Digital audio processing
JP5270717B2 (ja) オーディオ信号デコーディング方法、オーディオ信号デコーディング装置及びオーディオ信号を処理するシステム
US20100332239A1 (en) Apparatus and method of encoding audio data and apparatus and method of decoding encoded audio data
JP5529183B2 (ja) メインデータ及び埋め込みデータが記録されたコンピュータ可読記録媒体
EP1949369B1 (en) Method and apparatus for encoding/decoding audio data and extension data
JP2006528368A (ja) オーディオファイルフォーマット変換
US20080288263A1 (en) Method and Apparatus for Encoding/Decoding
KR20100089772A (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US20050180586A1 (en) Method, medium, and apparatus for converting audio data
CA2816284C (en) Encoding and decoding a multimedia signal using syntax to generate a dynamically configured decoder
EP1420401A1 (en) Method and apparatus for converting a compressed audio data stream with fixed frame length including a bit reservoir feature into a different-format data stream
WO2019244666A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061011

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091225

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250