JP2006528368A - オーディオファイルフォーマット変換 - Google Patents

オーディオファイルフォーマット変換 Download PDF

Info

Publication number
JP2006528368A
JP2006528368A JP2006520732A JP2006520732A JP2006528368A JP 2006528368 A JP2006528368 A JP 2006528368A JP 2006520732 A JP2006520732 A JP 2006520732A JP 2006520732 A JP2006520732 A JP 2006520732A JP 2006528368 A JP2006528368 A JP 2006528368A
Authority
JP
Japan
Prior art keywords
audio data
block
data stream
audio
decision block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006520732A
Other languages
English (en)
Other versions
JP4405510B2 (ja
Inventor
シュテファン ガヤーズベアガー
ハラルド ゲアンハート
ベアンハード グリル
ミヒェル ヘアトル
ジョーハン ヒルペアト
マンフレード ルツキ
マーティン バイスハート
ハラルド ポップ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE10339498A external-priority patent/DE10339498B4/de
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2006528368A publication Critical patent/JP2006528368A/ja
Application granted granted Critical
Publication of JP4405510B2 publication Critical patent/JP4405510B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

オーディオデータの操作は、例えば、個々のオーディオデータストリームをマルチチャンネルオーディオデータストリームに組み合わせる、あるいは、修正されるデータブロックをもつ第2オーディオデータストリームを得るため、データブロックが、データブロックの量すなわちデータ量をそれぞれ、あるいはデータブロックの量すなわちデータ量をそれぞれ示す長さ指標を含むよう、データブロックを完了もしくは追加、あるいはその一部を置き換えること等により、判定ブロック14,16およびデータブロックオーディオデータ18をもつデータブロック10a,10bに分割されるオーディオデータストリーム10のデータブロックを修正することでオーディオデータストリームを全般的に操作するといったやり方で単純化できる。その他、判定ブロックに関係付けられる判定ブロックオーディオデータを示す判定ブロック14,10のポインタをもつもののさまざまなデータブロック内で分配されるオーディオデータストリーム10がオーディオデータストリームに変換され、ここで判定ブロックオーディオデータ44,46が近接判定ブロックオーディオデータ48に結合される。近接判定ブロックオーディオデータ48はその後、その判定ブロック14,16とともに内蔵チャンネル要素52a内に含めることができる。

Description

本発明は、オーディオ用信号の符号化を行うオーディオデータストリーム、特に、MP3フォーマットの場合のように時間マークに関係付けられるオーディオデータをさまざまなデータブロック内で分配できるファイルフォーマットでオーディオデータストリームを操作する改良法に関する。
MPEGオーディオ圧縮は、音楽あるいは映画用音声といったオーディオ用信号をデジタルフォーマットで保存する場合、特に効果的な方法であるが、一方で可能な限り少ないメモリ容量しか必要とせず、他方でオーディオ品質を可能な限り維持するためのものである。近年、MPEGオーディオ圧縮はこの分野において最も成功した解決策の1つであることが証明されてきた。
一方、MPEGオーディオ圧縮法のさまざまなバージョンも存在する。一般に、オーディオ用信号はあるサンプル率でサンプリングされ、オーディオサンプルで得られた結果は、重なり時間あるいは時間マークにそれぞれ関係付けられる。これらの時間マークはその後、例えば、多相構成のハイブリッドフィルタバンクやエイリアシング効果を抑える修正離散コサイン変換(MDCT)に対して個別に供給される。実際のデータ圧縮はMDCT係数の量子化中に行われる。このようにして量子化されたMDCT係数はその後、ハフマン符号ワードのハフマン符号に変換され、短い符号ワードをさらに頻繁に現れる係数と関係付けることでさらなる圧縮を行う。このように、全体として、MPEG圧縮は損失が多い、すなわち”オーディオ”損失があるが、DCT係数を量子化する方式に心理音響学的知見が組み込まれていることから、この損失は限定される。
広範に用いられているMPEG標準は、ISO/IEC11172−3および13818−3で説明されているいわゆるMP3標準である。この標準により、圧縮で生じる情報損失を、オーディオ情報がリアルタイムで送信されるビット率に適用させることができるようになる。一定のビット率をもつチャンネルでの圧縮データ信号送信は他のMPEG標準でも実施される。受信復号器における聴取品質が、低ビット率においても確実に十分であり続けるようにするため、MP3標準がいわゆるビット受信機をもつMP3符号器に対して提供される。つまりこういうことである。通常、固定ビット率のため、MP3復号器は各時間マークを同一サイズの符号ワードのブロックに符号化し、このブロックがその後、時間周期繰り返し率の時間周期におけるあるビット率で送信される。しかし、1つの音楽における非常に騒がしい音に続くと音といったオーディオ用信号の一部では、複数の異なる楽器による部分といったオーディオ用信号の他の部分に比べて一定の品質で低い精緻度での量子化が必要である。これにより、MP3符合器は、全フレームに対する同一フレーム長の1つのフレームで各時間マークが符号化される1つのビットストリームフォーマットを生成しない。このような内蔵フレームはフレームヘッダ、サイド情報、フレームに関係付けられた時間マークに関係付けられた主データ、すなわち符号化されたMDCT係数で構成されるが、ここでサイド情報は、どのDCT係数が主データに順次含まれるかを示すため、どれだけの数の次位DCT係数が0であるかといった、DCT係数がどのように復号されるかという復号器に対する情報である。むしろ、バックポインタは、サイド情報、あるいは前フレームの1つの主データ内の位置を示すヘッダ内に含まれる。この位置は、対応するバックポインタが含まれ、フレームが関係付けられる時間マークに関係する主データの開始点である。バックポインタは、例えば、主データの開始点がビットストリーム内でオフセットされるビット数を示す。これらの主データの終了点は、この時間マークに対する圧縮率がどれほど高いかにより、任意のフレーム内でもありうる。個々の時間マークの主データの長さはこのように一定ではない。このようにブロックが符号化されるビット数は信号の特性に対して適合できる。同時に、定ビット率も達成可能である。この技法は”ビット・リザーバ”と呼ばれる。一般に、ビット・リザーバはビットのバッファであり、定出力データ率により一般に許されるものよりも、時間サンプルのブロックを符号化するためにさらに多くのビットをもたらすために用いることができる。ビット・リザーバの技法では、オーディオサンプルのあるブロックが定送信率で指定されるものよりも少ないビット数で符号化できるという事実を利用するため、これらのブロックがビット・リザーバを埋め、他のオーディオサンプルブロックがそのような高圧縮を許さない心理音響学的性質をもつため、利用可能なビットは、実際には、これらのブロックの低干渉あるいは干渉のない復号それぞれに対しては十分ではない。必要な過剰ビットはビット・リザーバから取られるため、そのようなブロックの間にビット・リザーバは空になる。ビット・リザーバの技法もまた、上で示した標準MPEGレイヤ3でも説明される。
MP3フォーマットには符号器側にとってバックポインタをもたらすことで利点はないが、復号器側にとっては否定しがたい不利な点がある。例えば、途中のあるフレームの開始点からではなく始めからMP3ビットストリームを復号器が受信する場合、このフレームに関係付けられる時間マークにおける符号化されたオーディオ用信号は、バックポインタが偶然0である場合だけすぐにプレイできるが、これはこのフレームに対する主データの開始点がヘッダあるいはサイド情報それぞれの直後に偶然あるということを示す。しかし通常はこのようなことはない。このため、受信されたフレームのバックポイントがまず、まだ受信されていない前フレームをさす場合、この時間マークでオーディオ信号をプレイすることは不可能である。この場合、(まず)次フレームだけがプレイできる。
一般にフレームを取り扱う際に受信機側で発生する更なる問題点は、バックポインタで相互結合されるものであるため、内蔵されないということである。ビット・リザーバに対する返信アドレスをもつビットストリームのさらなる問題点は、オーディオ用信号の異なるチャンネルが個別にMP3で符号化される際に、2つのビットストリームでお互いに関係する主データが同一の時間マークで関係付けられているためにお互いにオフセットされ、フレームシーケンスにわたる変動オフセットでも、マルチチャンネルオーディオデータストリームへのこれらの個々のMP3ストリームの結合が阻害されるということである。
さらに、簡単に管理できるMP3に準拠しているマルチチャンネルオーディオデータストリームの生成に対する簡単な方法に対する要求もある。ISO/IEC標準13818−3によるマルチチャンネルMP3オーディオデータストリームでは、復号器側での送信チャンネルから入力チャンネルを検索するためのマトリクス操作と複数のバックポインタの利用が必要であるため、操作が複雑になる。
MPEG1/2レイヤ2オーディオデータストリームは、後に続くフレームの構造でフレームの構成と配置、すなわちヘッダの構造、サイド情報、主データ部、さらにフレーム毎に変わりうるサンプル率およびビット率に応じた準定常フレーム距離での配置でのMP3オーディオデータストリームに対応するが、符号化中におけるバックポインタあるいはビット・リザーバがそれぞれないことからこれとは異なっている。オーディオ用信号の符号化費用のかかる、また費用のかからない時間周期は同一のフレーム長で符号化される。時間マークに関係する主データは各ヘッダとともに各フレーム内にある。
MP3−標準 ISO/EPC 13818−3 MP3−標準 ISO/EPC 11172−3
本発明の目的は、オーディオデータストリームをさらにオーディオデータストリームに変換する、あるいはその逆を行うためのスキームを提供し、それにより、個々のオーディオデータストリームをマルチチャンネルオーディオデータストリームに結合する、あるいはオーディオデータストリームを一般的に取り扱うといったオーディオデータを用いた操作が簡単になるというものである。
この目的は、請求項1,10,13,14あるいは15による方法および請求項16,18,19,20あるいは21による装置により達成される。
オーディオデータの操作は、例えば、個々のオーディオデータストリームをマルチチャンネルオーディオデータストリームに組み合わせる、あるいは、修正されるデータブロックをもつ第2オーディオデータストリームを得るため、データブロックが、データブロックの量すなわちデータ量をそれぞれ、あるいはデータブロックの量すなわちデータ量をそれぞれ示す長さ指標を含むよう、データブロックを完了もしくは追加、あるいはその一部を置き換えること等により、判定ブロックおよびデータブロックオーディオデータをもつデータブロックに分割されるオーディオデータストリームのデータブロックを修正することでオーディオデータストリームを全般的に操作するといったやり方で単純化できる。その他、判定ブロックに関係付けられる判定ブロックオーディオデータを示す判定ブロックのポインタをもつものの、さまざまなデータブロック内で分配されるオーディオデータストリームがオーディオデータストリームに変換され、ここで判定ブロックオーディオデータが近接判定ブロックオーディオデータに結合される。近接判定ブロックオーディオデータは、その後、その判定ブロックとともに内蔵チャンネル要素内に含めることができる。
本発明で見出された点は、前判定ブロックオーディオデータ、すなわち同一の時間マーク、あるいは同一のオーディオマークに対するオーディオ値を符号化することに関するオーディオデータが近接判定ブロックオーディオデータの近接ブロックに結合されるようにこのオーディオデータストリームが取り扱われると、各データブロックの判定ブロックオーディオデータの開始点を示すポインタベースのオーディオデータストリームが容易に取り扱われるといいうことと、近接判定ブロックオーディオデータが関係付けられる各判定ブロックがこれに追加されるということである。これをそれぞれ配置、すなわち整列させた後、このようにして得られるチャンネル要素から新たなオーディオデータストリームが得られ、ここで1つの時間マークあるいはオーディオ値あるいはこの時間マークに対してサンプルをそれぞれ符号化することに関係する全オーディオデータも1つのチャンネル要素内に結合されるため、新たなデータストリームが容易に取り扱われる。
本発明の1つの実施例により、可変長さのチャンネル要素による新たなオーディオデータストリームの復号を容易にするため、中に含まれる近接オーディオデータのチャンネル要素のデータ長さあるいは量をそれぞれ示す長さ指示を得るため、追加もしくは一部置き換えで各判定ブロックもしくは各チャンネル要素が新たなオーディオデータストリームで修正される。各長さ指示で入力オーディオデータストリームの全判定ブロックに対して同一のこれら判定ブロックの冗長部を置き換えることで修正を行うのが有利である。結果的に得られるオーディオデータストリームのデータビット率が、当初のポインタベースのオーディオデータストリームと比較した追加長さ指示を除き当初のオーディオデータストリームの1つに等しく、これによりさらに、新たなオーディオデータストリームから当初のオーディオデータストリームを再構築することができるようになるため、新たなオーディオデータストリームの実際には不必要なバックポインタが得られることでこういった方策が達成される。
これらの判定ブロックの同一冗長部は、全判定ブロックで結果的に得られる新たなオーディオデータストリームの前に置くことができる。受信機側において、ポインタのないフォーマットで得られるオーディオデータストリームを復号するための当初のファイルフォーマットのオーディオデータストリームだけを復号できる既存の復号器を用いるため、得られる第2オーディオデータストリームはこのようにして当初のオーディオデータストリームに再変換できる。
本発明のさらなる実施例により、第1オーディオデータストリームを他のファイルフォーマットの第2オーディオデータストリームに変換する作業を用いて第1ファイルフォーマットの複数のオーディオデータストリームのマルチチャンネルオーディオデータストリームを形成する。受信機側の管理性は、当初のオーディオデータストリームをポインタと組み合わせるだけの場合よりも向上するが、この理由は、マルチチャンネルオーディオデータストリームにおいて時間マークに関係する、あるいは近接判定ブロックオーディオデータをそれぞれ含む全チャンネル要素がマルチチャンネルオーディオ用信号のチャンネルの同時時間周期を符号化することで得られる、すなわち時間マークに関係する異なるチャンネルの時間周期を符号化することでアクセスユニットに結合できるためである。これはポインタベースのオーディオデータフォーマットではできないが、その理由はここで1つの時間マークに対するオーディオデータが異なるデータブロック間で分配可能なためである。複数のオーディオデータストリームのデータブロックを、長さ指示のあるさまざまなチャンネルに供給することで、オーディオデータストリームをアクセスユニットのあるマルチチャンネルデータに組み合わせる間にアクセスユニットによる良好なパージングが可能になる。
さらに、本発明では、上述の得られたオーディオデータストリームを当初のファイルフォーマットに再変換することが非常に容易であり、これがその後、既存の復号器によりオーディオ用信号に復号できるという結果が得られた。得られたチャンネル要素はさまざまな長さをもつため、当初のオーディオデータストリームのデータブロックで利用可能な長さよりも場合によっては長かったり短かったりするが、新たなファイルフォーマットでオーディオデータストリームをプレイするため最終的に得られる不必要なバックポインタによる主データをオフセットあるいは結合する必要はないものの、生成される当初のファイルフォーマットのオーディオデータストリームの判定ブロックにおけるビット率指示を向上させる上では十分である。このことによる効果は、このビット率により、復号されるオーディオデータストリームにおけるチャンネル要素が最長のものであっても、第1ファイルフォーマットのオーディオデータストリームでデータブロックがもつデータブロック長よりも短い、あるいはそれと同じであるということである。バックポインタはゼロにセットされ、気にならない値のビットを追加することで増加するビット率指示に対応する長さまでチャンネル要素が増加される。このように、当初のファイルフォーマットでのオーディオデータストリームのデータブロックが生成されるが、ここで関係する主データはデータブロックそのものの中にだけ含まれ、その他の中には含まれない。そのようにして再変換された第1ファイルフォーマットのオーディオデータストリームは、その後、増加されたビット指示により増加されたビット率を用いることで第1ファイルフォーマットのオーディオデータストリームに対する既存の復号器に供給できる。このように、再変換のための高価なシフト操作は、既存の復号器を新たなものと置き換える必要性とともに無視できる。
一方、さらなる実施例により、長さ指示で上書きされる部分を検索するため、判定ブロックの同一冗長部にわたって得られるオーディオデータストリームの全判定ブロックに含まれる情報を用いることで得られるオーディオデータストリームから当初のオーディオデータストリームを検索することが可能である。
本発明の好ましい実施例について、添付図面を参照しながら以下に論じる。図面には以下のものがある。
図1は、MP3ファイルフォーマットをバックポインタとともに図示する概略図である。
図2は、MP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換するための構成を図示するブロック図である。
図3は、本発明の1つの実施例によりMP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換するための方法のフロー図である。
図4は、判定ブロックを追加することで関連オーディオデータを結合するステップと、図3の方法における判定ブロックを修正するステップとを図示するための概略図である。
図5は、本発明のさらなる実施例により複数のMP3オーディオデータストリームをマルチチャンネルMPEG−4オーディオデータストリームに変換するための方法を図示する概略図である。
図6は、既存のMP3復号器でMP3オーディオデータストリームを復号できるようにするため、図3で得られるMPEG−4オーディオデータストリームをMP3オーディオデータストリームに戻るよう変換するための配置のブロック図である。
図7は、図3で得られるMPEG−4オーディオデータストリームをMP3フォーマットの1つ以上のオーディオデータストリームに再変換するための方法のフロー図である。
図8は、本発明のさらなる実施例により、図3で得られるMPEG−4オーディオデータストリームをMP3フォーマットの1つ以上のオーディオデータストリームに再変換するための方法のフロー図である。
図9は、本発明のさらなる実施例によりMP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換するための方法のフロー図である。
本発明は実施例に基づく図面を参照しながら以下で論じられるが、ここで、判定ブロックに関係する主データの開始点を指すためのデータブロックの判定ブロックでバックポインタが用いられるファイルフォーマットの当初のオーディオデータストリームは唯一の典型的MP3オーディオデータストリームである一方、各時間マークに関係するオーディオデータがお互い結合される内蔵チャンネル要素で構成され、結果として得られるオーディオデータストリームもまた唯一の典型的MPEG−4オーディオデータストリームである。MP3フォーマットは、背景期間で引用されている標準ISO/IEC11172−3および13818−3で説明されており、MPEG−4ファイルフォーマットは、標準ISO/IEC14496−3で説明されている。
まず、MP3フォーマットについて、図1を参照しながら簡単に論じる。図1はMP3オーディオデータストリーム10の一部を示す。オーディオデータストリーム10はフレームのシーケンスあるいはデータブロックでそれぞれ構成されるが、ここでは3つだけ、すなわち10a,10b,10cだけが図1において全て見て取ることができる。MP3オーディオデータストリーム10は、オーディオもしくは音声信号それぞれからMP3符合器により生成される。データストリーム10で符号化されるオーディオ用信号は、例えば、音楽、雑音、さらにこれらの交じり合ったもの等である。データブロック10a,10b,10cはそれぞれ連続した、場合によっては重なった時間周期の1つに関係付けられるが、これに対してオーディオ用信号はMP3符合器で分割されたものである。各時間周期はオーディオ用信号の時間マークに対応するため、説明では時間マークという用語を時間周期に対して用いることが多い。各時間周期は、例えば、多相フィルタバンク構成のハイブリッドフィルタバンクや、ハフマン符号化といったその後のエントロピーをもつ修正離散コサイン変換で個別にMP3で主データ(main_data)に符号化されたものである。データブロック10a−10cが関係付けられた連続する3つの時間マークに関係する主データは、図1において12a,12b,12cとして、実際のオーディオデータストリーム10だけでなく近接ブロックとして図示されている。
オーディオデータストリーム10のデータブロック10a−10cはオーディオデータストリーム10において等距離に配置されている。つまり、各データブロック10a−10cは同一のデータブロック長さ、もしくはフレーム長さをそれぞれをもつ。フレーム長さもまた、オーディオデータストリーム10が少なくともリアルタイムでプレイされるビット率と、実際の符号化前にオーディオ用信号をサンプリングするためにMP3符号器が用いられるサンプリング率とに依存する。この関係は、時間マークがどれだけの長さであるかを時間当りの固定サンプル数と関連して示し、どれだけのビット数がこの時間周期で送信できるかをビット率と時間マークとから計算できるというものである。
両パラメータ、すなわちビット率とサンプル率とはデータブロック10a−10cのフレームヘッダ14で示されている。このように、各データブロック10a−10cはそれぞれ独自のフレームヘッダ14をもつ。一般に、オーディオデータストリームの復号にとって重要な全情報は各フレーム10a−10cそれ自体に保存されるため、復号器はMP3オーディオデータストリーム10の途中で復号を開始できる。
開始点にあるフレームヘッダ14とは別に、各データブロック10a−10cは、サイド情報部16と、データブロックオーディオデータを含む主データ部18とをもつ。サイド情報部16はヘッダ14にすぐに追随する。これは、各データブロックと関係付けられた主データもしくは判定ブロックオーディオデータそれぞれを見出すためのオーディオデータストリーム10の復号器に対して重要な情報を含むものであるが、これらは直列線形に配列され、DCTもしくはMDCT係数それぞれに対して正しい方法でこれを復号する唯一のハフマン復号ワードである。主データ部18は各データブロックの終了点を形成する。
説明の背景セクションで述べるとおり、MP3標準はリザーバ機能をサポートする。これは、図1において20で示されるサイド情報部16内のサイド情報に含まれるバックポインタにより有効になる。バックポインタが0に設定されると、これらのサイド情報に対する主データはサイド情報16部の直後に開始される。その他の場合、ポインタ20(main_data_begin)はデータブロックが関係付けられる時間マークを符号化する主データの開始点を示すが、ここでバックポインタ20を含むサイド情報は前データブロックに含まれる。図1において、例えば、データブロック10aが、主データ12aで符号化される時間マークに関係付けられる。このデータブロック10aのサイド情報16のバックポインタ20は、例えば主データ12aの開始点を指すが、これは、データブロック16aのヘッダ14の開始点から測定されるビットあるいはバイトオフセットを示すことでストリーム方向22におけるデータブロック10aの前のデータブロック内に置かれるものである。つまり、オーディオ用信号の符号化中の当該時間において、MP3オーディオデータストリーム10を生成するMP3符号器のビット・リザーバはフルではなく、バックポインタの高さまでロードできる。データブロック10aのバックポインタ20が指し示すこの位置から、主データ12aが、等間隔に配設されたヘッダとサイド情報14,16との対をもつオーディオデータストリーム10内に挿入される。この例において、主データ12aは、データブロック10aの主データ部18の半分を少し超えるところまで伸びる。次10bのサイド情報部16のバックポインタ20は、データブロック10aの主データ12aの直後の位置を示す。これは、データブロック10cのサイド情報部16のバックポインタ20に適用される。
これでわかるとおり、時間マークに関係する主データが、この時間マークに関係付けられたデータブロックにおいて独占的である場合、MP3オーディオデータストリーム10においては例外的なものになる。むしろ、データブロックは大部分が1つ以上のデータブロック内で分配されるが、ビット・リザーバの大きさに応じて対応するデータブロックそのものは含まない。バックポインタ値の高さはビット・リザーバの大きさで制限される。
MP3オーディオデータストリームの構造を図1に関連して説明した後、図2を参照しながら配置を説明するが、これは、MP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換する上で、もしくはMP3フォーマットに容易に変換できるオーディオ用信号からMPEG−4オーディオデータストリームを得るうえで適したものである。
図2はMP3符号器およびMP3−MPEG−4変換器32を示す。MP3符号器は、符号化されるオーディオ用信号を受信する入力と、出力とを備えるが、ここで入力においてオーディオ用信号を符号化するMP3オーディオデータストリームを出力する。MP3符号器30は上述のMP3標準にしたがって作動する。
図1を参照しながら構成を論じたMP3オーディオデータストリームは、上述のとおり、設定ビット率および基礎サンプル率およびパディングバイトに応じた固定フレーム長さをもつフレームで構成されるが、このパディングバイトは設定されている場合と、設定されていない場合がある。MP3−MPEG−4変換器32は入力でMP3オーディオデータストリームを受信し、出力でMPEG−4オーディオデータストリームを出力するが、こういった構成はMP3−MPEG−4変換器32の操作モードの次の説明からわかる。変換器32の目的はMP3オーディオデータストリームをMP3フォーマットからMPEG−4フォーマットに変換することである。MPEG−4データフォーマットは、ある時間マークに関係する全主データが近接アクセスユニットもしくはチャンネル要素に含まれるという利点があるため、チャンネル要素の操作が非常に容易になる。
図3は、変換器32により実施されるMP3オーディオデータストリームからMPEG−4オーディオデータストリームへの変換中の個々の方法ステップを示す。まず、MP3オーディオデータストリームはステップ40で受信される。受信ステップは、フルオーディオデータストリームもしくはこれの現行部だけをラッチに保存するステップを含む。したがって、変換中の次ステップはリアルタイムでの受信ステップ40中、もしくはそれに続くステップだけのいずれかで実施される。
その後、ステップ42において、時間マークに関係する全オーディオデータもしくは主データそれぞれが近接ブロックで結合されるが、これを全時間マークに対して実施する。ステップ42は図4においてさらに詳細に概略が示されているが、ここで、この図において、図1で示されている要素と同様のMP3オーディオデータストリームの要素は同一あるいは類似の参照番号で与えられており、これらの要素の説明の繰り返しは省略されている。
データストリーム方向22からわかるとおり、図4の左側でさらに示されているMP3オーディオデータストリーム10のこれらの部分は、これの右側の部分よりも早く変換器32に到達する。2つのデータブロック10aおよび10bは図4において全体が示されている。データブロック10aに関係する時間マークは、データブロック10の前のデータブロックにおいて典型的には一部、さらにデータブロック10aでは一部が、さらにここでは特にこれの主データ部18において図4で含まれる主データMD1により符号化される。次データブロック10bが関係付けられる時間マークを符号化するこれらの主データはデータブロック10aの主データ部18に独占的に含まれ、MD2で示される。データブロック10bに続くデータブロックに関係する主データMD3はデータブロック10aおよび10bの主データ部18内で分配される。
ステップ42において、変換器42は全ての関係する主データ、すなわち1つの同一時間マークを符号化する全主データを近接ブロックに結合する。このようにして、主データMD1のデータブロック10aの部分46のデータブロック10aの前の部分44は、ステップ42後の結合ステップにより近接ブロックになる。これは他の主データMD2,MD3....に対しても実施される。
ステップ42を実施するため、変換器32は、データブロック10aのサイド情報16のポインタを読み込み、その後、このポインタに基づき、現行データブロック10aのヘッダまでポインタにより決定される場所で始まる前データブロックのフィールド18に含まれるこのデータブロック10aに対する判定ブロックオーディオデータ12aの各第1部分44を読み込む。その後、変換器は、現行データブロック10aの部分18に含まれ、現行オーディオデータブロック10aのサイド情報16の最終点から始まり次オーディオデータ、ここではMD2で示される、次データブロック10bのサイド情報16のポインタが示す次データブロック10bまでのこのデータブロック10aに対する判定ブロックオーディオデータの終了点を含む判定ブロックオーディオデータの第2部分46を読み込む。前述のとおり、2つの部分44および46の結合によりブロック48が得られる。
ステップ50において、変換器32は、関連するサイド情報16を含む関連ヘッダ14を近接ブロックに追加し、最終的にMP3チャンネル要素52a,52b,52cを形成する。このように、各MP3チャンネル要素52a−52cは、対応するMP3データブロックのヘッダ14と、同一MP3データブロックの次サイド情報部16と、ヘッダおよびサイド情報の元になりデータブロックが関連付けされる時間マークを符号化する主データの近接ブロック48とで構成される。
ステップ42および50から得られるMP3チャンネル要素は、複矢印54a−54cで示されるように、異なるチャンネル要素長さをもつ。MP3オーディオデータストリーム10のデータブロック10a,10bは固定フレーム長さ56をもつが、個々の時間マークに対する主データ数はビット・リザーバ機能による平均値周りで変動するということに注意するべきである。
復号器側において復号、特に個々のMP3チャンネル要素52a−52cのパージングを容易にするため、各チャンネル要素52a−52cの長さ、すなわち54a−54cを得るため、ヘッダ14H1−H3が修正される。これはステップ56で実施される。長さ入力は、オーディオデータストリーム10の全ヘッダ14に対して同一もしくは冗長な部分それぞれに書き込まれる。MP3フォーマットにおいて、各ヘッダ14は開始点において、12ビットで構成されるシンクワード(syncword)を受信する。ステップ56において、このシンクワードは各チャンネル要素の長さで占められる。シンクワードの12ビットは、各チャンネル要素の長さをバイナリ形式で表示する上で十分であるため、修正されたヘッダh1−h3をもつ得られたMP3チャンネル要素58a−58cの長さは同一デスパイトステップ56のまま、すなわち54a−54cに等しい。このように、オーディオ情報もリアルタイムに同一のビット率で送信できる、あるいはさらなるオーバヘッドが追加ヘッダで追加されない限り、長さ指示を追加する同一のデスパイトで符号化される時間マークの順番に従ってMP3チャンネル要素58a−58c結合後に当初のMP3オーディオデータストリーム10のようにプレイできる。
ステップ58において、ファイルヘッダ、あるいは生成されるデータストリームがファイルではなくストリーミングである場合、データストリームヘッダが望みのMPEG−4オーディオデータストリーム(ステップ60)に対して生成される。本実施例によればMPEG−4準拠オーディオデータストリームが生成されるため、MPEG−4標準に従ってファイルヘッダが生成されるが、この場合、上述のMPEG−4標準で定義されるAudioSpecificConfig機能により固定構造をもつ。MPEG−4システムに対するインターフェイスは、0x40の値をもつ要素ObjectTypeIndicationセットにより、さらに番号29のaudioObjectTypeの指示により与えられる。MPEG−4特有のAudioSpecificConfigは、ISO/IEC14496−3における当初の定義に対応して以下のとおり拡張されるが、ここで以下に示す例では、本説明にとって重要なAudioSpecificConfigの内容だけであり、それらの全てが考慮されているわけではない:
1 AudioSpecificConfig(){
2 audioObjectType;
3 samplingFrequencyIndex;
4 if(samplingFrequencyIndex==0xf)
5 samplingFrequency;
6 channelConfiguration;
7 if(audioObjectType==29){
8 MPEG_1_2_SpecificConfig();
9 }
10 }
上のAudioSpecificConfigのリストは、AudioSpecificConfig機能に対する共通表記による表示であるが、これは、復号器のファイルヘッダにおける呼び出しパラメータ、つまりsamplingFrequencyIndex、channelConfiguration、audioObjectTypeのパージングあるいは読み込みのために保存される、あるいはどのようにファイルヘッダが復号もしくはパージングされるかの指示を示す。
これでわかるとおり、ステップ60で生成されるファイルヘッダは、上述のとおり29(ライン2)として設定されるaudioObjectTypeの指示で開始される。audioObjectTypeパラメータは、どのようにデータが符号化されたか、特に以下に示すとおり、ファイルヘッダを符号化するためのさらなる情報がどのように抽出できるかを復号器に対して示すものである。
その後、呼び出しパラメータsamplingFrequencyIndexが続くが、これはサンプル周波数に対するノルムテーブルにおける1つの位置を示す(ライン3)。インデックスが0(ライン4)の場合、サンプル周波数の指示はノルムテーブルを示すことなく続く(ライン5)。
その後、チャンネル構成の指示が続くが(ライン6)、これについては以下でさらに詳細に論じるような方式で、生成されたMPEG−4オーディオデータストリームにどれだけの数のチャンネルが含まれるかを示すものであるが、さらに、本実施例と対照させて、図5を参照しながら以下で論じるとおり、1つ以上のMP3オーディオデータストリームを1つのMPEG−4オーディオデータストリームに結合させることも可能である。
その後、ここでのケースのaudioObjectTypeが29である場合、オーディオデータストリーム10のMP3フレームヘッダの冗長部を含むファイルヘッダAudioSpecificConfigにおける部分、すなわちフレームヘッダ14内においてこれを保持する部分(ライン8)が続く。この部分については、ここではMPEG_1_2_SpecificConfig()で示されるものであるが、これもまたこの部分の構造を定義する機能である。
MPEG_1_2_SpecificConfigの構造もMP3標準から取ることができるものの、フレーム毎に変わらないMP3フレームヘッダの固定部分に対応することから、この構造は典型的に以下のようにリストアップされる:
1 MPEG_1_2_SpecificConfig(channelConfiguration){
2 syncword
3 ID
4 layer
5 reserved
6 sampling_frequency
7 reserved
8 reserved
9 reserved
10 if(channelConfiguration==0){
11 channel configuration description;
12 }
13 }
MPEG_1_2_SpecficConfig部分において、MN3オーディオデータストリーム内のフレームヘッダからフレームヘッダ14で異なる全ビットは0に設定される。どの場合においても、第1のパラメータMPEG_1_2_SpecificConfig、すなわち、MP3オーディオデータストリーム(ライン2)を受信する際にMP3符号器の同期に寄与する12ビットシンクワード(syncword)は各フレームヘッダに対して同一である。次パラメータID(ライン3)は、MPEGのバージョン、すなわち1もしくは2を示すが、バージョン2に対しては標準ISO/IEC13818−3が対応し、バージョン1に対しては標準ISO/IEC11172−3が対応する。パラメータレイヤ(ライン4)はレイヤ3に対する指示を与えるが、これはMP3標準に対応する。以下のビットがリザーブされるが(ライン5)、この理由はその値がフレーム毎に変わり、MP3チャンネル要素により送信されるためである。このビットはヘッダの後にCRC変数が続く可能性があることを示す。次の変数sampling frequency(ライン6)は、MP3標準で定義されるサンプル率をもつテーブルを示し、このためMP3−DCT係数の基本となるサンプル率を示す。その後、ライン7において特定の(リザーブされた)適用例に対するビットの指示がライン8および9と同様に続く。その後、AudioSpecficConfigのライン6で示されるパラメータが所定のチャンネル構成を示すのではなく値0をもつ場合、(ライン11,12において)チャンネル構成の正確な定義が続く。その他の場合、14496−3サブパート1テーブル1.11のチャンネル構成が適用される。
ステップ60、特に当初のMP3オーディオデータストリーム10のフレームヘッダ14における全冗長情報を含むファイルヘッダの要素MPEG_1_2_SpecificConfigを供給することで、フレームヘッダにおけるこの冗長部が、データ挿入中に生成されるMPEG−4ファイルにおけるこの情報の避けがたい損失を生じることなく、この修正された部分がMPEG−4ファイルヘッダに基づいて再構築できる。
ステップ62において、MPEG−4オーディオデータストリームが、ステップ60で生成されるMPEG−4ファイルヘッダの順番で、チャンネル要素が、その関係付けられた時間マークの順番で出力されるが、ここでフルのMPEG−4オーディオデータストリームからMPEG−4ファイルが得られる、もしくはMPEG−4システムにより送信される。
上の説明は、MP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換することに関するものであった。しかし、図2の点線でわかるとおり、2つのMP3符号器、すなわち30および30’からの2つ以上のMP3オーディオデータストリームをMPEG−4マルチチャンネルオーディオデータストリームに変換することも可能である。この場合、MP3−MPEG−4変換器32は全符号器30および30’のMP3オーディオデータストリームを受信し、MPEG−4フォーマットでマルチチャンネルオーディオデータストリームを出力する。
上の半分の部分において、図5は、図4の表示に関連して、MPEG−4に従うマルチチャンネルオーディオデータストリームがどのようにして得られるかを示すが、ここでも変換は変換器32で実施される。3つのチャンネル要素シーケンス70,72,74が図示されているが、これはMP3符号器30あるいは30’により1つのオーディオ用信号からステップ40−56により生成されたものである(図2)。チャンネル要素70,72,74の各シーケンスから、2つの各チャンネル要素、すなわち70a,70b,72a,72bもしくは74a,74bのそれぞれが示されている。図5において、ここで70a−74aもしくは70b−74bでお互いに上に配設されるチャンネル要素がそれぞれ同一の時間マークに関係付けられている。例えばシーケンス70のチャンネル要素は、前、左、右(前)における適当な規格化により記録されたオーディオ用信号を符号化し、シーケンス72および82は、中央前のラウドスピーカ(中央)といった他の方向あるいは他の周波数スペクトルから、また後右および左(周)からの同一オーディオ源の記録を示すオーディオ用信号を符号化する。
矢印76で示されているとおり、これらのチャンネル要素はここで、以下においてアクセスユニット78として言及されているMPEG−4オーディオデータストリームでの出力(図3のステップ62参照)中にユニットに結合される。このように、MPEG−4オーディオデータストリームにおいて、アクセスユニット78内のデータは常に時間マークに関連する。ここでは前、中央、周チャンネルの順番になっているアクセスユニット78内のMP3チャンネル要素70a,72a,74aの配置は、ここでもISO/IEC14496−3のサブパート1を参照してAudioSpecificConfigでの呼び出しパラメータチャンネル構成をそれぞれ設定することで生成されるMPEG−4オーディオデータストリーム(図3のステップ60参照)に対して生成されるようにファイルヘッダで考慮されている。アクセスユニット78はここでも、その時間マークの順番でMPEG−4ストリームにより順番に配置されるが、MPEG−4ファイルヘッダが先行する。アクセスユニットにおけるチャンネル要素の順番あるいは復号器側における重要性をそれぞれ示すため、パラメータchannelConfigurationがMPEG−4ファイルヘッダで適切に設定される。
図5の上の説明で示したとおり、本発明により提案されているとおり、MP3オーディオデータストリームを操作してデータブロックから内蔵チャンネル要素を得る場合、MP3オーディオデータストリームをマルチチャンネルオーディオデータストリームに結合することは非常に簡単であり、ここで、1つの時間マークに対する全データが1つのチャンネル要素に含まれ、個々のチャンネルのこれらのチャンネル要素がその後容易にアクセスユニットに結合できる。
この説明は、1つ以上のMP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換することに関するものであった。しかし、本発明で見出された重要な点は、等しい送信率をもち、マルチチャンネル装置の可能性のある個々の内蔵MP3チャンネル要素の管理性が向上するといった、得られるMPEG−4オーディオデータストリームの全ての利点が、既存のMP3符号器を全て新たな符号器と置き換えることなく活かせることであるが、この再変換も問題なく実施できるため、上述のMPEG−4オーディオデータストリームの復号中にこれを用いることができるというものである。
図6において、MP3再構築器100の配置でこれが示されているが、再構築器やMP3復号器102,102’....の作動モードについては以下で詳細に論じる。MP3再構築器は入力において、前述の実施例の1つにより生成されたものとしてMPEG−4オーディオデータストリームを受信し、1つの、マルチチャンネルオーディオデータストリームの場合は複数のMP3オーディオデータストリームを1つ以上のMP3復号器102,102’...に出力するが、これら自体はそれぞれ、受信されたMP3オーディオデータストリームを各オーディオ用信号に復号し、チャンネル配置に従って配設された各ラウドスピーカに受け渡す。
図5により生成されたMPEG−4オーディオデータストリームの当初のMP3オーディオデータストリームを再構築する特に簡単な方法は、図5の下部と図7とを参照しながら説明されるが、ここでこれらのステップは図6のMP3再構築器で実施される。
まず、MP3再構築器100はステップ110において、入力で受信されたMPEG−4オーディオデータストリームが再フォーマットされたMP3オーディオデータストリームであることを、値29を含むかどうかをAudioSpecificConfigによりファイルヘッダの呼び出しパラメータaudioObjectTypeを確認することで証明する。証明された場合(AudioSpecificConfigにおけるライン7)、MP3再構築器100はMPEG−4オーディオデータストリームのファイルヘッダのパージングに進み、MPEG−4オーディオデータストリームが得られた(ステップ112)部分MPEG_1_2_SpecificConfigからの当初のMP3オーディオデータストリームの全フレームヘッダの冗長部を読み込む。
MPEG_1_2_SpecificConfigの評価後、MP3再構築器100は、矢印116で示されているとおり、当初のMP3オーディオデータストリームフレームヘッダHF,HC,HSを再び得るため、ステップ114において、各ヘッダhF、hC,hSの各チャンネル要素74a−74cでMPEG_1_2_SpecificConfigの構成要素で特にチャンネル要素の1つ以上の部分を、特にMPEG_1_2_SpecificConfigからの同期ワードでチャンネル要素長さ指示を置き換える。ステップ118において、MP3再構築器100は、各チャンネル要素のMPEG−4オーディオデータストリームにおけるサイド情報Sf,Sc,Ssを修正する。特に、新たなサイド情報S’F,S’C,S’Sを得るため、バックポインタは0に設定される。ステップ118による操作は図5において矢印120で示される。その後、ステップ122において、MP3再構築器100は、許可される最大値までチャンネル要素長さ指示の代わりに同期ワードを用いてステップ114においてもたらされるフレームヘッダHF,HC,HSの各チャンネル要素74a−74cにおいてビット率指標を設定する。最後に、得られるヘッダは当初のものとは異なるため、図5においてアポストロフィーをつけて、すなわちH’F,H’C,H’Sで示される。ステップ122によるチャンネル要素の操作も矢印116で示される。
ステップ114−122における変更点を再び示すため、個々のパラメータが、ヘッダH’Fとサイド指標部S’Fについて、図5においてリストアップされている。124において、ヘッダH’Fの個々のパラメータが示されている。フレームヘッダH’Fはパラメータシンクワードで開始される。シンクワードは、各MP3オーディオデータストリームの場合、すなわち0xFFFの値と同様に当初の値(ステップ114)に設定される。一般に、ステップ114−122の後に得られるフレームヘッダH’Fは当初のMP3オーディオデータストリーム10に含まれる当初のMP3フレームヘッダとは、ビット率指標が許される最大値、すなわちMP3標準によると0xEに設定されるという点だけが異なる。
ビット率指標を変更する目的は、アクセスユニット78を用いてMPEG−4オーディオデータストリームが生成される当初のMP3オーディオデータストリームの1つよりも大きな、新たに生成されるMP3オーディオデータストリームに対して新たなフレーム長あるいはデータブロック長をそれぞれ得ることである。こういった方策によりMP3フォーマットでのバイトによるフレーム長は常に、以下の式にしたがってビット率に依存する。
MPEG1レイヤ3については:
frame length[Bit]=1152*bit rate[Bit/s]/sample rate[Bit/s]++8*paddingbit[Bit]
MPEG2レイヤ3については:
frame length[Bit]=576*bit rate[Bit/s]/sample rate[Bit/s]++8*paddingbit[Bit]
言い換えると、標準によるMP3オーディオデータストリームのフレーム長はビット率に直接比例し、サンプル率に間接的に比例する。追加値として、パディングビットの値が追加されるが、これはMP3フレームヘッダhF,hC,hSで示され、ビット率を正確に設定するために用いることができる。サンプル率は固定であるが、この理由はこれが、復号されるオーディオ用信号がどの速度でプレイされるかで決まるためである。当初の設定と比較してビット率の変換を行うことで、当初のものよりも長い、新たに生成されるMP3オーディオデータストリームのデータブロック長さにおけるMP3チャンネル要素74−74cといったものを用いることができるようになるが、この理由は、当初のオーディオデータストリームを生成するためビット・リザーバからビットを取ることで主データが生成されたためである。
このように、本実施例において、ビット率指標は常に許される最大値に設定される一方、MP3標準によりデータブロック長さを得るうえで十分な値までビット率指標を大きくすることがさらに可能であるため、最長のMP3チャンネル要素74a−74cであってもその長さからフィットする。
126において、バックポインタmain_data_beginは得られるサイド情報において0に設定されることが示されている。これは、図7の方法により生成されるMP3オーディオデータストリームにおいて、データブロックが常に内蔵されているため、あるフレームヘッダに対する主データおよびサイド情報がサイド情報の直後で常に始まり、同一のデータブロック内で終了するということだけを意味する。
ステップ114,118,122は、そのアクセスユニットからおのおのを抽出することで各チャンネル要素において実施されるが、ここでチャンネル要素長さ指示は抽出中有用である。
その後、ステップ128において、フィルデータあるいは気にならないビット量が各チャンネル要素74a−74cに追加され、新たなビット率指標0xEで設定されるMP3データブロック長さに対して唯一、全てのMP3チャンネル要素の長さを増加させる。これらのフィルデータを図5の128で示す。フィルデータの量は、例えばチャンネル要素長さ指示およびパディングビットを推定することで各チャンネル要素について計算できる。
その後、ステップ130において、前のステップで修正された図5の74’a−74’cで示されるチャンネル要素が各MP3復号器もしくはMP3復号器本体134a−134cに、符号化された時間マークの順番のMP3オーディオデータストリームのデータブロックとして渡される。MPEG−4ファイルヘッダは省略される。得られるMP3オーディオデータストリームは図5において、一般に132a,132b,132cで示される。MP3復号器本体134a−134cは、例えば、前に初期化されているが、チャンネル要素と同じ数が個々のアクセスユニットに含まれる。
MP3再構築器100は、MPEG−4オーディオデータストリームのアクセスユニット78におけるどのチャンネル要素74a−74cが、MPEG−4オーディオデータストリームのAudioSpecificConfigの呼び出しパラメータchannelConfigurationの推定からMP3オーディオデータストリーム132a−132cのどれが生成されるかということに関係するかということがわかっている。これにより、前ラウドスピーカに接続されたMP3復号器本体134aは、前チャンネルに対応するオーディオデータストリーム132aを受信するため、MP3復号器本体134bおよび134cが中心および周チャンネルに関係付けられたオーディオデータストリーム132bおよび132cを受信し、得られたオーディオ用信号をそれぞれ配設されたラウドスピーカに対して、例えばサブウーハに、もしくは後左および後右にそれぞれ配設されたラウドスピーカに出力する。
当然ながら、復号器本体102,102’あるいは134a−134cを用いた図6の配置によるMPEG−4オーディオデータストリームのリアルタイムの符号化に対して、当初のオーディオデータストリーム10よりも高いステップ122で増加されたビット率で新たに生成されたMP3オーディオデータストリーム132a−132cを送信する必要があるが、しかし、MP3再構築器100とMP3復号器102,102’あるいは134a−134c間の配置が固定されていることからこれは問題ないため、ここでは送信パスはこれに応じて短く、これに応じて低費用・作業で高いデータ率での設計が可能である。
図7を参照しながら説明される実施例により、当初のオーディオデータストリーム10から図5で得られるMPEG−4マルチチャンネルオーディオデータストリームは当初のMP3オーディオデータストリームには正確に再変換されていないが、他のMP3オーディオデータストリームはこれから生成され、ここで、当初のオーディオデータストリームと比較すると、全バックポインタが0に設定され、ビット率指標が最高値に設定される。これらの新たに生成されたMP3オーディオデータストリームのデータブロックはこのように、ある時間マークに関係付けられた全データが同一のデータブロック74’a−74’cに含まれる限りにおいて内蔵され、フィルデータを用いて単一値までデータブロック長さを増加させる。
図8は、図1−5の実施例により生成されるMPEG−4オーディオデータストリームを当初のMP3オーディオストリームもしくは当初のMP3オーディオデータストリームにそれぞれ再変換することを可能にする方法に対する実施例を示す。
この場合、MP3再構築器100はステップ150においてステップ110と同様に、MPEG−4オーディオデータストリームが再フォーマットされたMP3オーディオデータストリームであるかどうかを再び正確にテストする。その後のステップ152および154も図7の手順のステップ112および114に対応する。
サイド情報におけるバックポインタおよびフレームヘッダにおけるビット率指標を変更する代わりに、MP3再構築器100は、図8の方法によりステップ156において、サンプル率、ビット率、パディングビットに基づいてMPEG−4オーディオデータストリームに変換された当初のMP3オーディオデータストリームにおける当初のデータブロック長さを再構築する。ビット率がフレーム毎に異なる場合、サンプル率およびパディング指示がMPEG_1_2_SpecificConfigで示され、ビット率は各チャンネル要素で示される。
当初の、さらに再構成されるオーディオデータストリームの当初のフレーム長さを計算するための式は上で示されたものと同様であり:
MPEG1レイヤ3については:
frame length[Bit]=1152*bit rate[Bit/s]/sample rate[Bit/s]++8*paddingbit[Bit]
MPEG2レイヤ3については:
frame length[Bit]=576*bit rate[Bit/s]/sample rate[Bit/s]++8*paddingbit[Bit]
その後、MP3オーディオデータストリームもしくは複数のMP3オーディオデータストリームそれぞれは、計算されたデータブロック長さ間隔の各チャンネルから各フレームヘッダを配置することで生成され、ギャップは、オーディオデータもしくは主データをそれぞれサイド情報のポインタで示される位置に挿入することで埋められる。図7あるいは5それぞれの実施例とは異なり、各ヘッダもしくは各サイド情報それぞれに関係付けられた主データは、バックポインタで示される位置の開始点においてMP3オーディオデータストリーム内に挿入される。あるいは、言い換えると、動的主データの開始点がmain_data_beginに対応してオフセットされる。MPEG−4ファイルヘッダは省略される。得られる複数のMP3オーディオデータストリーム、もしくは得られるMP3オーディオデータストリームそれぞれは、MPEG−4オーディオデータストリームがベースとする当初の複数のMP3オーディオデータストリームに対応する。これらのMP3オーディオデータストリームはこのように、図7のオーディオデータストリームと同様に従来型MP3復号器によりオーディオ用信号に復号される。
前説明に関して、単チャンネルMP3オーディオデータストリームとして説明されているMP3オーディオデータストリームは、実際にはISO/IEC標準13818−3により定義される2チャンネルMP3オーディオデータストリームの場所にあったものであるが、ここで、本発明の理解に関して何ら変更がないことから、この説明はここでは詳細に行わない。復号器側における入力チャンネルを検索するための送信されたチャンネルからのマトリクス操作およびこれらのマルチチャンネル信号の複数バックポインタの利用が論じられたが、参照は各標準に対して行う。
上述の実施例により、MPEG−4ファイルフォーマットで別の形式によりMP3データブロックを保存できるようになる。MPEG−1/2−オーディオ−レイヤ−3、ショートMP3あるいはそこから派生したMPEG2.5mp3PROといった商標登録をもつフォーマットは、これらの手順に従ってMPEG−4ファイルにパックできるため、このような新たな表記では、単純な方式で任意数のチャンネルのマルチチャンネルを表示したものになる。標準ISO/IEC13818−3からの複雑で難しい使用方法を使う必要はない。特に、MP3データブロックは、各ブロック−アクセスユニットのチャンネル要素が所定時間マークに関係するようパックされる。
デジタル信号表示のフォーマットを変更するため、上述の実施例において、表示部分は異なるデータで上書きされる。言い換えると、復号器で必要な、あるいは有用な情報は、データストリーム内の異なるブロックに対して一定のMP3データブロックの部分に書き込まれる。
複数のモノラルあるいはステレオデータブロックをMPEG−4ファイルフォーマットのアクセスユニットにパックすることで、マルチチャンネル表示が得られるが、これは標準ISO/IEC13818−3からの表示に比べてはるかに容易に取り扱うことができる。
前の実施例において、MP3データブロックの表示は、ある時間マークに関係する全データも1つのアクセスユニット内に含まれるよう別の方式でフォーマットされたものである。一般に、MP3データブロックでは常にこうなるわけではないが、その理由は、要素のmain_data_begin、あるいは当初のMP3データブロック内のバックポインタがそれぞれ前のデータブロックを指すことができるためである。
当初のデータストリームの再構成も行うことができる(図8)。つまり、図でわかるとおり、検索されたデータストリームは各確認復号器で処理できる。
その上で、上述の実施例により2つ以上のチャンネルの符号化もしくは復号が可能になる。さらに、上述の実施例において、マルチチャンネルフォーマットを得るため、すでに符号化されたMP3データだけを単純な操作で再フォーマットする必要がある。他方、符号器側において、この操作あるいはこういった操作それぞれだけを逆転させる必要がある。
MP3データストリームは通常、異なる長さのデータブロックを含むが、1つのブロックに関係する動的データを前ブロックにパックできることから、前述の実施例では動的データを直接サイド情報の後にバンドルした。得られるMPEG−4オーディオデータストリームは一定の中間的なビット率をもっていたが、データブロックの長さが異なっていた。要素のmain_data_beginあるいはバックポインタそれぞれは、当初のデータストリームの再生を確実に行うため、変更のない方式で送信される。
さらに、図5を参照すると、MPEG−4ファイル内における1つのマルチチャンネルフォーマットに対するMP3チャンネル要素として複数のMP3データブロックをパックするため、MPEG−4シンタクスの拡張について説明した。1つの時点に関係する全MP3チャンネル要素本体が1つのアクセスユニットにパックされた。MPEG−4標準に対応して、符号器側における構成に対する適切な情報を、いわゆるAudioSpecificConfigから取ることができる。audioObjectType、サンプル率、チャンネル構成等とは別に、これは、各audioObjectTypeに対して関係する記述子を含む。この記述子はMPEG_1_2_SpecificConfigに関して上で説明した。
前述の実施例により、ヘッダ内の12ビットMPEG−1/2シンクワードは、各MP3チャンネル要素の長さで置き換えられている。ISO/IEC13818−3によれば、12ビットはこれに対して十分である。残りのヘッダはそれ以上修正されないが、例えば、送信される情報の量を減らすため、シンクワードを除くフレームヘッダや残りの冗長部を短縮のため修正することは可能である。
上述の実施例のさまざまな変形例も容易に実行できる。このように、図3,7,8のステップ、特に図3におけるステップ42,50,56,60や、図7における11,114,118,122、さらに図8における152,154,156は変更可能である。
さらに、図3,7,8に関して、ここで示されたステップは、図2もしくは6それぞれの変換器あるいは再構築器それぞれにおける各特性により実施され、これは、例えばコンピュータもしくは配線回路として具現化できるということに注意するべきである。
図7の実施例において、サイド情報のヘッダ操作(ステップ118,122)それぞれは、受信機もしくは復号器側それぞれで、当初のMP3データストリームに比べて若干変更されたMP3データストリームに対してMP3復号器に対して実施された。多くの適用例において、これらのステップを符号器もしくは送信機側それぞれで行うことは有利となりうるが、その理由は、受信機装置は大量生産された装置であることが多いため、受信機側における電子工学面での節約によりかなりの高利得が可能になるためである。他の実施例では、これらのステップがすでにMP3−MPEG−4データフォーマット変換中に実施されている。この他のフォーマット変換方法によるステップが図9で示されているが、ここで図3と同様のステップは同一の参照番号で与えられ、繰り返しを避けるため再び説明することはしない。
まず、変換されるMP3オーディオデータストリームはステップ40で受信され、ステップ42において、時間マークに関係する、もしくは各時間マークに関係するMP3オーディオデータストリームで符号化されるオーディオ用信号の時間周期の符号化を示すオーディオデータがそれぞれ近接ブロックに結合され、これを全時間マークに対して行う。チャンネル要素を得るため、ヘッダが再び近接ブロックに追加される(ステップ50)。しかし、ステップ56のように同期ワードを各チャンネル要素の長さで置き換えるだけでヘッダが修正されるものではない。むしろ、図7のステップ118および122に対応するステップ180および182において、さらなる修正が続けられる。ステップ180において、各チャンネル要素のサイド情報はゼロに設定され、ステップ182において、各チャンネル要素のヘッダ内のビット率指標は、上述のように、ビット率に依存するMP3データブロック長さがこのチャンネル要素、もしくは関係する時間マークそれぞれの全オーディオデータを、ヘッダやサイド情報の大きさとともに含む上で十分になるよう変更される。図9の方法により形成されるMPEG−4オーディオデータストリームを、図7の方法により作動する復号器にステップ118および122なしで供給する場合、正確なビット率を後に生じさせるため、連続したチャンネル要素のヘッダ内のパディングビットを変更するステップもステップ182が含んでいる。パディングステップは、当然ながらステップ128内の復号器側でも実施できる。
ステップ182において、ステップ122に関係して説明したとおり、可能な最高値までビット率指標を設定しない方が有用となりうる。この値はまた最小値に設定することも可能であるが、これは、計算されたMP3フレーム長さにおけるチャンネル要素の全オーディオデータ、ヘッダ、サイド情報を取り込むには十分なものであるが、これはすなわち、少ない係数で符号化できる符号化音響の通路の場合にビット率指標が少なくなることを意味する。
こういった修正後、ステップ60および62において、ファイルヘッダ(AudioSpecificConfig)だけが生成されるが、これはMPEG−4オーディオデータストリームとしてMP3チャンネル要素とともに出力される。これは、すでに述べたとおり、図7の方法によりプレイできるが、ここで、ステップ118および122は省略でき、これにより復号器側における実施内容が軽減される。ただし、ステップ42,50,56,180,182,60は任意の順番で実施可能である。
前述の説明は、固定データブロックビット長さをもつMP3データストリームに対して典型的なものだけに関係するものである。当然ながら、可変データブロック長のMP3データストリームは、前述の実施例により処理できるが、ここでビット率指標、さらにデータブロック長さもフレーム毎に変わる。
前述の説明はMP3オーディオデータストリームに関係するものであった。他の非ポインタベースのオーディオデータストリームにおいて、本発明の実施例により、ヘッダとは別に、関連するサイド情報や関連するオーディオデータを含み、これによりMPEG−4オーディオデータストリームを生成するためのすでに内蔵された典型的な1つのMPEG1/2レイヤ2オーディオデータストリームにおけるヘッダを修正するステップが提供される。この修正により、各データブロックもしくは各データブロックのオーディオデータのいずれかのデータ量を示す長さ指示をもつ各ヘッダがもたらされるため、MPEG−4データストリームは、特に、図5に関して上で説明したものと同様に複数のMPEG1/2レイヤ2オーディオデータストリームをマルチチャンネルオーディオデータストリームに結合する際には容易に復号できる。好ましくは、シンクワードあるいはMPEG1/2レイヤ2データストリームのヘッダのこれの他の冗長部を長さ指示で置き換えることにより上で説明したやり方と同様に修正を行う。1つの時間マークに関係するオーディオデータを結合することで図5の前にポインタの再フォーマットあるいは解体を行う作業がレイヤ2データストリームにおいて省略されるが、この理由はここではバックポインタが存在しないためである。マルチチャンネルオーディオデータストリームの2つのチャンネルを示す2つのMPEG1/2レイヤオーディオデータストリームで結合されたMPEG−4オーディオデータストリームの復号は、長さ指示を読み込み、それに基づいてアクセスユニットの個々のチャンネル要素にアクセスすることで容易に実施される。これはその後、従来型MPEG1/2レイヤに準拠した復号器に送信できる。
さらに、バックポインタがポインタベースのオーディオデータストリームのデータブロック内に正確にあることは本発明にとって重要ではない。フレームヘッダ内で直接、これとともに近接判定ブロックを定義することもできる。
特に、条件によってはファイルフォーマット変換に対する本発明のスキームをソフトウェア内で実施することもできる。これは、電子的に読み込み可能な制御信号を用いてデジタルメモリ媒体、特にディスクあるいはCD上で行うことが可能であるが、各方法を行うようプログラム可能なコンピュータシステムと協働もできる。これにより、一般に、本発明は、このように、コンピュータプログラム製品がコンピュータ上で実行される際に、本発明の方法を実施するための機械読み込み可能キャリア上に保存されたプログラムコードを用いてコンピュータプログラム製品内でも構成される。言い換えると、本発明はまた、コンピュータプログラムがコンピュータ上で作動する際に本発明を実施するためのプログラムコードをもつコンピュータプログラムとしても実現できる。
MP3ファイルフォーマットをバックポインタとともに図示する概略図である。 MP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換するための構成を図示するブロック図である。 本発明の1つの実施例によりMP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換するための方法のフロー図である。 判定ブロックを追加することで関連オーディオデータを結合するステップと、図3の方法における判定ブロックを修正するステップとを図示するための概略図である。 本発明のさらなる実施例により複数のMP3オーディオデータストリームをマルチチャンネルMPEG−4オーディオデータストリームに変換するための方法を図示する概略図である。 既存のMP3復号器でMP3オーディオデータストリームを復号できるようにするため、図3で得られるMPEG−4オーディオデータストリームをMP3オーディオデータストリームに戻るよう変換するための配置のブロック図である。 図3で得られるMPEG−4オーディオデータストリームをMP3フォーマットの1つ以上のオーディオデータストリームに再変換するための方法のフロー図である。 本発明のさらなる実施例により、図3で得られるMPEG−4オーディオデータストリームをMP3フォーマットの1つ以上のオーディオデータストリームに再変換するための方法のフロー図である。 本発明のさらなる実施例によりMP3オーディオデータストリームをMPEG−4オーディオデータストリームに変換するための方法のフロー図である。

Claims (22)

  1. 時間周期を含み、第1ファイルフォーマットをもつ符号化されるオーディオ用信号を示す第1オーディオデータストリーム10を、符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリームに変換するための方法であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより、第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とを含み、判定ブロックオーディオデータが判定ブロック14,16に関係付けられ、これらの判定ブロックが時間周期を符号化することで得られ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が、次データブロックに関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12b,12cの開始点の前にあることを特徴とする方法であって、この方法が、
    第2オーディオデータストリームの一部を形成する近接判定ブロックオーディオデータ48を得るため、少なくとも2つのデータブロックの判定ブロックに関係付けられる判定ブロックオーディオデータ44,46を結合する42ステップを含む方法。
  2. 請求項1に記載の方法であって、この方法がさらに、
    チャンネル要素52aを得るため、判定ブロックオーディオデータ44,46が関係付けられ、近接判定ブロックオーディオデータが得られる判定ブロック14,16を、近接判定ブロックオーディオデータ48に追加する50ステップと、
    第2オーディオデータストリームを得るため、チャンネル要素を配列するステップと、
    を含む方法。
  3. 請求項2に記載の方法であって、この方法がさらに、
    チャンネル要素54a−54cが、チャンネル要素54a−54cのデータ量もしくは近接判定ブロックオーディオデータのデータ量を示す長さ指示を含むようチャンネル要素54a−54cを修正する56ステップを含む方法。
  4. 請求項3に記載の方法であって、修正ステップが、全判定ブロックに対して同一の冗長部を長さ指示で置き換える56ステップを含むことを特徴とする方法。
  5. 請求項1ないし請求項4のいずれかに記載の方法であって、この方法がさらに、
    第2オーディオデータストリームの前に全体判定ブロックを置く60,62ステップであって、全体判定ブロックが全判定ブロックに対して同一の冗長部をもつステップを含む方法。
  6. 請求項1ないし請求項5のいずれかに記載の方法であって、結合ステップが、
    判定ブロックのポインタを読み込むサブステップと、
    少なくとも2つのデータブロックの内の1つのデータブロックオーディオデータに含まれ、判定ブロックのポインタが示す判定ブロックオーディオデータの開始点を含む判定ブロックオーディオデータの第1部分を読み込むサブステップと、
    少なくとも2つのデータブロックの他のデータブロックオーディオデータに含まれ、判定ブロックオーディオデータの終了点を含む判定ブロックオーディオデータの第2部分を読み込むサブステップと、
    第1部分と第2部分とを結合させるサブステップと、
    を含むことを特徴とする方法。
  7. 符号化される第1オーディオ用信号を示す第1オーディオデータストリームおよび符号化される第2オーディオ用信号を示す第2オーディオデータストリームをマルチチャンネルオーディオデータストリームに結合するための方法であって、この方法が、
    第1オーディオデータストリームを、請求項2ないし請求項6もしくは請求項10ないし請求項12のいずれかに記載の方法により第1サブオーディオデータストリームに変換するステップと、
    第2オーディオデータストリームを、請求項2ないし請求項6もしくは請求項10ないし請求項12のいずれかに記載の方法により第2サブオーディオデータストリームに変換するステップと、
    を含む方法であって、
    配列ステップが、2つのサブオーディオデータストリームがともに第2オーディオデータストリームを形成し、第2オーディオデータストリームにおいて、時間の等しい時間周期を符号化することで得られる近接判定ブロックオーディオデータを含む第1サブオーディオデータストリームのチャンネル要素70aと第2サブオーディオデータストリームのチャンネル要素72aとが近接するアクセスユニット78において順次配列されることを特徴とする方法。
  8. 請求項7に記載の方法であって、この方法がさらに、
    全体判定ブロックを第2オーディオデータストリームの前に置くステップであって、全体判定ブロックが、第1サブオーディオデータストリームと第2サブオーディオデータストリーム70bとのチャンネル要素70aがアクセスユニット78においてどの順番で配列されるかを示すフォーマット指示を含むステップを含む方法。
  9. 請求項1ないし請求項8のいずれかに記載の方法であって、データブロックが、この判定ブロックのサンプル率指示およびビット率指示に応じて等しい、あるいは所定の変動可能サイズのデータブロックであることを特徴とする方法。
  10. 時間周期を含み、第1ファイルフォーマットをもつ符号化されるオーディオ用信号を示す第1オーディオデータストリームを、符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリームに変換するための方法であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロックに分割され、データブロックが判定ブロックとデータブロックオーディオデータとを含むことを特徴とする方法であって、この方法が、
    データブロックから第2オーディオデータストリームを形成するチャンネル要素を得るため、データブロックが、データブロックのデータ量もしくはデータブロックオーディオデータのデータ量を示す長さ指示を含むようデータブロックを修正するステップを含む方法。
  11. 請求項10に記載の方法であって、修正ステップが、全判定ブロックに対して同一の冗長部を長さ指示で置き換えるステップを含むことを特徴とする方法。
  12. 請求項1ないし請求項6のいずれかに記載の方法であって、この方法がさらに、
    判定ブロックオーディオデータが各判定ブロックの直後に始まる判定ブロックの開始点として判定ブロックが指示するよう、判定ブロックのポインタをリセットする180ステップと、
    第1オーディオファイルフォーマットによるビット率指示に応じてデータブロック長が各判定ブロックと関連判定ブロックオーディオデータとを取り込む上で十分となるよう判定ブロックのビット率指示を変更する182ステップと、
    を含む方法。
  13. 符号化される信号を示し、第1ファイルフォーマットをもつ第1オーディオデータストリームを復号できる復号器に基づき、第1オーディオデータストリーム時間周期を含む符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリーム10を復号するための方法であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とをもち、時間周期を符号化することで得られる判定ブロックオーディオデータが判定ブロック14,16と関係付けられ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が、次データブロックと関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12a−12cの開始点前にあり、第2オーディオデータストリームが第2ファイルフォーマットに応じてチャンネル要素に分割され、チャンネル要素が、2つのデータブロックからの判定ブロックに関係付けられる判定ブロックオーディオデータと、関係付けられる判定ブロックとを結合することで得られる近接判定ブロックオーディオデータ44,46を含むことを特徴とする方法であって、この方法が、
    符号化されるオーディオ用信号を示し、第1ファイルフォーマットをもつ入力データストリームを、
    リセット判定ブロックを得るため、判定ブロックオーディオデータが各判定ブロックの直後に始まることをポインタが判定ブロックオーディオデータの開始点として指示するよう第2オーディオデータストリームのチャンネル要素の判定ブロックのポインタをリセットするステップと、
    ビット率が増加してリセットされる判定ブロックを得るため、第2オーディオデータストリームのチャンネル要素の判定ブロックにおいてビット率指示を上げるステップと、
    各チャンネル要素に加えて挿入されるビットの長さが上げられるビット率指示に適応されるよう各チャンネル要素と次位チャンネル要素との間にビットを挿入するステップとにより第2オーディオデータストリームから形成するステップと、
    オーディオ用信号を得るため、上げられるビット率指示に応じて入力データストリームを復号器に供給するステップと、
    を含む方法。
  14. 時間周期を含み、符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリーム10を、符号化されるオーディオ用信号を示し、第1ファイルフォーマットをもつ第2オーディオデータストリームに変換するための方法であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とをもち、時間周期を符号化することで得られる判定ブロックオーディオデータが判定ブロック14,16と関係付けられ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が次データブロックと関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12b,12cの開始点前にあり、第2オーディオデータストリームが第2ファイルフォーマットに応じてチャンネル要素に分割され、チャンネル要素が、2つのデータブロックからの判定ブロックに関係付けられる判定ブロックオーディオデータと、関係付けられる判定ブロックとを結合することで得られる近接判定ブロックオーディオデータ44,46を含むことを特徴とする方法であって、この方法が、
    チャンネル要素の判定ブロックに基づき再構築データブロックビット長を判定するステップと、
    再構築データブロックビット長の間隔で第2オーディオデータストリームに判定ブロックを配列するステップと、
    近接判定ブロックオーディオデータを2つのデータブロックのデータブロックオーディオデータに分割することで判定ブロックとデータブロックオーディオデータを用いてデータブロックを得るため、第2オーディオデータストリームにおける判定ブロックにポインタに応じた各チャンネル要素の近接判定ブロックオーディオデータを挿入するステップと、
    を含む方法。
  15. 符号化される信号を示し、第1ファイルフォーマットをもつ第1オーディオデータストリームをオーディオ用信号に復号できる復号器に基づき、時間周期を含む符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリーム10を復号するための方法であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とをもち、時間周期を符号化することで得られる判定ブロックオーディオデータが判定ブロック14,16と関係付けられ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が、次データブロックと関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12a−12cの開始点前にあり、第2オーディオデータストリームが第2ファイルフォーマットに応じてチャンネル要素に分割され、チャンネル要素が、2つのデータブロックからの判定ブロックに関係付けられる判定ブロックオーディオデータを結合することで得られる近接判定ブロックオーディオデータ44,46を含み、判定ブロックオーディオデータが各判定ブロックの直後に始まることを判定ブロックオーディオデータの開始点としてポインタが指示するよう、判定ブロックのポインタが第2オーディオデータストリームでリセットされ、第1オーディオファイルフォーマットによるビット率指示に応じたデータブロック長が各判定ブロックと関連判定ブロックオーディオデータとを取り上げる上で十分になるよう第2オーディオデータストリームの判定ブロックのビット率指示が変更されることを特徴とする方法であって、この方法が、
    符号化されるオーディオ用信号を示し、第1ファイルフォーマットをもつ入力データストリームを、
    各チャンネル要素に加えて挿入されるビットの長さが変えられるビット率指示に適応されるよう各チャンネル要素と次位チャンネル要素との間にビットを挿入するステップにより第2オーディオデータストリームから形成するステップと、
    オーディオ用信号を得るため、変えられるビット率指示に応じて入力データストリームを復号器に供給するステップと、
    を含む方法。
  16. 時間周期を含み、第1ファイルフォーマットをもつ符号化されるオーディオ用信号を示す第1オーディオデータストリーム10を、符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリームに変換するための装置であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより、第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とを含み、判定ブロックオーディオデータが判定ブロック14,16に関係付けられ、これらの判定ブロックが時間周期を符号化することで得られ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が、次データブロックに関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12b,12cの開始点の前にあることを特徴とする装置であって、この装置が、
    第2オーディオデータストリームの一部を形成する近接判定ブロックオーディオデータ48を得るため、2つのデータブロックの判定ブロックに関係付けられる判定ブロックオーディオデータ44,46を結合する手段42を備える装置。
  17. 請求項14に記載の装置であって、この装置がさらに、
    チャンネル要素52aを得るため、判定ブロックオーディオデータ44,46が関係付けられ、近接判定ブロックオーディオデータが得られる判定ブロック14,16を、近接判定ブロックオーディオデータ48に追加するための手段50と、
    第2オーディオデータストリームを得るため、チャンネル要素を配列するための手段と、
    を備える装置。
  18. 符号化される信号を示し、第1ファイルフォーマットをもつ第1オーディオデータストリームを復号できる復号器に基づき、第1オーディオデータストリーム時間周期を含む符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリーム10を復号するための装置であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とをもち、時間周期を符号化することで得られる判定ブロックオーディオデータが判定ブロック14,16と関係付けられ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が次データブロックと関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12a−12cの開始点前にあり、第2オーディオデータストリームが第2ファイルフォーマットに応じてチャンネル要素に分割され、チャンネル要素が、2つのデータブロックからの判定ブロックに関係付けられる判定ブロックオーディオデータと、関係付けられる判定ブロックとを結合することで得られる近接判定ブロックオーディオデータ44,46を含むことを特徴とする装置であって、この装置が、
    符号化されるオーディオ用信号を示し、第1ファイルフォーマットをもつ入力データストリームを、
    リセット判定ブロックを得るため、判定ブロックオーディオデータが各判定ブロックの直後に始まるということをポインタが判定ブロックオーディオデータの開始点として指示するよう第2オーディオデータストリームのチャンネル要素の判定ブロックのポインタをリセットするステップと、
    ビット率が増加してリセットされる判定ブロックを得るため、第2オーディオデータストリームのチャンネル要素の判定ブロックにおけるビット率指示を上げるステップと、
    各チャンネル要素に加えて挿入されるビットの長さが上げられるビット率指示に適応されるよう、各チャンネル要素と次位チャンネル要素との間にビットを挿入するステップと、
    により第2オーディオデータストリームから形成するための手段と、
    オーディオ用信号を得るため、上げられるビット率指示に応じて入力データストリームを復号器に供給するための手段と、
    を備える装置。
  19. 時間周期を含み、符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリーム10を、符号化されるオーディオ用信号を示し、第1ファイルフォーマットをもつ第2オーディオデータストリームに変換するための装置であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とをもち、時間周期を符号化することで得られる判定ブロックオーディオデータが判定ブロック14,16と関係付けられ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が次データブロックと関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12b,12cの開始点前にあり、第2オーディオデータストリームが第2ファイルフォーマットに応じてチャンネル要素に分割され、チャンネル要素が、2つのデータブロックからの判定ブロックに関係付けられる判定ブロックオーディオデータと、関係付けられる判定ブロックとを結合することで得られる近接判定ブロックオーディオデータ44,46を含むことを特徴とする装置であって、この装置が、
    チャンネル要素の判定ブロックに基づき再構築データブロックビット長を判定するための手段と、
    再構築データブロックビット長の間隔で第2オーディオデータストリームに判定ブロックを配列するための手段と、
    近接判定ブロックオーディオデータを2つのデータブロックのデータブロックオーディオデータに分割することで判定ブロックとデータブロックオーディオデータを用いてデータブロックを得るため、第2オーディオデータストリームにおける判定ブロックにポインタに応じた各チャンネル要素の近接判定ブロックオーディオデータを挿入する手段と、
    を備える装置。
  20. 時間周期を含み、第1ファイルフォーマットをもつ符号化されるオーディオ用信号を示す第1オーディオデータストリームを、符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリームに変換するための装置であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロックに分割され、データブロックが判定ブロックとデータブロックオーディオデータとを含むことを特徴とする装置であって、この装置が、
    データブロックから第2オーディオデータストリームを形成するチャンネル要素を得るため、データブロックが、データブロックのデータ量もしくはデータブロックオーディオデータのデータ量を示す長さ指示を含むようデータブロックを修正するための手段を含む装置。
  21. 符号化される信号を示し、第1ファイルフォーマットをもつ第1オーディオデータストリームをオーディオ用信号に復号できる復号器に基づき、時間周期を含む符号化されるオーディオ用信号を示し、第2ファイルフォーマットをもつ第2オーディオデータストリーム10を復号するための装置であって、時間周期が多数のオーディオ値を含み、第1ファイルフォーマットにより第1オーディオデータストリームが次位データブロック10a−10cに分割され、データブロックが判定ブロック14,16とデータブロックオーディオデータ18とをもち、時間周期を符号化することで得られる判定ブロックオーディオデータが判定ブロック14,16と関係付けられ、判定ブロックが、判定ブロックオーディオデータ12a−12cの開始点を示すポインタを含み、判定ブロックオーディオデータ12a−12cの終了点が、次データブロックと関係付けられるオーディオデータストリームの判定ブロックオーディオデータ12a−12cの開始点前にあり、第2オーディオデータストリームが第2ファイルフォーマットに応じてチャンネル要素に分割され、チャンネル要素が、2つのデータブロックからの判定ブロックに関係付けられる判定ブロックオーディオデータを結合することで得られる近接判定ブロックオーディオデータ44,46を含み、判定ブロックオーディオデータが各判定ブロックの直後に始まるということを判定ブロックオーディオデータの開始点としてポインタが指示するよう判定ブロックのポインタが第2オーディオデータストリームでリセットされ、第1オーディオファイルフォーマットによるビット率指示に応じたデータブロック長が各判定ブロックと関連判定ブロックオーディオデータとを取り上げる上で十分になるよう第2オーディオデータストリームの判定ブロックのビット率指示が変更されることを特徴とする装置であって、この装置が、
    符号化されるオーディオ用信号を示し、第1ファイルフォーマットをもつ入力データストリームを、
    各チャンネル要素に加えて挿入されるビットの長さが変えられるビット率指示に適応されるよう、各チャンネル要素と次位チャンネル要素との間にビットを挿入するステップにより第2オーディオデータストリームから形成する手段と、
    オーディオ用信号を得るため、変えられるビット率指示に応じて入力データストリームを復号器に供給するための手段と、
    を備える装置。
  22. コンピュータプログラムがコンピュータプログラム上で実行される際に請求項1,請求項10,請求項13,請求項14もしくは請求項15のいずれかに記載の方法を実施するためのプログラムコードをもつコンピュータプログラム。
JP2006520732A 2003-07-21 2004-07-13 オーディオファイルフォーマット変換 Active JP4405510B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DE10333071.2 2003-07-21
DE10333071 2003-07-21
DE10339498.2 2003-08-27
DE10339498A DE10339498B4 (de) 2003-07-21 2003-08-27 Audiodateiformatumwandlung
PCT/EP2004/007744 WO2005013491A2 (de) 2003-07-21 2004-07-13 Audiodateiformatumwandlung

Publications (2)

Publication Number Publication Date
JP2006528368A true JP2006528368A (ja) 2006-12-14
JP4405510B2 JP4405510B2 (ja) 2010-01-27

Family

ID=34117364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006520732A Active JP4405510B2 (ja) 2003-07-21 2004-07-13 オーディオファイルフォーマット変換

Country Status (12)

Country Link
US (1) US7769477B2 (ja)
EP (1) EP1647010B1 (ja)
JP (1) JP4405510B2 (ja)
KR (1) KR100717600B1 (ja)
AU (1) AU2004301746B2 (ja)
BR (1) BRPI0412889B1 (ja)
CA (1) CA2533056C (ja)
MX (1) MXPA06000750A (ja)
NO (1) NO334901B1 (ja)
PL (1) PL1647010T3 (ja)
RU (1) RU2335022C2 (ja)
WO (1) WO2005013491A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523090A (ja) * 2008-06-02 2011-08-04 トムソン ライセンシング 少なくとも一つのヘッダ・セクション、及び対応するデータ構造を含むフレームベースのビットストリーム・フォーマット・ファイルを生成、カット又は変更するための方法と装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4405510B2 (ja) 2003-07-21 2010-01-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオファイルフォーマット変換
JP5461835B2 (ja) 2005-05-26 2014-04-02 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
KR100878766B1 (ko) * 2006-01-11 2009-01-14 삼성전자주식회사 오디오 데이터 부호화 및 복호화 방법과 장치
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
US7912894B2 (en) * 2007-05-15 2011-03-22 Adams Phillip M Computerized, copy-detection and discrimination apparatus and method
US8112388B2 (en) * 2007-08-03 2012-02-07 Sap Ag Dependency processing of computer files
US20090067550A1 (en) * 2007-09-06 2009-03-12 Arie Heiman Method and system for redundancy-based decoding of audio content
KR101531510B1 (ko) * 2008-11-27 2015-06-26 엘지전자 주식회사 수신 시스템 및 오디오 데이터 처리 방법
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
TWI384459B (zh) * 2009-07-22 2013-02-01 Mstar Semiconductor Inc 音框檔頭之自動偵測方法
US9183842B2 (en) * 2011-11-08 2015-11-10 Vixs Systems Inc. Transcoder with dynamic audio channel changing
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9111524B2 (en) 2011-12-20 2015-08-18 Dolby International Ab Seamless playback of successive multimedia files
JP5814802B2 (ja) * 2012-01-12 2015-11-17 ルネサスエレクトロニクス株式会社 オーディオ符号化装置
KR101726205B1 (ko) 2012-11-07 2017-04-12 돌비 인터네셔널 에이비 감소된 복잡성 변환기 snr 계산
KR101992274B1 (ko) * 2013-01-02 2019-09-30 삼성전자주식회사 데이터 압축 방법과 상기 방법을 수행할 수 있는 장치들
EP3264644A1 (en) * 2016-07-01 2018-01-03 Nxp B.V. Multiple source receiver
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
US11588872B2 (en) 2017-06-12 2023-02-21 C-Hear, Inc. System and method for codec for combining disparate content
US10187443B2 (en) * 2017-06-12 2019-01-22 C-Hear, Inc. System and method for encoding image data and other data types into one data format and decoding of same
EP3761654A1 (en) * 2019-07-04 2021-01-06 THEO Technologies Media streaming
CN110415716B (zh) * 2019-07-05 2021-11-26 达闼机器人有限公司 音频混合方法、装置、存储介质及电子设备
CN112612668A (zh) * 2020-12-24 2021-04-06 上海立可芯半导体科技有限公司 一种数据处理方法、装置和计算机可读介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5596564A (en) 1993-10-08 1997-01-21 Matsushita Electric Industrial Co., Ltd. Information recording medium and apparatus and method for recording and reproducing information
JPH07221716A (ja) 1994-01-31 1995-08-18 Sony Corp 情報信号伝送方法及び装置
JP3645027B2 (ja) 1995-09-20 2005-05-11 松下電器産業株式会社 可変長データ送受信装置
JP3359581B2 (ja) 1998-11-25 2002-12-24 パイオニア株式会社 情報再生装置
KR100441704B1 (ko) 1999-12-03 2004-07-27 마츠시타 덴끼 산교 가부시키가이샤 데이터 적합화 장치, 데이터 적합화 방법, 기억 매체 및프로그램
US6466476B1 (en) 2001-01-18 2002-10-15 Multi Level Memory Technology Data coding for multi-bit-per-cell memories having variable numbers of bits per memory cell
JP2002279392A (ja) * 2001-03-22 2002-09-27 Kobe University 進化戦略計算システム、その方法及び記録媒体
JP2004524776A (ja) * 2001-04-20 2004-08-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Mp3のトリック再生
KR100892860B1 (ko) 2001-04-20 2009-04-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 데이터 스트림들을 편집하기 위한 방법 및 장치
WO2003005719A2 (en) 2001-05-24 2003-01-16 Vixs Systems Inc. Method and apparatus for managing resources and multiplexing a plurality of channels in a multimedia system
JP2003337596A (ja) 2002-05-20 2003-11-28 Teac Corp オ−ディオデータ処理方法及び装置
EP1420401A1 (en) * 2002-11-14 2004-05-19 Deutsche Thomson-Brandt Gmbh Method and apparatus for converting a compressed audio data stream with fixed frame length including a bit reservoir feature into a different-format data stream
JP4405510B2 (ja) 2003-07-21 2010-01-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオファイルフォーマット変換

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523090A (ja) * 2008-06-02 2011-08-04 トムソン ライセンシング 少なくとも一つのヘッダ・セクション、及び対応するデータ構造を含むフレームベースのビットストリーム・フォーマット・ファイルを生成、カット又は変更するための方法と装置

Also Published As

Publication number Publication date
EP1647010B1 (de) 2017-09-06
CA2533056A1 (en) 2005-02-10
JP4405510B2 (ja) 2010-01-27
AU2004301746B2 (en) 2008-04-10
US20060259168A1 (en) 2006-11-16
KR100717600B1 (ko) 2007-05-15
NO334901B1 (no) 2014-07-07
WO2005013491A2 (de) 2005-02-10
RU2006105203A (ru) 2006-06-27
AU2004301746A1 (en) 2005-02-10
EP1647010A2 (de) 2006-04-19
NO20060814L (no) 2006-04-20
WO2005013491A3 (de) 2005-03-24
US7769477B2 (en) 2010-08-03
RU2335022C2 (ru) 2008-09-27
BRPI0412889A (pt) 2006-10-03
PL1647010T3 (pl) 2018-02-28
KR20060052854A (ko) 2006-05-19
CA2533056C (en) 2012-04-17
MXPA06000750A (es) 2006-03-30
BRPI0412889B1 (pt) 2019-09-10

Similar Documents

Publication Publication Date Title
JP4405510B2 (ja) オーディオファイルフォーマット変換
JP4724452B2 (ja) デジタルメディア汎用基本ストリーム
KR20100089772A (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP5035458B2 (ja) 音声信号伝送装置、音声信号受信装置及び音声信号伝送システム
ES2649728T3 (es) Conversión de formato de archivo de audio
JP4244223B2 (ja) 音声符号化方法及び音声復号方法
JP3606454B2 (ja) 音声信号伝送方法及び音声復号方法
JP4148260B2 (ja) 音声符号化方法及び音声復号方法
JP3606456B2 (ja) 音声信号伝送方法及び音声復号方法
JP4148259B2 (ja) 音声符号化方法及び音声復号方法
JP2006171769A (ja) 音声符号化方法及び音声復号方法
JP2006171774A (ja) 音声符号化方法及び音声復号方法
JP2006171780A (ja) 音声符号化方法及び音声復号方法
JP2006171777A (ja) 音声符号化方法及び音声復号方法
JP2006171779A (ja) 音声符号化方法及び音声復号方法
JP2006171772A (ja) 音声符号化方法及び音声復号方法
JP2006171770A (ja) 音声符号化方法及び音声復号方法
JP2006171775A (ja) 音声符号化方法及び音声復号方法
JP2006171778A (ja) 音声符号化方法及び音声復号方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091104

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4405510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131113

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250