JP2008511852A - トランスコードのための方法および装置 - Google Patents
トランスコードのための方法および装置 Download PDFInfo
- Publication number
- JP2008511852A JP2008511852A JP2007529057A JP2007529057A JP2008511852A JP 2008511852 A JP2008511852 A JP 2008511852A JP 2007529057 A JP2007529057 A JP 2007529057A JP 2007529057 A JP2007529057 A JP 2007529057A JP 2008511852 A JP2008511852 A JP 2008511852A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- transcoding
- format
- mapping
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 21
- 238000007906 compression Methods 0.000 claims abstract description 20
- 230000006835 compression Effects 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims description 30
- 230000003595 spectral effect Effects 0.000 claims description 22
- 238000013139 quantization Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 239000008187 granular material Substances 0.000 description 5
- 238000013144 data compression Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする方法および装置。該トランスコードは、異なるフォーマットの間で実行することも、ビットレートが異なる同じフォーマットの間で実行することもできる。そのようなフォーマットはMP3またはaacでありうる。
Description
本発明は、ある圧縮フォーマットで表されているオーディオまたはビデオ信号をあるもう一つの圧縮フォーマットで表されている別のオーディオまたはビデオ信号に、特にあるフォーマットからビットレートの異なる同じフォーマットにトランスコードするための方法および装置に関する。
現在、オーディオ符号化フォーマットにはMPEGレイヤーIII(mp3)、MPEG-AAC、WMAなどといった多くの異なる種類がある。また、(携帯型)オーディオプレーヤーがそうしたフォーマットのうち限られた集合しかサポートしていないこともよくある。しかも、各符号化フォーマットについて、オーディオ素材は種々のビットレートでエンコードできる。通常はより高いビットレートがよりよいオーディオ品質に対応するのである。これらの要因のため、しばしばフォーマットAからフォーマットBへのトランスコードすなわち変換を実行する必要が出てくる。一つの例は、AACフォーマットからmp3フォーマットへの変換であるが、これはより広くサポートされていることがある。
あるフォーマットから同じフォーマットの異なるビットレートに変換することが望ましい場合がある。これは通常、より高いビットレートから、品質は低いが記憶容量が少なくてすむ、より低いビットレートへのトランスコードのことである。その一例のシナリオでは、ユーザーは高ビットレートの楽曲を自分のPC、CDまたはDVDに保存している。それらの楽曲のいくつかを異なる品質の再生をもつハードウェア携帯型プレーヤーに移したい。そうした携帯型プレーヤーはしばしばメモリが高価で、よってより多くのコンテンツがはいるよう、保存する項目のビットレートが低いほうが好ましい。
同じ考察は、やはり種々のフォーマットを使って圧縮されるビデオ信号にもあてはまる。ビデオ信号をあるフォーマットから別のフォーマットに、あるいは同じフォーマットの異なるビットレートに変換する必要が生じうるのである。
トランスコードはデコーダとエンコーダの連結によって実行できる。これは単に、フォーマットAをストレートにデコードしてpcm/wavフォーマットにし、続いてエンコードすることによりフォーマットBまたは異なるビットレートのフォーマットAにされる。別の例では、楽曲をデータベースサーバーに保存するときには高ビットレートのAACフォーマットを使って高品質を保持する。その後ユーザーはそれらの楽曲をダウンロードでき、ダウンロードされる楽曲はその際、ユーザーの制御により、ダウンロード速度を高めるために伝送に先立ってより低いビットレートにトランスコードされる。
そのようなトランスコードはたとえばWO00/79770において記載されている(図8および13ページのテキスト参照)。そのようなデコーダとエンコーダの連結は、多大な計算上の複雑さに関わり、実装の複雑さが増すプロセスになる。この増大した複雑さは、そのソフトウェアの実装がより大きなメモリフットプリントおよびより長い実行時間を必要とすることになる。ハードウェア実装はより複雑な設計を必要とし、よってチップ面積が大きくなり、電力消費が増大する。連結法におけるトランスコードの速度は、エンコーダの速度とデコーダの速度によって制限される。トランスコードされる素材の品質は、デコーダとエンコーダのフレームの整列に依存しうるが、それは使用されるエンコーダ、デコーダおよびフォーマットによって変化する。
そのようなトランスコードにおいて計算努力を軽減する試みがある。US-A-5,530,750は、光磁気ディスクにおける記録のためのオーディオ信号を圧縮する方法を記載している。さらに、光磁気媒体からのすでに圧縮されたオーディオ信号をICカードに変換するときにさらなる圧縮が得られる。その際、光磁気媒体からの信号が読み込まれ、展開することなく直接にバッファメモリに供給される。圧縮されている信号は追加的な圧縮器によって処理され、それからICカード上に記録される。通常、スペクトル係数は逆直交変換され、次いでより長いフレーム長またはブロック長を用いて再直交変換される。しかしながら、フレーム長はあらゆる圧縮モードにおいて異なっている必要はなく、その場合には直交変換および再変換は必要とされない。本願の優先日は1993年であるが、それ以来、MP3およびその他のフォーマットの定義により、圧縮の分野では多大な業績があった。
さらに、WO01/61686は、フレームがサブバンドデータを含む第一のデータ圧縮フォーマットの第一のオーディオ信号を、第二のデータ圧縮フォーマットの第二のオーディオデータに変換する方法を開示している。その際、第二のデータ圧縮フォーマットでエンコードするのに先立って第一のオーディオ信号を完全にデコードする必要なしに、第一のオーディオ信号中のサブバンドデータが第二のオーディオ信号を直接または間接に構築するために使われる。
より低いビットレートへのトランスコードのための規則を確立しなければならないことは認識されている。さもなければ、データをどのように再量子化するのか、すなわち第二の量子化器のために何を選択すべきかを知りようがない。現状技術では、この規則は通常、音響心理学的またはビット割り当てモデルに基づいている。実験および観測において、音響心理学モデルなしには、単に任意に第二の量子化器を想定するだけでは納得のいくトランスコード品質を得ることはできないことが証明されている。
本発明の目的は、完全なデコーダおよびエンコーダの直接的な連結よりも実装の複雑さの少ないような、圧縮されたオーディオ信号またはビデオ信号をトランスコードするための方法および装置を提供することである。
前記目的およびその他の目的を達成するため、ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする方法が提供される。その方法では、トランスコードは第一の信号フォーマットからのシンボルの第二の信号フォーマットのシンボルへの直接的なマッピングによって実行される。
ある実施形態では、マッピングは、量子化情報に関係する一組の規則に従って実行されうる。トランスコードは、前記第一のオーディオ信号フォーマット中の情報を制御データとして使って実行されうる。その情報とはたとえば、グローバル利得(global gain)、スケール因子(scalefactors)およびその他のビットレート情報である。トランスコードは整数領域で実行されうる。トランスコードは、第一のフォーマットからビットレートの異なる、たとえばより低いビットレートの同じフォーマットへと行われうる。フォーマットはMP3オーディオまたはAACオーディオでありうる。
もう一つの実施形態では、マッピングは探索表を使って実行される。トランスコードは次の式を使って実行されうる:
もう一つの側面では、本発明は、ある圧縮フォーマットからの第一のオーディオ信号をもう一つの圧縮フォーマットをもつ第二のオーディオ信号にトランスコードするための上記の方法を実行するための装置をなす。本装置は、第一のオーディオ信号からのシンボルの第二のオーディオ信号のシンボルへの直接的なマッピングを実行するためのマッピングアルゴリズム回路を有しうる。さらに、本装置は、前記トランスコードが上記の式を使って実行され、前記マッピングのために使われるべきトランスコード値を保存するメモリを有しうる。
あるさらなる側面によれば、本発明は上記の方法ステップを実行するためのコンピュータプログラムコードを含むコンピュータプログラムプロダクトをなしうる。
本発明のさらなる目的、特徴および利点は、付属の図面とともに参照される、本発明の実施形態の以下の詳細な記載から明らかとなるであろう。
オーディオ圧縮方式においては、入力pcm/wavデータは通例周波数領域に変換され、そのスペクトルデータが不可逆的に量子化される。MPEG1レイヤー1/2のようなフォーマットについては線形だが、mp3およびaacのようなフォーマットについては音響心理学的モデルに基づいて非線形である。量子化されたスペクトルデータは次いで可逆的にハフマンエンコードされ、データはさらに圧縮される。ハフマン符号化は、統計的により頻繁に生起するデータにはより少ないビット数を割り当て、それほど頻繁に生起しないデータにはより多いビット数を割り当てる圧縮技術である。
本発明は、入力シンボルから出力シンボルへの直接的なマッピングを適用する。オーディオの背景では、こうしたシンボルは量子化された変換係数を指す。マッピングは固定でも良いし、あるいはビットストリーム中で利用可能なその他の情報によって制御されてもよい。
本発明は、複雑さ、速度および品質というトランスコードの3つのポイントについて取り組んでいる。直接的なマッピング法を使うことによって、トランスコーダの実装の複雑さは、連結法に比べて大幅に軽減される。これは、図2ないし図4の一連の図面において示されるように、エンコーダおよびデコーダの動作の一部が必要とされないからである。
何らかの種類の音響心理学的またはビット割り当てモデルを使うとき、音響心理学的/ビット割り当て測度を提供するためには係数のスケーリングし直しが必要になるが、これは浮動小数点演算を含意する。さらに、非線形な量子化およびスケーリング(スケール因子)を使う際には、整数‐浮動‐整数の変換を介した二段階の再量子化が想定される。本発明に基づく方法は、トランスコードのための整数から整数の規則集合を定義することによって、音響心理学的モデルの使用をなくす。厳密な定義規則集合は、オーディオまたはビデオ素材が異なれば変わってくるべきで、トランスコードされた品質に影響をもつ。
さらに、浮動小数点演算は直接的なマッピング法を使うことによって回避できる。トランスコード速度も、計算演算が減る結果として大幅に改善される。制御された直接マッピングを使うことにより、トランスコードされた素材のオーディオ品質がフレーム整列された連結法よりもよくなりうる。
さらに詳細に説明すると、デコーダおよびエンコーダを連結する既知の方法を使ったトランスコード動作が図1に示されている。フォーマットAから同じフォーマットA(この場合、mp3のフォーマットA)へのトランスコードのためのさまざまなデコードおよびエンコード動作がブロックとして示されている。図1において、ブロック1は「フォーマットAエンコーダ」で、入力のpcm/wav信号をフォーマットAの信号に変換する。フォーマットA信号はブロック2の「フォーマットAデコーダ」でデコードされて中間PCM信号になる。最後に、ブロック3の「フォーマットBエンコーダ」において、そのPCM信号がフォーマットB信号に変換される。
見て取れるように、そのような実装は、CPU時間とRAMスペースを食う多くの複雑な演算につながる。フレーム整列されたトランスコードを実行する最適化されたトランスコーダでは、フィルタバンクおよび/または変換動作を除去することによって動作を単純化できる。これは次の条件が満たされれば可能である:
1)エンコーダおよびデコーダがフレーム整列されている。
2)フィルタバンドおよび/または変換動作が、T-1T=IとなるかまたはIに非常に近くなるようなものである。ここで、Iは恒等行列を指し、Tは時間領域からスペクトル領域への変換演算を指す。
1)エンコーダおよびデコーダがフレーム整列されている。
2)フィルタバンドおよび/または変換動作が、T-1T=IとなるかまたはIに非常に近くなるようなものである。ここで、Iは恒等行列を指し、Tは時間領域からスペクトル領域への変換演算を指す。
フレーム整列されたトランスコーダのある可能な最適化された実現が図2に示されている。
図2によれば、入力の符号化されたビットストリームがブロック4の「ハフマンデコード」でデコードされ、ブロック5の「再量子化」で再量子化される。結果として得られる信号はブロック6の「アンチエイリアス動作」においてエイリアス除去され、ブロック7の「MDCT」において変換されてブロック8の「フィルタバンク」に渡される。この時点で信号は中間pcm/wavフォーマットである。信号はさらにブロック9の「フィルタバンク」に、ブロック10の「MDCT」に、そしてさらにブロック11の「アンチエイリアス動作」に入力されてブロック14に影響する。これに加え、信号はブロック12の「FFT」に入力され、ブロック13の「音響心理学的モデル」を通過してブロッ14「レート‐ひずみループ」に行く。そこから、信号はブロック15の「量子化器」に入力され、ブロック16の「ハフマンエンコード」においてエンコードにかけられる。
図3では、ビットストリームに直接的に作用し、入力信号を出力シンボルの集合にマッピングするトランスコード方法が提供される。図3はごく単純化した動作の概観である。
入力の符号化されたビットストリームはブロック17の「ハフマンデコード」でデコードされ、ブロック18の「再量子化」で変換される。中間信号はブロック19の「周波数領域音響心理学モデル」に入力され、さらにブロック20の「レート‐ひずみループ」にも入力される。このブロック20は前記中間信号も受け取る。次いで、信号はブロック21の「量子化器」およびさらにブロック22の「ハフマンエンコード」にも入力される。
図3から見て取れるように、結果として得られる実装はなめらかで、計算量が少なく、フットプリントが小さく、図1および2の実装より高速である。
下記に、あるビットストリームから同じフォーマットの別のビットストリームへのオーディオコンテンツのトランスコードが記述される。使われる方法は、入力シンボルの出力シンボル集合への直接マッピングで、可能性としてはビットストリーム内から得られる制御データによってガイドされる。そのような方式は、デコーダをエンコーダと連結する標準的な方法に比べたときにより高速で、より低い複雑さをもつ。
図4は、このトランスコード方式の実装の例を示している。
入力の符号化されたビットストリームはブロック23の「ハフマンデコード」に、さらにブロック24の「マッピングアルゴリズム」に、そして最後にブロック25の「ハフマンエンコード」に入力される。
この例で使われるフォーマットはmp3フォーマットである。ビットストリーム1からの入力スペクトルデータの集合がハフマンデコードされたものは、第二のスペクトルデータの集合に直接マッピングされ、それが次いでハフマンエンコードされてビットストリーム2になる。
「マッピング」という表現は、スペクトルデータがいかなる仕方であれ変換し直されることがなく、単に規則の集合に従って第二のビットストリームに移されることを意味している。マッピングの一つの方法は、スペクトルデータに所定の因子を乗じることである。これについてはのちに与える特定の実施例においてより詳細に説明される。
直接マッピング法のある実施形態について、以下の例において詳細に述べることにする。mp3フォーマットから異なるビットレートだが同じmp3フォーマットへのトランスコードの場合を考える。
mp3フォーマットではフレーム中のデータは、2つの連続するグラニュールおよび1つまたは2つのチャネルに分割される(モノ/ステレオまたはジョイントステレオとして符号化される)。各グラニュールにおいて、スペクトル係数は量子化され、ハフマンエンコードされる。実数値のスペクトル係数を列ベクトルXrとして表すことにする。Xrは長さ576で、−1.0から1.0までの実数(real)値をとる。ベクトルXrは、サンプリング周波数およびウィンドウ種別に応じて、MP3仕様に従ったスケール因子バンドに分割される。長い窓には22のスケール因子バンドがあり、短い窓には13のスケール因子バンドがある。この例では、長い窓の場合に焦点を当てるが、短い窓の場合にもベクトルのグループ分けをしかるべく変更することによって容易に拡張されることができる。
スケール因子バンドbにおけるスペクトルデータをXr bで表すことにする。Xr=[Xr 0, Xr 1, ... Xr 21]である。スペクトル係数の量子化は、スケール因子バンドごとに次のように実行される:
式(1):
式(1):
αはスケール因子乗数で、エンコーダの選択に依存して0.5または1をとる。
φは他の定数および変数からなる。簡単のため、今のトランスコードの議論の目的ではそうした変数は考慮しないことにしよう。
量子化されたベクトルSqが本質的には達成される圧縮の量を決定する。Sqのより粗い量子化はより高い圧縮率だがより大量のノイズ誤差につながる。式(1)から観察されるように、より粗い量子化は、グローバル利得を上げるかスケール因子を減らすことによって達成できる。
フレーム整列されたトランスコードの場合、ビットストリーム1中の各フレームは、ビットストリーム2中の対応するフレームに時間的に関係しているので、トランスコードは、Ψが量子化パラメータの集合:
式(2)
Ψ={Sq, global_gain, scalefactors, α, φ}
を表すとして、ビットストリーム1のパラメータの集合Ψ1のビットストリーム12のパラメータの集合Ψ12への変換として表現できる:
より低いビットレートへのフレーム整列されたトランスコードを達成するため、Sq12が一般にSq1より小さい整数値をもつようなベクトル変換Sq1→Sq12が実行される必要がある。そうすることで、Ψ12はΨ1よりも少ないビット数を使って符号化でき、よってより高い圧縮率(より低いビットレート)につながりうる。
式(2)
Ψ={Sq, global_gain, scalefactors, α, φ}
を表すとして、ビットストリーム1のパラメータの集合Ψ1のビットストリーム12のパラメータの集合Ψ12への変換として表現できる:
より低いビットレートへのフレーム整列されたトランスコードを達成するため、Sq12が一般にSq1より小さい整数値をもつようなベクトル変換Sq1→Sq12が実行される必要がある。そうすることで、Ψ12はΨ1よりも少ないビット数を使って符号化でき、よってより高い圧縮率(より低いビットレート)につながりうる。
以下に、フレーム整列された場合の直接マッピングトランスコード方式を説明する。Ψ1からΨ12への変換は音響心理学的要求によって駆られる必要はないものとする。そのような方式は、パラメータの集合Ψ1中に存在しているすでにエンコードされたデータが使用できるのであれば可能でありうる。たとえば、ビットストリームのエンコードにおいて使われた量子化器の性質についての知識は、量子化されたスペクトルデータベクトルSqから得ることができる。Sq1は、Sq1内で利用可能な量子化情報に関係する規則の集合に基づいて、直接Sq12にマッピングされる。マッピングが整数領域で効率的に実行できるので、そのようなアルゴリズムの複雑さは非常に低い。整数から浮動小数点への変換、浮動小数点から整数への変換および浮動小数点演算が回避できるのである。図5の図はこの方式を記述している。
入力符号化ビットストリーム1がブロック26の「多重分離」に入力される。ここで信号が分割され、第一の信号であるスペクトルデータはブロック27の「ハフマンでコード」に入力され、第二の信号である「スケール因子、グローバル利得」は、ブロック27からのデコードされた信号とともにブロック28の「スケーリングおよびマッピング」に入力される。ブロック28は下記に述べるようにメモリ中に探索表を有していてもよい。多重分離器26からの第三の信号は「その他のビットストリームデータ」であり、これはブロック28に影響する。ブロック28はスケーリングおよびマッピングされたスペクトルデータをブロック29の「ハフマンエンコード」に送出する。ここでエンコードされたものが、ブロック30の「多重化」において、「その他のビットストリームデータ」およびブロック28から送出された「スケール因子、グローバル利得」と多重化される。
まず、式(1)から、Sq1をSr1に再スケーリングし、次いでそれを量子化して整数ベクトルSq12にする変換を、
式(3)
式(3)
α12=α1、φ12=φ1とおくと、次式が導かれる。
式(4)
まず非線形な再スケーリングSq1 b→Sr bを行い、次いで非線形な量子化Sr1 b→Sq12 bを行う標準的な方法は、Sq1 b→Sq12 bの直接的な再量子化を実行することによって、計算面で簡略化できる。その際は式(4)の線形関係を使う。
さらに、α、δgおよびδsが限られた範囲の整数値をとることから、λ(b)も制約された範囲の値を取ることがわかる。具体的には、δgのきざみごとにλ(b)は0.25増大し、δsのきざみごとにλ(b)はα減少し、このαは0.5か1に制約されている。
よって、λ(b)は集合(..., −0.5, −0.25, 0, 0.25, 0.5, 0.75, ...)の値をとる。さらに、実際にはλ(b)の有意な値を考えるとすれば、この値の集合はさらに小さくなる。λ(b)の値のこの有限な集合は、0から3の近傍範囲内の10ないし15個程度の値しか含まない。なぜそうなのかを理解するため、λ(b)<0ととる。この結果、Sq12 b>Sq1 bとなる。これは(平均的には)符号化すべきビット数がより多くなる。我々の目的はトランスコードされるビットレートを下げることなので、このシナリオは破棄できる。他方、大きな値、たとえばλ(b)=5を取ってみると、Sq12 b=nint(0.074Sq1 b)となり、Sq12 b≦20の範囲のすべての値はSq12 b≦1を導く。この場合のゆがみは我々の関心の領域外である。
整数から整数への変換Sq1 b→Sq12 bについての可能性の範囲を制約したことで、浮動小数点演算を完全に回避することが可能である。λ(b)が0ないし3の13通りの値に制約されているとすると、探索表の大きさは98,484要素となる(8207かける12、λ(b)=0はそれ自身にマッピングされる)。各マッピング要素の値は2バイトで保存でき、探索表について必要とされる合計メモリサイズは196,968バイトとなる。
探索表によって必要とされるメモリサイズは多くの方法で著しく縮小できる。一つの方法は、Sq1 bのほとんどの値は0から255までの範囲内にあると想定することである。これは、mp3でエンコードされたほとんどの素材から、この範囲外になるスペクトル係数がごく少数部分だけであることが観察されているので、合理的な想定である。この場合に必要とされる探索表のメモリサイズは3072バイトである。255を超える値をもつ少数部分については、著しいオーバーヘッドを被ることなく浮動小数点演算を実行することが可能である。
もう一つの代替的なハードウェア実装は、異なる処理経路を提供することである。メモリに変換変数を保存する代わりに、処理経路として実装されるのである。たとえば、メモリから値を見出す代わりに、λの異なる値については異なるハードウェア経路を設ける。
さらなる代替は、規則ベースのマッピングでSq12 bの値を計算するために式を使うことである。たとえば次のようなものである。
1≦Sq1 b≦3であれば、Sq12 b=Sq1 b−1
4≦Sq1 b≦7であれば、Sq12 b=Sq1 b−2
このトランスコーダ実装例では、変換Ψ12=T{Ψ1}はすべてのフレームについて一定に保たれる。マッピング変換の定義としては、δgを固定して、Sq1 b→Sq12 bをしかるべくマッピングするということが可能である。しかし、この実装は、非常に耳障りなゆがみおよび雑音をもったビットストリーム12につながる。この変換マップに対する改良が以下に提案される。
4≦Sq1 b≦7であれば、Sq12 b=Sq1 b−2
このトランスコーダ実装例では、変換Ψ12=T{Ψ1}はすべてのフレームについて一定に保たれる。マッピング変換の定義としては、δgを固定して、Sq1 b→Sq12 bをしかるべくマッピングするということが可能である。しかし、この実装は、非常に耳障りなゆがみおよび雑音をもったビットストリーム12につながる。この変換マップに対する改良が以下に提案される。
各グラニュールにおける量子化されたスペクトル係数はまずいくつかの強調(emphasis)領域に分割される。その境界はスケール因子バンドの境界と一致するものとする。図6の例では、係数は4つの領域R0、R1、R2、R3に分割されている。この図では、スペクトル係数の添え字が横軸で示されている。各領域はλ(b)の異なる値で変換される。ある領域でλ(b)の値がより大きいことは、より粗い再量子化を含意し、それは増大したゆがみおよび雑音に、よってより低い強調につながる。他方、λ(b)の値がより小さいことは、その領域でのスペクトル係数の再量子化に対してより大きな強調を置き、導入される誤差がより小さくなる。式(5)から、λ(b)がglobal_gainおよびscalefactor(b)の変化に依存することを想起する。global_gainはグラニュール全体に影響するので、強調は、各領域でδs(b)の異なる値を適用することによって選択される。
さまざまなオーディオ素材について、納得のいく堅牢さでの192kbpsでエンコードされたmp3オーディオのための変換は、次のように定義できる。
式(6)
本発明は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明のある実施形態の要素およびコンポーネントは、いかなる好適な方法で物理的、機能的および論理的に実装されてもよい。実際、機能性は単一のユニットで、複数のユニットで、あるいは他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、異なるユニットおよびプロセッサの間で物理的および機能的に分散されてもよい。
本発明について特定の実施形態との関連で記載してきたものの、ここに述べた特定の形に限定することは意図されていない。請求項において、「有する」の語は他の要素またはステップの存在を排除しない。さらに、個別に挙げられてはいても、複数の手段、要素または方法ステップはたとえば単一のユニットまたはプロセッサによって実装されてもよい。さらに、個別の特徴が異なる請求項に含められていても、それらが有利に組み合わせることは可能でありうるのであって、異なる請求項に含まれていることが、特徴の組み合わせが実現可能および/または有利でないことを含意するものではない。さらに、単数形での言及は複数を排除しない。よって、「ある」「第一の」「第二の」などといった言及は複数を除外するものではない。請求項に参照符号があったとしても、それは明確にするための例として与えられているにすぎず、いかなる形であれ請求項の範囲を限定するものと解釈してはならない。
上記において、本発明について特定の実施形態を参照しつつ記載してきた。しかし、本発明は記載された種々の実施形態に限定されるのではなく、本明細書を読む当業者には明らかであろうさまざまな仕方で修正および組み合わせをしてもよい。本発明は付属の特許請求の範囲によってのみ限定されるものである。
Claims (12)
- ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする方法であって、該トランスコードが、第一の信号からのシンボルの第二の信号のシンボルへの直接的なマッピングによって実行される方法。
- 前記マッピングが規則の集合に従って、たとえば量子化情報に関係する規則の集合に従って実行される、請求項1記載の方法。
- 前記トランスコードが、前記第一の信号中の情報を制御データとして使って実行され、該情報の例としてグローバル利得(global gain)、スケール因子(scalefactors)およびその他のビットレート情報(other bitrate information)が含まれる、請求項1記載の方法。
- 前記トランスコードが整数領域で実行される、請求項1記載の方法。
- 前記トランスコードが、ある第一のフォーマットから、より低いビットレートなどビットレートの異なる同じフォーマットへのトランスコードである、請求項1記載の方法。
- 前記フォーマットがMP3オーディオまたはAACオーディオである、請求項1記載の方法。
- 前記マッピングが、規則ベースマッピングにおいて探索表または式を使って実行される、請求項4記載の方法。
- λ(b)が値の有限の集合に制約され、たとえば0から3までの間の0.25きざみでの13通りの値に制約される、請求項8記載の方法。
- ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする、請求項1ないし9のうちいずれか一項記載の方法を実行する装置であって:
・第一の信号のシンボルの第二の信号のシンボルへの直接的なマッピングを実行するマッピングアルゴリズム回路を有する装置。 - 請求項1記載の方法を実行するためのコンピュータプログラムコードを有するコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04104172 | 2004-08-31 | ||
PCT/IB2005/052629 WO2006024977A1 (en) | 2004-08-31 | 2005-08-08 | Method and device for transcoding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008511852A true JP2008511852A (ja) | 2008-04-17 |
Family
ID=35482142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007529057A Pending JP2008511852A (ja) | 2004-08-31 | 2005-08-08 | トランスコードのための方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20070250308A1 (ja) |
EP (1) | EP1789955A1 (ja) |
JP (1) | JP2008511852A (ja) |
KR (1) | KR20070074546A (ja) |
CN (1) | CN101010729A (ja) |
WO (1) | WO2006024977A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014026089A (ja) * | 2012-07-26 | 2014-02-06 | Nec Corp | 音源ファイル管理装置、音源ファイル管理方法、及びそのプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100370437C (zh) * | 2005-09-30 | 2008-02-20 | 迈世亚(北京)科技有限公司 | 音乐数据转录的方法 |
JP4721355B2 (ja) * | 2006-07-18 | 2011-07-13 | Kddi株式会社 | 符号化データの符号化則変換方法および装置 |
EP1903559A1 (en) * | 2006-09-20 | 2008-03-26 | Deutsche Thomson-Brandt Gmbh | Method and device for transcoding audio signals |
US8185381B2 (en) * | 2007-07-19 | 2012-05-22 | Qualcomm Incorporated | Unified filter bank for performing signal conversions |
TWI374671B (en) * | 2007-07-31 | 2012-10-11 | Realtek Semiconductor Corp | Audio encoding method with function of accelerating a quantization iterative loop process |
EP2099027A1 (en) * | 2008-03-05 | 2009-09-09 | Deutsche Thomson OHG | Method and apparatus for transforming between different filter bank domains |
CN101572093B (zh) * | 2008-04-30 | 2012-04-25 | 北京工业大学 | 一种转码方法和装置 |
CN101588252B (zh) | 2008-05-23 | 2011-07-20 | 华为技术有限公司 | 一种多点会议的控制方法及装置 |
US8447591B2 (en) * | 2008-05-30 | 2013-05-21 | Microsoft Corporation | Factorization of overlapping tranforms into two block transforms |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
US20120163622A1 (en) * | 2010-12-28 | 2012-06-28 | Stmicroelectronics Asia Pacific Pte Ltd | Noise detection and reduction in audio devices |
US8489760B2 (en) * | 2011-03-31 | 2013-07-16 | Juniper Networks, Inc. | Media file storage format and adaptive delivery system |
US9798511B2 (en) * | 2014-10-29 | 2017-10-24 | Mediatek Inc. | Audio data transmitting method and data transmitting system |
FR3031862B1 (fr) * | 2015-01-16 | 2017-02-17 | Sagemcom Broadband Sas | Procede de transmission d'un flux de donnees utilisant un protocole de diffusion en direct. |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5387941A (en) * | 1991-06-14 | 1995-02-07 | Wavephore, Inc. | Data with video transmitter |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
US6718183B1 (en) * | 2001-06-05 | 2004-04-06 | Bellsouth Intellectual Property Corporation | System and method for reducing data quality degradation due to encoding/decoding |
US20030200548A1 (en) * | 2001-12-27 | 2003-10-23 | Paul Baran | Method and apparatus for viewer control of digital TV program start time |
JP2005515486A (ja) * | 2002-01-08 | 2005-05-26 | ディリチウム ネットワークス ピーティーワイ リミテッド | Celpによる音声符号間のトランスコーディング・スキーム |
CN1735927B (zh) * | 2003-01-09 | 2011-08-31 | 爱移通全球有限公司 | 用于高质量语音编码转换的方法和装置 |
US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
FR2867648A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques |
-
2005
- 2005-08-08 JP JP2007529057A patent/JP2008511852A/ja active Pending
- 2005-08-08 WO PCT/IB2005/052629 patent/WO2006024977A1/en active Application Filing
- 2005-08-08 US US11/573,919 patent/US20070250308A1/en not_active Abandoned
- 2005-08-08 EP EP05797968A patent/EP1789955A1/en not_active Withdrawn
- 2005-08-08 KR KR1020077004350A patent/KR20070074546A/ko not_active Application Discontinuation
- 2005-08-08 CN CNA2005800293035A patent/CN101010729A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014026089A (ja) * | 2012-07-26 | 2014-02-06 | Nec Corp | 音源ファイル管理装置、音源ファイル管理方法、及びそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101010729A (zh) | 2007-08-01 |
KR20070074546A (ko) | 2007-07-12 |
WO2006024977A1 (en) | 2006-03-09 |
EP1789955A1 (en) | 2007-05-30 |
US20070250308A1 (en) | 2007-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008511852A (ja) | トランスコードのための方法および装置 | |
TWI474316B (zh) | 使用具隨機存取點及多重預測參數集合能力的適應性分段技術之無損多聲道音訊編解碼器 | |
JP5599913B2 (ja) | 可逆マルチチャネル・オーディオ・コーデック | |
JP3354863B2 (ja) | ビット率の調節可能なオーディオデータ符号化/復号化方法及び装置 | |
JP2006048043A (ja) | オーディオデータの高周波数の復元方法及びその装置 | |
JP2010020346A (ja) | 音声信号および音楽信号を符号化する方法 | |
JP2005157390A (ja) | 付加情報の挿入されたmpeg−4bsacオーディオビットストリームの符号化方法および復号化方法ならびに符号化装置および復号化装置 | |
KR20060108520A (ko) | 오디오 데이터 부호화 및 복호화 장치와 방법 | |
JP2005534947A (ja) | 心理音響ベースで圧縮する際に形成されるノイズの許容可能な歪みに基づくスケールファクタのフィードフォワード予測 | |
TWI390502B (zh) | 編碼信號之處理方法 | |
KR20100089772A (ko) | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 | |
CN101484937A (zh) | 使用缓冲器调节对已预测编码的数据进行解码 | |
WO1995032499A1 (fr) | Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur | |
JP2006201785A (ja) | デジタル信号の符号化/復号化方法及びその装置並びに記録媒体 | |
CA2490064A1 (en) | Audio coding method and apparatus using harmonic extraction | |
JP2004289196A (ja) | ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム | |
JP2003523535A (ja) | 複数のデータ圧縮フォーマット間でのオーディオ信号の変換方法及び装置 | |
WO2010016270A1 (ja) | 量子化装置、符号化装置、量子化方法及び符号化方法 | |
JP2001044847A (ja) | 可逆符号化方法、可逆復号化方法、これらの装置及びその各プログラム記録媒体 | |
US20080133250A1 (en) | Method and Related Device for Improving the Processing of MP3 Decoding and Encoding | |
KR100300887B1 (ko) | 디지털 오디오 데이터의 역방향 디코딩 방법 | |
JP4627737B2 (ja) | デジタルデータ復号化装置 | |
Gerzon et al. | The MLP lossless compression system for PCM audio | |
JP4641272B2 (ja) | デジタルデータ復号化装置 | |
JPH0451100A (ja) | 音声情報圧縮装置 |