JP2008511852A

JP2008511852A - トランスコードのための方法および装置

Info

Publication number: JP2008511852A
Application number: JP2007529057A
Authority: JP
Inventors: ダブリュリー，ジュン; オーメン，ウェルネル; ボント，フランシスキュスエムイェーデ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-08-31
Filing date: 2005-08-08
Publication date: 2008-04-17
Also published as: CN101010729A; KR20070074546A; WO2006024977A1; EP1789955A1; US20070250308A1

Abstract

ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする方法および装置。該トランスコードは、異なるフォーマットの間で実行することも、ビットレートが異なる同じフォーマットの間で実行することもできる。そのようなフォーマットはMP3またはaacでありうる。

Description

本発明は、ある圧縮フォーマットで表されているオーディオまたはビデオ信号をあるもう一つの圧縮フォーマットで表されている別のオーディオまたはビデオ信号に、特にあるフォーマットからビットレートの異なる同じフォーマットにトランスコードするための方法および装置に関する。

現在、オーディオ符号化フォーマットにはMPEGレイヤーIII（mp3）、MPEG-AAC、WMAなどといった多くの異なる種類がある。また、（携帯型）オーディオプレーヤーがそうしたフォーマットのうち限られた集合しかサポートしていないこともよくある。しかも、各符号化フォーマットについて、オーディオ素材は種々のビットレートでエンコードできる。通常はより高いビットレートがよりよいオーディオ品質に対応するのである。これらの要因のため、しばしばフォーマットAからフォーマットBへのトランスコードすなわち変換を実行する必要が出てくる。一つの例は、AACフォーマットからmp3フォーマットへの変換であるが、これはより広くサポートされていることがある。

あるフォーマットから同じフォーマットの異なるビットレートに変換することが望ましい場合がある。これは通常、より高いビットレートから、品質は低いが記憶容量が少なくてすむ、より低いビットレートへのトランスコードのことである。その一例のシナリオでは、ユーザーは高ビットレートの楽曲を自分のPC、CDまたはDVDに保存している。それらの楽曲のいくつかを異なる品質の再生をもつハードウェア携帯型プレーヤーに移したい。そうした携帯型プレーヤーはしばしばメモリが高価で、よってより多くのコンテンツがはいるよう、保存する項目のビットレートが低いほうが好ましい。

同じ考察は、やはり種々のフォーマットを使って圧縮されるビデオ信号にもあてはまる。ビデオ信号をあるフォーマットから別のフォーマットに、あるいは同じフォーマットの異なるビットレートに変換する必要が生じうるのである。

トランスコードはデコーダとエンコーダの連結によって実行できる。これは単に、フォーマットAをストレートにデコードしてpcm/wavフォーマットにし、続いてエンコードすることによりフォーマットBまたは異なるビットレートのフォーマットAにされる。別の例では、楽曲をデータベースサーバーに保存するときには高ビットレートのAACフォーマットを使って高品質を保持する。その後ユーザーはそれらの楽曲をダウンロードでき、ダウンロードされる楽曲はその際、ユーザーの制御により、ダウンロード速度を高めるために伝送に先立ってより低いビットレートにトランスコードされる。

そのようなトランスコードはたとえばWO00/79770において記載されている（図８および13ページのテキスト参照）。そのようなデコーダとエンコーダの連結は、多大な計算上の複雑さに関わり、実装の複雑さが増すプロセスになる。この増大した複雑さは、そのソフトウェアの実装がより大きなメモリフットプリントおよびより長い実行時間を必要とすることになる。ハードウェア実装はより複雑な設計を必要とし、よってチップ面積が大きくなり、電力消費が増大する。連結法におけるトランスコードの速度は、エンコーダの速度とデコーダの速度によって制限される。トランスコードされる素材の品質は、デコーダとエンコーダのフレームの整列に依存しうるが、それは使用されるエンコーダ、デコーダおよびフォーマットによって変化する。

そのようなトランスコードにおいて計算努力を軽減する試みがある。US-A-5,530,750は、光磁気ディスクにおける記録のためのオーディオ信号を圧縮する方法を記載している。さらに、光磁気媒体からのすでに圧縮されたオーディオ信号をICカードに変換するときにさらなる圧縮が得られる。その際、光磁気媒体からの信号が読み込まれ、展開することなく直接にバッファメモリに供給される。圧縮されている信号は追加的な圧縮器によって処理され、それからICカード上に記録される。通常、スペクトル係数は逆直交変換され、次いでより長いフレーム長またはブロック長を用いて再直交変換される。しかしながら、フレーム長はあらゆる圧縮モードにおいて異なっている必要はなく、その場合には直交変換および再変換は必要とされない。本願の優先日は1993年であるが、それ以来、MP3およびその他のフォーマットの定義により、圧縮の分野では多大な業績があった。

さらに、WO01/61686は、フレームがサブバンドデータを含む第一のデータ圧縮フォーマットの第一のオーディオ信号を、第二のデータ圧縮フォーマットの第二のオーディオデータに変換する方法を開示している。その際、第二のデータ圧縮フォーマットでエンコードするのに先立って第一のオーディオ信号を完全にデコードする必要なしに、第一のオーディオ信号中のサブバンドデータが第二のオーディオ信号を直接または間接に構築するために使われる。

より低いビットレートへのトランスコードのための規則を確立しなければならないことは認識されている。さもなければ、データをどのように再量子化するのか、すなわち第二の量子化器のために何を選択すべきかを知りようがない。現状技術では、この規則は通常、音響心理学的またはビット割り当てモデルに基づいている。実験および観測において、音響心理学モデルなしには、単に任意に第二の量子化器を想定するだけでは納得のいくトランスコード品質を得ることはできないことが証明されている。

本発明の目的は、完全なデコーダおよびエンコーダの直接的な連結よりも実装の複雑さの少ないような、圧縮されたオーディオ信号またはビデオ信号をトランスコードするための方法および装置を提供することである。

前記目的およびその他の目的を達成するため、ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする方法が提供される。その方法では、トランスコードは第一の信号フォーマットからのシンボルの第二の信号フォーマットのシンボルへの直接的なマッピングによって実行される。

ある実施形態では、マッピングは、量子化情報に関係する一組の規則に従って実行されうる。トランスコードは、前記第一のオーディオ信号フォーマット中の情報を制御データとして使って実行されうる。その情報とはたとえば、グローバル利得（global gain）、スケール因子（scalefactors）およびその他のビットレート情報である。トランスコードは整数領域で実行されうる。トランスコードは、第一のフォーマットからビットレートの異なる、たとえばより低いビットレートの同じフォーマットへと行われうる。フォーマットはMP3オーディオまたはAACオーディオでありうる。

もう一つの実施形態では、マッピングは探索表を使って実行される。トランスコードは次の式を使って実行されうる：

S_q ^bはスケール因子バンド（scalefactor band）bにおける量子化された（quantized）スペクトルデータのベクトルであり、添え字「1」は第一のオーディオ信号を、添え字「12」は第二のオーディオ信号を指す。この実施形態では、λ(b)は値の有限の集合、たとえば0から3まで（両端含む）の0.25きざみでの13通りの値に制限されうる。

もう一つの側面では、本発明は、ある圧縮フォーマットからの第一のオーディオ信号をもう一つの圧縮フォーマットをもつ第二のオーディオ信号にトランスコードするための上記の方法を実行するための装置をなす。本装置は、第一のオーディオ信号からのシンボルの第二のオーディオ信号のシンボルへの直接的なマッピングを実行するためのマッピングアルゴリズム回路を有しうる。さらに、本装置は、前記トランスコードが上記の式を使って実行され、前記マッピングのために使われるべきトランスコード値を保存するメモリを有しうる。

あるさらなる側面によれば、本発明は上記の方法ステップを実行するためのコンピュータプログラムコードを含むコンピュータプログラムプロダクトをなしうる。

本発明のさらなる目的、特徴および利点は、付属の図面とともに参照される、本発明の実施形態の以下の詳細な記載から明らかとなるであろう。

オーディオ圧縮方式においては、入力pcm/wavデータは通例周波数領域に変換され、そのスペクトルデータが不可逆的に量子化される。MPEG1レイヤー1/2のようなフォーマットについては線形だが、mp3およびaacのようなフォーマットについては音響心理学的モデルに基づいて非線形である。量子化されたスペクトルデータは次いで可逆的にハフマンエンコードされ、データはさらに圧縮される。ハフマン符号化は、統計的により頻繁に生起するデータにはより少ないビット数を割り当て、それほど頻繁に生起しないデータにはより多いビット数を割り当てる圧縮技術である。

本発明は、入力シンボルから出力シンボルへの直接的なマッピングを適用する。オーディオの背景では、こうしたシンボルは量子化された変換係数を指す。マッピングは固定でも良いし、あるいはビットストリーム中で利用可能なその他の情報によって制御されてもよい。

本発明は、複雑さ、速度および品質というトランスコードの３つのポイントについて取り組んでいる。直接的なマッピング法を使うことによって、トランスコーダの実装の複雑さは、連結法に比べて大幅に軽減される。これは、図２ないし図４の一連の図面において示されるように、エンコーダおよびデコーダの動作の一部が必要とされないからである。

何らかの種類の音響心理学的またはビット割り当てモデルを使うとき、音響心理学的／ビット割り当て測度を提供するためには係数のスケーリングし直しが必要になるが、これは浮動小数点演算を含意する。さらに、非線形な量子化およびスケーリング（スケール因子）を使う際には、整数‐浮動‐整数の変換を介した二段階の再量子化が想定される。本発明に基づく方法は、トランスコードのための整数から整数の規則集合を定義することによって、音響心理学的モデルの使用をなくす。厳密な定義規則集合は、オーディオまたはビデオ素材が異なれば変わってくるべきで、トランスコードされた品質に影響をもつ。

さらに、浮動小数点演算は直接的なマッピング法を使うことによって回避できる。トランスコード速度も、計算演算が減る結果として大幅に改善される。制御された直接マッピングを使うことにより、トランスコードされた素材のオーディオ品質がフレーム整列された連結法よりもよくなりうる。

さらに詳細に説明すると、デコーダおよびエンコーダを連結する既知の方法を使ったトランスコード動作が図１に示されている。フォーマットAから同じフォーマットA（この場合、mp3のフォーマットA）へのトランスコードのためのさまざまなデコードおよびエンコード動作がブロックとして示されている。図１において、ブロック１は「フォーマットAエンコーダ」で、入力のpcm/wav信号をフォーマットAの信号に変換する。フォーマットA信号はブロック２の「フォーマットAデコーダ」でデコードされて中間PCM信号になる。最後に、ブロック３の「フォーマットBエンコーダ」において、そのPCM信号がフォーマットB信号に変換される。

見て取れるように、そのような実装は、CPU時間とRAMスペースを食う多くの複雑な演算につながる。フレーム整列されたトランスコードを実行する最適化されたトランスコーダでは、フィルタバンクおよび／または変換動作を除去することによって動作を単純化できる。これは次の条件が満たされれば可能である：
１）エンコーダおよびデコーダがフレーム整列されている。
２）フィルタバンドおよび／または変換動作が、T^-1T＝IとなるかまたはIに非常に近くなるようなものである。ここで、Iは恒等行列を指し、Tは時間領域からスペクトル領域への変換演算を指す。

フレーム整列されたトランスコーダのある可能な最適化された実現が図２に示されている。

図２によれば、入力の符号化されたビットストリームがブロック４の「ハフマンデコード」でデコードされ、ブロック５の「再量子化」で再量子化される。結果として得られる信号はブロック６の「アンチエイリアス動作」においてエイリアス除去され、ブロック７の「MDCT」において変換されてブロック８の「フィルタバンク」に渡される。この時点で信号は中間pcm/wavフォーマットである。信号はさらにブロック９の「フィルタバンク」に、ブロック１０の「MDCT」に、そしてさらにブロック１１の「アンチエイリアス動作」に入力されてブロック１４に影響する。これに加え、信号はブロック１２の「FFT」に入力され、ブロック１３の「音響心理学的モデル」を通過してブロッ１４「レート‐ひずみループ」に行く。そこから、信号はブロック１５の「量子化器」に入力され、ブロック１６の「ハフマンエンコード」においてエンコードにかけられる。

図３では、ビットストリームに直接的に作用し、入力信号を出力シンボルの集合にマッピングするトランスコード方法が提供される。図３はごく単純化した動作の概観である。

入力の符号化されたビットストリームはブロック１７の「ハフマンデコード」でデコードされ、ブロック１８の「再量子化」で変換される。中間信号はブロック１９の「周波数領域音響心理学モデル」に入力され、さらにブロック２０の「レート‐ひずみループ」にも入力される。このブロック２０は前記中間信号も受け取る。次いで、信号はブロック２１の「量子化器」およびさらにブロック２２の「ハフマンエンコード」にも入力される。

図３から見て取れるように、結果として得られる実装はなめらかで、計算量が少なく、フットプリントが小さく、図１および２の実装より高速である。

下記に、あるビットストリームから同じフォーマットの別のビットストリームへのオーディオコンテンツのトランスコードが記述される。使われる方法は、入力シンボルの出力シンボル集合への直接マッピングで、可能性としてはビットストリーム内から得られる制御データによってガイドされる。そのような方式は、デコーダをエンコーダと連結する標準的な方法に比べたときにより高速で、より低い複雑さをもつ。

図４は、このトランスコード方式の実装の例を示している。

入力の符号化されたビットストリームはブロック２３の「ハフマンデコード」に、さらにブロック２４の「マッピングアルゴリズム」に、そして最後にブロック２５の「ハフマンエンコード」に入力される。

この例で使われるフォーマットはmp3フォーマットである。ビットストリーム１からの入力スペクトルデータの集合がハフマンデコードされたものは、第二のスペクトルデータの集合に直接マッピングされ、それが次いでハフマンエンコードされてビットストリーム２になる。

「マッピング」という表現は、スペクトルデータがいかなる仕方であれ変換し直されることがなく、単に規則の集合に従って第二のビットストリームに移されることを意味している。マッピングの一つの方法は、スペクトルデータに所定の因子を乗じることである。これについてはのちに与える特定の実施例においてより詳細に説明される。

直接マッピング法のある実施形態について、以下の例において詳細に述べることにする。mp3フォーマットから異なるビットレートだが同じmp3フォーマットへのトランスコードの場合を考える。

mp3フォーマットではフレーム中のデータは、２つの連続するグラニュールおよび１つまたは２つのチャネルに分割される（モノ／ステレオまたはジョイントステレオとして符号化される）。各グラニュールにおいて、スペクトル係数は量子化され、ハフマンエンコードされる。実数値のスペクトル係数を列ベクトルX_rとして表すことにする。X_rは長さ576で、−1.0から1.0までの実数（real）値をとる。ベクトルX_rは、サンプリング周波数およびウィンドウ種別に応じて、MP3仕様に従ったスケール因子バンドに分割される。長い窓には22のスケール因子バンドがあり、短い窓には13のスケール因子バンドがある。この例では、長い窓の場合に焦点を当てるが、短い窓の場合にもベクトルのグループ分けをしかるべく変更することによって容易に拡張されることができる。

スケール因子バンドbにおけるスペクトルデータをX_r ^bで表すことにする。X_r＝[X_r ⁰, X_r ¹, ... X_r ²¹]である。スペクトル係数の量子化は、スケール因子バンドごとに次のように実行される：
式（１）：

ここで、
S_q ^bはスケール因子バンドbにおける量子化された（quantized）スペクトルデータのベクトルで、0から8206までの正の整数値をとる。

αはスケール因子乗数で、エンコーダの選択に依存して0.5または1をとる。

φは他の定数および変数からなる。簡単のため、今のトランスコードの議論の目的ではそうした変数は考慮しないことにしよう。

量子化されたベクトルS_qが本質的には達成される圧縮の量を決定する。S_qのより粗い量子化はより高い圧縮率だがより大量のノイズ誤差につながる。式（１）から観察されるように、より粗い量子化は、グローバル利得を上げるかスケール因子を減らすことによって達成できる。

フレーム整列されたトランスコードの場合、ビットストリーム１中の各フレームは、ビットストリーム２中の対応するフレームに時間的に関係しているので、トランスコードは、Ψが量子化パラメータの集合：
式（２）
Ψ＝｛S_q, global_gain, scalefactors, α, φ｝
を表すとして、ビットストリーム１のパラメータの集合Ψ₁のビットストリーム１２のパラメータの集合Ψ₁₂への変換として表現できる：
より低いビットレートへのフレーム整列されたトランスコードを達成するため、S_q12が一般にS_q1より小さい整数値をもつようなベクトル変換S_q1→S_q12が実行される必要がある。そうすることで、Ψ₁₂はΨ₁よりも少ないビット数を使って符号化でき、よってより高い圧縮率（より低いビットレート）につながりうる。

以下に、フレーム整列された場合の直接マッピングトランスコード方式を説明する。Ψ₁からΨ₁₂への変換は音響心理学的要求によって駆られる必要はないものとする。そのような方式は、パラメータの集合Ψ₁中に存在しているすでにエンコードされたデータが使用できるのであれば可能でありうる。たとえば、ビットストリームのエンコードにおいて使われた量子化器の性質についての知識は、量子化されたスペクトルデータベクトルS_qから得ることができる。S_q1は、S_q1内で利用可能な量子化情報に関係する規則の集合に基づいて、直接S_q12にマッピングされる。マッピングが整数領域で効率的に実行できるので、そのようなアルゴリズムの複雑さは非常に低い。整数から浮動小数点への変換、浮動小数点から整数への変換および浮動小数点演算が回避できるのである。図５の図はこの方式を記述している。

入力符号化ビットストリーム１がブロック２６の「多重分離」に入力される。ここで信号が分割され、第一の信号であるスペクトルデータはブロック２７の「ハフマンでコード」に入力され、第二の信号である「スケール因子、グローバル利得」は、ブロック２７からのデコードされた信号とともにブロック２８の「スケーリングおよびマッピング」に入力される。ブロック２８は下記に述べるようにメモリ中に探索表を有していてもよい。多重分離器２６からの第三の信号は「その他のビットストリームデータ」であり、これはブロック２８に影響する。ブロック２８はスケーリングおよびマッピングされたスペクトルデータをブロック２９の「ハフマンエンコード」に送出する。ここでエンコードされたものが、ブロック３０の「多重化」において、「その他のビットストリームデータ」およびブロック２８から送出された「スケール因子、グローバル利得」と多重化される。

まず、式（１）から、S_q1をS_r1に再スケーリングし、次いでそれを量子化して整数ベクトルS_q12にする変換を、
式（３）

となるように行うことによって、変換Ψ₁₂＝T{Ψ₁}を導くことができる。

α₁₂＝α₁、φ₁₂＝φ₁とおくと、次式が導かれる。

式（４）

この方程式で使われている量子化器の関係および変数は、他のフォーマットのために適宜調整することができる。

まず非線形な再スケーリングS_q1 ^b→S_r ^bを行い、次いで非線形な量子化S_r1 ^b→S_q12 ^bを行う標準的な方法は、S_q1 ^b→S_q12 ^bの直接的な再量子化を実行することによって、計算面で簡略化できる。その際は式（４）の線形関係を使う。

さらに、α、δ_gおよびδ_sが限られた範囲の整数値をとることから、λ(b)も制約された範囲の値を取ることがわかる。具体的には、δ_gのきざみごとにλ(b)は0.25増大し、δ_sのきざみごとにλ(b)はα減少し、このαは0.5か1に制約されている。

よって、λ(b)は集合(..., −0.5, −0.25, 0, 0.25, 0.5, 0.75, ...)の値をとる。さらに、実際にはλ(b)の有意な値を考えるとすれば、この値の集合はさらに小さくなる。λ(b)の値のこの有限な集合は、0から3の近傍範囲内の10ないし15個程度の値しか含まない。なぜそうなのかを理解するため、λ(b)＜0ととる。この結果、S_q12 ^b＞S_q1 ^bとなる。これは（平均的には）符号化すべきビット数がより多くなる。我々の目的はトランスコードされるビットレートを下げることなので、このシナリオは破棄できる。他方、大きな値、たとえばλ(b)＝5を取ってみると、S_q12 ^b＝nint(0.074S_q1 ^b)となり、S_q12 ^b≦20の範囲のすべての値はS_q12 ^b≦1を導く。この場合のゆがみは我々の関心の領域外である。

整数から整数への変換S_q1 ^b→S_q12 ^bについての可能性の範囲を制約したことで、浮動小数点演算を完全に回避することが可能である。λ(b)が0ないし3の13通りの値に制約されているとすると、探索表の大きさは98,484要素となる（8207かける12、λ(b)＝0はそれ自身にマッピングされる）。各マッピング要素の値は2バイトで保存でき、探索表について必要とされる合計メモリサイズは196,968バイトとなる。

探索表によって必要とされるメモリサイズは多くの方法で著しく縮小できる。一つの方法は、S_q1 ^bのほとんどの値は0から255までの範囲内にあると想定することである。これは、mp3でエンコードされたほとんどの素材から、この範囲外になるスペクトル係数がごく少数部分だけであることが観察されているので、合理的な想定である。この場合に必要とされる探索表のメモリサイズは3072バイトである。255を超える値をもつ少数部分については、著しいオーバーヘッドを被ることなく浮動小数点演算を実行することが可能である。

もう一つの代替的なハードウェア実装は、異なる処理経路を提供することである。メモリに変換変数を保存する代わりに、処理経路として実装されるのである。たとえば、メモリから値を見出す代わりに、λの異なる値については異なるハードウェア経路を設ける。

さらなる代替は、規則ベースのマッピングでS_q12 ^bの値を計算するために式を使うことである。たとえば次のようなものである。

1≦S_q1 ^b≦3であれば、S_q12 ^b＝S_q1 ^b−1
4≦S_q1 ^b≦7であれば、S_q12 ^b＝S_q1 ^b−2
このトランスコーダ実装例では、変換Ψ₁₂＝T{Ψ₁}はすべてのフレームについて一定に保たれる。マッピング変換の定義としては、δ_gを固定して、S_q1 ^b→S_q12 ^bをしかるべくマッピングするということが可能である。しかし、この実装は、非常に耳障りなゆがみおよび雑音をもったビットストリーム12につながる。この変換マップに対する改良が以下に提案される。

各グラニュールにおける量子化されたスペクトル係数はまずいくつかの強調（emphasis）領域に分割される。その境界はスケール因子バンドの境界と一致するものとする。図６の例では、係数は４つの領域R₀、R₁、R₂、R₃に分割されている。この図では、スペクトル係数の添え字が横軸で示されている。各領域はλ(b)の異なる値で変換される。ある領域でλ(b)の値がより大きいことは、より粗い再量子化を含意し、それは増大したゆがみおよび雑音に、よってより低い強調につながる。他方、λ(b)の値がより小さいことは、その領域でのスペクトル係数の再量子化に対してより大きな強調を置き、導入される誤差がより小さくなる。式（５）から、λ(b)がglobal_gainおよびscalefactor(b)の変化に依存することを想起する。global_gainはグラニュール全体に影響するので、強調は、各領域でδ_s(b)の異なる値を適用することによって選択される。

さまざまなオーディオ素材について、納得のいく堅牢さでの192kbpsでエンコードされたmp3オーディオのための変換は、次のように定義できる。

式（６）

同様に、他の変換マップを定義することもできる。入力オーディオ素材に応じて、たとえばビットレート情報を使って、変換マップを変えることも可能である。

本発明は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明のある実施形態の要素およびコンポーネントは、いかなる好適な方法で物理的、機能的および論理的に実装されてもよい。実際、機能性は単一のユニットで、複数のユニットで、あるいは他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、異なるユニットおよびプロセッサの間で物理的および機能的に分散されてもよい。

本発明について特定の実施形態との関連で記載してきたものの、ここに述べた特定の形に限定することは意図されていない。請求項において、「有する」の語は他の要素またはステップの存在を排除しない。さらに、個別に挙げられてはいても、複数の手段、要素または方法ステップはたとえば単一のユニットまたはプロセッサによって実装されてもよい。さらに、個別の特徴が異なる請求項に含められていても、それらが有利に組み合わせることは可能でありうるのであって、異なる請求項に含まれていることが、特徴の組み合わせが実現可能および／または有利でないことを含意するものではない。さらに、単数形での言及は複数を排除しない。よって、「ある」「第一の」「第二の」などといった言及は複数を除外するものではない。請求項に参照符号があったとしても、それは明確にするための例として与えられているにすぎず、いかなる形であれ請求項の範囲を限定するものと解釈してはならない。

上記において、本発明について特定の実施形態を参照しつつ記載してきた。しかし、本発明は記載された種々の実施形態に限定されるのではなく、本明細書を読む当業者には明らかであろうさまざまな仕方で修正および組み合わせをしてもよい。本発明は付属の特許請求の範囲によってのみ限定されるものである。

トランスコードを実行するために連結された従来技術のエンコーダおよびデコーダのブロック概略図である。 mp3からmp3へのトランスコード動作を開示するブロック概略図である。フレーム整列されている場合のトランスコーダの実現のブロック概略図である。本発明に基づくビットストリームトランスコーダのブロック概略図である。ビットストリームからのデータのマッピングのより詳細なブロック図を示す、図４のトランスコーダのブロック概略図である。グラニュール内のスペクトルデータがいくつかの強調領域に分割されたところを示す図である。

Claims

ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする方法であって、該トランスコードが、第一の信号からのシンボルの第二の信号のシンボルへの直接的なマッピングによって実行される方法。
前記マッピングが規則の集合に従って、たとえば量子化情報に関係する規則の集合に従って実行される、請求項１記載の方法。
前記トランスコードが、前記第一の信号中の情報を制御データとして使って実行され、該情報の例としてグローバル利得（global gain）、スケール因子（scalefactors）およびその他のビットレート情報（other bitrate information）が含まれる、請求項１記載の方法。
前記トランスコードが整数領域で実行される、請求項１記載の方法。
前記トランスコードが、ある第一のフォーマットから、より低いビットレートなどビットレートの異なる同じフォーマットへのトランスコードである、請求項１記載の方法。
前記フォーマットがMP3オーディオまたはAACオーディオである、請求項１記載の方法。
前記マッピングが、規則ベースマッピングにおいて探索表または式を使って実行される、請求項４記載の方法。
S_q ^bがスケール因子バンドbにおける量子化されたスペクトルデータのベクトルであり、添え字「1」が前記第一の信号、添え字「12」が前記第二の信号を指すものとして、前記トランスコードが、式

を使って実行される、請求項１ないし７のうちいずれか一項記載の方法。
λ(b)が値の有限の集合に制約され、たとえば0から3までの間の0.25きざみでの13通りの値に制約される、請求項８記載の方法。
ある圧縮フォーマットで表されている第一のオーディオ信号またはビデオ信号をもう一つの圧縮フォーマットで表されている第二のオーディオ信号またはビデオ信号にトランスコードする、請求項１ないし９のうちいずれか一項記載の方法を実行する装置であって：
・第一の信号のシンボルの第二の信号のシンボルへの直接的なマッピングを実行するマッピングアルゴリズム回路を有する装置。
請求項１０記載の装置であって、前記マッピングのために使われるべきトランスコードの値を保存するためのメモリをさらに有しており、
S_q ^bがスケール因子バンドbにおける量子化されたスペクトルデータのベクトルであり、添え字「1」が前記第一の信号、添え字「12」が前記第二の信号を指すものとして、前記トランスコードが、式

を使って実行される装置。
請求項１記載の方法を実行するためのコンピュータプログラムコードを有するコンピュータプログラム。