JP2007524124A

JP2007524124A - トランスコーダ及びそのための符号変換方法

Info

Publication number: JP2007524124A
Application number: JP2006552729A
Authority: JP
Inventors: ウェーイェーオーメン，アルノルデュス; ヘーペースハイエルス，エリク; ミデリンク，マルクウェーテークレイン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-02-16
Filing date: 2005-01-31
Publication date: 2007-08-23
Also published as: TW200531554A; CN1918634A; EP1719117A1; US20080260048A1; KR20060132697A; WO2005078707A1

Abstract

トランスコーダは、符号化信号を表し、第１符号化データと第１パラメトリック拡張データとを有する入力データを表す受信機を有する。符号化データは、デコーダに供給される。デコーダの出力は、異なる符号化プロトコルに従って、又は異なる符号化パラメータにより第２符号化データを生成するエンコーダに供給される。第１パラメトリック拡張データは、第１パラメトリック拡張データから直接第２パラメトリック拡張データを生成する拡張データプロセッサに供給される。第２符号化データ及び第２パラメトリック拡張データは、個別に決定されたパラメトリック拡張データを有する符号変換信号を生成するため、出力プロセッサにおいて合成される。パラメトリック拡張データは、音声ビットストリームのＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）又はＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）拡張データであってもよい。品質の向上及び複雑さの低下は、パラメトリック拡張データの個別の符号変換によって達成される。

Description

本発明は、トランスコーダ及びそのための符号変換方法、特に音声信号の符号変換に関する。

近年、デジタル形式によるＡ／Ｖコンテンツの配布及び格納が実質的に増大している。このため、多数の符号化規格及びプロトコルが、ＭＰＥＧ−２音声及び映像符号化などを含め開発されてきた。

音声信号のデジタル符号化のための最も広く知られている符号化規格の１つは、ＭＰＥＧ−１レイヤ３規格であり、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ，ＩＳ１１１７２−３，ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ−ＣｏｄｉｎｇｏｆＭｏｖｉｎｇＰｉｃｔｕｒｅｓａｎｄＡｓｓｏｃｉａｔｅｄＡｕｄｉｏｆｏｒＤｉｇｉｔａｌＳｔｏｒａｇｅＭｅｄｉａａｔｕｐｔｏａｂｏｕｔ１．５Ｍｂｉｔ／ｓ，Ｐａｒｔ３：Ａｕｄｉｏ，ＭＰＥＧ−１，１９９２に記載され、一般にはＭＰ３と呼ばれている。例えば、ＭＰ３は、楽曲の３０又は４０メガバイトデジタルＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）ステレオ音声記録が、例えば、３又は４メガバイトＭＰ３ファイルに圧縮されることを可能にする。正確な圧縮レートは、ＭＰ３符号化音声の所望される品質に依存する。音声符号化規格の他の例は、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）であり、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１ＭＰＥＧ，ＩＳ１３８１８−７，ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ−ＧｅｎｅｒｉｃＣｏｄｉｎｇｏｆＭｏｖｉｎｇＰｉｃｔｕｒｅｓａｎｄＡｓｓｏｃｉａｔｅｄＡｕｄｉｏ，Ｐａｒｔ７：ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ，１９９７に記載されている。

ＭＰ３やＡＡＣなどの音声符号化及び圧縮技術は、比較的低いデータサイズであって高い品質の音声ファイルが、インターネットなどのデータネットワークを介し便利に配布されることを可能にする極めてビットレート効率的な音声変換を提供する。しかしながら、帯域幅要求を低減し、又は符号化された信号の品質を増大させるより効率的な技術が望まれる。例えば、ここ数年間のインターネットを介した音声ファイルの配布の増大は、ネットワークロードの蓄積をもたらした。さらに、より低い符号化データレートはさらに、ダウンロード時間を縮小させる。

このため、より効率的な符号化技術を提供するため、多くの研究がなされてきた。しかしながら、既存の符号化技術の広範な普及により、新たな技術はこれらの１以上と後方互換性を有することが好ましい。

音声信号の符号化のため近年開発された２つの技術は、ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）とＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）符号化として知られている。これらの技術は、後方互換的に何れかの音声符号化スキームに加えて適用することが可能である。具体的には、ＳＢＲとＰＳは、ＭＰ３やＡＡＣフォーマットなどにより音声信号を符号化するためのビットレートを低減するのに利用可能なエンハンスメントデータを生成する。このエンハンスメントデータは、ＭＰ３又はＡＡＣデータストリームの補助的なデータセクションに格納されてもよく、これにより、従来のデコーダが不可データを無視することを可能にする。

ＰＳでは、ステレオ音声符号化は、ＭＰ３やＡＡＣなどを用いてシングルモノ信号のみを符号化することによって達成される。さらに、ステレオイメージングパラメータがエンコーダにおいて決定され、独立した拡張データとしてデータストリームに含められる。デコーダでは、モノ符号化チャネルが、ステレオイメージングパラメータに依存した２つのチャネルについて異なってモノ符号化信号を処理することによってステレオチャネルに拡張される。これらのパラメータは、ＩＩＤ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＩｎｔｅｎｓｉｔｙＤｉｆｆｅｒｅｎｃｅ）、ＩＴＤ又はＩＰＤ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＴｉｍｅ又はＰｈａｓｅＤｉｆｆｅｒｅｎｃｅ）及びＩＣＣ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＣｒｏｓｓ−Ｃｏｒｒｅｌａｔｉｏｎ）から構成される。

ＳＢＲエンハンストエンコーダでは、符号化対象の音声信号の低周波数帯が抽出される。この低周波数帯は、その後、ＭＰ３やＡＡＣなどの適切な符号化技術を用いて符号化される。さらに、ＳＢＲエンコーダは、エンハンスメントデータとしてデータストリームに含まれる高周波数パラメータを生成する。従って、音声信号の高周波数帯は、低周波数帯と同様には符号化されず、パラメータ符号化される。具体的には、高帯域は、低周波数帯のトランスポジション（ｔｒａｎｓｐｏｓｉｔｉｏｎ）と共に、高周波数帯を生成するよう変換された信号がどのように処理されるべきか（例えば、エンベロープ変調（ｅｎｖｅｌｏｐｅｍｏｄｉｆｉｃａｔｉｏｎ）などによって）示すデータを有する高周波数パラメータによって生成される。ＳＢＲデコーダは、高周波数パラメータを抽出し、これらの高周波数パラメータに従って変換された低周波数帯を変調することによって高周波数帯を生成する。具体的には、ＳＢＲ高周波数パラメータは、以下の情報を含む。
・トランスポジション情報（すなわち、低周波数帯サブバンドと高周波数帯サブバンドとの間のマッピングを示す情報）
・スペクトルエンベロープデータスペクトルエンベロープデータは、ＳＢＲ処理後のサブバンドのエネルギー値を示す。
・ノイズフロアデータノイズフロアデータは、変換された信号の推定されるエネルギーと共に（この推定は、ＳＢＲデコーダにおいて計算される）、高帯域信号に追加されるノイズ量を示す。
・任意的に、欠落した高周波数コンポーネントに関する情報（例えば、高帯域に存在するが、低帯域には存在しないハーモニックなど）
ＳＢＲエンハンスメントを有するＭＰ３エンコーダは、ｍｐ３ＰＲＯエンコーダとして知られ、ＳＢＲエンハンスメントを有するＡＡＣエンコーダは、ａａｃＰｌｕｓ又はＨＥ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙ）−ＡＡＣエンコーダとして知られる。

ＳＢＲとＰＳの何れについても、エンハンスメントパラメータは、エンハンスメントパラメータのデータレートが補助的データセクションの利用可能なキャパシティを超えない限り、コア符号化スキームの補助的データ部分に効率的に符号化することが可能である。従来のデコーダは、この補助的データを処理せず、コア符号化データを復号化するのみである。ＳＢＲについて、これは帯域制限された信号であり、ＰＳについては、フル帯域モノラル信号である。このように、音声信号は品質の低下はあるが、従来のデコーダによって生成可能であるため、後方互換性が維持される。

各種符号化規格及び技術により、同一の符号化規格の異なる符号化設定又は符号化規格の間の符号変換を行うことはしばしば便利である。従って、フォーマットＡのビットストリームを異なる符号化パラメータ（ビットレート、サンプリングレートなど）による同一のフォーマットＡ又は異なるフォーマットＢに変換するため、符号変換が利用される。従来、トランスコーダは、入力信号がまず、入力データのフォーマットに従って復号され、その後、出力されたデータストリームのフォーマットに従って再符号化されるように、デコーダとエンコーダのカスケードを実現する。

一般に、これは品質ロスを招くであろう。符号変換の問題は、符号化スキームがＳＢＲ及び／又はＰＳなどのパラメトリック拡張と組み合わされるとき、さらに複雑となる。これらの拡張は可能な限り忠実に波形を表現することと比較して、パラメータ形式により信号の部分を表現するため、符号変換の結果として、より大きな品質の劣化が予想される。

さらに、符号変換の複雑さは、デコーダが入力される拡張データを処理しなければならず、エンコーダが新しい拡張データを生成しなければならないため、パラメトリック拡張により増大するかもしれない。これは、コスト増大、計算要求、遅延などをもたらすであろう。

従って、改良された符号変換が好適であり、特に、パフォーマンスの向上、品質の増大、データレートの低下及び／又は複雑さの低下を提供する符号変換が効果的となるであろう。

従って、本発明は、好ましくは、上記問題点の１以上を単独で又は何れかの組み合わせにより軽減、緩和又は解消しようとするものである。

本発明の第１の特徴によると、符号化信号を表し、第１パラメトリック拡張データを有する入力データを受信する手段と、前記第１パラメトリック拡張データから第２パラメトリック拡張データを決定する手段と、前記第２パラメトリック拡張データを有する符号変換データを生成する手段とを有することを特徴とするトランスコーダが提供される。

本発明の発明者は、符号変換データのパラメトリック拡張データが、入力データのパラメトリック拡張データから直接生成されてもよいということを理解していた。従って、本発明は、パラメトリック拡張データが復号化及び再符号化処理に含まれることを要求することなく、トランスコーダのパラメトリック拡張データの改良された処理を提供するかもしれない。従って、本発明は、トランスコーダの複雑さを低減することを可能にするかもしれない。あるいは、又はさらに、トランスコーダは、向上した品質のパラメトリック拡張データが決定され、復号化及び再符号化処理に関する品質低下を軽減又は回避可能であるため、符号変換データの品質を向上させるかもしれない。

パラメトリック拡張データは、符号化信号の品質を向上させるため、パラメトリックデコーダによって使用可能なパラメータデータを有するものであってもよい。パラメトリック拡張データは、音声符号化について、音声信号の完全又は特定部分を記述する音声信号ソースモデルに従って、パラメータを表すかもしれない。

例えば、第１及び／又は第２パラメトリック拡張データは、ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）プロセスなどの拡張データに対応し、例えば、トランスポジション情報（ｔｒａｎｓｐｏｓｉｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）、スペクトルエンベロープデータ（ｓｐｅｃｔｒａｌｅｎｖｅｌｏｐｅｄａｔａ）及び／又はノイズフロアデータ（ｎｏｉｓｅｆｌｏｏｒｄａｔａ）を含むものであってもよい。他の例として、第１及び／又は第２パラメトリック拡張データは、ＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）プロセスなどの拡張データに対応し、例えば、ＩＩＤ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＩｎｔｅｎｓｉｔｙＤｉｆｆｅｒｅｎｃｅ）データ、ＩＴＤ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）又はＩＰＤ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＰｈａｓｅＤｉｆｆｅｒｅｎｃｅ）データ、及び／又はＩＣＣ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＣｒｏｓｓ−Ｃｏｒｒｅｃｔｉｏｎ）データを含むようにしてもよい。第３の例として、第１及び／又は第２パラメトリック拡張データは、空間マルチチャネル拡張データに対応するかもしれない。例えば、符号化信号は後方互換的なステレオ信号であってもよく、パラメトリック拡張データは、センター及びリアチャネルなどのさらなる空間チャネルの生成を可能にするデータを有するものであってもよい。

入力データは入力データストリームであってもよく、符号変換データは符号変換データストリームであってもよい。

本発明の特徴によると、前記入力データはさらに、前記符号化信号に関する第１符号化データを有し、当該トランスコーダはさらに、第２符号化データを生成するため前記第１符号化データを符号変換する手段を有し、前記生成する手段は、前記第２符号化データと前記第２パラメトリック拡張データとを組み合わせることによって、前記符号変換データを生成するよう動作可能である。

第１符号化データは第１符号化規格に従って符号化されてもよく、第１符号化データのみに基づく独立した復号化を可能にするのに十分な情報を有するものであってもよい。第１パラメトリック拡張データは、符号化信号をエンハンスするのに適したデコーダによって利用可能なエンハンスメントデータであってもよい。第１符号化データとパラメトリック拡張データは、独立に符号変換されてもよく、これにより、符号変換プロセスの個別の最適化が可能となり、これによって、パフォーマンスの向上及び／又は複雑さの低減が可能となる。

本発明の異なる特徴によると、前記決定する手段は、前記第１パラメトリック拡張データの少なくともいくつかのデータ値をコピーすることによって、前記第２パラメトリックデータの少なくとも一部を決定するよう動作可能である。これにより、複雑さの小さな実現形態が可能となり、及び／又は符号変換データストリームの品質が向上するかもしれない。特に、少なくともいくつかのデータ値の複製は、符号変換の効果がこれらのデータ値に導入されることを回避するかもしれない。

本発明の異なる特徴によると、前記決定する手段は、前記第２パラメトリック拡張データのデータ値を量子化する手段を有する。当該決定する手段は、符号変換データストリームについて必要に応じてデータ値を再量子化するかもしれない。例えば、ビットレートは、第１パラメトリック拡張データについて使用されるものとは異なる（例えば、より粗い）量子化を第２パラメトリック拡張データの少なくとも１つのデータ値に利用することによって低減されるかもしれない。再量子化は、第１パラメトリック拡張データから第２パラメトリック拡張データにコピーされるデータ値に適用可能であり、あるいは、例えば、補間によって第１パラメトリック拡張データから導出されるデータ値に適用されてもよい。

本発明の異なる特徴によると、前記決定する手段は、前記第２パラメトリック拡張データのデータ値を符号化する手段を有する。当該決定する手段は、符号変換データストリームについて必要に応じてデータ値を再符号化するかもしれない。この再符号化は、第１パラメトリック拡張データから第２パラメトリック拡張データにコピーされるデータ値に適用可能であり、あるいは、例えば、補間によって第１パラメトリック拡張データから導出されるデータ値に適用されてもよい。

本発明の異なる特徴によると、前記決定する手段は、前記第１パラメトリック拡張データのパラメトリック拡張データ値の間の補間によって、前記第２パラメトリックデータの少なくとも一部を決定するよう動作可能である。これは、符号変換出力ストリームに適した第２パラメトリック拡張データを決定する複雑さの低い手段を提供する。「補間」という用語は、補間と外挿の両方を含むようここでは使用されている。

本発明の異なる特徴によると、前記決定する手段は、前記第１パラメトリック拡張データの一時的データを特定し、前記一時的データに応答して、前記第２パラメトリック拡張データを生成する手段を有する。決定された一時的データは、例えば、一時的データ値であってもよく、あるいは一時的データ位置であってもよい。これは、符号変換データの品質を向上させ、符号化信号と符号変換出力ストリームとの間のより密接な対応をもたらすかもしれない。一時的データ値は、符号化信号の突然の変化に対応した入力データに含まれてもよい。具体的には、第１パラメトリック拡張データは、符号化信号の特性に応じたランダムな期間に発生する一時的値に加えて、規則的に、実質的に定期的に発生するデータ値を有するかもしれない。一時的値は、例えば、補間などによって第２パラメトリック拡張データに含まれるデータ値を計算するのに利用されてもよい。

本発明の異なる特徴によると、前記決定する手段は、少なくとも１つの一時的データパラメータを前記第２パラメトリック拡張データに含めるよう動作可能である。これは、一時的値に構成される情報が、より高い品質をもたらす符号変換データに保持されることを可能にし、及び／又は一時的値を有するパラメトリック拡張データの低い複雑さの符号変換を提供するかもしれない。

本発明の異なる特徴によると、前記決定する手段は、前記第２パラメトリック拡張データを決定する前に、前記第１パラメトリック拡張データをフィルタリングする手段を有する。これは、符号変換データの品質を向上させ、補間処理に関するローパスフィルタリングを補償することによって、高周波数パフォーマンスを特に向上させるかもしれない。

本発明の異なる特徴によると、前記入力データ及び符号変換データは、非同期フレーム構成を有し、前記第２パラメトリック拡張データを決定する手段は、前記第１パラメトリック拡張データの第１フレームの第１データ値及び前記第１パラメトリック拡張データの第２フレームの第２データ値に応答して、前記符号変換データのフレームに関する少なくとも１つのデータ値を決定するよう動作可能である。これは、非同期フレーム構成を有する符号化フォーマット間の低い複雑さ、効率的及び／又は高い品質の符号変換を提供する。入力データと符号変換データの非同期フレーム構成は、特に異なるフレーム長を有するようにしてもよい。

本発明の異なる特徴によると、前記決定する手段は、少なくとも前記第１データ値と前記第２データ値との間の補間によって、前記少なくとも１つのデータ値を決定するよう動作可能である。これは、符号変換出力ストリームに適した第２パラメトリック拡張データを決定する低い複雑さの手段を提供する。「補間」という用語は、補間と外挿の両方を含むようここでは使用されている。

本発明の異なる特徴によると、前記第１データ値は、複数の第１周波数サブバンドに関する複数のサブ値を有し、前記第２データ値は、複数の第２周波数サブバンドに関する複数のサブ値を有し、前記決定する手段は、複数の第３周波数サブバンドに関する複数のサブ値を有するよう前記少なくとも１つのデータ値を決定するよう動作可能である。これは、符号変換出力ストリームに適した第２パラメトリック拡張データを決定する低い複雑さの手段を提供する。

本発明の異なる特徴によると、前記複数の第１、第２及び第３サブバンドは、同数の周波数サブバンドを有する。これは、符号変換出力ストリームに適した第２パラメトリック拡張データを決定する低い複雑さの手段を提供する。これは、符号変換出力ストリームに適した第２パラメトリック拡張データを決定する低い複雑さの手段を提供する。

本発明の異なる特徴によると、前記複数の第１サブバンドは、前記複数の第２サブバンドより多くの周波数サブバンドを有し、前記複数の第３サブバンドは、前記複数の第１サブ何度と同数の周波数サブバンドを有する。これは、符号変換出力ストリームに適した第２パラメトリック拡張データを決定する低い複雑さの手段を提供する。

第１及び／又は第２パラメトリック拡張データは、ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）パラメトリック拡張データ及び／又はＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）パラメトリック拡張データを有する。

本発明の異なる特徴によると、パラメトリック拡張データは、符号変換ビットストリームの補助的データセクションに含まれる。これは、後方互換性を提供するかもしれない。パラメトリック拡張データを利用することができない従来のデコーダは、補助的データセクションを無視することによって、符号変換ビットストリームを依然として復号するかもしれない。

好ましくは、前記符号化信号は、音声信号である。

本発明の第２の特徴によると、符号化信号を表し、第１パラメトリック拡張データを有する入力データを受信するステップと、前記第１パラメトリック拡張データから第２パラメトリック拡張データを決定するステップと、前記第２パラメトリック拡張データを有する符号変換データを生成するステップとを有することを特徴とする符号変換方法が提供される。

本発明の上記及び他の特徴、機能及び効果は、以降に記載される実施例を参照することにより明らかにされるであろう。

以下の説明は、音声トランスコーダに適用可能な本発明の実施例、特にＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）又はＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）パラメトリック拡張データを有する入出力信号間の符号変換のための音声トランスコーダに着目する。しかしながら、本発明はこれらの実施例に限定されるものではなく、他の多数のトランスコーダ及び拡張データに適用可能であるということは理解されるであろう。

図１は、本発明の実施例によるトランスコーダ１００のブロック図を示す。

本実施例によると、パラメトリック拡張データの符号変換に関する品質劣化は、入力データのパラメトリック拡張データから出力符号変換されたデータのパラメトリック拡張データを直接生成することによって、軽減又は緩和されるかもしれない。当該実施例では、入力データはさらに、与えられた符号化プロトコルに従って符号化された信号に対応する符号化データを有する。本実施例では、パラメトリック拡張データは、復号された信号の品質を向上させるため、適切なエンコーダによって使用可能なエンハンスメントデータである。例えば、この符号化データは、ＭＰ３やＡＡＣなどの音声符号化規格に従って符号化された信号を有するかもしれず、パラメトリック拡張データは、ＳＢＲ及び／又はＰＳエンハンスメントデータを有するかもしれない。

具体的には、トランスコーダ１００は、符号化信号とパラメトリック拡張データとを有する入力データストリームを受信する受信機１０１を有する。受信機１０１は、入力データストリームを逆多重化し、入力パラメトリック拡張データと入力符号化データを分離するよう動作可能である。

受信機１０１は、入力符号化データが供給されるデコーダ１０３に接続される。本実施例では、デコーダ１０３は、適切な符号化規格に従って入力符号化データを復号し、元になる音声信号のパルスコード変調表現を生成する。

デコーダ１０３は、パルスコード変調データを受信し、出力符号化データを生成するよう当該信号を復号化するエンコーダ１０５に接続される。本実施例では、エンコーダ１０５の符号化プロトコル又は規格は、入力符号化データの符号化プロトコルとは異なる。例えば、入力信号は、ＭＰ３符号化規格に従って符号化されてもよく、エンコーダ１０５は、ＡＡＣ規格に従って動作可能である。

一部の実施例では、同一の符号化プロトコル又は規格が、異なる符号化パラメータにより利用可能である。例えば、エンコーダ１０５は、同一の符号化規格を使用するが、デコーダ１０３と異なるビットレートにより使用するかもしれない。

デコーダ１０５は、出力符号化データが供給される出力プロセッサ１０７に接続される。出力プロセッサ１０７は、符号変換されたデータストリームに符号化データを含める。

受信機１０１はさらに、入力パラメトリック拡張データが供給される拡張データプロセッサ１０９に接続される。拡張データプロセッサ１０９は、入力パラメトリック拡張データから出力パラメトリック拡張データを決定する。出力パラメトリック拡張データは、パラメトリック拡張データとして出力符号化データと互換性を有し、適切なものとなるよう生成される。

拡張データプロセッサ１０９は、出力パラメトリック拡張データが供給される出力プロセッサ１０７に接続される。出力プロセッサ１０７は、符号変換されたデータストリームに出力パラメトリック拡張データを含める。

従って、説明された実施例では、符号化信号は、エンコーダとトランスコーダの従来のカスケードを用いることによって符号変換される。さらに、入力データのパラメトリック拡張データは、出力データストリームに適したパラメトリック拡張データを生成するよう個別に処理される。従って、パラメトリック拡張データは最適な処理が可能であり、符号変換されたデータストリームの品質向上が可能となる。さらに、出力パラメトリック拡張データの生成に要する処理は、典型的には比較的シンプルなモノであり、デコーダとエンコーダはこのパラメトリック拡張データを無視することが可能であるため、より低い複雑さのトランスコーダが典型的には実現されるかもしれない。

入力データストリームと出力データストリームのフレーム長が合わせられたシンプルな実施例では、データは典型的には、入力パラメトリック拡張データから出力パラメトリック拡張データに直接コピーされるかもしれない。例えば、ＰＳ拡張データを有する第１ビットレートのＭＰ３データストリームを異なるビットレートの他のＭＰ３データストリームに符号変換することは、デコーダとエンコーダによってＭＰ３データを符号変換し、入力ストリームの補助的データセクションから出力データストリームの補助的データセクションにＰＳ拡張データを直接コピーすることによって達成されるかもしれない。

一部の実施例では、拡張データプロセッサ１０９は、出力パラメトリック拡張データのデータ値を再符号化及び／又は再量子化する機能を有するようにしてもよい。例えば、ＩＩＤ（Ｉｎｔｅｒ−ｃｈａｎｎｅｌＩｎｔｅｎｓｉｔｙＤｉｆｆｅｒｅｎｃｅ）のデータ値が、ＰＳパラメトリック拡張データのデータレートを低減するため、より粗い量子化により量子化されてもよい。同様に、当該データ値の異なる符号化が、例えば、より高いエラー耐性などの望ましい特性を提供するのに利用されてもよい。

典型的には、出力パラメトリック拡張データのデータ値の量子化及び符号化は、特にデータ値が入力パラメトリック拡張データのデータ値に基づく計算によって求められたときに効果的である。

一部の実施例では、パラメトリック拡張データのみがトランスコーダによって変調されるようにしてもよいということは理解されるであろう。例えば、この符号変換は、ビットストリームの補助的データセクションからパラメトリック拡張データを抽出し、与えられたアルゴリズムに従ってパラメトリック拡張データを変調し、この変調されたパラメトリック拡張データを補助的データセクションに再挿入する。

入力データストリームと出力データストリームのフレーム長が揃っていない一部の実施例では、出力パラメトリック拡張データのデータ値は、入力パラメトリック拡張データのデータ値からの補間（外挿を含む）によって決定されてもよい。このアプローチは、大部分のパラメトリック拡張データパラメータにとって、それらは経時的にゆっくりと変化する傾向があるため適切である。

以下の説明は、このような実施例をＩＩＤデータ値を特に参照することにより詳細に説明したが、同じ原理が他の多くのパラメータに適用可能であるということは理解されるであろう。

図２は、本発明の実施例によるパラメトリック拡張データのデータ値の補間を示す。

この例では、入力パラメトリック拡張データは、ｈ_ａの実質的に規則的な時間間隔（すなわち、ｈ_ａのホップサイズ（又はフレームサイズ）による）に対するＩＩＤ値を有する。入力パラメトリック拡張データのＩＩＤ値は、図２の交差によって示され、それは、時間間隔ｔ_０、ｔ_１及びｔ_２の入力パラメトリック拡張データの３つのＩＩＤ値を具体的に示す。

本例では、出力パラメトリック拡張データが、ｈ_ａ未満であるｈ_ｂの実質的に規則的な時間間隔（すなわち、ｈ_ｂのより小さなホップサイズ（又はフレームサイズ）による）におけるＩＩＤ値を有することが要求される。入力パラメトリック拡張データのＩＩＤ値は、図２において丸印によって示され、具体的にはそれは、時間期間ｔ_０’、ｔ_１’及びｔ_２’における出力パラメトリック拡張データの３つのＩＩＤ値を示す。

本実施例では、拡張データプロセッサ１０９は、補間によって出力ＩＩＤ値を生成するよう動作可能である。具体的には、図２に示されるように、出力ＩＩＤ値は、周囲の入力ＩＩＤ値の間のシンプルな線形補間によって生成される。従って、ｔ_０’及びｔ_１’における出力ＩＩＤ値は、ｔ_０及びｔ_１における入力ＩＩＤ値から生成され、ｔ_２’における出力ＩＩＤ値は、ｔ_１及びｔ_２における入力ＩＩＤ値から生成される。

線形補間の代わりに、他の形式の補間又は外挿が利用されてもよいということは理解されるであろう。

一部のパラメータ音声符号化スキームでは、追加的なパラメトリック拡張データパラメータが、一時的な位置において生成される。例えば、ＰＳパラメトリック拡張データは、典型的には、実質的に規則的な間隔に置けるＩＩＤデータ値と、ＩＩＤ信号に大きく急速な遷移が検出される際に含まれる一時的ＩＩＤ値を有する。

図３は、本発明の実施例によるパラメトリック拡張データのデータ値の補間を示す。図３の例は、追加的な一時的ＩＩＤ値が時点ｔ_Ｔにおける入力パラメトリック拡張データに含まれることを除き、図２の例に対応している。

ｔ_ＴにおけるＩＩＤ値に含まれる情報を維持するため、拡張データプロセッサ１０９は、ｔ_Ｔにおける追加的な一時的出力ＩＩＤ値を生成するよう動作可能である。具体的には、拡張データプロセッサ１０９は、ｔ_ＴにおけるＩＩＤ値を第２のパラメトリック拡張データに直接コピーする。

さらに、一時的な入力ＩＩＤ値が、必要に応じて補間に使用される。従って、図３に示されるように、ｔ_２’における出力ＩＩＤ値がここで、ｔ_Ｔ及びｔ_２における入力ＩＩＤ値から生成される。

線形補間は、迅速に変化するパラメータが平滑化されるように、基礎となる信号のローパスフィルタリングをもたらす。ＰＳＩＩＤパラメータでは、これは、減縮されたステレオ画像を生じさせることとなる。この効果を補償するため、ＩＩＤパラメータは、それらが量子化される前にフィルタリングされてもよい。

ＭＰ３（ＰＲＯ）＋ＰＳビットストリームのＰＳ拡張データが、ａａｃ（Ｐｌｕｓ）＋ＰＳビットストリームのＰＳ拡張データに変換される具体例が、以下において説明される。これらのビットストリームのＰＳパラメータについて４４．１ｋＨｚのサンプリング周波数における典型的なホップサイズは、それぞれ１１５２サンプル（ＭＰ３データの２グラニュール（ｇｒａｎｕｌｅ）又は１フレーム）と１０２４サンプル（ＡＡＣデータの１フレーム）である。

線形補間を用いたＰＳパラメータ変換は、図４に示されるように補間することが可能である。図４は、線形補間装置４００の原理図を示す。

線形補間装置４０１は、９のファクタによりＩＩＤパラメータをアップサンプリングするアップサンプラ４０１を有する。結果として得られる信号は、三角窓インパルス応答（ｔｒｉａｎｇｕｌａｒｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）を有するフィルタ４０３によって補間（フィルタリング）される。最終的に、信号は８のファクタのダウンサンプラ４０５によってダウンサンプリングされる。

図５は、図４のフィルタの周波数応答を示す。三角窓インパルス応答がローパスフィルタリングを生じさせることが明らかに確認できる。

線形補間によって生じる平滑化を補償するため、ＩＩＤ値ｘ（ｎ）が、以下のＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタによってフィルタリングされるかもしれない。

ここで、ａは、好ましくは、線形フェーズインパルス応答である、すなわち、ａ_ｋ＝ａ_{Ｋ−ｋ−１}である。再量子化に必要とされる最終的なＩＩＤ値は、遅延補償されてもよく、

から計算することが可能である。
ここで、ｃは、ｚ（ｎ）の冪乗がｘ（ｎ）のものと等しくなるように設定可能な冪乗補償定数である。

より高機能であって、そのためより計算量の大きな実施例では、図４に示される実際のアップ及びダウンサンプリングが実行されてもよく、非三角窓インパルス応答が、リサンプリング再構成をさらに向上させるのに使用されてもよい。

以下において、入力データ及び符号変換されたデータが非同期フレーム構成を有する実施例が説明される。具体的には、符号化データを第１符号化プロトコルから異なるフレーム長を有する第２符号化プロトコルに符号変換するトランスコーダが、説明される。この説明は、ＳＢＲ拡張データによるＭＰ３ビットストリーム（ｍｐ３ＰＲＯビットストリーム）をＳＢＲ拡張データによるＡＡＣビットストリーム（ａａｃＰｌｕｓビットストリーム）に符号化する実施例に着目している。

当該実施例では、ＭＰ３符号化及びＡＡＣ符号化の帯域幅は実質的に同一であると仮定される。具体的には、トランスコーダは、入力ビットストリームからＭＰ３符号化の帯域幅を決定し、ＡＡＣエンコーダを同一の帯域幅を有するよう設定するかもしれない。

ＳＢＲ拡張データのノイズフロアデータ値及びエンベロープは、それらがフレーム内で発生する時点及び頻度に関する制約を有する。ＳＢＲデコーダは、典型的には、コア音声フレーム毎にいくつかのサブバンドサンプルを生じさせるサブバンド解析を実行する（例えば、ｍｐ３ＰＲＯについてＮ＝１８、ａａｃＰｌｕｓについてＮ＝３２など）。タイムクリティカル信号を処理するため、フレームの第１エンベロープのスタートボーダと最後のエンベロープのストップボーダは、それぞれ［０，６］（スタートボーダ第１エンベロープ）と［Ｎ−１，Ｎ−１＋６］（ストップボーダ最終エンベロープ）との間で変化する。この結果、Ｎが入力符号化プロトコルと出力符号化プロトコルについて異なる場合、エンベロープ又はノイズフロアデータ値を入力ビットストリームから符号変換されたビットストリームに単にコピーすることが常に可能とは限らない。

図６は、ｍｐ３ＰＲＯ入力ストリームとａａｃＰｌｕｓ符号変換されたデータストリームとの間のエンベロープデータ値のための一例となる時間整列を示す。この例では、ｍｐ３ＰＲＯフレーム１、２及び３からのエンベロープデータ値は、ａａｃＰｌｕｓビットストリームの対応するフレームに直接コピーすることが可能であるということが確認できる。しかしながら、ＭＰ３ＰＲＯフレーム４のエンベロープデータ値については、いくつかのデータはａａｃＰｌｕｓビットストリームの１つのフレームに関連し、他のデータはａａｃＰｌｕｓビットストリームの異なるフレームに関連する。図６は、エンベロープデータを具体的に示しているが、本原理はノイズフロア値を含む他のデータ値に適用されることは理解されるであろう。

エンベロープ及びノイズフロアデータは、ａａｃＰｌｕｓビットストリームの制約に違反しない限り、単にコピーすることが可能である。しかしながら、このようなコピーが可能でない場合、エンベロープ及びノイズフロアデータ値（の一部）は、１つのエンベロープ及びノイズフロアデータ値に合成される必要がある。

図７は、入力データストリームのエンベロープデータ値のタイミングの一例を示す。具体的には、図７は、ＭＰ３ＰＲＯビットストリームの２つのエンベロープデータ値を示す。第１エンベロープデータ値Ｅ_１は、ｔ_０からｔ_１までの時間期間をカバーし、第２エンベロープデータ値Ｅ_２は、ｔ_１からｔ_２までの時間期間をカバーする。各エンベロープデータ値Ｅ_１及びＥ_２は、各々が当該具体例において、特定の周波数帯のスケールファクタであるいくつかのサブ値Ｅ_１，１，Ｅ_１，２，Ｅ_１，３，Ｅ_１，４，Ｅ_２，１，Ｅ_２，２，Ｅ_２，３，Ｅ_２，４を有する。従って、サブ値の個数は当該フレームの周波数解像度に依存する。

図７の例では、ＡＡＣＰｌｕｓ符号変換されたデータストリームは、ＭＰ３ＰＲＯデータストリームの２つの時間期間と重複する時間期間ｔ_１’−ｔ_０’におけるフレームを有する。従って、新しいエンベロープデータ値が、時間期間ｔ_１’−ｔ_０’について生成される必要があり、具体的には、拡張データプロセッサ１０９は、エンベロープデータ値Ｅ_１とＥ_２のスケールファクタの間の補間

によって決定されるスケールファクタを有するエンベロープデータ値を生成するようにしてもよい。

同様の式が、その他のスケールファクタ値Ｅ_１，２’、Ｅ_１，３’及びＥ_１，４’を生成するのに適用されてもよい。

ＳＢＲでは、エンベロープデータ値について２つの可能な周波数解像度が存在する（ノイズフロアは、１つの可能な周波数解像度しか有しない）。従って、異なる周波数解像度によるエンベロープ（の一部）が合成される必要があるということが発生する可能性がある。この場合、拡張データプロセッサ１０９は、好ましくは、最も高い周波数解像度に従ってエンベロープデータ値を生成する。これは、図８に示される例により示される。

図８は、ＭＰ３ＰＲＯビットストリームの２つのエンベロープデータ値Ｅ_１とＥ_２を示す。この例は、第２エンベロープデータ値Ｅ_２が２つのサブ値Ｅ_２，１とＥ_２，２のみを有するということを除いて、図７のものと同一である。ＡＡＣＰｌｕｓ符号変換データストリームの時間期間ｔ_１’−ｔ_０’のエンベロープデータ値は、例えば、

に従う補間によって決定されてもよい。

任意の適切な拡張データが使用可能であるということは理解されるであろう。例えば、パラメトリック拡張データは、空間音声符号化データであってもよい。例えば、ステレオ画像データを含むだけでなく、マルチチャネル画像がパラメータ化され、拡張データに含まれてもよい。そのような実施例によると、ステレオ符号化信号は、後方互換的コンポーネントとして含まれてもよく、パラメトリック拡張データは、これらをマルチチャネル表現に変換可能なデータを含むものであってもよい（例えば、２〜５チャネルなど）。もちろん、１〜５チャネル、２〜４チャネルなどの他のシナリオも可能である。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの何れかの組み合わせを含む任意の適切な形式により実現可能である。しかしながら、好ましくは、本発明は、１以上のデータプロセッサ及び／又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実現される。本発明の実施例の要素及びコンポーネントは、何れか適切な方法により物理的、機能的及び論理的に実現されてもよい。実際、当該機能は、単独のユニット、複数のユニット又は他の機能ユニットの一部として実現されてもよい。また、本発明は、単独のユニットにより実現されてもよいし、又は異なるユニット及びプロセッサ間に物理的かつ機能的に分散されていてもよい。

本発明が好適な実施例について説明されたが、それは、ここで与えられた特定の形式に限定されることを意図したものではない。本発明の範囲は、添付した請求項によってのみ限定される。請求項では、「有する」という用語は、他の要素又はステップの存在を排除するものではない。さらに、個別に列挙されるが、複数の手段、要素又は方法ステップが、単独のユニット又はプロセッサなどによって実現されてもよい。さらに、各特徴が異なる請求項に含まれるかもしれないが、これらはおそらく効果的に組み合わされるかもしれず、異なる請求項に含まれることは、各特徴の組み合わせが実現可能及び／又は効果的ではないことを意味するものではない。さらに、単数形による言及は、複数であることを排除するものではない。従って、「ある」、「第１の」、「第２の」などの表現は複数を排除するものではない。

図１は、本発明の実施例によるトランスコーダのブロック図を示す。図２は、本発明の実施例によるパラメトリック拡張データのデータ値の補間を示す。図３は、本発明の実施例によるパラメトリック拡張データのデータ値の補間を示す。図４は、本発明の実施例による線形補間の原理図を示す。図５は、本発明の実施例による線形補間装置のフィルタの周波数応答を示す。図６は、ｍｐ３ＰＲＯ入力ストリームとａａｃＰｌｕｓ符号変換データストリームとの間の一例となる時間整列を示す。図７は、入力データストリームのエンベロープデータ値のタイミングの一例を示す。図８は、入力データストリームのエンベロープデータ値のタイミングの他の例を示す。

Claims

符号化信号を表し、第１パラメトリック拡張データを有する入力データを受信する手段と、
前記第１パラメトリック拡張データから第２パラメトリック拡張データを決定する手段と、
前記第２パラメトリック拡張データを有する符号変換データを生成する手段と、
を有することを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記入力データはさらに、前記符号化信号に関する第１符号化データを有し、
当該トランスコーダはさらに、第２符号化データを生成するため前記第１符号化データを符号変換する手段を有し、
前記生成する手段は、前記第２符号化データと前記第２パラメトリック拡張データとを組み合わせることによって、前記符号変換データを生成するよう動作可能である、
ことを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記決定する手段は、前記第１パラメトリック拡張データの少なくともいくつかのデータ値をコピーすることによって、前記第２パラメトリックデータの少なくとも一部を決定するよう動作可能であることを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記決定する手段は、前記第２パラメトリック拡張データのデータ値を量子化する手段を有することを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記決定する手段は、前記第２パラメトリック拡張データのデータ値を符号化する手段を有することを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記決定する手段は、前記第１パラメトリック拡張データのパラメトリック拡張データ値の間の補間によって、前記第２パラメトリックデータの少なくとも一部を決定するよう動作可能であることを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記決定する手段は、前記第１パラメトリック拡張データの一時的データを特定し、前記一時的データに応答して、前記第２パラメトリック拡張データを生成する手段を有することを特徴とするトランスコーダ。
請求項７記載のトランスコーダであって、
前記決定する手段は、少なくとも１つの一時的データパラメータを前記第２パラメトリック拡張データに含めるよう動作可能であることを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記決定する手段は、前記第２パラメトリック拡張データを決定する前に、前記第１パラメトリック拡張データをフィルタリングする手段を有することを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記入力データ及び符号変換データは、非同期フレーム構成を有し、
前記第２パラメトリック拡張データを決定する手段は、前記第１パラメトリック拡張データの第１フレームの第１データ値及び前記第１パラメトリック拡張データの第２フレームの第２データ値に応答して、前記符号変換データのフレームに関する少なくとも１つのデータ値を決定するよう動作可能である、
ことを特徴とするトランスコーダ。
請求項１０記載のトランスコーダであって、
前記決定する手段は、少なくとも前記第１データ値と前記第２データ値との間の補間によって、前記少なくとも１つのデータ値を決定するよう動作可能であることを特徴とするトランスコーダ。
請求項１０記載のトランスコーダであって、
前記第１データ値は、複数の第１周波数サブバンドに関する複数のサブ値を有し、
前記第２データ値は、複数の第２周波数サブバンドに関する複数のサブ値を有し、
前記決定する手段は、複数の第３周波数サブバンドに関する複数のサブ値を有するよう前記少なくとも１つのデータ値を決定するよう動作可能である、
ことを特徴とするトランスコーダ。
請求項１２記載のトランスコーダであって、
前記複数の第１、第２及び第３サブバンドは、同数の周波数サブバンドを有することを特徴とするトランスコーダ。
請求項１２記載のトランスコーダであって、
前記複数の第１サブバンドは、前記複数の第２サブバンドより多くの周波数サブバンドを有し、
前記複数の第３サブバンドは、前記複数の第１サブ何度と同数の周波数サブバンドを有する、
ことを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記第２パラメトリック拡張データは、ＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）パラメトリック拡張データであることを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記第２パラメトリック拡張データは、ＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）パラメトリック拡張データであることを特徴とするトランスコーダ。
請求項１記載のトランスコーダであって、
前記符号化信号は、音声信号であることを特徴とするトランスコーダ。
符号化信号を表し、第１パラメトリック拡張データを有する入力データを受信するステップと、
前記第１パラメトリック拡張データから第２パラメトリック拡張データを決定するステップと、
前記第２パラメトリック拡張データを有する符号変換データを生成するステップと、
を有することを特徴とする符号変換方法。
請求項１８記載の方法の実行を可能にするコンピュータプログラム。
請求項１９記載のコンピュータプログラムを有する記録キャリア。