JP2007529779A

JP2007529779A - オーディオ符号化

Info

Publication number: JP2007529779A
Application number: JP2007503473A
Authority: JP
Inventors: イェーヘリッツ，アンドレアス; ブリンケル，アルベルテュスセーデン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-03-17
Filing date: 2005-03-08
Publication date: 2007-10-25
Anticipated expiration: 2025-03-08
Also published as: WO2005091275A1; US7587313B2; CN1934619A; EP1728243A1; US20070185707A1; KR20070001185A; CN1934619B; JP4355745B2

Abstract

本方法は、複数の順次時間セグメントにわたりリンクした正弦波成分のトラックを有するオーディオストリームを生成する。各トラックのセグメントは通常窓（Ｗ１、Ｗ２、Ｗ３）で重みづけされ、連続するセグメントはその前方エッジと後方エッジの通常のオーバーラップ（Ｏ）期間を有する。過渡成分５があると判断されたセグメントは修正された後方エッジを有する第1の修正窓（Ｗ１ｍ）で重みづけされ、そのトラック中の後続セグメント修正された前方エッジを有する第2の修正窓（Ｗ２ｍ）で重みづけされる。そのため、修正された後方エッジと修正された前方エッジは修正されたオーバーラップ期間（Ｏｍ）を有し、過渡成分を有し、通常のオーバーラップ期間（Ｏ）よりも短く、オーディオストリームは周波数と過渡部分を表す正弦波を含む。本発明により、修正されたオーバーラップ期間（Ｏｍ）は周波数の値（ｆ）に依存する。

Description

発明の詳細な説明

本発明は、ブロードバンド信号、特にオーディオ信号の符号化と復号に関する。

ブロードバンド信号、例えばスピーチ等のオーディオ信号を伝送するとき、圧縮または符号化方法を用いて信号の帯域幅またはビットレートを低下させる。

国際出願第ＷＯ０１／６９５９３号は、パラメトリック符号化方法（parametric encoding scheme）、特に正弦波エンコーダを開示している。この方法では、入力オーディオ信号を幾つかの時間セグメントまたはフレーム（オーバーラップしていてもよい）に分割する。時間的長さは一般的にそれぞれ２０ｍｓである。各セグメントは過渡成分、正弦波成分、及びランダム成分に分解される。本発明の目的には関係ないが、入力オーディオ信号の他の成分、例えば高調波成分を求めることも可能である。

エンコーダでは順次分析（sequential analysis）が行われる。最初に、過渡成分を検出して合成する。合成した過渡成分をオーディオ信号から差し引く。残留信号に正弦波分析を実行し合成した信号を残留信号から差し引いて第２の残留信号を求める。この第２の残留信号をエンコーダの他のモジュール（例えばノイズモジュール等）への入力信号として使用する。第２の残留信号を生成するために、正弦波合成においては過渡的位置でModified Windowingを使用する。

セグメントの正弦波情報を一旦推定すると、トラッキングアルゴリズムを開始する。このアルゴリズムは、コスト関数を用いて異なるセグメント中の正弦波を互いにセグメント毎にリンクさせ、いわゆるトラックを求める。このように、トラッキングアルゴリズムにより正弦波コードが得られる。この正弦波コードは、ある時刻に始まり、複数の時間セグメントにわたりある時間的長さの間に発展し、その後停止する正弦波コードを求める。

上記の正弦波符号化において、通常はエンコーダで形成されたトラックの周波数情報を伝送する。この伝送は簡単なやり方で比較的低コストで実行することができる。トラックの周波数変化がゆっくりしているからである。それゆえ、周波数情報は時間差符号化（time differential encoding）により効率的に伝送することができる。一般的に、振幅も時間差符号化することができる。

正弦波オーディオエンコーダでは、オーディオ信号を分析して幾つかの成分、特に正弦波を識別して分離する。正弦波をoverlap-add法（procedure）により合成する。一般的に後続フレームは５０％のオーバーラップ期間を有する。フレーム中に過渡的部分があれば、プリエコー（pre-echoes）を防止するためオーバーラップ期間を短くする。これはModified Windowingと呼ばれる。従来、この（小さな）オーバーラップはすべての正弦波で同じである。周波数が低い場合、これにより可聴なアーティファクトが生じる。

ＳＳＣ（正弦波オーディオ・スピーチコーダ）正弦波オーディオエンコーダ［１］では、入力信号を分解していくつかのパラメトリック成分を求める。その成分の１つは過渡成分である。イベントが時間的に非常に局所化されている場合、オーディオ信号の一部は過渡的なものとしてラベルが付けられる。音楽の例で言えばカスタネットやハイハットを打った場合である。

過渡モデルは非特許文献１に詳細に記載されている。要約は以下の通りである。ＳＳＣエンコーダでは２種類の過渡信号を特定する：ステップ過渡信号とMeixner過渡信号である（非特許文献１第３頁参照）。過渡信号推定方法は以下の３つの段階を有する：
１．過渡信号の時間的位置の推定。オーディオ信号中の過渡信号の位置を決定する。また、過渡信号のタイプ（ステップまたはMeixner）も決定する。
２．過渡エンベロープの推定：Meixner過渡信号の場合、Meixner Windowを推定する。このMeixner Windowは過渡信号の時間エンベロープを記述するものである。
３．正弦波コンテントの推定。ここで、推定したMeixner Windowを用いて、過渡信号を記述する幾つかの正弦波を推定する。正弦波は周波数、位相、及び振幅で表される。
E. G. P. Schuijers、A. C. den Brinker、及びA. W. J. Oomen著「高品質オーディオのためのパラメトリック符号化（Parametric Coding for High-Quality Audio）」Preprint 5554、112th AES Convention、Munich、10-13 May 2002。ステップ過渡成分は信号パワーレベルの急激な変化が特徴である。すなわち、アタックが速く、事実上減衰しない。ステップ過渡信号の特徴はその位置、すなわちその発生時刻である。そのため、時間的位置は、信号そのものは記述しないが、それを使って正弦波オブジェクトの要素を合成を制御する。位置パラメータに基づき、同一または同様の方法をステップ過渡成分とMeixner過渡成分の両方に適用する。

他のタイプの成分は正弦波である。正弦波モデル化において、一般的にモデルは次式の通りである：

ここで、u_kは基礎となる正弦波または正弦波状の信号であり、ｎはセグメント番号である。例えば、u_k(t)は次のように定義することができる：

ここで、A(t)、ω(t)、φ(t)は正弦波の振幅、周波数、及び位相である。ビットレートを下げるため、これらのパラメータはセグメント内では一定であることが好ましいが、上に示したように時間変化してもよい。

連続するセグメントs_nは、互いにオーバーラップしてもよい。それゆえ、セグメントに窓関数（例えば、Hanning Window）をかける。窓の設計は、振幅相補的（amplitude complementary）、すなわち連続する窓（windows）を足すと常に（特にオーバーラップ期間では）１となるものでもよい。これは図１に示されている。Ｕは正弦波パラメータの更新期間を示し、Ｏは連続する窓Ｗ１とＷ２の間、及び連続する窓Ｗ２とＷ３の間のオーバーラップ期間を示す。Ｕの典型値は約８ｍｓ（すなわち、44.1kHzのサンプリング周波数で３６０サンプル）である。

図２には過渡成分があり、プリエコー（pre-echo）の効果を低減するためにWindowingを変化させている。過渡位置はＴで示した。２つの窓Ｗ１ｍとＷ２ｍは図１と比較して修正されている。窓の点線部分は、図１中の修正されていない窓Ｗ１とＷ２に対応している。過渡位置Ｔを有する窓Ｗ１ｍは、後方エッジ（trailing edge）が図１の修正されていない窓よりも急にして過渡位置で窓を「閉じる」ことにより修正されており、修正された窓の時間的長さは対応して短くなっている。次の窓は、対応して前方エッジ（leading edge）が図１の修正されていない窓よりも急になり、過渡位置で窓を「開く」ことにより修正されており、修正された窓の時間的長さは対応して長くなっている。窓を閉じるエッジと開くエッジが急になっているので、連続する修正された窓Ｗ１ｍとＷ２ｍ間の修正されたオーバーラップ期間Ｏｍは、対応して短くなっている。

実際には、過渡成分の位置においてオーバーラップの期間を（例えば、１０サンプルに）短くすることにより行われる。両方の窓のオーバーラップしていない部分は、最大値である１に設定されている。この正弦波合成のWindowingは、ステップ過渡成分及びMeixner過渡成分の場合に、エンコーダとデコーダ両方で使用される。

図３はこれを示しており、信号の振幅がステップ状に増加している。垂直な点線は過渡位置を示している。上の図は３６０サンプルのオーバーラップを有する合成正弦波の波形を示しており、下の図は１０サンプルの少ないオーバーラップを有する合成正弦波を示している。上の図では、明らかにプリエコーがあり時間的構造が失われているのに対し、下の図では、Modified Windowingを使用したため、時間的構造は損なわれていない。過渡位置におけるこの既知のModified Windowingにより、過渡位置におけるプリエコーを避ける解決策が提供される。

しかし、上記の既知の方法には欠点がある。過渡成分の場合、正弦波合成用のModified Windowingは、オーバーラップの期間を短くするため、過渡領域の時間的構造を保存しない。しかし、このため低周波数の正弦波の場合に可聴なアーティファクト（artefacts）が発生する。図４には、短いオーバーラップ期間で合成された低周波数の２つの正弦波（１００Ｈｚ及び７０Ｈｚ）を示した。過渡位置において、２つの正弦波間に大きな不連続性がある。この突然の変化は高周波コンテントであり、クリック音として聞こえる。オーバーラップ期間を長くした場合、波形中の不連続性が消えるが、過渡部分周辺の時間的構造も失われ、プリエコーが大きくなる。本発明はこの問題を解決する。

分かっていることは、高い周波数において、オーバーラップ期間が短ければ波形に可聴なアーティファクトが生じないことである。その理由は、周波数が高い正弦波の期間が短いからである。一方、周波数が低い正弦波の場合、周波数が高い正弦波の場合よりも長いオーバーラップ期間を許容できる。周波数が高い領域では、周波数が低い領域よりも時間的構造がより重要である。それゆえ、本発明によると、過渡部分の周りのオーバーラップ期間の長さが周波数に依存する。周波数が低い場合、クリック音を防止するためオーバーラップ期間を長くする。周波数が高い場合、より短いオーバーラップ期間を選択する。低周波数では、人間の耳の時間的分解能が高周波数よりも低い。それゆえ、窓間のオーバーラップ期間が長くても知覚の観点からは許容できる。

上記の本発明の目的と特徴は、図面を参照した好ましい実施形態の以下の説明から、より明らかになるであろう。

図において、同一の部分には同じ参照符号を与えた。

本発明は、符号化及び復号の両方において、過渡位置を含む連続するセグメントの窓間のオーバーラップ期間を修正する上記の既知の方法を含む。本発明の方法は、連続するセグメントの窓間のオーバーラップ期間を正弦波の周波数に依存させることにより、既知の方法を改良する。特に、周波数が高い場合よりも周波数が低い場合にオーバーラップ期間を長くする。

理論的には、過渡部分の周りのオーバーラップ期間を正弦波の周波数から直接計算することができる。例えば、周波数依存のオーバーラップ期間O(f)（オーバーラップ期間中のサンプル数で測った）は、Hz単位の周波数ｆの減少関数として次式のように定義することができる：

ここで、F_sはHz単位のサンプリング周波数（例えば、44.1kHz）であり、ａ，ｂ，ｃは知覚される音声品質がよくなり、特に高周波数でのプリエコーと低周波数でのクリック音をさけるように実験的に決定される定数である。好ましい実施形態において、ａ＝１００、ｂ＝９６、ｃ＝７であり、周波数ごとにオーバーラップ期間がゆっくりと変化する。異なる関数を使用してもよい。

各正弦波において、オーバーラップを実行するために新しい窓を構成しなければならない。このため、過渡位置においては、正弦波合成の計算の複雑さが大幅に高くなる。

上記の方法を簡単にするため、連続的な変化ではなく、少数の離散値を使用してもよい。本発明の最も簡単な実施形態では、周波数が４００Ｈｚより低い正弦波の場合、オーバーラップ期間を１００サンプルとし、周波数が４００Ｈｚより高い正弦波の場合、オーバーラップ期間を１０サンプルとしてもよい。そうすれば、必要な窓は２種類だけになる。もちろん、周波数区間と対応するオーバーラップ期間の数はいかなる好適な数であってもよい。

通常のWindowingを用いる正弦波を合成するoverlap-add方法を示す図である。修正したWindowingを用いる正弦波を合成するoverlap-add方法を示す図である。合成された正弦波を示す波形図である。周波数が低い２つの合成正弦波を示す波形図である。

Claims

符号化データから正弦波を有する信号を合成する方法であって、前記符号化データは複数の連続する時間セグメントの各々について正弦波を表す１つ以上の周波数値と、可能な過渡発生の時間を特定するデータとを有し、前記方法は、
前記１つ以上の周波数値の各々で正弦波を発生する段階と、
複数の連続するセグメントにわたって正弦波をリンクする段階と、を有し、
過渡がないセグメントは通常の前方エッジと通常の後方エッジを有する通常の窓で重みづけされ、連続するセグメントはその前方エッジと後方エッジの通常オーバーラップ期間を有し、
過渡の発生の時間が特定されたセグメントは、修正された後方エッジを有する第1の修正窓で重みづけされ、後続セグメントは、修正された前方エッジを有する第2の修正窓で重みづけされ、それにより修正された後方エッジと修正された前方エッジは過渡の発生時間を含み通常のオーバーラップ期間よりも短い修正されたオーバーラップ期間を有し、修正されたオーバーラップ期間は周波数値に依存することを特徴とする方法。
請求項１に記載の方法であって、
修正されたオーバーラップ期間は、周波数値が高くなると短くなることを特徴とする方法。
請求項１または２に記載の方法であって、
修正されたオーバーラップ期間は、実質的にf^1/cとして周波数値に依存することを特徴とする方法。
請求項１または２に記載の方法であって、
修正されたオーバーラップ期間の２つ以上の固定値を対応する周波数区間に対して使用することを特徴とする方法。
符号化データから正弦波を有する信号を合成するオーディオデコーダであって、前記符号化データは複数の連続する時間セグメントの各々について正弦波を表す１つ以上の周波数値と、可能な過渡発生の時間を特定するデータとを有し、前記オーディオデコーダは請求項６ないし９のいずれか一項に記載の方法を使用するように構成されていることを特徴とするオーディオデコーダ。
請求項１ないし４いずれか一項に記載の方法を使用するように構成された、信号を符号化するオーディオエンコーダ。