JP2004163959A

JP2004163959A - 汎用ＡｂＳ音声符号化方法及びそのような方法を用いた符号化装置

Info

Publication number: JP2004163959A
Application number: JP2003384245A
Authority: JP
Inventors: Balazs Kovesi; バラーツ・コヴシー; Dominique Massaloux; ドミニク・マサルー; Claude Lamblin; クロード・ランブラン; Yang Gao; ガオ・ヤン
Original assignee: France Telecom SA; Mindspeed Technologies LLC
Current assignee: Orange SA; Mindspeed Technologies LLC
Priority date: 2002-11-14
Filing date: 2003-11-13
Publication date: 2004-06-10
Also published as: KR20040042903A; HK1067911A1; DE60309651T2; US20040098255A1; EP1420391A1; BR0305195A; EP1420391B1; CN1525439A; MXPA03010360A; ES2277050T3; CA2448848A1; DE60309651D1; ATE345565T1

Abstract

【課題】逆前処理フィルタ（明示的または暗黙的な存在）と時間軸修正された信号との間の上述した不整合を回避するための解決策を提供する。
【解決手段】エンコーダ側で、音声信号は、時間軸修正モジュールに入力するに先だって知覚的に重み付けされた信号であり、対応する逆フィルタリング操作、あるいは例えば短期ＬＰフィルタリングなどの他の処理と組み合わせられた逆フィルタリング操作を用いて、修正された信号が他のドメインに変換された信号である。シフト関数は、時間軸修正処理で計算されて、修正された信号における各サンプルの位置が修正の前のその原位置に関連付けられる。原信号のサブフレーム境界に対応する修正された信号におけるサンプルの位置は、適切な瞬間にフィルタを逆フィルタリングにスイッチするために評価される。従って、逆フィルタと修正された信号との間の同時性が維持される。
【選択図】図４

Description

本発明は、汎用ＡｂＳ(Generalized analysis-by-synthesis)音声符号化(speech coding)を用いた技術による符号化(coding)に関し、更に詳しくは、ＲＣＥＬＰ(Relaxed Code-Excited Linear Prediction)として知られている技術およびそのような技術に関する。

従来、音声符号化の枠組みの大分類は、予測符号化の概念の周囲に確立された。予測音声符号化装置は、中程度から低程度のビットレートでの通信および記録装置に広く使用されている。

予測音声符号化への最も一般的で現実的なアプローチは、線形予測(LP; linear prediction)スキームであり、そのスキームでは、先に伝送されて復号された信号サンプルの一次結合(linear combination)によって現在の信号値が評価(estimate)される。当初は、入力信号のスペクトル形状に密接に関連する短期(ST; short term)の線形予測が音声を符号化するために使用された。とりわけ有声の音声セグメント(voiced speech segments)については、音声信号の調和構造を獲得するために、長期(LT; long term)の線形予測がさらに導入された。

ＡｂＳ(analysis-by-synthesis)アプローチは、長期の線形予測およびコードブックエキサイテーション探索(codebook excitation search)を用いて、もうひとつの短期の線形予測（ＬＰ）の最適な分析および符号化のための有効な手段を提供する。ＡｂＳスキームは、ＣＥＬＰ(Code-Excited Linear Prediction)符号化装置および自励式のボコーダ(Self-Exited Vocoder)(A. Gersho, “Advances in Speech and Audio Compression”, Proc. Of the IEEE, Vol.82, No.6, pp.900-918, June 1994)を含む音声符号化装置の大きなファミリの基礎である。

音声符号化技術が発達するに従い、“ピッチ予測(pitch prediction)”としても参照されるエンコーダでの長期ＬＰ分析、およびデコーダでの長期ＬＰ合成が発達した。当初はシングルタップフィルタとしてモデル化された長期ＬＰは、拡張されて、マルチタップフィルタを含む(R.P. Ramachandran and P. Kabal, “Stability and Performance Analysis of Pitch Filters in Speech Coders”, IEEE Trans. On ASSP, Vol.35, No.7,pp.937-948, July 1987)。そして、補間フィルタ(interpolation filter)と共にオーバサンプリング及びサブサンプリングを用いて、小さな遅延(fractional delay)が導入された(P. Kroon and B.S. Atal, “Pitch Predictors with High Temporal Resolution”, Proc. ICASSP Vol.2, April 1990, pp.661-664)。

当初のシングルタップフィルタのこれらの拡張は、有声の音声における声門源(glottal source)により生じるＬＴ冗長性(LT redundancies)を獲得することを改善するためにデザインされた。ＬＴマッチング(LT matching)が良くなり、且つＬＰエキサイテーション(LT excitation)が良くなる程、全体のパフォーマンスが良くなる。マッチング精度は、ＬＴパラメータの頻繁なリフレッシュによっても改善することができる。しかしながら、マルチタップＬＴ予測器、またはＬＴパラメータのための高い更新レートは、それらを表すための多くのビットを必要とし、そしてそれはビットレートを著しく増加させる。このコストは低ビットレート符号化装置の場合においては高額であり、従ってその場合には他の解決策が必要である。

上記ＬＴ予測アプローチのいくつかの制限を克服するため、汎用ＡｂＳ符号化(Generalized Analysis-by-Synthesis coding)が導入された(W.E. Kleijin et al., ”Generalized Analysis-by-Synthesis Coding and Application to Pitch Prediction”, Proc. ICASSP, Vol.1, 1992, pp.337-340)。このスキームにおいては、修正された信号が知覚的に原信号(original signal)に近いか同一であるという制約付きで、原信号が符号化に先だって修正される。その修正は、符号化装置パラメータ(coder parameters)、さらに正確にはピッチ予測パラメータ(pitch prediction parameters)が、特定のピッチ周期曲線(pitch period contour)と一致することを強いられるというものである。ピッチ曲線(pitch contour)は、ピッチラグ(pitch lag)に対し低分解能表現を用いて、フレーム毎の基準でピッチ予測パラメータの補間によって得られ、ピッチラグはＬＴ予測パラメータの表現に必要なビットレートを制限する。

ピッチ曲線を一致させるために行われる修正は、時間軸修正(time scale modification)または“タイムワーピング(time warping)”と呼ばれている(W.E. Kleijin et al., “Interpolation of the Pitch Predictor parameters in Analysis-by-Synthesis Speech Coders”, IEEE Trans. On SAP. Vol.2. No.1, part I, January 1994, pp.42-54)。時間軸修正の目標は、原信号の主な特徴を、励起信号(excitation signal)へのＬＴ予測寄与(LP prediction contribution)のそれに合わせることである。

ＲＣＥＬＰ符号化装置は、「W.E. Kleijin et al., “The RCELP Speech-Coding Algorithm”, European Trans. In Telecommunications, Vol.4, No.5, September-October 1994, pp.573-582」において述べられているように、ピッチパラメータに適用される上述の汎用ＡｂＳ構想を用いることにより従来のＣＥＬＰ符号化装置から導き出される。

ＲＣＥＬＰ符号化装置の主な特徴は次のようである。ＣＥＬＰ符号化装置のように、短期のＬＰ係数が最初に評価される（通常、フレーム毎に一度、時には中間リフレッシュを用いて）。フレーム長は、代表的には１０から３０ｍｓの間で変わり得る。ＲＣＥＬＰ符号化装置においては、健全なピッチ検出アルゴリズムを用いて、ピッチ周期もまたフレーム毎の基準で評価される。そして、ピッチ周期曲線は、フレーム毎のピッチ周期を補間することにより得られる。原信号は、このピッチ曲線に一致するように修正される。初期の実施（米国特許番号５７０４００３）においては、この時間軸修正処理は、短期ＬＰの残りの信号について実施された。しかしながら、好ましい解決策は、知覚的に重み付けされた入力信号を使用することであり、それは、「J. Thyssen at al., “A candidate for the ITU-T 4kbit/s Speech Coding Standard”, Proc. ICASSP, Vol.2, Salt Lake City, Utah, USA, May 2001, pp.681-684」において、または「Yang Gao et al., “EX-CELP: A Speech Coding Paradigm”, Proc. ICASSP, Vol.2, Salt Lake City, Utah, USA, May 2001, pp.689-693」においてなされたように、知覚的重み付けフィルタ(perceptual weighting filter)を通して入力信号をフィルタリングすることによって得られる。

修正された音声信号は、それから逆の前処理フィルタを用いて逆フィルタリングを行うことにより得られる一方、その後の符号化の動作は、従来のＣＥＬＰ符号化装置において実施されるものと同一でもよい。

修正された入力信号は、実のところ、時間軸修正に先だって実施されるフィルタリングの種類に依存し、且つ、時間軸修正モジュールに続くＣＥＬＰ符号化装置に取り入れられた構造に依存して計算される。

ＣＥＬＰ符号化装置の固定されたコードブックの検索に使用される知覚的重み付けフィルタが、Ａ（ｚ）／Ａ（ｚ／γ）の形式であって、ここでＡ（ｚ）がＬＰフィルタであり、γが重み係数(weighting factor)である場合、たった一つの再帰的なフィルタリングが目標演算(target computation)に含まれる。従って残りの信号がコードブックの検索に必要とされる。ＲＣＥＬＰ符号化の例においては、修正された原信号の演算は、もし時間軸修正がこの残りの信号に関して実施されれば、必要とされないかもしれない。重み係数γ_１およびγ_２を有するＡ（ｚ／γ_１）／Ａ（ｚ／γ_２）の形式の知覚的重み付けフィルタは、米国特許番号５８４５２４４に開示されているように、より良い性能を提供することが知られており、更に詳しくは適応的知覚的フィルタ、即ちγ_１およびγ_２が可変のフィルタを提供することが知られている。このような重み付けフィルタがＣＥＬＰ手順で使用される場合、目標評価(target evaluation)は二つの再帰的フィルタを持ち込む。

多くのＣＥＬＰ構成（例えば、R. Salami et al., “Design and description of CS-ACELP: a toll quality 8 kb/s speech coder”, IEEE Trans. On Speech and Audio Processing, Vol.6, No.2, March 1998）において、中間フィルタリング処理は、記録として過去の重み付けされたエラー信号と共に現在の残りの信号をＬＰ合成フィルタに与える。入力信号は、フレーム処理の最後にエラー信号更新と残りの演算との双方に取り込まれる。

ＲＣＥＬＰの例においては、このスキームの正攻法の実施は、修正された原入力を演算することの必要性を持ち込む。しかしながら、修正された入力信号を必要としない同等のスキームを導き出すことができる。これらは、もし時間軸修正が残りの信号に適用されたのであればこの残りの信号、または、もし時間軸修正が重み付けされた音声に適用されたのであればこの修正された重み付けされた入力の何れかの使用に基づく。
実際のところ、ＲＣＥＬＰ符号化装置は、上述した類の構成を用いて、修正された原信号を演算することを実際には行わない。

図１に、公知のＲＣＥＬＰ符号化装置のブロックダイアグラムを示す。線形予測符号化(LCP; linear predictive coding)分析モジュール１は、最初に入力オーディオ信号Ｓを処理し、前処理フィルタ３の係数を計算するモジュール２で使用されるＬＰＣパラメータを供給する。モジュール２の伝達関数はＦ（ｚ）で表される。このフィルタ３は、入力信号Ｓを入力し、前処理信号ＦＳをピッチ分析モジュール４に供給する。このように評価されたピッチパラメータは、ピッチ曲線(pitch trajectory)を導き出すためにモジュール５によって処理される。

フィルタを通った入力ＦＳは、さらに、モジュール５によって得られたピッチ曲線に基づき、修正されてフィルタされた信号ＭＦＳを供給する時間軸修正モジュール６に与えられる。伝達関数Ｆ（ｚ）^−１のフィルタ７を用いた逆フィルタリングは、修正された入力信号ＭＳを供給するために、修正されてフィルタされた信号ＭＦＳに適用され、入力信号ＭＳは従来のＣＥＬＰ符号化装置８に与えられる。

ＲＣＥＬＰ符号化装置のデジタル出力フローΦは、マルチプレクサ９に集められ、通常、モジュール１，４によって演算されたＬＰＣパラメータおよびピッチラグのための量子化データ、エンコーダ８によって得られたＣＥＬＰコードブックインデックス、およびエンコーダ８によってまた得られたＬＴ予測およびＣＥＬＰ励起に関連する利得のための量子化データを含む。

直接的逆フィルタリング関数７に代えて、修正されてフィルタされた信号を他のドメイン(domain)へ変換してもよい。この所見は本明細書で議論された従来技術にも当てはまり、且つ、また後で議論される本発明についても当てはまる。一例として、このようなドメインは、残りのドメイン(residual domain)、ＣＥＬＰエンコーダの短期ＬＰフィルタリングのように、他の処理と結合して使用される逆前処理フィルタＦ（ｚ）^−１であってもよい。この問題をもっと直接的に理解するために、次の議論では、修正された信号が実際に演算される例、即ち逆前処理フィルタ７が積極的に使用される場合を検討する。

ほとんどのＡｂＳ音声符号化方法において、音声処理は、短期ＬＰ分析周期に対応する５から３０ｍｓの代表的な長さを有する音声フレームに関して実施される。フレーム内では、信号は固定されているものと仮定され、且つフレームに関連するパラメータは一定に維持される。これは、一般にＦ（ｚ）フィルタにも同様に当てはまり、そして、その係数は従ってフレーム毎の基準で更新される。ＬＰ分析はフレーム内で１回以上実施され得ると共に、フィルタＦ（ｚ）もまたサブフレーム毎の基準で変わり得ることが分かる。これは、例えば、ＬＰフィルタのイントラフレーム(intra-frame)補間が使用される例である。

以下では、用語“ブロック”は、前処理フィルタパラメータの更新周期性(updating periodicity)に対応するものとして使用される。当業者であれば、このような“ブロック”が、符号化アーキテクチャに依存して、一般にＬＰ分析フレームや、このようなＬＰ分析フレームのサブフレーム等から構成されることが分かるであろう。

線形フィルタに関連する利得(gain)は、その入力信号のエネルギーに対する出力信号のエネルギーの比として規定される。明らかに、線形フィルタの高利得は逆線形フィルタの低利得に相当し、その逆も同様である。

二つの連続したブロックについて計算された前処理フィルタ３が著しく異なる利得を有する一方、原音声Ｓのエネルギーが双方のブロックにおいて似ていることが起こり得る。フィルタ利得が異なるので、二つのブロックについてフィルタされた信号ＦＳのエネルギーは同様に著しく異なる。時間軸修正を用いないで、より高いエネルギーのフィルタされたブロックの全サンプルは、より低い利得の逆線形フィルタ７によって逆フィルタされ、一方、低エネルギーのフィルタされたブロックの全サンプルは、より高い利得の逆線形フィルタ７によって逆フィルタされるであろう。この例では、修正された信号ＭＳのエネルギープロファイルは、入力音声Ｓのそれを正しく反映する。

しかしながら、時間軸修正手順は、ブロック境界の近くで、複数のサンプルを含んでいるかも知れない最初のブロックの一部が、２番目の近くのブロックにシフトされ得ることを引き起こす。最初のブロックのその一部におけるサンプルが、２番目のブロックについて計算された逆フィルタによってフィルタされ、著しく異なった利得を有するおそれがある。もし、高エネルギーの修正されてフィルタされた信号ＭＦＳのサンプルが、それ故に低利得に代えて高利得を有する逆フィルタ７にかけられれば、修正された信号において突然のエネルギー増加が起こる。聴取者はこのようなエネルギーの増加を不愉快な“クリック”ノイズとして知覚する。

図２は、この問題を例証しており、Ｎはブロック数を表し、ｇ_ｄ（Ｎ）はブロックＮに対する前処理フィルタ３の利得を表し、そしてｇ_ｉ（Ｎ）＝１／ｇ_ｄ（Ｎ）はブロックＮに対する逆フィルタ７の利得を表す。

本発明の目的は、逆前処理フィルタ（明示的または暗黙的に存在する）と時間軸修正された信号との間の上述した不整合を回避するための解決策を提供することにある。

本発明は、ＥＸ−ＣＥＬＰまたはＲＣＥＬＰタイプのアプローチを用いた音声コーデック(speech codec)のエンコーダ側で使用され、入力信号は時間軸修正処理により修正されている。時間軸修正は、入力信号の知覚的に重み付けされたバージョンに適用される。その後、修正されてフィルタされた信号が、例えば他のフィルタと組み合わされて、直接的または間接的に、対応する逆フィルタを用いて、他のドメイン、例えば元の音声ドメインまたは残りのドメインに変換される。

本発明は、上述した他のドメインへの変換に含まれる逆フィルタの更新のタイミングを調整することにより、時間軸修正された音声のずれ及び逆フィルタパラメータ更新のずれの結果として生じる副作用(artifacts)を除去する。

時間軸修正手順においては、時間シフト関数が、修正されてフィルタされた信号内にブロック境界を位置させるために有利に計算され、そこでは、逆フィルタパラメータ更新が行われる。時間軸修正手順は、一般に、入ってくるフィルタされた信号におけるそれらの位置に関してそれらのブロック境界をシフトさせる。時間シフト関数は、最も適切な位置で逆前処理フィルタパラメータの更新を実施するため、原信号のブロック境界に対応する、修正されてフィルタされた信号におけるサンプルの位置を評価する。それらの位置でフィルタパラメータを更新することにより、逆フィルタと時間軸修正された信号との間の同時性(synchronicity)が維持され、そして修正されてフィルタされた信号が他のドメインに変換されるときに副作用が除去される。

本発明は、従って、
入力オーディオ信号を分析して、前記オーディオ信号の一連のブロックのそれぞれに対して個別のパラメータセットを決定し、
決定されたフィルタパラメータセットにより、各ブロックについて規定された知覚的重み付けフィルタにおいて入力信号をフィルタリングして、知覚的に重み付けされた信号を生成し、
ピッチ情報に基づき知覚的に重み付けされた信号の時間軸を修正して、修正されてフィルタされた信号を生成し、
ブロック境界を修正されてフィルタされた信号内に位置させ、且つ
前記修正されてフィルタされた信号を処理して符号化パラメータを得るステップを具備する音声符号化方法を提案する。

その後の処理は、知覚的重み付けフィルタに対応する逆フィルタリング操作を含む。前記逆フィルタリング操作は、前記位置されたブロック境界で更新されたフィルタパラメータの一連のセットによって規定される。

本方法の実施形態においては、入力信号を分析するステップは、一連の信号フレームについて実行された線形予測分析を具備し、各フレームは、数ｐの連続したサブフレーム（ｐ≧１）から構成される。そして“ブロック”のそれぞれは、それらのサブフレームから構成されてもよい。そして、ブロック境界を位置させるステップは、各フレームについて、修正されてフィルタされた信号内にそのｐ個のサブフレームの境界を位置させるためにｐ＋１個の値の配列(array)を決定する。

線形予測分析は、好ましくは、このサブフレームを中心とする分析ウィンドウ関数を用いてｐ個のサブフレームのそれぞれに適用されるが、入力信号を分析するステップは、さらに、現在のフレームについて、この最後のサブフレームの中心に関して事前に位置された時間位置に配置された最大値および現在のフレームの最後のサブフレームを中心とする分析ウィンドウ関数のサポートに関して事前に拡張しないサポートを有する対称先見分析ウィンドウ関数を用いた先見線形予測分析(look-ahead linear prediction analysis)を具備する。フレームの終わりに達していない現在のフレームについて決定された配列のｐ＋１番目の値に応答して、逆フィルタリング操作は、前記ｐ＋１番目の値のそばに位置されたブロック境界で都合よく更新されて、先見分析から決定されたフィルタ係数のセットによって規定される。
本発明の他の特徴は、音声符号化装置に関し、概略を述べた本方法を実施するのに適合した手段を具備する。

図３は、図２から明白なミスマッチ問題がどのように軽減されるかを図解する。
入力信号のフレームまたはサブフレーム長に合致する一定長の逆フィルタリングブロックに代えて、可変長逆フィルタリングが適用される。逆フィルタＦ（ｚ，Ｎ＋１）が逆フィルタＦ（ｚ，Ｎ）を置き換える境界は、時間軸修正手順(the time scale modification procedure)に依存する。図３において、Ｔ_０が、時間軸修正前の、フィルタされた信号ＦＳにおけるフレームＮ＋１の最初のサンプル位置を表すものとすれば、修正されてフィルタされた信号において対応するサンプル位置はＴ_１として表される。この位置Ｔ_１は、時間軸修正手順の出力として供給される。本提案による方法においては、逆フィルタリング手順の期間、逆フィルタＦ（ｚ，Ｎ）^−１は、サンプルＴ_０に代えてサンプルＴ_１で次の逆フィルタＦ（ｚ，Ｎ＋１）^−１によって置き換えられる。従って、各サンプルは、サンプルを生じるために使用される知覚的重み付け前処理フィルタに対応するフィルタによって逆フィルタされ、そしてそれは利得ミスマッチ(gain mismatch)のリスクを低減する。

もし、左へのシフトが観察されれば（Ｔ_１＜Ｔ_０）、Ｔ_１の後の修正された信号のサンプルは、入力信号の次のフレームに対応する逆フィルタによってフィルタされなければならない。一般に、このフィルタの良好な近似は、ＬＰＣ分析ステージにおいて実施される先見分析によって既に知られている。この例において先見分析の結果として生じるフィルタを用いることにより、本発明を用いる場合に如何なる付加的な遅延を持ち込むことも回避される。

ＲＣＥＬＰスキームのこのような改善は、図４に例示されるような符号化装置(coder)において達成される。図１に示される公知の構成に対し、変更点は、時間軸修正モジュール１６および逆フィルタリングモジュール１７である。他の要素１〜５および８〜９は、公知のＲＣＥＬＰコーダにおけるものと基本的には同一であってもよいので、同様に参照して表現されている。

例として、本発明による符号化装置(coder)は、図４に示すように、次の特徴を有する低ビットレートで狭帯域の音声符号化装置であってもよい。
・フレーム長が２０ｍｓ、即ち８ｋＨｚサンプリングレートで１６０サンプルである。
・各フレームは、９０サンプルの先見ウィンドウ(a look-ahead window)を用いて、それぞれ、５３、５３および５４サンプルのｐ＝３サブフレーム（ブロック）に分割される。図４は、ＬＰＣ分析モジュール１で使用される種々の分析ウィンドウを例示する。実線の垂直線はフレーム境界であり、一方、破線の垂直線はサブフレーム境界である。対称な実線曲線はサブフレーム分析ウィンドウに対応し、且つ対称な破線曲線は先見部分に対する分析ウィンドウを表す。この先見分析ウィンドウは、フレームの３番目のサブフレームに関する分析ウィンドウと同じサポート(support)を有しているが、先見領域を中心とされる（即ち、その最大値は、次フレームの最初のサブフレームの中心と一直線となるように改善される）。
・オーダー１０(order 10)の短期ＬＰモデルは、信号のスペクトル包絡線を表現するためにＬＰＣ分析モジュール１によって使用される。対応するＬＰフィルタＡ（ｚ）は各サブフレームについて計算される。
・前処理フィルタ３は、下式の形式の適応性のある知覚的重み付けフィルタ(adaptive perceptual weighting filter)である。

ここで、ａ_ｉは、量子化されない１０番目のオーダーのＬＰフィルタ(unquantized 10^th-order LP filter)の係数である。γ_１およびγ_２によって制御される知覚的重み付け量は、例えば米国特許第５８４５２４４で述べられているように、信号のスペクトル形状に依存することに順応性を示す。

信号劣化の原因の一つが連続的な知覚的重み付けフィルタの利得における差であることが指摘されている。その差が大きくなる程、聞こえる劣化(audible degradation)についてのリスクが高くなる。非適応的重み付けフィルタ、即ちγ_１およびγ_２が一定値のフィルタを使用したときでさえ著しい利得の変化が起こり得るにもかかわらず、γ_１およびγ_２の値が非常に速やかに変化することができ、そのことが一つのフレームから次のフレームに著しい利得変化を引き起こすかも知れないので、適応性のある重み付けフィルタは、二つの連続したフィルタ利得が著しく異なる確率を増加させる。本提案された発明は、従って、適応性のある重み付けフィルタを使用する場合を特に対象としている。

重み付けされた音声は、知覚的フィルタ３を用いて入力信号Ｓをフィルタリングすることにより得られ、ａｉ、γ_１およびγ_２によって規定されるそのフィルタの係数は、元のサブフレーム境界で、即ちデジタルサンプル位置０，５３，１０６，１６０で更新される。重み付けされた音声に関してモジュール４によりなされるＬＴ分析は、静止した有声(stationary voiced)であるか否かに応じた各フレームの分類を含む。静止した有声のフレームについて、ピッチ曲線(pitch trajectory)は、例えば、フレームの最後のサンプルに対応するピッチ値(pitch value)および前フレームの最後のピッチ値の線形補間を用いてモジュール５によって計算される。非静止のフレームについては、ピッチ曲線を或る一定のピッチ値に設定することができる。

ＲＣＥＬＰ符号化装置においてはよくある事であるが、時間軸修正モジュール１６は、必要ならば、ピッチ区間基準(a pitch period basis)で重み付けされた音声の時間軸修正を実施してもよい。二つの区間の境界は、二つのピッチパルス間の低エネルギー領域において選択される。そして、目標信号(target signal)は、与えられたピッチ曲線に従って、先の重み付けされた音声のフラクショナルＬＴフィルタリング(fractional LT filtering)により、与えられた区間について計算される。修正されて重み付けされた音声はこの目標信号と一致すべきである。重み付けされた音声の時間軸修正は二つのステップからなる。第１ステップでは、重み付けされた音声のパルスは、目標信号に一致するようにシフトされる。最適なシフト値は、目標信号と重み付けされた音声の間の正規化された相互相関を最大化することにより決定される。第２ステップでは、与えられたパルスに先行し且つ最後の二つのパルス間にあるサンプルは、重み付けされた音声に関して時間軸修正される。これらのサンプルの位置は、第１ステップのシフト操作の関数として、比例的に圧縮または伸張される。蓄積された遅延は、得られた部分的なシフト値(local shift value)に基づき更新され、そして各サブフレームの最後で保存される。

時間軸修正モジュール１６の出力は、（１）時間軸修正されて重み付けされた音声信号ＭＦＳ、および、（２）Ｐ＋１＝４項目ｉ０[０]，ｉ０[１]，ｉ０[２]，ｉ０[３]の配列ｉ０で表される修正されたサブフレーム境界である。これらの修正されたサブフレーム境界は、０≦ｉ０[０]＜ｉ０[１]＜ｉ０[２]＜ｉ０[３]≦１６０という制約付きで、上記保存され蓄積された遅延を用いて計算される。もし、蓄積された遅延がすべてゼロであるならば、元の境界位置は変わらず、即ちｉ０[０]＝０、ｉ０[１]＝５３、ｉ０[２]＝１０６、ｉ０[３]＝１５９である。

図解された実施形態において、音声ドメインへの返還は、逆フィルタ１７を用いてなされ、そのフィルタの伝達関数は、Ｆ（ｚ）^−１＝Ａ（ｚ／γ_２）／Ａ（ｚ／γ_１）である。ここで、係数ａ_ｉ、γ_１、γ_２は、次の方法で配列ｉ０により与えられるサンプル位置で変化する。
・サンプル位置０からｉ０[０]−１に対しては、前フレームの第３サブフレーム（３番目のサブフレーム）のフィルタ係数が使用される。従って、第３サブフレームのフィルタは、少なくとももう一つのサブフレームの期間の間、蓄積されなければならない。
・サンプル位置ｉ０[０]からｉ０[１]−１に対しては、現在フレームの第１サブフレーム（１番目のサブフレーム）のフィルタ係数が使用される。
・サンプル位置ｉ０[１]からｉ０[２]−１に対しては、現在フレームの第２サブフレーム（２番目のサブフレーム）のフィルタ係数が使用される。
・サンプル位置ｉ０[２]からｉ０[３]−１に対しては、現在フレームの第３サブフレーム（３番目のサブフレーム）のフィルタ係数が使用される。
・サンプル位置ｉ０[３]から１５９（ｉ０[３]＜１６０の場合）、先見分析ウィンドウ(look-ahead analysis window)に対応するフィルタ係数が使用される。このようにモデル化されたフィルタは、それらが同一のサブフレームを中心とする分析ウィンドウに関して計算されるので、次フレームの第１サブフレーム（１番目のサブフレーム）のフィルタの良好な近似となる。この近似を使用することにより、付加的な遅延を取り入れる必要性が回避される。さもなければ、次フレームの第１サブフレームのＬＰ分析をなすために、５４の余分なサンプルが必要になる。

従って、重み付けされた音声の各領域は、適切なフィルタ１７により、即ち分析のために使用されたフィルタの逆によって逆フィルタされる。このことにより、（図２におけるような）フィルタ利得のミスマッチによる突発的なエネルギーの増大(sudden energy bursts)を回避する。

従来技術によるＲＣＥＬＰを示すブロックダイアグラムの図である。図１を参照して述べたタイプの或るＲＤＥＬＰコーダで遭遇する“クリック”ノイズ問題を図解するタイミングダイアグラムの図である。本発明によるＲＣＥＬＰコーダの動作を図解するブロックダイアグラムの図である。本発明によるＲＣＥＬＰコーダの一例のブロックダイアグラムの図である。本発明の特定の実施形態において用いられる分析ウィンドウ関数を図解するタイミングダイアグラムの図である。

符号の説明

１線形予測符号化分析モジュール
２モジュール（Ｆ（ｚ）パラメータ計算）
３前処理フィルタ
４ピッチ分析モジュール
５モジュール（ピッチ曲線計算）
８エンコーダ
９マルチプレクサ
１６時間軸修正モジュール
１７逆フィルタリングモジュール

Claims

入力オーディオ信号を分析して、前記オーディオ信号の一連のブロックのそれぞれに対して個別のパラメータセットを決定するステップと、
決定されたフィルタパラメータセットにより、各ブロックについて規定された知覚的重み付けフィルタにおいて入力信号をフィルタリングして、知覚的に重み付けされた信号を生成するステップと、
ピッチ情報に基づき知覚的に重み付けされた信号の時間軸を修正して、修正されてフィルタされた信号を生成するステップと、
修正されてフィルタされた信号内にブロック境界を位置させるステップと、
前記修正されてフィルタされた信号を処理して符号化パラメータを得るステップとを具備し、
前記処理は、知覚的重み付けフィルタに対応する逆フィルタリング操作を含み、且つ、前記逆フィルタリング操作は、前記位置されたブロック境界で更新されたフィルタパラメータの一連のセットによって規定される音声符号化方法。
前記知覚的重み付けフィルタは、適応的知覚的重み付けフィルタであることを特徴とする請求項１に記載された音声符号化方法。
前記知覚的重み付けフィルタは、Ａ（ｚ／γ_１）／Ａ（ｚ／γ_２）なる形式の伝達関数を有し、ここでＡ（ｚ）は、入力信号を分析するステップにおいて評価された線形予測フィルタの伝達関数であり、且つ、γ_１およびγ_２は、知覚的重み付けの量を制御するための適応的係数であることを特徴とする請求項２に記載された音声符号化方法。
ブロック境界を位置させるステップは、
知覚的に重み付けされた信号の各ブロックのサンプルに適用された時間軸修正の結果生じる遅延を蓄積するステップと、
修正されてフィルタされた信号内にブロック境界を位置させるためにブロックの最後で蓄積された遅延値を保存するステップと、
を具備することを特徴とする請求項１に記載された音声符号化方法。
前記入力信号を分析するステップは、一連の信号フレームについて実行された線形予測分析を具備し、各フレームは、数ｐの連続したサブフレーム（ｐ≧１）から構成され、ここでｐは少なくとも１に等しい整数であり、前記ブロックのそれぞれは、前記サブフレームの個々の１つから構成され、且つ、前記ブロック境界を位置させるステップは、各フレームについて、修正されてフィルタされた信号内に前記フレームのｐ個のサブフレームの境界を位置させるためにｐ＋１個の値の配列を決定するステップとを具備することを特徴とする請求項１に記載された音声符号化方法。
前記線形予測分析は、前記サブフレームを中心とする分析ウィンドウ関数を用いてｐ個のサブフレームのそれぞれに適用され、
前記入力信号を分析するステップは、現在のフレームについて、前記最後のサブフレームの中心に関して事前に位置された時間位置に配置された最大値および現在のフレームの最後のサブフレームを中心とする分析ウィンドウ関数のサポートに関して事前に拡張しないサポートを有する対称先見分析ウィンドウ関数を用いた先見線形予測分析をさらに具備し、
且つ、フレームの終わりに達していない現在のフレームについて決定された配列のｐ＋１番目の値に応答して、逆フィルタリング操作は、前記ｐ＋１番目の値のそばに位置されたブロック境界で更新されて、先見分析から決定されたフィルタ係数のセットによって規定される請求項５に記載された音声符号化方法。
前記先見分析ウィンドウ関数は、現在のフレームに続くフレームの第１サブフレームの中心に配置されたその最大値を有することを特徴とする請求項６に記載された音声符号化方法。
前記修正されてフィルタされた信号を処理するステップで得られた前記符号化パラメータは、ＣＥＬＰ符号化パラメータを具備することを特徴とする請求項１に記載された音声符号化方法。
入力オーディオ信号を分析して、前記オーディオ信号の一連のブロックのそれぞれに対して個別のパラメータセットを決定する手段と、
前記入力信号をフィルタリングすると共に知覚的に重み付けされた信号を生成するために、決定されたフィルタパラメータセットにより、各ブロックについて規定された知覚的重み付けフィルタと、
ピッチ情報に基づき知覚的に重み付けされた信号の時間軸を修正して、修正されてフィルタされた信号を生成する手段と、
修正されてフィルタされた信号内にブロック境界を位置させる手段と、
前記修正されてフィルタされた信号を処理して符号化パラメータを得る手段と
を具備し、
前記処理は、知覚的重み付けフィルタに対応する逆フィルタリング操作を含み、且つ、前記逆フィルタリング操作は、前記位置されたブロック境界で更新されたフィルタパラメータの一連のセットによって規定される音声符号化装置。
前記知覚的重み付けフィルタは、適応的知覚的重み付けフィルタであることを特徴とする請求項９に記載された音声符号化装置。
前記知覚的重み付けフィルタは、Ａ（ｚ／γ_１）／Ａ（ｚ／γ_２）なる形式の伝達関数を有し、ここでＡ（ｚ）は、入力信号を分析する手段を用いて評価された線形予測フィルタの伝達関数であり、且つ、γ_１およびγ_２は、知覚的重み付けの量を制御するための適応的係数であることを特徴とする請求項１０に記載された音声符号化装置。
前記ブロック境界を位置させる手段は、
知覚的に重み付けされた信号の各ブロックのサンプルに適用された時間軸修正の結果生じる遅延を蓄積し、且つ、修正されてフィルタされた信号内にブロック境界を位置させるためにブロックの最後で蓄積された遅延値を保存するための手段を具備することを特徴とする請求項９に記載された音声符号化装置。
前記入力信号を分析する手段は、一連の信号フレームについて線形予測分析を実行するための手段を具備し、各フレームは、数ｐの連続したサブフレームから構成され、ｐは少なくとも１に等しい整数であり、前記ブロックのそれぞれは、前記サブフレームの１つから構成され、且つ、前記ブロック境界を位置させる手段は、各フレームについて、修正されてフィルタされた信号内に前記フレームのｐ個のサブフレームの境界を位置させるためにｐ＋１個の値の配列を決定するための手段とを具備することを特徴とする請求項９に記載された音声符号化装置。
前記線形予測分析手段は、前記サブフレームを中心とする分析ウィンドウ関数を用いてｐ個のサブフレームのそれぞれに対する処理を行うように構成され、
前記入力信号を分析する手段は、前記最後のサブフレームの中心に関して事前に位置された時間位置に配置された最大値および現在のフレームの最後のサブフレームを中心とする分析ウィンドウ関数のサポートに関して事前に拡張しないサポートを有する対称先見分析ウィンドウ関数を用いて現在のフレームを処理する先見線形予測分析手段をさらに具備し、
且つ、前記修正されてフィルタされた信号を処理するための手段は、先見分析から決定されたフィルタ係数のセットにより、更新された逆フィルタリング操作を規定するために、現在のフレームの終わりに達していないｐ＋１番目の値に応答して、現在のフレームについて決定された配列の前記ｐ＋１番目の値のそばに位置されたブロック境界で逆フィルタリング操作を更新するように構成されたことを特徴とする請求項１３に記載された音声符号化装置。
前記先見分析ウィンドウ関数は、現在のフレームに続くフレームの第１サブフレームの中心に配置されたその最大値を有することを特徴とする請求項１４に記載された音声符号化装置。
前記修正されてフィルタされた信号を処理するための手段により得られた前記符号化パラメータは、ＣＥＬＰ符号化パラメータを具備することを特徴とする請求項９に記載された音声符号化装置。