JP2004163959A - 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 - Google Patents

汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 Download PDF

Info

Publication number
JP2004163959A
JP2004163959A JP2003384245A JP2003384245A JP2004163959A JP 2004163959 A JP2004163959 A JP 2004163959A JP 2003384245 A JP2003384245 A JP 2003384245A JP 2003384245 A JP2003384245 A JP 2003384245A JP 2004163959 A JP2004163959 A JP 2004163959A
Authority
JP
Japan
Prior art keywords
signal
filter
frame
modified
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003384245A
Other languages
English (en)
Inventor
Balazs Kovesi
バラーツ・コヴシー
Dominique Massaloux
ドミニク・マサルー
Claude Lamblin
クロード・ランブラン
Yang Gao
ガオ・ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Mindspeed Technologies LLC
Original Assignee
France Telecom SA
Mindspeed Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA, Mindspeed Technologies LLC filed Critical France Telecom SA
Publication of JP2004163959A publication Critical patent/JP2004163959A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

【課題】 逆前処理フィルタ(明示的または暗黙的な存在)と時間軸修正された信号との間の上述した不整合を回避するための解決策を提供する。
【解決手段】 エンコーダ側で、音声信号は、時間軸修正モジュールに入力するに先だって知覚的に重み付けされた信号であり、対応する逆フィルタリング操作、あるいは例えば短期LPフィルタリングなどの他の処理と組み合わせられた逆フィルタリング操作を用いて、修正された信号が他のドメインに変換された信号である。シフト関数は、時間軸修正処理で計算されて、修正された信号における各サンプルの位置が修正の前のその原位置に関連付けられる。原信号のサブフレーム境界に対応する修正された信号におけるサンプルの位置は、適切な瞬間にフィルタを逆フィルタリングにスイッチするために評価される。従って、逆フィルタと修正された信号との間の同時性が維持される。
【選択図】 図4

Description

本発明は、汎用AbS(Generalized analysis-by-synthesis)音声符号化(speech coding)を用いた技術による符号化(coding)に関し、更に詳しくは、RCELP(Relaxed Code-Excited Linear Prediction)として知られている技術およびそのような技術に関する。
従来、音声符号化の枠組みの大分類は、予測符号化の概念の周囲に確立された。予測音声符号化装置は、中程度から低程度のビットレートでの通信および記録装置に広く使用されている。
予測音声符号化への最も一般的で現実的なアプローチは、線形予測(LP; linear prediction)スキームであり、そのスキームでは、先に伝送されて復号された信号サンプルの一次結合(linear combination)によって現在の信号値が評価(estimate)される。当初は、入力信号のスペクトル形状に密接に関連する短期(ST; short term)の線形予測が音声を符号化するために使用された。とりわけ有声の音声セグメント(voiced speech segments)については、音声信号の調和構造を獲得するために、長期(LT; long term)の線形予測がさらに導入された。
AbS(analysis-by-synthesis)アプローチは、長期の線形予測およびコードブックエキサイテーション探索(codebook excitation search)を用いて、もうひとつの短期の線形予測(LP)の最適な分析および符号化のための有効な手段を提供する。AbSスキームは、CELP(Code-Excited Linear Prediction)符号化装置および自励式のボコーダ(Self-Exited Vocoder)(A. Gersho, “Advances in Speech and Audio Compression”, Proc. Of the IEEE, Vol.82, No.6, pp.900-918, June 1994)を含む音声符号化装置の大きなファミリの基礎である。
音声符号化技術が発達するに従い、“ピッチ予測(pitch prediction)”としても参照されるエンコーダでの長期LP分析、およびデコーダでの長期LP合成が発達した。当初はシングルタップフィルタとしてモデル化された長期LPは、拡張されて、マルチタップフィルタを含む(R.P. Ramachandran and P. Kabal, “Stability and Performance Analysis of Pitch Filters in Speech Coders”, IEEE Trans. On ASSP, Vol.35, No.7,pp.937-948, July 1987)。そして、補間フィルタ(interpolation filter)と共にオーバサンプリング及びサブサンプリングを用いて、小さな遅延(fractional delay)が導入された(P. Kroon and B.S. Atal, “Pitch Predictors with High Temporal Resolution”, Proc. ICASSP Vol.2, April 1990, pp.661-664)。
当初のシングルタップフィルタのこれらの拡張は、有声の音声における声門源(glottal source)により生じるLT冗長性(LT redundancies)を獲得することを改善するためにデザインされた。LTマッチング(LT matching)が良くなり、且つLPエキサイテーション(LT excitation)が良くなる程、全体のパフォーマンスが良くなる。マッチング精度は、LTパラメータの頻繁なリフレッシュによっても改善することができる。しかしながら、マルチタップLT予測器、またはLTパラメータのための高い更新レートは、それらを表すための多くのビットを必要とし、そしてそれはビットレートを著しく増加させる。このコストは低ビットレート符号化装置の場合においては高額であり、従ってその場合には他の解決策が必要である。
上記LT予測アプローチのいくつかの制限を克服するため、汎用AbS符号化(Generalized Analysis-by-Synthesis coding)が導入された(W.E. Kleijin et al., ”Generalized Analysis-by-Synthesis Coding and Application to Pitch Prediction”, Proc. ICASSP, Vol.1, 1992, pp.337-340)。このスキームにおいては、修正された信号が知覚的に原信号(original signal)に近いか同一であるという制約付きで、原信号が符号化に先だって修正される。その修正は、符号化装置パラメータ(coder parameters)、さらに正確にはピッチ予測パラメータ(pitch prediction parameters)が、特定のピッチ周期曲線(pitch period contour)と一致することを強いられるというものである。ピッチ曲線(pitch contour)は、ピッチラグ(pitch lag)に対し低分解能表現を用いて、フレーム毎の基準でピッチ予測パラメータの補間によって得られ、ピッチラグはLT予測パラメータの表現に必要なビットレートを制限する。
ピッチ曲線を一致させるために行われる修正は、時間軸修正(time scale modification)または“タイムワーピング(time warping)”と呼ばれている(W.E. Kleijin et al., “Interpolation of the Pitch Predictor parameters in Analysis-by-Synthesis Speech Coders”, IEEE Trans. On SAP. Vol.2. No.1, part I, January 1994, pp.42-54)。時間軸修正の目標は、原信号の主な特徴を、励起信号(excitation signal)へのLT予測寄与(LP prediction contribution)のそれに合わせることである。
RCELP符号化装置は、「W.E. Kleijin et al., “The RCELP Speech-Coding Algorithm”, European Trans. In Telecommunications, Vol.4, No.5, September-October 1994, pp.573-582」において述べられているように、ピッチパラメータに適用される上述の汎用AbS構想を用いることにより従来のCELP符号化装置から導き出される。
RCELP符号化装置の主な特徴は次のようである。CELP符号化装置のように、短期のLP係数が最初に評価される(通常、フレーム毎に一度、時には中間リフレッシュを用いて)。フレーム長は、代表的には10から30msの間で変わり得る。RCELP符号化装置においては、健全なピッチ検出アルゴリズムを用いて、ピッチ周期もまたフレーム毎の基準で評価される。そして、ピッチ周期曲線は、フレーム毎のピッチ周期を補間することにより得られる。原信号は、このピッチ曲線に一致するように修正される。初期の実施(米国特許番号5704003)においては、この時間軸修正処理は、短期LPの残りの信号について実施された。しかしながら、好ましい解決策は、知覚的に重み付けされた入力信号を使用することであり、それは、「J. Thyssen at al., “A candidate for the ITU-T 4kbit/s Speech Coding Standard”, Proc. ICASSP, Vol.2, Salt Lake City, Utah, USA, May 2001, pp.681-684」において、または「Yang Gao et al., “EX-CELP: A Speech Coding Paradigm”, Proc. ICASSP, Vol.2, Salt Lake City, Utah, USA, May 2001, pp.689-693」においてなされたように、知覚的重み付けフィルタ(perceptual weighting filter)を通して入力信号をフィルタリングすることによって得られる。
修正された音声信号は、それから逆の前処理フィルタを用いて逆フィルタリングを行うことにより得られる一方、その後の符号化の動作は、従来のCELP符号化装置において実施されるものと同一でもよい。
修正された入力信号は、実のところ、時間軸修正に先だって実施されるフィルタリングの種類に依存し、且つ、時間軸修正モジュールに続くCELP符号化装置に取り入れられた構造に依存して計算される。
CELP符号化装置の固定されたコードブックの検索に使用される知覚的重み付けフィルタが、A(z)/A(z/γ)の形式であって、ここでA(z)がLPフィルタであり、γが重み係数(weighting factor)である場合、たった一つの再帰的なフィルタリングが目標演算(target computation)に含まれる。従って残りの信号がコードブックの検索に必要とされる。RCELP符号化の例においては、修正された原信号の演算は、もし時間軸修正がこの残りの信号に関して実施されれば、必要とされないかもしれない。重み係数γおよびγを有するA(z/γ)/A(z/γ)の形式の知覚的重み付けフィルタは、米国特許番号5845244に開示されているように、より良い性能を提供することが知られており、更に詳しくは適応的知覚的フィルタ、即ちγおよびγが可変のフィルタを提供することが知られている。このような重み付けフィルタがCELP手順で使用される場合、目標評価(target evaluation)は二つの再帰的フィルタを持ち込む。
多くのCELP構成(例えば、R. Salami et al., “Design and description of CS-ACELP: a toll quality 8 kb/s speech coder”, IEEE Trans. On Speech and Audio Processing, Vol.6, No.2, March 1998)において、中間フィルタリング処理は、記録として過去の重み付けされたエラー信号と共に現在の残りの信号をLP合成フィルタに与える。入力信号は、フレーム処理の最後にエラー信号更新と残りの演算との双方に取り込まれる。
RCELPの例においては、このスキームの正攻法の実施は、修正された原入力を演算することの必要性を持ち込む。しかしながら、修正された入力信号を必要としない同等のスキームを導き出すことができる。これらは、もし時間軸修正が残りの信号に適用されたのであればこの残りの信号、または、もし時間軸修正が重み付けされた音声に適用されたのであればこの修正された重み付けされた入力の何れかの使用に基づく。
実際のところ、RCELP符号化装置は、上述した類の構成を用いて、修正された原信号を演算することを実際には行わない。
図1に、公知のRCELP符号化装置のブロックダイアグラムを示す。線形予測符号化(LCP; linear predictive coding)分析モジュール1は、最初に入力オーディオ信号Sを処理し、前処理フィルタ3の係数を計算するモジュール2で使用されるLPCパラメータを供給する。モジュール2の伝達関数はF(z)で表される。このフィルタ3は、入力信号Sを入力し、前処理信号FSをピッチ分析モジュール4に供給する。このように評価されたピッチパラメータは、ピッチ曲線(pitch trajectory)を導き出すためにモジュール5によって処理される。
フィルタを通った入力FSは、さらに、モジュール5によって得られたピッチ曲線に基づき、修正されてフィルタされた信号MFSを供給する時間軸修正モジュール6に与えられる。伝達関数F(z)−1のフィルタ7を用いた逆フィルタリングは、修正された入力信号MSを供給するために、修正されてフィルタされた信号MFSに適用され、入力信号MSは従来のCELP符号化装置8に与えられる。
RCELP符号化装置のデジタル出力フローΦは、マルチプレクサ9に集められ、通常、モジュール1,4によって演算されたLPCパラメータおよびピッチラグのための量子化データ、エンコーダ8によって得られたCELPコードブックインデックス、およびエンコーダ8によってまた得られたLT予測およびCELP励起に関連する利得のための量子化データを含む。
直接的逆フィルタリング関数7に代えて、修正されてフィルタされた信号を他のドメイン(domain)へ変換してもよい。この所見は本明細書で議論された従来技術にも当てはまり、且つ、また後で議論される本発明についても当てはまる。一例として、このようなドメインは、残りのドメイン(residual domain)、CELPエンコーダの短期LPフィルタリングのように、他の処理と結合して使用される逆前処理フィルタF(z)−1であってもよい。この問題をもっと直接的に理解するために、次の議論では、修正された信号が実際に演算される例、即ち逆前処理フィルタ7が積極的に使用される場合を検討する。
ほとんどのAbS音声符号化方法において、音声処理は、短期LP分析周期に対応する5から30msの代表的な長さを有する音声フレームに関して実施される。フレーム内では、信号は固定されているものと仮定され、且つフレームに関連するパラメータは一定に維持される。これは、一般にF(z)フィルタにも同様に当てはまり、そして、その係数は従ってフレーム毎の基準で更新される。LP分析はフレーム内で1回以上実施され得ると共に、フィルタF(z)もまたサブフレーム毎の基準で変わり得ることが分かる。これは、例えば、LPフィルタのイントラフレーム(intra-frame)補間が使用される例である。
以下では、用語“ブロック”は、前処理フィルタパラメータの更新周期性(updating periodicity)に対応するものとして使用される。当業者であれば、このような“ブロック”が、符号化アーキテクチャに依存して、一般にLP分析フレームや、このようなLP分析フレームのサブフレーム等から構成されることが分かるであろう。
線形フィルタに関連する利得(gain)は、その入力信号のエネルギーに対する出力信号のエネルギーの比として規定される。明らかに、線形フィルタの高利得は逆線形フィルタの低利得に相当し、その逆も同様である。
二つの連続したブロックについて計算された前処理フィルタ3が著しく異なる利得を有する一方、原音声Sのエネルギーが双方のブロックにおいて似ていることが起こり得る。フィルタ利得が異なるので、二つのブロックについてフィルタされた信号FSのエネルギーは同様に著しく異なる。時間軸修正を用いないで、より高いエネルギーのフィルタされたブロックの全サンプルは、より低い利得の逆線形フィルタ7によって逆フィルタされ、一方、低エネルギーのフィルタされたブロックの全サンプルは、より高い利得の逆線形フィルタ7によって逆フィルタされるであろう。この例では、修正された信号MSのエネルギープロファイルは、入力音声Sのそれを正しく反映する。
しかしながら、時間軸修正手順は、ブロック境界の近くで、複数のサンプルを含んでいるかも知れない最初のブロックの一部が、2番目の近くのブロックにシフトされ得ることを引き起こす。最初のブロックのその一部におけるサンプルが、2番目のブロックについて計算された逆フィルタによってフィルタされ、著しく異なった利得を有するおそれがある。もし、高エネルギーの修正されてフィルタされた信号MFSのサンプルが、それ故に低利得に代えて高利得を有する逆フィルタ7にかけられれば、修正された信号において突然のエネルギー増加が起こる。聴取者はこのようなエネルギーの増加を不愉快な“クリック”ノイズとして知覚する。
図2は、この問題を例証しており、Nはブロック数を表し、g(N)はブロックNに対する前処理フィルタ3の利得を表し、そしてg(N)=1/g(N)はブロックNに対する逆フィルタ7の利得を表す。
本発明の目的は、逆前処理フィルタ(明示的または暗黙的に存在する)と時間軸修正された信号との間の上述した不整合を回避するための解決策を提供することにある。
本発明は、EX−CELPまたはRCELPタイプのアプローチを用いた音声コーデック(speech codec)のエンコーダ側で使用され、入力信号は時間軸修正処理により修正されている。時間軸修正は、入力信号の知覚的に重み付けされたバージョンに適用される。その後、修正されてフィルタされた信号が、例えば他のフィルタと組み合わされて、直接的または間接的に、対応する逆フィルタを用いて、他のドメイン、例えば元の音声ドメインまたは残りのドメインに変換される。
本発明は、上述した他のドメインへの変換に含まれる逆フィルタの更新のタイミングを調整することにより、時間軸修正された音声のずれ及び逆フィルタパラメータ更新のずれの結果として生じる副作用(artifacts)を除去する。
時間軸修正手順においては、時間シフト関数が、修正されてフィルタされた信号内にブロック境界を位置させるために有利に計算され、そこでは、逆フィルタパラメータ更新が行われる。時間軸修正手順は、一般に、入ってくるフィルタされた信号におけるそれらの位置に関してそれらのブロック境界をシフトさせる。時間シフト関数は、最も適切な位置で逆前処理フィルタパラメータの更新を実施するため、原信号のブロック境界に対応する、修正されてフィルタされた信号におけるサンプルの位置を評価する。それらの位置でフィルタパラメータを更新することにより、逆フィルタと時間軸修正された信号との間の同時性(synchronicity)が維持され、そして修正されてフィルタされた信号が他のドメインに変換されるときに副作用が除去される。
本発明は、従って、
入力オーディオ信号を分析して、前記オーディオ信号の一連のブロックのそれぞれに対して個別のパラメータセットを決定し、
決定されたフィルタパラメータセットにより、各ブロックについて規定された知覚的重み付けフィルタにおいて入力信号をフィルタリングして、知覚的に重み付けされた信号を生成し、
ピッチ情報に基づき知覚的に重み付けされた信号の時間軸を修正して、修正されてフィルタされた信号を生成し、
ブロック境界を修正されてフィルタされた信号内に位置させ、且つ
前記修正されてフィルタされた信号を処理して符号化パラメータを得るステップを具備する音声符号化方法を提案する。
その後の処理は、知覚的重み付けフィルタに対応する逆フィルタリング操作を含む。前記逆フィルタリング操作は、前記位置されたブロック境界で更新されたフィルタパラメータの一連のセットによって規定される。
本方法の実施形態においては、入力信号を分析するステップは、一連の信号フレームについて実行された線形予測分析を具備し、各フレームは、数pの連続したサブフレーム(p≧1)から構成される。そして“ブロック”のそれぞれは、それらのサブフレームから構成されてもよい。そして、ブロック境界を位置させるステップは、各フレームについて、修正されてフィルタされた信号内にそのp個のサブフレームの境界を位置させるためにp+1個の値の配列(array)を決定する。
線形予測分析は、好ましくは、このサブフレームを中心とする分析ウィンドウ関数を用いてp個のサブフレームのそれぞれに適用されるが、入力信号を分析するステップは、さらに、現在のフレームについて、この最後のサブフレームの中心に関して事前に位置された時間位置に配置された最大値および現在のフレームの最後のサブフレームを中心とする分析ウィンドウ関数のサポートに関して事前に拡張しないサポートを有する対称先見分析ウィンドウ関数を用いた先見線形予測分析(look-ahead linear prediction analysis)を具備する。フレームの終わりに達していない現在のフレームについて決定された配列のp+1番目の値に応答して、逆フィルタリング操作は、前記p+1番目の値のそばに位置されたブロック境界で都合よく更新されて、先見分析から決定されたフィルタ係数のセットによって規定される。
本発明の他の特徴は、音声符号化装置に関し、概略を述べた本方法を実施するのに適合した手段を具備する。
図3は、図2から明白なミスマッチ問題がどのように軽減されるかを図解する。
入力信号のフレームまたはサブフレーム長に合致する一定長の逆フィルタリングブロックに代えて、可変長逆フィルタリングが適用される。逆フィルタF(z,N+1)が逆フィルタF(z,N)を置き換える境界は、時間軸修正手順(the time scale modification procedure)に依存する。図3において、Tが、時間軸修正前の、フィルタされた信号FSにおけるフレームN+1の最初のサンプル位置を表すものとすれば、修正されてフィルタされた信号において対応するサンプル位置はTとして表される。この位置Tは、時間軸修正手順の出力として供給される。本提案による方法においては、逆フィルタリング手順の期間、逆フィルタF(z,N)−1は、サンプルTに代えてサンプルTで次の逆フィルタF(z,N+1)−1によって置き換えられる。従って、各サンプルは、サンプルを生じるために使用される知覚的重み付け前処理フィルタに対応するフィルタによって逆フィルタされ、そしてそれは利得ミスマッチ(gain mismatch)のリスクを低減する。
もし、左へのシフトが観察されれば(T<T)、Tの後の修正された信号のサンプルは、入力信号の次のフレームに対応する逆フィルタによってフィルタされなければならない。一般に、このフィルタの良好な近似は、LPC分析ステージにおいて実施される先見分析によって既に知られている。この例において先見分析の結果として生じるフィルタを用いることにより、本発明を用いる場合に如何なる付加的な遅延を持ち込むことも回避される。
RCELPスキームのこのような改善は、図4に例示されるような符号化装置(coder)において達成される。図1に示される公知の構成に対し、変更点は、時間軸修正モジュール16および逆フィルタリングモジュール17である。他の要素1〜5および8〜9は、公知のRCELPコーダにおけるものと基本的には同一であってもよいので、同様に参照して表現されている。
例として、本発明による符号化装置(coder)は、図4に示すように、次の特徴を有する低ビットレートで狭帯域の音声符号化装置であってもよい。
・フレーム長が20ms、即ち8kHzサンプリングレートで160サンプルである。
・各フレームは、90サンプルの先見ウィンドウ(a look-ahead window)を用いて、それぞれ、53、53および54サンプルのp=3サブフレーム(ブロック)に分割される。図4は、LPC分析モジュール1で使用される種々の分析ウィンドウを例示する。実線の垂直線はフレーム境界であり、一方、破線の垂直線はサブフレーム境界である。対称な実線曲線はサブフレーム分析ウィンドウに対応し、且つ対称な破線曲線は先見部分に対する分析ウィンドウを表す。この先見分析ウィンドウは、フレームの3番目のサブフレームに関する分析ウィンドウと同じサポート(support)を有しているが、先見領域を中心とされる(即ち、その最大値は、次フレームの最初のサブフレームの中心と一直線となるように改善される)。
・オーダー10(order 10)の短期LPモデルは、信号のスペクトル包絡線を表現するためにLPC分析モジュール1によって使用される。対応するLPフィルタA(z)は各サブフレームについて計算される。
・前処理フィルタ3は、下式の形式の適応性のある知覚的重み付けフィルタ(adaptive perceptual weighting filter)である。
Figure 2004163959
ここで、aは、量子化されない10番目のオーダーのLPフィルタ(unquantized 10th-order LP filter)の係数である。γおよびγによって制御される知覚的重み付け量は、例えば米国特許第5845244で述べられているように、信号のスペクトル形状に依存することに順応性を示す。
信号劣化の原因の一つが連続的な知覚的重み付けフィルタの利得における差であることが指摘されている。その差が大きくなる程、聞こえる劣化(audible degradation)についてのリスクが高くなる。非適応的重み付けフィルタ、即ちγおよびγが一定値のフィルタを使用したときでさえ著しい利得の変化が起こり得るにもかかわらず、γおよびγの値が非常に速やかに変化することができ、そのことが一つのフレームから次のフレームに著しい利得変化を引き起こすかも知れないので、適応性のある重み付けフィルタは、二つの連続したフィルタ利得が著しく異なる確率を増加させる。本提案された発明は、従って、適応性のある重み付けフィルタを使用する場合を特に対象としている。
重み付けされた音声は、知覚的フィルタ3を用いて入力信号Sをフィルタリングすることにより得られ、ai、γおよびγによって規定されるそのフィルタの係数は、元のサブフレーム境界で、即ちデジタルサンプル位置0,53,106,160で更新される。重み付けされた音声に関してモジュール4によりなされるLT分析は、静止した有声(stationary voiced)であるか否かに応じた各フレームの分類を含む。静止した有声のフレームについて、ピッチ曲線(pitch trajectory)は、例えば、フレームの最後のサンプルに対応するピッチ値(pitch value)および前フレームの最後のピッチ値の線形補間を用いてモジュール5によって計算される。非静止のフレームについては、ピッチ曲線を或る一定のピッチ値に設定することができる。
RCELP符号化装置においてはよくある事であるが、時間軸修正モジュール16は、必要ならば、ピッチ区間基準(a pitch period basis)で重み付けされた音声の時間軸修正を実施してもよい。二つの区間の境界は、二つのピッチパルス間の低エネルギー領域において選択される。そして、目標信号(target signal)は、与えられたピッチ曲線に従って、先の重み付けされた音声のフラクショナルLTフィルタリング(fractional LT filtering)により、与えられた区間について計算される。修正されて重み付けされた音声はこの目標信号と一致すべきである。重み付けされた音声の時間軸修正は二つのステップからなる。第1ステップでは、重み付けされた音声のパルスは、目標信号に一致するようにシフトされる。最適なシフト値は、目標信号と重み付けされた音声の間の正規化された相互相関を最大化することにより決定される。第2ステップでは、与えられたパルスに先行し且つ最後の二つのパルス間にあるサンプルは、重み付けされた音声に関して時間軸修正される。これらのサンプルの位置は、第1ステップのシフト操作の関数として、比例的に圧縮または伸張される。蓄積された遅延は、得られた部分的なシフト値(local shift value)に基づき更新され、そして各サブフレームの最後で保存される。
時間軸修正モジュール16の出力は、(1)時間軸修正されて重み付けされた音声信号MFS、および、(2)P+1=4項目i0[0],i0[1],i0[2],i0[3]の配列i0で表される修正されたサブフレーム境界である。これらの修正されたサブフレーム境界は、0≦i0[0]<i0[1]<i0[2]<i0[3]≦160という制約付きで、上記保存され蓄積された遅延を用いて計算される。もし、蓄積された遅延がすべてゼロであるならば、元の境界位置は変わらず、即ちi0[0]=0、i0[1]=53、i0[2]=106、i0[3]=159である。
図解された実施形態において、音声ドメインへの返還は、逆フィルタ17を用いてなされ、そのフィルタの伝達関数は、F(z)−1=A(z/γ)/A(z/γ)である。ここで、係数a、γ、γは、次の方法で配列i0により与えられるサンプル位置で変化する。
・サンプル位置0からi0[0]−1に対しては、前フレームの第3サブフレーム(3番目のサブフレーム)のフィルタ係数が使用される。従って、第3サブフレームのフィルタは、少なくとももう一つのサブフレームの期間の間、蓄積されなければならない。
・サンプル位置i0[0]からi0[1]−1に対しては、現在フレームの第1サブフレーム(1番目のサブフレーム)のフィルタ係数が使用される。
・サンプル位置i0[1]からi0[2]−1に対しては、現在フレームの第2サブフレーム(2番目のサブフレーム)のフィルタ係数が使用される。
・サンプル位置i0[2]からi0[3]−1に対しては、現在フレームの第3サブフレーム(3番目のサブフレーム)のフィルタ係数が使用される。
・サンプル位置i0[3]から159(i0[3]<160の場合)、先見分析ウィンドウ(look-ahead analysis window)に対応するフィルタ係数が使用される。このようにモデル化されたフィルタは、それらが同一のサブフレームを中心とする分析ウィンドウに関して計算されるので、次フレームの第1サブフレーム(1番目のサブフレーム)のフィルタの良好な近似となる。この近似を使用することにより、付加的な遅延を取り入れる必要性が回避される。さもなければ、次フレームの第1サブフレームのLP分析をなすために、54の余分なサンプルが必要になる。
従って、重み付けされた音声の各領域は、適切なフィルタ17により、即ち分析のために使用されたフィルタの逆によって逆フィルタされる。このことにより、(図2におけるような)フィルタ利得のミスマッチによる突発的なエネルギーの増大(sudden energy bursts)を回避する。
従来技術によるRCELPを示すブロックダイアグラムの図である。 図1を参照して述べたタイプの或るRDELPコーダで遭遇する“クリック”ノイズ問題を図解するタイミングダイアグラムの図である。 本発明によるRCELPコーダの動作を図解するブロックダイアグラムの図である。 本発明によるRCELPコーダの一例のブロックダイアグラムの図である。 本発明の特定の実施形態において用いられる分析ウィンドウ関数を図解するタイミングダイアグラムの図である。
符号の説明
1 線形予測符号化分析モジュール
2 モジュール(F(z)パラメータ計算)
3 前処理フィルタ
4 ピッチ分析モジュール
5 モジュール(ピッチ曲線計算)
8 エンコーダ
9 マルチプレクサ
16 時間軸修正モジュール
17 逆フィルタリングモジュール

Claims (16)

  1. 入力オーディオ信号を分析して、前記オーディオ信号の一連のブロックのそれぞれに対して個別のパラメータセットを決定するステップと、
    決定されたフィルタパラメータセットにより、各ブロックについて規定された知覚的重み付けフィルタにおいて入力信号をフィルタリングして、知覚的に重み付けされた信号を生成するステップと、
    ピッチ情報に基づき知覚的に重み付けされた信号の時間軸を修正して、修正されてフィルタされた信号を生成するステップと、
    修正されてフィルタされた信号内にブロック境界を位置させるステップと、
    前記修正されてフィルタされた信号を処理して符号化パラメータを得るステップとを具備し、
    前記処理は、知覚的重み付けフィルタに対応する逆フィルタリング操作を含み、且つ、前記逆フィルタリング操作は、前記位置されたブロック境界で更新されたフィルタパラメータの一連のセットによって規定される音声符号化方法。
  2. 前記知覚的重み付けフィルタは、適応的知覚的重み付けフィルタであることを特徴とする請求項1に記載された音声符号化方法。
  3. 前記知覚的重み付けフィルタは、A(z/γ)/A(z/γ)なる形式の伝達関数を有し、ここでA(z)は、入力信号を分析するステップにおいて評価された線形予測フィルタの伝達関数であり、且つ、γおよびγは、知覚的重み付けの量を制御するための適応的係数であることを特徴とする請求項2に記載された音声符号化方法。
  4. ブロック境界を位置させるステップは、
    知覚的に重み付けされた信号の各ブロックのサンプルに適用された時間軸修正の結果生じる遅延を蓄積するステップと、
    修正されてフィルタされた信号内にブロック境界を位置させるためにブロックの最後で蓄積された遅延値を保存するステップと、
    を具備することを特徴とする請求項1に記載された音声符号化方法。
  5. 前記入力信号を分析するステップは、一連の信号フレームについて実行された線形予測分析を具備し、各フレームは、数pの連続したサブフレーム(p≧1)から構成され、ここでpは少なくとも1に等しい整数であり、前記ブロックのそれぞれは、前記サブフレームの個々の1つから構成され、且つ、前記ブロック境界を位置させるステップは、各フレームについて、修正されてフィルタされた信号内に前記フレームのp個のサブフレームの境界を位置させるためにp+1個の値の配列を決定するステップとを具備することを特徴とする請求項1に記載された音声符号化方法。
  6. 前記線形予測分析は、前記サブフレームを中心とする分析ウィンドウ関数を用いてp個のサブフレームのそれぞれに適用され、
    前記入力信号を分析するステップは、現在のフレームについて、前記最後のサブフレームの中心に関して事前に位置された時間位置に配置された最大値および現在のフレームの最後のサブフレームを中心とする分析ウィンドウ関数のサポートに関して事前に拡張しないサポートを有する対称先見分析ウィンドウ関数を用いた先見線形予測分析をさらに具備し、
    且つ、フレームの終わりに達していない現在のフレームについて決定された配列のp+1番目の値に応答して、逆フィルタリング操作は、前記p+1番目の値のそばに位置されたブロック境界で更新されて、先見分析から決定されたフィルタ係数のセットによって規定される請求項5に記載された音声符号化方法。
  7. 前記先見分析ウィンドウ関数は、現在のフレームに続くフレームの第1サブフレームの中心に配置されたその最大値を有することを特徴とする請求項6に記載された音声符号化方法。
  8. 前記修正されてフィルタされた信号を処理するステップで得られた前記符号化パラメータは、CELP符号化パラメータを具備することを特徴とする請求項1に記載された音声符号化方法。
  9. 入力オーディオ信号を分析して、前記オーディオ信号の一連のブロックのそれぞれに対して個別のパラメータセットを決定する手段と、
    前記入力信号をフィルタリングすると共に知覚的に重み付けされた信号を生成するために、決定されたフィルタパラメータセットにより、各ブロックについて規定された知覚的重み付けフィルタと、
    ピッチ情報に基づき知覚的に重み付けされた信号の時間軸を修正して、修正されてフィルタされた信号を生成する手段と、
    修正されてフィルタされた信号内にブロック境界を位置させる手段と、
    前記修正されてフィルタされた信号を処理して符号化パラメータを得る手段と
    を具備し、
    前記処理は、知覚的重み付けフィルタに対応する逆フィルタリング操作を含み、且つ、前記逆フィルタリング操作は、前記位置されたブロック境界で更新されたフィルタパラメータの一連のセットによって規定される音声符号化装置。
  10. 前記知覚的重み付けフィルタは、適応的知覚的重み付けフィルタであることを特徴とする請求項9に記載された音声符号化装置。
  11. 前記知覚的重み付けフィルタは、A(z/γ)/A(z/γ)なる形式の伝達関数を有し、ここでA(z)は、入力信号を分析する手段を用いて評価された線形予測フィルタの伝達関数であり、且つ、γおよびγは、知覚的重み付けの量を制御するための適応的係数であることを特徴とする請求項10に記載された音声符号化装置。
  12. 前記ブロック境界を位置させる手段は、
    知覚的に重み付けされた信号の各ブロックのサンプルに適用された時間軸修正の結果生じる遅延を蓄積し、且つ、修正されてフィルタされた信号内にブロック境界を位置させるためにブロックの最後で蓄積された遅延値を保存するための手段を具備することを特徴とする請求項9に記載された音声符号化装置。
  13. 前記入力信号を分析する手段は、一連の信号フレームについて線形予測分析を実行するための手段を具備し、各フレームは、数pの連続したサブフレームから構成され、pは少なくとも1に等しい整数であり、前記ブロックのそれぞれは、前記サブフレームの1つから構成され、且つ、前記ブロック境界を位置させる手段は、各フレームについて、修正されてフィルタされた信号内に前記フレームのp個のサブフレームの境界を位置させるためにp+1個の値の配列を決定するための手段とを具備することを特徴とする請求項9に記載された音声符号化装置。
  14. 前記線形予測分析手段は、前記サブフレームを中心とする分析ウィンドウ関数を用いてp個のサブフレームのそれぞれに対する処理を行うように構成され、
    前記入力信号を分析する手段は、前記最後のサブフレームの中心に関して事前に位置された時間位置に配置された最大値および現在のフレームの最後のサブフレームを中心とする分析ウィンドウ関数のサポートに関して事前に拡張しないサポートを有する対称先見分析ウィンドウ関数を用いて現在のフレームを処理する先見線形予測分析手段をさらに具備し、
    且つ、前記修正されてフィルタされた信号を処理するための手段は、先見分析から決定されたフィルタ係数のセットにより、更新された逆フィルタリング操作を規定するために、現在のフレームの終わりに達していないp+1番目の値に応答して、現在のフレームについて決定された配列の前記p+1番目の値のそばに位置されたブロック境界で逆フィルタリング操作を更新するように構成されたことを特徴とする請求項13に記載された音声符号化装置。
  15. 前記先見分析ウィンドウ関数は、現在のフレームに続くフレームの第1サブフレームの中心に配置されたその最大値を有することを特徴とする請求項14に記載された音声符号化装置。
  16. 前記修正されてフィルタされた信号を処理するための手段により得られた前記符号化パラメータは、CELP符号化パラメータを具備することを特徴とする請求項9に記載された音声符号化装置。
JP2003384245A 2002-11-14 2003-11-13 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 Pending JP2004163959A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/294,923 US20040098255A1 (en) 2002-11-14 2002-11-14 Generalized analysis-by-synthesis speech coding method, and coder implementing such method

Publications (1)

Publication Number Publication Date
JP2004163959A true JP2004163959A (ja) 2004-06-10

Family

ID=32176196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003384245A Pending JP2004163959A (ja) 2002-11-14 2003-11-13 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置

Country Status (12)

Country Link
US (1) US20040098255A1 (ja)
EP (1) EP1420391B1 (ja)
JP (1) JP2004163959A (ja)
KR (1) KR20040042903A (ja)
CN (1) CN1525439A (ja)
AT (1) ATE345565T1 (ja)
BR (1) BR0305195A (ja)
CA (1) CA2448848A1 (ja)
DE (1) DE60309651T2 (ja)
ES (1) ES2277050T3 (ja)
HK (1) HK1067911A1 (ja)
MX (1) MXPA03010360A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ562182A (en) * 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
DK1875463T3 (en) * 2005-04-22 2019-01-28 Qualcomm Inc SYSTEMS, PROCEDURES AND APPARATUS FOR AMPLIFIER FACTOR GLOSSARY
EP1989706B1 (fr) * 2006-02-14 2011-10-26 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
FR2911227A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2413314A1 (en) * 2009-03-24 2012-02-01 Huawei Technologies Co., Ltd. Method and device for switching a signal delay
AU2011226143B9 (en) 2010-03-10 2015-03-19 Dolby International Ab Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
WO2013056388A1 (en) * 2011-10-18 2013-04-25 Telefonaktiebolaget L M Ericsson (Publ) An improved method and apparatus for adaptive multi rate codec
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
KR102251833B1 (ko) * 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
CN105974416B (zh) * 2016-07-26 2018-06-15 零八一电子集团有限公司 积累互相关包络对齐的8核dsp片上并行实现方法
CN113287318A (zh) * 2018-11-08 2021-08-20 瑞典爱立信有限公司 视频编码器和/或视频解码器中的非对称去块

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE59002222D1 (de) * 1989-10-06 1993-09-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals.
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6223151B1 (en) * 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information

Also Published As

Publication number Publication date
KR20040042903A (ko) 2004-05-20
HK1067911A1 (en) 2005-04-22
DE60309651T2 (de) 2007-09-13
US20040098255A1 (en) 2004-05-20
EP1420391A1 (en) 2004-05-19
BR0305195A (pt) 2004-08-31
EP1420391B1 (en) 2006-11-15
CN1525439A (zh) 2004-09-01
MXPA03010360A (es) 2005-07-01
ES2277050T3 (es) 2007-07-01
CA2448848A1 (en) 2004-05-14
DE60309651D1 (de) 2006-12-28
ATE345565T1 (de) 2006-12-15

Similar Documents

Publication Publication Date Title
JP5412463B2 (ja) 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化
US6813602B2 (en) Methods and systems for searching a low complexity random codebook structure
AU2002350340B2 (en) Signal modification method for efficient coding of speech signals
JP5166425B2 (ja) 音声信号中の遷移フレームの符号化のための方法およびデバイス
EP1194924B3 (en) Adaptive tilt compensation for synthesized speech residual
US8538747B2 (en) Method and apparatus for speech coding
US6345248B1 (en) Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
EP1420391B1 (en) Generalized analysis-by-synthesis speech coding method, and coder implementing such method
EP0575511A1 (en) Speech coder and method having spectral interpolation and fast codebook search
WO2004038924A1 (en) Method and apparatus for fast celp parameter mapping
US6169970B1 (en) Generalized analysis-by-synthesis speech coding method and apparatus
US20040093204A1 (en) Codebood search method in celp vocoder using algebraic codebook
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
EP0539103B1 (en) Generalized analysis-by-synthesis speech coding method and apparatus
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JPH02160300A (ja) 音声符号化方式
JP3144244B2 (ja) 音声符号化装置
JP2001100799A (ja) 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体
Evans COMBINED OPTIMIZA TION OF EXCIT ATION AND FILTER PARAMETERS IN ANAL YSI8-BY-8YNTHESIS CODERS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100202