JP4539988B2 - 音声符号化のための方法と装置 - Google Patents

音声符号化のための方法と装置 Download PDF

Info

Publication number
JP4539988B2
JP4539988B2 JP2005518936A JP2005518936A JP4539988B2 JP 4539988 B2 JP4539988 B2 JP 4539988B2 JP 2005518936 A JP2005518936 A JP 2005518936A JP 2005518936 A JP2005518936 A JP 2005518936A JP 4539988 B2 JP4539988 B2 JP 4539988B2
Authority
JP
Japan
Prior art keywords
filter
shaping
vector
ltp
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005518936A
Other languages
English (en)
Other versions
JP2006514343A (ja
Inventor
エイ. ジャシューク、マーク
ブイ. ラマバドラン、テンカシ
ミッタル、ウダー
ピー. アシュレー、ジェームズ
ジェイ. マクラフリン、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2006514343A publication Critical patent/JP2006514343A/ja
Application granted granted Critical
Publication of JP4539988B2 publication Critical patent/JP4539988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、一般的に、信号圧縮方式に関し、特に、音声符号化のための方法と装置に関する。
デジタル音声等の低レート符号化用には、通常、短期音声信号のスペクトルをモデル化するために線形予測符号化(LPC)等の手法を用いる。LPC手法を用いる符号化方式は、短期モデルの特性に対する補正に予測残留信号を提供する。1つのこのような符号化方式には、低ビットレートで、即ち、4.8乃至9.6キロビット毎秒(kbps)のビットレートで高品質の合成音声を生成する符号励振型線形予測(CELP)として知られる音声符号化方式がある。また、ベクトル励振型予測又は確率的符号化としても知られるこのクラスの音声符号化は、極めて多くの音声通信及び音声合成用途に用いられる。CELPは、また、特に、音声品質、データレート、サイズ、及びコストが重要な課題であるデジタル音声暗号化及びデジタル無線電話通信方式に適用可能である。
LPC符号化手法を実現するCELP音声符号器は、通常、入力音声信号の特性をモデル化し、また、一組の時間依存性線形フィルタに組み込まれる長期(ピッチ)及び短期(ホル
マント)予測子を用いる。フィルタ用の励起信号、即ち、符号ベクトルは、記憶した符号
ベクトルのコードブックから選択される。各フレームの音声に対して、音声符号器は、符号ベクトルをフィルタに適用して再構成音声信号を生成し、元の入力音声信号を再構成信号と比較して、誤り信号を生成する。そして、誤り信号は、人間の聴覚による知覚に基づき応答する知覚的重み付けフィルタ中を誤り信号が通過することによって、重み付けされる。そして、最適な励起信号が、現フレームに対して最小エネルギ(誤り値)の加重誤り信号を生成する1つ又は複数の符号ベクトルを選択することによって、決定される。通常、フレームは、2つ以上の連続サブフレームに区切られる。短期予測子パラメータは、通常、フレーム毎に一回決定され、現フレーム及び前フレーム用の短期予測子パラメータ間で補間することによって各サブフレームで更新される。励起信号パラメータは、通常、各サブフレームに対して決定される。
例えば、図1は、従来技術のCELP符号器100のブロック図である。CELP符号器100において、入力信号s(n)は、線形予測(LP)アナライザ101に適用され、ここで、線形予測符号化を用いて、短期スペクトル包絡線を推定する。その結果生じるスペクトル係数(
又は線形予測(LP)係数)は、伝達関数A(z)によって表される。スペクトル係数は、スペ
クトル係数を量子化するLP量子化器102に適用され、多重化装置109の用途に適する量子化スペクトル係数Aqを生成する。そして、量子化スペクトル係数Aqは、多重化装置109に
伝えられ、多重化装置は、量子化スペクトル係数に基づき、また、平方誤り最小化/パラ
メータ量子化ブロック108によって決定される一組の励起ベクトル関連パラメータL、βi
、I、及びγに基づき、符号化ビットストリームを生成する。その結果、各ブロックの音
声に対して、対応する組の励起ベクトル関連パラメータが生成され、これらには、マルチタップ長期予測子(LTP)パラメータ(遅延L及びマルチタップ予測子係数βi)、及び固定コードブックパラメータ(インデックスI及びスケールファクタγ)が含まれる。
また、量子化スペクトルパラメータは、対応する伝達関数1/Aq(z)を有するLP合成フ
ィルタ105に局所的に伝えられる。また、LP合成フィルタ105は、組合せ励起信号ex(n)
を受信し、また、量子化スペクトル係数Aq及び組合せ励起信号ex(n)に基づき、入力信号
Figure 0004539988
の推定値を生成する。組合せ励起信号ex(n)は、次のように生成される。固定コードブッ
ク(FCB)符号ベクトル、即ち、励起ベクトル
Figure 0004539988
は、固定コードブックインデックスパラメータIに基づき、固定コードブック(FCB)103から選択される。そして、FCB符号ベクトル
Figure 0004539988
は、利得パラメータγに基づきスケール変更され、スケール変更された固定コードブック符号ベクトルは、マルチタップ長期予測子(LTP)フィルタ104に伝えられる。マルチタ
ップLTPフィルタ104は、対応する伝達関数
Figure 0004539988
を有する。上式において、Kは、LTPフィルタ次数(通常、1と3との間(1と3を含む)) であり、βi及びLは、平方誤り最小化/パラメータ量子化ブロック108によってフィルタに伝えられる励起ベクトル関連パラメータである。LTPフィルタ伝達関数の上記定義において、Lは、サンプルの数の遅延を規定する整数値である。この形態のLTPフィルタ伝
達関数は、ビシュヌ・アタール(Bishnu_S_Atal)による論文、"低ビットレートでの音声の予測符号化"、通信に関するIEEE議事録、VOL.COM-30、NO.4、1982年4月、pp600-614(
以下、アタールと称する)、及びラビ・ラマチャンドラン(Ravi_P_Ramachandran)並びにピータ・カバール(Peter_Kabal)による論文、"音声符号化におけるピッチ予測フィルタ"、音響、音声、及び信号処理に関するIEEE議事録、VOL.37、NO.4、1989年4月、pp467-478(以下、ラマチャンドランらと称する)に記載されている。フィルタ104は、FCB103から受信されるスケール変更された固定コードブック符号ベクトルをフィルタ処理して、組合せ励起信号ex(n)を生成し、また、励起信号をLP合成フィルタ105に伝える。
LP合成フィルタ105は、入力信号推定値
Figure 0004539988
を結合器106に伝える。また、結合器106は、入力信号s(n)を受信し、入力信号
Figure 0004539988
の推定値を入力信号s(n)から減算する。入力信号s(n)と入力信号推定値
Figure 0004539988
との間の差は、知覚誤り重み付けフィルタ107に適用され、このフィルタは、
Figure 0004539988
とs(n)との間の差及び重み付け関数W(z)に基づき、知覚的加重誤り信号e(n)を生成する。そして、知覚的加重誤り信号e(n)は、平方誤り最小化/パラメータ量子化ブロック108に伝えられる。平方誤り最小化/パラメータ量子化ブロック108は、誤り信号e(n)を用いて、誤り値E
Figure 0004539988
を求め、また、引き続き、Eの最小化に基づき、入力信号s(n)の最良の推定値
Figure 0004539988
を生成する最適な組の励起ベクトル関連パラメータL、βi、I、及びγを求める。そして
、量子化LP係数及び最適な組のパラメータL、βi、I、及びγは、通信チャネルを介し
て、受信側通信装置に伝えられ、そこで、音声合成器がLP係数及び励起ベクトル関連パラメータを用いて、入力音声信号
Figure 0004539988
の推定値を再構成する。他の使用方法には、コンピュータハードディスク等の電子又は電子機械装置への効率的な記憶を伴い得る。
符号器100等のCELP符号器において、CELP符号器組合せ励起信号ex(n)を生成するための合成関数は、次の一般化した差分方程式によって与えられる。
Figure 0004539988
上式において、ex(n)は、サブフレーム用の合成組合せ励起信号であり、
Figure 0004539988
は、FCB103等のコードブックから選択される符号ベクトル、即ち、励起ベクトルであ
り、Iは、選択された符号ベクトルを規定するインデックスパラメータ、即ち、符号語で
あり、γは、符号ベクトルをスケール変更するための利得であり、ex(n-L+i)は、現サブ
フレームの(n+i)番目のサンプルに対してL(整数分解能)サンプルだけ遅延された合成組合せ励起信号であり(発話音声の場合、Lは、通常、ピッチ周期に関係する)、βiは、長期予測子(LTP)フィルタ係数であり、Nは、サブフレームにおけるサンプルの数である。n-L+i<0である場合、ex(n-L+i)は、式(1a)に示すように構成された過去の合成励起の履歴
を含む。即ち、n-L+i<0である場合、式'ex(n-L+i)'は、現サブフレームに先立ち構成された励起サンプルに対応し、この励起サンプルは、LTPフィルタ伝達関数
Figure 0004539988
に従って、遅延され、スケール変更されている。
符号器100等、通常のCELP音声符号器の仕事は、合成励起を規定するパラメータ、
即ち、符号器100におけるパラメータL、βi、I、及びγ、n<0である場合の所定のex(n)、並びに、短期線形予測子(LP)フィルタ105の求められた係数を選択することであり
、こうして、0=<n<Nの場合の合成励起数列ex(n)が、LPフィルタ105によってフィル
タ処理される場合、その結果生じる合成音声信号
Figure 0004539988
は、用いられたひずみ判定基準に基づき、そのサブフレームに対して符号化される入力音声信号s(n)を最も厳密に近似する。
LTPフィルタ次数K>1である場合、式(1)で定義されるLTPフィルタは、マルチタップフィルタである。上述したように、従来の整数サンプル分解能遅延マルチタップLTPフィルタは、所定のサンプル、通常、隣接する遅延されたサンプルをKの加重合計とし
て予測しようとし、ここで、遅延は、予想されるピッチ周期値(通常、8kHzの信号サンプ
リングレートで20と147サンプルとの間)の範囲に限定される。整数サンプル分解能遅延(L)マルチタップLTPフィルタは、非整数値の遅延を暗黙的にモデル化し、同時にスペク
トル整形(アタール、ラマチャンドランら)を提供する能力を有する。マルチタップLTPフィルタは、Lの他に、K個の固有βi係数の量子化を必要とする。K=1である場合、一次LTPフィルタが生じ、単一のβ0係数及びLの量子化だけが必要である。しかしながら、整数サンプル分解能遅延Lを用いる一次LTPフィルタは、非整数遅延値を最も近い整数又
は非整数遅延の整数倍数に丸めること以外、非整数遅延値を暗黙的にモデル化する能力を有さない。また、スペクトル整形も行わない。それにもかかわらず、一次LTPフィルタの実施例は、一般的に用いられてきたが、この理由は、数多くの低ビットレート音声符号器実施例に対して考慮すべき事項として、2つのパラメータL及びβだけを量子化すれば
よいためである。
サブサンプル分解能遅延を用いる一次LTPフィルタは、最先端のLTPフィルタ設計を大幅に進歩させた。この手法は、イラ・ガーソン(Ira_A_Gerson)及びマーク・ジャシク(Mark_A_Jasiuk)(以下、ガーソンらと称する)による米国特許第5,359,696号、"改善型サブサンプル分解能長期予測子を有するデジタル音声符号器"、並びに、ピータ・クロ
ーン(Peter_Kroon)及びビシュヌ・アタール(Bishnu_S_Atal)による教科書の一章、"音声符号化方式におけるピッチ予測子の性能改善に関して"、音声符号化の発展、クルーワ
・アカデミック出版社(Kluwer_Academic_Publishers)、1991年、第30章、pp321-327(以下、クローンらと称する)に記載されている。この手法を用いて、遅延の値は、明示的に
サブサンプル分解能で表現され、
Figure 0004539988
として、ここで再定義する。
Figure 0004539988
だけ遅延されたサンプルは、補間フィルタを用いることによって得ることができる。異なる小数部を有する
Figure 0004539988
の値だけ遅延されたサンプルを演算処理する場合、所望の小数部を最も厳密に表現する補間フィルタ位相を選択し、補間フィルタの選択された位相に対応する補間フィルタ係数を用いたフィルタ処理によって、サブサンプル分解能遅延サンプルを生成し得る。サブサンプル分解能遅延を明示的に用いるこのような一次LTPフィルタは、予測されたサンプルにサブサンプル分解能を提供し得るが、スペクトル整形を提供する能力に欠ける。それにもかかわらず、(クローンら)によって、サブサンプル分解能遅延を備える一次LTPフィルタは、従来の整数サンプル分解能遅延マルチタップLTPフィルタより、長期信号相関関係をもっと効率的に除去し得ることが分かっている。一次LTPフィルタであれば、2つのパラメータ、即ち、β及び
Figure 0004539988
だけをエンコーダからデコーダへ伝えればよいため、L、及びK個の固有βi係数の量子化
を必要とする整数分解能遅延マルチタップLTPフィルタと比較して、量子化効率が改善される。その結果、LTPフィルタの一次サブサンプル分解能形態は、現CELPタイプの音声符号化アルゴリズムに最も広く用いられている。このフィルタ用のLTPフィルタ伝達関数は、
Figure 0004539988
によって与えられる。式(3)及び(4)において暗黙的であることは、サブサンプル分解能遅延
Figure 0004539988
によって指定されるサンプルを演算処理するために補間フィルタを用いることである。
図2は、上述したように、(図1に示す)マルチタップLTPとサブサンプル分解能を備えたLTPとの間の固有の差異を示す。符号器200において、LTP204は、2つのパラメータ
Figure 0004539988
だけを誤り最小化/パラメータ量子化ブロック208から必要とし、その後、パラメータ
Figure 0004539988
を多重化装置109に伝える。
LTPフィルタを記述する際、LTPフィルタ伝達関数の一般化した形態が与えられていることに留意されたい。n<0の値に対するex(n)は、LTPフィルタ状態を含む。式(1)
又は(4)のex(n)を評価する際、n=>0であるnのサンプルへのアクセスを必要とするL又は
Figure 0004539988
の値の場合、仮想コードブック又は適応コードブック(ACB)と呼ばれるLTPフィルタ用
簡略化非等価形態が、用いられることが多いが、これについては、更に詳細に後述する。この手法は、リチャード・ケッチャム(Richard_H_Ketchum)、ウィレム・クライン(Willem_B_Kleijn)、及びダニエル・クラニンスキ(Daniel_J_Krasinski)による米国特許第4,910,781、表題"仮想検索を用いた符号励起型線形予測ボコーダ"(以下、ケッチャムらと称する)に記載されている。用語"LTPフィルタ"は、厳密に言うと、式(la)又は(4)の直接的な実施例を意味するが、本出願に用いるように、これは、LTPフィルタのACB実施
例も意味し得る。この区別が従来技術及び本発明の記述にとって重要な場合、これについては、明示的に記述する。
ACB実施例のグラフ表現を図3に示す。サブサンプル分解能フィルタ遅延
Figure 0004539988
の値が、サブフレーム長Nより大きい場合、図2及び3は、ほぼ等価である。この場合、ACBメモリ310及びLTPフィルタ204メモリは、本質的に同じデータを含む。しかしながら、フィルタ遅延がサブフレームの長さより小さい場合、スケール変更されたFCB励起及びLTPフィルタメモリは、LTPメモリ204を再循環し、β係数による再帰的スケール変
更の繰り返しを受ける。ACB実施例310において、ACBベクトルは、形態
Figure 0004539988
の利得1の長期フィルタを用いて、循環し、0=<n<Nにおいてc0(n)=ex(n)とすると、これ
は、β係数の単一の非再帰的インスタンスによって、その後、スケール変更される。
議論したLTPフィルタ、即ち、各々、直接(100、200)又はACB方法(300)を介して実現し得る整数分解能遅延マルチタップLTPフィルタ及び一次サブサンプル分解能遅延LTPフィルタを実現する2つの方法について考えると、次のように考察し得る。
従来のマルチタップ予測子は、2つの仕事を同時に行う。即ち、スペクトル整形と、予測に用いられるサンプルの加重合計として、予測されたサンプルを生成することによる非整数遅延の暗黙的モデル化(アタールら及びラマチャンドランら)とを行う。従来のマルチタップLTPフィルタにおいて、2つの仕事を共にモデル化すること(スペクトル整形及び暗黙的非整数遅延のモデル化)は効率的でない。例えば、3次マルチタップLTPフィルタは、所定のサブフレームに対するスペクトル整形が不要な場合、非整数分解能で暗黙的に遅延をモデル化する。しかしながら、このようなフィルタの次数は、高品質の補間されたサンプル値を提供するのに充分な程高くない。
他方、一次サブサンプル分解能LTPフィルタは、遅延の小数部を明示的に用いて、任意の次数、従って、極めて高い品質の補間フィルタの位相を選択し得る。この方法では、サブサンプル分解能遅延が明示的に定義され用いられるが、補間フィルタ係数を表現する極めて効率的な方法が提供される。これらの係数は、明示的に量子化し送信する必要はないが、その代わり、受信した遅延から推測され、この場合、その遅延は、サブサンプル分解能で規定される。このようなフィルタは、スペクトル整形を導入する能力を有さないが、発話(擬似周期的)音声の場合、サブサンプル分解能で遅延を定義する効果は、スペクトル整形を導入する能力より重要であることが分かっている(クローンら)。なぜサブサンプル分解能遅延を備えた一次LTPフィルタが、従来のマルチタップLTPフィルタより効率的であり得るか、また、極めて多くの業界標準に広く用いられるかについては、幾つかの理由がある。
サブサンプル分解能一次LTPフィルタは、LTPフィルタに極めて効率的なモデルを提供するが、サブサンプル分解能一次LTPフィルタにない特性であるスペクトル整形を行う機構を提供することが望ましい場合がある。音声信号高調波構造は、高い周波数では弱体化する傾向がある。この影響は、広帯域音声符号化方式では、更に顕著になり、(狭
帯域信号に対して)信号帯域幅の増大によって特徴付けられる。広帯域音声符号化方式に
おいて、(8kHzサンプリング周波数の場合)狭帯域音声符号化方式用の4kHz最大到達可能帯域幅と比較して、(16kHzのサンプリング周波数の場合)8kHzまでの信号帯域幅を達成し
得る。スペクトル整形を付加する1つの方法は、ブルーノ・べセット(Bruno_Bessette)、レッドワン・サラミ(Redwan_Salami)、及びロッホ・レフェブレ(Roch_Lefebvre)による特
許WO00/25298、表題"広帯域信号の符号化におけるピッチ検索"に記載されている(以下、
べセットらと称する)。この解法では、図4に示すように、選択すべき少なくとも2つの(その内の1つは、1の伝達関数を有し得る)スペクトル整形フィルタ(420)の提供が規定
され、更に、スペクトル整形フィルタを評価することによって明示的にLTPベクトルをフィルタ処理する必要がある。この解法の他の実施例も記載されているが、これによって、各々別個のスペクトル整形を有する少なくとも2つの別個の補間フィルタが提供される。これら2つの実施例のいずれにおいても、LTPベクトルのフィルタ処理されたバージョンを次に用いて、ひずみ量を生成し、これを評価して(408)、LTPフィルタパラメー
タと共に、少なくとも2つのスペクトル整形フィルタのどちらを用いるか選択する(421)
。この手法は、スペクトル整形を変更する手段を提供するが、LTPベクトルのスペクトル的に整形されたバージョンを、そのLTPベクトル及びスペクトル整形フィルタの組合せに対応するひずみ量の演算処理に先立ち明示的に生成する必要がある。選択対象の規模が大きい組のスペクトル整形フィルタが提供された場合、これによって、フィルタ処理動作のために複雑さが大幅に増加する。また、インデックスm等の選択されたフィルタに関する情報は、量子化し、エンコーダから(多重化装置109を介して)デコーダに伝える必要
がある。
米国特許第4,910,781号 WO00/25298、 米国特許第5,359,696号、 ビシュヌ・アタール(Bishnu_S_Atal)、"低ビットレートでの音声の予測符号化"、通信に関するIEEE議事録、VOL.COM-30、NO.4、1982年4月、pp600-614、 ラビ・ラマチャンドラン(Ravi_P_Ramachandran)並びにピータ・カバール(Peter_Kabal)、"音声符号化におけるピッチ予測フィルタ"、音響、音声、及び信号処理に関するIEEE議事録、VOL.37、NO.4、1989年4月、pp467-478、
従って、遅延の非整数値を(低レベルの複雑さで)効率的にモデル化し、また、スペクトル整形を提供する能力を有し得る音声符号化用の方法と装置に対するニーズがある。
上記ニーズに対応するために、音声符号化方式における予測のための方法と装置をここに提供する。サブサンプル分解能遅延を用いる一次LTPフィルタの方法は、マルチタップLTPフィルタに拡張される。あるいは、他の観点から見ると、従来の整数サンプル分解能マルチタップLTPフィルタは、サブサンプル分解能遅延を用いるために拡張される。マルチタップLTPフィルタのこの新規の定式化によって、従来技術によるLTPフィルタ構成に勝る数多くの利点が提供される。サブサンプル分解能で遅延を定義すると、補間フィルタによって用いられるオーバーサンプリングファクタの分解能の限界内において、少数成分を有する遅延値を明示的にモデル化し得る。このようなマルチタップLTPフィルタの係数(βi)は、従って、少数成分を有する遅延の影響のモデル化からほとんど解
放される。その結果、それらの主な機能は、存在する周期性の程度のモデル化を介して、また、スペクトル整形を課すことによって、LTPフィルタの予測利得を最大にすることである。このことは、より効率的に劣る単一のモデルを用いて、非整数値の遅延及びスペクトル整形双方をモデル化するという、時として相反する仕事に取り組む従来の整数サンプル分解能マルチタップLTPフィルタと対照的である。新しいLTPフィルタを一次サブサンプル分解能LTPフィルタと比較すると、新しい方法は、一次サブサンプル分解能LTPフィルタをマルチタップLTPフィルタに拡張する際、スペクトル整形をモデル化する能力を付加する。
幾つかの音声符号器用途の場合、LTPベクトルのスペクトル整形が望ましい場合があ
る。例えば、サブサンプル分解能遅延及びスペクトル整形双方を表現するための極めて効率的なモデルを提供する新しいLTPフィルタの定式を用いると、所定のビットレートで音声品質を改善し得る。広帯域信号入力の音声符号器の場合、スペクトル整形を提供する能力は、他の重要性を帯びる。この理由は、信号の高調波構造が、周波数が高くなると先細りする傾向があり、このことがサブフレーム間で格差が生じる程度になるためである。スペクトル整形を一次サブサンプル分解能LTPフィルタに付加する従来技術による方法(べセットら)では、スペクトル整形フィルタがLTPフィルタの出力に適用され、選択すべき少なくとも2つの整形フィルタが提供される。そして、スペクトル整形されたLTPベクトルは、ひずみ量を生成するために用いられ、そのひずみ量は、どのスペクトル整形フィルタを用いるべきか決定するために評価される。
図5は、サブサンプル分解能遅延及びスペクトル整形を表現するためのもっと柔軟なモ
デルを提供するLTPフィルタ構成を示す。このフィルタ構成は、スペクトル整形フィルタ処理動作を明示的に行うことなく、このようなフィルタのパラメータを演算処理又は選択するための方法を提供する。この本発明の側面によって、最適なスペクトル整形に関する情報を具現化するフィルタパラメータβiを極めて効率的に演算処理することが可能に
なる。あるいは、提供された組のβi係数値(即ち、βiベクトル)からマルチタップフィルタ係数βiを選択することが可能になる。LTPフィルタ504の一般化した伝達関数は、以下の通りである。
Figure 0004539988
上記フィルタの次数は、Kであり、ここで、K>1を選択すると、マルチタップLTPフィルタになる。遅延
Figure 0004539988
は、サブサンプル分解能で定義され、また、小数部を有する遅延値
Figure 0004539988
に対して定義され、補間フィルタを用いて、ガーソンら及びクローンらに詳述されるように、サブサンプル分解能遅延サンプルが演算処理される。少数成分を有する遅延の影響のモデル化からほとんど解放される係数(βi)は、演算処理又は選択して、存在する周期性
の程度をモデル化することによって、また、同時にスペクトル整形を課すことによって、LTPフィルタの予測利得を最大化し得る。これは、新しいLTPフィルタ構成とべセットらとの間のもう1つの相違点である。(βi)係数は、スペクトル整形特性を暗黙的に具
現化する。即ち、選択すべき専用の組のスペクトル整形フィルタが存在する必要はなく、従って、フィルタ選択決定は、量子化され、エンコーダからデコーダに伝えられる。例えば、βi係数のベクトル量子化が行われ、βiベクトル量子化テーブルは、選択すべきJ個
の可能なβiベクトルを含み、このようなテーブルは、J個の別々のスペクトル整形特性を各βiベクトルに1つずつ暗黙的に含み得る。更に、後述するように、(508において)評価対象のβiベクトルに対応するひずみ量を演算処理するために、スペクトル整形フィルタ
処理を行う必要はない。本発明の他の実施形態において、LTPフィルタ係数は、LTPフィルタの多数のタップが対称になるように要求することによって、非整数遅延をモデル化する試みから完全に阻止し得る。対称フィルタでは、インデックスiの全ての有効な値
に対して、即ち、K1=K2、Kが奇数とすると、K1<i<K2に対して、β-iiである必要があ
る。このような構成は、量子化効率及び計算の複雑さを低減する上で有利であり得る。
本発明は、図6乃至9を参照すると更に充分に説明し得る。図6は、本発明の実施形態に
基づくCELP型音声符号器600のブロック図である。明らかなように、LTPフィルタ604には、コードブック310を含むマルチタップLTPフィルタ604、K励起ベクトル生成器(620)、スケーリングユニット(621)、及び加算器612が含まれる。
符号器600は、1つ又は複数のマイクロプロセッサ、マイクロコントローラ、デジタル
信号プロセッサ(DSP)、その組合せ、又は当業者に知られている他のこのような装置等の
プロセッサに実装されるが、このプロセッサは、ランダムアクセスメモリ(RAM)、ダイナ
ミックランダムアクセスメモリ(DRAM)、及び/又は読み出し専用メモリ(ROM)又はその等価なもの等、プロセッサが実行し得るデータ、コードブック、及びプログラムを記憶する1つ又は複数の関連するメモリ装置と通信を行う。
新しいマルチタップLTPフィルタの伝達関数(式5)を以下に再度述べる。即ち、
Figure 0004539988
組合せ合成励起ex(n)を生成するための対応するCELP一般化差分方程式は、
Figure 0004539988
である。
Figure 0004539988
の場合、
Figure 0004539988
へのアクセスが必要な
Figure 0004539988
の値の好適な実施形態では、適応コードブック(ACB)手法を用いて複雑さを低減する。前
述したように、この手法は、LTPフィルタの簡略化非等価実施例であり、ケッチャムらに記載されている。この簡略化は、n<0に対して定義されたex(n)のサンプルに依存して、従って、0<n<Nの現サブフレームに対するex(n)の未定義サンプルとは独立に、現サブフレームの、即ち、0<n<Nのex(n)のサンプルを作成することから成る。この手法を用いて、ACBベクトルは、以下のように定義される。
Figure 0004539988
少数成分を有する
Figure 0004539988
の値の場合、補間フィルタを用いて、遅延サンプルを演算処理する。ケッチャムらで与えられたACBの元の定義とは異なり、ex(n)のK2個の追加サンプルを、サブフレームのN番目
のサンプルを超えて演算処理する必要がある。即ち、
Figure 0004539988
式(8乃至9)において生成されたex(n)のサンプルを用いて、新しい信号ci(n)が定義される。即ち、
ci(n)=ex(n+i)、0=<n<N、-K1=<i=<K2・・・(10)
次に、組合せ合成サブフレーム励起は、式(8乃至10)からの結果を用いて、以下のように
表すことができる。即ち、
Figure 0004539988
音声エンコーダの仕事は、LTPフィルタパラメータ
Figure 0004539988
及びβi並びに励起コードブックインデックスI及び符号ベクトル利得γを選択し、入力音声s(n)と符号化音声
Figure 0004539988
との間の知覚的加重誤りエネルギを最小化することである。
式(11)を書き直すと、
Figure 0004539988
となる。
知覚的加重合成フィルタによってフィルタ処理されるex(n)を
Figure 0004539988
とすると、
Figure 0004539988
は、知覚的加重合成フィルタH(z)=W(z)/Aq(z)によってフィルタ処理される
Figure 0004539988
のバージョンである。更に、p(n)を、知覚的重み付けフィルタW(z)によってフィルタ処理される入力音声s(n)とすると、サンプル当たりの知覚的加重誤りであるe(n)は、
Figure 0004539988
である。サブフレーム加重誤りエネルギ値であるEは、
Figure 0004539988
によって与えられる。また、
Figure 0004539988
に拡張し得る。
式(18)の括弧内の和
Figure 0004539988
を移動すると、
Figure 0004539988
となる。式(19)は、明らかに、以下の項目で等価的に表現し得る。即ち、
(i)βi、-K1=<i=<K2及びγ、又は等価的に(λ0,…,λK)、
(ii)フィルタ処理済構成要素ベクトル
Figure 0004539988
間の
Figure 0004539988
による相互相関、即ち、(Rcc(i,j))、
(iii)知覚的加重目標ベクトルp(n)と各フィルタ処理済構成要素ベクトルとの間の相互
相関、即ち、(Rpc(i))、及び
(iv)サブフレーム用の加重目標ベクトルp(n)のエネルギ、即ち、(Rpp)。
上記列挙した相関関係は、下式によって表し得る。
Figure 0004539988
式(20)乃至(23)によって表される相関関係と、利得ベクトルλj(0<j<K)の項目とで式(19)を書き直すと、サブフレームの知覚的加重誤りエネルギ値であるEに対する下式を得る。
即ち、
Figure 0004539988
共に最適な組の励起ベクトル関係の利得項λj(0<j<K)についての解法には、λj(0<j<K)に関してEを偏微分する段階と、その結果生じる各偏導関数方程式をゼロに等しく設定する
段階と、次に、その結果生じる系のK+1個の連立線形方程式を解く段階、即ち、次の組の
連立線形方程式を解く段階と、が含まれる。即ち、
Figure 0004539988
(25)に与えられたK+1個の式を評価すると、K+1個の連立線形方程式の系になる。共に最適な利得のベクトル、即ち、スケールファクタ(λ0,…,λK)に対する解は、下式を
解くことによって、得られる。即ち、
Figure 0004539988
当業者は、符号器600によってリアルタイムに式(26)を解く必要がないことを認識され
たい。符号器600は、それぞれの利得情報テーブル626に記憶された利得ベクトル(λ0
,…,λK)を処理して得る手順の一部として、式(26)をオフラインで解き得る。各利得情報テーブル626は、利得情報を記憶する1つ又は複数のテーブルで構成し得る。利得情報
は、それぞれの誤り最小化ユニット/回路608に含まれ、あるいは、それによって参照され、そして、励起ベクトル関係の利得項(λ0,…,λK)を量子化し共に最適化するため
に用い得る。式(11)に定義される(また、以下に再記載する)組合せ合成励起ex(n)によ
って要求される利得項及びγ、即ち、
Figure 0004539988
は、式(14)に規定される変数マッピングを用いて次のように、即ち、
Figure 0004539988
のように得られることに留意されたい。
このようにして得られた各利得情報テーブル626の場合、符号器600、特に、誤り最小化ユニット608の仕事は、利得情報テーブル626を用いて、利得ベクトル、即ち、(λ0,…,λK)を選択することであり、こうして、式(24)によって表されるサブフレーム用の知
覚的加重誤りエネルギEが、評価される利得情報テーブルのベクトルに対して最小化され
る。知覚的加重誤りベクトルに対して最小エネルギを生じる(λ0,…,λK)ベクトル
の選択を支援する場合、式(24)で表されたEの表現にλj(0<j<K)を含む各項は、各(λ0,…,λK)ベクトルについて予め演算処理し、それぞれの利得情報テーブル626に記憶し
得るが、この場合、各利得情報626は、ルックアップテーブルを含む。
一旦、利得情報テーブル626に基づき利得ベクトルが決定されると、選択された(λ0,…,λK)の各要素は、値“-0.5”を、式(24)の(選択された利得ベクトルに対応する)予め演算処理された項の第1番目の(K+1)、即ち、
Figure 0004539988
の対応する要素に乗算することによって得ることができる。これによって、予め演算処理されたエラー項を記憶し(これによって、Eを評価するのに必要な演算処理を低減し)、
また、明示的に実際の(λ0,…,λK)ベクトルを量子化テーブルに記憶する必要性を
無くすことができる。相関関係Rpp、Rpc、及びRccは、上述したように、分解処理が
Figure 0004539988
を生成することによって利得項(λ0,…,λK)から明示的に切り離されるため、相関
関係Rpp、Rpc、及びRccは、各サブフレームに対して一回だけ演算処理し得る。更に、Rppの演算処理は、全て省略し得る。この理由は、与えられたサブフレームに対して、相関関係Rppは、定数であり、式(24)の相関関係Rppの有無に関わらず、同じ利得ベクトル、即ち、(λ0,…,λK)が選択されることになるためである。
上述したように式(24)の項が予め演算処理される場合、式(24)の評価は、評価対象の利得ベクトル当たり(K+1)[(K+1)+3]/2乗算積算(MAC)演算で効率的に実現し得る。誤り最小
化ユニット608の特定の利得ベクトル量子化器、即ち、利得情報テーブル626の特定フォーマットについてここでは例示のために説明するが、概説したこの方法は、メモリレス及び/又は予測手法を含み、スカラ量子化、ベクトル量子化、又はベクトル量子化及びスカラ
量子化手法の組合せ等、利得情報を量子化する他の方法に適用可能であることを当業者は
認識されたい。当分野では公知なように、スカラ量子化又はベクトル量子化手法を用いると、利得情報テーブル626に利得情報を記憶する段階が伴い、そして、これを用いて、利
得ベクトルが決定される。
従って、符号器600の動作時、エラー重み付けフィルタ107は、加重誤り信号e(n)を誤り最小化回路608に出力し、誤り最小化回路608は、加重誤り値を最小化するために選択されたマルチタップフィルタ係数及びLTPフィルタ遅延
Figure 0004539988
を出力する。上述したように、フィルタ遅延は、サブサンプル分解能値を含む。固定コードブック励起と共にフィルタ係数及びピッチ遅延を受信し、また、フィルタ遅延及びマルチタップフィルタ係数に基づき、組合せ合成励起信号を出力するマルチタップLTPフィルタ604が提供される。
図6及び図7(後述)双方において、マルチタップLTPフィルタ604、704は、フィルタ遅延を受信し、適応コードブックベクトルを出力する適応コードブックを含む。ベクトル生成器620、720が、時間シフトした/組合せ適応コードブックベクトルを生成する。各々、
時間シフトした適応コードブックベクトルを受信し、また、複数のスケール変更し時間シフトしたコードブックベクトルを出力する複数のスケーリングユニット621、721が提供される。時間シフトした適応コードブックベクトルの1つの時間シフト値は、無時間シフトに対応して0であってよいことに留意されたい。最後に、加算回路612は、選択されスケール変更したFCB励起ベクトルと共に、スケール変更し時間シフトしたコードブックベクトルを受信し、また、スケール変更し時間シフトしたコードブックベクトル及び選択されスケール変更されたFCB励起ベクトルの和として、組合せ合成励起信号を出力する。
次に、図7に示す本発明の他の実施形態について述べる。前述したように、サブサンプ
ル分解能遅延
Figure 0004539988
を用いているマルチタップLTPフィルタの係数βiは、LTPフィルタ遅延
Figure 0004539988
の非整数値のモデル化からほとんど解放されるが、この理由は、少数成分を有する
Figure 0004539988
の値の場合、部分的に遅延されたサンプルのモデル化が、補間フィルタを用いて明示的に行われるためである。例えば、ガーソンら及びクローンらにおいて教示されるように、遅延のサブサンプル分解能値が用いられる場合であっても、
Figure 0004539988
を表す分解能が、補間フィルタによって用いられる最大オーバーサンプリングファクタ等の設計選択肢、及び
Figure 0004539988
の離散値を表現するための量子化器の分解能によって、通常、制限される。式(24)のサブフレーム加重誤りエネルギEを最小化するように音声符号器利得を演算処理する又は選択
するプロセスは、K個のβi係数に固有なK個の自由度を用いて、その不一致を補正する。
一般的に、このことは、プラスの効果である。しかしながら、音声符号器利得を量子化するためのビット割当てが制限される場合、
Figure 0004539988
を表現すべきひずみを、選択した(且つ有限の)分解能で補正するモデル化能力がマルチタップフィルタタップβiから削除されるように、サブサンプル分解能遅延マルチタップL
TPフィルタ(即ち、そのACB実施例)を再定義すると都合が良いことがある。このような
定式化によって、βi係数の分散が低減され、後続の量子化に対してβiが更に修正可能になる。この場合、βi係数のモデル化の柔軟性は、存在する周期性の程度を表現すること
及びスペクトル整形をモデル化することに制限され、双方共、式(24)のEを最小化しよう
とすることの副産物である。
サブサンプル分解能マルチタップLTPフィルタを強制的に奇数の次数にすること、即ち、フィルタ次数Kが奇数になるように要求すること、また、フィルタが対称になるよう
に要求すること、即ち、β-ii、K1=K2、及びK1=<i<=K2である特性を有すると、LTPフィルタ704が、上記設計目的を満足するようになる。対称フィルタは、偶数次数化し得
るが、好適な実施形態では、奇数であるように選択されていることに留意されたい。奇数
の対称フィルタに対応するように修正された式(6)のLTPフィルタ伝達関数のバージョ
ンを以下に示す。即ち、
Figure 0004539988
次に、ACBコードブック実施例に関連して、好適な実施形態のフィルタについて述べる。
式(8)から、ACBベクトル定義、即ち、
Figure 0004539988
を思い出されたい。少数成分を有する
Figure 0004539988
の値の場合、補間フィルタを用いて、遅延されたサンプルを演算処理する。K'=K1=K2として、新しい変数K'を定義する。次に、サブフレームのN番目のサンプルを超えてK'個のサ
ンプルだけex(n)を拡張する。即ち、
Figure 0004539988
対称フィルタの次数は、
Figure 0004539988
である。好適な実施形態において、K'=1である。β-iiであるため、固有なβi値だけ
について、即ち、-K'=<i<=K'の代わりに0=<i<=K'によって索引付けされるβi係数につい
て考えると便利である。このことは、次のように行い得る。式(30乃至31)において生成されたサンプルex(n)を用いて、次に、新しい信号νi(n)を定義する。即ち、
Figure 0004539988
こうして、組合せ合成サブフレーム励起ex(n)は、式(30乃至32)からの結果を用いて、
Figure 0004539988
のように表現し得る。音声エンコーダの仕事は、音声s(n)と符号化音声
Figure 0004539988
との間のサブフレーム加重誤りエネルギが最小化されるように、LTPフィルタパラメータ
Figure 0004539988
及びβi係数、並びに励起コードブックインデックスI及び符号ベクトル利得γを選択することである。式(33)を書き直すと、次のようになる。即ち、
Figure 0004539988
知覚的加重合成フィルタによってフィルタ処理されたex(n)を
Figure 0004539988
とする。
Figure 0004539988
は、知覚的加重合成フィルタH(z)=W(z)/Aq(z)によってフィルタ処理された
Figure 0004539988
のバージョンである。前述のように、p(n)を知覚的重み付けフィルタW(z)によってフィルタ処理された入力音声s(n)とすると、サンプル当たりの知覚的加重誤りe(n)は、
Figure 0004539988
である。
サブフレーム加重誤りエネルギEは、
Figure 0004539988
によって与えられる。これは、式(17)と同様である。式(18乃至26)と同様な解析及び導出に従って、次の誤り式
Figure 0004539988
を得る。これは、次の組の連立方程式になる。即ち、
Figure 0004539988
前述のように、符号器700によってリアルタイムに式(48)を解く必要がないこと当業者は
認識されたい。符号器700は、それぞれの利得情報テーブル726に記憶された利得ベクトル(λ0,…,λK ’+1)を処理して得る手順の一部として、式(48)をオフラインで解き得る。利得情報テーブル726は、利得情報を記憶する1つ又は複数のテーブルで構成し得る
。利得情報は、それぞれの誤り最小化ユニット/回路708に含まれ、あるいは、それによって参照され、そして、励起ベクトル関係の利得項(λ0,…,λK ’+1)を量子化し共に最適化するために用い得る。
これまでの本発明の好適な実施形態の説明において、マルチタップLTPフィルタタップの間隔は、1サンプル離間しているものとして与えられた。本発明の他の実施形態にお
いて、マルチタップフィルタタップ間の間隔は、1サンプルと異なってよい。即ち、1サンプルの端数であってもよく、あるいは、整数及び小数部を有する値であってよい。本発明のこの実施形態は、式(6)を修正することによって、次のように示される。即ち、
Figure 0004539988
式(6a)は、同様に修正して、
Figure 0004539988
になることに留意されたい。Δ値は、用いられる補間フィルタの分解能に結び付け得る。補間フィルタの最大分解能が、信号s(n)がサンプリングされる周波数に対して1/8サンプ
ルである場合、l=<1として、Δは、l/8になるように選択し得る。また、式(6b)及び(6c)
には、フィルタタップの間隔が均一であるように示されているが、タップの間隔は不均一であるようにも実現し得ることに留意されたい。更に、Δ<1の値に対して、フィルタ次数Kは、タップの単一サンプル間隔の場合に対して、大きくしなければならないことがある
ことにも留意されたい。
符号器700において、励起パラメータL、βi、I、及びγの選択に関連する計算の複雑さの量を低減する場合、固定コードブックからの寄与がゼロであると仮定して、LTPフィルタパラメータ
Figure 0004539988
及びβiを最初に選択し得る。これによって、式(46)のサブフレーム加重誤りの修正バー
ジョンが生じるが、この修正は、Eから、固定コードブックベクトルに関連する項を省く
ことが含まれ、簡略化した加重誤り式を生じる。即ち、
Figure 0004539988
式(51)のEを最小化する一組の(λ0,…,λK ’)利得の演算処理には、以下のK'+1個
の連立線形方程式を解く段階が含まれる。即ち、
Figure 0004539988
あるいは、量子化テーブル又はテーブルでは、用いられる検索方法に基づき、式51でEを
最小化する(λ0,…,λK ’)ベクトルを検索し得る。この場合、LTPフィルタ係数は、FCBベクトルの寄与を考慮することなく量子化される。好適な実施形態では、しかしながら、(λ0,…,λK ’+1)の量子化された値の選択は、式(46)の評価によって導かれ、これは、(K ’+2)個の全符号器利得の共同最適化に対応する。これら2つの事例のいずれにおいても、加重目標信号p(n)は、FCBからゼロの寄与を仮定して、演算処理された(即ち、量子化テーブル(s)から選択された)(λ0,…,λK ’)利得を用いて、p(n)から知覚的加重LTPフィルタ寄与を除去することによって、修正して固定コードブッ
ク検索用の加重目標信号pFCB(n)を与え得る。即ち、
Figure 0004539988
そして、検索に用いられる方法に従ってFCBを検索し、サブフレーム加重誤りエネルギEFCBを最小化するインデックスiを求める。即ち、
Figure 0004539988
上式において、iは、評価対象のFCBベクトルのインデックスであり、
Figure 0004539988
は、ゼロ状態の加重合成フィルタによってフィルタ処理されたi番目のFCB符号ベクト
ルであり、γiは、
Figure 0004539988
に対応する最適スケールファクタである。得られたインデックスiは、選択されたFCB
ベクトルに対応する符号語であるIになる。
あるいは、FCB検索は、中間LTPフィルタベクトルが'浮動状態'であると仮定して、実現し得る。この手法は、イラ・ガーソン(Ira_A_Gerson)による特許W09101545A1、
表題"改善された音声品質を有するベクトル励起源を備えたデジタル音声符号器"に記載されている。ここでは、FCBコードブックの検索方法が開示されており、評価対象の各候補FCBベクトルについて、共に最適な組の利得が、そのベクトル及び中間LTPフィル
タベクトルに対して仮定される。LTPベクトルは、FCB寄与がないと仮定して、そのパラメータが選択され、修正を受けるという意味で"中間"である。例えば、インデックスiのFCB検索が完了すると、全ての利得は、引き続き、再計算(例えば、式(48)を解く
こと)によって又は量子化テーブルからの選択によって(例えば、選択基準として式(46)
を用いて)、再最適化を行うことができる。加重合成フィルタによってフィルタ処理され
る中間LTPフィルタベクトルを次のように定義する。即ち、
Figure 0004539988
共に最適な利得を仮定したFCB検索に対応する加重誤り式は、
Figure 0004539988
によって与えられる。評価対象の各
Figure 0004539988
に対して、共に最適なパラメータΧi及びγiが仮定される。(用いられるFCB検索方法
に基づき)式(56)が最小化されるインデックスiは、選択されたFCB符号語Iになる。あ
るいは、修正された形態の式(56)を用いることによって、評価対象の各FCBベクトルに対して、(K'+2)の全スケールファクタが以下に示すように、共に最適化される。即ち、
Figure 0004539988
即ち、評価対象のi番目のFCBベクトルに対して、一組の共に最適な利得パラメータ(λ0,i,…,λK ’,ii)が仮定される。
FCB検索の2つの方法、即ち、
(i)FCB検索用の目標ベクトルを、そこから中間LTPベクトルの寄与を除去するこ
とによって再定義する方法、又は
(ii)共に最適な利得を仮定してFCB検索を行う方法、
のいずれかの場合、量子化効率の観点から、中間LTPベクトルの利得を制約すると有利
である。例えば、βi係数の量子化された値が、設計によって所定の大きさを超えないよ
うに制限されることが分かっている場合、中間LTPフィルタ係数には、演算処理の際、同様に制約を加え得る。
実施形態の1つでは、LTPフィルタ係数に次の制約を加え、中間フィルタ処理済LTPベクトル
Figure 0004539988
を得る。まず、LTPフィルタ係数は、対称である、即ち、β-ii、また、LTPフィルタ係数が、i>1に対してゼロであると仮定する。また更に、中間フィルタ処理済LTP
ベクトルは、
Figure 0004539988
の形態であると仮定する。上記制約によって、整形フィルタ特性が、本質的に低域通過であることが保証される。式55のλは、β0=θα、β1=θ(1-α)/2であることに留意されたい。次に、加重誤りエネルギ値
Figure 0004539988
を最小化するために、全体的なLTP利得値(θ)及び低域通過整形係数(α)を選択する。θについての式59の偏微分をゼロに設定すると、
Figure 0004539988
になる。式(59)のθの値を代入することによって、分かることは、次の式を最大化するとEが最小値になることである。
Figure 0004539988
以下を定義する。即ち、
Figure 0004539988
次に、式(61)の表現は、
Figure 0004539988
になる。また、αについて式(62)を微分して、それをゼロとすると、
Figure 0004539988
となり、これは、式(62)の表現を最大にする。このようにして得られたパラメータαは、更に、1.0と0.5の範囲に限定され、低域通過スペクトル整形特性が保証される。全体的な
LTP利得値θは、式60を介して得られ、上記(i)のFCB検索方法での用途に直接適用
し得る。あるいは、上記(ii)のFCB検索方法に基づき、共に最適化し得る(即ち、”浮動状態”になり得る)。更に、異なる制約をαに加えると、高帯域又はノッチ等、他の整形特性が可能になり、当業者には自明である。より高い次数のマルチタップフィルタへの同様な制約は、当業者には自明であり、そして、このことは、帯域通過整形特性を含む。
数多くの実施形態について、これまで述べてきたが、図8は、本発明の最良の形態を含
む一般化した装置を示し、図9は、対応する動作を示すフローチャートである。図8において分かるように、サブサンプル分解能遅延値
Figure 0004539988
が、適応コードブック(310)及びシフタ/結合器(820)への入力として用いられ、式(8乃至10、13)によって、また更に、式(29乃至32、35)によって述べた複数のシフトした/組合せ
適応コードブックベクトルを生成する。上述したように、本発明は、適応コードブック又は長期予測子フィルタを含み得るが、FCB成分は含んでも含まなくてもよい。また、加重合成フィルタW(z)/Aq(z)(830)を用いるが、これは、式(16)に至る本文で述べたように
、加重誤りベクトルe(n)の算術処理から生じるものである。当業者は認識されるように、加重合成フィルタ(830)は、ベクトル
Figure 0004539988
に又は等価的にc(n)に適用し得る。あるいは、適応コードブック(310)の一部として組み
込み得る。フィルタ処理された適応コードブックベクトル
Figure 0004539988
(901)及び目標ベクトルp(n)(903)は、(知覚誤り重み付けフィルタ(832)を通してフィルタ処理された)入力信号s(n)の知覚的加重バージョンに基づき得るが、次に、相関生成器(833)に提示され、これは、誤り最小化ユニット(808)への入力に必要な式(20乃至23)で定義
された複数の相関項(905)を出力する。複数の相関項に基づき、知覚的加重誤り値Eは、明示的フィルタ処理動作を行う必要なく評価され、複数のマルチタップフィルタ係数βi(907)が生成される。実施形態に応じて、誤り値Eは、式(24、46、51)において、符号器(600
、700)に対して述べた利得テーブル626の値を利用することによって評価し得る。あるい
は、式(26、48、52、63)に与えられた一組の連立線形方程式を通して直接解くことができる。いずれの場合でも、マルチタップフィルタ係数βiは、表記上の利便性のために、一
般的な形態の係数λi(式(14、28))と相互参照される。即ち、一般性を失うことなく、固
定コードブックの寄与を取り入れる。
本発明について、特に、特定の実施形態を参照して示し説明したが、これらにおいて、本発明の精神と範囲から逸脱することなく、形態及び細部の様々な変更を成し得ることを
当業者は理解されたい。例えば、本発明は、重み付けフィルタW(z)での用途について説明した。しかしながら、重み付けフィルタW(z)の具体的な特性について、人間の聴覚による知覚に基づく応答の観点で述べてきたが、本発明の場合、W(z)は、任意であり得ると仮定する。極端な場合、W (z)は、1の利得伝達関数W(z)=1であってよく、また、W(z)は、L
P合成フィルタの逆W(z)=Aq(z)であってもよく、その結果、残留領域における誤りの評価を行ってよい。従って、当業者は認識されるように、W(z)の選択は、本発明にとって重要ではない。
更に、本発明については、一般化したCELP枠の観点から説明したが、ここでは、提示した構成は、できるだけ本発明の説明が簡潔になるように簡略化されている。しかしながら、本発明を用いる構成については他の数多くの変形例が存在する可能性があり、これらの構成は、最適化して、例えば、処理の複雑さを低減し、及び/又は、本発明の範囲外
の手法を用いて性能を改善し得る。1つのこのような手法は、重ね合わせの理を用いてブロック図を一部変更して、重み付けフィルタW(z)を、加重誤り演算処理の複雑さを低減するために、ゼロの状態及びゼロの入力応答成分に分解し、他のフィルタ処理動作と組み合わせ得る。他のこのような複雑さの低減手法には、誤り最小化ユニット508、608、708が
、最終的な(閉ループ)最適化段階において、
Figure 0004539988
の全ての可能な値をテストする必要がないように、開ループピッチ検索を行ない、
Figure 0004539988
の中間値を得ることを含み得る。
当業者に公知の数多くのタイプのFCBや様々な効率的なFCB検索手法が存在していることに留意されたい。用いた特定のタイプのFCBは、本発明に本質的なものではなく、FCBコードブック検索によって、用いられた検索方式に基づき、EFCB,iを最小化
したFCBインデックスIが生成されると仮定しているに過ぎない。また、本発明は、適
応コードブックとして実装されたマルチタップLTPフィルタの文脈で説明したが、本発明は、マルチタップLTPフィルタが直接実装される場合でも等価的に実現し得る。このような変更は、以下の請求項の範囲内に入るものとする。
整数サンプル分解能遅延マルチタップLTPフィルタを用いる従来技術の符号励振型線形予測(CELP)符号器のブロック図。 サブサンプル分解能一次LTPフィルタを用いる従来技術の符号励振型線形予測(CELP)符号器のブロック図。 (仮想コードブックとして実現された)サブサンプル分解能一次LTPフィルタを用いる従来技術の符号励振型線形予測(CELP)符号器のブロック図。 (仮想コードブックとして実現された)サブサンプル分解能一次LTPフィルタ及びスペクトル整形フィルタを用いる従来技術の符号励振型線形予測(CELP)符号器のブロック図。 本発明の実施形態に基づく符号励振型線形予測(CELP)符号器(制約なしサブサンプル分解能マルチタップLTPフィルタ)のブロック図。 本発明の実施形態に基づく、(制約なしサブサンプル分解能マルチタップLTPフィルタ、仮想コードブックとして実現された)符号励振型線形予測(CELP)符号器のブロック図。 本発明の他の実施形態に基づく符号励振型線形予測(CELP)符号器(サブサンプル分解能マルチタップLTPフィルタの対称の実施例)のブロック図。 符号器(サブサンプル分解能マルチタップLTPフィルタ及びサブサンプル分解能マルチタップLTPフィルタの対称の実施例)に用いる本発明の信号フロー及び処理ブロックのブロック図。 本発明の実施形態に基づく、信号の符号化において図8のCELP符号器によって実行されるステップの論理フロー図。

Claims (7)

  1. 音声を符号化するための方法であって、
    サブサンプル分解能遅延値、適応コードブック、及び加重合成フィルタに基づき、複数の加重適応コードブックベクトル
    Figure 0004539988
    を生成する段階と、
    入力信号s(n)を受信する段階と、
    前記入力信号に基づき、目標ベクトルp(n)を生成する段階と、
    前記目標ベクトルp(n)及び前記複数の加重適応コードブックベクトルに基づき、複数の相関項(Rcc(i,j),Rpc(i))を生成する段階と、
    前記複数の相関項に基づき、複数の対称マルチタップ長期予測子フィルタ係数(βi)を生成する段階であって、前記複数の対称マルチタップ長期予測子フィルタ係数は、係数β=αθ、β=(1−α)θ/2、であり、αは整形フィルタの整形係数であり、θは長期予測利得値である段階と、
    整形係数αの値を、整形フィルタの特性が低域通過であるように制約する段階と、
    からなる方法。
  2. 前記入力信号s(n)に基づき目標ベクトルp(n)を生成する前記段階には、記入力信号s(n)を知覚的に重み付けすることによって、目標ベクトルp(n)を生成する段階が含まれる請求項1に記載の方法。
  3. 複数の対称マルチタップ長期予測子フィルタ係数を生成する前記段階には、誤り最小化基準に応答して、一組の連立線形方程式を解く段階が更に含まれる請求項1に記載の方法。
  4. 整形係数αを、次式
    Figure 0004539988
    で計算する請求項1に記載の方法。
  5. 整形係数αの値を、整形フィルタの特性が低域通過であるように制約する段階が、0.5<α<1.0になるように整形係数の値を制約する請求項4に記載の方法。
  6. サブサンプル分解能遅延値、適応コードブック、及び加重合成フィルタに基づき、複数の加重適応コードブックベクトル
    Figure 0004539988
    を生成するための手段と、
    入力信号s(n)を受信するための手段と、
    前記入力信号s(n)に基づき、目標ベクトルp(n)を生成するための手段と、
    前記目標ベクトルp(n)及び前記複数の加重適応コードブックベクトルに基づき、複数の相関項(Rcc(i,j),Rpc(i))を生成するための手段と、
    前記複数の相関項に基づき、複数の対称マルチタップ長期予測子フィルタ係数(βi)を生成するための手段であって、前記複数の対称マルチタップ長期予測子フィルタ係数は、係数β=αθ,β=(1−α)θ/2,であり、αは整形フィルタの整形係数であり、θは長期予測利得値である手段と、
    整形係数αの値を、整形フィルタの特性が低域通過であるように制約する手段と、
    からなる装置。
  7. サブサンプル分解能遅延値、適応コードブック、及び加重合成フィルタに基づく複数の加重適応コードブックベクトル
    Figure 0004539988
    と、
    入力信号s(n)を受信し、少なくともs(n)に基づき目標ベクトルp(n)を出力する知覚誤り重み付けフィルタと、
    前記加重適応コードブックベクトル
    Figure 0004539988
    及び前記目標ベクトルp(n)を受信し、前記目標ベクトルp(n)及び前記加重適応コードブックベクトル
    Figure 0004539988
    に基づき、複数の相関項(Rcc(i,j),Rpc(i)を出力する相関生成器と、
    前記複数の相関項を受信し、前記複数の相関項に基づき、複数の対称マルチタップ長期予測子フィルタ係数(βi)を出力する誤り最小化回路であって、前記複数の対称マルチタップ長期予測子フィルタ係数は、係数β=αθ,β=(1−α)θ/2,であり、αは整形フィルタの整形係数であり、θは長期予測利得値である回路と、
    整形係数αの値を、整形フィルタの特性が低域通過であるように制約する手段と、
    からなる装置。
JP2005518936A 2003-12-19 2004-12-17 音声符号化のための方法と装置 Active JP4539988B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US53139603P 2003-12-19 2003-12-19
US10/964,861 US7792670B2 (en) 2003-12-19 2004-10-14 Method and apparatus for speech coding
PCT/US2004/042642 WO2005064591A1 (en) 2003-12-19 2004-12-17 Method and apparatus for speech coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010112494A Division JP5400701B2 (ja) 2003-12-19 2010-05-14 音声符号化のための方法と装置

Publications (2)

Publication Number Publication Date
JP2006514343A JP2006514343A (ja) 2006-04-27
JP4539988B2 true JP4539988B2 (ja) 2010-09-08

Family

ID=34681619

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2005518936A Active JP4539988B2 (ja) 2003-12-19 2004-12-17 音声符号化のための方法と装置
JP2010112494A Active JP5400701B2 (ja) 2003-12-19 2010-05-14 音声符号化のための方法と装置
JP2013161813A Pending JP2013218360A (ja) 2003-12-19 2013-08-02 音声符号化のための方法と装置

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2010112494A Active JP5400701B2 (ja) 2003-12-19 2010-05-14 音声符号化のための方法と装置
JP2013161813A Pending JP2013218360A (ja) 2003-12-19 2013-08-02 音声符号化のための方法と装置

Country Status (7)

Country Link
US (2) US7792670B2 (ja)
EP (1) EP1697925A4 (ja)
JP (3) JP4539988B2 (ja)
KR (1) KR100748381B1 (ja)
CN (2) CN1751338B (ja)
BR (1) BRPI0407593A (ja)
WO (1) WO2005064591A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060067016A (ko) * 2004-12-14 2006-06-19 엘지전자 주식회사 음성 부호화 장치 및 방법
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
CN101609677B (zh) 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
PL2727106T3 (pl) * 2011-07-01 2020-03-31 Nokia Technologies Oy Wieloskalowe wyszukiwanie w książce kodów
WO2013062370A1 (ko) * 2011-10-28 2013-05-02 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN107359880B (zh) * 2012-10-01 2020-08-25 日本电信电话株式会社 编码方法、编码装置以及记录介质
WO2014072469A1 (en) 2012-11-09 2014-05-15 Aktiebolaget Electrolux Cyclone dust separator arrangement, cyclone dust separator and cyclone vacuum cleaner
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP3320539A1 (en) 2015-07-06 2018-05-16 Nokia Technologies OY Bit error detector for an audio signal decoder
KR102569784B1 (ko) * 2016-09-09 2023-08-22 디티에스, 인코포레이티드 오디오 코덱의 장기 예측을 위한 시스템 및 방법
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
CN109883692B (zh) * 2019-04-04 2020-01-14 西安交通大学 基于内置编码器信息的广义差分滤波方法
CN114006668B (zh) * 2021-10-29 2024-02-20 中国人民解放军国防科技大学 卫星信道免系数更新的高精确时延滤波方法和装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US5359696A (en) 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
JP3194481B2 (ja) * 1991-10-22 2001-07-30 日本電信電話株式会社 音声符号化法
US5396576A (en) 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
KR100389895B1 (ko) 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JPH10228491A (ja) * 1997-02-13 1998-08-25 Toshiba Corp 論理検証装置
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP3180786B2 (ja) 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
JP2002366199A (ja) * 2001-06-11 2002-12-20 Matsushita Electric Ind Co Ltd Celp型音声符号化装置
JP3984048B2 (ja) * 2001-12-25 2007-09-26 株式会社東芝 音声/音響信号の符号化方法及び電子装置
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes

Also Published As

Publication number Publication date
JP2013218360A (ja) 2013-10-24
JP2006514343A (ja) 2006-04-27
KR20060030012A (ko) 2006-04-07
WO2005064591A1 (en) 2005-07-14
US20100286980A1 (en) 2010-11-11
KR100748381B1 (ko) 2007-08-10
EP1697925A4 (en) 2009-07-08
CN101847414A (zh) 2010-09-29
EP1697925A1 (en) 2006-09-06
JP2010217912A (ja) 2010-09-30
BRPI0407593A (pt) 2006-02-21
CN101847414B (zh) 2016-08-17
CN1751338A (zh) 2006-03-22
US20050137863A1 (en) 2005-06-23
JP5400701B2 (ja) 2014-01-29
CN1751338B (zh) 2010-09-01
US7792670B2 (en) 2010-09-07
US8538747B2 (en) 2013-09-17

Similar Documents

Publication Publication Date Title
JP5400701B2 (ja) 音声符号化のための方法と装置
EP1338002B1 (en) Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7363218B2 (en) Method and apparatus for fast CELP parameter mapping
EP0575511A4 (ja)
JP3268360B2 (ja) 改良されたロングターム予測器を有するデジタル音声コーダ
JP2005515486A (ja) Celpによる音声符号間のトランスコーディング・スキーム
CN100593195C (zh) 在语音编码系统中对增益信息进行编码的方法和装置
KR101691549B1 (ko) 자기상관 영역에서 acelp를 이용하는 음성 신호 인코딩 장치
JPH0341500A (ja) 低遅延低ビツトレート音声コーダ
EP1326237A2 (en) Excitation quantisation in noise feedback coding
EP1334486B1 (en) System for vector quantization search for noise feedback based coding of speech
Jasiuk et al. A technique of multi-tap long term predictor (LTP) filter using sub-sample resolution delay [speech coding applications]
Eng Pitch Modelling for Speech Coding at 4.8 kbitsls

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100617

R150 Certificate of patent or registration of utility model

Ref document number: 4539988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250