JP4824167B2 - 周期的スピーチコーディング - Google Patents

周期的スピーチコーディング Download PDF

Info

Publication number
JP4824167B2
JP4824167B2 JP2000590162A JP2000590162A JP4824167B2 JP 4824167 B2 JP4824167 B2 JP 4824167B2 JP 2000590162 A JP2000590162 A JP 2000590162A JP 2000590162 A JP2000590162 A JP 2000590162A JP 4824167 B2 JP4824167 B2 JP 4824167B2
Authority
JP
Japan
Prior art keywords
prototype
current
previous
reconstructed
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000590162A
Other languages
English (en)
Other versions
JP2003522965A (ja
Inventor
マンジュナス、シャラス
ガードナー、ウイリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003522965A publication Critical patent/JP2003522965A/ja
Application granted granted Critical
Publication of JP4824167B2 publication Critical patent/JP4824167B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、スピーチ信号のコーディングに関する。とくに、本発明は、擬似周期スピーチ信号を、その信号の原型部分だけを量子化することによるコーディングすることに関する。
【0002】
【従来の技術】
現在、多くの通信システム、とくに長距離のデジタル無線電話用では音声をデジタル信号として送信する。これらのシステムの性能は部分的に、最小の数のビットで音声信号を正確に表すことに依存している。スピーチをサンプリングしてデジタル化することによって送信するだけで通常のアナログ電話機のスピーチ品質を得るには、64キロビット/秒(kbps)程度のデータレートが必要である。しかしながら、満足できるスピーチ再生のために必要とされるデータレートを著しく減少させるコーディング技術が利用可能である。
【0003】
“ボコーダ”という用語は一般に、人間のスピーチ発声のモデルに基づいてパラメータを抽出することにより発声されたスピーチを圧縮する装置を示す。ボコーダにはエンコーダとデコーダとが含まれている。エンコーダは、入ってきたスピーチを解析して関連したパラメータを抽出する。デコーダは、それがエンコーダから伝送チャンネルを介して受取ったパラメータを使用してスピーチを合成する。スピーチ信号はしばしば、ボコーダによって処理されたデータおよびブロックのフレームに分割される。
【0004】
線形予測ベースの時間ドメインコーディング方式を中心として形成されたボコーダは、その他全てのタイプのコーダを数的にはるかに上回る。これらの技術はスピーチ信号から相関させられた要素を抽出し、相関されていない要素だけを符号化する。基本的な線形予測フィルタは、現在のサンプルを過去のサンプルの線形組合せとして予測する。この特定のクラスのコーディングアルゴリズムの一例は、文献(Thomas E.Tremain氏他による“A 4.8 kbps Code Excited Linear Predictive Coder,”Proceedings of the Mobile Satellite Conference,1988 )に記載されている。
【0005】
これらのコーディング方式は、スピーチ中の固有冗長(すなわち、相関させられた要素)を全て除去することによりデジタル化されたスピーチ信号を低いビットレートの信号に圧縮する。スピーチは一般に唇と舌の物理的活動の結果生じた短期間冗長と、声帯の振動の結果生じた長期間冗長とを示す。線形予測方式は、これらの動作をフィルタとしてモデル化し、冗長を除去し、その後結果的に得られた残留信号をホワイトガウス雑音としてモデル化する。したがって、線形予測コーダは全帯域幅スピーチ信号ではなくフィルタ係数および量子化された雑音を送信することにより減少したビットレートを達成する。
【0006】
【発明が解決しようとする課題】
しかしながら、スピーチ信号が長距離(たとえば、地上対衛星)を伝搬するか、あるいは混雑したチャンネル中でその他の多数の信号と共存しなければならない場合に、これらの減少したビットレートでさえ利用可能な帯域幅を越えることが多い。したがって、線形予測方式以外の、低ビットレートを達成する改善されたコーディング方式が必要とされている。
【0007】
【課題を解決するための手段】
本発明は、擬似周期スピーチ信号をコーディングするための方法および装置である。スピーチ信号は、線形予測コーディング(LPC)解析フィルタでスピーチ信号を濾波することにより生成された残留信号によって表される。残留信号は、その残留信号の現在のフレームから原型周期を抽出することによって符号化される。現在の原型周期を近似するために前の原型周期をどのように修正するかを記述する第1の組のパラメータが計算される。合計されたときに現在の原型周期と修正された前の原型周期との間の差を近似する1以上のコードベクトルが選択される。第2の組のパラメータは、これらの選択されたコードベクトルを記述する。デコーダは、第1および第2の組のパラメータに基づいて現在の原型周期を再構成することにより出力スピーチ信号を合成する。その後、現在の再構成された原型周期と前の再構成された原型周期との間の領域に対して残留信号が補間される。デコーダは補間された残留信号に基づいて出力スピーチを合成する。
【0008】
本発明の特徴は、原型周期がスピーチ信号を表して再構成するために使用されることである。スピーチ信号全体ではなく原型周期をコーディングすることにより、必要とされるビットレートは減少し、それがさらに高い効率、さらに広い範囲およびさらに低い電力要求となる。
【0009】
本発明の別の特徴は、過去の原型周期が現在の原型周期の予測子として使用されることである。現在の原型周期と最適に回転されスケールされた過去の原型周期との間の差が符号化されて送信され、それによって要求されるビットレートがさらに減少される。
【0010】
本発明のさらに別の特徴は、連続する再構成された原型周期の加重された平均と平均遅延とに基づいて連続する再構成された原型周期間で補間することによりデコーダにおいて残留信号が再構成されることである。
【0011】
本発明の別の特徴は、送信されたエラーベクトルを符号化するためにマルチステージコードブックが使用されることである。このコードブックは、効率的な記憶とコードデータのサーチを行う。所望のレベルの正確さを達成するために付加的なステージが追加されてもよい。
【0012】
本発明の別の特徴は、コーディング動作にとって2つの信号の長さが等しいことが必要となった場合に、第2の信号の長さに適合するように第1の信号の長さを効率的に変更するためにワープフィルタが使用されることである。
【0013】
本発明のさらに別の特徴は、原型周期が“カットフリー”領域を条件として抽出され、それによって、高エネルギをフレーム境界に沿って分割することによる出力の不連続を避けることである。
【0014】
【発明の実施の形態】
本発明の特徴、目的および利点は、以下の詳細な説明および添付図面からさらに明らかになるであろう。なお、図面において同じ参照符号は同じまたは機能的に類似した構成要素を示している。さらに、参照符号の最大桁の数字はその参照符号が最初に現れた図面を示している。
I.環境の概説
II.本発明の概説
III .初期パラメータの決定
A.LPC係数の計算
B.LSI計算
C.NACF計算
D.ピッチトラックおよび遅延の計算
E.帯域エネルギおよびゼロ交差レートの計算
F.ホルマント残留の計算
IV.アクティブ/非アクティブスピーチ分類
A.ハングオーバーフレーム
V.アクティブスピーチフレームの分類
VI.エンコーダ/デコーダモード選択
VII .コード励起線形予測(CELP)コーディングモード
A.ピッチ符号化モード
B.符号化コードブック
C.CELPデコーダ
D.フィルタ更新モジュール
VIII.原型ピッチ周期(PPP)コーディングモード
A.抽出モジュール
B.回転コリレータ
C.符号化コードブック
D.フィルタ更新モジュール
E.PPPデコーダ
F.周期インターポレータ
IX.雑音励起線形予測(NELP)コーディングモード
X.結論
【0015】
[I.環境の概説]
本発明は、可変レートスピーチコーディングのための新しい改善された方法および装置に関する。図1は、エンコーダ102 、デコーダ104 および伝送媒体106 を含む伝送環境100 を示している。エンコーダ102 はスピーチ信号s(n)を符号化し、伝送媒体106 を横切ってデコーダ104 に伝送するための符号化されたスピーチ信号senc (n)を形成する。デコーダ104 はsenc (n)を復号し、それによって合成されたスピーチ信号:
【数1】
Figure 0004824167
を生成する。
【0016】
ここで使用されている“コーディング”という用語は一般に、符号化および復号の両者を含む方法を示している。一般に、コーディング方法および装置は、許容可能なスピーチ再生(すなわち、^s(n)はs(n)に近似している)を維持しながら、伝送媒体106 を介して伝送されるビットの数を最小化しようとする(すなわち、senc (n)の帯域幅を最小化しようとする)。符号化されたスピーチ信号の合成は、特定のスピーチコーディング方法にしたがっていろいろである。以下、種々のエンコーダ102 、デコーダ104 およびそれらが動作するコーディング方法を説明する。
【0017】
以下に説明するエンコーダ102 およびデコーダ104 のコンポーネントは電子ハードウェア、コンピュータソフトウェア、または両者の組合せとして実施されることができる。以下、これらのコンポーネントをそれらの機能性に関して説明する。ハードウェアまたはソフトウェアのどちらで機能が実施されるかは、特定の用途とシステム全体に課される設計上の制約に依存する。当業者は、これらの状況下においてハードウェアおよびソフトウェアが交換可能であること、および説明された機能を特定の用途のそれぞれに対して最良に実施するための方法を認識するであろう。
【0018】
当業者は、伝送媒体106 が地上ベース通信ライン、基地局と衛星との間のリンク、セルラー電話機と基地局との間の、またはセルラー電話機と衛星との間の無線通信を含む多数の異なった伝送媒体を代表することができるが、それに限定されないことを認識するであろう。
【0019】
当業者はまた、ある通信に対する各パーティが受信だけでなく送信もまたしばしば行うことを認識するであろう。したがって、各パーティにはエンコーダ102 とデコーダ104 が必要である。しかしながら、以下の説明において信号伝送環境100 は、伝送媒体106 の一方の端部にエンコーダ102 を含み、他端部にデコーダ104 を含むものとして示されている。当業者は、これらの考えをどのように2方向通信に拡大すべきかを容易に認識するであろう。
【0020】
この説明のために、s(n)は、異なった声音と沈黙期間とを含む一般的な会話中に得られたデジタルスピーチ信号であると仮定する。スピーチ信号s(n)はフレームに分割され、各フレームはさらに(好ましくは4つの)サブフレームに分割されることが好ましい。これら任意の選択されたフレーム/サブフレーム境界は一般に、ここでのケースのように、あるブロック処理が行われるときに使用される。フレームに関して行われていると説明された動作はサブフレームに関しても行われ、この意味においてフレームとサブフレームはここでは交換可能に使用されている。しかしながら、ブロック処理ではなく連続的な処理が実施される場合には、s(n)をフレーム/サブフレームに分割する必要は全くない。当業者は、以下に示すブロック技術がどのように連続処理に拡大されるかを容易に認識するであろう。
【0021】
好ましい実施形態において、s(n)は8kHzでデジタル的にサンプリングされる。各フレームは20m秒のデータを含んでいる、すなわち好ましい8kHz速度で160個のサンプルを含んでいることが好ましい。したがって、各サブフレームはデータの40個のサンプルを含んでいる。以下に示す多くの式は、これらの値をとることを認識することが重要である。しかしながら、これらのパラメータはスピーチコーディングにとって適切ではあるが単なる例示に過ぎず、他の適切な代替パラメータが使用可能なことを当業者は認識するであろう。
【0022】
[II.本発明の概説]
本発明の方法および装置は、スピーチ信号s(n)のコーディングを含んでいる。図2は、エンコーダ102 およびデコーダ104 をさらに詳細に示している。本発明によると、エンコーダ102 は初期パラメータ計算モジュール202 と、分類モジュール208 と、および1以上のエンコーダモード204 とを含んでいる。デコーダ104 は1以上のデコーダモード206 を含んでいる。デコーダモードNd の数は一般に、エンコーダモードNe の数に等しい。当業者に明らかなように、エンコーダモード1はデコーダモード1と通信し、その他も同様に通信している。示されているように、符号化されたスピーチ信号senc (n)は伝送媒体106 を介して伝送される。
【0023】
好ましい実施形態において、エンコーダ102 は、現在のフレームにs(n)の特性を与えた場合にどのモードが最も適切かに応じてフレームごとに多くのエンコーダモード間で動的に切換わる。デーコーダ104 はまたフレームごとに対応したデコーダモード間で動的に切換わる。デコーダにおいて許容可能な信号再生を維持しながら最も低いビットレートを得るために各フレームに対して特定のモードが選択される。このプロセスは、コーダのビットレートが時間的に変化する(信号の特性が変化するにつれて)ため、可変レートスピーチコーディングと呼ばれる。
【0024】
図3は、本発明による可変レートスピーチコーディングを示すフローチャート300 である。ステップ302 において、初期パラメータ計算モジュール202 は、データの現在のフレームに基づいて種々のパラメータを計算する。好ましい実施形態において、これらのパラメータは、線形予測コーディング(LPC)フィルタ係数、線形スペクトル情報(LSI)係数、正規化された自己相関関数(NACF)、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残留信号の1以上のものを含んでいる。
【0025】
ステップ304 において、分類モジュール208 は現在のフレームを“アクティブ”スピーチまたは“非アクティブ”スピーチのいずれかを含むものとして分類する。上述したように、s(n)は、通常の会話に関して一般的であるようにスピーチの周期と沈黙の周期の両方を含んでいると仮定される。アクティブスピーチは話された言葉を含み、非アクティブスピーチはその他の全て(たとえば、背景雑音、沈黙、息つぎ等)を含んでいる。以下、スピーチをアクティブまたは非アクティブとして分類するために使用される本発明による方法を詳細に説明する。
【0026】
図3に示されているように、ステップ306 は、ステップ304 において現在のフレームがアクティブまたは非アクティブのいずれに分類されたかを考慮する。アクティブの場合、制御フローはステップ308 に進む。非アクティブの場合、制御フローはステップ310 に進む。
【0027】
アクティブとして分類されたフレームは、ステップ308 において発声されたフレームか、無声化されたフレームか、または過渡フレームのいずれかとしてさらに分類される。当業者は、人間のスピーチが多くの異なった方法で分類可能であることを認識するであろう。通常の2つのスピーチ分類は発声された音および無声音である。本発明によると、発声されていないまたは無声の全てのスピーチは過渡スピーチとして分類される。
【0028】
図4Aは、発声されたスピーチ402 を含むs(n)の例示的な部分を示している。発声音は、声帯が緩和振動で振動し、それによって声道を励起させる空気の擬似周期パルスを生成するように調節された声帯の緊張状態を伴って、強制的に空気が声門を通過するようにすることにより生成される。発声されたスピーチにおいて測定される1つの一般的な特性は、図4Aに示されているピッチ周期である。
【0029】
図4Bは、無声スピーチ404 を含むs(n)の例示的な部分を示している。無声音は、声道中のある地点にくびれ(通常は口の末端に向かって)を形成し、強制的に空気が乱流を生じさせるのに十分に高い速度でそのくびれを通過するようにすることによって生成される。結果的に得られた無声スピーチ信号は、カラード(colored) 雑音に似ている。
【0030】
図4Cは、過渡スピーチ406 (すなわち、発声されたものでもなく、無声音でもないスピーチ)を含むs(n)の例示的な部分を示している。図4Cに示されている例示的な過渡スピーチ406 は、無声スピーチと発声されたスピーチとの間の過渡状態にあるs(n)を表している。当業者は、これに匹敵した結果を得るためにスピーチの多くの異なった分類をここに記載されている技術にしたがって使用することが可能であることを認識するであろう。
【0031】
ステップ310 において、ステップ306 および308 におけるフレーム分類に基づいてエンコーダ/デコーダモードが選択される。図2に示されているように種々のエンコーダ/デコーダモードが並列に接続される。これらのモードの1以上のものが任意の所定の時間に動作可能である。しかしながら、以下詳細に説明するように、任意の所定の時間に1つのモードだけが動作し、また、それは現在のフレームの分類にしたがって選択されることが好ましい。
【0032】
いくつかのエンコーダ/デコーダモードが以下のセクションにおいて記載されている。異なったエンコーダ/デコーダモードが異なったコーディング方式にしたがって動作する。あるモードは、ある特性を示すスピーチ信号s(n)のコーディング部分においてより効果的である。
【0033】
好ましい実施形態において、過渡スピーチとして分類されたフレームをコード化するために“コーディング励起線形予測”(CELP)モードが選択される。CELPモードは、線形予測残留信号の量子化されたバージョンで線形予測声道モデルを励起する。ここに記載されている全てのエンコーダ/デコーダモードのうち、CELPにより一般に最も正確なスピーチ再生が得られるが、最高のビットレートが必要である。
【0034】
発声されたスピーチとして分類されたフレームをコード化するために、“原型ピッチ周期”(PPP)モードが選択されることが好ましい。発声されたスピーチは、PPPモードによって利用されるゆっくり時間と共に変化する周期的成分を含んでいる。PPPモードは、各フレーム内のピッチ周期のサブセットだけをコード化する。スピーチ信号の残りの周期は、これらの原型周期間において補間をすることにより再構成される。発声されたスピーチの周期性を利用することにより、PPPはCELPより低いビットレートを達成し、依然としてスピーチ信号を知覚的に正確な方法で再生することができる。
【0035】
無声スピーチとして分類されたフレームをコード化するために“雑音励起線形予測”(NELP)モードが選択される。NELPは濾波された擬似ランダム雑音信号を使用して、無声スピーチをモデル化する。NELPはコード化されたスピーチに対して最も簡単なモデルを使用し、したがって最も低いビットレートを達成する。
【0036】
同じコーディング技術は異なったビットレートで頻繁に動作されることが可能であり、その結果性能レベルが変化する。したがって、図2の異なったエンコーダ/デコーダモードは異なったコーディング技術、または異なったビットレートで動作している同じコーディング技術、あるいはそれらの組合せを表すことができる。当業者は、エンコーダ/デコーダモード数の増加により、モードを選択する際にさらに高いフレキシビリティが可能であり、その結果平均ビットレートをさらに低くすることができるが、システム全体の複雑性が増加することを認識するであろう。任意の所定のシステムにおいて使用される特定の組合せは、利用可能なシステムリソースおよび特定の信号環境によって指示される。
【0037】
ステップ312 において、選択されたエンコーダモード204 は、現在のフレームを符号化し、符号化されたデータを伝送のためにデータパケットにパックすることが好ましい。ステップ314 において、対応したデコーダモード206 はデータパケットを分解し、受信されたデータを復号し、スピーチ信号を再構成する。以下、これらの動作を適切なエンコーダ/デコーダモードに関してさらに詳細に説明する。
【0038】
[III .初期パラメータの決定]
図5は、ステップ302 をさらに詳細に説明するフローチャートである。本発明にしたがって種々の初期パラメータが計算される。パラメータは、たとえば、LPC係数、線形スペクトル情報(LSI)係数、正規化された自己相関関数(NACF)、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残留信号等を含んでいることが好ましい。これらのパラメータは、以下に説明するようにシステム全体内において種々の方法で使用される。
【0039】
好ましい実施形態において、初期パラメータ計算モジュール202 は160+40個のサンプルの“ルックアヘッド”を使用する。これは、いくつかの目的のために機能する。第1に、160個のサンプルのルックアヘッドにより、ピッチ周波数追跡は次のフレーム中の情報を使用して計算されることが可能になり、それによって以下に説明されている音声コーディングとピッチ周期評価技術の粗さが著しく改善される。第2に、160個のサンプルのルックアヘッドにより、LPC係数、フレームエネルギおよび音声アクティビティが将来の1つのフレームに対して計算されることが可能になる。これによって、フレームエネルギおよびLPC係数の効率的なマルチフレーム量子化が可能になる。第3に、付加的な40個のサンプルのルックアヘッドは、以下に説明されるハミングウインドウ(Hamming windowed)スピーチに関してLPC係数を計算するためのものである。したがって、現在のフレームを処理する前にバッファされるサンプルの数は160+160+40であり、これには現在のフレームと160+40個のサンプルのルックアヘッドが含まれている。
【0040】
[A.LPC係数の計算]
本発明は、スピーチ信号中の短期間冗長を除去するためにLPC予測エラーフィルタを使用する。LPCフィルタに対する伝達関数は:
【数2】
Figure 0004824167
本発明においては前の式に示されているように10次フィルタを構成することが好ましい。デコーダ中のLPC合成フィルタは冗長を再挿入し、それはA(z)の逆数:
【数3】
Figure 0004824167
によって与えられる。
【0041】
ステップ502 において、LPC係数ai は次のようにs(n)から計算される。LPCパラメータは、現在のフレームに対する符号化手順中に次のフレームに対して計算されることが好ましい。
【0042】
ハミングウインドウは、119番目と120番目のサンプルの間を中心とする現在のフレームに適用される(“ルックアヘッド”による好ましい160サンプルフレームを仮定して)。ウインドウ化されたスピーチ信号sw (n)は、
【数4】
Figure 0004824167
によって与えられる。
【0043】
40個のサンプルのオフセットにより、結果的にスピーチの好ましい160個のサンプルフレームの119番目と120番目との間を中心とするスピーチのウインドウが得られる。
【0044】
11個の自己相関値は、
【数5】
Figure 0004824167
として計算されることが好ましい。
【0045】
自己相関値は、
R(k)=h(k)R(k),0≦k≦10
によって与えられるようにLPC係数から得られたラインスペクトル対(LSP)のルートをミスする確率を減少するためにウインドウ化され、その結果、たとえば25Hz等のわずかな帯域幅拡張が生じる。値h(k)は、255ポイントハミングウインドウの中心からとられることが好ましい。
【0046】
その後、Durbinの帰納を使用してウインドウ化された自己相関値からLPC係数が得られる。Durbinの帰納はよく知られた効率的な計算方法であり、文献(Rabiner & Schafer による“Digital Processing Speech Signals,”)に記載されている。
【0047】
[B.LSI計算]
ステップ504 において、LPC係数は量子化および補間のためにラインスペクトル情報(LSI)係数に変換される。LSI係数は、本発明にしたがって以下の方法で計算される。
【0048】
上述のように、A(z)は、
A(z)=1−a1 -1−…−a10-10
によって与えられ、ここでai はLPC係数であり、1≦i≦10である。
【0049】
A (z)およびQA (z)は、次のように規定される:
【数6】
Figure 0004824167
【0050】
ラインスペクトルのコサイン(LSC)は、以下の2つの関数の−1.0<x<1.0における10個のルートである:
【数7】
Figure 0004824167
【0051】
その後、
【数8】
Figure 0004824167
にしたがってLSI係数が計算される。
【0052】
LSCは、次式にしたがってLSI係数から得られる:
【数9】
Figure 0004824167
【0053】
LPCフィルタの安定性により、2つの関数のルートが交互すること、すなわち、最も小さいルートlsc1 がP´(x)の最小のルートであり、2番目に小さいルートlsc2 がQ´(x)の最小のルートであり、その他も同様であることが保証される。したがって、lsc1 ,lsc3 ,lsc5 ,lsc7 およびlsc9 はP´(x)のルートであり、lsc2 ,lsc4 ,lsc6 ,lsc8 およびlsc10はQ´(x)のルートである。
【0054】
当業者は、LSI係数の量子化に対する感度を計算するためのある方法を使用することが好ましい認識するであろう。各LSI中の量子化エラーを適切に加重するために量子化プロセスにおいて“感度加重”が使用されることができる。
【0055】
LSI係数はマルチステージベクトル(VQ)量子化器を使用して量子化される。ステージの数は、使用される特定のビットレートおよびコードブックに依存していることが好ましい。コードブックは、現在のフレームが発声されたか否かに基づいて選択される。
【0056】
ベクトル量子化は、次式のように定義される加重平均自乗エラー(WMSE)を最小化する:
【数10】
Figure 0004824167
↑wはそれに関連した加重であり、↑yはコードベクトルである。好ましい実施形態において、↑wは感度加重であり、P=10である。
【0057】
LSIベクトルは、
【数11】
Figure 0004824167
のような量子化として得られたLSIコードから再構成され、ここでCBi は発声されたフレームまたは無声化されたフレームのいずれか(これは、コードブックの選択を示すコードに基づく)に対するi番目のステージのVQコードブックであり、codei はi番目のステージに対するLSIコードである。
【0058】
LSI係数がLPC係数に変換される前に、量子化雑音またはLSI係数中へのチャンネルエラー注入雑音のせいで結果的に得られるLPCフィルタが不安定にならないことを確実にするために安定性チェックが行われる。LSI係数が順序付けられた状態のままである場合、安定性が保証される。
【0059】
元のLPC係数を計算するときに、フレームの119番目のサンプルと120番目のサンプルの間を中心とするスピーチウインドウが使用された。フレーム中のその他のポイントに対するLPC係数は、前のフレームのLSCと現在のフレームのLSCとの間で補間をすることにより近似される。その後、結果的に得られた補間されたLSCはLPC係数に変換されて戻される。各サブフレームに対して使用される正確な補間は、
ilscj =(1−αi )lscprevj +αi lsccurrj
1≦j≦10
によって与えられる。ここで、αi は40個の各サンプルの4つのサブフレームに対する補間係数0.375,0.625,0.875,1.000であり、ilscは補間されたLSCである。^PA (z)および^QA (z)は補間されたISCにより次式にしたがって計算される:
【数12】
Figure 0004824167
4つのサブフレーム全てに対する補間されたLPC係数は、
【数13】
Figure 0004824167
[C.NACF計算]
ステップ506 において、正規化された自己相関関数(NACF)が本発明にしたがって計算される。
【0060】
次のフレームに対するホルマント残留は4つの40サンプルサブフレームに対して以下のように計算される:
【数14】
Figure 0004824167
ここで、補間は現在のフレームの量子化されていないLSCと次のフレームのLSCとの間において行われる。次のフレームのエネルギはまた以下のように計算される:
【数15】
Figure 0004824167
【0061】
上記で計算された残留は好ましくは長さ15のゼロ位相FIRフィルタを使用してローパスフィルタ処理され、デシメート(decimate)され、ゼロ位相FIRフィルタの係数dfi (−7≦i≦7)は{0.0800,0.1256,0.2532,0.4376,0.6424,0.8268,0.9544,1.000,0.9544,0.8268,0.6424,0.4376,0.2532,0.1256,0.0800}である。ローパスフィルタ処理され、デシメートされた残留は次のように計算される:
【数16】
Figure 0004824167
ここでF=2はデシメーション係数であり、−7≦Fn+i≦6であるr(Fn+i)は、量子化されていないLPC係数に基づく現在のフレームの残留の最後の14個の値から得られる。上述したように、これらのLPC係数は、前のフレーム中に計算され記憶される。
【0062】
次のフレームの2つのサブフレーム(デシメートされた40個のサンプル)に対するNACFは、以下のように計算される:
【数17】
Figure 0004824167
【0063】
負のnを有するrd (n)に対して、現在のフレームのローパスフィルタ処理されてデシメートされた残留(前のフレーム期間中に記憶された)が使用される。現在のサブフレームc corrに対するNACFもまた計算されて前のフレーム期間中に記憶される。
【0064】
[D.ピッチトラックおよび遅延の計算]
ステップ508 において、ピッチトラックおよび遅延が本発明にしたがって計算される。ピッチ遅延は後方トラックによりビタビ状サーチを使用して、以下のように計算されることが好ましい。
【0065】
【数18】
Figure 0004824167
2i+1に対する値を得るためにベクトルRM2iが次のように補間される:
【数19】
Figure 0004824167
ここでcfj は補間フィルタであり、その係数は{−0.0625,0.5625,0.5625,−0.0625}である。その後、遅延LC は、
【数20】
Figure 0004824167
であるように選択され、現在のフレームのNACFは、
【数21】
Figure 0004824167
に等しく設定される。その後、
【数22】
Figure 0004824167
より大きい最大相関に対応した遅延をサーチすることにより遅延倍数が除去される。
【0066】
[E.帯域エネルギおよびゼロ交差レートの計算]
ステップ510 において、0−2kHz帯域および2kHz−4kHz帯域中のエネルギが本発明にしたがって以下のように計算される:
【数23】
Figure 0004824167
S(z),SL (z)およびSH (z)はそれぞれ入力スピーチ信号s(n)、ローパス信号sL (n)およびハイパス信号sH (n)のz変換されたものであり、
【数24】
Figure 0004824167
【0067】
スピーチ信号エネルギ自身は、
【数25】
Figure 0004824167
であり、ゼロ交差レートZCRは、
s(n)s(n+1)<0ならば、ZCR=ZCR+1、 0≦n≦159
のように計算される。
【0068】
[F.ホルマント残留の計算]
ステップ512 において、現在のフレームに対するホルマント残留が4つのサブフレームに対して以下のように計算される:
【数26】
Figure 0004824167
ここで、^ai は対応したサブフレームのi番目のLPC係数である。
【0069】
[IV.アクティブ/非アクティブスピーチ分類]
図3を参照すると、ステップ304 において現在のフレームはアクティブスピーチ(たとえば、話されたワード)または非アクティブスピーチ(背景雑音、沈黙)のいずれかとして分類される。図6は、ステップ304 をさらに詳細に示すフローチャート600 である。好ましい実施形態において、2つのエネルギ帯域ベースのしきい値設定方式は、アクティブスピーチが存在するか否かを決定するために使用される。低い帯域(帯域0)の周波数範囲は0.1−2.0kHzであり、高い帯域(帯域1)は2.0−4.0kHzである。音声アクティビティ検出は、以下に示す方法で現在のフレームに対する符号化工程中に次のフレームに対して決定されることが好ましい。
【0070】
ステップ602 において、帯域i=0,1に対する帯域エネルギEb[i]が計算される。上記のセクションIII .Aに示されている自己相関シーケンスは帰納的な式:
【数27】
Figure 0004824167
を使用して19に拡張される。この式を使用することにより、R(11)はR(1)乃至R(10)から計算され、R(12)はR(2)乃至R(11)から計算され、以下同様に行われる。その後、以下の式を使用して拡張された自己相関シーケンスから帯域エネルギが計算される:
【数28】
Figure 0004824167
ここで、R(k)は現在のフレームに対する拡張された自己相関シーケンスであり、Rh (i)(k)は、表1に与えられている帯域iに対する帯域フィルタ自己相関シーケンスである。
【0071】
表 1:帯域エネルギ計算用のフィルタ自己相関シーケンス
【表1】
Figure 0004824167
【0072】
ステップ604 において、帯域エネルギ推定値が平滑化される。平滑化された帯域エネルギ推定値Esmは、以下の式を使用して各フレームに対して更新される:
sm(i)=0.6Esm(i)+0.4Eb (i),i=0,1
【0073】
ステップ606 において、信号エネルギおよび雑音エネルギ推定値が更新される。信号エネルギ推定値Es (i)は、以下の式を使用して更新されることが好ましい:
s (i)=max(Esm(i),Es (i)),i=0,1
【0074】
雑音エネルギ推定値En (i)は以下の式を使用して更新されることが好ましい:
n (i)=min(Esm(i),En (i)),i=0,1
【0075】
ステップ608 において、2つの帯域に対する長期間の信号対雑音比SNR(i)が計算される:
SNR(i)=Es (i)−En (i),i=0,1
【0076】
ステップ610 において、これらのSNR値は以下のように規定される8つの領域RegSNR (i)に分割されることが好ましい:
【数29】
Figure 0004824167
【0077】
ステップ612 において、音声アクティビティ決定が本発明にしたがって以下の方法で行われる。Eb (0)−En (0)>THRESH(RegSNR (0))またはEb (1)−En (1)>THRESH(RegSNR (1))のいずれかである場合、スピーチのそのフレームはアクティブであると宣言される。その他の場合は、スピーチのフレームは非アクティブであると宣言される。THRESHの値は表2に規定されている。
【0078】
信号エネルギ推定値Es (i)は、以下の式を使用して更新されることが好ましい:
s (i)=Es (i)−0.014499,i=0,1
表 2:SNR領域の関数としてのしきい値係数
【表2】
Figure 0004824167
【0079】
雑音エネルギ推定値En (i)は、以下の式を使用して更新されることが好ましい:
【数30】
Figure 0004824167
【0080】
[A.ハングオーバーフレーム]
信号対雑音比が低いとき、再構成されるスピーチの品質を改良するために“ハングオーバ”フレームが付加されることが好ましい。前の3つのフレームがアクティブとして分類され、現在のフレームは非アクティブと分類される場合、現在のフレームを含む次のM個のフレームはアクティブスピーチとして分類される。ハングオーバフレームの数Mは、表3に規定されているようにSNR(0)の関数として定められることが好ましい。
表 3:SNR(0)の関数としてのハングオーバフレーム
【表3】
Figure 0004824167
【0081】
[V.アクティブスピーチフレームの分類]
再び図3を参照すると、ステップ308 において、ステップ304 でアクティブであると分類された現在のフレームがスピーチ信号s(n)により示された特性にしたがってさらに分類される。好ましい実施形態では、アクティブスピーチは発声されたスピーチ、無声スピーチ、あるいは過渡スピーチのいずれかとして分類される。アクティブスピーチ信号によって示される周期性の程度は、それがどのように分類されるかを決定する。発声されたスピーチは最高度の周期性を示す(本質的に擬似周期的)。無声スピーチは周期性をほとんど、あるいは全く示さない。過渡スピーチは発声されたスピーチと無声スピーチの間の周期性の程度を示す。
【0082】
しかしながら、ここに記載されている一般的なフレームワークは、以下に説明されている好ましい分類方式および特定のエンコーダ/デコーダモードに限定されない。アクティブスピーチは別の方法で分類されることが可能であり、また別のエンコーダ/デコーダモードがコーディングに対して利用可能である。当業者は、分類とエンコーダ/デコーダモードとの多数の組合せが可能なことを認識するであろう。多くのこのような組合せの結果、ここに記載されている一般的なフレームワークにしたがって、すなわち、スピーチを非アクティブまたはアクティブと分類し、アクティブスピーチをさらに分類して、各分類の範囲内のスピーチにとくに適合させられたエンコーダ/デコーダモードを使用してスピーチ信号をコード化することにより、減少された平均ビットレートを達成することができる。
【0083】
アクティブスピーチ分類は周期性の程度に基づいているが、分類決定は周期性のある直接的な測定に基づいて行われないほうが好ましい。むしろ、分類決定は、たとえば、高いおよび低い帯域中の信号対雑音比およびNACF等のステップ302 において計算された種々のパラメータに基づいて行われる。好ましい分類は以下の擬似コードによって記述されてもよい:
【数31】
Figure 0004824167
noise は背景雑音の推定値であり、Eprevは前のフレームの入力エネルギである。
【0084】
この擬似コードによって記述された方法は、それが実施される特定の環境にしたがって改良されることができる。当業者は、上記に与えられた種々のしきい値が単なる例示に過ぎず、実際にはその実施形態に応じて調整を要する可能性が高いことを認識するであろう。この方法はまた、TRANSIENTを2つのカテゴリー:高エネルギから低エネルギに移行する信号に対するカテゴリーと低エネルギから高エネルギに移行する信号に対するカテゴリーとに分割する等によって付加的な分類カテゴリーを追加することによってさらに精巧にされることができる。
【0085】
当業者は、別の方法が発声されたアクティブスピーチと、無声アクティブスピーチと、および過渡アクティブスピーチとを分類するために利用できることを認識するであろう。同様に、当業者はアクティブスピーチに対する他の分類方式もまた可能であることを認識するであろう。
【0086】
[VI.エンコーダ/デコーダモード選択]
ステップ310 において、エンコーダ/デコーダモードがステップ304 および308 の現在のフレームの分類に基づいて選択される。好ましい実施形態によると、モードは次のように選択される:非アクティブフレームおよびアクティブな無声フレームはNELPモードを使用してコード化され、アクティブな発声されたフレームはPPPモードを使用してコード化され、アクティブな過渡フレームはCELPモードを使用してコード化される。以下のセクションでこれらの各エンコーダ/デコーダモードをさらに詳細に説明する。
【0087】
別の実施形態において、非アクティブフレームは、ゼロレートモードを使用してコード化される。当業者は、非常に低いビットレートを要求する別のゼロレートモードが利用できることを認識するであろう。ゼロレートモードの選択は、過去のモード選択を考慮することによりさらに改良されることができる。たとえば、前のフレームがアクティブと分類された場合、これは現在のフレームに対するゼロレートモードの選択を阻害する可能性がある。同様に、次のフレームがアクティブならば、現在のフレームに対してゼロレートモードが阻止される。さらに別の実施形態は、非常に多く連続するフレーム(たとえば、9個の連続しているフレーム)に対するゼロレートモードの選択を阻止するものである。当業者は、ある環境におけるその動作を改良するために基本モードの選択決定に対するその他多くの修正がなされてもよいことを認識するであろう。
【0088】
上述のように、分類とエンコーダ/デコーダモードのその他多数の組合せがこの同じフレームワーク内において代りに使用されてもよい。以下のセクションにおいて、本発明によるいくつかのエンコーダ/デコーダモードを詳細に説明する。最初にCELPモードを説明し、続いてPPPモードとNELPモードを説明する。
【0089】
[VII .コード励起線形予測(CELP)コーディングモード]
上述のように、現在のフレームがアクティブ過渡スピーチとして分類された場合、CELPエンコーダ/デコーダモードが使用される。CELPモードは最も正確な信号再生(ここに示されている別のモードと比較して)を提供するが、それは最高のビットレートでなされる。
【0090】
図7は、CELPエンコーダモード204 およびCELPデコーダモード206 をさらに詳細に示している。図7Aに示されているように、CELPエンコーダモード204 はピッチ符号化モジュール702 、符号化コードブック704 およびフィルタ更新モジュール706 を含んでいる。CELPエンコーダモード204 は符号化されたスピーチ信号senc (n)を出力し、これはCELPデコーダモード206 に伝送するためのコードブックパラメータおよびピットフィルタパラメータを含んでいることが好ましい。図7Bに示されているように、CELPデコーダモード206 は復号コードブックモジュール708 、ピッチフィルタ710 およびLPC合成フィルタ712 を含んでいる。CELPデコーダモード206 は符号化されたスピーチ信号を受取り、合成されたスピーチ信号^s(n)を出力する。
【0091】
[A.ピッチ符号化モード]
ピッチ符号化モジュール702 は、前のフレームpc (n)からスピーチ信号s(n)および量子化された残留を受取る(以下説明する)。この入力に基づいて、ピッチ符号化モジュール702 はターゲット信号x(n)と1組のピッチフィルタパラメータを生成する。好ましい実施形態において、これらのピッチフィルタパラメータは最適ピッチ遅延L* と最適ピッチ利得b* を含んでいる。これらのパラメータは、符号化プロセスがこれらのパラメータを使用して入力スピーチと合成されたスピーチとの間の加重されたエラーを最小にするピッチフィルタパラメータを選択する“合成による解析”方法にしたがって選択される。
【0092】
図8は、ピッチ符号化モジュール702 をさらに詳細に示している。ピッチ符号化モジュール702 は、知覚的加重フィルタ802 と、加算器804 および816 と、加重されたLPC合成フィルタ806 および808 と、遅延および利得810 と、ならびに最小平方和812 とを含んでいる。
【0093】
知覚加重フィルタ802 は元のスピーチと合成されたスピーチとの間のエラーを知覚的に意味のある方法で加重するために使用される。知覚的加重フィルタは、
W(z)=A(z)/A(z/γ)
という形態のものである。ここでA(z)はLPC予測エラーフィルタであり、γは0.8に等しいことが好ましい。加重されたLPC解析フィルタ806 は、初期パラメータ計算モジュール202 により計算されたLPC係数を受取る。フィルタ806 はazir (n)を出力し、これはLPC係数を与えられたゼロ入力応答特性である。加算器804 は負の入力と濾波された入力信号を合計してターゲット信号x(n)を形成する。
【0094】
遅延および利得810 は、所定のピッチ遅延Lおよびピッチ利得bに対して評価されたピッチフィルタ出力bpL (n)を出力する。遅延および利得810 は前のフレームpc (n)からの量子化された残留サンプルと、po (n)で与えられるピッチフィルタの将来の出力の推定値とを受取り、
【数32】
Figure 0004824167
にしたがってp(n)を形成する。これはその後L個のサンプルだけ遅延され、bによりスケールされてbpL (n)を形成する。Lpはサブフレーム長(好ましくは40個のサンプル)である。好ましい実施形態において、ピッチ遅延Lは8ビットで表され、値20.0,20.5,21.0,21.5,…126.0,126.5,127.0,127.5をとることができる。
【0095】
加重されたLPC解析フィルタ808 は、現在のLPC係数を使用してbpL (n)を濾波し、その結果byL (n)が得られる。加算器816 は負の入力byL (n)をx(n)と合計し、その出力は最小平方和812 によって受取られる。この最小平方和812 は、
【数33】
Figure 0004824167
にしたがってEpitch (L)を最小にするLおよびbの値としてL* で示されている最適なLと、b* で示されている最適なbとを選択する。
【0096】
【数34】
Figure 0004824167
Lの所定の値に対してEpitch (L)を最小にするbの値は、
【数35】
Figure 0004824167
ここでKは無視されることのできる定数である。
【0097】
Lおよびbの最適値(L* およびb* )は、最初にEpitch (L)を最小にするLの値を決定し、次にb* を計算することにより見出されることができる。
【0098】
これらのピッチフィルタパラメータは、各サブフレームに対して計算され、その後効率的な伝送のために量子化されることが好ましい。好ましい実施形態ではj番目のサブフレームに対する伝送コードPLAGj およびPGAINj は以下のように計算される:
【数36】
Figure 0004824167
その後PGAINj は、PLAGj が0に設定された場合には−1になるように調節される。これらの伝送コードは、符号化されたスピーチ信号senc (n)の一部分であるピッチフィルタパラメータとしてCELPデコーダモード206 に伝送される。
【0099】
[B.符号化コードブック]
符号化コードブック704 はターゲット信号x(n)を受取り、ピッチフィルタパラメータと共に量子化された残留信号を再構成するためにCELPデコーダモード206 により使用される1組のコードブック励起パラメータを決定する。
【0100】
符号化コードブック704 は最初にx(n)を次のように更新する:
x(n)=x(n)−ypzir(n),0≦n≦40
ここでypzir(n)は、パラメータ^L* および^b* (ならびに前のサブフレームの処理の結果得られたメモリ)を有するピッチフィルタのゼロ入力応答特性である入力への、加重されたLPC合成フィルタ(前のサブフレームの終わりから保存されたメモリを有する)の出力である。
【0101】
バックフィルタ処理されたターゲット↑d={dn },0≦n<40は、↑d=HT ↑xとして生成され、ここで
【数37】
Figure 0004824167
は、インパルス応答特性{hn }および↑x={x(n)},0≦n<40から形成されたインパルス応答マトリクスである。その上、さらに2つのベクトル^φ={φn }および↑sが生成される。
【0102】
【数38】
Figure 0004824167
【0103】
符号化コードブック704 は、以下のように値Exy* およびEyy* をゼロに初期化して好ましくはN(0,1,2,3)の4つの値に関して最適励起パラメータをサーチする。
【0104】
【数39】
Figure 0004824167
【数40】
Figure 0004824167
【0105】
符号化コードブック704 は、コードブック利得G* をExy* /Eyy* として計算し、その後その励起パラメータセットをj番目のサブフレームに対して以下の伝送コードにしたがって量子化する:
【数41】
Figure 0004824167
および量子化された利得^G* は、
【数42】
Figure 0004824167
【0106】
ピッチ符号化モジュール702 を除去し、コードブックサーチだけを行って4つの各サブフレームに対するインデックスIおよび利得Gを決定することにより、CELPエンコーダ/デコーダモードの低ビットレート形態が実現されることができる。当業者は、上述した考えがこの低ビットレート形態を達成するためにどのように拡張されるかを認識するであろう。
【0107】
[C.CELPデコーダ]
CELPデコーダモード206 は、コードブック励起パラメータおよびピッチフィルタパラメータを含んでいることが好ましい符号化されたスピーチ信号をCELPエンコーダモード204 から受取り、このデータに基づいて合成されたスピーチ^s(n)を出力する。復号コードブックモジュール708 はコードブック励起パラメータを受取り、Gの利得を有する励起信号cb(n)を発生する。j番目のサブフレームに対する励起信号cb(n)は一般に、全ての値が
【数43】
Figure 0004824167
となるように計算された利得Gによりスケールされ、Gcb(n)を供給する値:
k =1−2SIGNjk,0≦k<5
のインパルスを対応的に有する5つの位置:
k =5CBIjk+k,0≦k<5
を除いてゼロを含んでいる。
【0108】
ピッチフィルタ710 は、受取られた伝送コードからピッチフィルタパラメータを以下の式にしたがって復号する:
【数44】
Figure 0004824167
その後ピッチフィルタ710 はGcb(n)を濾波し、ここにおいてそのフィルタは以下の式によって与えられる伝達関数を有する:
【数45】
Figure 0004824167
【0109】
好ましい実施形態において、CELPデコーダモード206 はまた余分のピッチ濾波動作であるピッチプレフィルタ(示されていない)をピッチフィルタ710 の後に追加する。ピッチプレフィルタに対する遅延は、ピッチフィルタ710 の遅延と同じであり、一方その利得は0.5の最大値までピッチ利得の半分であることが好ましい。
【0110】
LPC合成フィルタ712 は再構成された量子化された残留信号^r(n)を受取り、合成されたスピーチ信号^s(n)を出力する。
【0111】
[D.フィルタ更新モジュール]
フィルタ更新モジュール706 は、前のセクションにおいて説明したようにフィルタメモリを更新するためにスピーチを合成する。フィルタ更新モジュール706 はコードブック励起パラメータおよびピッチフィルタパラメータを受取り、励起信号cb(n)およびピッチフィルタGcb(n)を生成し、その後^s(n)を合成する。この合成をエンコーダにおいて行うことにより、ピッチフィルタおよびLPC合成フィルタ中のメモリは、後続するサブフレームの処理時に使用されるように更新される。
【0112】
[VIII.原型ピッチ周期(PPP)コーディングモード]
原型ピッチ周期(PPP)コーディングは、CELPコーディングを使用して得られることのできる低ビットレートを達成するためにスピーチ信号の周期性を使用する。一般に、PPPコーディングは、ここでは原型残留と呼ばれる残留信号の代表的な周期を抽出し、その後その原型を使用して、現在のフレームの原型残留と前のフレームからの類似のピッチ周期(すなわち、最後のフレームがPPPであった場合は原型残留)との間で補間を行うことにより初期のピッチ周期をフレーム中に構成することを含んでいる。PPPコーディングの効果(低くされたビットレートに関する)は部分的に、現在および前の原型残留がどの程度その介在ピッチ周期に似ているかに依存する。この理由のために、PPPコーディングは、ここでは擬似周期スピーチ信号と呼ばれる比較的高度の周期性を示すスピーチ信号(たとえば、発声されたスピーチ)に適用されることが好ましい。
【0113】
図9には、PPPエンコーダモード204 およびPPPデコーダモード206 がさらに詳細に示されている。PPPエンコーダモード204 は抽出モジュール904 と、回転コリレータ906 と、符号化コードブック908 と、およびフィルタ更新モジュール910 とを含んでいる。PPPエンコーダモード204 は残留信号r(n)を受取り、符号化されたスピーチ信号senc (n)を出力し、これはコードブックパラメータおよび回転パラメータを含んでいることが好ましい。PPPデコーダモード206 はコードブックデコーダ912 と、回転子914 と、加算器916 と、周期インターポレータ920 と、およびワープフィルタ918 とを含んでいる。
【0114】
図10は、符号化および復号を含むPPPコーディングのステップを示すフローチャート1000である。これらのステップをPPPエンコーダモード204 およびPPPデコーダモード206 の種々のコンポーネントと共に説明する。
【0115】
[A.抽出モジュール]
ステップ1002において、抽出モジュール904 は残留信号r(n)から原型残留rp (n)を抽出する。上記のセクションIII .Fで述べたように、初期パラメータ計算モジュール202 は、各フレームに対するr(n)を計算するためにLPC解析フィルタを使用する。好ましい実施形態においては、このフィルタ中のLPC係数はセクションVII .Aにおいて説明されているように知覚的に加重される。rp (n)の長さは、現在のフレームの中の最後のサブフレーム中に初期パラメータ計算モジュール202 によって計算されたピッチ遅延Lに等しい。
【0116】
図11は、ステップ1002をさらに詳細に示すフローチャートである。PPP抽出モジュール904 は、以下に説明する制限の下でフレームの終わりに可能な限り近接したピッチ周期を選択することが好ましい。図12は、擬似周期スピーチに基づいて計算された、現在のフレームと前のフレームからの最後のサブフレームとを含む残留信号の一例を示している。
【0117】
ステップ1102において、“カットフリー領域”が決定される。カットフリー領域は、原型残留の終点になることのできない残留の中の1組のサンプルを規定する。このカットフリー領域は、残留の高エネルギ領域が原型の始めと終わりに生じないことを確実にする(この生成が許されたならば、出力において不連続性が生じる可能性が高い)。r(n)の最後のL個のサンプルのそれぞれの絶対値が計算される。変数PS は、ここでは“ピッチスパイク”と呼ばれる最も大きい絶対値を有するサンプルの時間インデックスに等しく設定される。たとえば、ピッチスパイクが最後のL個のサンプルの最後のサンプルで発生したならば、PS =L−1である。好ましい実施形態において、カットフリー領域の最小サンプルGFmin は、PS −6またはPS −0.25Lの小さいほうであるように設定される。カットフリー領域の最大のものCFmax は、PS +6またはPS +0.25Lの大きいほうであるように設定される。
【0118】
ステップ1104において、原型残留はL個のサンプルを残留から切断することにより選択される。選択された領域は、その領域の終点がカットフリー領域内にあってはならないという制限の下でフレームの終わりに可能な限り近接している。原型残留のL個のサンプルは、以下の擬似コードで記述されたアルゴリズムを使用して決定される:
【数46】
Figure 0004824167
【0119】
[B.回転コリレータ]
再び図10を参照すると、ステップ1004において回転コリレータ906 は、現在の原型残留rp (n)と、前のフレームからの原型残留rprev(n)とに基づいて1組の回転パラメータを計算する。これらのパラメータは、rprev(n)がrp (n)の予測子として使用されるためにどのように回転され、スケールされるのが一番よいかを記述している。好ましい実施形態において、回転パラメータのセットは、最適回転R* と最適利得b* とを含んでいる。図13は、ステップ1004をさらに詳細に示すフローチャートである。
【0120】
ステップ1302において、知覚的に加重されたターゲット信号x(n)は原型ピッチ残留周期rp (n)を循環的に濾波することにより計算される。これは次のように行われる。一時的信号tmp1(n)は、
【数47】
Figure 0004824167
のようにrp (n)から生成され、これはゼロメモリを有する加重されたLPC合成フィルタによって濾波され、出力tmp2(n)を供給する。好ましい実施形態では、使用されるLPC係数は、現在のフレームの中の最後のサブフレームに対応した知覚的に加重された係数である。したがってターゲット信号x(n)は、
x(n)=tmp2(n)+tmp2(n+L),0≦n<L
によって与えられる。
【0121】
ステップ1304において、前のフレームからの原型残留rprev(n)は、前のフレームの量子化されたホルマント残留(これもまたピッチフィルタのメモリ内に存在する)から抽出される。前の原型残留は前のフレームのホルマント残留の最後のLp 値として規定されることが好ましく、ここでLp は、前のフレームがPPPフレームでなかった場合はLに等しく、その他の場合には前のピッチ遅延に設定される。
【0122】
ステップ1306において、相関が正しく計算できるように、rprev(n)の長さがx(n)と同じ長さのものとなるように変更される。サンプリングされた信号の長さを変更するこの技術をここではワープと呼んでいる。ワープされたピッチ励起信号rwprev(n)は、
rwprev(n)=rprev(n* TWF),0≦n<L
として表されることができ、ここでTWFは時間ワープ係数Lp /Lである。非整数点におけるサンプル値n* TWFは、1組のsinc関数テーブルを使用して計算されることが好ましい。選択されたsincシーケンスは、sinc(−3−F:4−F)であり、ここでFは1/8の最も近い倍数に丸められたn* TWFの端数部分である。このシーケンスの始めは、rprev((N−3)%Lp )と整列され、ここでNは最も近い1/8に丸められた後のn* TWFの整数部分である。
【0123】
ステップ1308において、ワープされたピッチ励起信号rwprev(n)は循環的に濾波され、その結果y(n)が生成される。この動作はステップ1302に関して上述したものと同じであるが、rwprev(n)に適用される。
【0124】
ステップ1310において、ピッチ回転サーチ範囲は最初に期待される回転Erot を計算することにより計算される:
【数48】
Figure 0004824167
ここで、frac(x)はxの端数部分を示す。L<80ならば、ピッチ回転サーチ範囲は{Erot −8,Erot −7.5,…Erot +7.5}であるように規定され、またL≧80ならば{Erot −16,Erot −15,…Erot +15}であるように規定される。
【0125】
ステップ1312において、回転パラメータ、最適回転R* および最適利得b* が計算される。ピッチ回転は結果的にx(n)とy(n)との間における最良の予測を生むものであるが、このピッチ回転は対応した利得bと共に選択される。これらのパラメータは、エラー信号e(n)=x(n)−y(n)を最小にするように選択されることが好ましい。最適回転R* および最適利得b* は、結果的にExy2 R /Eyyの最大値を生じさせる回転Rおよび利得bの値であり、ここで、
【数49】
Figure 0004824167
これらに対して最適利得b* は回転R* において
【数50】
Figure 0004824167
である。回転の端数値に対して、ExyR の値は、回転の整数値で計算されたExyR 値を補間することによって近似される。簡単な4タップ補間フィルタが使用される。たとえば、
【数51】
Figure 0004824167
ここでRは非整数回転(0.5の精度による)であり、
【数52】
Figure 0004824167
【0126】
好ましい実施形態において、回転パラメータは効率的な伝送のために量子化される。最適利得b* は、
【数53】
Figure 0004824167
のように0.0625と4.0との間で均一に量子化されることが好ましく、PGAINは伝送コードであり、量子化された利得^b*
【数54】
Figure 0004824167
によって与えられる。最適回転R* は、L<80の場合は2(R* −Erot +8)に設定され、L≧80の場合にはR* −Erot +16に設定される伝送コードPROTとして量子化される。
【0127】
[C.符号化コードブック]
再び図10を参照すると、ステップ1006において、符号化コードブック908 は受取られたターゲット信号x(n)に基づいて1組のコードブックパラメータを発生する。符号化コードブック908 は、スケールされて加算され濾波されたときに合計するとx(n)に近似した信号となる1以上のコードベクトルを見出そうとする。好ましい実施形態では、符号化コードブック908 は、各ステージがスケールされたコードベクトルを生成する好ましくは3つのステージの、マルチステージコードブックとして構成される。したがって、コードブックパラメータのセットは、3つのコードベクトルに対応したインデックスおよび利得を含んでいる。図14はステップ1006をさらに詳細に示すフローチャートである。
【0128】
ステップ1402において、コードブックサーチが行われる前に、ターゲット信号x(n)は、
x(n)=x(n)−by((n−R* )%L),0≦n<L
のように更新される。
【0129】
上記の減算において回転R* が非整数である(すなわち、0.5の端数を有する)場合、
【数55】
Figure 0004824167
【0130】
ステップ1404において、コードブック値は多数の領域に区分される。好ましい実施形態によると、コードブックは
【数56】
Figure 0004824167
のように決定される。ここで、CBPは確率または訓練されたコードブックの値である。当業者は、これらのコードブック値がどのように生成されるかを認識するであろう。コードブックは長さLをそれぞれ有する多数の領域に分割される。第1の領域は単一パルスであり、残りの領域は確率または訓練されたコードブックからの値から形成されている。領域の数Nは、
【数57】
Figure 0004824167
となる。
【0131】
ステップ1406において、コードブックの多数の領域はそれぞれ循環的に濾波され、濾波されたコードブックyreg (n)を生成し、その連結が信号y(n)である。各領域に対して、循環的濾波が上述したようにステップ1302に関して行われる。
【0132】
ステップ1408において、濾波されたコードブックエネルギEyy(reg)は各領域に対して計算され、記憶される:
【数58】
Figure 0004824167
【0133】
ステップ1410において、マルチステージコードブックの各ステージに対するコードブックパラメータ(すなわち、コードベクトルインデックスおよび利得)が計算される。好ましい実施形態によると、Region(I)=regをサンプルIが存在する領域と定義し、すなわち、
【数59】
Figure 0004824167
また、Exy(I)を
【数60】
Figure 0004824167
と定義する。
【0134】
j番目のコードブックステージに対するコードブックパラメータI* とG* は以下の擬似コードを使用して計算される:
【数61】
Figure 0004824167
【0135】
好ましい実施形態によると、コードブックパラメータは効率的な伝送のために量子化される。伝送コードCBIj(j=ステージ番号−0,1または2)はI* に設定されることが好ましく、伝送コードCBGjおよびSIGNjは利得G* を量子化することより設定される。
【0136】
【数62】
Figure 0004824167
また、量子化された利得^G* は、
【数63】
Figure 0004824167
【0137】
その後、ターゲット信号x(n)は現在のステージのコードブックベクトルの影響を減算することにより更新される。
【0138】
【数64】
Figure 0004824167
【0139】
第2および第3のステージに対して、I* ,G* および対応した伝送コードを計算するために擬似コードから始まる上記の工程が繰り返される。
【0140】
[D.フィルタ更新モジュール]
再び図10を参照すると、ステップ1008において、フィルタ更新モジュール910 はPPPエンコーダモード204 により使用されたフィルタを更新する。図15Aおよび16Aに示されているように、フィルタ更新モジュール910 として2つの別の実施形態が与えられている。図15Aの第1の別の実施形態で示されているように、フィルタ更新モジュール910 は復号コードブック1502と、回転子1504と、ワープフィルタ1506と、加算器1510と、整列および補間モジュール1508と、更新ピッチフィルタモジュール1512と、およびLPC合成フィルタ1514とを含んでいる。図16Aに示されている第2の実施形態は、復号コードブック1602と、回転子1604と、ワープフィルタ1606と、加算器1608と、更新ピッチフィルタモジュール1610と、循環LPC合成フィルタ1612と、および更新LPCフィルタモジュール1614とを含んでいる。図17および18は、この2つの実施形態によるステップ1008をさらに詳細に示すフローチャートである。
【0141】
ステップ1702(および1802:両実施形態の第1のステップ)において、その長さがL個のサンプルである現在の再構成された原型残留rcurr(n)が、コードブックパラメータと回転パラメータとから再構成される。好ましい実施形態において、回転子1504(および1604)は、
curr((n+R* )%L)=brwprev(n),0≦n<L
にしたがって前の原型残留のワープされた形態を回転させる。ここでrcurrは生成されるべき現在の原型であり、rwprevはピッチフィルタメモリの最も新しいL個のサンプルから得られた前の周期のワープされた(上記のセクションVIII.Aで述べたように、TWF=Lp /Lにより)形態であり、bおよびRはそれぞれパケット伝送コード:
【数65】
Figure 0004824167
から得られたピッチ利得および回転である。ここで、Erot は上記のセクションVIII.Bで述べたように計算された期待された回転である。
【0142】
復号コードブック1502(および1602)は以下のように3つの各コードブックステージに対する影響をrcurr(n)に加算する:
【数66】
Figure 0004824167
ここでI=CBIjであり、Gは前のセクションで説明したようにCBGjおよびSIGNjから得られ、jはステージ番号である。
【0143】
この点で、フィルタ更新モジュール910 に対する2つの別の実施形態は異なっている。最初に図15Aの実施形態を参照すると、ステップ1704において整列および補間モジュール1508が現在のフレームの始めから現在の原型残留の始め(図12に示されている)までの残留サンプルの残りのものを充填する。ここで、残留信号に関して整列および補間が行われる。しかしながら、以下説明するように、これら同じ動作はスピーチ信号に関して行われることもできる。図19はステップ1704をさらに詳細に示すフローチャートである。
【0144】
ステップ1902において、前の遅延Lp が現在の遅延Lの2倍であるか、あるいは1/2であるかが決定される。好ましい実施形態では、その他の倍数はあまりありそうもないと考えられ、したがって考慮されない。Lp >1.85Lならば、Lp は半分にされ、前の周期rprev(n)の第1の半分だけが使用される。Lp <0.54Lならば、現在の遅延Lはおそらく2倍であり、結果的にLp もまた2倍にされ、前の周期rprev(n)は繰返しにより拡張される。
【0145】
ステップ1904において、両原型残留の長さが同じになるようにrprev(n)がワープされて、ステップ1306に関して上述したようにTWF=Lp /Lによりrwprev(n)を形成する。この動作は、フィルタ1506をワープすることによって、上述したようにステップ1702において行われたことに注意しなければならない。当業者は、ワープフィルタ1506の出力が整列および補間モジュール1508に利用できる場合には、ステップ1904が不要になることを認識するであろう。
【0146】
ステップ1906において、利用可能な範囲の整列回転が計算される。期待された整列回転EA が計算され、それは上記のセクションVIII.Bで述べたErot と同じである。整列回転サーチ範囲は{EA −δA,EA −δA+0.5,EA −δA+1,…,EA +δA−1.5,EA +δA−1}であるように規定され、ここでδA=max{6,0.15L}である。
【0147】
ステップ1908において、整数整列回転Rに対する前の原型周期と現在の原型周期との間の相互相関は、
【数67】
Figure 0004824167
として計算され、非整数回転Aに対する相互相関は、整数回転での相互相関の値を補間することによって近似される:
【数68】
Figure 0004824167
ここでA´=A−0.5である。
【0148】
ステップ1910において、結果的にC(A)の最大値になるAの値(許容可能な回転の範囲に対する)は最適整列A* として選択される。
【0149】
ステップ1912において、中間のサンプルLavに対する平均遅延またはピッチ周期が以下のようにして計算される。周期数推定値Nper は、
【数69】
Figure 0004824167
により与えられる中間サンプルに対する平均遅延により、
【数70】
Figure 0004824167
として計算される。
【0150】
ステップ1914において、前の原型残留と現在の原型残留との間における以下の補間にしたがって現在のフレーム中の残りの残留サンプルが計算される:
【数71】
Figure 0004824167
ここでα=L/Lavである。非整数点:
【数72】
Figure 0004824167
におけるサンプル値(nαまたはnα+A* のいずれかに等しい)は1組のsinc関数テーブルを使用して計算される。選択されたsincシーケンスはsinc(−3−F:4−F)であり、ここでFは、1/8の最も近い倍数に丸められた
【数73】
Figure 0004824167
の端数部分である。このシーケンスの始めはrprev((N−3)%Lp )と整列され、ここでNは、最も近い1/8に丸められた後の
【数74】
Figure 0004824167
の整数部分である。
【0151】
この動作は本質的にステップ1306に関して上述したワープと同じであることを認識すべきである。したがって、別の実施形態では、ステップ1914の補間はワープフィルタを使用して計算される。当業者は、ここに示されている種々の目的に対して単一のワープフィルタを再使用することが経済的に構成できることを認識するであろう。
【0152】
図17を参照すると、ステップ1706において、更新ピッチフィルタモジュール1512が再構成された残留^r(n)からの値をピッチフィルタメモリにコピーする。同様に、ピッチフィルタのメモリもまた更新される。
【0153】
ステップ1708において、LPC合成フィルタ1514は再構成された残留^r(n)を濾波し、この再構成された残留^r(n)はLPC合成フィルタのメモリの更新に影響を与える。
【0154】
以下、図16Aに示されているフィルタ更新モジュール910 の第2の実施形態について説明する。ステップ1702に関して上述したように、ステップ1802において原型残留がコードブックおよび回転パラメータから再構成され、その結果rcurr(n)が得られる。
【0155】
ステップ1804において、更新ピッチフィルタモジュール1610は、
【数75】
Figure 0004824167
にしたがってrcurr(n)からL個のサンプルの複製をコピーすることによってピッチフィルタメモリを更新する。ここで、131は127.5の最大遅延に対するピッチフィルタの次数であることが好ましい。好ましい実施形態において、ピッチフィルタのメモリは現在の周期rcurr(n)の複製によって等しく置換される:
【数76】
Figure 0004824167
【0156】
ステップ1806において、rcurr(n)は、好ましくは知覚的に加重されたLPC係数を使用してセクションVIII.Bで述べたように循環的に濾波され、結果的にsc (n)を生成する。
【0157】
ステップ1808において、sc (n)からの値は最後の10個の値(10次のLPCフィルタに対して)であることが好ましく、LPC合成フィルタのメモリを更新するために使用される。
【0158】
[E.PPPデコーダ]
図9および10を参照すると、ステップ1010においてPPPデコーダモード206 は、受取られたコードブックおよび回転パラメータに基づいて原型残留rcurr(n)を再構成する。復号コードブック912 、回転子914 およびワープフィルタ918 は、前のセクションで述べたように動作する。周期インターポレータ920 は再構成された原型残留rcurr(n)と、前の再構成された原型残留rprev(n)を受取り、2つの原型の間のサンプルを補間し、合成されたスピーチ信号^s(n)を出力する。次のセクションにおいて周期インターポレータ920 を説明する。
【0159】
[F.周期インターポレータ]
ステップ1012において周期インターポレータ920 はrcurr(n)を受取り、合成されたスピーチ信号^s(n)を出力する。周期インターポレータ920 に対する2つの別の実施形態は、ここでは図15Bおよび16Bに示されている。図15Bの第1の別の実施形態において、周期インターポレータ920 は、整列および補間モジュール1516と、LPC合成フィルタ1518と、および更新ピッチフィルタモジュール1520とを含んでいる。図16Bに示されている第2の別の実施形態のものは、循環LPC合成フィルタ1616と、整列および補間モジュール1618と、更新ピッチフィルタモジュール1622と、および更新LPCフィルタモジュール1620とを含んでいる。図20および21はこれら2つの実施形態によるステップ1012をさらに詳細に示すフローチャートである。
【0160】
図15Bを参照すると、ステップ2002において整列および補間モジュール1516は現在の残留原型rcurr(n)と前の残留原型rprev(n)との間のサンプルに対して残留信号を再構成して^r(n)を形成する。整列および補間モジュール1516は、ステップ1704に関して上述したように(図19に示されているように)動作する。
【0161】
ステップ2004において、更新ピッチフィルタモジュール1520は、ステップ1706に関して上述したように、再構成された残留信号^r(n)に基づいてピッチフィルタメモリを更新する。
【0162】
ステップ2006において、LPC合成フィルタ1518は、再構成された残留信号^r(n)に基づいて出力スピーチ信号^s(n)を合成する。LPCフィルタメモリは、この動作が行われたときに自動的に更新される。
【0163】
図16Bおよび21を参照すると、ステップ2102において更新ピッチフィルタモジュール1622は、ステップ1804に関して上述したように、再構成された現在の残留原型rcurr(n)に基づいてピッチフィルタメモリを更新する。
【0164】
ステップ2104において、循環LPC合成フィルタ1616は、上記のセクションVIII.Bで述べたように、rcurr(n)を受取って現在のスピーチ原型sc (n)(その長さがL個のサンプルである)を合成する。
【0165】
ステップ2106において、更新LPCフィルタモジュール1620は、ステップ1808に関して上述したようにLPCフィルタメモリを更新する。
【0166】
ステップ2108において、整列および補間モジュール1618は、前の原型周期と現在の原型周期との間のスピーチサンプルを再構成する。前の原型残留rprev(n)は、補間がスピーチドメインにおいて進行するように循環的に濾波される(LPC合成装置において)。整列および補間モジュール1618はステップ1704に関して上述したように動作する(図19参照)が、この動作は、残留原型ではなくスピーチ原型に関して行われる。整列および補間の結果、合成されたスピーチ信号^s(n)が得られる。
【0167】
[IX.雑音励起線形予測(NELP)コーディングモード]
雑音励起線形予測(NELP)コーディングはスピーチ信号を擬似ランダム雑音シーケンスとしてモデル化し、それによってCELPまたはPPPコーディングのいずれを使用して得られるより低いビットレートを達成する。NELPコーディングは、スピーチ信号が無声スピーチまたは背景雑音のようなピッチ構造をほとんど、あるいは全く有しない場合、信号再生に関して最も効率的に動作する。
【0168】
図22は、NELPエンコーダモード204 およびNELPデコーダモード206 をさらに詳細に示している。NELPエンコーダモード204 は、エネルギ評価装置2202および符号化コードブック2204を含んでいる。NELPデコーダモード206 は復号コードブック2206と、ランダム数発生器と、乗算器2212と、およびLPC合成フィルタ2208とを含んでいる。
【0169】
図23は、符号化および復号を含むNELPコーディングのステップを示すフローチャート2300である。これらのステップを、NELPエンコーダモード204 およびNELPデコーダモード206 の種々のコンポーネントと共に説明する。
【0170】
ステップ2302において、エネルギ評価装置2202は、以下のように4つのサブフレームのそれぞれに対する残留信号のエネルギを計算する:
【数77】
Figure 0004824167
【0171】
ステップ2304において、符号化コードブック2204は1組のコードブックパラメータを計算し、符号化されたスピーチ信号senc (n)を形成する。好ましい実施形態において、この1組のコードブックパラメータは単一のパラメータであるインデックスI0を含んでいる。インデックスI0は、
【数78】
Figure 0004824167
を最小にするjの値に等しく設定される。コードブックベクトルSFEQは、サブフレームエネルギEsfi を量子化するために使用され、フレーム内のサブフレームの数に等しい数の構成要素(すなわち、好ましい実施形態では4つ)を含んでいる。これらのコードブックベクトルは、確率または訓練されたコードブックを生成するための、当業者に知られている標準的な技術にしたがって生成されることが好ましい。
【0172】
ステップ2306において、復号コードブック2206は受取られたコードブックパラメータを復号する。好ましい実施形態では、サブフレームGi のセットは、
【数79】
Figure 0004824167
にしたがって復号される。ここで、0≦i<4であり、Gprevは前のフレームの最後のサブフレームに対応したコードブック励起利得である。
【0173】
ステップ2308において、ランダム数発生器2210は単位分散ランダムベクトルnz(n)を発生する。このランダムベクトルはステップ2310で各サブフレーム内の適切な利得Gi によってスケールされ、励起信号Gi nz(n)を生成する。
【0174】
ステップ2312において、LPC合成フィルタ2208は励起信号Gi nz(n)を濾波して出力スピーチ信号^s(n)を形成する。
【0175】
好ましい実施形態において、最も新しい非ゼロレートNELPサブフレームから得られた利得Gi およびLPCパラメータが現在のフレーム中の各サブフレームに対して使用される場合、ゼロレートモードもまた使用される。当業者は、多数のNELPフレームが連続的に発生した場合に、このゼロレートモードが実効的に使用されることができることを認識するであろう。
【0176】
[X.結論]
上記において本発明の種々の実施形態を説明してきたが、それらは単なる例示として与えられたに過ぎず、何等本発明に制限を課すものではないことを理解すべきである。したがって、本発明の技術的範囲は上記に示されている例示的な実施形態のいずれの制限も受けず、添付された請求の範囲およびその等価なものによってのみ規定される。
【0177】
好ましい実施形態の上記の説明は、当業者が本発明を形成または使用できるようにするために与えられている。本発明はとくにその好ましい実施形態を参照して図示および説明されているが、当業者は、本発明の技術的範囲を逸脱することなく形態および詳細の種々の変更を行うことが可能であることを理解するであろう。
【図面の簡単な説明】
【図1】 信号伝送環境を示す概略図。
【図2】 エンコーダ102 およびデコーダ104 を示すさらに詳細な概略図。
【図3】 本発明による可変レートスピーチコーディングを示すフローチャート。
【図4A】 サブフレームに分割された発声されたスピーチのフレームを示す概略図。
【図4B】 サブフレームに分割された無声スピーチのフレームを示す概略図。
【図4C】 サブフレームに分割された過渡スピーチのフレームを示す概略図。
【図5】 初期パラメータの計算を示すフローチャート。
【図6】 アクティブまたは非アクティブとしてスピーチを分類することを示すフローチャート。
【図7A】 CELPエンコーダを示す概略図。
【図7B】 CELPデコーダを示す概略図。
【図8】 ピッチフィルタモジュールを示す概略図。
【図9A】 PPPエンコーダを示す概略図。
【図9B】 PPPデコーダを示す概略図。
【図10】 符号化およびデコードを含むPPPコーディングのステップを示すフローチャート。
【図11】 原型残留周期の抽出を示すフローチャート。
【図12】 残留信号の現在のフレームから抽出された原型残留周期と、前のフレームから抽出された原型残留周期とを示す概略図。
【図13】 回転パラメータの計算を示すフローチャート。
【図14】 符号化コードブックの動作を示すフローチャート。
【図15A】 第1のフィルタ更新モジュールの実施形態を示す概略図。
【図15B】 第1の周期インターポレータモジュール形態を示す概略図。
【図16A】 第2のフィルタ更新モジュール形態を示す概略図。
【図16B】 第2の周期インターポレータモジュール形態を示す概略図。
【図17】 第1のフィルタ更新モジュール形態の動作を示すフローチャート。
【図18】 第2のフィルタ更新モジュールの実施形態の動作を示すフローチャート。
【図19】 原型残留周期の整列および補間を示すフローチャート。
【図20】 第1の実施形態による原型残留周期に基づくスピーチ信号の再構成を示すフローチャート。
【図21】 第2の実施形態による原型残留周期に基づくスピーチ信号の再構成を示すフローチャート。
【図22A】 NELPエンコーダを示す概略図。
【図22B】 NELPデコーダを示す概略図。
【図23】 NELPコーディングを示すフローチャート。

Claims (27)

  1. 伝送源から受信機に送信される擬似周期スピーチ信号のコーディング、および、復号方法において、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    前記方法は、
    抽出する手段によって、残留信号の現在のフレームから現在の原型を抽出し、
    計算する手段によって、修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正すべきかを記述する第1の組のパラメータを計算し、
    選択する手段によって、1以上のコードベクトルを第1のコードブックから選択し、
    前記コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、前記コードベクトルは第2の組のパラメータによって記述され、
    送信する手段によって、前記第1の組のパラメータと前記第2の組のパラメータとを前記受信機に送信し、
    形成する手段によって、前記第1の組のパラメータと前記第2の組のパラメータと再構成された前の原型とに基づいて、前記受信機において再構成された現在の原型を形成し、
    補間する手段によって、前記再構成された現在の原型と前記再構成された前の原型との間の領域にわたって補間して補間された残留信号を形成し、
    合成する手段によって、前記補間された残留信号に基づいて出力スピーチ信号を合成するステップを含んでいる方法。
  2. 前記現在のフレームはピッチ遅延を有し、前記現在の原型の長さは前記ピッチ遅延に等しい請求項1記載の方法。
  3. 現在の原型を抽出する前記ステップは“カットフリー領域”を条件とする請求項1記載の方法。
  4. 前記現在の原型は、前記カットフリー領域を条件として前記現在のフレームの終わりから抽出される請求項3記載の方法。
  5. 擬似周期スピーチ信号のコーディング方法において、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    前記方法は、
    抽出する手段によって、残留信号の現在のフレームから現在の原型を抽出し、
    計算する手段によって、修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正すべきかを記述する第1の組のパラメータを計算し、
    選択する手段によって、1以上のコードベクトルを第1のコードブックから選択し、前記コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、前記コードベクトルは第2の組のパラメータによって記述され、
    送信する手段によって、前記第1の組のパラメータと前記第2の組のパラメータとを受信機に送信し、
    前記受信機においては受信する手段によって、前記送信された第1および第2の組のパラメータを受信し、
    再構成する手段によって、前記第1および第2の組のパラメータに基づいて、現在の原型を再構成し、
    補間する手段によって、前記現在の再構成された原型と前の再構成された原型との間の領域にわたって残留信号を補間し、
    合成する手段によって、前記補間された残留信号に基づいて出力スピーチ信号を合成するステップを含んでおり、
    第1の組のパラメータを計算する前記ステップは、
    (i)前記現在の原型を循環的に濾波し、ターゲット信号を形成し、
    (ii)前記前の原型を抽出し、
    (iii)前記前の原型の長さが前記現在の原型の長さに等しくなるように前記前の原型をワープし、
    (iV)前記ワープされた前の原型を循環的に濾波し、
    (v)最適回転および第1の最適利得を計算するステップを含み、前記濾波されたワープされた前の原型は前記最適回転だけ回転されて前記第1の最適利得によりスケールされ、前記ターゲット信号にもっともよく近似している、方法。
  6. 最適回転および第1の最適利得を計算する前記ステップは、
    ピッチ回転サーチ範囲を条件として行われる請求項5記載の方法。
  7. 最適回転および第1の最適利得を計算する前記ステップは、前記濾波されたワープされた前の原型と前記ターゲット信号との間の平均2乗差を最小にする請求項5記載の方法。
  8. 前記第1のコードブックは1以上のステージを含んでおり、1以上のコードベクトルを選択する前記ステップは、
    (i)前記最適回転だけ回転されて前記第1の最適利得によってスケールされた前記濾波されたワープされた前の原型を減算することにより前記ターゲット信号を更新し、
    (ii)前記第1のコードブックを複数の領域に分割し、前記各領域がコードベクトルを形成し、
    (iii)前記各コードベクトルを循環的に濾波し、
    (iv)前記更新されたターゲット信号に最もぴったり近似している前記濾波されたコードベクトルの1つを選択し、前記特定のコードベクトルが最適インデックスによって記述され、
    (v)前記更新されたターゲット信号と前記選択された濾波されたコードベクトルとの間の相関に基づいて第2の最適利得を計算し、
    (vi)前記第2の最適利得によってスケールされた前記選択された濾波されたコードベクトルを減算することによって前記ターゲット信号を更新し、
    (vii)前記第1のコードブック中の前記ステージのそれぞれに対して前記ステップ(iv)−(vi)を繰り返し、前記第2の組のパラメータが前記ステージのそれぞれに対する前記最適インデックスおよび前記第2の最適利得を含んでいるステップを含んでいる請求項5記載の方法。
  9. 現在の原型を再構成する前記ステップは、
    (i)前の再構成された原型の長さが前記現在の再構成された原型の長さに等しくなるように前記前の再構成された原型をワープし、
    (ii)前記ワープされた前の再構成された原型を前記最適回転だけ回転して前記第1の最適利得により調整し、それによって前記現在の再構成された原型を形成し、
    (iii)第2のコードベクトルを第2のコードブックから検索し、前記第2のコードベクトルが前記最適インデックスによって識別され、前記第2のコードブックが前記第1のコードブックに等しい数のステージを含んでおり、
    (iv)前記第2の最適利得によって前記第2のコードベクトルを調整し、
    (v)前記調整された第2のコードベクトルを前記現在の再構成された原型に加算し、
    (vi)前記第2のコードブックの中の前記ステージのそれぞれに対して前記ステップ(iii) −(v)を繰り返すステップを含んでいる請求項8記載の方法。
  10. 残留信号を補間する前記ステップは、
    (i)前記ワープされた前の再構成された原型と前記現在の再構成された原型との間の最適整列を計算し、
    (ii)前記ワープされた前の再構成された原型と前記現在の再構成された原型との間の平均遅延を前記最適整列に基づいて計算し、
    (iii)前記ワープされた前の再構成された原型と前記現在の再構成された原型とを補間し、それによって前記ワープされた前の再構成された原型と前記現在の再構成された原型との間の領域にわたって残留信号を形成し、前記補間された残留信号が前記平均遅延を有しているステップを含んでいる請求項9記載の方法。
  11. 出力スピーチ信号を合成する前記ステップは、前記補間された残留信号をLPC合成フィルタで濾波するステップを含んでいる請求項10記載の方法。
  12. 伝送源から受信機に送信される擬似周期スピーチ信号のコーディング、および、復号方法において、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、残留信号はデータのフレームに分割され、
    抽出する手段によって、残留信号の現在のフレームから現在の原型を抽出し、
    計算する手段によって、修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正すべきかを記述する第1の組のパラメータを計算し、
    選択する手段によって、1以上のコードベクトルを第1のコードブックから選択し、前記コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、前記コードベクトルは第2の組のパラメータによって記述され、
    送信する手段によって、前記第1の組のパラメータと前記第2の組のパラメータとを前記受信機に送信し、
    形成する手段によって、前記第1の組のパラメータと前記第2の組のパラメータと再構成された前の原型とに基づいて、前記受信機において再構成された現在の原型を形成し、
    濾波する手段によって、前記再構成された現在の原型をLPC合成フィルタで濾波し、
    前記濾波するによって、前の再構成された原型を前記LPC合成フィルタで濾波し、
    補間する手段によって、前記濾波された再構成された現在の原型と前記濾波された再構成された前の原型との間の領域にわたって補間し、それによって出力スピーチ信号を形成するステップを含んでいる方法。
  13. 伝送源から受信機に送信される擬似周期スピーチ信号をコーディング、および、復号するシステムにおいて、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前残留信号データのフレームに分割され、
    前記システムは、
    残留信号の現在のフレームから現在の原型を抽出する手段と、
    修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正するかを記述する第1の組のパラメータを計算する手段と、
    コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、前記コードベクトルは第2の組のパラメータによって記述される1以上の前記コードベクトルを第1のコードブックから選択する手段と、
    前記第1の組のパラメータと前記第2の組のパラメータとを前記受信機に送信する手段と、
    前記第1の組のパラメータと前記第2の組のパラメータと再構成された前の原型とに基づいて再構成された現在の原型を形成する手段と、
    前記再構成された現在の原型と前記再構成された前の原型との間の領域にわたって補間して補間された残留信号を形成する手段と、
    前記補間された残留信号に基づいて出力スピーチ信号を合成する手段とを備えているシステム。
  14. 前記現在のフレームはピッチ遅延を有し、前記現在の原型の長さは前記ピッチ遅延に等しい請求項13記載のシステム。
  15. 前記抽出する手段は、“カットフリー領域”について前記現在の原型を抽出する請求項13記載のシステム。
  16. 前記抽出する手段は、前記カットフリー領域について前記現在のフレームの終わりから前記現在の原型を抽出する請求項15記載のシステム。
  17. 擬似周期スピーチ信号をコーディングするシステムにおいて、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    前記システムは、
    残留信号の現在のフレームから現在の原型を抽出する手段と、
    修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正するかを記述する第1の組のパラメータを計算する手段と、
    コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、前記コードベクトルは第2の組のパラメータによって記述される1以上の前記コードベクトルを第1のコードブックから選択する手段と、
    前記第1の組のパラメータと前記第2の組のパラメータとを受信機に送信する手段と、
    前記送信された第1および第2の組のパラメータを前記受信機において受信する手段と、
    前記第1および第2の組のパラメータに基づいて現在の再構成された原型を再構成する手段と、
    前記現在の再構成された原型と前の再構成された原型との間の領域にわたって残留信号を補間する手段と、
    前記補間された残留信号に基づいて出力スピーチ信号を合成する手段とを備えており、
    第1の組のパラメータを計算する前記手段は、
    前記現在の原型を受取ってターゲット信号を出力するように結合された第1の循環LPC合成フィルタと、
    前記前の原型を前のフレームから抽出する手段と、
    前記前の原型を受取るように結合され、前記現在の原型の長さに等しい長さを有するワープされた前の原型を出力するワープフィルタと、
    前記ワープされた前の原型を受取るように結合され、濾波されたワープされた前の原型を出力する第2の循環LPC合成フィルタと、
    最適回転および第1の最適利得を計算する手段を具備し、
    前記最適回転だけ回転され前記第1の最適利得により調整された前記濾波されたワープされた前の原型は前記ターゲット信号にもっともよく近似している、システム。
  18. 前記計算する手段はピッチ回転サーチ範囲について前記最適回転および前記第1の最適利得を計算する請求項17記載のシステム。
  19. 前記計算する手段は、前記濾波されたワープされた前の原型と前記ターゲット信号との間の平均2乗差を最小にする請求項17記載のシステム。
  20. 前記第1のコードブックは1以上のステージを含んでおり、1以上のコードベクトルを選択する前記手段は、
    前記最適回転だけ回転されて前記第1の最適利得によって調整された前記濾波されたワープされた前の原型を減算することにより前記ターゲット信号を更新する手段と、
    前記第1のコードブックを各領域がコードベクトルを形成する複数の領域に分割する手段と、
    前記各コードベクトルを受取るように結合され、濾波されたコードベクトルを出力する第3の循環LPC合成フィルタと、
    前記第1のコードブックの中の前記ステージのそれぞれに対する最適インデックスおよび第2の最適利得を計算する手段とを具備しており、この計算する手段は、
    前記濾波されたコードベクトルの1つを選択し、前記選択された濾波されたコードベクトルが前記ターゲット信号に最もぴったり近似して、最適インデックスにより記述される選択手段と、
    前記ターゲット信号と前記選択された濾波されたコードベクトルとの間の相関に基づいて第2の最適利得を計算する手段と、
    前記第2の最適利得によってスケールされた前記選択された濾波されたコードベクトルを減算することによって前記ターゲット信号を更新する手段とを含んでおり、
    前記第2の組のパラメータは、前記ステージのそれぞれに対する前記最適インデックスおよび前記第2の最適利得を含んでいる請求項17記載のシステム。
  21. 現在の原型を再構成する前記手段は、
    前の再構成された原型を受取るように結合され、前記現在の再構成された原型の長さに等しい長さを有するワープされた前の再構成された原型を出力する第2のワープフィルタと、
    前記ワープされた前の再構成された原型を前記最適回転だけ回転して前記第1の最適利得によりスケールし、それによって前記現在の再構成された原型を形成する手段と、
    前記第2の組のパラメータを復号し、第2のコードベクトルが前記第1のコードブックと同数のステージを有する第2のコードブックの中の各ステージに対して復号される手段とを具備し、この復号する手段が、
    前記第2のコードベクトルを前記最適インデックスによって識別することによって前記第2のコードブックから検索する手段と、
    前記第2のコードベクトルを前記第2の最適利得により調整する手段と、
    前記調整された第2のコードベクトルを前記現在の再構成された原型に付加する手段を含んでいる請求項20記載のシステム。
  22. 残留信号を補間する前記手段は、
    前記ワープされた前の再構成された原型と前記現在の再構成された原型との間の最適整列を計算する手段と、
    前記ワープされた前の再構成された原型と前記現在の再構成された原型との間の平均遅延を前記最適整列に基づいて計算する手段と、
    前記ワープされた前の再構成された原型と前記現在の再構成された原型とを補間し、それによって前記ワープされた前の再構成された原型と前記現在の再構成された原型との間の領域にわたって残留信号を形成する手段とを含み、前記補間された残留信号が前記平均遅延を有している請求項21記載のシステム。
  23. 出力スピーチ信号を合成する前記手段は、LPC合成フィルタを含んでいる請求項22記載のシステム。
  24. 伝送源から受信機に送信される擬似周期スピーチ信号をコーディング、および、復号するシステムにおいて、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    前記システムは、
    残留信号の現在のフレームから現在の原型を抽出する手段と、
    修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正すべきかを記述する第1の組のパラメータを計算する手段と、
    1以上のコードベクトルを第1のコードブックから選択し、前記コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、前記コードベクトルが第2の組のパラメータによって記述される選択手段と、
    前記第1の組のパラメータと前記第2の組のパラメータとを前記受信機に送信する手段と、
    前記第1の組のパラメータと前記第2の組のパラメータと再構成された前の原型とに基づいて再構成された現在の原型を形成する手段と、
    前記再構成された現在の原型を受取るように結合され、濾波された再構成された現在の原型を出力する第1のLPC合成フィルタと、
    再構成された前の原型を受取るように結合され、濾波された再構成された前の原型を出力する第2のLPC合成フィルタと、
    前記濾波された再構成された現在の原型と前記濾波された再構成された前の原型との間の領域にわたって補間し、それによって出力スピーチ信号を形成する手段とを含んでいるシステム。
  25. スピーチ信号の伝送ビットレートを減少させる方法において、
    前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    抽出手段によって、前記残留信号の現在のフレームから現在の原型の波形を抽出し、
    比較する手段によって、前記現在の原型の波形を、前記スピーチ信号の過去のフレームからの過去の原型の波形と比較し、前記現在の原型の波形を近似するために前記過去の原型の波形を修正する1組の回転パラメータが決定され、前記現在の原型の波形と修正された過去の原型の波形との間の差を表わす1組の差分パラメータが決定され、
    送信する手段によって、前記現在の原型の波形の代りに前記1組の回転パラメータと1組の差分パラメータとを受信機に送信し、
    再構成する手段によって、前記受信された1組の回転パラメータと1組の差分パラメータと前に再構成された過去の原型の波形から前記現在の原型を再構成する、方法。
  26. 伝送源から受信機に送信された擬似周期スピーチ信号を復号する装置において、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    前記装置は、
    第1の組のパラメータと第2の組のパラメータと再構成された前の原型とに基づいて、再構成された現在の原型を形成するデコーダを具備し、前記第1の組のパラメータは、修正された前の原型が現在の原型に近似するように前記前の原型をどのように修正すべきかを記述しており、前記第2の組のパラメータは、第1のコードブックからの1以上のコードベクトルを記述しており、前記コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似し、
    さらに、前記装置は、
    前記再構成された現在の原型と前記再構成された前の原型との間の領域にわたって補間して補間された残留信号を形成し、前記補間された残留信号に基づいて出力スピーチ信号を合成するように構成されている周期インターポレータを具備する、装置。
  27. 擬似周期スピーチ信号をコーディングする装置において、前記スピーチ信号は、線形予測コーディング(LPC)解析フィルタにより前記スピーチ信号を濾波することにより発生された残留信号によって表され、前記残留信号はデータのフレームに分割され、
    前記装置は、
    前記残留信号の現在のフレームから現在の原型を抽出し、前のフレームから前の原型を抽出する抽出モジュールと、
    前記現在の原型を受取ってターゲット信号を出力するように構成された第1の循環LPC合成フィルタと、
    前記前の原型を受取るように構成され、前記現在の原型の長さに等しい長さを有するワープされた前の原型を出力するワープフィルタと、
    前記ワープされた前の原型を受取るように構成され、濾波されたワープされた前の原型を出力する第2の循環LPC合成フィルタと、
    最適回転および第1の最適利得を計算する回転コリレータとを具備し、
    前記最適回転だけ回転され前記第1の最適利得により調整された前記濾波されたワープされた前の原型は前記ターゲット信号にもっともよく近似しており、
    さらに、前記装置は、
    1以上のコードベクトルを生成するマルチステージコードブックを具備しており、前記コードベクトルは合計されたときに前記現在の原型と前記修正された前の原型との間の差に近似している、装置。
JP2000590162A 1998-12-21 1999-12-21 周期的スピーチコーディング Expired - Lifetime JP4824167B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/217,494 1998-12-21
US09/217,494 US6456964B2 (en) 1998-12-21 1998-12-21 Encoding of periodic speech using prototype waveforms
PCT/US1999/030588 WO2000038177A1 (en) 1998-12-21 1999-12-21 Periodic speech coding

Publications (2)

Publication Number Publication Date
JP2003522965A JP2003522965A (ja) 2003-07-29
JP4824167B2 true JP4824167B2 (ja) 2011-11-30

Family

ID=22811325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000590162A Expired - Lifetime JP4824167B2 (ja) 1998-12-21 1999-12-21 周期的スピーチコーディング

Country Status (11)

Country Link
US (1) US6456964B2 (ja)
EP (1) EP1145228B1 (ja)
JP (1) JP4824167B2 (ja)
KR (1) KR100615113B1 (ja)
CN (1) CN1242380C (ja)
AT (1) ATE309601T1 (ja)
AU (1) AU2377600A (ja)
DE (1) DE69928288T2 (ja)
ES (1) ES2257098T3 (ja)
HK (1) HK1040806B (ja)
WO (1) WO2000038177A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324333B2 (en) 2006-07-31 2016-04-26 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754630B2 (en) * 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6715125B1 (en) * 1999-10-18 2004-03-30 Agere Systems Inc. Source coding and transmission with time diversity
JP2001255882A (ja) * 2000-03-09 2001-09-21 Sony Corp 音声信号処理装置及びその信号処理方法
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
ATE420432T1 (de) * 2000-04-24 2009-01-15 Qualcomm Inc Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
KR100487645B1 (ko) * 2001-11-12 2005-05-03 인벤텍 베스타 컴파니 리미티드 유사주기 파형들을 이용한 음성 인코딩 방법
US7389275B2 (en) * 2002-03-05 2008-06-17 Visa U.S.A. Inc. System for personal authorization control for card transactions
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20040235423A1 (en) * 2003-01-14 2004-11-25 Interdigital Technology Corporation Method and apparatus for network management using perceived signal to noise and interference indicator
US7738848B2 (en) * 2003-01-14 2010-06-15 Interdigital Technology Corporation Received signal to noise indicator
US7627091B2 (en) * 2003-06-25 2009-12-01 Avaya Inc. Universal emergency number ELIN based on network address ranges
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
US7130385B1 (en) 2004-03-05 2006-10-31 Avaya Technology Corp. Advanced port-based E911 strategy for IP telephony
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
US7246746B2 (en) * 2004-08-03 2007-07-24 Avaya Technology Corp. Integrated real-time automated location positioning asset management system
CA2691762C (en) * 2004-08-30 2012-04-03 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
US7589616B2 (en) * 2005-01-20 2009-09-15 Avaya Inc. Mobile devices including RFID tag readers
WO2006079348A1 (en) 2005-01-31 2006-08-03 Sonorit Aps Method for generating concealment frames in communication system
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8107625B2 (en) 2005-03-31 2012-01-31 Avaya Inc. IP phone intruder security monitoring system
US7599833B2 (en) * 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7184937B1 (en) * 2005-07-14 2007-02-27 The United States Of America As Represented By The Secretary Of The Army Signal repetition-rate and frequency-drift estimator using proportional-delayed zero-crossing techniques
US7821386B1 (en) 2005-10-11 2010-10-26 Avaya Inc. Departure-based reminder systems
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
BRPI0712625B1 (pt) * 2006-06-30 2023-10-10 Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V Codificador de áudio, decodificador de áudio, e processador de áudio tendo uma caractéristica de distorção ("warping") dinamicamente variável
US20100030557A1 (en) * 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
KR20090076964A (ko) * 2006-11-10 2009-07-13 파나소닉 주식회사 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20100006527A1 (en) * 2008-07-10 2010-01-14 Interstate Container Reading Llc Collapsible merchandising display
US9232055B2 (en) * 2008-12-23 2016-01-05 Avaya Inc. SIP presence based notifications
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
JP5314771B2 (ja) 2010-01-08 2013-10-16 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体
FR2961937A1 (fr) * 2010-06-29 2011-12-30 France Telecom Codage/decodage predictif lineaire adaptatif
ES2664090T3 (es) * 2011-03-10 2018-04-18 Telefonaktiebolaget Lm Ericsson (Publ) Relleno de subvectores no codificados en señales de audio codificadas por transformada
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
JP6153661B2 (ja) 2013-06-21 2017-06-28 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたパルス再同期化を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
BR112015031181A2 (pt) 2013-06-21 2017-07-25 Fraunhofer Ges Forschung aparelho e método que realizam conceitos aperfeiçoados para tcx ltp
CN110265058B (zh) * 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
TWI688609B (zh) 2014-11-13 2020-03-21 美商道康寧公司 含硫聚有機矽氧烷組成物及相關態樣

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62150399A (ja) * 1985-12-25 1987-07-04 日本電気株式会社 音声合成用基本周期波形生成法
JPH0284699A (ja) * 1988-09-21 1990-03-26 Mitsubishi Electric Corp 音声分析合成装置
JPH02160300A (ja) * 1988-12-13 1990-06-20 Nec Corp 音声符号化方式
JPH06266395A (ja) * 1993-03-10 1994-09-22 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JPH07177031A (ja) * 1993-12-20 1995-07-14 Fujitsu Ltd 音声符号化制御方式
JPH07234697A (ja) * 1994-02-08 1995-09-05 At & T Corp 音声信号の符号化方法
JPH10143199A (ja) * 1996-11-15 1998-05-29 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法および復号化方法
JPH10232697A (ja) * 1997-02-21 1998-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法および復号化方法
JPH11219196A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 音声合成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5809459A (en) 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62150399A (ja) * 1985-12-25 1987-07-04 日本電気株式会社 音声合成用基本周期波形生成法
JPH0284699A (ja) * 1988-09-21 1990-03-26 Mitsubishi Electric Corp 音声分析合成装置
JPH02160300A (ja) * 1988-12-13 1990-06-20 Nec Corp 音声符号化方式
JPH06266395A (ja) * 1993-03-10 1994-09-22 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JPH07177031A (ja) * 1993-12-20 1995-07-14 Fujitsu Ltd 音声符号化制御方式
JPH07234697A (ja) * 1994-02-08 1995-09-05 At & T Corp 音声信号の符号化方法
JPH10143199A (ja) * 1996-11-15 1998-05-29 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法および復号化方法
JPH10232697A (ja) * 1997-02-21 1998-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方法および復号化方法
JPH11219196A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 音声合成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324333B2 (en) 2006-07-31 2016-04-26 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames

Also Published As

Publication number Publication date
HK1040806A1 (en) 2002-06-21
ES2257098T3 (es) 2006-07-16
US6456964B2 (en) 2002-09-24
DE69928288D1 (de) 2005-12-15
US20020016711A1 (en) 2002-02-07
EP1145228A1 (en) 2001-10-17
JP2003522965A (ja) 2003-07-29
HK1040806B (zh) 2006-10-06
KR20010093208A (ko) 2001-10-27
CN1242380C (zh) 2006-02-15
DE69928288T2 (de) 2006-08-10
WO2000038177A1 (en) 2000-06-29
AU2377600A (en) 2000-07-12
EP1145228B1 (en) 2005-11-09
ATE309601T1 (de) 2005-11-15
CN1331825A (zh) 2002-01-16
KR100615113B1 (ko) 2006-08-23

Similar Documents

Publication Publication Date Title
JP4824167B2 (ja) 周期的スピーチコーディング
JP5373217B2 (ja) 可変レートスピーチ符号化
KR100956623B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
KR100769508B1 (ko) Celp 트랜스코딩
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
JP2003501675A (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
US20030004710A1 (en) Short-term enhancement in celp speech coding
ES2256022T3 (es) Metodos y aparators para submuestreo de la informacion.
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
WO2002023536A2 (en) Formant emphasis in celp speech coding
KR0156983B1 (ko) 음성 부호기
GB2352949A (en) Speech coder for communications unit
Gardner et al. Survey of speech-coding techniques for digital cellular communication systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100315

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100323

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100415

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101027

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110908

R150 Certificate of patent or registration of utility model

Ref document number: 4824167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term