JP5203923B2

JP5203923B2 - 残留信号を修正することによって、ボコーダ内部のフレームを時間伸縮すること

Info

Publication number: JP5203923B2
Application number: JP2008501073A
Authority: JP
Inventors: カプーア、ロヒット; ディアズ・スピンドラ、セラフィン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-03-11
Filing date: 2006-03-13
Publication date: 2013-06-05
Anticipated expiration: 2026-03-13
Also published as: RU2007137643A; EP1856689A1; AU2006222963C1; BRPI0607624A2; KR100957265B1; US20060206334A1; SG160380A1; BRPI0607624B1; MX2007011102A; US8155965B2; JP2008533529A; IL185935A0; NO20075180L; TWI389099B; WO2006099529A1; CA2600713A1; CA2600713C; AU2006222963B2; KR100956623B1; KR20090119936A

Description

本発明は、一般に、ボコーダ内のボコーダフレームを時間伸縮（展開又は圧縮）する方法に関する。時間伸縮は、ボコーダパケットが非同期に到着するパケット交換ネットワークにおいて多くの用途がある。時間伸縮が、ボコーダ内部又はボコーダ外部で行なわれうる一方、ボコーダ内で時間伸縮を行うことによって、より品質の優れた伸縮フレーム、及び、低減された計算負荷のような多くの利点を与える。本明細書で示される方法は、本特許では、音声データをボコードするアプリケーションとして称されるものと類似の技術を用いるあらゆるボコーダに適用することが可能である。

（３５Ｕ．Ｓ．Ｃ．§１１９の下の優先権主張）
本願は、「残留信号を修正することによってボコーダ内部のフレームを時間伸縮すること」（Time Warping Frames Inside the Vocoder by Modifying the Residual）と題され、２００５年３月１１日に出願され、その出願の開示全体が本願の開示の一部として考慮され、本明細書に参照によって組み込まれている米国仮出願番号６０／６６０，８２４の利益を主張する。

本発明は、スピーチ信号を扱うことによってスピーチフレームを時間伸縮する装置及び方法を備える。１つの実施形態では、この方法及び装置は、限定される訳ではないが、第４世代ボコーダ（４ＧＶ）において使用される。開示された実施形態は、異なるタイプのスピーチセグメントを展開／圧縮する方法及び装置を備える。

上記を考慮して、本発明の記述した特徴は、一般に、スピーチを通信するための１又は複数の改良システム、方法、及び／又は装置に関する。

１つの実施形態では、本発明は、スピーチを通信する方法を備える。この方法は、スピーチセグメントを分類することと、符号励振型線形予測を用いて前記スピーチセグメントを符号化することと、残留スピーチ信号を、前記残留スピーチ信号の展開バージョン又は圧縮バージョンへ時間伸縮することとの各ステップを備える。

他の実施形態では、スピーチを通信する方法は更に、線形予測符号化フィルタを介して前記スピーチ信号を送り、前記スピーチ信号における短期的な相関をフィルタ出力することと、線形予測符号化係数及び残留信号を出力することとを備える。

別の実施形態では、符号化は、符号励起型線形予測符号化であり、前記時間伸縮するステップは、ピッチ遅延を推定することと、その境界がスピーチフレーム内の様々なポイントにおけるピッチ遅延を用いて決定されるピッチ期間にスピーチフレームを分割することと、残留スピーチ信号が圧縮されるのであれば、ピッチ期間をオーバラップさせることと、残留スピーチ信号が展開されるのであれば、ピッチ期間を加えることとを備える。

別の実施形態では、符号化は、プロトタイプピッチ期間符号化であり、前記時間伸縮するステップは、少なくとも１つのピッチ期間を推定することと、前記少なくとも１つのピッチ期間を補間することと、残留スピーチ信号を展開する場合に、少なくとも１つのピッチ期間を加えることと、前記残留スピーチ信号を圧縮する場合に、前記少なくとも１つのピッチ期間を減じることとを備える。

別の実施形態では、前記符号化は、雑音励起型線形予測符号化であり、前記時間伸縮するステップは、合成する前に、スピーチセグメントの別の部分に恐らく異なる利得を適用することを備える。

別の実施形態では、本発明は、少なくとも１つのインプット、及び、少なくとも１つのアウトプットを有するボコーダと、前記ボコーダのインプットに操作可能に接続された少なくとも１つのインプットと、少なくとも１つのアウトプットとを有するフィルタを含むエンコーダと、前記エンコーダの少なくとも１つのアウトプットに操作可能に接続された少なくとも１つのインプットと、前記ボコーダの少なくとも１つのアウトプットに操作可能に接続された少なくとも１つのアウトプットとを有するシンセサイザを含むデコーダとを備える。

別の実施形態では、エンコーダはメモリを備える。そして、前記エンコーダは、スピーチセグメントを１／８フレーム、プロトタイプピッチ期間、符号励起型線形予測、又は、雑音励起型線形予測として分類することを備え前記メモリに格納された命令を実行可能に適応されている。

別の実施形態では、デコーダはメモリを備え、前記デコーダは、残留信号を、前記残留信号の展開バージョン又は圧縮バージョンに時間伸縮することを備え前記メモリに格納された命令を実行可能に適応されている。

本発明の適用可能性の更なる範囲は、以下の詳細説明、請求項、及び図面から明白になるだろう。しかしながら、本発明の精神及び範囲内で様々な変更及び変形が当業者に明白になるであろうから、詳細な記述及び具体例は、本発明の好適な実施形態を示す一方、例示のみによって与えられることが理解されるべきである。

本発明は、後述する詳細記述、特許請求の範囲、及び添付図面からより完全に理解されるようになるだろう。

用語「例示的な」（illustrative）は、本明細書において、「例、インスタンス、又は実例として役立つ」ことを意味するために使用される。本明細書で「例示的な」と記述されたどの実施形態も、他の実施形態よりも好適であるとか有利であるとか必ずしも解釈される必要はない。

（ボコーダにおいて時間伸縮を使用することの特徴）
人間の音声は２つの成分から成る。１つの成分は、ピッチに敏感な基本波を含む。また、他の成分は、ピッチに敏感ではない固定高調波である。感じられる音のピッチは、周波数に対する耳の反応である。つまり、最も実際的な目的の場合、ピッチは周波数である。高調波成分は、人の音声に際立った特性を加える。それらは、声帯とともに、及び声道の物理的な形とともに変わり、フォルマントと呼ばれる。

人間の音声は、デジタル信号ｓ（ｎ）１０によって表わすことができる。ｓ（ｎ）１０は、異なる音声サウンド及び静寂期間を含む一般的な会話中に得られるデジタルスピーチ信号であると仮定する。スピーチ信号ｓ（ｎ）１０は、好適にはフレーム２０へ分配される。１つの実施形態では、ｓ（ｎ）１０は、８ｋＨｚにおいてデジタルサンプリングされる。

現在の符号化スキームは、スピーチに固有の自然冗長性（すなわち、相関要素）の全てを取り除くことによって、デジタルスピーチ信号１０を低ビットレート信号に圧縮する。スピーチは、一般に、唇と舌の機械的動作に起因する短期冗長性と、声帯の振動に起因する長期冗長性とを示す。線形予測符号化（ＬＰＣ）は、残留スピーチ信号３０を生成する冗長性を除去することにより、スピーチ信号１０をフィルタする。その後、ＬＰＣは、結果として生じる残留信号３０をホワイトガウシアン雑音としてモデル化する。スピーチ波形のサンプル値は、それぞれ線形予測係数５０が乗じられた多くの過去のサンプル４０の合計を重み付けることによって予測されうる。従って、線形予測コーダは、フィルタ係数５０と、完全な帯域幅スピーチ信号１０ではない量子化された雑音とを送信することによって、低減されたビットレートを達成する。残留信号３０は、残留信号３０の現在のフレーム２０から、プロトタイプ期間１００を抽出することによって符号化される。

この方法及び装置によって使用されるＬＰＣボコーダ７０の１つの実施形態のブロック図を図１に示す。ＬＰＣの機能は、有限期間にわたるオリジナルスピーチ信号と推定スピーチ信号との平方差の合計を最小化することである。これは、通常フレーム２０毎に推定される予測係数５０のユニークセットを生成しうる。フレーム２０は、一般に、２０ミリ秒の長さである。時間変動デジタルフィルタ７５の伝達関数は、

で与えられる。ここで、予測係数５０は、ａ_ｋ及び利得Ｇによって表わされる。

総和が、ｋ＝１からｋ＝ｐまで計算される。ＬＰＣ−１０方法が使用される場合、ｐ＝１０となる。これは、最初の１０の係数５０のみがＬＰＣシンセサイザ８０に送信されることを意味する。係数を計算するための最も一般的に使用されている２つの方法は、限定される訳ではないが、共分散方法と自動相関方法である。

異なる話者が、異なる速度で話すことは一般的である。時間圧縮は、個々の話者に対する速度変化の影響を弱める１つの方法である。２つのスピーチパターン間のタイミング差は、他のスピーチパターンとの一致が最大になるように、１つのスピーチパターンの時間軸を伸縮することによって低減される。この時間圧縮技術は、時間伸縮として知られている。更に、時間伸縮は、ピッチを変えることなく音声信号を圧縮又は展開する。

一般的なボコーダは、２０ミリ秒持続するフレーム２０を生成する。これは、好適には８ｋＨｚレートで、１６０のサンプル９０を含む。フレーム２０の時間伸縮圧縮バージョンは、２０ミリ秒よりも短い持続時間を有する一方、時間伸縮展開バージョンは２０ミリ秒よりも長い持続時間を有する。パケット交換ネットワークを介して音声データを送る場合、音声データの時間伸縮は、音声パケットの送信において遅延ジッタを導入するという顕著な利点を有する。そのようなネットワークでは、時間伸縮は、そのような遅延ジッタの影響を緩和し、かつ、「同時に」見る音声ストリームを生成するために使用することができる。

本発明の実施形態は、残留スピーチ信号３０を操作することによって、ボコーダ７０内でフレーム２０を時間伸縮する装置及び方法に関連する。１つの実施形態では、本方法及び装置は４ＧＶで使用される。開示された実施形態は、プロトタイプピッチ期間（ＰＰＰ）、符号励起型線形予測（ＣＥＬＰ）、又は雑音励起型線形予測（ＮＥＬＰ）符号化を用いて符号化される４ＧＶスピーチセグメント１１０の異なるタイプを展開／圧縮する方法、装置、又はシステムを備える。

用語「ボコーダ」７０は、一般に、人間のスピーチ生成モデルに基づいてパラメータを抽出することにより、音声化されたスピーチを圧縮するデバイスを称する。ボコーダ７０は、エンコーダ２０４及びデコーダ２０６を含む。エンコーダ２０４は、到来するスピーチを解析し、適切なパラメータを抽出する。１つの実施形態では、エンコーダはフィルタ７５を備える。デコーダ２０６は、送信チャネル２０８を経由してエンコーダ２０４から受け取るパラメータを用いてスピーチを合成する。１つの実施形態では、デコーダは、シンセサイザ８０を備える。スピーチ信号１０は、ボコーダ７０によって処理されるデータ及びブロックのフレーム２０に分割される。

当業者であれば、人間のスピーチを、多くの異なる方式で分類できることを認識するだろう。スピーチの従来の３分類は、音声サウンド、無音声サウンド、及び瞬間的スピーチである。図２Ａは、音声スピーチ信号ｓ（ｎ）４０２である。図２Ａは、ピッチ期間１００として知られている音声スピーチの測定可能な一般的特性を示す。

図２Ｂは、無音声スピーチ信号ｓ（ｎ）４０４である。無音声スピーチ信号４０４は、有色雑音に似ている。

図２Ｃは、瞬間的スピーチ信号ｓ（ｎ）４０６（すなわち、音声でも無音声でもないスピーチ）を示す。図２Ｃで示される瞬間的スピーチ４０６の例は、無音声スピーチと音声スピーチとの間を移行しているｓ（ｎ）を示しうる。これらの３つの分類が、全てを含んでいる訳ではない。同等の結果を達成するために、本明細書で記述された方法に従って適用される多くの異なるスピーチ分類が存在する。

（４ＧＶボコーダは、４つの異なるフレームタイプを使用する）
本発明の１つの実施形態で使用される第４世代ボコーダ（４ＧＶ）７０は、無線ネットワークを介して使用するための魅力的な特徴を提供する。これら特徴のうちの幾つかは、品質とビットレートとをトレードオフする能力、増加するパケット誤り率（ＰＥＲ）にも関わらずより回復の早いボコード、消去跡の良好な隠蔽等を含む。４ＧＶボコーダ７０は、４台の異なるエンコーダ２０４及びデコーダ２０６のうちの何れかを使用することができる。異なるエンコーダ２０４及びデコーダ２０６は、異なる符号化スキームに従って動作する。幾つかのエンコーダ２０４は、ある特性を示すスピーチ信号ｓ（ｎ）１０の符号化部においてより効果的である。従って、１つの実施形態では、エンコーダ２０４及びデコーダ２０６は、現在のフレーム２０の分類に基づいて選択されうる。

４ＧＶエンコーダ２０４は、４つの異なるフレーム２０タイプ、すなわち、プロトタイプピッチ期間波形補間（ＰＰＰＷＩ）、符号励起型線形予測（ＣＥＬＰ）、雑音励起型線形予測（ＮＥＬＰ）、又は、静寂１／８レートフレームのうちの１つへ音声データの各フレーム２０を符号化する。ＣＥＬＰは、貧弱な周期性を備えたスピーチ、あるいは、ある周期的なセグメント１１０から別のセグメントへの変化を含むスピーチを符号化するために使用される。従って、ＣＥＬＰモードは、一般に、瞬間的スピーチとして分類されたフレームを符号化するために選択される。そのようなセグメント１１０は、１つのみのプロトタイプピッチ期間から正確には再構築できないので、ＣＥＬＰは、完全なスピーチセグメント１１０の特徴を符号化する。ＣＥＬＰモードは、線形予測残留信号３０の量子化バージョンを用いて、線形予測声道モデルを励起する。本明細書に記載の全てのエンコーダ２０４及びデコーダ２０６のうち、ＣＥＬＰは一般に、より正確なスピーチ再生を生成するが、より高いビットレートを必要とする。

プロトタイプピッチ期間（ＰＰＰ）モードは、音声スピーチとして分類されたフレーム２０を符号化するために選択される。音声スピーチは、ＰＰＰモードによって利用されるゆっくりと時間変動する周期的成分を含む。ＰＰＰモードは、各フレーム２０内のピッチ期間１００のサブセットを符号化する。スピーチ信号１０の残りの期間１００は、これらのプロトタイプ期間１００の間を補間することにより再構築される。音声スピーチの周期性を利用することによって、ＰＰＰは、ＣＥＬＰよりも低いビットレートを達成することができ、知覚的に正確な方法で、スピーチ信号１０を再生することができる。

ＰＰＰＷＩは、本来周期的なスピーチデータを符号化するために使用される。そのようなスピーチは、「プロトタイプ」ピッチ期間（ＰＰＰ）に類似した、別のピッチ期間１００によって特徴付けられる。このＰＰＰは、エンコーダ２０４が符号化する必要のある唯一の音声情報である。デコーダは、スピーチセグメント１１０中の他のピッチ期間１００を再構築するためにこのＰＰＰを使用することができる。

「雑音励起型線形予測」（ＮＥＬＰ）エンコーダ２０４は、無音声スピーチとして分類されたフレーム２０を符号化するために選択される。ＮＥＬＰ符号化は、信号再生の観点から効率的に動作し、スピーチ信号１０は、ほとんど又は全くピッチ構造を持たない。より具体的には、ＮＥＬＰは、無音声スピーチ又は背景雑音のように、雑音のような特徴を持つスピーチを符号化するために使用される。ＮＥＬＰは、無音声スピーチをモデル化するために、フィルタ化された準ランダム雑音信号を使用する。スピーチセグメント１１０のそのような雑音のような特徴は、デコーダ２０６においてランダム信号を生成することにより、そして、それらに適切な利得を加えることにより、再構築することができる。ＮＥＬＰは、符号化されたスピーチのために最も単純なモデルを使用し、もって、より低いビットレートを達成する。

１／８レートフレームは、例えば、ユーザが話していない期間である静寂期間を符号化するために使用される。

４つのボコードスキームの全ては、上述したように、図３に示すような最初のＬＰＣフィルタ処理を共有する。４つのカテゴリのうちの１つへスピーチを特徴付けた後、スピーチ信号１０は、線形予測を用いてスピーチにおける短期的な相関をフィルタ出力する線形予測符号化（ＬＰＣ）フィルタ８０を介して送られる。このブロックの出力は、ＬＰＣ係数５０及び「残留」信号３０である。残留信号３０は、基本的には、短期的な相関が除去されたオリジナルのスピーチ信号１０である。その後、この残留信号３０は、フレーム２０のために選択されたボコード方法によって使用される特定の方法を用いて符号化される。

図４Ａ及び図４Ｂは、オリジナルスピーチ信号１０の一例であり、ＬＰＣブロック８０後の残留信号３０を示す。残留信号３０は、オリジナルスピーチ１０よりもより明確にピッチ期間１００を示すことが見てわかる。従って、当然ながら、残留信号３０は、（短期的な相関をも含む）オリジナルスピーチ信号１０よりもより正確にスピーチ信号のピッチ期間１００を決定するために使用することができる。

（残留時間伸縮）
上述したように、時間伸縮は、スピーチ信号１０の展開又は圧縮のために使用することができる。これを達成するために多くの方法を使用できるが、これらのうちのほとんどは、信号１０にピッチ期間１００を加えたり、あるいは、信号１０からピッチ期間１００を除去することに基づく。ピッチ期間１００の追加又は除去は、残留信号３０を受信した後、残留信号３０が合成される前に、デコーダ２０６内で行うことが出来る。ＣＥＬＰ又はＰＰＰの何れか（ＮＥＬＰではない）を用いて符号化されたスピーチデータの場合、信号は、多くのピッチ期間１００を含んでいる。従って、スピーチ信号１０に追加、又はスピーチ信号１０から除去することが可能な最小単位は、ピッチ期間１００である。なぜなら、これよりも小さな単位は、認識可能なスピーチアーティファクトを導くことになるフェーズ不連続に至るからである。従って、ＣＥＬＰスピーチ又はＰＰＰスピーチに適用される時間伸縮方法の１ステップは、ピッチ期間１００の推定である。このピッチ期間１００は、ＣＥＬＰ／ＰＰＰスピーチフレーム２０用としてデコーダ２０６に既に知られている。ＰＰＰとＣＥＬＰとの両方の場合、ピッチ情報が、自動相関方法を用いてエンコーダ２０４によって計算され、デコーダ２０６に送信される。従って、デコーダ２０６は、ピッチ期間１００を正確に知っている。これは、デコーダ２０６内に本発明の時間伸縮方法を適用することをより単純にする。

更に、上述したように、信号１０を合成する前に、より簡単に信号１０を時間伸縮する。そのような時間伸縮方法が、信号１０を復号した後に適用されるのであれば、信号１０のピッチ期間１００が推定される必要があるであろう。これは、更なる計算を必要とするのみならず、ピッチ期間１００の推定が、非常に正確ではないかもしれない。なぜなら、残留信号３０もまたＬＰＣ情報１７０を含むからである。

一方、追加のピッチ期間１００の推定があまり複雑ではない場合、復号後に時間伸縮を行うことは、デコーダ２０６に対する変更を必要とせず、もって、全てのボコーダ８０に対して一度のみ実施することができる。

ＬＰＣ符号合成を用いて信号を合成する前に、デコーダ２０６内で時間伸縮を行う別の理由は、圧縮／展開が、残留信号３０に適用可能であるからである。これは、線形予測符号化（ＬＰＣ）合成が、時間伸縮された残留信号３０に適用されることを可能にする。ＬＰＣ係数５０は、スピーチがどのように聞こえるかに関する役割を担い、伸縮後に合成を適用することは、正しいＬＰＣ情報１７０が信号１０内に維持されることを保証する。

一方、残留信号３０を復号した後に時間伸縮が行われた場合、ＬＰＣ合成は、時間伸縮前に既に行われている。従って、特に、復号後のピッチ期間１００予測が、さほど正確ではないのであれば、伸縮処理は、信号１０のＬＰＣ情報１７０を換えることができる。１つの実施形態では、本願で開示された時間伸縮方法によって実行されるステップは、メモリ８２内に位置されたソフトウェア又はファームウェア８１内に位置した命令として格納される。図１では、このメモリは、デコーダ２０６の内部に位置して示される。メモリ８２はまた、デコーダ２０６の外部に位置することもできる。

（４ＧＶにおける１つのような）エンコーダ２０４は、フレーム２０が音声スピーチ、無音声スピーチ、あるいは瞬間的スピーチを示すかに依存して、スピーチフレーム２０をＰＰＰ（周期的）、ＣＥＦＬＰ（僅かに周期的）、又はＮＥＬＰ（雑音の多い）として分類しうる。スピーチフレーム２０タイプに関する情報を用いて、デコーダ２０６は、異なる方法を使って、異なるフレーム２０を時間伸縮することができる。例えば、ＮＥＬＰスピーチフレーム２０は、ピッチ期間の概念を持っておらず、その残留信号３０は、「ランダムな」情報を用いて、デコーダ２０６において生成される。従って、ＣＥＬＰ／ＰＰＰのピッチ期間１００推定は、ＮＥＬＰに当てはまらず、一般に、ＮＥＬＰフレーム２０は、ピッチ期間１００よりも短くなるまで伸縮（展開／圧縮）されうる。そのような情報は、時間伸縮が、デコーダ２０６において、残留信号３０の復号後に行なわれるのであれば、利用可能ではない。一般に、復号後にＮＥＬＰのようなフレーム２０を時間伸縮することは、スピーチアーティファクトに至る。一方、デコーダ２０６内でＮＥＬＰフレーム２０を伸縮することは、より良い品質をもたらす。

従って、ポストデコーダ（つまり、残留信号３０が合成された後）に対立するものとして、デコーダ２０６内で時間伸縮を行う（つまり、残留信号３０を合成する前に）ことに２つの利点がある。すなわち、（ｉ）計算上のオーバーヘッドの低減（例えば、ピッチ期間１００の探索の回避）、及び、（ｉｉ）ａ）フレーム２０タイプを知っていること、ｂ）伸縮された信号についてＬＰＣ合成を行うこと、ｃ）ピッチ期間をより正確に推定／把握することによる伸縮品質の改善。

（残留時間伸縮方法）
下記は、本方法及び装置が、ＰＰＰデコーダ、ＣＥＬＰデコーダ、及びＮＥＬＰデコーダ内で残留スピーチ３０を時間伸縮する実施形態を記載する。以下の２ステップ、すなわち、（ｉ）残留信号３０を展開バージョン又は圧縮バージョンへ時間伸縮すること、及び、（ｉｉ）時間伸縮された残留信号３０をＬＰＣフィルタ８０を介して送ることが各デコーダ２０６内で行なわれる。更に、ステップ（ｉ）は、ＰＰＰ、ＣＥＬＰ、及びＮＥＬＰによるスピーチセグメント１１０について別の方法で実行される。これら実施形態を以下に説明する。

（スピーチセグメント１１０がＰＰＰである場合における残留信号の時間伸縮）
上述したように、スピーチセグメント１１０がＰＰＰである場合、信号に加えることができる、あるいは信号から除去することができる最小単位は、ピッチ期間１００である。プロトタイプピッチ期間１００から信号１０を復号でき（そして、残留信号３０が再構築される）前に、デコーダ２０６は、（格納された）前のプロトタイプピッチ期間１００から、現在のフレーム２０におけるプロトタイプピッチ期間１００へと信号１０を補間し、処理中に失われたピッチ期間１００を追加する。この処理は図５に示される。そのような補間は、補間されたピッチ期間１００を生成することによって、むしろ、時間伸縮を容易にすることに向いている。これは、圧縮又は展開した残留信号３０に至るだろう。これら残留信号３０は、その後、ＬＰＣ合成を介して送られる。

（スピーチセグメント１１０がＣＥＬＰである場合における残留信号の時間伸縮）
上述したように、スピーチセグメント１１０がＰＰＰである場合、信号に追加、又は信号から除去される最小単位は、ピッチ期間１００である。一方、ＣＥＬＰの場合には、伸縮は、ＰＰＰに関してほど簡単ではない。残留信号３０を伸縮するために、デコーダ２０６は、符号化されたフレーム２０に含まれるピッチ遅延１８０情報を使用する。このピッチ遅延１８０は、フレーム２０の終わりにおける実際のピッチ遅延１８０である。周期的なフレーム２０でさえ、ピッチ遅延１８０はわずかに変化しているかもしれないことが注目されるべきである。フレーム内の任意のポイントにおけるピッチ遅延１８０は、最後のフレーム２０の終わりにおけるピッチ遅延１８０と、現在のフレーム２０の終わりにおけるピッチ遅延１８０との間を補間することによって推定されうる。これは図６に示される。フレーム２０内の全てのポイントにおけるピッチ遅延１８０が一旦知られると、フレーム２０をピッチ期間１００に分割することができる。ピッチ期間１００の境界は、フレーム２０内の様々なポイントにおけるピッチ遅延１８０を使用して決定される。

図６Ａは、フレーム２０をそのピッチ期間１００に分割する方法の一例を示す。例えば、サンプル番号７０は、おおよそ７０に等しいピッチ遅延１８０を有し、サンプル番号１４２は、おおよそ７２のピッチ遅延１８０を有する。従って、ピッチ期間１００は、サンプル番号［１−７０］から、及び、サンプル番号［７１−１４２］からである。図６Ｂを参照されたい。

フレーム２０が、ピッチ期間１００に一旦分割されると、ピッチ期間１００は、残留信号３０のサイズを増加／減少するためにオーバラップ追加することができる。図７Ｂ乃至図７Ｆを参照されたい。合成を追加及びオーバラップする際、入力信号１０からセグメント１１０を除去し、時間軸に沿ってそれらの位置を変え、更に、合成信号１５０の構築のために加えられた重み付けオーバラップを実行することによって、修正された信号が取得される。１つの実施形態では、セグメント１１０は、ピッチ期間１００と等しくなりえる。オーバラップ追加方法は、スピーチのセグメント１１０を「合併する」ことによって、２つの異なるスピーチセグメント１１０を、１つのスピーチセグメント１１０に置き換える。スピーチの合併は、可能な限りスピーチ品質を維持する方法で行われる。スピーチ品質を維持し、かつ、スピーチへのアーティファクトの導入を最小にすることは、合併するセグメント１１０を注意深く選択することによって行われる。（アーティファクトは、クリック、ポップ等のような望まれない要素である）。スピーチセグメント１１０の選択は、セグメント「類似性」に基づく。スピーチセグメント１１０の「類似性」がより近づくと、残留スピーチ信号３０のサイズを減少／増加するためにスピーチの２つのセグメント１１０がオーバラップしている場合、結果として得られるスピーチ品質がより向上し、スピーチアーティファクトを導入する可能性がより低くなる。ピッチ期間がオーバラップ追加されるべきかを判定するための有用なルールは、これら２つのピッチ遅延が類似しているか否か（一例として、ピッチ遅延が、約１．８ミリ秒に相当する１５サンプルまで異なるか否か）である。

図７Ｃは、残留信号３０を圧縮するためにオーバラップ追加がどのように使用されるのかを示す。オーバラップ／追加方法の第１ステップは、インプットサンプルシーケンスｓ［ｎ］１０を、上述したようなそのピッチ期間に分割することである。図７Ａでは、４つのピッチ期間１００（ＰＰ）を含むオリジナルのスピーチ信号１０が示される。次のステップは、図７Ａに示す信号１０のピッチ期間１００を除去することと、これらピッチ期間１００を、合併したピッチ期間１００と置き換えることとを含む。例えば、図７Ｃでは、ピッチ期間ＰＰ２，ＰＰ３が除去され、ＰＰ２とＰＰ３とがオーバラップ追加された１つのピッチ期間１００で置き換えられている。更に具体的には、図７Ｃでは、ピッチ期間１００ＰＰ２とＰＰ３とが、第２のピッチ期間１００（ＰＰ２）の寄与が減少し続け、ＰＰ３の寄与が増加し続けるようにオーバラップ追加される。この追加オーバラップ方法は、２つの異なるスピーチセグメント１１０から１つのスピーチセグメント１１０を生成する。１つの実施形態では、追加−オーバラップは、重み付けられたサンプルを用いて行なわれる。これは、図８に示すような方程式ａ）及びｂ）で例示される。重み付けは、セグメント１（１１０）の最初のＰＣＭ（パルス符号化変調）サンプルと、セグメント２（１１０）の最後のＰＣＭサンプルとの間でのスムーズな遷移を提供するために使用される。

図７Ｄは、オーバラップ追加されているＰＰ２とＰＰ３の別のグラフィック例示である。（図７Ｅに示すように）単純に１つのセグメント１１０を除去し、残りの隣接セグメント１１０に隣接するのに比べて、クロスフェードは、本方法によって時間圧縮された信号１０の認識品質を改善する。

ピッチ期間１００が変化している場合、このオーバラップ−追加方法は、等しくない長さからなる２つのピッチ期間１１０を合併しうる。この場合、より良い合併は、２つのピッチ期間１００をオーバラップ−追加する前に、それらのピークを揃えることによって達成されうる。その後、展開／圧縮された残留信号が、ＬＰＣ合成を経て送られる。

（スピーチ展開）
スピーチを展開する簡単なアプローチは、同じＰＣＭサンプルに対して多数の反復を行うことである。しかしながら、同じＰＣＭサンプルを複数回繰り返すことによって、フラットなピッチを持つ領域を生成することができる。このフラットなピッチは、人間によって容易に検知可能なアーティファクトである（例えば、スピーチは、「ロボット」のように聞こえるかもしれない）。スピーチ品質を維持するために、追加−オーバラップ方法を使用して良い。

図７Ｂは、本発明のオーバラップ−追加方法を用いて、スピーチ信号１０がどのように展開されるのかを示している。図７Ｂでは、ピッチ期間１００ＰＰ１及びＰＰ２から生成された追加ピッチ期間１００が加えられる。この追加ピッチ期間１００では、第２のピッチ（ＰＰ２）期間１００の寄与が減少し続け、ＰＰ１の寄与が増加し続けるように、ピッチ期間１００ＰＰ２及びＰＰ１がオーバラップ−追加される。図７Ｆは、オーバラップ追加されているＰＰ２とＰＰ３とのグラフ例示を示す。

（スピーチセグメントがＮＥＬＰである場合における残留信号の時間伸縮）
ＮＥＬＰスピーチセグメントの場合、エンコーダが、スピーチセグメント１１０の別の部分に対する利得のみならず、ＬＰＣ情報を符号化する。スピーチは、本来極めて雑音状であるので、その他の情報を符号化する必要はない。１つの実施形態では、利得は、１６個のＰＣＭサンプルからなるセットで符号化される。従って、例えば、１６０のサンプルからなるフレームは、それぞれが１６のスピーチサンプルからなる１０の符号化された利得値によって表されうる。デコーダ２０６は、先ず、ランダム値を生成し、次に、それらそれぞれに利得を適用することによって、残留信号３０を生成する。この場合、ピッチ期間１００の概念はないかもしれないので、展開／圧縮は、ピッチ期間１００の粒度である必要はない。

ＮＥＬＰセグメントを展開又は圧縮するために、デコーダ２０６は、セグメント１１０が展開されているか、あるいは圧縮されているかに依存して、１６０よりも多いか、あるいは少ない数のセグメント（１１０）を生成する。その後、１０の復号された利得がサンプルに加えられ、展開又は圧縮された残留信号３０が生成される。これら１０の復号された利得は、オリジナルの１６０のサンプルに対応しているので、これらは、展開／圧縮されたサンプルへは直接的には適用されない。これらの利得を適用するために、様々な方法が使用されうる。これら方法のうちの幾つかを以下に述べる。

生成されるサンプルの数が１６０未満である場合、必ずしも、１０全ての利得を適用する必要はない。例えば、サンプル数が１４４である場合、最初の９つの利得が適用されうる。この例では、第１の利得が、最初の１６のサンプルであるサンプル１〜１６に適用され、第２の利得が、次の１６のサンプルであるサンプル１７〜３２に適用されるようになされる。同様に、サンプルが１６０以上ある場合、１０番目の利得が、２度以上適用されうる。例えば、サンプル数が１９２である場合、１０番目の利得を、サンプル１４５〜１６０、１６１〜１７６、及び１７７〜１９２に適用することができる。

あるいは、サンプルは、等しい数のサンプルを有する１０のセットに分割され、１０の利得が、これら１０のセットに適用される。例えば、サンプル数が１４０である場合、１０の利得を、１４のサンプル各々のセットに適用することができる。この例では、第１の利得が最初の１４のサンプルであるサンプル１〜１４に適用され、第２の利得が次の１４のサンプルであるサンプル１５〜２８に適用されるようになされる。

サンプルの数が、１０で完全に割り切れない場合、１０番目の利得が、１０で割って得られる余りのサンプルに適用される。例えば、サンプル数が１４５である場合、１０の利得を、それぞれ１４サンプルからなるセットに適用することができる。更に、１０番目の利得が、サンプル１４１〜１４５に適用される。

上述した符号化方法のうちの何れかを用いた場合、時間伸縮の後、展開／圧縮残留信号３０が、ＬＰＣ合成を通じて送られる。

当該技術における熟練者であれば、これら情報および信号が、種々異なった技術や技法を用いて表されることを理解するであろう。例えば、上述した記載の全体で引用されているデータ、指示、命令、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学微粒子、あるいはこれら何れかの組み合わせによって表現されうる。

これら熟練者であれば、更に、ここで開示された実施形態に関連して記載された様々な説明的論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子工学ハードウェア、コンピュータソフトウェア、あるいはこれらの組み合わせとして実現されることを理解するであろう。ハードウェアとソフトウェアとの相互互換性を明確に説明するために、様々に例示された部品、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に記述された。それら機能がハードウェアとして又はソフトウェアとして実現されているかは、特定のアプリケーション及びシステム全体に課せられている設計制約に依存する。熟練した技術者であれば、各特定のアプリケーションに応じて変更した方法で上述した機能を実施しうる。しかしながら、この適用判断は、本発明の範囲から逸脱したものと解釈されるべきではない。

ここで開示された実施形態に関連して記述された様々の説明的論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、アプリケーションに固有の集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）あるいはその他のプログラマブル論理デバイス、ディスクリートゲートあるいはトランジスタロジック、ディスクリートハードウェア部品、又は上述された機能を実現するために設計された上記何れかの組み合わせを用いて実現又は実行されうる。汎用プロセッサとしてマイクロプロセッサを用いることが可能であるが、代わりに、従来技術によるプロセッサ、コントローラ、マイクロコントローラ、あるいは状態機器を用いることも可能である。プロセッサは、たとえばＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに接続された１つ以上のマイクロプロセッサ、またはこのような任意の構成である計算デバイスの組み合わせとして実現することも可能である。

ここで開示された実施形態に関連して記述された方法やアルゴリズムのステップは、ハードウェアや、プロセッサによって実行されるソフトウェアモジュールや、これらの組み合わせによって直接的に具現化される。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、あるいは当該技術分野で知られているその他の型式の記憶媒体に収納されうる。例示した記憶媒体は、プロセッサがそこから情報を読み取り、またそこに情報を書き込むことができるようにプロセッサに結合される。

または、記憶媒体はプロセッサに統合されうる。このプロセッサと記憶媒体は、ＡＳＩＣ内に存在することができる。ＡＳＩＣは、ユーザ端末内に存在することもできる。あるいはこのプロセッサと記憶媒体は、ユーザ端末内のディスクリート部品として存在しうる。開示された実施形態における上述の記載は、当該技術分野におけるいかなる人であっても、本発明の活用または利用を可能とするように提供される。これらの実施形態への様々な変形例もまた、当該技術分野における熟練者に対しては明らかであって、ここで定義された一般的な原理は、本発明の主旨または範囲を逸脱せずに他の実施形態にも適用されうる。このように、本発明は、ここで示された実施形態に制限されるものではなく、ここで記載された原理と新規の特徴に一致した最も広い範囲に相当するものを意図している。

図１は、線形予測符号化（ＬＰＣ）ボコーダのブロック図である。図２Ａは、音声スピーチを含むスピーチ信号である。図２Ｂは、無音声スピーチを含むスピーチ信号である。図２Ｃは、瞬間的スピーチを含むスピーチ信号である。図３は、残留信号の符号化が後に続くスピーチのＬＰＣフィルタリングを例示するブロック図である。図４Ａは、オリジナルのスピーチのプロットである。図４Ｂは、ＬＰＣフィルタリング後の残留スピーチ信号のプロットである。図５は、前のプロトタイプピッチ期間と現在のプロトタイプピッチ期間との間の補間を用いた波形の生成を例示する。図６Ａは、補間によってピッチ遅延を決定することを示す。図６Ｂは、ピッチ期間を識別することを示す。図７Ａは、オリジナルのスピーチ信号をピッチ期間の形で示す。図７Ｂは、オーバラップ追加を用いて展開されたスピーチ信号を表す。図７Ｃは、オーバラップ追加を用いて圧縮されたスピーチ信号を表す。図７Ｄは、残留信号を圧縮するために重み付けがどのように使用されるかを表す。図７Ｅは、オーバラップ追加を用いずに圧縮されたスピーチ信号を表す。図７Ｆは、残留信号を展開するために重み付けがどのように使用されるかを表す。図８は、オーバラップ追加方法で使用される２つの方程式を含む。

Claims

スピーチを通信する方法であって、
プロトタイプピッチ期間（ＰＰＰ）、符号励起型線形予測（ＣＥＬＰ）、雑音励起型線形予測（ＮＥＬＰ）、又は、１／８フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信することと、
前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも１つのサンプルを加えるか、または、減じることによって時間伸縮することと、
前記時間伸縮された残留スピーチ信号に基づいて、合成スピーチ信号を生成することとを備え、
前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、雑音励起型線形予測、又は、１／８フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの１つが選択され、
前記スピーチセグメントがＣＥＬＰを用いて符号化された場合、前記時間伸縮方法は、
最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
を備える方法。
分類されたスピーチフレームを符号化することを更に備え、前記スピーチフレームを符号化することは、
線形予測符号化フィルタを介して前記残留スピーチ信号を送り、前記残留スピーチ信号における短期的な相関をフィルタ出力することと、
線形予測符号化係数及び残留信号を出力することと
を備える請求項１に記載のスピーチ通信方法。
前記スピーチフレームを符号化することの前に、前記スピーチフレームを分類することを備え、前記スピーチフレームを分類することは、スピーチフレームが音声スピーチ、無音声スピーチ、又は瞬間的スピーチであるかに依存して、前記スピーチフレームを、周期的であるか、僅かに周期的であるか、あるいは雑音が多いかとして分類することを備える請求項２に記載のスピーチ通信方法。
前記時間伸縮するステップは、
前記少なくとも１つのピッチ期間を補間すること
からなるステップを更に備え、
前記加えるか、または、減じることは、
前記残留スピーチ信号を展開する場合、前記少なくとも１つのピッチ期間を加えることと、
前記残留スピーチ信号を圧縮する場合、前記少なくとも１つのピッチ期間を減じることと
を備える請求項１に記載の方法。
前記符号化することが、雑音励起型線形予測符号化を用いる場合、前記符号化するステップは、線形予測符号化情報を、スピーチセグメントの別の部分の利得として符号化することを更に備える請求項２に記載の方法。
前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせるステップは、
インプットサンプルシーケンスを、サンプルブロックにセグメント化することと、
規則的な時間間隔において前記残留スピーチ信号のセグメントを除去することと、
前記除去したセグメントを合併することと、
前記除去したセグメントを、合併したセグメントに置き換えることと
を備える請求項１に記載の方法。
前記ピッチ遅延を推定するステップは、最後のフレームの終わりと、現在のフレームの終わりとのピッチ遅延の間を補間することを備える請求項１に記載の方法。
前記ピッチ期間を加えるステップは、スピーチセグメントを合併することを備える請求項１に記載の方法。
前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えるステップは、第１のピッチ期間セグメントと第２のピッチ期間セグメントとから生成される追加ピッチ期間を加えることを備える請求項１に記載の方法。
前記利得は、スピーチサンプルのセットに対して符号化される請求項５に記載の方法。
前記除去したセグメントを合併するステップは、
第１のピッチ期間セグメントの寄付を増加させることと、
第２のピッチ期間セグメントの寄付を減少させることと
を備える請求項６に記載の方法。
類似のスピーチセグメントを選択するステップを更に備え、前記類似のスピーチセグメントが合併される請求項８に記載の方法。
スピーチセグメントを相関付けるステップを更に備え、これによって類似のスピーチセグメントが選択される請求項８に記載の方法。
前記第１のピッチ期間セグメントと第２のピッチ期間セグメントとから生成される追加ピッチ期間を加えるステップは、前記第１のピッチ期間セグメントの寄与が増加し、前記第２のピッチ期間セグメントの寄与が減少するように前記第１のピッチセグメントと前記第２のピッチセグメントとを加えることを備える請求項９に記載の方法。
ランダム値を生成することにより残留信号を生成することと、
その後、前記ランダム値に前記利得を適用することと
からなる各ステップを更に備える請求項１０に記載の方法。
前記線形予測符号化情報を、符号化された１０の利得値として表すステップを更に備え、符号化された各利得値は、１６のスピーチサンプルを代表する請求項１０に記載の方法。
少なくとも１つのインプットと少なくとも１つのアウトプットとを有するボコーダであって、
プロトタイプピッチ期間（ＰＰＰ）、符号励起型線形予測（ＣＥＬＰ）、雑音励起型線形予測（ＮＥＬＰ）、又は、１／８フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信するデコーダを備え、
前記デコーダは、前記少なくとも１つのアウトプットに操作可能に接続された少なくとも１つのインプットと、前記ボコーダの前記少なくとも１つのアウトプットに操作可能に接続された少なくとも１つのアウトプットとを有するシンセサイザと、メモリとを備え、前記メモリに格納されたソフトウェア命令を実行するように適応され、
前記命令は、前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも１つのサンプルを加えるか、または、減じることによって時間伸縮することを備え、
前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、又は雑音励起型線形予測、又は、１／８フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの１つが選択され、
前記スピーチセグメントがＣＥＬＰを用いて符号化された場合、前記時間伸縮方法は、
最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
を備えるボコーダ。
前記ボコーダのインプットに操作可能に接続された少なくとも１つのインプットと、少なくとも１つのアウトプットとを有するフィルタを備えるエンコーダを更に備え、
前記フィルタは、スピーチ信号における短期的な相関をフィルタ出力し、線形予測符号化係数及び残留信号を出力するように適応された線形予測符号化フィルタである請求項１７に記載のボコーダ。
前記エンコーダはメモリを備え、
前記エンコーダは、符号励起型線形予測符号化を用いて前記スピーチセグメントを符号化することを備え前記メモリに格納されたソフトウェア命令を実行するように適応された請求項１８に記載のボコーダ。
前記エンコーダはメモリを備え、
前記エンコーダは、雑音励起型線形予測符号化を用いて前記スピーチセグメントを符号化することを備え前記メモリに格納されたソフトウェア命令を実行するように適応された請求項１８に記載のボコーダ。
前記時間伸縮するソフトウェア命令は、
前記少なくとも１つのピッチ期間を補間することを備え、
前記加えるか、または、減じることは、
前記残留スピーチ信号を展開する場合、前記少なくとも１つのピッチ期間を加えることと、
前記残留スピーチ信号を圧縮する場合、前記少なくとも１つのピッチ期間を減じることと
を備える請求項１７に記載のボコーダ。
前記雑音励起型線形予測符号化するソフトウェア命令を用いて前記スピーチセグメントを符号化することは、線形予測符号化情報を、スピーチセグメントの別の部分の利得として符号化することを備える請求項２０に記載のボコーダ。
前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせる命令は、
インプットサンプルシーケンスをサンプルブロックにセグメント化することと、
規則的な時間間隔において、前記残留スピーチ信号のセグメントを除去することと、
前記除去されたセグメントを合併することと、
前記除去されたセグメントを、合併されたセグメントと置き換えることと
を備える請求項１７に記載のボコーダ。
前記ピッチ遅延を推定する命令は、最後のフレームの終わりと、現在のフレームの終わりとの間のピッチ遅延を補間することを備える請求項１７に記載のボコーダ。
前記ピッチ期間を加える命令は、スピーチセグメントを合併することを備える請求項１７に記載のボコーダ。
前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加える命令は、第１のピッチ期間セグメントと第２のピッチ期間セグメントとから生成される追加のピッチ期間を加えることを備える請求項１７に記載のボコーダ。
前記利得は、スピーチサンプルのセットに対して符号化される請求項２２に記載のボコーダ。
前記除去されたセグメントを合併する命令は、
第１のピッチ期間セグメントの寄付を増加させることと、
第２のピッチ期間セグメントの寄与を減少させることと
を備える請求項２３に記載のボコーダ。
類似のスピーチセグメントを選択するステップを更に備え、前記類似のスピーチセグメントが合併される請求項２５に記載のボコーダ。
前記時間伸縮する命令は更に、スピーチセグメントを相関付けることを備え、これによって、類似のスピーチセグメントが選択される請求項２５に記載のボコーダ。
前記第１のピッチ期間セグメントと第２のピッチ期間セグメントとから生成される追加のピッチ期間を加える命令は、前記第１のピッチ期間セグメントの寄与が増加し、前記第２のピッチ期間セグメントの寄与が減少するように前記第１のピッチセグメントと前記第２のピッチセグメントとを加えることを備える請求項２６に記載のボコーダ。
前記時間伸縮する命令は更に、
ランダム値を生成することにより残留スピーチ信号を生成することと、
その後、前記ランダム値に前記利得を適用することと
を備える請求項２７に記載のボコーダ。
前記時間伸縮する命令は更に、前記線形予測符号化情報を、符号化された１０の利得値として表すことを更に備え、符号化された各利得値は、１６のスピーチサンプルを代表する請求項２７に記載のボコーダ。
残留信号を生成するために、プロトタイプピッチ期間（ＰＰＰ）、符号励起型線形予測（ＣＥＬＰ）、雑音励起型線形予測（ＮＥＬＰ）、又は、１／８フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信する手段と、
前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも１つのサンプルを加えるか、または、減じることによって時間伸縮する手段と、
前記時間伸縮された残留スピーチ信号に基づいて、合成スピーチ信号を生成する手段とを備え、
前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、雑音励起型線形予測、又は、１／８フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの１つが選択され、
前記スピーチセグメントがＣＥＬＰを用いて符号化された場合、前記時間伸縮方法は、
最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
を備えるボコーダ。
プロセッサに、スピーチを通信するための動作を実行させるためのプログラムを記録したプロセッサ読取可能な記録媒体であって、
前記プログラムは、前記プロセッサに対して、
プロトタイプピッチ期間（ＰＰＰ）、符号励起型線形予測（ＣＥＬＰ）、雑音励起型線形予測（ＮＥＬＰ）、又は、１／８フレーム符号化を用いて符号化されたスピーチセグメントに基づく残留スピーチ信号を受信するための手順と、
前記残留スピーチ信号における残留スピーチセグメントを、前記残留スピーチセグメントに対して少なくとも１つのサンプルを加えるか、または、減じることによって時間伸縮するための手順と、
前記時間伸縮された残留スピーチ信号に基づいて、合成スピーチ信号を生成するための手順と、
前記スピーチセグメントが、プロトタイプピッチ期間、符号励起型線形予測、雑音励起型線形予測、又は、１／８フレーム符号化を用いて符号化されたかに基づいて、複数の異なる時間伸縮方法のうちの１つを選択するための手順とを備え、
前記時間伸縮方法は、前記スピーチセグメントがＣＥＬＰを用いて符号化された場合、
最後のスピーチフレームの終わりにおけるピッチ遅延と、現在のスピーチフレームの終わりにおけるピッチ遅延との間を補間することによって、前記残留スピーチ信号におけるピッチ遅延を推定することと、
前記残留スピーチ信号における任意のポイントにおけるピッチ遅延を用いて、ピッチ期間の境界を決定することと、
前記決定されたピッチ期間に、前記残留スピーチ信号を分割することと、
前記残留スピーチ信号が減少するのであれば、前記ピッチ期間をオーバラップさせることと、
前記残留スピーチ信号が増加するのであれば、前記ピッチ期間を加えることと
を備えるプロセッサ読取可能な記録媒体。