JP2000514207A - 音声合成システム - Google Patents

音声合成システム

Info

Publication number
JP2000514207A
JP2000514207A JP10504943A JP50494398A JP2000514207A JP 2000514207 A JP2000514207 A JP 2000514207A JP 10504943 A JP10504943 A JP 10504943A JP 50494398 A JP50494398 A JP 50494398A JP 2000514207 A JP2000514207 A JP 2000514207A
Authority
JP
Japan
Prior art keywords
frame
pitch
voiced
magnitude
lpc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10504943A
Other languages
English (en)
Inventor
ザイディーズ,コスタス
Original Assignee
ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9614209.6A external-priority patent/GB9614209D0/en
Application filed by ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター filed Critical ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター
Publication of JP2000514207A publication Critical patent/JP2000514207A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Aerials With Secondary Devices (AREA)
  • Optical Communication System (AREA)
  • Telephonic Communication Services (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 音声信号が一連のフレームに分割され、各フレームが有声/無声分類とピッチ推定値とを含む符号化信号に変換される音声合成システムであって、各フレームにおいて参照用サンプルの近くに中心がある低域濾波された音声セグメントが定められ、参照用サンプルの近くに中心がある可変長さの音声セグメントから得られる多数のクロス相関値の最大値として、相関値が各一連の候補ピッチ推定値の各々について計算され、その相関値が使用されて、ピークを定める相関関数が形成され、該ピークの位置が決定され、それが使用されてピッチ推定値が定められる。

Description

【発明の詳細な説明】 音声合成システム 本発明は音声合成システム(speech synthesis system)、特に低ビット率で 動作する音声伝達システムに用いられる音声システム符号化と合成システムに関 する。 音声は波形として表わすことができ、その詳細な構造は音声を話す人間の音道 と音声励起の特性を表す。もし、音声伝達システムが十分知覚される質を提供す ることができるならば、伝達された情報はその詳細な構造を表すことができるは ずである。有声音声におけるパワーの多くは比較的低い周波数、例えば2kHz未満 である。従って、質の高い音声合成は、低域濾波して高周波数成分を拒絶した音 声波形に基づいて達成される。しかしながら、知覚される音声の質は、もし周波 数が4kHzよりもさらに低く制限されるならば、悪い影響を受ける。 音声の特性を規定する多くのモデルが提案されてきた。公知のモデルは、音声 信号をブロック、あるいはフレームに分割し、各フレーム内の音声特性を表すパ ラメータを引き出すことに依存している。そして、これらのパラメータは量子化 され、受信機に送信される。受信機では、量子化プロセスが逆転されてパラメー タが回復され、回復したパラメータを基礎に音声信号が合成される。 公知のモデルの設計者の共通の目的は、伝達されなければならないデータの量 を最小にする一方、伝達されるデータから合成され得る音声の知覚される質を最 大にすることである。幾つかのモデルでは、特定のフレームが「有声」であるか 「無声」であるかで、識別がなされている。有声音声の場合、音声は声門の興奮 (excitation)によって生成され、結果的に準周期的構造を有する。無声音声は 、狭窄部での乱流空気流によって生成され、有声音声の「周期的」スペクトル構 造特性を有しない。多くのモデルは、有声音声信号が一般的に10乃至30ミリ秒の 周期であるフレームの前後で比較的ゆっくり発展(evolve)するという事実を利 用することを探求している。多くのモデルはまた、知覚される質を著しく損失す ること無く伝達されなければならない情報量を最小にするように意図された量子 化法(quantization schemes)に依存している。今日までに為された仕事の結果 、 今や僅か毎秒数千ビットビット率で動作することができる音声合成システムを生 み出すことが可能である。 開発された一つのモデルは、「正弦符号化(sinusoidal coding)」として知 られている(R.J.McAulayおよびT.F.Quatieriの「正弦符号化に基づく低率 音声符号化」、音声信号プロセスにおける進歩、S.FuruiおよびM.Sondhi編、 第6章165-208頁、Markel Dekker,New York,1992年)。この研究方法は、各入 力フレームのFFT分析に依存しており、マグニチュードスペクトルを生成し、そ のスペクトルから入力フレームのピッチ周期を推定し、フレームの基本周波数の 倍数である高調波に関連するピッチにおける振幅を規定する。誤差の程度(erro r measure)は、高調波と非高調波音声スペクトル間の差を表す時間領域(time domain)で計算され、その誤差の程度は、周波数値の項で入力フレームの有声の 度合いを規定するために用いられる。このようにして、フレームを表すために用 いられるパラメータは、ピッチ周期(pitch period)、各高調波に対するマグニ チュード、および位相値(phase value)、および周波数値(phase value)であ る。このシステムを操作するために、位相情報を連続するフレームを横切って可 干渉性法(coherent way)で予測するというような提案がなされている。 「多重帯域励起符号化(multiband excitation coding)」として知られてい る別のシステム(D.W.GrifftinとJ.S.Limの「多重帯域励起ボコーダ」,IEE E Transaction on Acoustics,Speech and Signal Processing,36巻123-1235頁 、1988年、およびDigital Voice System Incの「INMARSAT M Voice Codec、3.0 版」,Voice Coding System Description,Module 1 付録1、1991年8月)では、 振幅、および位相関数は正弦符号化で採用されるものとは異なる方法で決定され る。このシステムでの強調点は、スペクトルを、例えば12帯域までの帯域に分割 し、これらの各帯域の有声/無声の性質を評価することに置かれている。無声と 分類された帯域はランダム信号を用いて合成される。連続するフレームのピッチ 推定間の差異が比較的小さいところでは、要求される振幅を規定するために線形 補間が用いられる。位相関数もまた、線形周波数補間を用いて規定されるが、加 えて一定の変位(constant displacement)を含む。その変位は,ラ ンダム変数であり、かつ入力信号の短期スペクトルに存在する無声帯域の数に依 存する。システムは継続するフレーム間の位相連続性を保存する方法で作働する 。継続するフレームのピッチ推定が非常に異なる時、連続するフレームついて引 き出された振幅および位相から生成される信号のウェイト付けされた和が形成さ れ、合成信号が生成される。 このように、上記に参照した正弦および多重帯域システム間の共通の基礎は、 両方式ともDFT分析される入力音声信号を直接モデル化し、両システムとも合成 される音声を表す同じ基本的関係に少なくとも部分的に基づいていることである 。しかしながら、両システムは、振幅および位相が推定され量子化される方法、 異なる補間方法が必要な位相関係を規定するために用いられる方法、および回復 された音声に「ランダム性」が導入される方法において異なる。 各種の多重帯域励起符号化システムが提案されている.例えば、強化多重帯域 音声符号器(A.DasとA.Gershoの「音声学上の分類による2400bps以下での音声 の可変大きさスペクトル符号化」,IEEE Proc.ICASSP-95,492-495頁,1995年5 月)では、入力フレームは雑音、無声、十分な有声および混合有声の4形式に分 類され、スペクトルマグニチュード用の可変大きさベクトル量子化プロセスが導 入されている。複高調波スペクトルモデル化システム(C.Garcia-Matteo.,J. L.Alba-CastroおよびEduardo R.Bangaの「重高調波スペクトルモデルを使用し た音声符号化」,Proc.EUSIPCO-94,Edingburgh,第2巻391-394頁、1994年9月 )では、短期マグニチュードスペクトルが2帯域に分割され、各帯域に対して別 々のピッチ周波数が計算されている。スペクトル励起符号化システム(V.Cuper man,P.LupiniおよびB.Bhattacharyaの「音声の2.4kb/sでのスペクトル励起符 号化システム」,IEEE Proc.ICASSP-95,504-507頁,Detrpot,1995年5月)は 、線形予測符号化(linear predictive coding;LPC)残留領域(residual domain )における正弦基準符号化(sinusoidal based coding)を適用しており、ここ で正弦残留信号は適当な振幅および位相関数を有するピッチ高調波発信器の和で あり、振幅は非二乗変換を用いて量子化されている。帯域拡張高調波ボコーダ( band―widened harmonic vocoder)(G.Yang,G ZanellatoおよびH.Leichの「 2乃至4kbpsでの帯域拡張高調波ボコーダ」,IEEE Proc.ICASSP-95,504-507頁,Detroit,1995年5月)では、信号のランダム性が 帯域基準で振幅情報にジター(jitter)を加えることにより導入されている。ピ ッチ同期多重帯域符号化(H.Yang,S.N.KohおよびP.Sivaprakasapilaiの「 ピッチ同期多重帯域(PSMB)音声符号化」,IEEE Proc.ICASSP-95,516-519頁,D etroit,1995年5月)では、CELP(符号励起線形予測)基準符号化方式が音声周 期セグメントを符号化するために用いられている。多重帯域LPC符号化(S.Yeld ener,M.KondozおよびG.Evansの「2.4kbits/sにおける音声の高質の多重帯域LPC 符号化」,Elecronic Letters,1287-1289頁、27巻、No 14、1991年7月4日)で は、単一振幅値が「平坦な」残留スペクトルを実質的に明確にするために各フレ ームに割り当てられている。高調波および雑音符号化(M.NishiguchiおよびJ. Matsumotoの「分類されたベクトル量子化を有するLPC残留の高調波および雑音符 号化」,IEEE Proc.ICASSP-95,484-487頁,Detrpot,1995年5月)は、LPC残留 領域で動作する分類されたベクトル量子化を有し、入力信号は有声あるいは無声 として分類され、全帯域に亙りモデル化されている。 原型補間符号化システム(prototype interpolation coding system)である 別の符号化システムの形式がある。これは、ピッチ周期セグメント、すなわち適 時に離隔して置かれている原型と二つの原型間の信号を合成する反復/補間技術 の使用に依存する。こようなシステムは、早くも1971年に説明された(J.S.Se verwight著「効率的な音声伝達のための補間反復技術」,Ph.D.Thesis,Lough borough University,電気工学部門、1971年)。同じ一般的クラスのより精巧な システムが、より最近、例えばW.B.Kleijn著「線形予測符号化における連続的 表現」,Proc.ICASSP-91,201-204頁,1991年5月に説明されている。同著者は 、一連の関連する論文を出版している。このシステムは有声あるいは無声と分類 される20ミリ秒符号化フレームを採用している。無声フレームは効果的にCELP符 号化される。ピッチ原型セグメントは、主ピッチ励起パルスが原型のどの端部に も近くないように、原型の最大配列(相関)を確実にし、原型を規定する方法で LPCs残留信号の近傍の有声フレーム内に規定される。与えられたフレームのピッ チ周期は、フレームに対する原型がそこから得られた人工的な周期的信号のサイ クルであると考えられる。近傍のフレームから適当に選択された原型はフ ーリエ変換され、得られた係数は差動ベクトル量子化方式を用いて符号化される 。 この方式により、有声フレームの合成の間、近傍のフレーム用の復号原型フー リエ表現は、線形補間を用いて二つの原型セグメント間の失われた信号波形を復 元するために用いられる。このようにして、残留信号が得られ、LPC合成フィル タに提出され、該LPC合成フィルタの出力は合成有声音声信号を提供する。2khz を超える周波数での雑音を注入することにより、ランダム性の量を有声音声に導 入することが出来、雑音の振幅は周波数と共に増加する。加えて、合成有声音声 の周期性は、残留励起信号内の近傍フレームの原型間に存在する類似性を反映す る比の程度を変更する長期信号に従って、原型パラメータの量子化の間、制御さ れる。 既知の原型補間符号化システムは、線形時間補間プロセスを含むフーリエ級数 合成式に依存する。連続するフレームに対するピッチ推定が線形補間されて、ピ ッチ関数および関連する瞬時基本周波数を提供すると、仮定する。フーリエ級数 合成式の余弦および正弦項に使用される瞬時位相はその瞬間の高調波周波数の積 分である。この合成配置は、瞬間ピッチ線形展開と瞬間高調波周波数の非線形展 開を考慮する。 このシステムの開発は、W.B.KleijnおよびJ.Haadenによって「特性波形の 分解に基づく音声符号器」,Proc.ICASSP-95、508-511頁、Detroit、1995年5月 に説明されている。説明されたシステムでは、フーリエ級数係数は20Hzの切断周 波数で長時間低域濾過され、LPC励起信号用の「ゆっくり展開する(slowly evol ving)」波形成分を提供する。この低域濾過成分と原パラメータの差は、励起信 号の「急速に展開する(rapidly evolving)」成分を提供する。周期的音声励起 信号は、主に「ゆっくり展開する」成分によって表され、一方ランダム無声励起 信号は、フーリエ級数係数のこの二重分解において「急速に展開する」成分によ って表される。このことは、有声および無声フレームを個別に扱う必要性を効果 的に除去する。更に、二成分の量子化、および伝達率は異なる。「ゆっくり展開 する」信号は,25ミリ秒という比較的長い間隔でサンプリングされるが、パラメ ータはスペクトルマグニチュード情報に基づいて全く正確に量子化される。対照 的に「急速に展開する」信号は4ミリ秒毎に多頻度にサンプリングされるが、 より少ない正確さで量子化される。位相情報は2ミリ秒毎にランダム化される。 原型補間符号化システムの他の開発が提案されてきた。例えば、一つの公知の システムは、5ミリ秒フレームで動作し、ピッチ周期は有声フレーム用に選択され 、DFT変換されて、原形スペクトルマグニチュード値を生成する。これらの値は 、量子化され、隣接フレーム用に量子化された値は線形補間される。位相情報は 補間境界でのいかなる周波数制限をも満足しない方法で規定される。このことは 、フレームの境界で不連続の問題を生じる。受信機では、励起信号は、逆DFTプ ロセスを介して、復号されたマグニチュードおよび推定された位相値を用いて合 成される。その結果得られる信号は、続くLPC合成フィルタによりフィルタされ る。このモデルは、有声音声の間は純粋に周期的であり、これが非常に短い周期 のフレームが用いられる理由である。無声音声はCELPで符号化される。 現在提案されている広範囲の音声合成モデルの一部のみを上述したが、その音 声合成モデルとこれらのモデルを履行するために提案された代わりの解決法は、 このようなシステムにおける関心と、どのシステムが最も有利な性能を提供する かについていかなる意見の一致も欠いていることを示している。 本発明の目的は、改良された低ビット率の音声合成システムを提供することに ある。 1フレームの音声信号のピッチの推定値を得ることを必要とする公知のシステ ムにおいて、高品質の合成音声を実現するには、高分解(high resolution)非整 数ピッチ周期推定値(pitch period estimates)を得ることが必要であると考えら れていた。これには複雑なプロセスが要求されるとともに、品質低下をもたらさ ない方法でピッチ推定プロセスの複雑さを低減することが強く要求されることに なる。 本発明の第1の態様によれば、音声信号が一連のフレームに分割され、各フレ ームが有声/無声分類とピッチ推定値(pitch estimate)とを含む符号化信号に変 換される音声合成システムであって、 各フレームにおいて参照用サンプルの近くに中心がある低域濾波された音声セ グメントが定められ、 参照用サンプルの近くに中心がある可変長さの音声セグメントから得られる多 数のクロス相関値(multiple crosscorrelation value)の最大値として、相関 値(correlation value)が各一連の候補ピッチ推定値(candidate pitch estim ates)の各々について計算され、 その相関値が使用されて、ピークを定める相関関数が形成され、 該ピークの位置が決定され、それが使用されてピッチ推定値が定められること を特徴とする音声合成システムが提供される。 上記システムの結果として、整数ピッチ周期値(integer pitch period value) が得られる。このシステムは過度の複雑さを回避するとともに、容易に実行する ことができる。 ピッチ推定値は、反復法(iterative process)を用いて定められるのが好まし い。好ましくは、単一の参照用サンプルが使用され、例えばそれぞれのフレーム について中心に置かれるてもよいし、あるいは、各フレームに対して多数のピッ チ推定値が異なる参照用サンプルを用いて引き出され、これら多数のピッチ推定 値は組み合わされて、フレーム用の組合わせピッチ推定値が定められてもよい。 ピッチ推定値は隣接するフレームの有声/無声の状態及び/又はピッチ推定値を 参照することによって修正されて、最終的ピッチ推定値が定められてもよい。 相関関数は閾値を用いて切り落とされ(clipped)、残りのピークはそれらがよ り大きいピークと隣接する場合には拒絶される(rejected)てもよい。いずれかの 隣接するピークよりも大きいピークが選択され、該ピークはそれらが次のピーク よりも所定ファクター以上小さい場合、例えば次のピークの0.9倍より小さい 場合には拒絶されてもよい。 好ましくは、ピッチ推定処理は、最小二乗誤差アルゴリズムに基づく。好まし くは、ピッチ推定アルゴリズムは、その倍数が相関関数のピーク位置に最も適合 する数として、ピッチ値(pitch value)を定める。初期の可能性のあるピッチ 値は連続しない整数に制限され、2つの連続する数の間の増加分はそれら2つの 数のうち小さいものを掛けた定数に比例してもよい。 有声音または無声音として個々のフレームを分類して、その分類にしたがって それらのフレームを処理することが従来技術により知られている。不都合なこと に、そのような単純な分類処理では、音声の本当の特徴を正確に反映することが できない。個々のフレームが周期的(有声音)および非周期的(無声音)な両方 の成分からなっていることはよくあるケースである。この問題に向けられた従来 の試みは、特に効果的であるということを証明していない。 本発明の目的は、改良された有声音または無声音分類システムを提供すること にある。 本発明の第2の態様によれば、音声信号が一連のフレームに分割され、各フレ ームが、ピッチセグメントのマグニチュードスペクトル情報と、有声/無声分類 と、有声音フレームのマグニチュードスペクトル(magnitude spectrum)において 強有声音または弱有声音として高調波(harmonics)を分類する混合有声分類とを 含む符号化された信号に変換される音声合成システムであって、 フレームの中央に中心がある一連のサンプルがウィンドウされて(windowed)、 データアレイが形成され、該データアレイはフーリエ変換されてマグニチュード スペクトルが形成され、 閾値が計算され、それが使用されてマグニチュードスペクトルが切り取られ、 切り取られたデータは検索されてピークが定められ、 該ピークの位置が決定され、 制約(constraints)が適用されて、優勢ピーク(dominant peak)が定められ、 優勢ピークに関連しない高調波が弱有声音として分類されることを特徴とする 音声合成システムが提供される。 ピークは2次多項式(second order polynomial)を用いて配置されてもよい 。サンプルはハミングウィンドウ(Hamming windowed)されてもよい。閾値は、最 大および最小のマグニチュードスペクトル値を確認して、これら最大値と最小値 との差を掛けた定数として定めることによって計算されてもよい。ピークは2つ の隣接する値より大きい値として定められてもよい。該ピークは、隣接するピー クが類似のマグニチュードであるか、すなわち、80%のマグニチュードである 場合、または、より大きなマグニチュードと同じ範囲内にスペクトルマグニチュ ードがある場合には、考慮されないようにしてもよい。。高調波は、2つの隣接 するピークの間の差が所定の閾値より大きい場合には、優勢ピークと関連しない ものとみなされるようにしてもよい。 スペクトルは固定された幅の帯域に分割され、強/弱有声音分類は各帯域に割 り当てられてもよい。代案として、周波数範囲は種々の幅の2以上の帯域に分割 され、隣接する帯域は高調波の強/弱有声音分類を参照することにより選択され る周波数で分離されてもよい。 このように、スペクトルは固定周波帯、例えば各500ヘルツの固定周波帯に 分割されてもよく、または、励起信号(excitation signal)の高調波成分の強ま たは弱の有声音状態に応じて選択される種々の幅の周波帯に分割されてもよい。 そして、強または弱の有声音分類が各周波帯に割り当てられる。最低周波数帯域 、例えば0−500ヘルツは強有声音としてみなされ、最高周波数帯域、例えば 3500−4000ヘルツは弱有声音としてみなされてもよい。現在のフレーム が有声音であり、次のフレームが無声音である場合に、現在のフレームの範囲内 にあるさらに別の帯域は、弱有声音として自動的に分類されてもよい。一般に、 強/弱有声音分類は、問題の周波帯域内に入る高調波の強/弱有声音分類に関し て、多数決ルール(majority decision rule)を用いて決定されてもよい。過半数 がない場合には、交互の周波帯域が強有声音分類と弱有声音分類とに交互に割り 当てられてもよい。 高調波は強い有声音または弱い有声音のいずれかに分類されるというように有 声音フレームを分類する場合、この分類を考慮した音声信号を再生するために励 起信号を発生させる必要がある。発明の目的は、そのようなシステムを提供する ことにある。 本発明の第3の態様によれば、音声信号が一連のフレームに分割され、各フレ ームが、有声音または無声音として定められるとともに、各フレームが、ピッチ 周期値と、フレーム有声/無声分類と、各有声フレームに対してスペクトルバン ド内の高調波を強有声音または弱有声音として分類する混合有声スペクトル帯域 とを含む符号化された信号に変換され、かつ、各フレームに関する励起信号を発 生させるとともにその励起信号をフィルタに通すことによって音声信号が復元さ れる音声合成システムであって、 各弱有声音スペクトル帯域に対して、それぞれのピッチ周期値に依存する関数 の形をしたランダム成分を含む励起信号が発生されることを特徴とする音声合成 システムが提供される。 弱い有声音に分類されるスペクトル周波帯をもつ各フレームについては、励起 信号は、周波数がそのフレームに適したピッチ周期値に依存する第1の高調波周 波数成分と、上記第1の成分に重ねられる第2のランダム成分とを含む関数によ って表される。 ランダム成分は、弱有声音分類に割り当てられる高調波発振器の振幅を減少さ せ、具体的には例えば50%だけ高調波のパワーを減少させ、一方周波数が基本 周波数の倍数でなくなるように発振器周波数を撹乱させ、例えば0ないし30ヘ ルツの周波数で任意に発振器の位置を変えることにより、そしてさらなるランダ ム信号を付加することにより、導入されてもよい。ランダム信号を生成する発振 器の位相は、ピッチ間隔で、ランダム化(randomised)されてもよい。このよう に、弱い有声音の周波帯については、いくらかの周期性が残るが、周期的成分の パワーは減少し、そして任意の成分と組み合わされる。 音声信号が高調波のマグニチュード値の形のスペクトル情報によって部分的に 表される音声合成システムでは、一連のスペクトルマグニチュード値を生成して 、これらのマグニチュード値のすべてを連続処理ステップにおける高調波の位置 で使用するように、入力音声信号を処理することができる。しかしながら、多く の情況では、マグニチュード値の少なくともいくつかは、入力音声信号の再生に 役立つ情報をほとんど含んでいない。したがって、受信機への送信のためにマグ ニチュード値を量子化するときに、有用な情報をほとんど含まないマグニチュー ド値を捨てることが賢明である。 ある公知のシステムでは、高調波マグニチュード値を与えるために処理される ことになるLCP残留信号(residual signal)を生成するように入力音声信号が 処理されるが、上記マグニチュード値のうち一定数のものだけが受信機への送信 用にベクトル量子化される。捨てられるマグニチュード値は、同一の一定値とし て受信機において表される。この公知のシステムでは、余剰分は省かれるが、量 子化される一定数のマグニチュード値の位置が常に同じで、かつ特定の情況では 不適切な場合もある仮定に基づいて予め決められているという点で柔軟性に欠け る。 本発明の目的は、改良されたマグニチュード値量子化システムを提供すること にある。 本発明の第4の態様によれば、音声信号が一連のフレームに分割され、各音声 フレームが、ピッチ周期値LPC係数とピッチセグメントスペクトルマグニチュ ード情報とを含む符号化された信号に変換される音声合成システムにおいて、 上記ピッチセグメントスペクトルマグニチュード情報は、高調波周波数でLP C短期マグニチュードスペクトルをサンプリングすることにより量子化され、 最大スペクトルサンプルの位置が決定されて、どのマグニチュードが正確な量 子化に最も重要であるかが特定され、 そのように特定されたマグニチュードが選択されてベクトル量子化される、こ とを特徴とする音声合成システムが提供される。 従って、例えば、マグニチュードスペクトルの「低い部分」というように、量 子化及び送信に対してマグニチュード値の数字を固定する単純な位置選択方法よ るのではなく、本発明は、本質的に重要なLPCマグニチュードスペクトルに従 って、有意な分担をなすそれらの値のみを選択するため、質を落とすことなく残 留を低減することができる。 本発明の一つの構成では、Pn LPC残留サンプルのピッチセグメントが得ら れ、ここでPnはn番目のフレームのピッチ周期値であり、ピッチセグメントは DFT変換され、その結果得られたスペクトルマグニチュードの平均値が計算さ れ、該平均値は量子化されると共に、選択されたマグニチュードの標準化ファク ターとして使用され、その結果得られた標準化された振幅が量子化される。 代案としては、ピッチセグメントのRMS値が計算され、該RMS値は量子化 されると共に、選択されたマグニチュードの標準化因数として使用され、その結 果得られた標準化された振幅が量子化される。 受信機において、選択されたマグニチュードが回復され、他のグニチュード値 の各々は一定値として再生される。 一般に、音声を再生するためにピッチと関連する合成式を使用する補間符号化 システムは、可変の長さで、ピッチがスペクトル振幅ベクトルに依存する符号化 の問題に直面する。相対的により重要度が大きいマグニチュードのみを量子化す る上記した量子化方法は、固定された数値のマグニチュード値のみを量子化し、 残りのマグニチュード値を一定値に設定するとにより、この問題を回避すること ができる。従って、受信機では固定された長さのベクトルが再生される。上記問 題に対するこのような解決は、再生音声の高い質の提供が限定される比較的スペ クトルが平坦な励起モデルとなる。 理想の世界では、マグニチュードスペクトルの全波形を量子化することにより 出力音声特性が最大化され、全マグニチュードスペクトルを符号化するための種 々の試みが提案されている。一つの試みでは、スペクトルは、DFT変換され、 連続するスペクトルに渡って区別をつけて符号化される。この方法及びこれと同 様の方法は、幾分非効率的であるが、非常に高いビット速度で作動する。ベクト ル量子化を導入したことにより、一般に2.4Kbit/sec程度の低速で作動する シヌソイドで試作品の補間システムが発展した。 固定サイズの符号ベクトルにより可変サイズの入力ベクトルを量子化する2つ のベクトル量子化方法が報告されている。第1の試みでは、入力ベクトルは固定 サイズベクトルに変換され、この固定サイズベクトルは通常のベクトル量子化が なされる。量子化された固定サイズのベクトルの逆変換により、再生された量子 化ベクトルが生じる。使用される変換法には、線形補間、帯域制限補間、全極モ デリング及び非二乗変換が含まれる。しかしながら、この試みは、ベクトル量子 化ノイズと変換プロセスで生成される要素の合計である全体的な分布を生み出す 。第2の既知の試みでは、可変入力ベクトルは固定サイズ符号ベクトルにより直 接量子化される。この試みは、コードブックベクトルと入力ベクトルの間の分布 を計測するために、各コードブックベクトルから限定された数の要素のみを選択 することに基づく。このような量子化の試みは、上記した他の方法の変換歪み( transformation distortion)を回避し、ベクトル量子化ノイズと等しい全歪み (overall distortion)となるが、この全歪みは有意である。 本発明の目的は、改良された可変サイズベクトル量子化方法を提供することで ある。 本発明の第5の態様によれば、音声信号を再構成するために受信機に送信され る係数の可変サイズの入力ベクトルが、固定サイズのベクトルにより決定される コードブックを使用してベクトル量子化され、 該固定サイズのコードブックのベクトルは可変サイズのトレーニング・ベクト ルとコードブック生成プロセスの必須部分(integral part)である補間法とか ら得られ、 コードブックベクトルは補間法を使用して可変サイズの入力ベクトルと比較さ れ、 該比較から最小差を有するコードブックエントリー(codebook entry)と関連 するインデックスが伝送され、 該インデックスは、受信機で他のコードブックをアドレスし、関連する固定サ イズのコードブックベクトルを導出するのに使用され、 上記補間プロセスは導出された固定サイズのコードブックベクトルから可変サ イズの入力ベクトルの近似値を再生するのに使用されることを特徴とする音声合 成システムが提供される。 本発明は、特に、この明細書で説明するタイプのピッチ同期低ビット率コーダ ーに適用可能であり、等しい間隔で隔てられた比較的少数のサンプルにより表さ れるマグニチュードスペクトルの波形が表される、そのようなコーダーの基礎原 理を利用する。 好ましくは、補間プロセスは線形である。与えられた大きさの入力ベクトルに 対しては、補間プロセは上記コードブックベクトルから与えられた大きさの一組 のベクトルを生成するために適用される。歪みメジャー(distortion measure) が引き出されて、補間されたベクトルの組と入力ベクトルとが比較され、コード ブックベクトルは最小歪みもたらすように選択される。 好ましくは、入力ベクトルの大きさは、入力周波数帯域幅の範囲内、例えば0 から3.4KHzの高調波振幅のみを考慮して縮小される。好ましくは、残余の 振幅、すなわち、3.4KHzから4KHzの範囲の振幅は、一定値に設定され る。好ましくは、一定置は量子化された振幅の平均値と等しい。 隣接する残留フレームから得られる振幅ベクトルは、著しい量の冗長性(redu ndancy)を表し、後方予測(backward prediction)により除去されることがで きる。後方予測は、一つのフレームの各高調波の振幅値は、前の単数又は 複数のフレームにおける同じ高調波の振幅値から予測されるというような高調波 の基礎に基づいて、実行される。固定線形照準算定装置(fixed linear predict or)が、エラーマグニチュードベクトルの結果に基づいて作動する平均除去及び ゲイン波形量子化プロセスとともに、システムに組み込まれる。 上記した可変サイズベクトル法は有利な特徴を有し、特に、2.4Kbit/ secで良好な知覚信号特性(perceived signal quality)を有するが、ある環境 下では多少特性を損なっても低ビット速度が強く望まれる。これは、例えば、残 留域(residual domain)におけるピッチセグメントのマグニチュードスペクト ルはほぼ平坦な波形を有するという仮定に基づく、単一値での表現及び量子化方 法により可能である。残念ながら、この仮定に基づくシステムは、複号された音 声の質が多少不充分である。 本発明の目的は、低ビット率システムにおける上記した制限を克服することで ある。 本発明の第6の態様によれば、音声信号が一連のフレームに分割され、 各音声フレームは、予測されるピッチ周期と、その継続時間が該予測されるピ ッチ周期の関数である音声セグメントのエネルギーの推定と、LPCスペクトル 包絡線を規定するLPCフィルタ係数とを含む符号信号に変換され、 入力音声信号の強さに関連する強さの音声信号が、上記ピッチ周期で規定され る高調波周波数でサンプリングされる修正LPCスペクトル包絡線から規定され るスペクトル振幅を使用する励起信号を生成することにより、再構成される、音 声合成システムが提供される。 従って、励起信号のスペクトル包絡線を表すために単一値が使用されるが、励 起スペクトル包絡線はLPCスペクトル包絡線に従って形成される。その結果、 1.5Kbit/secで高質音声を供給可能なシステムとなる。本発明は、LP C逆フィルタリングは完全に平坦なマグニチュードスペクトルの残留信号を生成 することはできないため、音声スペクトル共振及び非共振情報も残留マグニチュ ードスペクトル中に存在するという観察に基づくものである。この結果、LPC 残留信号はそれ自体高い明瞭度(intelligible)を有する。 マグニチュード値は、ピッチ周期に関連する高周波位置における修正LPC合 成フィルタ特性を個別にサンプリングすることにより得られてもよい。修正LP C合成フィルタは、低減されたフィードバックゲインと、その位置がLPC合成 共振位置と近接する等しい共振ピークを備える周波数応答とを有していてもよい 。フィードバックゲインの値は、LPCモデルの性能により、それが標準化され たLPCの予測誤差に関連するように、制御されてもよい。再生された音声信号 のエネルギーは原音声波形のエネルギーと等しくてもよい。 補間符号化音声合成システムの試作品には、残留励起信号中にフレームが隣接 する試作品との間に実質的な類似点が多くあることが周知である。この試作品は 、時間に対する音声信号の円滑な進展を保証することにより知覚音声信号特性を 改良する種々のシステムで使用されている。 本発明の目的は励起及び音声トラクトエネルギ(vocal tract dynamics)が実 質的に保存される改良された音声合成システムを提供することである。 本発明の第7の態様によれば、音声信号が一連のフレームに分割され、 各音声フレームは、LPCフィルタ係数を含む符号信号と、ピッチセグメント マグニチュードに関連する少なくとも一つのパラメータとを含む符号化された信 号に変換され、 音声信号は、各フレーム毎に2個の励起信号を生成することにより再構成され 、 各励起信号の対は、一つのフレームのピッチセグメントマグニチュードパラメ ータに基づいて生成される第1の励起信号と、上記一つのフレームに後続し、か つ隣接する第2のフレームのピッチセグメントマグニチュードパラメータに基づ いて生成される第2の励起信号とを備え、 上記第1の励起信号を、その特性が上記一つのフレームのLPCフィルタ係数 により決定される第1のLPCフィルタに適用し、 上記第2の励起信号をその特性が上記第2のフレームのLPCフィルタ係数に より決定れさる第2のLPCフィルタに適用し、 上記第1及び第2のLPCフィルタの出力を重み付け及び組み合わせて、一つ の合成された音声信号のフレームを生成することを特徴とする音声合成システム が提供される。 好ましくは、第1及び第2の励起信号は、上記二重合成プロセスに含まれる二 つのLPCフィルタと同一の位相関数を備え、異なる位相分担(phase contribu tion)を備える。これにより再生信号におけるピッチ周期性の程度が低減される 。これ及び第1及び第2のLPCフィルタの組み合わせにより、各サンプル毎に 音声スペクトルの一包絡線が非常に円滑になる。 好ましくは、第1及び第2のLPCフィルタは、第1のフィルタの出力のマグ ニチュードが時間と共に減少し、第2のフィルタの出力のマグニチュード時間と 共に増加するような窓関数(window function)の半周期により重み付けされて もよい。 本発明の第8の態様によれば、フレーム毎に作動し、 各フレームを有声音又は無声音として表し、各有声音フレームについてはその フレームをピッチ周期値、量子化マグニチュードスペクトル情報及びLPCフィ ルタ係数により表す情報が送信され、 受信されたピッチ周期値及びマグニチュードスペクトル情報は受信機で残留信 号を生成するのに使用され、 該残留信号は、その特性が送信されるフィルタ係数により決定されるLPC音 声合成フィルタに適用される音声符号化システムであって、 各残留信号は、シヌソイド混合励起合成プロセスに従って合成され、 再生された音声信号は残留信号から導出される、音声符号化システムが提供さ れる。 以下、本発明の実施例を次の添付図面を参照して例示により説明する。 図1は、本発明の符号化プロセスの一般的なブロック図である。 図2は、符号化とマトリックス量子化フレーム間の関係を図示する。 図3は、復号プロセスの一般的なブロック図である。 図4は、励起合成プロセスのブロック図である。 図5は、オーバラップおよび加算プロセスの概略図である。 図6は、瞬時スケーリングファクターの計算の概略図である。 図7は、全有声/無声分類、およびピッチ推定プロセスのブロック図である。 図8は、ピッチ推定プロセスのブロック図である。 図9は、クロス相関関数値の計算に関与する2つの音声セグメントの概略図で ある。 図10は、クロス相関関数値の計算に用いられる音声セグメントの概略図である 。 図11は、異なる遅延に対するクロス相関関数値の計算に用いられるパラメータ に割り当てられる値を表す。 図12は、クロス相関関数の計算とそのピークの選択用に用いられるプロセスの ブロック図である。 図13は、ピッチ推定アルゴリズムのフローチャートである。 図14は、ピッチ推定プロセスに用いられる過程のフローチャートである。 図15は、ピッチ推定プロセスに用いられる別の過程のフローチャートである。 図16は、ピッチ推定プロセスに用いられる別の過程のフローチャートである。 図17は、閾値選択過程のフローチャートである。 図18は、有声/無声分類プロセスのフローチャートである。 図19は、ピッチ推定プロセス間に発生させられるパラメータに関する有声/無 声分類プロセスの概略図である。 図20は、オフセット値を決定するために用いられる過程のフローチャートであ る。 図21は、ピッチ推定アルゴリズムのフローチャートである。 図22は、ピッチ値の時間に対する円滑な展開を確実にするように出力ピッチ推 定に拘束を課するために用いられる過程のフローチャートである。 図23、24、および25は、ピッチ後処理過程のフローチャートの異なる部分を表 す。 図26は、LPC分析とLPC量子化プロセスの一般的なブロック図である。 図27は、強あるいは弱有声分類プロセスの一般的なフローチャートである。 図28は、強/弱有声分類プロセスに影響する過程のフローチャートである。 図29は、特別な音声有声から得られる音声波形を表す。 図30は、図29の音声有声から得られる周波数トラックを表す。 図31は、図30の一部をより大きいスケールで示し、強あるいは弱有声分類間の 差を表す。 図32は、特別な音声セグメントのマグニチュードスペクトルと、対応するLPC スペクトル包絡線と、対応する残留セグメントの基準化短期マグニチュードスペ クトル、2進励起モデルを使用して得られた励起セグメント、および強/弱有声 モデルを用いて得られた励起セグメントを示す。 図33は、マグニチュード情報を表し、量子化するシステムの一般的なブロック 図である。 図34は、図33に示された適応量子化器のブロック図である。 図35は、量子化プロセスの一般的なブロック図である。 図36は、差分可変サイズスペクトルベクトル量子化器の一般的なブロック図で ある。 図37は、平均ゲイン形状量子化器の階層的構造を表す。 以下、本発明によるシステムを、最初は一般的に、次いでより詳細に述べる。 本システムは、フレーム毎に、LPC残留信号(residual signal)に基づいて動作 する。 音声は次の一般式を用いて合成される。 ここで、iはサンプリング瞬時(sampling instant)であり、Ak(i)はiの関数 音声では、Kは信号のピッチ周波数(pitch frequency)に依存する。 有声/無声分類プロセスは、有声と無声フレームの符号化を異なる方法で取り 扱うようにする。無声フレームはRMS値とランダム時間級数(random time serie s)とでモデル化される。有声フレームでは、ピッチ周期推定値(pitch period estimate)が得られ、該ピッチ周期推定値は、フレームの中央に中心があるピ ッチセグメント(pitch segment)を規定するために用いられる。隣接フレーム からのピッチセグメントはDFT変換(DFT transform)され、結果ピッチセグメン ト振幅情報(resulting pitch segment magnitude information)のみが符号化 され、送信される。更に、ピッチセグメント振幅サンプルは、強有声音、あるい は弱有声音として分類される。このように、有声/無声情報に加えて、システム はすべての有声フレームの間、ピッチ周期値、ピッチセグメントのマグニチュー ドスペクトル情報、ピッチマグニチュードスペクトル値の強/弱有声分類、およ びLPC係数を送信する。このように、すべての有声フレームの間に送信された情 報は、有声/無声情報に加えて、ピッチ周期値、ピッチセグメントのマグニチュ ードスペクトル情報、およびLPC係数である。 受信機では、補間法を含む合成プロセスが、現在の(n+1)番と前のn番フレーム のそれぞれの中央点間の波形を復元するために用いられる。残留信号に対する基 礎合成式は、 である。 形補間された瞬時高調波周波数(instantaneous harmonic frequencies)ω 無声から有声への変化において、各高調波の初期相はゼロに設定される。相連 続性(phase continuity)は、連続する補間間隔(successive interpolation i ntervals)の境界線を横切って保たれる。 しかしながら、合成プロセスは2回行われる。1回目は、現在の(n+1)番フレ ームから得られたピッチセグメントのマグニチュードスペクトル値MGj n+1を用い て行われ、2回目は、前のn番フレームで得られたピッチセグメントのマグニチ ュード値MGj nを用いて行われる。各ケースにおける相関数phasej(i)は同一値の ままである。結果残留信号(resulting residual signal)Resn(i)、およびResn +1 (i)は、n番、および(n+1)番音声フレーム用に計算された、対応するLPC合成フ ィルタへの入力に用いられる。次に、二つのLPG合成音声波形は、復元音声信号 (recovered speech Signal)を生成するために、Wn+1(i)、およびWn(i)によっ てウェート付けされる。 このようにして、連続する有声フレームに対する全合成プロセスは、下式で説 明される。 ここで、Hn(ωj n(i))は、i番瞬時におけるωj n(i)高調波周波数関数で計算さ れ の対応する相応答である。ωj n(i)、およびphasej n(i)は、iがn番フレームセグ メントの中央から(n+1)番フレームの中央をカバーするサンプリング瞬時iに対し て規定される周波数と相関数である。Kはωj n(i)≦πであるjの最大値である。 上記音声合成プロセスは、二つの「相分散(phase dispersion)」項、す (overlap-add process)が後に続くこの「二重合成(double synthesis)」 配置(arrangement)は、サンプル毎の音声スペクトル包絡線(speech spectral envelope)(LPC)の効果的かつ円滑な展開(evolution)を確実にする。 LPC励起信号(excitation signal)は、周波数帯域基準での有声フレーム中 の周期的、およびランダムな励起成分の適切な混合を考慮した「混合」励起モデ ルに基づいている。これは、残留信号の振幅スペクトルが調べられるようにシス テムを操作し、ωj共振周波数付近でピークピッキングプロセス(peak−picking process)を適用して、起こり得る優勢スペクトルピーク(possible dominant spectral peaks)を検出することにより、達成される。周波数ωjに関係するピ ークは、その高調波に対する高度の有声音(hvj=1で表わされる)を示す。一方 、近傍にスペクトルピークがない時は、ある程度のランダムさ(hvj=0で表わさ れる)を示す。hvj=1である時(「強」有声音を示す)、合成プロセスに対するj 番 2に)低減され、ランダム余弦項がj番高調波ωjに対称的に追加される。以下「 強」、および「弱」という用語は、この意味で用いられる。これらランダム項の 数NRSは、 である。分はωjに対して対称的に50Hzの間隔で離隔され、ωjは50Hz間隔の中央に置かれ 相はピッチ周期間隔で[-π,+π]領域からランダムに選択される。 hvj情報は受信機で利用できるように送信されなければならなず、hvjに割り 当てられたビットを低減するために、入力信号の帯域幅は複数の固定したサイズ の帯域BDkに分割され、「強」あるいは「弱」有声音フラッグBhvkは各帯域に割 り当てられる。「強」有声音帯域(“strongly”voiced band)では高度に周期 的な信号が再生される。「弱」有声音帯域(“weakly”voiced band)では周期 的、および非周期的な両成分を結合した信号が要求される。これらの帯域は、 各周波数帯域内に含まれる高調波ωjのhvj分類値に多数決ルール的アプローチ( majority decision rule approach)を用いて「強」有声音帯域(Bhvk=1)あるい は「弱」有声音帯域(Bhvk=0)として分類される。 帯域の分類から結果として得られる強/弱有声音プロフィールに、更なる制限 を課すことができる。例えば、最初のλ帯域は常に強有声音、すなわちλは変数 としてk=1,2,....,λでBDkに対してhvj=1である。残りのスペクトル帯域は、強 あるいは弱有声音である。 図1は、システムエンコーダによって操作されるプロセスを図式的に示してい る。これらのプロセスは、図1でプロセスIからVIIとして参照されており、これ らの用語はこの明細書を通して用いられる。図2は、採用された分析/符号化フ レームサイズ間の関係を表している。これらは、符号化フレーム当たりMサンプ ル、例えばフレーム当たり160サンプルであり、例えばk=4のkフレームがブロッ クで分析される。このブロックサイズは、マトリックスの量子化に用いられる。 音声信号が入力され、プロセスI、III、IV、VI、およびVIIが送信用出力を作り 出す。 K×Mサンプルの最初のマトリックス量子化分析フレーム(MQA)が利用可能であ ると仮定すると、MQA内の各k符号化フレームは、プロセスIを用いて有声あるい は無声(Vn)として分類される。プロセスIのピッチ推定部は符号化フレーム が有声の時のみピッチ周期値Pn供する。 プロセスIIは、入力音声サンプルについてパラレルに動作し、Lサンプル(Lは Mの倍数すなわちL=m×Mであり、mは例えば2に等しい)毎にp(例えばp=10)のLP Cフィルタ係数αを推定する。更に、k/mは整数であり、プロセスIIIで採用され るマトリックス量子化装置(matrix quantizer)のフレーム寸法を表す。このよ うにして、LPCフィルタ係数はプロセスIIIを用いて量子化され送信される。量 入力符号化フレームが無声の時、このフレームのために得られた残留のエネル ギーEnが計算される(プロセスVII)。√Enは量子化され、送信される。 n番符号化フレームが有声と分類された時、Pn残留サンプルのセグメントが得 られる(Pnはn番フレームに関係するピッチ周期値である)。このセグメントは 、 DFT変換される(プロセスV)。相情報は無視される。マグニチュード情報は( プロセスVIを用いて)符号化され、送信される。更に、n番符号化フレームの中 央に中心がある20ミリ秒のセグメントは、残留信号Rn(i)から得られる。これは 、高調波ωj nの強/弱有声音分類パラメータhvj nを提供するために、Pnと共にプ ロセスIVに入力される。プロセスIVは量子化されたBhv情報を生成し、該Bhv情報 は、有声フレームに対して多重化され、有声/無声決定Vn、ピッチ周期Pn、対 機に送信される。無声フレームでは、√En量子化値、および量子化LPCフィルタ 図3は、システムエンコーダによって操作されるプロセスを図式的に示してい る。一般項で、n番符号化フレームの受信したパラメータと先行する(n-1)番符号 化フレームのそれらを与えると、、デコーダは(n-1)番フレームの中央からn番フ レームの中央に広がる音声信号Sn(i)を合成する。この合成プロセスは、2個の 励起信号Resn(i)、およびReSn-1(i)を並行して発生することを含み、それれらは 2個の独立したLPC合成フィルタ1/An(z)、および1/An-1(z)を駆動するために用 いら タの出力Xn(i)、およびXn-1(i)はウェイト付けされ、加算されて、音声セグメン トを提供し、該音声セグメントは後でポストフィルタ(post filter)されて、 復元音声(recovered speech)Sn(i)を生成する。図3の両経路に用いられる励起 合成プロセスは、図4により詳細に示されている。 プロセスは、有声/無声状態Vkを考慮することにより始まり、ここでkはnある いはn-1に等しい(図4参照)。フレームが無声、すなわちVk=0の時、平均ゼロと 偏差1のガウス乱数発生器RG(0,1)は時間級数を与え、該時間級数は次いでこの フレームのために受けた√Ek直でスケール(scale)される。これは、効果的に 要求された 信号であり、対応するLPC合成フィルタ1/Ak(z),k=nあるいはn-1に与えられる。 もし√Ek値が5ミリ秒毎に計算され、量子化され、送信されるならば、性能は増 加するであろう。このようにして、もし無声音声を符号化する時、ビットが利用 可能ならば、として、4つの√Ek ξ,ξ=0,...,3値は20ミリ秒間(160サンプル) の無声フレーム毎に送信される。 Vk=1である場合、Resk(i)励起信号は「高調波」Resk h(i)成分、および「ラン ダム」Resk r(i)成分の和として規定される。混合励起モデルの高調波成分を提供 する図4の合成のVk=1部分の上部経路は、常に、n番と(n-1)番フレームの中央点 間に規定される補間間隔に関連する瞬時高調波周波数関数ωj n(i)を計算する( すなわち、この動作はkの値に無関係である)。このようにして、n番フレームを 復号する時、ωj n(i)はピッチ周波数fj l,n、fj 2,n、および線形補間を用いて計 算される、すなわち、 周波数fj l,n、およびfj 2,nは次のように規定される。 I)n番、および(n-1)番の両符号化フレームが有声、すなわちVn=1、およびVn-1= 1の時、ピッチ周波数は次のように推定される。 a)もし、 であり、n番、および(n-1)番の符号化フレームのピッチ値がむしろ類似であるこ とを意味していれば、 hvj nは、j番高調波ωj nの強/弱有声音分類(0,あるいは1)である。Pn、およびPn -1 は、n、およびn-1フレームから受けたピッチ推定である。RU(-a,+a)は、-aか ら+aの範囲(a=0.00375)内の均一なpdfを有するた乱数発生器の出力を示す。 b)もし、 であれば、 および ここで、bは次のように規定される。 顕著に異なるPn、およびn-1ピッチ推定を与えるケース(b)において、式11、およ び12は、ωj n(i)関数の変化割合が以下に限定されることを確実にする点に注意 すること。 II)2個の符号化フレーム(すなわちn,n-1)の1個が無声である時、以下の二 つの定義の一つが適用可能である。 a)Vn-1=0、およびVn=1に対して、 および、fj l,nは式(8)で与えられる。 b)Vn-1=1、およびVn=0に対して、 fj 2,nは先行の(n-1)番符号化フレームの復号化プロセスの間に計算されるfj l,n- 1 値に設定され、fj l,n=fj 2,nである。 ωj n(i)が与えられた時、瞬時関数phasej n(i)は次式で計算される。更に、残留信号の「高調波」成分Resk h(i)は次式で与えられる。 化フレームのマグニチュード値である。 図4のVk=1ケースの第2経路は、ランダム励起成分Resk r(i)を提供する。特に 、復元された強/弱有声音分類値hvj kが与えられた時、システムはhvj k=0を有す るこれらの高調波に対して、対応する高調波をランダム化するために用いられる ランダム正弦NRS成分の数を計算する。これは、 であり。ここで、fsはサンプリング周波数である。NRSランダム正弦成分は対応 する高調波ωj kについて対称的に置かれ、それらは50Hz離れて離隔している、と いうことに注意すること。 j番目の高調波ωj k,q=0,1,...,NRS-1対するq番目のランダム成分の瞬時周波 数は、下式で計算される。 関連する相値は、 ここで、ψj,q=RU(π,-π)である。更に、Phj,q k(i)関数は、ピッチ間隔でラン ダム化される(すなわち、基本波高調波成分の相が2πの倍数である時、すなわ ちmod(phase1 n(i),2π)=0である時)。 Phj,q k(i)が与えられた時、ランダム励起成分Reskr(i)は次式で計算される。 このようにして、Vk=1の有声符号化フレームに対して、混合励起残留は以下の ように形成される。 Vk=0の時、式5を使用する代わりに、ランダム励起信号Resk(i)が、50Hz離れて置 かれたランダム余弦の合計により発生させられ得る。ここで、それらの相はλサ ンプル毎にランダム化され、λ<M、すなわち ζは、余弦項の相がλサンプル毎にフレーム境界線を横切ってランダム化される ことを確実にするために規定される。図4を参照して、結果するResn(i)、および Resn-1(i)励起シーケンスが、対応する1/An(z)、および1/An-1(z)合成フィルタ によって処理される。次の(n+1)番フレームを符号化する時、1/An-1(z)は1/An(z )となり(メモリを含んで)、1/An(z)は1/An(z)のメモリを有するた1/An+1(z)と な る。このことは、1/An+1(z)フィルタのメモリがゼロに設定される無声から有声 への遷移期間を除いて、全ての場合に有効である。1/An(z)、および1/An-1(z)合 成フィルタの係数は、LPC分析フレームサイズLがMサンプルに等しい時、n番、お よび(n-1)番符号化音声フレームからそれぞれ直接計算される。しかしながら、L ≠M(通常L>M)線形補間は、合成フィルタの変換関数がMサンプル毎に更新され るように、フィルタ係数(Lサンプル毎に規定される)で用いられる。 Xn-1(i)、およびXn(i)で示されるこれらのフィルタの出力信号は、図5に図式的 に示されるように、ウェイト付けされ、オーバラップされ、そして加算されて、 ここで、 およびタされ、音声セグメントS'n(i)を生成する。PF(z)は、従来型のポストフィルタ である: ここで、b=0.5,c=0.8、およびμ=0.5Kl nである。Kl nはn番符号化フレームの第1 反射係数である。HP(z)は以下のように規定される。 ここで、bl=cl=0.9807、およびal=0.961481である。 を確実にするために、スケーリングファクター(scaling factor)SCがLサンプ ルのLPCフレーム毎に計算される。 SC1は、図6に図示されるように、1番LPCフレームの中央に関連している。(l-1 )番フレームの中央から1番フレームの中央へのフィルタされたサンプルは、シ ステムの最終出力を生成するためにSCl(i)によって乗ぜられる。すなわち、 Sl(i)=SCl(i)×S'l(i)、ここで、スケーリングプロセスは、符号化-復号化プロセスに特別な半LPCフレーム遅延を 導入する。 上記のエネルギースケーリングプロセスは、復号化、およびMサンプルのフレ ームを基準に動作するPF(z)、HP(z)フィルタ過程の両方とは対照的に、LPCフレ ーム基準で動作する。 図1に示した符号化プロセスの詳細について説明する。 プロセスIは、n番入力符号化フレーム用の有声/無声(V/UV)分類Vnを引き出し 、 このフレームの中央サンプルMnにピッチ推定Pnを割り当てる。このプロセスは、 図7に図示されている。 V/UV、およびピッチ推定分析フレームは、両側に237サンプルを備えた(n+1)番 符号化フレームの中央Mn+1に中心がある。上記分析フレームの信号x(i)は、カッ トオフ周波数fc=1.45KHzで低域濾波され、その結果として生じるMn+1に中心があ る(-147,147)サンプルは、推定P-Mn+1を生成するピッチ推定アルゴリズムで用い られる。ピッチ推定アルゴリズムは、図8に図示され、ここでPはピッチ推定プロ セスの出力を表す。294の入力サンプルは、クロス相関関数(crosscorrelation function)CR(d)を計算するために用いられ、ここでdは図9に示してあり、20≦d ≦147である。図9は、「d」遅延におけるクロス相関関数の計算に関与する2個 の音声セグメントを示す。特に、与えられたdに対して、クロス相関関数ρd(j) はセグメント{xJd,{xRdに対して次ぎのように計算される。図10は、値CR(d)の計算に使用されるML d、およびXR d音声セグメントを図式的に れ{xLd、および{xLdシーケンスの平均値を表す。 それから、アルゴリズムは、max[ρd(j)]を選択し、 CR(d)に加えて、その詳細図が図12に示されている「CR関数の演算とそのピー クの選択」と表示された図8のボックスもまた、CR(d)関数のピークの位置loc(k) を提供する。ここで、k=1,2,...,Npであり、NpはCR(d)関数のピークの数である 。 図12は、CR関数の演算とそのピークの選択を含むプロセスのブロック図である 。図示するように、CR(d)が与えられると、閾値th(d)は次のように決定される。 ここで 定数a、およびbは次のように規定される。dmax n+1は、CR(d)がCRMn+1 maxまで最大にされるdの値に等しい。この閾値を用い て、 CR(d)関数は、CRL(d)にクリップ(clip)される、すなわち、 CRL(d)=0 CR(d)≦th(d)に対して CRL(d)=CR(d) その他 CRL(d)は、ゼロ値のGO行程(run)によって分離された、正値のセグメントGss=1 ,2,3...,を含む。アルゴリズムは連続するGsセグメント(すなわち、Gs、および Gs+1)間に存在するGO行程の長さを検査し、GO<17の時、最大CRL(d)値を有す ークピッキング(peak picking)」過程により検査される。特に、それらの CRL(d)>CRL(d−1)およびCRL(d)>CRL(d+1) となるように、選択される。 しかしながら、もし次の条件があれば、あるピーク値は拒絶される。 k=1,...,Npで与えられる。 CR(d)とloc(k)は、図8に示した下記の改良高解像度ピッチ推定アルゴリズム (MHRPE)への入力として用いられ、その出力はPMn+1である。このMHRPE過程のフ ローチャートは図13に示され、ここでPは0で初期化されており、最後に推定され たPは要求されたPMn+1である。図13において、主なピッチ推定過程は、以下に規 定する最小二乗誤差(LSE)アルゴリズムに基づいている。 0.1xjの増分で21から147の範囲の可能な各ピッチ値j、すなわちj∈{21,23,25,2 7,30,33,36,40,44,48,53,58,64,70,77,84,92,101,111,122,134}に対して(この ように21反復が実施される)、 1)乗算係数ベクトル(multiplication factor vector) を形成し、 ならば、可能なピッチjを拒絶して(1)に戻り、 3)以下の誤差量を形成し、 ここで、 4)関連する誤差量Ejsが最小であるPjsを選択する。 次の二つの一般条件、「最高遅延を拒絶する」loc(Np)、および「最低遅延を 拒絶する」loc(l)は、「二重」あるいは「半分」値という誤ピッチを除去するた 、および一般にシステムのピッチ推定に拘束を設けるために含まれる。「最高遅 延を除去する」条件には三つの拘束(constraints)が含まれる. i)もしP=0ならば、loc(Np)を拒絶する。 ii)もしloc(Np)>100ならば、推定ピッチPの近傍(すなわち0.8×Pから1.2×P まで)でのCR(d)の局部最大CR(dlm)を見出し、これをCR(dlm)<th(dlm)-0.02で ある時、式28で拒絶loc(Np)と決定されたth(dlm)と比較する。 iii)もしLSEアルゴリズムの誤差Ejsが50よりも大きく、Np>2に対してujN(NP)= Npの時、loc(Np)を拒絶する。 このフローチャートは図14に示してある。 図15にそのフローチャートが示してある「最低の遅延を除去する」一般条件は 、次の三つの条件が同時に満足された時、loc(1)を拒絶する。 i)相関係数関数ピークの検出密度が0.75よりも少ないかあるいは等しい。すな わち、 ii)もし最初のピークが無視される場合(すなわちloc(1))、残りの位置が共通 係数を示す。 iii)ピークを失した位置の相関係数関数の値が、近傍の検出されたピークに比 較して比較的小さい。すなわち、 もしk=1,...Npに対してuPn k-uPn(k)>1の時、 i=uPn(k)+1:uPn(k+1)-1に対して、 a)(i-0.1)×loc(l)から(i+0.1)×loc(l)までの範囲の局部最大CR(dlm)を 見出す。 b)もしCR(dlm)<0.97×CR(uPn(k))ならば、拒絶最小遅延となり、終了。 他の場合は継続。 これにより、図7のピッチ推定過程が終了し、その出力はPMn+1である。しかし ながら、図7に示されるように、ピッチ推定と並行してプロセスIは、Mn+1符号 化フレームの中央に中心がある160のサンプルを得、それらの平均値を移動し、 そして前のK非無言符号化フレーム(non−silence coding frame)のエネルギー のR0、R1、および平均Ravを計算する。Kは、最初の50の非無言符号化フレームに 対して50に固定され、次の50非の無言符号化フレームで50から100に増加し、以 後100の値に一定に止まる。Rav、R0、R1を計算し、Ravバッファを更新する過程 のフローチャートが図16に示され、そこでは「カウント」は非無言音声フレーム の数を表し、「++」は1の増加を示す。THは無言(非音声)フレームの代表(re presentative)である適用閾値であり、図17に示すように規定される。CRは この場合、CRMn+1 maxに等しい。 R0、R1、Rav、およびCRMn+1 maxが与えられた時、プロセスIのV/UV部は、n+1 フレームの状態VMn+1を計算する。アルゴリズムのこの部分のフローチャートは 図18に示され、ここでは「V」は、この過程の出力V/UVフラグを表している。「V 」フラグを1あるいは0に設定することはそれぞれ有声あるいは無声分類を示す。 「CR」パラメータはピッチ推定プロセスで計算されるCR関数の最大値を示す。有 声/無声過程の図式の代表例が図19に示されている。 図7のb部分図に図示されるように、前のn番符号化フレームで動作するプロセ スIから作り出されるVMn+1値、PMn+1推定、およびV'nとP'n推定が与えられて、 更に二つの位置民Mn+1+d1、およびMn+1+d2が推定され、そして図7のb部分図に図 示されるように、フィルタされた音声サンプルの対応する[-147,147]セグメン トが得られる。これらの追加の二つの分析フレームは、図8の「ピッチ推定プロ セス」への入力として用いられ、PMn+1+d1、およびPMn+1+d2、を生成する。d1、 およびd2を計算する過程は図20のフローチャートに示されている。 図7のプロセスIの(a)部の最終ステップは、入力R0、R1、Rav、および を有する図8に示された前のV/UV分類過程を展開(evolve)して、予備値Vn+1 pr を生成する。 更に、多点ピッチ推定アルゴリズムは、PMn+1、PMn+1+d1、PMn+1+d2、Vn-1、Pn-1 V'n、P'nを受け入れて、予備ピッチ値Pn+1 prを提供する。この多点ピッチ推 定アルゴリズムのフローチャートは図21に示され、ここでP1、P2、およびPnはそ れぞれMn+1+d1、Mn+1+d2、およびMn+1点に関連するピッチ推定を表し、Pはプロ セスの出力ピッチ推定、すなわちPn+1を示す。 最後に、図7のプロセスIの部分図(b)は、ピッチパラメータの円滑な展開を確 実にするために、Vn+1 pr、およびPn+1 pr推定に拘束を課する。この部分のフロー チャートは図22に示してある。このプロセスのスタートでは、「V」、および「P 」は、拘束が与えられる前の有声フラッグ、およびピッチ推定値を表し(図7でVn+1 pr 、およびPn+1 pr)、一方プロセスの終りでは、「V」、および「P」は、拘 束が与えら れた後の有声フラグ、およびピッチ推定値を表す(V'n+1、およびP'n+1)。この セクションから作り出されたV'n+1、およびP'n+1は、Vn-1、V'n、Pn-1、およびP 'nと共に、次のピッチ後処置セクション(pitch past processing section)で 用いられ、n番符号化フレーム用に最終有声/無声、およびピッチ推定パラメー タVn、およびPnを生成する。このピッチ後処置ステージは、図23、24、および25 のフローチャートで規定され、図23の出力Aは図24の入力であり、図24の出力Bは 図25の入力である。この過程のスタートでは、「Pn」、および「Vn」はそれぞれ ピッチ推定と有声フラグを表し、それらは後処理(すなわちP'n、V'n)に先立つ n番符号化フレームに対応し、一方この過程の終りでは、「Pn」、および「Vn」 はn番フレームに関連する最終ピッチ推定と有声フラグを表す(すなわちPn、Vn )。 LPC分析プロセス(図1のプロセスII)は、自動相関法(Autocorrelation)、 安定化共分散法(Stabilised Covariance)あるいは格子法(Lattice)を用いて 行なわれる。Burgアルゴリズムが用いられたが、単純な自動相関は復号音声品質 に顕著な効果なしに採用されることができる。LPC係数はそれからLSP表現に変換 される。係数の数の代表的な値は10から12であり、10番のフィルタが用いられ る。LPC分析プロセスは、良く知られており、文献、例えば、L.R.Rabiner、R.W. Schafer共著「音声信号のディジタル処理」,Prentice-Hall Inc.,Englewood C liffs,NewJersey,1978に記載されている。同様にLSP表現も例えば、F.Soong、 B.H.Juang著「線スペクトル対および音声データ圧縮」Proc.ICASSP-84,ppl.10 .1-1.10.4,1984から良く知られている。従って、これらのプロセス、および表 現はここでは記載しない。 プロセスIIにおいて、10個のLSP係数がデータを表すのに用いられる。こ れら10個の係数は次のビット配置パターン(bit allocation pattern)[3,4,4, 4,4,4,4,4,3,3]を有するスカラー37ビットを用いて量子化される。これは比較 的単純なプロセスであるが、その結果得られる1850ビット/秒のビット率は不必 要に高い。代わりに、LSP係数は、スプリット(Split)-VQ技術を用いてベクト ル量子化(vector Quantise)(VQ)される。スプリット-VQ技術において、大きさ 「p」のLSPパラメータベクトルは、2つ以上のより小さい大きさのサブベクトル に分割され、各サブベクトルは個別にベクトル量子化される(サブベ クトルをベクトル量子化する時、直接VQ解法(direct VQ approach)が用いられ る)。実際、連続する「p」個の係数(c1,c2,...,cp)より成るLSP変換係数ベク トルCは、対応する大きさdk(1≦dk≦p),p=d1+d2+...+dk を有する「K」のベクトルCk(1≦k≦K)に分割される。特に「K」が「p」に設定さ れる時(すなわちCが「p」の要素に区分される時)、スプリット-VQはスカラー 量子化と等価になる。一方、Kが1(K=1、dk=p)に設定される時、スプリット-V Qは全検索(Full Search)VQと等価になる。 上記スプリットVQ解法は、1.3から1.4Kビット/秒のオーダーのLPCフィルタビ ット率に導く。更にこの明細書に記載される音声符号化システムのビット率を最 小化するために、スプリットマトリックスVQ(SMQ)がマンチェスター大学で開発 され、C.XydeasおよびC.Papanastasiouの「スプリットマトリックス量子化を用 いたLSPパラメータの効率的符号化」,Proc ICASSP-95,pp740-743,1995に報告 されている。この方法は、900ビット/秒での平明な(transparent)LPC量子化 に結果し、与えられた量子化精度に対して,プロセスIIIに対する要求されるメ モリ/複雑さ特性(memory/complexity characteristics)を得る柔軟な方法を 提供する。SMQの重要な特徴は、新ウェイト付けユークリッド距離(new weighte d Euclidean distance)であり、次のように詳細に規定される。 ここで、L'k(1)はk番(k=1,...,K)量子化サブマトリックスを表し、LSP'N(k-1) +N l+t はその要素を表す。m(k)はk番サブマトリックスのスペクトルの大きさを表 し、NはSMQフレームの大きさである。また、以下のことに注意すること。 N LPCフレームが両有声、および無声フレームから成っている時、 wt(t)=En(t)α1であり、さなくば、 wt(t)=En(t)α1 ここで、Er(t)は(1+t)番フレームの予測誤差(prediction error)の正規化エ ネルギー(normalised energy)であり、En(t)は(1+t)番音声フレームのRMS値で あり、Aver(En)はSMQに用いられているNLPCフレームの平均RMS値である。定数α 、およびα1の値はそれぞれ0.2、および0.15に設定される。 また、 である。ここで、P(1k+x n+1)は1k+sLSPx(k-1)+s周波数での(1+t)音声フレームの パワー包括スペクトル(power envelope spectrum)の値である。βは0.15に等 しい。 を提供する逆プロセスを含む。α l+ii=0,...,N-1係数ベクトルは、LPCからLSPへ の変換に先立って、図26に示されるように10Hz帯域拡張(bandwidth expansion )で修正される。5Hz帯域拡張もまた逆量子化プロセスに含まれる。 図1のプロセスIVを説明する。このプロセスは、高調波の混合有声分類に関係 する。n番符号化フレームが有声と分類された時、n番符号化フレームの中央Mnに 中心がある長さ160のサンプルの残留信号Rn(i)、およびそのフレームに対するピ ッチ周期Pnは、j番高調波ωj nに関連する強有声音(hvj=l)/弱有声音(hvj=0 )分類を決定するのに用いられる。プロセスIVのフローチャートは図27に示して ある。160サンプルのR n配列(array)は、ハミングウィンドウ(Hamming window )がつけられ、増大されて、512の大きさの配列を形成する。それは次いでFFT処 理される。その結果得られる256スペクトルのマグニチュード値の最大、および 最小値MGRmax、およびMGRminが決定され、閾値THOが計算される。 THOはその後、マグニチュードスペクトルをクリップするのに用いられる。クリ ップされたMGR配列は、下式を満足するピークMGR(P)を規定するために探索され る。 MGR(P)〉MGR(P+1)and MGR(P)>MGR(P-1) MGR(P+1)、およびMGR(P-1)値により「支持された(supported)」各ピークM GR(P)に対して、2番の多項式(polynomial)が設定(fit)され、この曲線の最 大値が位置loc(MGR(P))でMGR(P)として受け入れられる。更に、拘束がこれらの マグニチュードのピークに課される。特に次の場合、ピークは拒絶される。 a)loc(MGR(P))近傍に(すなわちとしてloc(MGR(P))-fo/2から loc(MGR(P))+fo/2の範囲、ここでfoは基本周波数Hz)、その値がMGR(P)の80%よ りも大きいスペクトルピークがある場合、あるいは b)同じ範囲に、その値がMGR(P)よりも大きい何れかのスペクトルマグニチュー ドがある場合。 これら二つの拘束を適用した後、残留スペクトルピークは「優勢」ピークとして 特徴付けられる。このプロセスの残留部分の目的は、与えられた高調波j×ωO近 傍に「優勢」ピークがあるかどうかを検査することであり、そのケースでは高調 波は強有声音として分類され、hvj=1であり、その他ではhvj=0である。特に、二 つの閾値は次のように規定される。 THl=0.15×fo.TH2=(1.5/Pn)×fo ここで、fo=(1/Pn)×fsであり、fsはサンプリング周波数である。 差(loc(MGRd(k))-loc(MGRd(k-1)))は、1.5xfo+TH2と比較され、もし大きけれ ば、関係する高調波は「優勢」ピークとは関連せず、対応する分類hvはゼロ(弱 有声音)である。(loc(MGRd(k)))はk番「優勢」ピークの位置であり、k=1,...,D であり、ここでDは「優勢」ピークの数である。この過程は図28に詳述してあり 、そこでは、高調波インッデクスjは振幅スペクトルピークインデックスkに必ず しも対応しておらず、loc(k)はk番「優勢」ピークの位置である、すなわちloc(M GRd(k))=loc(K)であることに、注意すべきである。 hvj情報の送信に関連するビット率を最小にするために、二つの方式が採用さ れ、それらは大略hvを表している。 方式I スペクトルは500Hzの帯域に分割され、強有声/弱有声フラグBhvが各帯域に割 り当てられる。最初、および最後の500Hz帯域、すなわち0から500、および3500 から4000Hzはそれぞれ、常に強有声(Bhv=1)、および弱有声(Bhv=0)と見なされる 。Vn=1かつVn-1=1の時、500から1000Hz帯域は有声、すなわちBhv=1と分類される 。更に、Vn=1かつVn-1=0の時、、3000から3500Hz帯域は弱有声、すなわちBhv=0 と分類される。残りの5帯域のBhv値は、考慮している帯域内に入るj高調波のhvj 値に関して多数決ルールを用いて決定される。与えられた帯域の数が偶数でかつ 明確な多数が確立されない時、すなわちhvj=1を有する高調波の数がhvj=0を有す る高調波の数と等しい時、その帯域に対するBhv値は直前の帯域に割り当てられ た値と反対に設定される。復号プロセスでは、特定高調波jのhvjは対応する帯域 のBhv値に等しい。このようにして、hv情報は5ビットで送信される。 方式II このケースでは、680Hzから3400Hzまでの範囲が、僅か二つの可変サイズ帯域 で表される。Vn=1かつVn-1=0の時、これらの二つの帯域を分離するFc周波数は下 記の一つである。 (A)680,1360,2040,2720。 一方、Vn=1かつVn-1=1の時、Fcは下記周波数の一つである。 (B)1360,2040,2720,3400。 更に、0から680、および3400から4000Hz帯域は、それぞれBhv=1、およびBhv=0で 表される。Fc周波数は、(A)あるいは(B)の周波数によって連続して規定される三 つの帯域を検査することにより、および帯域内に入る高調波に再度多数決ルール を用いることにより選択される。混合有声分類Bhv=0を有する帯域が見出された 場合、すなわちhvj=0を有する高調波の数がhvj=1を有する高調波の数よりも大き い場合、Fcはこの帯域の低い境界に設定され、残りのスペクトル領域はBhv=0と 分類される。このケースでは、Fcを決定するために僅か2ビットが割り当てられ る。低位帯域はBhv=1を有する強有声音であり、一方高位帯域はBhv=0を有する弱 有声音である。 送信された情報から合成された音声についての混合音声分類の効果を図示する ために、図29、および30はそれぞれ、発声「Industrial shares were mostlya」 に対して得られた原音声波形と、その発声に対して得られた周波数トラック を表す。横軸は、各20ms周期のフレームでの時間を表す。図31は、図30の一部を 大きなスケールで示したもので、周波数トラックを、有声フレームが全て強有声 音(hv=1)と見なされた場合は実線で、hv=0の時にランダムな擾乱(perturbati ons)を導入するために強/弱有声音分類が考慮された時は点線で表す。 図32は、四つの波形A,B,C、およびDを示す。波形Aは、音声セグメントの振幅 スペクトルと、対応するLPCスペクトル包絡線(log10領域(domain))とを表す 。波形B,CおよびDは、対応する残りのセグメントの基準化された短期振幅スペク トル(Short-Term magnitude spectrum)(B)、2進(有声/無声)励起モデル (C)を使用して得られた励起セグメント(C)、および強有声/弱有声/無声ハ イブリッド励起モデルを用いて得られた励起セグメント(D)を表す。ハイブリ ッドモデルは、3π/4からπの範囲で要求される適当な量のランダム性を導入し 、これにより曲線Dが曲線Cよりもむしろ曲線Bにより近い近似になる、というこ とに注意すべきである。 図1のプロセスVについて説明する。一旦残留信号が引き出されると、Pnサン プルのセグメントが残留信号領域(domain)で得られる。励起情報を含むセグメ ントの振幅スペクトルは、Pn点DFTを適用して得られる。Pn点DFTの計算上の複雑 さを回避するための代わりの解法は、固定長FFT(128点)を適用し、線形補間を 用いて希望する点にマグニチュードスペクトルの値を見出すことである。 P点の実数値シーケンスx(i)に対して、DFTは次のように表される。 Pn点DFTは両側スペクトル(double-side spectrum)を生成する。このように して、励起信号を正弦信号の重畳(superposition)として表すために、全ての 非DC成分の振幅は係数2で乗ぜられなければならない。復元プロセス 等しい。 図1のプロセスVIを説明する。残留領域のピッチセグメントのPnサンプルに適 しながら、隣接有声フレーム間の相の連続性は保存される。その上、DCマグニ チュード成分の寄与は無視し得ると見なされ、このようにして、MGo nは0に設定 される。この方法で,非DCマグニチュードスペクトルが全ての知覚重要情報を 含むと考えられる。 ピッチ残留セグメント用の「ほぼ」平坦な形のマグニチュードスペクトルの仮 定に基づいて、各種の方法が全体のマグニチュードスペクトルを単一の値で表す ために用いられる。特に、修正された単一値スペクトル振幅表現法(MSVSAR)を説 明する。 MSVSARは、音声スペクトル共鳴と非共鳴情報の幾つかが残留マグニチュードス ペクトルに存在するという観察に基づいている(G.S.Kang、S.S.Everett共著の「 狭帯域線形予測ボコーダーにおける励起の改良」,IEEE Trans.Acoust.,Speec h and Signal Proc.,Vol.ASSP-33,pp.377-386,1985)。LPC逆フィルタは、主 に下記の理由により、完全に平坦なマグニチュードスペクトルの残留信号を作り 出すことはできない。a)共鳴ピークのマグニチュードが1/A(z)全極フィルタの 極位置に依存する、LPCフィルタ1/A(z)によるフォーマットの「カスケード表現 (cascade representation)」、およびb)LPC量子化雑音(quantisation noise )。結果として、LPC残留信号はそれ自身高度に理解し得る(intelligible)。 この観察に基づいて、MGj nのマグニチュードは、修正された プリングにより得られ、それは以下のように規定される。 よびGNは下記のように規定される。 および ここで、Ki n,i=1,...,pはn番符号化フレームの反射係数(reflection coeffici ent)であり、xn rm(i)はそこから平均値が計算され移動されるn番符号化 およびH(ωj n)はそれぞれωj n周波数におけるMP(z)、および1/A(z)フィルタの周 値が0.25に設定される定数を表す。 式32は、減少されたフィードバックゲイン(reduced feedback gain)を有す る修正されたLPC合成フィルタを規定し、その周波数応答は殆ど量子化された共 鳴ピークより成り、その位置はLPC合成共鳴位置に非常に近い。更に、フィード バックゲインGRの値は、LPCモデルの実行によって制御される(すなわちそれは 基準化されたLPC予測誤差に比例する)。加えて、式34は、再生音声信号のエネ ルギーが原音声波形のエネルギーと等しいことを保証する。丈夫さ(Robustness )は音声RMS値を2ピッチ周期に亙り計算することで増加する。 代案の二つのマグニチュードスペクトル表現法を以下に説明するが、それらは 、マグニチュード情報のより良い符号化を与え、再生音声品質の重要な改善に導 く。 代案のマグニチュードスペクトル表現法の第一は、以下の「Na振幅システム( Na amplitude system)」に参照される。このMGj n量子化システムの基本原理は 、Na最大音声短期(ST)スペクトル包絡値(Na largest speech Short Term spect ral envelope)に対応する,それらのMGj n値を正確に表すことである。特に、n 番符号化フレームのLPC係数が与えられると、STマグニチュードスペクトル包絡 値が高調波周波数ωj nにおいて計算され(すなわちサンプルされ)、最大Naスペ クトルサンプルの位置lc(j),j=1,...,Naが決定される。これらの位 り重要であるかを有効に示す。システムは、次いでMGjnj=1c(1),...,1c(Na)を選 択し、これらの値をベクトル量子化(Vector Quantize)する。もし、最小ピッ チ値が17であると、非DCMGj n振幅の数は8に等しく、この理由によりNa≦8で ある。「Na振幅システム」の二つの変形が等価な性能をもって開発され、それら のブロック図がそれぞれ図33(a)、および(b)に示されている。 i)平均基準化ファクター(Mean Normalization Factor)を有するNa振幅シス テム この変形では、n番符号化フレームの中央Mn付近に中心があるPn残留サンプルRn (i)のピッチセグメントが得られ、DFT変換される。スペクトルマグニチュードmは量子化され、Na選択振幅(Na selected amplitude)MGj n, j=lc(1),...,lc(Na)の基準化ファクターとして用いられる。その結果得られるNa 振幅はMGj nにベクトル量子化される。 ii) RMS基準化ファクターを有するNa振幅システム この変形では、n番符号化フレームの中央Mn付近に中心があるピッチセグメン トのRMS値が下式で計算される。 gは量子化され、としてNa選択振幅MGj n,j=1c(1),...,1c(Na)の基準化ファクタ ーとして用いられる。これらの基準化された振幅はMGj nにベクトル量子化される 。ピッチセグメントのマグニチュードスペクトルはNa選択高調波周波数ωj n,j= 1c(1),...,1c(Na)でのみ計算されるので、Pn点DFT操作は、このケースでは回避 されるということに、注意すべきである。 両ケースにおいて、MGj n値を基準化するために用いられるm、およびgファクタ ーの量子化は非線型特性を有する順応性μ法量子化器(adaptive μ-law quantiser)を用いて以下のように行われる。 g、またはmの量子化のこの配置は、符号器の動的範囲を25dBs以下ではない値に 拡張する。(ここでAは「m」あるいは「g」のいずれかである)に設定される。順応性μ法 量子化器のブッロク図は図34に示されている。 代案のマグニチュードスペクトル表現法の第二は、以下の「可変サイズスペク トルベクトル量子化(VS/SVQ)」システムに参照される。音声を復元するために式 (1)の一般合成式を採用する符号化システムは、可変長、ピッチ依存スペクトル 振幅ベクトルMG符号化する問題に出合う。図33に説明した「Na振幅」MGj n量子化 法は、スペクトル振幅の最小期待数をベクトル量子化すること、およびMGj nマグ ニチュードの残りを固定値に設定することにより、この問題を回避している。し かしながら、このような部分的にスペクトル上平坦な励起モデルは、高度の復元 音声品質を提供するには限界がある。このため、出力音声品質を改善するために は、全{MGj n}マグニチュードスペクトルの形状が量子化されなければならない 。{MGj n}を符号化するために、各種方法が提案されてきた。本来、ADPCMは特 定の符号化フレームに関連するMGj n値を横切って(across)使用されてきた。ま た{MGj n}はDCT変換され、連続するMGj nマグニチュードスペクトルを横切って 区別をつけて(differentially)符号化されてきた。しかしながら、これらの符 号化方式はどちらかといえば非効率的で比較的高ビット率で動作している。{MGj n }スペクトル振幅におけるベクトル量子化の導入は、2.4Kビット/秒前後で動 作する正弦的および基本型補間システム(Sinusoidal and Prototype Interpola tion system)の開発を与えた。二つの公知の{MGj n}vQ法を以下に説明するが 、それは可変のサイズの(vsn)入力ベクトルを固定サイズ(fxs)の符号ベクト ルで量子化する。 i)第一のVQ方法は、入力ベクトルの固定サイズベクトルへの変換とこれに続 く従来のベクトル量子化を含む。量子化された固定サイズベクトルへの逆変換は 復元量子MG nベクトルを生成する。使用されてきた変換法は、線形補間、帯域制 限補間、全極モデル化、および非二乗変換を含む。しかしながら、この解決法で 作り出された全歪みは、VQ雑音と、変換プロセスで導入された成分との和である 。 ii)第一のVQ方法は、固定サイズ符号ベクトルで可変入力ベクトルの直接量子 化を達成する。これはコードブックベクトルと入力MG nベクトル間の歪みメジャ ー(distortion measure)を形成するために、各コードブックベクトルからvsn 要素のみを選択することに基づいている。このような量子化解決法は、(i)で述 べた先の技術の変換歪み(transformation distortion)を避け、ベクトル量子 化雑音と等しい全歪み(overall distortion)に結果する。 次に、改良されたVQ方法を説明するが、これは以下、可変サイズスペクトルベ クトル量子化(VS/SVQ)方式として参照する。この方式は、{MGj n}マグニチュー り規定される、という基礎原理を利用して開発された。もし、最大期待ピッチ推 って適切に表せられる。このことは、MGj n形状を表しているコードブックベクト ルが与えられた時、いずれの周波数でも規定される完全なスペクトル形状が補間 プロセスを介して得られる、ということを意味している。 図35は、VS/SVQプロセスを強調している。cbs固定fxsの寸法のベクトル(cbs vsnを量子化するために用いられる。補間(このケースでは線形)は、S iベクト ルに用いられて、寸法vsnSij ベクトルを生成する。S iSij への補間プロセス は次式で与えられる。 このプロセスは、MGj nベクトルのωj n周波数におけるSij スペクトル形状を効 果的に規定する。歪みメジャーD(Sij MGn )は、それからSij MGn ベクトル間で 規定され、最小歪みを生成するコードブックベクトルS1が選択され、そのインデ ックスIが送信される。勿論、受信機では、式(38)がS1 からMGn を規定するため に用いられる。 合成された信号を低域濾波することにより重大な劣化を伴わずに50まで低減され る。このことは、3.4から4.0KHzまでの範囲の全ての高調波蜂MGj nをゼロに設定 することにより達成される。このケースでは、 隣接する残留フレームから得られた振幅ベクトルは、後方予測(backward pre diction)によって取り除かれる顕著な冗長性(redundancy)を示す。予測は高 調波基準で行われる、すなわち各高調波MGj nの振幅値は、先行フレーム、すなわ ちMGj n-1の同じ高調波の振幅値から予測される。固定線形予測子(fixed られるDPCM構造は図36に示されでいる(差分VS/SVQ,(DVS/SVQ))。特に、誤差ベク される。すなわち、および ここで、Ej nは量子化された誤差ベクトルを表す。 structure)を使用して、平均移動(Mean Removal)およびゲイン形状量子化(G ain Shape Quantisation)法を組み込む。 ウェイト付けされた平均二乗誤差はシステムのVS/SVQ段階で用いられる。ウェ イト付け関数はフィルタの周波数応答として規定される。W(z)=1/An(z/γ)、こ こでAn(z)は短期線形予測フィルタであり、γは定数でγ=0.93と規定される。短 期包絡スペクトルに比例するこのようなウェイト付け関数は、実質的に改善され た復号音声品質に結果する。ウェイト付け関数Wj nは次のように基準化される。 En の平均値のpdfは非常に広く、その結果平均値は一つのベクトルから別のも のでは大幅に異なる。この平均値は誤差ベクトルEn の形状の変化に統計的に無関 係と見なされ、このようにして圧縮効率(compression efficiency)に実質的な ペナルティを払うことなく分離して量子化され得る。誤差ベクトルの平均値は以 下のように計算される. 形成する。全量子化歪みは、ゲイン形状ベクトル量子化器(Gain-Shape Vector Quantiser)によって行われる「平均移動(Mean Removed)」誤差ベクトル(Ermn )の量子化に帰せられる。 査され、インデックスIを生成する、それは次の量 を最大にする。ここで、cbsはCBSの符号化ベクトルの数である。最適ゲイン値は 、 形状量子化の間、S'i 、およびvsnサイズベクトルが、fxsサイズ符号化ベクト ルSiに線形補間を用いて作り出されるという意味において、VS/SVQの原理が採用 される。訓練され、またランダムに発生された形のCBSコードブックが研究され た。Ermn は雑音のような特性を有しているが、ランダムに発生する形状コードブ ック(randomly generated shape codebooks)を使用するシステムは、不満足な 曖昧に復号された音声に結果し、訓練された形状コードブック(trained shape codebook)を採用したシステムに対して劣っていた。 閉ループ接合予測子(closed−loop joint predictor)、およびVQ設計プロセ スが、CBSコードブック、それぞれ平均値MおよびゲインG値の最適スカラ量子化 器CBMおよびCBGを設計するために、また図36の予測係数bを規定するために採 用された。特に以下のステップが設計プロセスで起こる。ステップA0 (k=0) MGj nのトレーニングシーケンスが与えられると、予測子b0は開ループ形 およびCBSo形状コードブックは、未量子化En を用いて再び開ループ形式 で独立して設計される。特に、 a)誤差ベクトルEn 0のトレーニングシーケンス(training sequence) が与えられた時、各En 0の平均値が計算され、最適スカラ量子化器(CBM 0)の訓練成形プロセスに用いられる。 b) 誤差ベクトルE n0のトレーニングシーケンスとCBMo平均量子化器が 与えられた時、各誤差ベクトルの平均値が計算され、CBMo量子化器を用 いて量子化され、そして原誤差ベクトルEn 0から移動させられ、「平均 移動(Mean Removed)」訓練ベクトルErmn 0のシーケンスを生成する。 c)Ermn 0のトレーニングシーケンスが与えられた時、各「平均移動」訓 練ベクトルは、単位パワーに基準化され、(すなわち、係数 で除される。)、fxs点に線形的に補間され、fxsの大きさの通常のベク トル量子化器の訓練プロセスで使用される。(CBSo) d)Ermn 0ベクトルのトレーニングシーケンスとCBS0形状コードブックが 与えられた時、各「平均移動」訓練ベクトルは、式46、および47を用い て符号化され、式47の値Gは最適スカラ量子化器(CBM0)の訓練プロセ スで使用される。kは1に設定される(k=1)。ステップA1 MGjのトレーニングシーケンス、および先行するk-1反復の平均、ゲインお よび形状コードブック(すなわちCBMk-1、CBGk-1、CBSk-1)が与えられた 時、最適予測係数bkが計算される。ステップA2 MGjのトレーニングシーケンス、最適予測係数bk、およびCBMk-1、CBGk-1 、CBSk-1が与えられた時、誤差ベクトルEn kのトレーニングシーケンスが 形成され、それは新平均、ゲインおよび形状コードブック(すなわちCBMk 、CBGk、CBSk)の設計に用いられる。ステップA3 k番反復量子化システムの実施(すなわちbk、CBMk、CBGk、CBSk)が評価 され、先行する反復量子化システム(すなわちbk-1、CBMk-1、CBGk-1、CB Sk-1)に対して比較される。もし量子化歪みが最小に収斂すれば、量子化 プロセスは停止する。さなくば、k=k+1、およびステップA1,A2、およびA3 が繰り返される。 各量子化器(すなわちbk、CBMk、CBGk、CBSk)の性能は、本質的なテスト(su bjective test)と、システムの本質的性能を反映するために見出されたLogSegS NR歪みメジャーを用いて評価される。 前記ステップA2で用いられる平均-形状-ゲイン量子化器用の設計は、次のステ ップを用いて行なわれる。ステップB1 誤差ベクトルEn kのトレーニングシーケンスが与えられた時、各En kの平均 値が計算され、最適スカラ量子化器(CBMk)のトレーニングプロセスに用 いられる。ステップB2 誤差ベクトルEn kのトレーニングシーケンスとCBMk平均量子化器が与えら れた時、各残留ベクトルの平均値が計算され、量子化され、そして原残留 ベクトルEn kから移動され、「平均移動」トレーニングベクトルErmn kのシ ーケンスを生成する。「平均移動」トレーニングベクトルErmn kのシーケ ンスはそれから、最適ゲイン形状量子化器(CBGk、CBSk)の設計にトレー ニングデータとして使用される。これは、以下のステップC1-C4を含む。 (量子化設計プロセスは、いかなる独立したゲイン形状量子化器構造の仮 定の下に実施される、すなわち入力誤差ベクトルEmr nはSiコードブック形 状ベクトルとGゲイン量子化器レベルのいかなる可能な組み 合わせによっても表せられる。)ステップC1 (v=0) ベクトルErmn kのトレーニングシーケンスと、それぞれゲインおよび形状 コードブックである初期CBGk,0およびCBSk,0が与えられた時、式44におけ るように全平均歪み距離Dk,oを計算する。vは1に等しく設定する(v=1)。ステップC2 先の反復から、ベクトルErmn kのトレーニングシーケンスとCBGk,v-1ゲイ ンコードブックが与えられた時、VQ歪み測定を最小化する新形状コードブ ックCBSk,vを計算する。最適CBSk,v形状コードブックは、式(44)の歪み測 定が最小である時に得られ、これはM1k,v反復で達成される。ステップC3 ベクトルErmn kのトレーニングシーケンスとCBSk,v形状コードブックが与 えられた時、式(44)の歪み測定を最小化する新ゲイン量子化器CBGk,vを計 算する。最適CBGk,vゲイン量子化器は、式(44)の歪み測定が最小である時 に得られ、これはM2k,v反復で達成される。ステップC4 ベクトルErmn kのトレーニングシーケンスと形状およびゲインコードブッ ク、CBSk,vおよびCBGk,vが与えられた時、平均全歪み測定を計算する。も し、(Dk,v-1-Dk,v)/Dk,v<εであれば停止する。さなくば、v=v+1として ステップC2に戻る。 ステップC2(m=1,...,M1k,v)で行われるm番反復の間、形状コードブックCBSk,v ,m の中心軌跡送Si,M k,v,m,i=1,...,cbsおよびu=1,...,fxsは、以下のように更 新される。 Qiは、Si k,v,m-1 コードブック形状ベクトルに量子化されたErmn k誤差ベクトル のクラスタ(cluster)を示し、cbsは形状量子化レベルの全数を表し、JnErmn k 誤差ベクトルを符号化するCBGk,v-1ゲインコードブックインデックスを表し、 1≦j≦vsnである。 前記ステップC3(m=1,...,M2k,v)におけるm番反復の間に計算される、CBGk,v,m ゲイン量子化器のゲイン中心軌跡Gi k,v,n,i=1,...,cbgは次のように与えられ る. ここで、DiはGi k,v,m-1ゲイン量子化器レベルに量子化されたErmn k誤差ベクトル のクラスタを示し、cbgはゲイン量子化器レベルの全数を表し、InErmn k誤差ベ クトルを符号化するCBSk,v形状コードブックインデックスを表し、i≦j≦vsnで ある。 上に採用された設計プロセスは、最適形状コードブックCBS、最適ゲイン、およ び平均量子化器CBG、およびCBM、および最終的にb=0.35に設定された最適予測 係数bを得るために適用される。 プロセスVIIは残留信号のエネルギーを計算する。プロセスIIで行われるLPC分 Iで行われた有声/無声分類は、考慮中のフレームに対する音声信号(R0)のゼロ 遅延用の短期自動相関係数を提供する。従って、残留信号En値のエネルギーは下 式で与えられる。 上記表現は、線形予測プロセスから得られるように、最小予測誤差を表す。しか しながら、量子化歪みのために、符号化-復号化プロセスで用いられるLPCフィル タのパラメータは、最小予測誤差を達成するものと若干異なる。このようにして 、式(50)は、計算機への少ない要求で、残留信号予測の良い近似を与える。正確 なEn値は、次式で与えられる:次いで、その結果得られる√Enが、図34に描かれたものと類似の順応性μ法量子 化器配置を用いてスカラ量子化される。このケースでは、1個以上の√Enがシス テムに用いられる、すなわちエネルギーEnは多数のサブフレームで計算され、次 いでEn' ξが次の一般式で与えられる。 Ξ=1の時、Ms=M、およびΞ=4に対してMs=M/4であることに注意すべきである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG,ZW),EA(AM,AZ,BY,KG ,KZ,MD,RU,TJ,TM),AL,AM,AT ,AU,AZ,BA,BB,BG,BR,BY,CA, CH,CN,CU,CZ,DE,DK,EE,ES,F I,GB,GE,GH,HU,IL,IS,JP,KE ,KG,KP,KR,KZ,LC,LK,LR,LS, LT,LU,LV,MD,MG,MK,MN,MW,M X,NO,NZ,PL,PT,RO,RU,SD,SE ,SG,SI,SK,SL,TJ,TM,TR,TT, UA,UG,US,UZ,VN,YU,ZW

Claims (1)

  1. 【特許請求の範囲】 1.音声信号が一連のフレームに分割され、各フレームが有声/無声分類とピッ チ推定値(pitch estimate)とを含む符号化信号に変換される音声合成システムで あって、 各フレームにおいて参照用サンプルの近くに中心がある低域濾波された音声セ グメントが定められ、 参照用サンプルの近くに中心がある可変長さの音声セグメントから得られる多 数のクロス相関値(multiple crosscorrelation value)の最大値として、相関 値(correlation value)が各一連の候補ピッチ推定値(candidate pitch estim ates)の各々について計算され、 その相関値が使用されて、ピークを定める相関関数が形成され、 該ピークの位置が決定され、それが使用されてピッチ推定値が定められること を特徴とする音声合成システム。 2.ピッチ推定値は反復法(iterative process)を用いて定められる請求項1に 記載のシステム。 3.単一の参照用サンプルが使用され、それぞれのフレームについて中心に置か れる請求項1または2に記載のシステム。 4.各フレームに対して多数のピッチ推定値が異なる参照用サンプルを用いて引 き出され、 これら多数のピッチ推定値は組み合わされて、フレーム用の組合わせピッチ推 定値が定められる請求項1または2に記載のシステム。 5.ピッチ推定値が隣接するフレームの有声/無声の状態及び/又はピッチ推定 値を参照することによって修正されて、最終的ピッチ推定値が定められる請求項 1から4のいずれかに記載のシステム。 6.相関関数は閾値を用いて切り落とされ(clipped)、 残りのピークはそれらがより大きいピークと隣接する場合には拒絶される(rej ected)請求項1から5のいずれかに記載のシステム。 7.いずれかの隣接するピークよりも大きいピークが選択され、 該ピークはそれらが次のピークよりも所定ファクター以上小さい場合には拒絶 される請求項6に記載のシステム。 8.ピッチ推定処理は、最小二乗誤差アルゴリズムに基づく請求項1から7のい ずれかに記載のシステム。 9.ピッチ推定アルゴリズムは、その倍数が相関関数のピーク位置に最も適合す る数として、ピッチ値(pitch value)を定める請求項8に記載のシステム。 10.可能性のあるピッチ値は連続しない整数に制限され、2つの連続する数の 間の増加分はそれら2つの数のうち小さいものを掛けた定数に比例する請求項1 から9に記載のシステム。 11.音声信号が一連のフレームに分割され、各フレームが、ピッチセグメント のマグニチュードスペクトル情報と、有声/無声分類と、有声音フレームのマグ ニチュードスペクトル(magnitude spectrum)において強有声音または弱有声音と して高調波(harmonics)を分類する混合有声分類とを含む符号化された信号に変 換される音声合成システムであって、 フレームの中央に中心がある一連のサンプルがウィンドウされて(windowed)、 データアレイが形成され、該データアレイはフーリエ変換されてマグニチュード スペクトルが形成され、 閾値が計算され、それが使用されてマグニチュードスペクトルが切り取られ、 切り取られたデータは検索されてピークが定められ、 該ピークの位置が決定され、 制約(constraints)が適用されて、優勢ピーク(dominant peak)が定められ、 優勢ピークに関連しない高調波が弱有声音として分類されることを特徴とする 音声合成システム。 12.ピークは2次多項式(second order polynomial)を用いて配置される請 求項11に記載のシステム。 13.サンプルはハミングウィンドウ(Hamming windowed)される請求項11また は12に記載のシステム。 14.閾値は、最大および最小のマグニチュードスペクトル値を確認して、これ ら最大値と最小値との差を掛けた定数として定めることによって計算される請求 項11,12または13のいずれかに記載のシステム。 15.ピークは2つの隣接する値より大きい値として定められ、 該ピークは、隣接するピークが類似のマグニチュードであるか、または、より 大きなマグニチュードと同じ範囲内にスペクトルマグニチュードがある場合には 、考慮されない請求項11から14のいずれかに記載のシステム。 16.高調波は、2つの隣接するピークの間の差が所定の閾値より大きい場合に は、優勢ピークと関連しないものとみなされる請求項11から15のいずれかに 記載のシステム。 17.スペクトルは固定された幅の帯域に分割され、 強/弱有声音分類は各帯域に割り当てられる請求項11から16のいずれかに 記載のシステム。 18.周波数範囲は種々の幅の2以上の帯域に分割され、隣接する帯域は高調波 の強/弱有声音分類を参照することにより選択される周波数で分離される請求項 11から17のいずれかに記載のシステム。 19.最低周波数帯域は強有声音としてみなされ、最高周波数帯域は弱有声音と してみなされる請求項17または18に記載のシステム。 20.現在のフレームが有声音であり、次のフレームが無声音である場合に、現 在のフレームの範囲内にあるさらに別の帯域は、弱有声音として自動的に分類さ れる請求項19に記載のシステム。 21.強/弱有声音分類は、問題の周波帯域内に入る高調波の強/弱有声音分類 に関して、多数決ルール(majority decision rule)を用いて決定される請求項1 9または20に記載のシステム。, 22.過半数がない場合には、交互の周波帯域が強有声音分類と弱有声音分類と に交互に割り当てられる請求項21に記載のシステム。 23.音声信号が一連のフレームに分割され、各フレームが、有声音または無声 音として定められるとともに、各フレームが、ピッチ周期値と、フレーム有声/ 無声分類と、各有声フレームに対してスペクトルバンド内の高調波を強有声音ま たは弱有声音として分類する混合有声スペクトル帯域とを含む符号化された信号 に変換され、かつ、各フレームに関する励起信号を発生させるとともにその励起 信号をフィルタに通すことによって音声信号が復元される音声合成システムであ って、 各弱有声音スペクトル帯域に対して、それぞれのピッチ周期値に依存する関数 の形をしたランダム成分を含む励起信号が発生されることを特徴とする音声合成 システム。 24.スペクトルは帯域に分割され、強/弱有声音分類は各帯域に割り当てられ る請求項23に記載のシステム。 25.ランダム成分は、弱有声音分類に割り当てられる高調波発振器の振幅を減 少させ、周波数が基本周波数の倍数でなくなるように発振器周波数を撹乱させ、 そしてさらなるランダム信号を付加することにより、導入される請求項23また は24に記載のシステム。 26.発振器の位相はランダム化(randomised)される請求項25に記載のシス テム。 27.音声信号が一連のフレームに分割され、各音声フレームが、ピッチ周期値 LPC係数とピッチセグメントスペクトルマグニチュード情報とを含む符号化さ れた信号に変換される音声合成システムにおいて、 上記ピッチセグメントスペクトルマグニチュード情報は、高調波周波数でLP C短期マグニチュードスペクトルをサンプリングすることにより量子化され、 最大スペクトルサンプルの位置が決定されて、どのマグニチュードが正確な量 子化に最も重要であるかが特定され、 そのように特定されたマグニチュードが選択されてベクトル量子化される、こ とを特徴とする音声合成システム。 28.Pn LPC残留サンプルのピッチセグメントが得られ、ここでPnはn 番目のフレームのピッチ周期値であり、ピッチセグメントはDFT変換され、そ の結果得られたスペクトルマグニチュードの平均値が計算され、該平均値は量子 化されると共に、選択されたマグニチュードの標準化ファクターとして使用され 、その結果得られた標準化された振幅が量子化される、請求項27に記載のシス テム。 29.ピッチセグメントのRMS値が計算され、該RMS値は量子化されると共 に、選択されたマグニチュードの標準化因数として使用され、その結果得られた 標準化された振幅が量子化される、請求項27に記載のシステム。 30.受信機において、選択されたマグニチュードが回復され、他のグニチュー ド値の各々は一定値として再生される、請求項27から29のいずれかに記載の システム。 31.音声信号を再構成するために受信機に送信される係数の可変サイズの入力 ベクトルが、固定サイズのベクトルにより決定されるコードブックを使用してベ クトル量子化され、 該固定サイズのコードブックのベクトルは可変サイズのトレーニング・ベクト ルとコードブック生成プロセスの必須部分(integral part)である補間法とか ら得られ、 コードブックベクトルは補間法を使用して可変サイズの入力ベクトルと比較さ れ、 該比較から最小差を有するコードブックエントリー(codebook entry)と関連 するインデックスが送信され、 該インデックスは、受信機で他のコードブックをアドレスし、関連する固定サ イズのコードブックベクトルを導出するのに使用され、 上記補間プロセスは導出された固定サイズのコードブックベクトルから可変サ イズの入力ベクトルの近似値を再生するのに使用されることを特徴とする音声合 成システム。 32.補間プロセスは線形であり、 与えられた大きさの入力ベクトルに対しては、補間プロセスは上記コードブッ クベクトルから与えられた大きさの一組のベクトルを生成するために適用され、 歪みメジャー(distortion measure)が引き出されて、補間されたベクトルの 組と入力ベクトルとが比較され、 コードブックベクトルは最小歪みもたらすように選択される、請求項31に記 載のシステム。 33.ベクトルの大きさは、入力周波数帯域幅の範囲内の高調波振幅のみを考慮 して縮小される、請求項32に記載のシステム。 34.残留の振幅は一定値に設定される請求項33に記載のシステム。 35.一定置は量子化された振幅の平均値と等しい請求項34に記載のシステム 。 36.隣接する残留フレームから得られる振幅ベクトル間の冗長性(redundancy )は、後方予測(backward prediction)により除去される、請求項31から3 5のいずれかに記載のシステム。 37.後方予測は、一つのフレームの各高調波の振幅値は、前の単数又は複数の フレームにおける同じ高調波の振幅値から予測されるというような高調波の基礎 に基づいて、実行される、請求項36に記載のシステム。 38.音声信号が一連のフレームに分割され、 各音声フレームは、予測されるピッチ周期と、その継続時間が該予測されるピ ッチ周期の関数である音声セグメントのエネルギーの推定と、LPCスペクトル 包絡線を規定するLPCフィルタ係数とを含む符号信号に変換され、 入力音声信号の強さに関連する強さの音声信号が、上記ピッチ周期で規定され る高調波周波数でサンプリングされる修正LPCスペクトル包絡線から規定され るスペクトル振幅を使用する励起信号を生成することにより、再構成される、音 声合成システム。 39.マグニチュード値は、ピッチ周期に関連する高調波位置における修正LP C合成フィルタ特性を個別にサンプリングすることにより得られる、請求項38 に記載のシステム。 40.修正LPC合成フィルタは、低減されたフィードバックゲインと、その位 置がLPC合成共振位置と近接する等しい共振ピークを備える周波数応答とを有 する請求項39に記載のシステム。 41.フィードバックゲインの値は、LPCモデルの性能により、それが標準化 されたLPCの予測誤差に関連するように、制御される請求項40に記載のシス テム。 42.再生された音声信号のエネルギーは原音声波形のエネルギーと等しい、請 求項38から41のいずれかに記載のシステム。 43.音声信号が一連のフレームに分割され、 各音声フレームは、LPCフィルタ係数を含む符号信号と、ピッチセグメント マグニチュードに関連する少なくとも一つのパラメータとを含む符号化された信 号に変換され、 音声信号は、各フレーム毎に2個の励起信号を生成することにより再構成され 、各励起信号の対は、一つのフレームのピッチセグメントマグニチュードパラメ ータに基づいて生成される第1の励起信号と、上記一つのフレームに後続し、か つ隣接する第2のフレームのピッチセグメントマグニチュードパラメータに基づ いて生成される第2の励起信号とを備え、 上記第1の励起信号を、その特性が上記一つのフレームのLPCフィルタ係数 により決定される第1のLPCフィルタに適用し、 上記第2の励起信号をその特性が上記第2のフレームのLPCフィルタ係数に より決定れさる第2のLPCフィルタに適用し、 上記第1及び第2のLPCフィルタの出力を重み付け及び組み合わせて、一つ の合成された音声信号のフレームを生成することを特徴とする音声合成システム 。 44.第1及び第2の励起信号は、二つのLPCフィルタと同一の位相関数を備 え、異なる位相分担を備える請求項43に記載のシステム。 45.第1及び第2のLPCフィルタは、第1のフィルタの出力のマグニチュー ドが時間と共に減少し、第2のフィルタの出力のマグニチュード時間と共に増加 するような窓関数(window function)の半周期により重み付けされる、請求項 44に記載のシステム。 46.フレーム毎に作動し、 各フレームを有声音又は無声音として表し、各有声音フレームについてはその フレームをピッチ周期値、量子化マグニチュードスペクトル情報及びLPCフィ ルタ係数により表す情報が送信され、 受信されたピッチ周期値及びマグニチュードスペクトル情報は受信機で残留信 号を生成するのに使用され、 該残留信号は、その特性が送信されるフィルタ係数により決定されるLPC音 声合成フィルタに適用される音声符号化システムであって、 各残留信号は、シヌソイド混合励起合成プロセスに従って合成され、 再生された音声信号は残留信号から導出される、音声符号化システム。 47.添付図面を参照して説明したものと実質的に同様の音声合成システム。
JP10504943A 1996-07-05 1997-07-07 音声合成システム Pending JP2000514207A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB9614209.6A GB9614209D0 (en) 1996-07-05 1996-07-05 Speech synthesis system
US2181596P 1996-07-16 1996-07-16
US021,815 1996-07-16
US9614209.6 1996-07-16
PCT/GB1997/001831 WO1998001848A1 (en) 1996-07-05 1997-07-07 Speech synthesis system

Publications (1)

Publication Number Publication Date
JP2000514207A true JP2000514207A (ja) 2000-10-24

Family

ID=26309651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10504943A Pending JP2000514207A (ja) 1996-07-05 1997-07-07 音声合成システム

Country Status (7)

Country Link
EP (1) EP0950238B1 (ja)
JP (1) JP2000514207A (ja)
AT (1) ATE249672T1 (ja)
AU (1) AU3452397A (ja)
CA (1) CA2259374A1 (ja)
DE (1) DE69724819D1 (ja)
WO (1) WO1998001848A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002527778A (ja) * 1998-10-06 2002-08-27 タレス スピーチコーダパラメータの量子化方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357683A (en) * 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
GB2398981B (en) * 2003-02-27 2005-09-14 Motorola Inc Speech communication unit and method for synthesising speech therein
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007200B3 (de) 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
CN114519996B (zh) * 2022-04-20 2022-07-08 北京远鉴信息技术有限公司 一种语音合成类型的确定方法、装置、设备以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2670313A1 (fr) * 1990-12-11 1992-06-12 Thomson Csf Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit.
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US5978764A (en) * 1995-03-07 1999-11-02 British Telecommunications Public Limited Company Speech synthesis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002527778A (ja) * 1998-10-06 2002-08-27 タレス スピーチコーダパラメータの量子化方法

Also Published As

Publication number Publication date
AU3452397A (en) 1998-02-02
EP0950238B1 (en) 2003-09-10
EP0950238A1 (en) 1999-10-20
WO1998001848A1 (en) 1998-01-15
ATE249672T1 (de) 2003-09-15
DE69724819D1 (de) 2003-10-16
CA2259374A1 (en) 1998-01-15

Similar Documents

Publication Publication Date Title
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
US7272556B1 (en) Scalable and embedded codec for speech and audio signals
EP0981816B1 (en) Audio coding systems and methods
Spanias Speech coding: A tutorial review
US6233550B1 (en) Method and apparatus for hybrid coding of speech at 4kbps
US7092881B1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US5890108A (en) Low bit-rate speech coding system and method using voicing probability determination
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US6871176B2 (en) Phase excited linear prediction encoder
WO2012108680A2 (ko) 대역 확장 방법 및 장치
KR20080101873A (ko) 부호화/복호화 장치 및 방법
JP2000514207A (ja) 音声合成システム
US7643996B1 (en) Enhanced waveform interpolative coder
Champion et al. High-order allpole modelling of the spectral envelope
McCree Low-bit-rate speech coding
Ahmadi et al. New techniques for sinusoidal coding of speech at 2400 bps
Bhaskar et al. Low bit-rate voice compression based on frequency domain interpolative techniques
Lukasiak Techniques for low-rate scalable compression of speech signals
Kwong et al. Design and implementation of a parametric speech coder
Ritz Decomposition and interpolation techniques for very low bit rate wideband speech coding
Magner Orthogonal analysis of multipulse-excited LPC speech coders
Xiao et al. Noise robust speech coding at very low bit rates
Yang et al. A 5.4 kbps speech coder based on multi-band excitation and linear predictive coding
CHALOM Speech Compression: A Review of the Sinusoidal Model and CELP