JPH11502326A

JPH11502326A - 人間の音声を符号化し引き続きそれを再生するための方法及びシステム

Info

Publication number: JPH11502326A
Application number: JP9525031A
Authority: JP
Inventors: レイモンドニコラースヨハンフェルトホイス; ポールアウフスティヌスペーターカウフホルツ
Original assignee: フィリップスエレクトロニクスネムローゼフェンノートシャップ
Priority date: 1996-01-04
Filing date: 1996-12-18
Publication date: 1999-02-23
Also published as: WO1997025708A1; EP0815555A1

Abstract

(57)【要約】人間の音声が符号化に引き続いて再生されるために次のステップを経て符号化される：(a)或る量の人間の音声を表す情報を受け取るステップ；(b)該情報に対応するスペクトル包絡線を持つ LPC音声合成フィルタの伝達関数のすべての複素極を推定するステップ；(c)人間の音声系モデルの任意の特定の共鳴に無関係なすべての極を上記伝達関数からえり抜き、それ以外のすべての極を保持するステップ；(d)上記えり抜かれた極を表すところの声門パルスに関連するシーケンスを定義するステップ；(e)上記それ以外のすべての極を表す複素伝達関数を持つ第２のフィルタを定義するステップ；(f)上記声門パルスに関連するシーケンスと、上記第２のフィルタの表現とを組み合わせることに基づくフィルタ手段により表される音声を出力するステップ．

Description

【発明の詳細な説明】人間の音声を符号化し引き続きそれを再生するための方法及びシステム本発明の背景本発明は人間の音声(human speech)の符号化、及び引き続きそれの再生の方法に関する。よく知られた方法が LPC符号化の原理に基づくが、その結果はそれなりのものでしかない、ということが判っている。本出願の発明者は LPC符号化の原理が更に改善の努力を企てるための良き出発点であるということを見出した。特に、音声生成に対する種々の影響が更に洗練されたやり方で考慮されるときに、種々のフィルタ LPC特性の値が、改善された結果を得るように改訂されることができる。本発明の概略従って本発明の目的はとりわけ、上述の技術により動作するための音声生成フィルタ特性を改善することであって、特に LPCデータベースとの両立性を或る程度まで維持することである。その１つの態様では本発明の方法は更に、或る量の人間の音声を表す情報を受け取るステップ；該情報に対応するスペクトル包絡線を持つ LPC音声合成フィルタの伝達関数のすべての複素極を推定するステップ；人間の音声系モデルの任意の特定の共鳴に無関係なすべての極を上記伝達関数からえり抜き、それ以外のすべての極を保持するステップ；上記えり抜かれた極を表すところの声門パルスに関連するシーケンスを定義するステップ；上記それ以外のすべての極を表す複素伝達関数を持つ第２のフィルタを定義するステップ；及び上記声門パルスに関連するシーケンスと、上記第２のフィルタの表現とを組み合わせることに基づくフィルタ手段により表される音声を出力するステップ；の諸ステップを含んで成る。複素極を２つのグループに区別することにより、それらグループの各々を最適なやり方で別々にモデル化することが許容される。上記推定するステップは更に、上記人間の音声を表す情報に関連する固定第１ラインスペクトル(数式(5))を推定すること、及び上記人間の音声系モデルに付随する固定第２ラインスペクトル(数式(7))を推定することを含み、また上記声門パルスに関連するシーケンスに対応する可変第３ラインスペクトル(数式(8)) を、適切なマッチングレベルに達するまで上記第３ラインスペクトルを上記推定された第１ラインスペクトルにマッチさせるように、見出すことをも更に含むことが有利である。このマッチングのとり方は簡明であるにも拘らずその性能は極めて良好である、ということが判明している。上記えり抜くステップは、予め定められたしきい値周波数より下の周波数に関連するすべての極に付随することが好適である。このやり方で、区別することが単純且つ簡明に実行される。実際上はこれら低周波の極が丁度、えり抜かれなければならないものになっているのである。上述の方法は LPCと両立する音声データベースを使用するのが有利である。そのようなデータベースは多種多様な音声のタイプ及び言語に対して容易に入手可能である。本発明はまた、上述の人間の音声を符号化する方法を実行するシステムにも関する。本発明のそれ以外の利点は従属請求項に記載される。音声を種々のやり方で操作すること自体は、ヨーロッパ特許EP 527 527号及びそれに対応する米国特許US 5,479,564号、ヨーロッパ特許EP 527 529号及びそれに対応する米国特許出願07/924,726号、並びにヨーロッパ特許 EP 95203210.0号及びそれに対応する米国特許出願08/...,...号に開示されており、これらはすべて本出願の出願人によるものである。はじめの２つの文献は、未処理の音声のピッチ周期を挿入したり除去したりして音声の経過時間に影響を与えることが記述され、３番目は音声の短時間フーリエ変換について比較できるやり方で取り扱うものである。前に述べたように、本発明は符号化された音声のコンパクトな記憶を、低価格の解答を求めるために達成しようと試みるものである。上記文献では更に膨大な記憶スペースを必要としている。図面の簡単な説明本発明の上述及びその他の態様及び利点は、以下に開示される好適実施例により、及び特に添付の図面を引用することにより説明される。それらの図面は：図１が、既知のモノパルス・ボコーダーの図であり；図2aが、そのようなボコーダーの励起を示す図であり；図2bが、それにより生成される典型的な音声信号を示す図であり；図3aが、フィルタに基づく音声生成モデルを示す図であり；図3bが、それから導かれる第２次モデルを示す図であり；図4aが、音声系の伝達関数を示す図であり；図4bが、合成フィルタの伝達関数を示す図であり；図4cが、声門パルスフィルタの伝達関数を示す図であり；図5aが、典型的な自然音声信号を示す図であり；図5bが、それに関連する声門パルスシーケンスを示す図であり；図5cが、該シーケンスを時間に対して微分したものを示す図であり；図６が、声門パルスフィルタのインパルス応答を示す図であり；図７が、提案する合成器を示す図であり；図８が、使用されるフィルタの極のプロットを示す図であり；図9aが、２つの伝達関数の比較を示す図であり；図9bが、別の２つの伝達関数の比較を示す図であり；図10が、典型的な声門パルスの時間導関数を示す図であり；図11a,11b が、図10のパルスの全極スペクトル表現を示す図であり；図12が、スペクトルの傾きを説明するグラフを示す図であり；図13a,13b が、声門パルス及びその時間導関数を示す図である。本発明の原理の説明図１は、モノパルス(mono-pulse)すなわちLPC(linear predictive coding)に基づく既存の技術によるボコーダー(vocoder)を示す図であって、これは多くの教科書、例えば1987年Addison-Wesley社刊行のDouglas O'Shaugnessy著“Speech communication,Human and Machine”に載っている。LPCの利点は、極度にコンパクトな記憶のやり方と、そのように符号化された音声を容易なやり方で操作することのたやすさとである。不利な点は、生成された音声の相対的に貧弱な品質である。概念的には音声合成は全極(all-pole)フィルタ54を用い、該フィルタは符号化された音声を受け取って、出力58に一連の音声フレームのシーケンスを出力する。入力40は実際のピッチ周波数を記号化したもので、該周波数は実際のピッチ周波数繰り返しにおいて有声(voiced)フレームの生成を制御するアイテム42に供給される。それとは対照的にアイテム44は、一般に（白）雑音で表される無声 (unvoiced)フレームの生成を制御する。マルチプレクサー46は選択信号48に制御されて有声、無声間を選択する。増幅器ブロック52はアイテム50に制御されて実際の利得ファクタを変えることができる。フィルタ54は、制御アイテム56により記号化されるような時間変動フィルタ係数を持つ。典型的には、種々のパラメタは5-20ミリ秒ごとに更新される。この合成器(synthesizer)はモノパルス励起型と呼ばれる、それは１ピッチ周期当たり唯１つの励起パルスしか存在しないからである。増幅器ブロック52からフィルタ54への入力は励起信号と呼ばれる。一般的には図１は人間の音声系(human vocal tract)の性質とは直接関係のないパラメタ的の(parametric)モデルである。図１によるアプローチは広汎であり、多数の分野への応用のために大きなデータベースが混合されて(compouded)いる。この関係では、図2aがそのようなボコーダーの励起の実例を示し、図2bがそれにより生成された音声信号を示し、茲では時間は秒で表され、実際の音声信号の振幅は適当な単位で表される。本発明は有声の音声の上記再生を、簡単なやり方で改善することを意図する。茲で本発明の主要な観点は、人間の音声の物理的生成を、或る１つのやり方で擬態する(mimick)ことである。説明用として、図3aはフィルタに基づく音声生成モデルであり、音声が人間の音声系で生成されるやり方に基づいている：図１とは対照的に、図3aは物理学的、或いは寧ろ生理学的モデルであり、それは音声系の幾何学的及び物理学的特性に遙かに密接に関連する。ブロック20はここでもまた全極(all-pole)フィルタであり、後に図５に示すような脈動する空気の流れの形で一連の声門パルスのシーケンスが音源22から供給される。人間の場合は唇から観念的出力26に放出せられる音響(sound)はこの放出過程では大なり小なり微分せられ、これは微分器すなわち高域通過フィルタ24により記号化されている。このモジュールの設定自体は図１と類似であるが、音源22及びフィルタ20は共に別の特性を持つ。微分器と音源を組み合わせることを通して訂正された設定が図3b のようになり、茲では音源23が声門の空気の流れの時間導関数を生成する。本発明の１つの利点は LPCで示唆されたデータベースの使用の可能性である。将来は本発明への視点で更に改良されているであろうデータベースが、もっと優れた性能を提供するであろう。この微分の性質という観点では、図5aに示した（典型的な母音/a/ の）原始音響トラックは、声門パルスの特性を音声系本体の特性から分離するという観点から図5bの声門パルスの流れによって表される。生成される音声は、音声系パラメタの表現を声門パルスの表現と共に供給することを通してこれら２つの構成要素の双方に基づく。次に、この声門パルスは図5cに示すような時間微係数に翻訳される。この図5cでは鋭いピークが声門の閉じた瞬間を示し、これが入力に対する主要な瞬間である。図示のセグメントの長さは合成フレームの典型的な長さに対応する。声門パルス及びその微係数は閉鎖位相分析(closed-phase analysis)と呼ばれる逆濾波技術(inverse filtering technique)により得られている。この技術では先ず声門閉鎖の間隔の推定がなされる。これらの間隔の内部では音声は音声系の共鳴のみから成る。続いてこれらの間隔は全０(all-zero)逆フィルタを生成するのに使われる。すると声門パルスの時間微係数はこのフィルタによる逆濾波によって求められる。続いて声門パルス自体がこの時間微係数を積分することによって求められる。この音声系フィルタは求められた全０フィルタの逆である。この音声系フィルタ Hν の伝達関数の大きさ(magnitude)が図4aに示される。同じセグメントに対する合成フィルタ Hs の伝達関数の大きさが図4bに示される。この２つの伝達関数は見掛け上は明らかに同じフォルマント(formant)共鳴を含むが、低周波数では異なる。このことは、Hs が音声系のスペクトルの性質( behaviour)と声門パルスの時間微係数のスペクトルの性質との双方を記述しているのに対し、Hν は音声系のスペクトルの性質のみを記述している、という事実に起因するのである。図4cは声門パルスフィルタの伝達関数を与える。雑誌J.Ac coust.Soc.Am．90(5),1991年11月号pp.2394-2410所載のD.G.Childers及びC.K.Le e による“Vocal quality factors:Analysis,synthesis,and perception”には声門パルスの音声の音響化への影響が記載されている。次に：と書くことにより、図１の合成システムが図3bのモデルと比較される。茲で Hg は線形フィルタで、声門パルスフィルタと呼ばれる。そのインパルス応答が合成器中の声門パルス時間微係数のモデルとなる。フィルタ Hg は最小位相伝達関数を持つ。これは、Hs 及び Hν が共に安定全極フィルタであることによりそうなるのである。声門パルスフィルタの伝達関数は図4cに示され、インパルス応答は図６に示される。図5cでこの声門パルス時間微係数の合成モデルを真の時間微係数と比較すると、たとえスペクトルの大きさ(magnitude)は同一であるかも知れないが、それらの時間領域の表現は全く異なる。そのような差異は原始音声の時間領域の表現と合成音声の時間領域の表現と間にも同様に存在する。明らかに、モノパルスボコーダーの陰伏(implicit)声門パルスのモデルは真の声門パルスとは異なる。その理由は、真の声門パルスの時間微係数は、最小位相システムのインパルス応答のように密接に近似することができないからである。図3bのモデルから導かれる合成器が、声門パルスの時間微係数の改良された表現と、音声系の共鳴のモデルであるに過ぎない合成フィルタとを具備すれば、更に良好な知覚的音声品質をもたらすであろう、と提案される。この提案された合成器が図７に示される。或る特定の要求条件が、図１のデータ源40，48，50，及び56に関連するパラメタを生成するのに必要な既存のデータベースと、以前のまま両立する。これは次のようにして実現する。原始合成フィルタのフィルタ係数は音声系のフィルタの係数及び声門パルスのフィルタの係数を導くのに用いられる。好適な実例として、Liljencrants-Fant（LF）モデルが声門パルスを記述するのに用いられ、これについては上掲のChilders-Leeの文献（Fant及びFant他の文献を引用した）にも明快な説明が与えられている。それらのパラメタは、声門パルスフィルタとLFパルスとの間の周波数領域内で、大きさのマッチングがとれるように同調させる。このことによって音声系フィルタのハット(hat)の励起が所望のスペクトル特性と現実の時間的表現とを併せ持つことになる。所要のステップを以下に詳述する。本発明によれば、声門パルスのシーケンス及びフィルタ特性は共に、利用可能な設備に対して改良された音響の品質を達成するよう改訂される。解決すべき問題点は： a．いかなるフィルタ係数が元のフィルタに対応するか； b．いかなるフィルタ係数が入力パルスシーケンスのスペクトルの性質（茲では図4cによるもの）に対応するか；がある。特に、声門パルスのシーケンスの処理結果の位相を考慮するが、これは既存の技術では敬遠すべきものと考えられていた。使用されるフィルタは、位相の相互関係を制御するいわゆる最小位相フィルタである。特に、それは音声系の共鳴のモデルである。伝達関数の残りの部分は声門パルス自体の形成を通してモデルかされる。茲で、標本周波数の半分であるθは０とπとの間で変動するものとして、フィルタの伝達関数は：と書くことができる。もう１つの表現は：であり、茲で各αは単位円の内部にある複素数の極である、すなわちそれはその共役複素数も極であることを意味する。この関連では、図８が使用されるフィルタの極のプロットである。例として上記関数の極30とその共役複素数32が、人間の音声系の或る特定の共鳴に対応するものとして示されている。図８では極のプロット中に斜線で陰影を付けた領域が示されている。それの右側には、人間の音声系の最低共鳴周波数である +/-θ_min の角の間の扇形セクタを含み、該人間の音声系は年齢、性別等に僅かに依存する。この角に対する普通の値は 200Hzの周波数に対応し、それは選定された特定の声のタイプに依存する。また、負の実軸に沿っている幅の狭いストリップが、上記共鳴から立ち上がらないであろう極を含むかも知れない。それ故に斜線で陰影を付けてない領域中の極だけを表す新しいフィルタが建設される。これに関連して図12が、θの関数としての「レスト(‘rest’)」フィルタの伝達関数の実数部に存在するスペクトルの傾き(spectral tilt)を説明するグラフである。カーブは値が１のところから出発し、θの値が大きくなるに伴い大なり小なり徐々に減少する。この当初の下降傾斜がフィルタのスペクトルの傾きと呼ばれる。そうすると声門パルスのシーケンスは、図示の伝達関数とほぼ同じ値を持つ当初のスペクトルの傾きを持つに違いない。これはLFモデルのパラメタの形を造ることにより実現される。特にスペクトルの傾きは人間の聴き手が主観的に感じる音声の「暖かさ」に影響する：傾斜が急に成るに従い「より暖かい」音響を与える。生理学的には傾きは声帯を閉じる速さに関係する。もし閉じ方が速ければ相対的に多くの高い周波数のエネルギーが持続するが、もし閉じ方が遅ければ相対的に僅かの高い周波数のエネルギーしか声の中に存在しない。好適な実施例の詳細な説明音声系フィルタの係数、及び合成フィルタの係数からの声門パルスのスペクトル表現は、次のようにして導かれる。先ず最初に、すべてのフォルマント周波数は 200Hzより上に在ると仮定し、また Hν の複素極の大きさはしきい値0.85より上だが単位円の内部に在ると仮定する。フォルマントに対応する複素極を対応しない複素極から分離することより、伝達関数は積の形で表現されて：となる。茲で１番目のファクタは数式(1)中の声門パルスフィルタ Hs/Hν の推定値であり、これはフォルマントに割り当てることのできないすべての極を含んでいる。２番目のファクタはすべてのフォルマント極を含む音声系フィルタの推定値である。これに関連して、図9aは、閉鎖位相分析を用い、また上記近似を用いた音声系フィルタの比較を示す。同様の比較が、声門パルスフィルタに対して、図9bでなされている。フォルマント周波数の周りでは限定された差異しか見出されない。これらは閉鎖位相分析が一般にはより鋭いフォルマントのピークに有利であるから生成されるのである。茲で用いられる分離の判定基準は次の通りである：上述のしきい値周波数 200Hzより下の周波数に対応するすべての極は、フォルマント周波数とは無関係であると仮定されていた。 Hs からのフォルマント極と非フォルマント極との間の分離は、もし Hs 自身が２次のセクションの積として表されているならば、すなわちフォルマントパラメタの別の表現であるいわゆるPQ対で表されているならば、特に簡単であってそれについては1993年 Macmillan社刊行の John R.Deller,Jr.他著“Discrete-Tim e Processing of Speech Signals”という書籍のpp.331-333を参照されたい。LF パラメタは次の実例により推定することができる。先ず最初に、声門パルスの時間微分のLFモデルの時間的に連続な形は：と表される。茲で量Ａ（任意の振幅），ω，α，t_e，ε，及びLFパラメタのピッチＴ₀は生成(generation)パラメタであって、このうちω，α，t_e，εについては未だ確定するに及ばず、これらは閉音節の(closed)数学的表現に最も適している。なおその他にもLF声門パルスを記述するパラメタの組がある。ピッチは合成器中で既知である。その他のパラメタは組織的なやり方で最適化されなければならない。この最適化の最初のアプローチは、声門パルスフィルタとLFフィルタとの間の周波数領域内で良好な大きさの釣り合いが存在するようになるまで、４つのパラメタを同調させることである。推定される声門パルスフィルタは或る次元の全極フィルタである。このフィルタはLFパルスから導かれる同じ次元の全極フィルタの基準と見なすことができる。するとLFのパラメタは十分な釣り合いが生じるまで訂正されなければならない。先ず相関関数：を見出し、次にフィルタ係数を得るために Levinson-Durbinの方法を適用することにより、LFパルスから全極フィルタを導くことができる。Levinson-DurbinのアルゴリズムについてはDellerの前掲書を参照されたい。図11a,図11b は、このやり方で求められた図10中のLFパルスのスペクトルの大きさを示す。その次の典型的手順は、上述のスペクトルの傾きのような推定される声門パルスフィルタから或る特性パラメタを測定して同じ特性を持つLFパルスを生成することである。LFパラメタと推定される特性との関係は結果として起こる成果により定められる。もう１つの有用な手順は、１つのピッチ周期で測定されたLFパルスのエネルギーと、利得パラメタの大きさを持つインパルスで励起されるときの声門パルスフィルタの応答のエネルギーとを等しくさせることができるようなやり方で、LFパルスの振幅を選ぶことである。所要の量は簡明なやり方で計算される。到達した結果の質は知覚的なやり方で評価するのが有利である。比較される対象は、３個の異形すなわち：原始母音；モノパルス合成された母音：改良された声門モデル化により合成された母音；のそれぞれの中の、持続するが短い母音とするのが好適である。該手順のまた別の拡大は次の通りである。人間の音声情報に対応するスペクトル包絡線を持つ LPC音声合成フィルタの伝達関数の複素極の推定は、下記の数式 (5)に関連する固定第１ラインスペクトルの推定を含む。更に該手順は、人間の音声系のモデルにふさわしい下記の数式(7)に関連する固定第２ラインスペクトルの推定を含む。更にまた該手順は、声門パルス関連シーケンスに対応する下記の数式(7)に関連する可変第３ラインスペクトルを、適切なマッチングレベルに達するまで推定された第１ラインスペクトルに上記第３ラインスペクトルをマッチさせるように、見出すことも含む。図13a,図13b はモデル化された典型的声門パルス及びその時間導関数を示す。標本化周波数は f_s 、基本周波数は f₀ 、基本周期は t₀＝1/f₀ である。更にt_p ＝2π/ω_p とする。以後用いられるパラメタはいわゆる明細(specification )パラメタであって、それは生成パラメタと等価であるが、音声生成器械の物理学的側面と更に密接に関連する。特に、t_eと t_aとは生成パラメタへの直接の翻訳を持たない。図中に示される信号セグメントは少なくとも２つの基本周期を含むことに留意されたい。茲で、ｗ_k，k＝0,…,M−1 をウィンドウ関数、例えば Hanningウィンドウとし、をスペクトル中のスペクトルラインの数とするとき、信号ラインスペクトルは：となる。 A(exp(jθ)) を音声系フィルタの伝達関数とするとき、音声系のラインスペクトルは：である。 g(t;t₀,t_e,t_p,t_a) を、例えばLFモデルによる声門パルスの時間導関数とするとき、声門パルスのラインスペクトルは：である。声門パルスのパラメタｔ_e，ｔ_p，ｔ_aは、この距離測定の知覚的妥当性を増加するためにβを加算して、関数：を最小化する偏角(argument)として求められる。β＝1/3 が満足すべき結果を与える、ということが判明している。距離測定の代替案としてがある。全体を最小にするか、又は少なくとも適切なレベルに達するか、のどちらかに到達するまで、関数値を最小化すること自体は、簡明な数学的手法である。上記最小化が極めて満足すべき音声生成を導いていることは既に判明している。

Claims

【特許請求の範囲】１．人間の音声の符号化、及び引き続きそれの再生の方法において、該方法は次の諸ステップ、すなわち：人間の音声を表す或る量の情報を受け取るステップ；該情報に対応するスペクトル包絡線を持つ LPC音声合成フィルタの伝達関数のすべての複素極を推定するステップ；人間の音声系モデルの任意の特定の共鳴に無関係なすべての極を上記伝達関数からえり抜き、それ以外のすべての極を保持するステップ；上記えり抜かれた極を表すところの声門パルスに関連するシーケンスを定義するステップ；上記それ以外のすべての極を表す複素伝達関数を持つ第２のフィルタを定義するステップ；及び上記声門パルスに関連するシーケンスと、上記第２のフィルタの表現とを組み合わせることに基づくフィルタ手段により表される音声を出力するステップ；を含んで成ることを特徴とする方法。２．請求項１に記載の人間の音声の符号化、及び引き続きそれの再生の方法において、上記推定するステップは更に、上記人間の音声を表す情報に関連する固定第１ラインスペクトルを推定すること、及び上記人間の音声系モデルに付随する固定第２ラインスペクトルを推定することを含み、また、上記声門パルスに関連するシーケンスに対応する可変第３ラインスペクトルを、適切なマッチングレベルに達するまで上記第３ラインスペクトルを上記推定された第１ラインスペクトルにマッチさせるように、見出すことをも更に含むことを特徴とする方法。３．請求項１又は２に記載の人間の音声の符号化、及び引き続きそれの再生の方法において、上記えり抜くステップは、予め定められたしきい値周波数より下の周波数に関連するすべての極に専ら付随することを特徴とする方法。４．請求項１ないし３のうちのいずれか１項に記載の人間の音声の符号化、及び引き続きそれの再生の方法において、上記声門パルスのシーケンスはLiljencran ts-Fant モデルに従ってモデル化されることを特徴とする方法。５．請求項１ないし４のうちのいずれか１項に記載の人間の音声の符号化、及び引き続きそれの再生の方法において、上記出力するステップの前に、声門パルスに関連するシーケンスの種々のパラメタが巧みに処理されることを特徴とする方法。６．人間の音声を符号化し、引き続いてそれを再生するためのシステムにおいて、人間の音声を表す或る量の情報を受け取る入力手段；該情報に対応するスペクトル包絡線を持つ LPC音声合成フィルタの伝達関数のすべての複素極の推定値を記憶し、また、人間の音声系モデルの任意の特定の共鳴に無関係なすべての極を上記伝達関数からえり抜き、それ以外のすべての極を保持する記憶手段；上記えり抜かれた極を表すところの声門パルスに関連するシーケンスを定義するために、上記記憶手段によりデータを供給される定義手段；上記それ以外のすべての極を表す複素伝達関数により定義される第２のフィルタ；及び上記声門パルスに関連するシーケンスと、上記第２のフィルタの表現とを組み合わせることにより表される音声を出力するためのフィルタ手段；を含んで成ることを特徴とするシステム。７．請求項６に記載の人間の音声を符号化し、引き続いてそれを再生するためのシステムにおいて、上記推定値は更に、上記人間の音声を表す情報に関連する固定第１ラインスペクトル(数式(1))の推定値、及び上記人間の音声系モデルに付随する固定第２ラインスペクトル(数式(3))の推定値を含み、また、上記システムは更に、上記声門パルスに関連するシーケンスに対応する可変第３ラインスペクトル(数式(4))を見出し、上記第３ラインスペクトルを上記推定された第１ラインスペクトルにマッチさせるためのマッチング手段を含み、且つ適切なマッチングレベルに達したことを検出する検出手段を含むことを特徴とするシステム。８．請求項６又は７に記載の人間の音声を符号化し、引き続いてそれを再生するためのシステムにおいて、上記えり抜かれた極は、予め定められたしきい値理論より下に在る周波数に関連することを特徴とするシステム。９．請求項６ないし８のうちのいずれか１項に記載の人間の音声を符号化し、引き続いてそれを再生するためのシステムにおいて、LPCと両立するデータベースを使用することに基づくことを特徴とするシステム。