JPH01502779A

JPH01502779A - 適応多変数推定装置

Info

Publication number: JPH01502779A
Application number: JP62506332A
Authority: JP
Inventors: トムソン，デビット　リン
Original assignee: アメリカン　テレフォン　アンド　テレグラフ　カムパニー
Priority date: 1987-04-03
Filing date: 1988-01-12
Publication date: 1989-09-21
Also published as: EP0308433A1; AU1222688A; JPH0795237B1; DE3875894D1; SG59893G; DE3875894T2; ATE82426T1; WO1988007738A1; AU599459B2; CA1337708C; HK106693A; EP0308433B1; CA1338251C

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】適応多変数推定装置［技術分野］本発明は、リアルタイム過程（プロセス）を表わすサンプルを、それぞれリアルタイム過程の一状懸に対応する群に類別することに関する。とくに二の類別は、各サンプルが発生したときに統計的技法を用いてリアルタイムで行われる。

［背景技術と問題点］多くのリアルタイム過程において、変化しつつある環境における現在の状態を過程の現在および過去のサンプルから推定することを試みるときに問題が存在する。このような過程の１つの例が人の声道による音声の発生である。声道により発生された音は、基本周波数を持つこともあり（有声音の状！３）または基本周波数を持たない場合もある（無声音の状！９）。さらに音が発生されなければ第３の状態が存在することもある（沈黙の状１’ｒＪ）。これらの３つの状態を判別する問題は音声／沈黙判別といわれる。低ビット速度音声コーダにおいてはしばしば、不正確な音声判別のために音声品質の低下が生ずる。これらの音声判別を正確に行う際の困難な点は、単一の音声パラメータすなわち類別子（ｃｌａｓｓｌｆｌｅｒ）では有声音音声と無声音音声との識別に信頼性がないという事実にある。音声判定を行うために、多重音声類別子を重みつき和の形に組合わせることは当業者に周知である。このような方法は、デー・ピー・ブレザス（Ｄ、Ｐ、Ｐｒｅｚａｓ）他による「パターン認識および適応時間−領域分析を用いた迅速かつ正確なピッチ検出」、ＩＥＥＥ音響・音成および信号処理国際会議資料、第１巻、１０９−１１２ページ、１９８６年４月　（“Ｆａｓｔ　ａｎｄ　Ａｃｃｕｒａｔｅ　Ｐｉｔｃｈ　Ｄｅｔｅｅｔｉｏｆｌυｓｉｎｇ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　ａｎｄ　Ａｄａｐｔｉｖｅ　Ｔｉ１Ｉｅ−Ｄｏａａｉｎ　Ａｎａｌｙｓｉｓ　’　、Ｐｒｏｃ、ＩＥＥＥ　Ｉｎｔ、Ｃｏｎｆ’、Ａｃｏｕｓｔ、、５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃ、、Ｖｏｌ、１．ｐｐ１０９−１１２．Ａｐｒｉｌ　１９１６）に記載されている。この論文の説明のように、音声類別子の重みつき和がもしある特定のしきい値より大であれば音声フレームは有声音と宣言され、もしそうでなければ無声音と宣言される。数学的にはこの関係はａ・Ｘ＋ｂ＞０として表わされ、ここで“ａｏは重みからなるベクトル、°Ｘ°は類別子からなるベクトル、および“ｂ”はしきい値を表わすスカラーである。重みは音声の学習（ｔｒａｔｎｔｎｇ）セット上の性能を最大化するように選択されるが、ここで各フレームの音声化（ｖｏｔｅｉｎｇ）は既知である。これらの重みは、単一パラメータを使用するものに比較して音声コーダ内に顕著な音声品質改良を提供する判別ルールを形成する。

固定重みつき和による方法に付帯する問題点は、音声環境が変化する場合にそれが良好に実行しないということである。このような音声環境の変化は、車内の電話すなわち移動電話で行われる電話会社の結果であったり、またはおそらく電話送話器が異種のものが原因であったりする。固定重みつき和による方法が変化する環境において良好に実行しない原因は、多くの音声類別子が、暗騒音、非線形ひずみ、および濾波による影響を受けることである。もし音声化が学習セットの特徴とは異なる特徴を存する音声に対して判別されなければならないならば、一般に重みは満足な結果を与えないであろう。

固定重みつき和による方法を変化する音声環境に適応させる一方法が、シー・ビー・キャンベル（Ｃ，Ｐ、Ｃａｍｂｅｌ　Ｉ）他の論文「音声の有声音／無声音類別の米国政府ＬＰＧ−１０Ｅアルゴリズムへの適用」、ＩＥＥＥ音響・音成および信号処理国際会議資料、１９８６年、東京、第９．１１．４巻、４７３−４７８ページ（“Ｖｏｔｅｅｄ／　Ｕｎｖ。

１ｃｅｄ　Ｃ１ａｓｓｉｒｉｃａｔｉｏｎ　ｏｒＳｐｅｅｃｈ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎ　ｔｏ　ｔｈｅ　Ｕ、Ｓ。

Ｇｏｖｅｒｎｍｅｎｔ　ＬＰＣ−１０Ｅ　Ａ１ｇｏｒｉｔｈｒＡ’　、ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ、５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ、１９８Ｂ、Ｔｏｋｙ。

、Ｖｏｌ　、９．１１．４．ｐｐ、４７３−４７６）に開示されている。この論文は、重みおよびしきい値の各組（セット）に対する学習データに異なるレベルの白色雑音を加えることにより、同一セットの学習データからあらかじめ設定された各々異なる重みつきおよびしきい値の組を利用することを開示している。各フレームに対し音声サンプルは、これらの組の１つの結果がＳＮ比（信号対雑音比、５ＮＲ）に基づいて選択された後に１組の重みおよびしきい値により処理される。ＳＮ比が持つことができる可能値の範囲（レンジ）は、各々が組の１つに割当てられる副範囲（サブレンジ）に分割される。各フレームに対しＳＮ比が計算され；副範囲が決定され：次にフレームが有声音／無声音判別される。この方法に伴う問題点は、これは学習データに白色雑音が追加されたものに対してのみ有効であって広範囲の音声環境および話者に対し適応できないことにある。従って、変化する環境および異なる話者に対し音声が有声音であるか無声音であるかを信頼性をもって判別可能な音声音検出器に対する需要が存在してくる。

［解決法］上記の問題点は、物理的過程からのリアルタイムサンプルに応答して複数の過程状態に対する統計的分布を決定し、これらの分布から判別領域を確立する装置により解決されかつ技術的進歩が達成される。後者の領域は、各過程サンプルが発生されたときに現在の過程状態を決定するのに使用される。音声判別をするのに使用されるとき、この装置は音声の類別子の状態を利用することにより変化する音声環境に適応する。統計的手法は類別子に基づいて行われ、音声判別に使用される判別領域を修正するのに使用される。この装置は、有声音および無声音の両フレームに対して統計的分布を推定し、これらの統計的分布を判別領域の決定に使用するのが好ましい。後者の領域は次に現在の音声フレームが有声音か無声音かを判別するのに使用される。

有声音検出器は、現在の音声フレームが無声音である確率、現在の音声フレームが有声音である確率、およびあるフレームが無声音であろうという総合確率、とを計算するのが好ましい。これらの３種類の確率を用いて次に検出器は、無声音フレームの確率分布と有声音フレームの確率分布とを計算する。さらに、現在の音声フレームが有声音であるか無声音であるかの確率を決定する計算は最尤（ｍａｘｉｍｕｍ　１ｉｋｅｌｉｈｏｏｄ）統計的手法を用いることにより実行される。また最尤統計的手法は、確率の他に重みベクトルおよびしきい値にも応答する。他の実施例においては、重みベクトルおよびしきい値は各フレームに対し適応的に計算される。この重みベクトルおよびしきい値の適応計算は、変化する音声環境への検出器の迅速適応を可能にする。

音声フレーム内における基本周波数の存在を判定する装置は、音声フレームの音声属性を表わす１組の類別子に応答して１組の統計的パラメータを計算するための回路を有するのが好ましい。

第２の回路は統計的分布を定義する１組のパラメータに応答して各々が類別子の１つに付属する１組の重みを計算する。最後に第３の回路が計算された１組の重みおよび類別子と１組のパラメータとに応答して音声フレーム内における基本周波数の存在を判定し、すなわち通常の表現を用いれば、無声音／有声音判別を行う。

第２の回路はまた、しきい値と新しい重みベクトルとを計算してこれらの値を第１の回路に連絡し、第１の回路はこれらの値および新しい１組の類別子とに応答して他の１組の統計的パラメータを決定するのが好ましい。他の１組の統計的パラメータは次に、次の音声フレームに対して基本周波数の存在を判定するのに使用される。

第１の回路は次の１ｍの類別子、新しい重みベクトルおよびしきい値とに応答して、次のフレームが無声音である確率、次のフレームが有声音である確率、およびあるフレームが無声音であろうという総合確率、とを計算するのが好ましい。

これらの確率は次に過去および現在のフレームに対する類別子の平均を与える１組の値と共に他の１組の統計的パラメータを決定するのに利用される。

音声判別を決定するための方法は次のステップで実行される：すなわち有声音および無声音フレームに対する統計的分布を推定するステップ、この統計的分布に応答して有声音音声と無声音音声とを表わす判別領域を決定するステップ、および判別領域および現在の音声フレームとに応答して音声判別を行うステップである。さらに統計的分布は、現在の音声フレームが無声音である確率、現在の音声フレームが有声音である確率、およびあるフレームが無声音であろうという総合確率、とから計算される。これらの３Ｎ類の確率は統計的分布を決定するステップのサブステップとして計算される。

［図面の簡単な説明］本発明は図面を参照しながら以下の詳細な説明を読めば容易に理解されよう。ここで：第１図は本発明を用いた装置のブロック図：第２図は本発明をブロック図の形で表わした図：第３図および第４図は第２図の統計的有声音検出器１０３により実行される機能をさらに詳細に表わした図；第５図は第４図のブロック３４０で実行される機能をさらに詳細に表わした図であ。

［詳細な説明コ第１図は有声音検出器の１つとして本発明の主題である統計的有声音検出器を使用する無声音／有声音判別動作を実行するだめの装置を示す。第１図の装置は２種類の検出器すなわち識別有声音検出器と統計的有声音検出器とを使用する。統計的有声音検出器１０３は、音声環境の変化を検出して類別子発生器１０１から来る類別子を処理するのに使用される重みを修正してより正確に無声音／有声音判別を行うようにする適応検出器である。本別有声音検出器１０２は、初期スタートアップの間すなわち統計的有声音検出器１０３が初期の音声環境にすなわち新しい音声環境にまだ十分には適用していないときの急激に変化する音声環境条件内で使用される。

ここで第１図に示す装置への全体的動作を考えてみる。類別子発生器１０１は各音声フレームに応答して、音声エネルギーの対数（ｌｏｇ）　、ＬＰＧ　（線形予測分布）ゲインの対数、第１の反射係数の対数面積比、および１ピッチ周期だけオフセットされている１フレーム長の２つの音声セグメントの二乗相関係数であることが好ましい類別子（ｃｌａｓｓｉｆｉｅｒ）を発生する。これらの類別子の計算は、アナログ音声ディジタルにサンプリングすること、ディジタルサンプルのフレームを形成すること、およびこれらのフレームを処理すること、とを含み、これは当業者には周知である。発生器１０１は通路１０６を介して類別子を検出器１０２および１０３に伝送する。

検出器１０２および１０３は通路１０６を介して受取られた類別子に応答して無声音／有声音判別を行い、通路１０７および１１０の各々を介してこれらの判別をマルチプレクサ１０５に伝達する。さらにこれらの検出器は有声音フレームと無声音フレームとの間の距離尺度を決定し、通路１０ｇおよび１０９を介してこれらの距離を比較器１０４に伝送する。これらの距離はマハラノビス（Ｍａｈａｒａｎｏｂｉｓ）距離または他の一般化距離であることが好ましい。比較器１０４は通路Ｌｏｌｌ及び１０９を介して受取られた距離に応答してマルチプレクサ１０５を制御し、この結果後者のマルチプレクサは最大距離を発生している検出器出力を選別する。

第２図は統計的有声音検出器１０３をさらに詳細に示す。各音声フレームに対して、通路１０Ｂを介して類別子発生器１０１から類別子のベクトルとも呼ばれる１組の類別子が受取られる。沈黙検出器２０１はこれらの類別子に応答してこのフレーム内に音声が存在するか否かを判別する。もし音声が存在すれば、検出器２０１は通路２１０を介して信号を伝送する。もしフレーム内に音声が存在しなければ（沈黙）、このときのみ減算器２０７およびＵ／Ｖ　（無声音／有声音）判別器２０５がその特定のフレームのために作動する。

音声が存在するか否かに関しては、判別器２０５により各フレーム毎に無声音／有声音判別が行われる。

類別子平均器２０２は検出器２０１からの信号に応答して、現フレームに対する類別予肉でそれ以前のレームに対する類別子と平均することにより、通路１０６を介して受取られた個々の類別子の平均を維持する。フレーム内にもし音声（沈黙でない）が存在すれば、沈黙検出器２０１は通路２１０を介して統計的計算器２０３、発生器２０６、および平均器２０２とに信号を送る。

統計的計算器２０３は有声音フレームおよび無声音フレームに対する統計的分布を計算する。とくに計算器２０３は通路２１０を介して受取られた信号に応答しであるフレームが無声音である総合確率およびあるフレームが有声音である確率とを計算する。さらに統計的計算器２０３はそのフレームが無声音であった場合に各類別子が有するであろう統計値およびそのフレームが有声音であった場合に各類別子が有するであろう統計値とを計算する。さらに計算器２０３は類別子の共分散マトリックスを計算する。この統計値は平均値であることが好ましい。計算器２０３により行われる計算は、現フレームに基づくのみでなくそれ以前のフレームにも基づいている。統計的計算器２０３は、これらの計算を、通路１０Ｂを介して受取られる現フレームに対する類別子および通路２１１を介して受取られる類別子の平均に基づくのみでなく、各類別子のための重みおよびフレームが無声音であるかまたは有声音であるかを判別するところの、通路２１３を介して重み計算器２０４から受取られたしきい値とにも基づいて行う。

重み計算器２０４は、計算器２０３により発生され通路２１２を介して受取られた現フレームに対する類別子の確率、共分散マトリックス、および統計値に応答して、各類別子に対する重みベクトルａ１および現フレームに対するしきい値す、とを再計算する。次にこれらの新しいａおよびｂの値は通路２１３を介して統計的計算器２０３に逆伝送される。

重み計算器２０４はまた無声音と有声音との両方の領域内における類別子のための重みおよび統計値を通路２１４を介して判別器２゜５に伝送しかつ通路２０８を介して発生器２０６に伝送する。後者の発生器はこの情報に応答して距離尺度を計算し、この距離尺度は次に第１図に示すように通路１０９を介して比較器１０４に伝送される。

Ｕ／Ｖ　（無声音／有声音）判別器２０５は通路２１４および２１５を介して伝送された情報に応答してこのフレームが無声音であるかまたは有声音であるかを判別し、この判別器を通路１１０を介して第１図のマルチプレクサ１０５に伝送する。

ここで第２図に示し、ここではベクトルおよびマトリックス数学で与えられる各ブロックの動作をさらに詳細に説明する。平均゛　器２０２、統計的計算器２０３、および重み計算器２０４とは、ニヌ・イー・ディ（Ｎ、Ｅ、Ｄａｙ）著の「混合正規分布の成分の推定」　（“Ｅｓｔｉｍａｔｉｎｇ　ｔｈｅ　Ｃｏｍｐｏｎｅｎｔｓ　ｏｒ　ａ　Ｍｉｘｔｕｒｅ　ｏｒ　Ｎｏｒｍａｌ　Ｄｉｓｔｒｉｂｕｔｉ。

ｎｏ、ビオメトリカ［Ｂｉｏｍｅｔｒｉｋａコ誌、第５６巻、第３号、４６３− ４７４ページ、１９６９）という題名の論文に記載されたものに類似の改良ＥＭアルゴリズムを実行する。くずし平均（ｄｅｅａｙｉｎｇ　ａＶｅｒａｇｅ）の概念を用いて、類別子平均器２０２は次式１．２、および３を計算することにより、現フレームおよびそれ以前のフレームに対する類別子の平均を計算する。

ｎ＝ｎ＋１　ｉｆｎ＜２０００　（１）Ｚ　−１／ｎ　（２） ”ｎ　＝　（１−ｚ）　Ｘｎ−１”−（ａ）Ｘ　は現フレームのための類別子を示すベクトルであり、ｎは２０００までの処理フレーム数である。２はくずし平均係数を示し、Ｘ　は現フレームおよび過去のフレームの全部の類別子の平均を示す。統計的計算器２０３はＺｓｘｎおよびＸｎ情報の受領に応答して、次のようにまず二乗および積の和のマトリックスＱ　を計算することにより共分散マトリックスＴを計算する。

Ｑｎ＝　（１−ｚ）　Ｑｎ−１＋　ｚ　ｘ、　ｘ’、　、　（４）Ｑ　が計算されると、次のようにＴが計算される。

Ｔ＝、Ｑｎ　−Ｘ、　Ｘ’、　、　（５）類別子から次のように平均値が差引かれる。

Ｘｌｌ　＝　Ｘｌｌ　−Ｘｎ　（ｅ）次に計算器２０３は以下に示す式（７）を解くことにより、現ベクトルＸ　により表わされるフレームが無声音である確率を決定するが、ここでベクトルａの成分は、音声エネルギーの対数に対応する成分は０．３９１１＋６０８に、ＬＰＧゲインの対数に対応する成分は一〇、０５２Ω９０２に、Ｎ１反射係数の対数面積比に対応する成分は０．５６３７０８２に、および二乗相関係数に対応する成分は、１．３８１２４９に等しく初期化し、またｂは最初−８，３６４５４に等しく初期化することが好ましい。

（７）式を解いた後に計算器２０３は次式を解くことにより、類別子が有声音フレームを表わす確率を決定する。

Ｐ（ｖｌｘ、）　＝　１−Ｐ（ｕｌｘ？ｌ）　（８）次に計算器２０３はｐ　をめる式（９）を解くことにより、あるフレームが無声音であろうという総合確率を決定する。

Ｐａ　＝　（１−ｚ）　ｐＨ−１＋　Ｚ　Ｐ（ｕｌｘ、）　、　（９）フレームが無声音であろうという確率を決定した後に、次に計算器２０３は無声音型および有声音型の両方のフレームに対する各類別子の平均値を与える２つのベクトルＵおよびＶを決定する。ベクトルＵおよびＶはそれぞれ無声音フレームおよび有声音フレームに対する統計的平均である。統計的平均無声音ベクトルであるベクトルＵは、もしフレームが無声音であるならば各類別子の平均値を含み：また統計的平均有声音ベクトルであるベクトルＶは、もしフレームが有声音であるならば各類別子に対する平均値を与える。以下に示すように、現フレームに対するベクトルＵは式（１０）を計算することにより解かれ、現フレームに対するベクトルＶは式（１１）を計算することにより決定される。

”ｎ　＝　（１−２）　”＋＞ｔ　＋　ｚ　ｘＩＩＰ（ｕｌ”ｎ）／Ｐｎ　−” ！１　（１０）ｖ、　＝　（１−ｚ）　ｖｎ−１＋　ｚ　ｘ、　Ｐ（ｖｌｘ、ｌ）／（１−ｐＨｌ）　−ＺＸｎ　（１１）ここで計算器２０３は、通路２１２を解してベクトルＵおよびＶ、マトリックスＴ１および確率ｐを重み計算器２０４に伝送する。重み計算器２０４はこの情報に応答してベクトルａおよびスカラーｂに対する新しい値を計算する。次にこれらの新しい値は通路２１３を介して統計的計算器２０３に逆伝送される。これにより検出器１０３は変化する環境に迅速に適応可能である。ベクトルａおよびスカラーｂに対する新しい値が統計的計算器２０３に逆伝送されなくても、ベクトルＵおよび■が最新の値とされているので検出器１０３は変化する環境に適応し続けるであろう。明らかなように、判別器２０５はベクトルＵおよびＶ並びにベクトルａおよびスカラーｂを用いて音声判別を行う。ｎが好ましくは９９より大きくなると、ベクトルａおよびスカラーｂは次式のように計算される。ベクトルａは式を解くことにより決定される。

スカラーｂは次式を解くことにより決定される。

ｂ　＝　７　ａ’（ｈ＋ｖｎ）　＋　ｌｏｇ［（１−Ｐｎ鳥］　、　（１３）式（１２）および（１３）を計算した後に、重み計算器２０４は通路２１４を介してベクトルａＳｕ、およびＶをＵ／Ｖ２判別器０５　に伝送する。

もしフレームが沈黙を含んだ場合は式（６）のみが計算される。

判別器２０５はこの伝送された情報に応答して現フレームが有声音であるかまたは無声音であるかを判別する。もし出力に対応するベクトル（Ｖ　−Ｕ　）の成分が正であれば、このときは、もｎ　ｎし次式が真であるならばフレームは有声音であると宣言される。

ａ’ｘ、　−ａ’（ｕｎ＋ｖｎ）／２　＞　Ｏ；　（１４）またはもし出力に対応するベクトル（Ｖ　−Ｕ　）の成分が負でｎｎあれば、このときは、もし次式が真であるならばフレームは有声音であると宣言される。

ａ’ｘ、−ａ’（ｕｎ＋ｖ、）／２＜Ｏ、（１５）式（１４）はまた次式のようにも書き替えられる。

ａ’　ｘ　＋ｂ−１ｏｇ　［（１−ｐ　）／ｐ　コ　〉Ｏｎ　ｎ　１式（１５）はまた次式のようにも書き替えられる。

ａ’　ｘ　＋ｂ−１ｏｇ　［（１−ｐ　）　／ｐ　コ　く　Ｏｎ　ｎ　ｎもし前記の条件が満たされないならば、判別器２０５はフレームが無声音であると宣言する。式（１４）および（１５）は音声判別を行うための判別領域を表わす。（１４）および（１５）の書き替え形式のｌｏｇの項は性能を少し変えれば省略可能である。本実施例においては、出力に対応する成分は音声エネルギーのｌｏｇであるのが好ましい。

発生器２０６は通路２１４を介して計算器２０４から受取られた情報に応答して次のように距離尺度Ａを計算する。まず最初に、次のように式（１６）により識別変数ｄが計算される。

ｄ　＝　ａ’ｘ、　＋　ｂ　−ｌｏｇ［（１−ｐ、）／ｐ、］　、　（１Ｂ）次の諸式で用いるためのｄに類似の値を発生するために、種々のタイプの音声検出器を用いることは好ましく、これは当業者には明らかであろう。このような検出器の１つが自己相関検出器であろう。もしフレームが有声音であれば、式（１７）ないしく２０）は次のように解かれる。

５１　＝　（１−ｚ）　ｓ１＋　ｚｄ２．　（１ｇ）ｋｌ＝　５１−　ｍ？　（１９）ここでｍｌは有声音フレームに対する平均であり、ｋｌは有声音フレームに対する分散である。

フレームが無声音であると判別器２０５が宣言するであろう確率Ｐ、は次式で計算される。

ｐｄ＝　（１−ｚ）　Ｐ、１　、　（２０）Ｐ、は最初０．５に設定されるのが好ましい。

もしフレームが無声音ならば、式（２１）ないしく２４）は次のように解かれる。

ｒｘ４　＝　（１−ｚ）　ｍｏ＋　ｚｄ　、　（２１）フレームが無声音であると判別器２０５が宣言するであろう確率Ｐ、は次式で計算される。

Ｐｄ＝　（１−ｚ）　Ｐｄ＋　ｚ　、　、（２４）式（１６）ないしく２２）を計算した後に距離尺度すなわちメリット値が次のように計算される。

式（２５）はホテリング（Ｈｏｔｅｌ　ｌｉｎｇ）の２サンプルＴ２統計を用いて距離尺度を計算する式（２５）に対して、メリット値が大きくなればなるほど分離は大きくなる。しかしながら他のメリット値は、メリット値が小さくなればなるほど分離は大きくなるところに存在する。好ましいことに距離尺度は次式で与えられるマハラノビス距離であってよい。

好ましいことに第３の方法は次式で与えられる。

好ましくは、距離尺度を計算するために第４の方法は次式で示される。

Ａ　＝１’（ｖｎ−ｕ？ｌ）　（２８）識別検８器１０２は、もしａ’　ｘ＋ｂ＞ｏならば有声音フレーム・を指示する情報を通路１０７を介してマルチプレクサ１０５に伝送することにより無声音／有声音判別を行う。もしこの条件が真でなければ、このときは検出器１０２は無声音フレームを指示する。検出器１０２により使用されるベクトルａおよびスカラーｂに対する値は好ましいことに統計的有声音検出器１０３に対するａおよびｂの初期値と同一である。

検出器１０２は、式（１６）ないしく２８）に与えられるものと類似の計算を実行することにより発生器２０Ｂに類似の方法で距離尺度を決定する。

第３図および第４図は第２図の統計的有声音検出器１０３により実施される操作を流れ図の形式でさらに詳細に示す。ブロック０２および３００はそれぞれ第２図のブロック２０２および２０１を実行する。ブロック３０４ないし３１８は統計的計算器２０３を実行する。ブロック３２０および３２２は重み計算器２０４を実行し、ブロック３２Ｂないし３３８は第２図のブロック２０５を実行する。

第２図の発生器２０Ｂはブロック３４０により実行される。減算器２０７はブロック３０８またはブロック３２４により実行される。

ブロック３０２は現フレームとそれ以前の全てのフレームとに対する類別子の平均を示すベクトルを計算する。ブロック３００は現フレーム内には音声が存在するかまたは沈黙が存在するかを判別する。そしてもし現フレーム内に沈黙が存在すれば、制御が判別ブロック３２Ｂに引渡される前にブロック３２４により各類別子から各類別子に対する平均が差引かれる。しかしながらもし現フレーム内に音声が存在すれば、このときはブロック３０４ないし３２２　＋、：より統計的計算および重み計算が実行される。まず第１番目にブロック３０２において平均ベクトルがめられる。第２番目にブロツク３０４において二乗および積の和のマトリックスが計算される。

次にブロック３０Ｂにおいて、現フレームおよび過去のフレームに対する類別子の平均を示すベクトルＸと共に後者のマトリックスが使用されて共分散マトリックスＴを計算する。次にブロック３０８において類別子ベクトルＸ　から平均Ｘが差引かれる。

次にブロック３１０は、現在の重みベクトルａ１現在のしきい値ｂ１および現フレームに対する類別子のベクトルＸ　とを利用することにより、現フレームが無声音である確率を計算する。現フレームが無声音であるという確率を計算した後に、ブロック３１２により現フレームが有声音である確率が計算される。次にブロック３１４によりあるフレームが無声音であろうという総合確率ｐｎが計算される。

ブロック３１Ｂおよび３１８は２つのベクトルＵおよびＶを計算する。ベクトルＵの中に含まれる値は、もしそのフレームが無声音であったならば各類別子が持つであろう統計的平均値を表わす。

一方ベクトルＶは、もしそのフレームが有声音であったならば各類別子が持つであろう統計的平均値を表わす値を含む。現フレームおよびそれ以前のフレームに対する類別子の実際の値はベクトルＵまたはベクトルＶのまわりにクラスタ（集団化）される。もしこれらのフレームが無声音であることがわかると、それ以前のフレームおよび現フレームに対する類別子を表わすベクトルはベクトルＵのまわりにクラスタされ二そうでなければそれ以前の類別子ベクトルはベクトルＶのまわりにクラスタされる。

ブロック３１Ｂおよび３１ｇを実施した後に制御は判別ブロック３２０に引き渡される。もし、Ｎが９９より大きければ、制御は判別ブロック３２２に引渡され；そうでなければ制御はブロック３２Ｂに引渡される。制御を受取ると、ブロック３２２は次に新しい重みベクトルａおよび新しいしきい値すを計算する。ベクトルａおよび値すは次に続くフレーム内で第３図内のそれに先行するブロックにより使用される。好ましくは、もしＮが無限大より大であることが要求されるならば、ベクトルａおよびスカラーｂは決して変えられないで、検出器１０３はブロック３２６ないし３２８内に示すようにベクトルＶおよびＵにのみ応答して適応するであろう。

ブロック３２Ｂないし３３８は第２図のｕ　／　ｖ判別器２０５を実行する。ブロック３２６は現フレームのベクトルＶのパワー項（ｐｏ警ｅｒｔｅｒｍ）がベクトルＵのパワー項以上か否かを判別する。もしこの条件が真であれば、このときは判別ブロック３２８が実行される。

後者の判別ブロックは、テストにより有声音かまたは無声音かを判別する。もしブロック３２８の判別においてフレームはブロック３３０により有声音として表示され、そうでなければフレームはブロック３３２により無声音として表示される。もしベクトルＶのパワー項より小であるならば、ブロック３３４ないし３３８の機能が実行され同様に機能する。最後にブロック３４０が距離尺度を計算する。

第５図は第４図のブロック３４０により実行される動作を流れ図の形で詳細に示す。判別ブロック５０１は、ブロック３３０．３３２．３３６または３３８の結果を調べることによりフレームが無声音と指示されたかまたは有声音と指示されたかを判別する。もしフレームが有声音と指定されたならば通路５０７が選択される。ブロック５１０は確率Ｐ、を計算し、ブロック５０２は有声音フレームに対する平均ｍ１を再計算し、およびブロック５０３は有声音フレームに対する分散に１を再計算する。もしフレームが無声音と判別されたならば判別ブロック５０１は通路５０８を選択する。ブロック５０９は確率Ｐｄを再計算し、ブロック５０４は無声音フレームに対する平均ｍｏを再計算し、およびブロック５０５は無声音フレームに対する分散ｋｏを再計算する。最後にフロック５０６は指示された計算を実行することにより距離尺度を計算する。

の　ロＦＩＧ、３ＦＩＧ、４ＦＩＧ、５国際調査報告

Claims

【特許請求の範囲】

（１）複数組の状態信号により定義された物理的過程（プロセス）の現在の状態を複数の状態群の１つとして識別するための装置において：処理中に前記組の各々に応答して前記状態群の各々に対する統計的分布を推定するための手段と；前記統計的分布に応答して前記状態群の各々を表わす判別領域を決定するための手段と；前記判別領域および前記組の現在のものとに応答して現在の状態を前記状態群の１つとして類別するための手段と；を含む装置。
（２）前記統計的分布を推定するための手段が既に処理された組の数に応答することを特徴とする請求項１に記載の装置。
（３）前記推定手段が：前記組の前記現在のものと前記組の以前のものの統計的分布とに応答して、前記状態群の各々に対して前記現在の状態のものが前記状態群の各々の一部である確率を計算する手段と；前記組の前記現在および過去のものと前記状態の前記現在のものが前記状態群の各々の一部である確率とに応答して、ある状態が前記状態群の各々の一部となるであろう総合確率を計算するための手段と；前記状態群の各々に対して前記の現在のものが前記状態群の各々の一部である確率とある状態が前記状態群の各々の一部である前記総合確率とに応答して、前記状態群の各々の統計的分布を計算するための手段と；を含むことを特徴とする請求項１に記載の装置。
（４）前記統計的分布を計算するための手段が：処理された前記組の数のくずし（ｄｅｃａｙｉｎｇ）値を決定し、前記組の数が所定数を越えたら前記くずし値を前記所定数に制限するための手段と；前記くずし値を、前記組の以前のものに対して計算された前記状態群の各々の統計的分布と算術的に組合わせる手段と；前記組の現在のものと、前記組の現在のものが前証状態群の各々の一部である確率と、ある状態が前記状態群の各々の一部である総合確率、とに応答して、前記くずし値を算術的に組合わせる手段と；前記状態群の各々の算術的組合わせに応答して、前記状態群の各々の統計的分布を発生するための手段と；前記組の現在および過去のものに応答して前記状態群の各々に対して前記組の前記現在および過去のものの共分散を計算するための手段を含む前記決定するための手段と；前記状態群の各々の共分散に応答して前記状態群の各々に対する判別領域を発生するための手段と；をさらに含むことを特徴とする請求項３に記載の装置。
（５）１つの音声フレームの音声属性を定義する１組の類別子に応答して１組の統計的パラメータを計算するための第１の手段と；計算された１組のパラメータに応答して各々前記類別子の１つに付属する１組の重みを計算するための第２の手段と；計算された１組の重みおよび類別子と前記１組のパラメータとに応答して、前記音声フレーム内における基本周波数の存在を判定するための第３の手段と；を含む音声フレーム内における基本周波数の存在を判定するための装置。
（６）前記第２の手段が；前記１組の前記パラメータに応答してしきい値を計算するための手段；および前記１組の前記重みおよび前記しきい値を、前記音声フレームの他の１つに対する他の１組のパラメータを計算するのに使用されるように前記第１の手段に連絡するための手段；を含むことを特徴とする請求項５に記載の装置。
（７）前記第１の手段が、連絡された１組の重みと前記フレームの前足他の１つの前記音声属性を定義する他の１組の類別子とにさらに応答して、他の１組の統計的パラメータを計算することを特徴とする請求項６に記載の装置。
（８）前記第１の手段が：前記音声フレームの以前のものに対する前記類別子の各々の平均を計算するための手段と；前記音声フレームの前記以前のものに対する前記類別子の前記平均されたもの、前記連絡された１組の重み、および前記他の１組の類別子、に応答して前記他の１組の統計的パラメータを決定するための手段と；を含むことを特徴とする請求項７に記載の装置。
（９）前記第１の手段が：前記フレームの各々における音声の存在を検出するための手段と；前記フレームの前記他の１つ内に音声が検出されなかったときに前記他の１組の統計的パラメータの計算を中止させるための手段と；をさらに含むことを特徴とする請求項８に記載の装置。
（１０）前記第１の手段が：前記他の組の類別子が無声音フレームを表わす確率および前記他の組の類別子が有声音フレームを表わす確率を計算するための手段と；あるフレームが無声音である総合確率を計算するための手段と；をさらに含むことを特徴とする請求項９に記載の装置。
（１１）前記第１の手段か、無声音フレームを表わす１組の統計的平均類別子および有声音フレームを表わす１組の統計的平均類別子をさらに含むことを特徴とする請求項１０に記載の装置。
（１２）前記第１の手段が、前記フレームの前記他の１つに対し無声音フレームを表わす前記１組の平均類別子と前記フレームの前記他のものに対し無声音フレームを表わす前記１組の類別子との間の共分散マトリックスを計算するための手段をさらに含むことを特徴とする請求項１１に記載の装置。
（１３）第２の手段が、共分散マトリックス、有声音および無声音フレームの両方に対する前記統計的平均類別子の組、およびフレームが無声音である前記総合確率、に応答して前記他の組のパラメータを決定することを特徴とする請求項１２に記載の装置。
（１４）前記第３の手段が、前記パラメータの他の組および有声音および無声音フレームに対する前記統計的平均類別子の組に応答して前記フレームの前記他のものにおける前記基本周波数の存在を判定することを特徴とする請求項１３に記載の装置。
（１５）１つの音声フレームの音声属性を定義する１組の類別子に応答して１組のパラメータをクラスタ（集団化）すること；計算された１組のパラメータに応答して各々前記類別子の１つに付属する１組の重みを計算すること；および計算された１組の重みおよび類別子と前記１組のパラメータとに応答して前記音声フレーム内における前記基本周波数の存在を判定すること；からなる音声フレーム内における基本周波数の存在を判定するための方法。
（１６）前記１組の重みを計算する前記ステップが：前記１組の前記パラメータに応答してしきい値を計算するステップ；および前記１組の前記重みおよび前記しきい値を、前記音声フレームの他の１つに対する他の１組のパラメータを計算するのに使用されるように前記第１の手段に連絡するステップ；を含むことを特徴とする請求項１５項に記載の方法。
（１７）前記１組の統計的パラメータを計算する前記ステップが、連絡された１組の重みと前記フレームの前記他の１つの前記音声属性を定義する他の１組の類別子とにさらに応答して、他の１組の統計的パラメータを計算することを特徴とする請求項１６に記載の方法。
（１８）前記１組の統計的パラメータを計算する前記ステップが：前記音声フレームの以前のものに対する前記類別子の各々の平均を計算するステップ；および前記音声フレームの前記以前のものに対する前記類別子の前記平均されたもの、前記連絡された１組の重み、および前記他の１組の類別子、に応答して前記他の１組の統計的パラメータを計算するステップ；をさらに含むことを特徴とする請求項１７に記載の方法。
（１９）前記１組の統計的パラメータを計算する前記ステップが：前記フレームの各々における音声の存在を検出するステップ；および前記フレームの前記他の１つ内に音声が検出されなかったときに前記他の１組の統計的パラメータの計算を中止させるステップ；をさらに含むことを特徴とする請求項１８に記載の方法。
（２０）前記１組の統計的パラメータを計算する前記ステップが：前記他の組の類別子が無声音フレームを表わす確率および前記他の組の類別子が有声音フレームを表わす確率とを計算するステップ：およびあるフレームが無声音である総合確率を計算するステップ；をさらに含むことを特徴とする請求項１９に記載の方法。
（２１）前記１組のパラメータを計算する前記ステップが、無声音フレームを表わす統計的平均化類別子および有声音フレームを表わす１組の統計的平均類別子をさらに含むことを特徴とする請求項１８項に記載の方法。
（２２）前記１組の統計的パラメータを計算する前記ステップが、前記フレームの他の１つに対し無声音フレームを表わす前記１組の平均類別子と前記フレームの前記他の１つに対し無声音フレームを表わす前記１組の類別子との間の共分散マトリックスを計算するステップをさらに含むことを特徴とする請求項２１に記載の方法。