JPH01502853A

JPH01502853A - 有声判定装置および有声判定方法

Info

Publication number: JPH01502853A
Application number: JP63501560A
Authority: JP
Inventors: トムソン，デビッド　リン
Original assignee: アメリカン　テレフォン　アンド　テレグラフ　カムパニー
Priority date: 1987-04-03
Filing date: 1988-01-11
Publication date: 1989-09-28
Anticipated expiration: 2010-10-11
Also published as: SG59693G; ATE80488T1; JPH0795238B2; EP0310636B1; AU602957B2; AU1242988A; CA1336212C; DE3874471D1; DE3874471T2; HK108993A; WO1988007740A1; EP0310636A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】多重検出器系の距離尺度制御［技術分野］本発明は音声が基本周波数の存在を有するか否かの判定に関する。これは音声判別とも呼ばれる。さらにとくには本発明は、音声判別を行うために音声サンプルを同時に処理する複数の有声音検出器の１つの選択であって、距離尺度計算に基づいて行われる選択に関する。

［背景技術および問題点］低ビット速度音声コーダにおいてはしばしば、不正確な音声判別のために音声品質の低下が生ずる。これらの音声判別を正確に行う際の困難な点は、単一の音声パラメータすなわち類別子（Ｃ１ａｓｓｉｆｉｅｒ）では有声音音声と無声音音声との識別に信頼性がないという事実にある。音声が有声音であるかまたは無声音であるかの判定のために多重有声音検出器を使用することおよびこれらの検出器の１つを選択することは、シー・ピー・キャンベル（Ｃ，Ｐ。

Ｃａｍｂｅｌｌ）他の論文「音声の有声音／無声音類別の米国政府ＬＰＧ−１０Ｅアルゴリズムへの適用Ｊ　ＩＥＥＥ音響・音成および信号処理国際会議資料、１９８６年、東京、第９．１１．４巻、４７３−４７６ページ（Ｖｏｉｃｅｄ／Ｕｎｖｏｉｃｅｄ　Ｃ１ａｓｓｉｆ’１ｃａｔｉｏｎ　ｏｆ　５ｐｅｅｃｈ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｌｏｎ　ｔｏ　ｔｈｅ　Ｕ、Ｓ、Ｇｏｖｅｒｎｍｅｎｔ　ＬＰＣ−１０Ｅ　Ａｌｇｏｒｉｔｈｍ　’　、ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｒｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓｔｉｃｓ、　５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ、　１９８Ｂ、Ｔｏｋｙｏ　、　Ｖｏｌ、９．１１．４．　ｐｐ、４７３−４７６）に開示されている。この論文は、各音声フレームに対し同じ音声類別子を処理するために各々異なる重みとしきい値とを利用する多重線形識別有声音検出器の使用を開示している。各検出器に対する重みおよびしきい値は学習データを使用することにより決定される。各検出器に対し、学習データに異なるレベルの白色雑音が加えられる。

実際の音声の処理中にＳＮ比（信号対雑音比、５ＮＲ）を調べることにより音声判別を行うべき検出器が決定される。ＳＮ比がもつことができる可能値の範囲（レンジ）は、各々が検出器の１つに割当てられる副範囲（サブレンジ）に分割される。各フレームに対Ｃ８Ｎ比が計算され、副範囲が決定され、音声判別を行うためにこの副範囲に付属する検出器が選択される。

この方法に伴う問題点は、音声の特徴自身が変えられてしまうような音声環境に関してはそれは良好に実行しないことである。

さらにキャンベルにより用いられた方法は白色雑音にのみ適応され色雑音には調節が可能ではない。したがって、変化する音声環境において検出を可能とする複数の有声音検出器間の選択方法に対する需要が存在してくる。

［解決法］上記の問題点は、有声音検出器の各々により発生された分離値またはメリット値を比較して複数の有声音検出器の中から選択される有声音検出装置により解決されかつ技術的進歩が達成される。

分離値はまた距離尺度とも呼ばれる。

この装置は各々が分離値を発生する識別検出器または統計的検出器のような異なる形式の有声音検出器を含む。この装置内の比較器は、音声が有声音であるかまたは無声音であるかを判別するために、最大分離値を発生している有声音検出器を選択する。分離値は統計的−膜化距離であることが好ましい。

すべての有声音検出器はフレームが有声音であるかまたは無声の各々に対する識別変数を決定する。変数を決定した後、各検出器は以前および現在のフレームの有声音および無声音の両方のものに対する平均値を決定する。各検出器は以前および現在のフレーム有声音および無声音のものに対する分散値を決定する。平均および分散を計算した後に、各検出器は有声音フレームに対する平均値および分散値と無声音フレームに対する平均値および分放せることにより行われるのが好ましい。各無声音フレームの平均値が各有声音フレームの平均値から差引かれる。各フレームに対してこの差引かれた値が二乗され、分散値の重みつき和が請求められた二乗された差引値で割られる。重みつき和を形成する前に、各検出器は有声音フレームに対する分散値に有声音フレームの発生確率を乗じ、無声音フレームに対する分散値に無声音フレームの発生確率を乗することが好ましい。さらに二乗された差引値を重みつき和で割る前に、二乗された差引値に有声音フレームの発生確率および無声音フレームの発生確率が掛けられる。

この方法は、識別検出器により有声音および無声音フレーム間の分離を定義する第１のメリット値を計算するステップ、前記統計的有声音検出器により有声音および無声音フレーム間の分離を定義する第２のメリット値を計算するステップ、およびフレームが有声音であるかまたは無声音であるかを指示するために最良メリット値を計算した検出器を選択するステップ、とを含む。

［図面の簡単な説明コ本発明は図面を参照にしながら以下の詳細な説明を読めば容易に理解されよう。

ここで：第１図は本発明を用いた装置のブロック図；第２図は本発明をブロック図の形で表わした図；第３図および第４図は第２図の統計的有声音検出器１０３により実行される機能をさらに詳細に表わした図；第５図は第４図のブロック３４０で実行される機能をさらに詳細に表わした図である。

［詳細な説明］第１図は２つの有声音検出器の間で１つを選択することにより無声音／有声音判別動作を実行するための装置を示す。第１図において２つより多い有声音検出器を使用することは当業者にとって明らかであろう。検出器１０２および１０３の間の選択は、各検出器により発生されて距離比較器１０４に伝送される距離尺度に基づいて行われる。発生される各距離尺度は発生検出器の音声判別の正確さを指示するメリット値を表わす。距離比較器１０４は２つの距離尺度値を比較し、無声音／有声音判別を行うために最大距離尺度値を発声する検出器が選択されるようにマルチプレクサ１０５を制御する。しかしながら、他の尺度タイプに対しては、最小メリット値が検出器に最も正確な音声判別を行うように指示するであろう。距離尺度はマハラノビス距離であることが好ましい。検出器１０２は識別検出器であり、検出器１０３は統計的検出器であることが好ましい。しかしながら、検出器はすべて同じタイプであってもよく、また系内に２つを超える検出器が存在してもよいことは当業者には明らかであろう。

ここで第１図に示す装置の全体的動作を考えてみる。類別子発生器１０１は各音声フレームに応答して、音声エネルギーの対数（ｌｏｇ）　、ＬＰＧ　（線形予測分析）ゲインの対数、第１反射係数の対数面積比、および１ピッチ周期だけオフセットされている１フレーム長の２つの音声セグメントの二乗相関係数であることが好ましい類別子（ｃｌａｓｓｉｆｉｅｒ）を発生する。これらの類別子の計算は、アナログ音声をディジタルにサンプリングすること、ディジタルサンプルのフレームを形成すること、およびこれらのフレームを処理すること、とを含み、これは当業者には周知である。発生器１０１は通路１０６を介して類別子を検出器１０２および１０３に伝送する。

検出器１０２および１０３は通路１０６を介して受取られた類別子に応答して無声音／有声音判別を行い、通路１０７および１１０の各々を介してこれらの判別をマルチプレクサ１０５に伝達する。さらにこれらの検出器は有声音フレームと無声音フレームとの間の距離尺度を決定し、通路１０８および１０９を介してこれらの距離を比較器１０４に伝送する。これらの距離はマハラノビス（Ｍａｈａｒａｎｏｂｉｓ）距離または他の一般化距離であることが好ましい。比較器１０４は通路１０８および１０９を介して受取られた距離に応答してマルチプレクサ１０５を制御し、この結果後者のマルチプレクサは最大距離を発生している検出器出力を選別する。

第２図は統計的有声音検出器１０３をさらに詳細に示す。各音声フレームに対して、通路１０Ｂを介して類別子発生器１０１から類別子のベクトルとも呼ばれる１組の類別子が受取られる。沈黙検出器２０１はこれらの類別子に応答してこのフレーム内に音声が存在するか否かを判別する。もし音声が存在すれば、検出器２０１は通路２１０を介して信号を伝送する。もしフレーム内に音声が存在しなければ（沈黙）、このときのみ減算器２０７およびＵ／Ｖ　（無声音／有声音）判別器２０５がその特定のフレームのために作動する。

音声が存在するか否かに関しては、判別器２０５により各フレームごとに無声音／有声音判別が行われる。

類別子平均器２０２は検出器２０１からの信号に応答して、現フレームに対する類別子内でそれ以前のフレームに対する類別子と平均することにより、通路１０６を介して受取られた個々の類別子の平均を維持する。フレーム内にもし音声（沈黙でない）が存在すれば、沈黙検出器２０１は通路２１０を介して統計的計算器２０３、発生器２０６、および平均器２０２とに信号を送る。

統計的計算器２０３は有声音フレームおよび無声音フレームに対する統計的分布を計算する。とくに計算器２０３は通路２１０を介して受取られた信号に応答して、あるフレームが無声音である総合確率およびあるフレームが有声音である確率とを計算する。さらに統計的計算器２０３は、そのフレームが無声音であった場合に各類別子が有するであろう統計値およびそのフレームが有声音であった場合に各類別子が有するであろう統計値とを計算する。さらに計算器２０３は類別子の共分散マトリックスを計算する。この統計値は平均値であることが好ましい。計算器２０３により行われる計算は、現フレームに基づくのみでなくそれ以前のフレームにも基づいている。統計的計算器２０３は、これらの計算を、通路１０６を介して受取られる現フレームに対する類別子および通路２１１を介して受取られる類別子の平均に基づくのみでなく、各類別子のための重みおよびフレームが無声音であるかまたは有声音であるかを判別するところの、通路２１３を介して重み計算器２０４から受取られたしきい値とに基づいている。

重み計算器２０４は、計算器２０３により発生された通路２１２を介して受取られた現フレームに対する類別子の確率、共分散マトリックス、および統計値に応答して、各類別子に対する重みベクトルａ１および現フレームに対するしきい値ｂ１とを再計算する。

次にこれらの新しいａおよびｂの値は通路２１３を介して統計的計算器２０３に逆伝送される。

重み計算器２０４はまた無声音と有声音との両方の領域内における類別子のための重みおよび統計値を通路２１４を介して判別器２゜５に伝送しかつ通路２０８を介して発生器２０６に伝送する。後者の発生器はこの情報に応答して距離尺度を計算し、この距離尺度は次に第１図に示すように通路１０９を介して比較器１０４に伝送される。

Ｕ／Ｖ　（無声音／有声音）判別器２０５は通路２１４および２１５を介して伝送された情報に応答してこのフレームが無声音であるかまたは有声音であるかを判別し、この判別器１１０を介して第１図のマルチプレクサ１０５に伝送する。

ここで第２図に示し、ここではベクトルおよびマトリックス数学で与えられる各ブロックの動作をさらに詳細に説明する。平均器２０２、統計的計算器２０３、および重み計算器２０４とは、エヌ・イー・ディ（Ｎ、Ｅ、Ｄｅｙ）著の「混合正規分布の成分の推定」　（“Ｅｓｔｉｍａｔｉｎｇ　ｔｈｅ　Ｃｏｍｐｏｎｅｎｔｓ　ｏｒ　ａ　Ｍｉｘｔｕｒｅ　ｏｆ’　Ｎｏｒｍａｌ　Ｄｉｓｔｒｉｂｕｔｉ。

ｎ−、ビオメトリカ［Ｂｉｏｍｅｔｒｉｋａ］誌、第５６巻、第３号、４６３− ４７４ページ、１９６９）という題名の論文に記載されたものに類似の改良ＥＭアルゴリズムを実行する。くずし平均（ｄｅｃａｙｉｎｇ　ａｖｅｒａｇｅ）の概念を用いて、類別子平均器２０２は次式１．２および３を計算することにより、現フレームおよびそれ以前のフレームに対する類別子の平均を計算する。

ｎ＝ｏ＋１ｉｆｎ＜２α℃（１）ｚ　＝　１／１１　（２） ”ｎ　＝　（１−ｚＰ；１”　Ｚｘｎ　（３）Ｘ　は現フレームのための類別子を示すベクトルであり、ｎは２０００までの処理フレーム数である。２はくずし平均係数を示し、Ｘ　現フレームおよび過去のフレームの全部の類別子の平均を示す。統計的計算器２０は３　ｚＳｘ　およびＸ　情報の受領に応答しｎ　ｎて、次のようにまず二乗および積の和のマトリックスＱ　を計算することにより共分散マトリックスＴを計算する。

Ｑ　が計算されると、次のようにＴが計算される。

Ｔ；ヘーＸｆｉＸ′ゎ、（５）類別子から次のように平均値が差引かれる。

Ｘ！１＝ｘｎ−Ｘｎ　（８）次に計算器２０３は以下に示すように式（７）を解くことにより、現ベクトルＸ　により表わされるフレームが無声音である確率を決定するが、ここでベクトルａの成分は、音声エネルギーの対数に対応する成分は、０Ｊ９１８６０Ｂに、ＬＰＣゲインの対数に対応する成分は−０，０５２０９０２に、第１反射係数の対数面積比に対応する成分は０．５６３７０８２に、および二乗相関係数に対応する成分は１．３６１２４９に等しく初期化し、またｂは最初−８，３６４５４に等しく初期化することが好ましい。

（７）式を解いた後に計算器２０３は次式を解くことにより、類別子が有声音フレームを表わす確率を決定する。

Ｐ（ｖ　ｌ匂＝　１−Ｐ（ｕ　Ｉｘｆｌ）　（８）次に計算器２０３はｐ　をめる式（９）を解くことにより、あるフレームが無声音であろうと総合確率を決定する。

Ｐｎ　＝（１−ｚ）　Ｐ祠”　ｚＰ（”Ｘ１１）　、（９）フレームが無声音であろうとという確率を決定した後に、次に計算器２０３は無声音型および有声音型の両方のフレームに対する各類別子の平均値を与える２つのベクトルＵおよび ■を決定する。

ベクトルＵおよびＶはそれぞれ無声音フレームおよび有声音フレームに対する統計的平均である。統計的平均無声音ベクトルであるベクトルＵは、もしフレームが無声音であるならば各類別子の平均値を含み二また統計的平均有声音ベクトルであるベクトルＶは、もしフレームが有声音であるならば各類別子に対する平均値を与える。以下に示すように、現フレームに対するベクトルＵは式（１０）を計算することにより解かれ、現フレームに対するベクトルＶは式（１１）を計算することにより決定される。

ｕ＋、＝　（１−ｚ）　”ｒ＋−１＋　Ｚ　Ｘ！Ｉ　Ｐ（ｕ”ＩＩ）／Ｐ！ｌ− ”ｎ　（１０）ｖｎ　＝　（１−１）　ｖ、ｌ＋　ｚＸｌＩ　Ｐ（■ＩＸ！＋）／（１９ｎ）　−”ｎ　（１１）ユニで計算器２０３は、通路２１２を介してベトクルＵおよびｖ１マトリックスＴ１および確率ｐを重み計算器２０４に伝送する。

重み計算器２０４はこの情報に応答してベクトルａおよびスカラーｂに対する新しい値を計算する。次にこれらの新しい値は通路２１３を介して統計的計算器２０３に逆伝送される。これにより検出器１０３は変化する環境に迅速に適応可能である。ベクトルａおよびスカラーｂに対する新しい値が統計的計算器２０３に逆伝送されなくても、ベクトルＶおよびＵが最新の値とされているので検出器１０３は変化する環境に適応し続けるであろう。明らかなように、判別器２０５はベクトルＵおよび■ならびにベクトルａおよびスカラーｂを用いて音声判別を行う。ｎが好ましくは９９より大きくなると、ベクトルａおよびスカラーｂは次式のように計算される。

ベクトルａは次式を解くことにより決定される。

スカラーｂは次式を解くことにより決定される。

ｂ　＝　７　ａ’（ｕｎ＋％’ｎ）　＋　］ｏｇ［（１−ｐ、）／ｐ、　）　、　（１３）式（１２）および（１３）を計算した後に、重み計算器２０４は通路２１４を介してベクトルａＳＵ、およびＶをｕ　／　ｖ判別器２０５に伝送する。

もしフレームが沈黙を含んだ場合は式（６）のみが計算される。

判別器２０５はこの伝送された情報に応答して現フレームが有声音であるかまたは無声音であるかを判別する。もし出力に対応するベクトル（Ｖ　−Ｕ　）の成分が正であれば、このときは、もｎ　ｎし次式が真であるならばフレームは有声音であると宣言される。

ａ′−一直ｕ、＋ｖ、）／２　＞　Ｏ；　（１４＞またもし出力に対応するベクトル（ｖ　−ｕ　）の成分が負であｎ　ｎれば、このときは、もし次式が真であるならばフレームは有声音であると宣言される。

ａ’ｘ、　−ａ’（ｕ、＋ｖ、）／２　＜　Ｏ、（１５）式（１４）はまた次式のようにも書替えられる。

ａ’　ｘ　＋ｂ　−１Ｂｇ　［（１−ｐ　）／ｐ　３　＞Ｑｎ　ｎ　０式（１５）はまた次式のようにも書き替えられる。

ａ’　ｘ　＋ｂ−１ｏｇ　［（１−ｐ　）／ｐ　コ　く　Ｏｎ　ｎ　ｎもし前記の条件が満たされないならば、判別器２０５は、フレームが無声音であると宣言する。式（１４）および（１５）は音声判別を行うための判別領域を表わす。式（１４）および（１５）の書替え形式のｌｏｇの項は性能を少し変えれば省略可能である。本実施例においては、出力に対応する成分は音声エネルギーのｌｏｇであるのが好ましい。

発生器２０６は通路２１４を介して計算器２０４から受取られた情報に応答して次のように距離尺度Ａを計算する。まず最初に、次のよう式（１Ｂ）により識別変数ｄが計算される。

ｄ　＝　ａ’ｘ、　＋　ｂ　−］ｏｇ［（１−Ｐ、、）／Ｐ、］　（１Ｂ　）次の諸式で用いるためのｄに類似の値を発生するために、種々のタイプの音声検出器を用いることは好ましく、これは当業者には明らかであろう。このような検出器の１つが自己相関検出器であろう。もしフレームが有声音であれば、式（１７）ないしく２０）は次のように解かれる。

ｍ１＝　（１−ｚ）　ｍｌ”　”　・（１７）ｓｌ＝　（１−ｚ）　Ｓ１＋ｚｄ ”　（ｌｌｉ）ｋｌ　＝５．−ｆｎ？　（１９）ここでｍ　は有声音フレームに対する平均であり、ｋｌは有声音フレームに対する分散である。

フレームが無声音であると判別器２０５が宣言するであろう確率Ｐ、は次式で計算される。

Ｐｄ＝　（１−ｚ）　Ｐａ　・（２０）Ｐｄは最初０．５に設定されるのが好ましい。

もしフレームが無声音ならば、式（２１）ないしく２４）は次のように解かれる。

５Ｏ−（１−ｚ）ｓＯ＋ｚｄ”　（２２）均＝句−ｍ３・　（２３）フレームが無声音であると判別器２０５が宣言するであろう確率Ｐ、は次式で計算される。

Ｐｄ＝　（１−Ｚ）　ｐｄ＋　Ｚ　、　（２４）式（１Ｂ）ないしく２２）を計算した後に距離尺度すなわちメリット値が次のように計算される。

式（２５）はホテリング（Ｈｏｔｅｌ　ｌ　ｉｎｇ）の２サンプルＴ２統計を用いて距離尺度を計算する。式（２５）に対して、メリット値が大きくなればなるほど分離は大きくなる。しかしながら他のメリット値は、メノット値が小さくなればなるほど分離が大きくなるところに存在する。好ましくは距離尺度は次式で与えられるマノ１ラノビス距離であってよい。

好ましくは第３の方法は次式で与えられる。

好ましくは距離尺度を計算するための第４の方法は次式で示される。

Ａ　−ａ（ｖ、ｌ−”ｒ＋）　（２ｇ　）識別検出器１０２は、もしａ’　ｘ＋ｂ＞ｏならば有声音フレームを指示する情報を通路１０７を介してマルチプレクサ１０５に伝送することにより無声音／有声音判別を行う。もしこの条件が真でなければ、このときは検出器１０２は無声音フレームを指示する。検出器１０２により使用されるベクトルａおよびスカラーｂに対する値は好ましいことに統計的有声音検出器１０３に対するａおよびｂの初期値と同一である。

検出器１０２は、式（１Ｂ）ないしく２８）に与えられるものと類似の計算を実行することにより発生器２０６に類似の方法で距離尺度を決定する。

第３図および第４図は第２図の統計的有声音検出器１０３により実施される操作を流れ図の形式でさらに詳細に示す。ブロック３０２および３００はそれぞれ第２図のブロック２０２および２０１を実行する。ブロック３０４ないし３１８は統計的計算器２０３を実行する。

ブロック３２０および３２２は重み計算器２０４を実行し、ブロック３２θないし３３８は第２図のブロック２０５を実行する。第２図の発生器２０６はブロック３４０により実行される。減算器２０７はブロック３０８またはブロック３２４により実行される。

ブロック３０２は現フレームとそれ以前の全てのフレームとに対する類別子の平均を示すベクトルを計算する。ブロック３００は現フレーム内には音声が存在するか否かまたは沈黙が存在するかを判別する。そしてもし現フーム内に沈黙が存在すれば、制御が判別ブロック３２６に引渡される前にブロック３２４により各類別子から各類別子に対する平均が差引かれる。しかしながらもし現フレーム内に音声が存在すれば、このときはブロック３０４ないし３２２により統計的計算および重み計算が実行される。まず第１番目にブロック３０２において平均ベクトルがめられる。第２番目にブロック３０４において二乗および積の和のマトリックスが計算される。次にブロック３０６において、現フレームおよび過去のフレームに対する類別子の平均を示すベクトルＸと共に後者のマトリックスが使用されて共分散マトリックスＴを計算する。次にブロック３０８において類別子ベクトルＸ　からＸが差引かれる。

次にブロック３１０は、現在の重みベクトルａ、現在のしきい値すおよび現フレームに対する類別子ベクトルＸ　とを利用することにより、現フレームが無声音である確率を計算する。現フレームが無声音であるという確率を計算した後に、ブロック３１２により現フレームが有声音である確率が計算される。次にブロック３１４によりあるフレームが無声音であろうという総合確率ｐ　が計算される。

ブロック３１６及び３１８は２つのベクトルＵ及びＶを計算する。

ベクトルＵの中に含まれる値は、もしそのフレームが無声音であったならば各類別子がもつであろう統計的平均値を表わす。一方ベクトルＶは、もしそのフレームが有声音であったならば各類別子がもつであろう統計的平均値を表わす値を含む。現フレームおよびそれ以前のフレームに対する類別子の実際の値はベクトルＵまたはベクトルＶのまわりにクラスタ（集団化）される。もしこれらのフレームが無声音であることがわかると、それ以前のフレームおよび現フレームに対する類別子を表わすベクトルはベクトルＵのまわりにクラスタされ；そうでなければそれ以前の類別子ベクトルはベクトルＶの回りにクラスタされる。

ブロック３１６および３１８を実施した後に制御は判別ブロック３２０に引渡される。もしＮが９９より大であれば制御はブロック３２２に引渡され：そうでなければ制御はブロック３２６に引渡される。

制御を受取ると、ブロック３２２は次に新しい重みベクトルａおよび新しいしきい値すを計算する。ベクトルａおよび値すは次に続くフレーム内で第３図内のそれに先行するブロックにより使用される。好ましくは、もしＮが無限大より大であることが要求されるならば、ベクトルａおよびスカラーｂは決して変えられないで、検出器１０３はブロック３２６ないし３３８内に示すようにベクトルＶおよびＵにのみ応答して適応するであろう。

ブロック３２６ないし３３８は第２図のｕ　／　ｖ判別器２０５を実行する。ブロック３２Ｂは現フレームのベクトル■のパワー項（ｐｏｗｅｒ　ｔｅｒｍ）がベクトルＵのパワー項以上か否かを判別する。

もしこの条件が真であれば、このときは判別ブロック３２８が実行される。後者の判別ブロックは、テストにより有声音かまたは無声音かを判別する。もしブロック３２８の判別においてフレームが有声音であることがわかると、このときフレームはブロック３３０により有声音として表示され、そうでなければフレームはブロック３３２により無声音として表示される。もしベクトル■のパワー項が現フレームに対するベクトルＵの出力項より小であるならば、ブロック３３４ないし３３８の機能が実行され同様に機能する。最後にブロック３４０が距離尺度を計算する。

第５図は第４図のブロック３４０により実行される動作を流れ図の形でさらに詳細に示す。判別ブロック５０１は、ブロック３３０．３３２．３３Ｂまたは３３８の結果を調べることによりフレームが無声音と指示されたかまたは有声音と指示されたかを判別する。もしフレームが有声音と指定されたならば通路５０７が選択される。ブロック５１０は確率Ｐ、を計算し、ブロック５０２は有声音フレームに対する平均ｍ１を再計算し、およびブロック５０３は有声音フレームに対する分散に１を再計算する。もしフレームが無声音と判別されたならば判別ブロック５０１は通路５０８を選択する。ブロック５０９は確率Ｐ、を再計算し、およびブロック５０４は無声音フレームに対する平均ｍ。を再計算し、およびブロック５０５は無声音フレームに対する分散ｋｏを再計算する。最後にブロック５０６は指示された計算を実行することにより距離尺度を計算する。

ＦＩＧ、３ＦＩｏ、４ＦＩＧ、５国際調査報告

Claims

【特許請求の範囲】

（１）フレーム内の基本周波数を検出するための複数個の手段を有して音声フレーム内における基本周波数の存在を判定するための装置において：前記検出手段の各々が、前記音声フレームの有声音のものと無声音のものとの間の分離を定義するメリット値を計算するための手段を有し；前記検出手段の選択されたものが前記検出手段のいずれか他のものが計算したメリット値より良いメリット値を計算したとき前記基本周波数の存在を指示するために、前記検出手段の１つを選択するための手段；を含む装置。
（２）前記検出手段の各々が前記計算手段が前記メリット値を決定するために統計的計算を実行することを特徴とする請求項１に記載の装置。
（３）前記統計的計算が距離尺度の計算であることを特徴とする請求項２に記載の装置。
（４）前記検出手段の前記１つが：前記基本周波数が検出したときにフレームが有声音であると指示し前記基本周波数が存在しないときにフレームは無声音であると指示するための手段を含み；前記検出手段の前記１つのための前記計算手段がさらに以前および現在のフレームの各々に対する識別変数を決定するための手段；前記以前および現在のフレームの有声音のものに対する平均値を決定するための手段；前記以前および現在のフレームの前記有声音のものの分散値を決定するための手段；前記以前および現在のフレームの前記無声音のものの平均値を決定するための手段；前記以前および現在のフレームの前記無声音のものの分散値を決定するための手段；および決定された有声音の平均値および分散値ならびに決定された無声音の平均値および分散値から前記検出手段の前記１つのメリット値を決定するための手段；を含むことを特徴とする請求項２に記載の装置。
（５）前記検出手段の前記１つのためのメリット値を決定するための前記手段が：前記分散値の和を求めるための手段；前記分散値の重みつき和を計算するための手段；前記有声音フレームの前記平均値から前記無声音のフレームの平均値を差引くための手段；差引かれた値を二乗するための手段；および前記重みつき和を前記二乗された値で除し、これにより前記検出手段の前記１つのための前記メリット値を発生するための手段；を含むことを特徴とする請求項４に記載の装置。
（６）前記重みつき和を計算するための前記手段が；前記検出手段の前記１つが前記現フレーム内における前記基本の存在を指示する第１の確率を計算するための手段；前記検出手段の前記１つが前記現フレーム内における前記基本の不在を指示する第２の確率を計算するための手段；前記以前および現在のフレームの前記有声音のものの前記分散に前記第１の確率を乗じ、前記以前および現在のフレーム前記無声音のものの前記分散に前記第２の確率を乗ずるための手段；および前記乗算の結果から前記重みつき和を形成するための手段；を含むことを特徴とする請求項５に記載の装置。
（７）前記除するための手段が、前記検出手段の前記１つの前記メリット値を発生するために、前記重みつき和を前記二乗された値の和で除した結果に前記第１および第２の確率を乗ずるための手段を含むことを特徴とする請求項６に記載の装置。
（８）前記フレームが有声音であることおよび無声音であることを指示するための前記手段が：前記現音声フレームの音声属性を定義する１組の類別子に応答して１組の統計的パラメータを計算するための手段；計算された１組のパラメータに応答して各々前記類別子の１つの付属する１組の重みを計算するための手段；および計算された１組の重みおよび類別子および前記１組のパラメータに応答して前記音声フレーム内における基本周波数の存在を判定するための手段；を含むことを特徴とする請求項７に記載の装置。
（９）前記１組の重みを計算するための前記手段が：前記１組の前記パラメータに応答してしきい値を計算するための手段；前記１組の重みおよび前記しきい値とを、前記音声フレームの他の１つに対する他の１組のパラメータを計算するのに使用されるように前記１組の統計的パラメータを計算するために前記手段に連絡するための手段；および連絡された１組の重みおよび前記他のフレームの前記音声属性を定義する他の１組の類別子にさらに応答して他の１組の統計的パラメータを計算するための手段；を含むことを特徴とする請求項８に記載の装置。
（１０）前記音声フレームの１つ内における基本周波数の存在を指示する第１の信号を発生するための第１の手段；前記音声フレームの前記１つ内における基本周波数の存在を指示する第２の信号を発生するための第２の手段；前記第１の手段で決定されるように有声音フレームと無声音フレームとの間の分離の程度を表わす第１の一般化距離値を計算するための手段を含む前記第１の手段；前記第２の手段で決定されるように有声音フレームと無声音フレームとの間の分離の程度を表わす第２の一般化距離値を計算するための手段を含む前記第２の手段；および前記第１の一般化値が前記第２の一般化値より良いときに前記基本周波数の存在を指示するために前記第１の信号を選択し、前記第２の一般化値が前記第１の一般化値より良いときに前記基本周波数の存在を指示するために前記第２の信号を選択するための手段；を含む音声フレーム内における基本周波数の存在を判定するための装置。
（１１）前記一般化距離がマハラノビス距離値であることを特徴とする請求項１０に記載の装置。
（１２）前記第１の手段が：１つの音声フレームの音声属性を定義する１組の類別子に応答して１組の統計的パラメータを計算するための手段；計算された１組のパラメータに応答して各々前記類別子の１つに付属する１組の重みを計算するための手段；および計算された１組の重みおよび類別子とおよび前記１組のパラメータとに応答して前記音声フレーム内における基本周波数の存在を判定するための手段；をさらに含むことを特徴とする請求項１１に記載の装置。
（１３）前記第１の一般化距離値を計算するための前記手段が、前記計算された１組のパラメータおよび前記計算された１組の重みとに応答して前記一般化距離値を決定するための手段を含むことを特徴とする請求項１２に記載の装置。
（１４）前記第２の手段が識別有声音検出器であることを特徴とする請求項１３に記載の装置。
（１５）前記第２の一般化距離値を計算するための手段が：前記以前および現在のフレームの有声音のものに対する平均値を決定するための手段；前記以前および現在のフレームの前記無声音のものの平均値を決定するための手段；前記以前および現在のフレームの前記無声音のものの分散値を決定するための手段；および決定された有声音の平均値および分散値ならびに決定された無声音の平均値および分散値から前記第２の距離尺度値を決定するための手段；を含むことを特徴とする請求項１４に記載の装置。
（１６）前記第２の距離尺度値を決定するための前記手段が：前記分散値の重みつき和を計算するための手段；前記有声音のフレームの前記平均値から前記無声音のフレームの平均値を差引くための手段；差引かれた値を二乗するための手段；および前記分散値の前記重みつき和を前記二乗された値で除し、これにより前記第２の距離尺度値を発生するための手段；を含むことを特徴とする請求項１５に記載の装置。
（１７）フレーム内の基本周波数を検出するための第１および第２の検出器を有して音声フレーム内における基本周波数の存在を判定するための方法において：前記音声フレームの有声音のものと無声音のものとの間の分離を定義する第１のメリット値を前記第１の有声音検出器により計算するステップ；前記有声音フレームの前記ものと前記無声音フレームの前記ものとの間の分離を定義する第２のメリット値を前記第２の有声音検出器により計算するステップ；および前記第１のメリット値が前記第２のメリット値より良いとき前記基本周波数の存在を指示するために前記第１の有声音検出器を選択し、前記第２のメリット値が前記第１のメリット値より良いとき前記基本周波数の存在を指示するために第２の有声音検出器を選択するステップ；を含む方法。
（１８）前記第１および第２の値を計算する前記ステップが各々前記第１および第２の値をそれぞれ決定するために統計的計算を実行するステップを含むことを特徴とする請求項１７に記載の方法。
（１９）前記統計的計算が距離尺度の計算であることを特徴とする請求項１８に記載の方法。
（２０）前記方法が：前記基本周波数を検出したときにフレームは有声音であると指示し前記基本周波数が前記第１の有声音検出器により不在として検出されたときにフレームは無声音であると指示するためのステップを含み；前記第１の値を計算するステップがさらに：以前および現在のフレームの各々のための識別変数を決定するステップ；前記以前および現在のフレームの有声音のものの平均値を決定するステップ；前記以前および現在のフレームの前記有声音のものの分散値を決定するステップ；前記以前および現在のフレームの前記無声音のものの平均値を決定するステップ；前記以前および現在のフレームの前記無声音のものの分散値を決定するステップ；および決定された有声音の平均値および分散値ならびに決定された無声音の平均値および分散値から前記第１の値を決定するステップ；をさらに含むことを特徴とする請求項１８に記載の方法。
（２１）前記第１の値を決定する前記ステップが：前記分散値の和を求めるステップ；前記分散値の重みつき和を計算するステップ；前記有声音フレームの前記平均値から前記無声音のフレームの平均値を差引くステップ；差引かれた値を二乗するステップ；および前記分散値の重みつき和を前記二乗された値で除し、これにより前記統計値を発生するステップ；を含むことを特徴とする請求項２０に記載の方法。
（２２）前記重みつき和を計算する前記ステップが：前記第１の値を決定する前記ステップが前記現フレーム内における前記基本の存在を指示する第１の確率を計算するステップ；前記第１の値を決定する前記ステップが前記現フレーム内における前記基本の不在を指示する第２の確率を計算するステップ；前記以前および現在のフレームの前記有声音のものの前記分散に前記第１の確率を乗じ、前記以前および現在のフレームの前記無声音のものの前記分散に前記第２の確率を乗ずるステップ；および前足乗算の結果から前記重みつき和を形成するステップ；を含むことを特徴とする請求項２１に記載の方法。
（２３）前記除するステップが、前記第１の値を発生するために、前記重みつき和を前記二乗された値の和で除した結果に前記第１および第２の確率を乗ずるステップを含むことを特徴とする請求項２２に記載の方法。