JPH01502779A - 適応多変数推定装置 - Google Patents

適応多変数推定装置

Info

Publication number
JPH01502779A
JPH01502779A JP62506332A JP50633287A JPH01502779A JP H01502779 A JPH01502779 A JP H01502779A JP 62506332 A JP62506332 A JP 62506332A JP 50633287 A JP50633287 A JP 50633287A JP H01502779 A JPH01502779 A JP H01502779A
Authority
JP
Japan
Prior art keywords
classifiers
frame
statistical
calculating
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP62506332A
Other languages
English (en)
Other versions
JPH0795237B1 (ja
Inventor
トムソン,デビット リン
Original Assignee
アメリカン テレフォン アンド テレグラフ カムパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アメリカン テレフォン アンド テレグラフ カムパニー filed Critical アメリカン テレフォン アンド テレグラフ カムパニー
Publication of JPH01502779A publication Critical patent/JPH01502779A/ja
Publication of JPH0795237B1 publication Critical patent/JPH0795237B1/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Feedback Control In General (AREA)
  • Paper (AREA)
  • Bridges Or Land Bridges (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Radiation (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 適応多変数推定装置 [技術分野] 本発明は、リアルタイム過程(プロセス)を表わすサンプルを、それぞれリアル タイム過程の一状懸に対応する群に類別することに関する。とくに二の類別は、 各サンプルが発生したときに統計的技法を用いてリアルタイムで行われる。
[背景技術と問題点] 多くのリアルタイム過程において、変化しつつある環境における現在の状態を過 程の現在および過去のサンプルから推定することを試みるときに問題が存在する 。このような過程の1つの例が人の声道による音声の発生である。声道により発 生された音は、基本周波数を持つこともあり(有声音の状!3)または基本周波 数を持たない場合もある(無声音の状!9)。さらに音が発生されなければ第3 の状態が存在することもある(沈黙の状1’rJ)。これらの3つの状態を判別 する問題は音声/沈黙判別といわれる。低ビット速度音声コーダにおいてはしば しば、不正確な音声判別のために音声品質の低下が生ずる。これらの音声判別を 正確に行う際の困難な点は、単一の音声パラメータすなわち類別子(class lfler)では有声音音声と無声音音声との識別に信頼性がないという事実に ある。音声判定を行うために、多重音声類別子を重みつき和の形に組合わせるこ とは当業者に周知である。このような方法は、デー・ピー・ブレザス(D、P、 Prezas)他による「パターン認識および適応時間−領域分析を用いた迅速 かつ正確なピッチ検出」、IEEE音響・音成および信号処理国際会議資料、第 1巻、109−112ページ、1986年4月 (“Fast and Acc urate Pitch Deteetioflυsing Pattern  Recognition and Adaptive Ti1Ie−Doaai n Analysis ’ 、Proc、IEEE Int、Conf’、Ac oust、、5peech and Signal Proc、、Vol、1. pp109−112.April 1916)に記載されている。この論文の説 明のように、音声類別子の重みつき和がもしある特定のしきい値より大であれば 音声フレームは有声音と宣言され、もしそうでなければ無声音と宣言される。数 学的にはこの関係はa・X+b>0として表わされ、ここで“aoは重みからな るベクトル、°X°は類別子からなるベクトル、および“b”はしきい値を表わ すスカラーである。重みは音声の学習(tratntng)セット上の性能を最 大化するように選択されるが、ここで各フレームの音声化(voteing)は 既知である。これらの重みは、単一パラメータを使用するものに比較して音声コ ーダ内に顕著な音声品質改良を提供する判別ルールを形成する。
固定重みつき和による方法に付帯する問題点は、音声環境が変化する場合にそれ が良好に実行しないということである。このような音声環境の変化は、車内の電 話すなわち移動電話で行われる電話会社の結果であったり、またはおそらく電話 送話器が異種のものが原因であったりする。固定重みつき和による方法が変化す る環境において良好に実行しない原因は、多くの音声類別子が、暗騒音、非線形 ひずみ、および濾波による影響を受けることである。もし音声化が学習セットの 特徴とは異なる特徴を存する音声に対して判別されなければならないならば、一 般に重みは満足な結果を与えないであろう。
固定重みつき和による方法を変化する音声環境に適応させる一方法が、シー・ビ ー・キャンベル(C,P、Cambel I)他の論文「音声の有声音/無声音 類別の米国政府LPG−10Eアルゴリズムへの適用」、IEEE音響・音成お よび信号処理国際会議資料、1986年、東京、第9.11.4巻、473−4 78ページ(“Voteed/ Unv。
1ced C1assirication orSpeech with Ap plication to the U、S。
Government LPC−10E A1gorithrA’ 、IEEE  International Conference on Acousti cs、5peech and Signal Processing、198B 、Toky。
、Vol 、9.11.4.pp、473−476)に開示されている。この論 文は、重みおよびしきい値の各組(セット)に対する学習データに異なるレベル の白色雑音を加えることにより、同一セットの学習データからあらかじめ設定さ れた各々異なる重みつきおよびしきい値の組を利用することを開示している。各 フレームに対し音声サンプルは、これらの組の1つの結果がSN比(信号対雑音 比、5NR)に基づいて選択された後に1組の重みおよびしきい値により処理さ れる。SN比が持つことができる可能値の範囲(レンジ)は、各々が組の1つに 割当てられる副範囲(サブレンジ)に分割される。各フレームに対しSN比が計 算され;副範囲が決定され:次にフレームが有声音/無声音判別される。この方 法に伴う問題点は、これは学習データに白色雑音が追加されたものに対してのみ 有効であって広範囲の音声環境および話者に対し適応できないことにある。従っ て、変化する環境および異なる話者に対し音声が有声音であるか無声音であるか を信頼性をもって判別可能な音声音検出器に対する需要が存在してくる。
[解決法] 上記の問題点は、物理的過程からのリアルタイムサンプルに応答して複数の過程 状態に対する統計的分布を決定し、これらの分布から判別領域を確立する装置に より解決されかつ技術的進歩が達成される。後者の領域は、各過程サンプルが発 生されたときに現在の過程状態を決定するのに使用される。音声判別をするのに 使用されるとき、この装置は音声の類別子の状態を利用することにより変化する 音声環境に適応する。統計的手法は類別子に基づいて行われ、音声判別に使用さ れる判別領域を修正するのに使用される。この装置は、有声音および無声音の両 フレームに対して統計的分布を推定し、これらの統計的分布を判別領域の決定に 使用するのが好ましい。後者の領域は次に現在の音声フレームが有声音か無声音 かを判別するのに使用される。
有声音検出器は、現在の音声フレームが無声音である確率、現在の音声フレーム が有声音である確率、およびあるフレームが無声音であろうという総合確率、と を計算するのが好ましい。これらの3種類の確率を用いて次に検出器は、無声音 フレームの確率分布と有声音フレームの確率分布とを計算する。さらに、現在の 音声フレームが有声音であるか無声音であるかの確率を決定する計算は最尤(m aximum 1ikelihood)統計的手法を用いることにより実行され る。また最尤統計的手法は、確率の他に重みベクトルおよびしきい値にも応答す る。他の実施例においては、重みベクトルおよびしきい値は各フレームに対し適 応的に計算される。この重みベクトルおよびしきい値の適応計算は、変化する音 声環境への検出器の迅速適応を可能にする。
音声フレーム内における基本周波数の存在を判定する装置は、音声フレームの音 声属性を表わす1組の類別子に応答して1組の統計的パラメータを計算するため の回路を有するのが好ましい。
第2の回路は統計的分布を定義する1組のパラメータに応答して各々が類別子の 1つに付属する1組の重みを計算する。最後に第3の回路が計算された1組の重 みおよび類別子と1組のパラメータとに応答して音声フレーム内における基本周 波数の存在を判定し、すなわち通常の表現を用いれば、無声音/有声音判別を行 う。
第2の回路はまた、しきい値と新しい重みベクトルとを計算してこれらの値を第 1の回路に連絡し、第1の回路はこれらの値および新しい1組の類別子とに応答 して他の1組の統計的パラメータを決定するのが好ましい。他の1組の統計的パ ラメータは次に、次の音声フレームに対して基本周波数の存在を判定するのに使 用される。
第1の回路は次の1mの類別子、新しい重みベクトルおよびしきい値とに応答し て、次のフレームが無声音である確率、次のフレームが有声音である確率、およ びあるフレームが無声音であろうという総合確率、とを計算するのが好ましい。
これらの確率は次に過去および現在のフレームに対する類別子の平均を与える1 組の値と共に他の1組の統計的パラメータを決定するのに利用される。
音声判別を決定するための方法は次のステップで実行される:すなわち有声音お よび無声音フレームに対する統計的分布を推定するステップ、この統計的分布に 応答して有声音音声と無声音音声とを表わす判別領域を決定するステップ、およ び判別領域および現在の音声フレームとに応答して音声判別を行うステップであ る。さらに統計的分布は、現在の音声フレームが無声音である確率、現在の音声 フレームが有声音である確率、およびあるフレームが無声音であろうという総合 確率、とから計算される。これらの3N類の確率は統計的分布を決定するステッ プのサブステップとして計算される。
[図面の簡単な説明] 本発明は図面を参照しながら以下の詳細な説明を読めば容易に理解されよう。こ こで: 第1図は本発明を用いた装置のブロック図:第2図は本発明をブロック図の形で 表わした図:第3図および第4図は第2図の統計的有声音検出器103により実 行される機能をさらに詳細に表わした図;第5図は第4図のブロック340で実 行される機能をさらに詳細に表わした図であ。
[詳細な説明コ 第1図は有声音検出器の1つとして本発明の主題である統計的有声音検出器を使 用する無声音/有声音判別動作を実行するだめの装置を示す。第1図の装置は2 種類の検出器すなわち識別有声音検出器と統計的有声音検出器とを使用する。統 計的有声音検出器103は、音声環境の変化を検出して類別子発生器101から 来る類別子を処理するのに使用される重みを修正してより正確に無声音/有声音 判別を行うようにする適応検出器である。本別有声音検出器102は、初期スタ ートアップの間すなわち統計的有声音検出器103が初期の音声環境にすなわち 新しい音声環境にまだ十分には適用していないときの急激に変化する音声環境条 件内で使用される。
ここで第1図に示す装置への全体的動作を考えてみる。類別子発生器101は各 音声フレームに応答して、音声エネルギーの対数(log) 、LPG (線形 予測分布)ゲインの対数、第1の反射係数の対数面積比、および1ピッチ周期だ けオフセットされている1フレーム長の2つの音声セグメントの二乗相関係数で あることが好ましい類別子(classifier)を発生する。これらの類別 子の計算は、アナログ音声ディジタルにサンプリングすること、ディジタルサン プルのフレームを形成すること、およびこれらのフレームを処理すること、とを 含み、これは当業者には周知である。発生器101は通路106を介して類別子 を検出器102および103に伝送する。
検出器102および103は通路106を介して受取られた類別子に応答して無 声音/有声音判別を行い、通路107および110の各々を介してこれらの判別 をマルチプレクサ105に伝達する。さらにこれらの検出器は有声音フレームと 無声音フレームとの間の距離尺度を決定し、通路10gおよび109を介してこ れらの距離を比較器104に伝送する。これらの距離はマハラノビス(Maha ranobis)距離または他の一般化距離であることが好ましい。比較器10 4は通路Loll及び109を介して受取られた距離に応答してマルチプレクサ 105を制御し、この結果後者のマルチプレクサは最大距離を発生している検出 器出力を選別する。
第2図は統計的有声音検出器103をさらに詳細に示す。各音声フレームに対し て、通路10Bを介して類別子発生器101から類別子のベクトルとも呼ばれる 1組の類別子が受取られる。沈黙検出器201はこれらの類別子に応答してこの フレーム内に音声が存在するか否かを判別する。もし音声が存在すれば、検出器 201は通路210を介して信号を伝送する。もしフレーム内に音声が存在しな ければ(沈黙)、このときのみ減算器207およびU/V (無声音/有声音) 判別器205がその特定のフレームのために作動する。
音声が存在するか否かに関しては、判別器205により各フレーム毎に無声音/ 有声音判別が行われる。
類別子平均器202は検出器201からの信号に応答して、現フレームに対する 類別予肉でそれ以前のレームに対する類別子と平均することにより、通路106 を介して受取られた個々の類別子の平均を維持する。フレーム内にもし音声(沈 黙でない)が存在すれば、沈黙検出器201は通路210を介して統計的計算器 203、発生器206、および平均器202とに信号を送る。
統計的計算器203は有声音フレームおよび無声音フレームに対する統計的分布 を計算する。とくに計算器203は通路210を介して受取られた信号に応答し であるフレームが無声音である総合確率およびあるフレームが有声音である確率 とを計算する。さらに統計的計算器203はそのフレームが無声音であった場合 に各類別子が有するであろう統計値およびそのフレームが有声音であった場合に 各類別子が有するであろう統計値とを計算する。さらに計算器203は類別子の 共分散マトリックスを計算する。この統計値は平均値であることが好ましい。計 算器203により行われる計算は、現フレームに基づくのみでなくそれ以前のフ レームにも基づいている。統計的計算器203は、これらの計算を、通路10B を介して受取られる現フレームに対する類別子および通路211を介して受取ら れる類別子の平均に基づくのみでなく、各類別子のための重みおよびフレームが 無声音であるかまたは有声音であるかを判別するところの、通路213を介して 重み計算器204から受取られたしきい値とにも基づいて行う。
重み計算器204は、計算器203により発生され通路212を介して受取られ た現フレームに対する類別子の確率、共分散マトリックス、および統計値に応答 して、各類別子に対する重みベクトルa1および現フレームに対するしきい値す 、とを再計算する。次にこれらの新しいaおよびbの値は通路213を介して統 計的計算器203に逆伝送される。
重み計算器204はまた無声音と有声音との両方の領域内における類別子のため の重みおよび統計値を通路214を介して判別器2゜5に伝送しかつ通路208 を介して発生器206に伝送する。後者の発生器はこの情報に応答して距離尺度 を計算し、この距離尺度は次に第1図に示すように通路109を介して比較器1 04に伝送される。
U/V (無声音/有声音)判別器205は通路214および215を介して伝 送された情報に応答してこのフレームが無声音であるかまたは有声音であるかを 判別し、この判別器を通路110を介して第1図のマルチプレクサ105に伝送 する。
ここで第2図に示し、ここではベクトルおよびマトリックス数学で与えられる各 ブロックの動作をさらに詳細に説明する。平均゛ 器202、統計的計算器20 3、および重み計算器204とは、ニヌ・イー・ディ(N、E、Day)著の「 混合正規分布の成分の推定」 (“Estimating the Compo nents or a Mixture or Normal Distrib uti。
no、ビオメトリカ[Biometrikaコ誌、第56巻、第3号、463− 474ページ、1969)という題名の論文に記載されたものに類似の改良EM アルゴリズムを実行する。くずし平均(deeaying aVerage)の 概念を用いて、類別子平均器202は次式1.2、および3を計算することによ り、現フレームおよびそれ以前のフレームに対する類別子の平均を計算する。
n=n+1 ifn<2000 (1)Z −1/n (2) ”n = (1−z) Xn−1”−(a)X は現フレームのための類別子を 示すベクトルであり、nは2000までの処理フレーム数である。2はくずし平 均係数を示し、X は現フレームおよび過去のフレームの全部の類別子の平均を 示す。統計的計算器203はZsxnおよびXn情報の受領に応答して、次のよ うにまず二乗および積の和のマトリックスQ を計算することにより共分散マト リックスTを計算する。
Qn= (1−z) Qn−1+ z x、 x’、 、 (4)Q が計算さ れると、次のようにTが計算される。
T=、Qn −X、 X’、 、 (5)類別子から次のように平均値が差引か れる。
Xll = Xll −Xn (e) 次に計算器203は以下に示す式(7)を解くことにより、現ベクトルX によ り表わされるフレームが無声音である確率を決定するが、ここでベクトルaの成 分は、音声エネルギーの対数に対応する成分は0.3911+608に、LPG ゲインの対数に対応する成分は一〇、052Ω902に、N1反射係数の対数面 積比に対応する成分は0.5637082に、および二乗相関係数に対応する成 分は、1.381249に等しく初期化し、またbは最初−8,36454に等 しく初期化することが好ましい。
(7)式を解いた後に計算器203は次式を解くことにより、類別子が有声音フ レームを表わす確率を決定する。
P(vlx、) = 1−P(ulx?l) (8)次に計算器203はp を める式(9)を解くことにより、あるフレームが無声音であろうという総合確率 を決定する。
Pa = (1−z) pH−1+ Z P(ulx、) 、 (9)フレーム が無声音であろうという確率を決定した後に、次に計算器203は無声音型およ び有声音型の両方のフレームに対する各類別子の平均値を与える2つのベクトル UおよびVを決定する。ベクトルUおよびVはそれぞれ無声音フレームおよび有 声音フレームに対する統計的平均である。統計的平均無声音ベクトルであるベク トルUは、もしフレームが無声音であるならば各類別子の平均値を含み:また統 計的平均有声音ベクトルであるベクトルVは、もしフレームが有声音であるなら ば各類別子に対する平均値を与える。以下に示すように、現フレームに対するベ クトルUは式(10)を計算することにより解かれ、現フレームに対するベクト ルVは式(11)を計算することにより決定される。
”n = (1−2) ”+>t + z xIIP(ul”n)/Pn −” !1 (10)v、 = (1−z) vn−1+ z x、 P(vlx、l )/(1−pHl) −ZXn (11)ここで計算器203は、通路212を 解してベクトルUおよびV、マトリックスT1および確率pを重み計算器204 に伝送する。重み計算器204はこの情報に応答してベクトルaおよびスカラー bに対する新しい値を計算する。次にこれらの新しい値は通路213を介して統 計的計算器203に逆伝送される。これにより検出器103は変化する環境に迅 速に適応可能である。ベクトルaおよびスカラーbに対する新しい値が統計的計 算器203に逆伝送されなくても、ベクトルUおよび■が最新の値とされている ので検出器103は変化する環境に適応し続けるであろう。明らかなように、判 別器205はベクトルUおよびV並びにベクトルaおよびスカラーbを用いて音 声判別を行う。nが好ましくは99より大きくなると、ベクトルaおよびスカラ ーbは次式のように計算される。ベクトルaは式を解くことにより決定される。
スカラーbは次式を解くことにより決定される。
b = 7 a’(h+vn) + log[(1−Pn鳥] 、 (13)式 (12)および(13)を計算した後に、重み計算器204は通路214を介し てベクトルaSu、およびVをU/V2判別器05 に伝送する。
もしフレームが沈黙を含んだ場合は式(6)のみが計算される。
判別器205はこの伝送された情報に応答して現フレームが有声音であるかまた は無声音であるかを判別する。もし出力に対応するベクトル(V −U )の成 分が正であれば、このときは、もn n し次式が真であるならばフレームは有声音であると宣言される。
a’x、 −a’(un+vn)/2 > O; (14)またはもし出力に対 応するベクトル(V −U )の成分が負でnn あれば、このときは、もし次式が真であるならばフレームは有声音であると宣言 される。
a’x、−a’(un+v、)/2<O、(15)式(14)はまた次式のよう にも書き替えられる。
a’ x +b−1og [(1−p )/p コ 〉On n 1 式(15)はまた次式のようにも書き替えられる。
a’ x +b−1og [(1−p ) /p コ く On n n もし前記の条件が満たされないならば、判別器205はフレームが無声音である と宣言する。式(14)および(15)は音声判別を行うための判別領域を表わ す。(14)および(15)の書き替え形式のlogの項は性能を少し変えれば 省略可能である。本実施例においては、出力に対応する成分は音声エネルギーの logであるのが好ましい。
発生器206は通路214を介して計算器204から受取られた情報に応答して 次のように距離尺度Aを計算する。まず最初に、次のように式(16)により識 別変数dが計算される。
d = a’x、 + b −log[(1−p、)/p、] 、 (1B)次 の諸式で用いるためのdに類似の値を発生するために、種々のタイプの音声検出 器を用いることは好ましく、これは当業者には明らかであろう。このような検出 器の1つが自己相関検出器であろう。もしフレームが有声音であれば、式(17 )ないしく20)は次のように解かれる。
51 = (1−z) s1+ zd2. (1g)kl= 51− m? ( 19) ここでmlは有声音フレームに対する平均であり、klは有声音フレームに対す る分散である。
フレームが無声音であると判別器205が宣言するであろう確率P、は次式で計 算される。
pd= (1−z) P、1 、 (20)P、は最初0.5に設定されるのが 好ましい。
もしフレームが無声音ならば、式(21)ないしく24)は次のように解かれる 。
rx4 = (1−z) mo+ zd 、 (21)フレームが無声音である と判別器205が宣言するであろう確率P、は次式で計算される。
Pd= (1−z) Pd+ z 、 、(24)式(16)ないしく22)を 計算した後に距離尺度すなわちメリット値が次のように計算される。
式(25)はホテリング(Hotel ling)の2サンプルT2統計を用い て距離尺度を計算する式(25)に対して、メリット値が大きくなればなるほど 分離は大きくなる。しかしながら他のメリット値は、メリット値が小さくなれば なるほど分離は大きくなるところに存在する。好ましいことに距離尺度は次式で 与えられるマハラノビス距離であってよい。
好ましいことに第3の方法は次式で与えられる。
好ましくは、距離尺度を計算するために第4の方法は次式で示される。
A =1’(vn−u?l) (28)識別検8器102は、もしa’ x+b >oならば有声音フレーム・を指示する情報を通路107を介してマルチプレク サ105に伝送することにより無声音/有声音判別を行う。もしこの条件が真で なければ、このときは検出器102は無声音フレームを指示する。検出器102 により使用されるベクトルaおよびスカラーbに対する値は好ましいことに統計 的有声音検出器103に対するaおよびbの初期値と同一である。
検出器102は、式(16)ないしく28)に与えられるものと類似の計算を実 行することにより発生器20Bに類似の方法で距離尺度を決定する。
第3図および第4図は第2図の統計的有声音検出器103により実施される操作 を流れ図の形式でさらに詳細に示す。ブロック02および300はそれぞれ第2 図のブロック202および201を実行する。ブロック304ないし318は統 計的計算器203を実行する。ブロック320および322は重み計算器204 を実行し、ブロック32Bないし338は第2図のブロック205を実行する。
第2図の発生器20Bはブロック340により実行される。減算器207はブロ ック308またはブロック324により実行される。
ブロック302は現フレームとそれ以前の全てのフレームとに対する類別子の平 均を示すベクトルを計算する。ブロック300は現フレーム内には音声が存在す るかまたは沈黙が存在するかを判別する。そしてもし現フレーム内に沈黙が存在 すれば、制御が判別ブロック32Bに引渡される前にブロック324により各類 別子から各類別子に対する平均が差引かれる。しかしながらもし現フレーム内に 音声が存在すれば、このときはブロック304ないし322 +、:より統計的 計算および重み計算が実行される。まず第1番目にブロック302において平均 ベクトルがめられる。第2番目にブロツク304において二乗および積の和のマ トリックスが計算される。
次にブロック30Bにおいて、現フレームおよび過去のフレームに対する類別子 の平均を示すベクトルXと共に後者のマトリックスが使用されて共分散マトリッ クスTを計算する。次にブロック308において類別子ベクトルX から平均X が差引かれる。
次にブロック310は、現在の重みベクトルa1現在のしきい値b1および現フ レームに対する類別子のベクトルX とを利用することにより、現フレームが無 声音である確率を計算する。現フレームが無声音であるという確率を計算した後 に、ブロック312により現フレームが有声音である確率が計算される。次にブ ロック314によりあるフレームが無声音であろうという総合確率pnが計算さ れる。
ブロック31Bおよび318は2つのベクトルUおよびVを計算する。ベクトル Uの中に含まれる値は、もしそのフレームが無声音であったならば各類別子が持 つであろう統計的平均値を表わす。
一方ベクトルVは、もしそのフレームが有声音であったならば各類別子が持つで あろう統計的平均値を表わす値を含む。現フレームおよびそれ以前のフレームに 対する類別子の実際の値はベクトルUまたはベクトルVのまわりにクラスタ(集 団化)される。もしこれらのフレームが無声音であることがわかると、それ以前 のフレームおよび現フレームに対する類別子を表わすベクトルはベクトルUのま わりにクラスタされ二そうでなければそれ以前の類別子ベクトルはベクトルVの まわりにクラスタされる。
ブロック31Bおよび31gを実施した後に制御は判別ブロック320に引き渡 される。もし、Nが99より大きければ、制御は判別ブロック322に引渡され ;そうでなければ制御はブロック32Bに引渡される。制御を受取ると、ブロッ ク322は次に新しい重みベクトルaおよび新しいしきい値すを計算する。ベク トルaおよび値すは次に続くフレーム内で第3図内のそれに先行するブロックに より使用される。好ましくは、もしNが無限大より大であることが要求されるな らば、ベクトルaおよびスカラーbは決して変えられないで、検出器103はブ ロック326ないし328内に示すようにベクトルVおよびUにのみ応答して適 応するであろう。
ブロック32Bないし338は第2図のu / v判別器205を実行する。ブ ロック326は現フレームのベクトルVのパワー項(po警erterm)がベ クトルUのパワー項以上か否かを判別する。もしこの条件が真であれば、このと きは判別ブロック328が実行される。
後者の判別ブロックは、テストにより有声音かまたは無声音かを判別する。もし ブロック328の判別においてフレームはブロック330により有声音として表 示され、そうでなければフレームはブロック332により無声音として表示され る。もしベクトルVのパワー項より小であるならば、ブロック334ないし33 8の機能が実行され同様に機能する。最後にブロック340が距離尺度を計算す る。
第5図は第4図のブロック340により実行される動作を流れ図の形で詳細に示 す。判別ブロック501は、ブロック330.332.336または338の結 果を調べることによりフレームが無声音と指示されたかまたは有声音と指示され たかを判別する。もしフレームが有声音と指定されたならば通路507が選択さ れる。ブロック510は確率P、を計算し、ブロック502は有声音フレームに 対する平均m1を再計算し、およびブロック503は有声音フレームに対する分 散に1を再計算する。もしフレームが無声音と判別されたならば判別ブロック5 01は通路508を選択する。ブロック509は確率Pdを再計算し、ブロック 504は無声音フレームに対する平均moを再計算し、およびブロック505は 無声音フレームに対する分散koを再計算する。最後にフロック506は指示さ れた計算を実行することにより距離尺度を計算する。
の ロ FIG、3 FIG、4 FIG、5 国際調査報告

Claims (22)

    【特許請求の範囲】
  1. (1)複数組の状態信号により定義された物理的過程(プロセス)の現在の状態 を複数の状態群の1つとして識別するための装置において: 処理中に前記組の各々に応答して前記状態群の各々に対する統計的分布を推定す るための手段と; 前記統計的分布に応答して前記状態群の各々を表わす判別領域を決定するための 手段と; 前記判別領域および前記組の現在のものとに応答して現在の状態を前記状態群の 1つとして類別するための手段と;を含む装置。
  2. (2)前記統計的分布を推定するための手段が既に処理された組の数に応答する ことを特徴とする請求項1に記載の装置。
  3. (3)前記推定手段が: 前記組の前記現在のものと前記組の以前のものの統計的分布とに応答して、前記 状態群の各々に対して前記現在の状態のものが前記状態群の各々の一部である確 率を計算する手段と;前記組の前記現在および過去のものと前記状態の前記現在 のものが前記状態群の各々の一部である確率とに応答して、ある状態が前記状態 群の各々の一部となるであろう総合確率を計算するための手段と; 前記状態群の各々に対して前記の現在のものが前記状態群の各々の一部である確 率とある状態が前記状態群の各々の一部である前記総合確率とに応答して、前記 状態群の各々の統計的分布を計算するための手段と; を含むことを特徴とする請求項1に記載の装置。
  4. (4)前記統計的分布を計算するための手段が:処理された前記組の数のくずし (decaying)値を決定し、前記組の数が所定数を越えたら前記くずし値 を前記所定数に制限するための手段と; 前記くずし値を、前記組の以前のものに対して計算された前記状態群の各々の統 計的分布と算術的に組合わせる手段と;前記組の現在のものと、前記組の現在の ものが前証状態群の各々の一部である確率と、ある状態が前記状態群の各々の一 部である総合確率、とに応答して、前記くずし値を算術的に組合わせる手段と; 前記状態群の各々の算術的組合わせに応答して、前記状態群の各々の統計的分布 を発生するための手段と;前記組の現在および過去のものに応答して前記状態群 の各々に対して前記組の前記現在および過去のものの共分散を計算するための手 段を含む前記決定するための手段と;前記状態群の各々の共分散に応答して前記 状態群の各々に対する判別領域を発生するための手段と; をさらに含むことを特徴とする請求項3に記載の装置。
  5. (5)1つの音声フレームの音声属性を定義する1組の類別子に応答して1組の 統計的パラメータを計算するための第1の手段と; 計算された1組のパラメータに応答して各々前記類別子の1つに付属する1組の 重みを計算するための第2の手段と;計算された1組の重みおよび類別子と前記 1組のパラメータとに応答して、前記音声フレーム内における基本周波数の存在 を判定するための第3の手段と; を含む音声フレーム内における基本周波数の存在を判定するための装置。
  6. (6)前記第2の手段が; 前記1組の前記パラメータに応答してしきい値を計算するための手段;および 前記1組の前記重みおよび前記しきい値を、前記音声フレームの他の1つに対す る他の1組のパラメータを計算するのに使用されるように前記第1の手段に連絡 するための手段;を含むことを特徴とする請求項5に記載の装置。
  7. (7)前記第1の手段が、連絡された1組の重みと前記フレームの前足他の1つ の前記音声属性を定義する他の1組の類別子とにさらに応答して、他の1組の統 計的パラメータを計算することを特徴とする請求項6に記載の装置。
  8. (8)前記第1の手段が: 前記音声フレームの以前のものに対する前記類別子の各々の平均を計算するため の手段と; 前記音声フレームの前記以前のものに対する前記類別子の前記平均されたもの、 前記連絡された1組の重み、および前記他の1組の類別子、に応答して前記他の 1組の統計的パラメータを決定するための手段と; を含むことを特徴とする請求項7に記載の装置。
  9. (9)前記第1の手段が: 前記フレームの各々における音声の存在を検出するための手段と; 前記フレームの前記他の1つ内に音声が検出されなかったときに前記他の1組の 統計的パラメータの計算を中止させるための手段と; をさらに含むことを特徴とする請求項8に記載の装置。
  10. (10)前記第1の手段が: 前記他の組の類別子が無声音フレームを表わす確率および前記他の組の類別子が 有声音フレームを表わす確率を計算するための手段と; あるフレームが無声音である総合確率を計算するための手段と;をさらに含むこ とを特徴とする請求項9に記載の装置。
  11. (11)前記第1の手段か、無声音フレームを表わす1組の統計的平均類別子お よび有声音フレームを表わす1組の統計的平均類別子をさらに含むことを特徴と する請求項10に記載の装置。
  12. (12)前記第1の手段が、前記フレームの前記他の1つに対し無声音フレーム を表わす前記1組の平均類別子と前記フレームの前記他のものに対し無声音フレ ームを表わす前記1組の類別子との間の共分散マトリックスを計算するための手 段をさらに含むことを特徴とする請求項11に記載の装置。
  13. (13)第2の手段が、共分散マトリックス、有声音および無声音フレームの両 方に対する前記統計的平均類別子の組、およびフレームが無声音である前記総合 確率、に応答して前記他の組のパラメータを決定することを特徴とする請求項1 2に記載の装置。
  14. (14)前記第3の手段が、前記パラメータの他の組および有声音および無声音 フレームに対する前記統計的平均類別子の組に応答して前記フレームの前記他の ものにおける前記基本周波数の存在を判定することを特徴とする請求項13に記 載の装置。
  15. (15)1つの音声フレームの音声属性を定義する1組の類別子に応答して1組 のパラメータをクラスタ(集団化)すること;計算された1組のパラメータに応 答して各々前記類別子の1つに付属する1組の重みを計算すること;および計算 された1組の重みおよび類別子と前記1組のパラメータとに応答して前記音声フ レーム内における前記基本周波数の存在を判定すること; からなる音声フレーム内における基本周波数の存在を判定するための方法。
  16. (16)前記1組の重みを計算する前記ステップが:前記1組の前記パラメータ に応答してしきい値を計算するステップ;および 前記1組の前記重みおよび前記しきい値を、前記音声フレームの他の1つに対す る他の1組のパラメータを計算するのに使用されるように前記第1の手段に連絡 するステップ;を含むことを特徴とする請求項15項に記載の方法。
  17. (17)前記1組の統計的パラメータを計算する前記ステップが、連絡された1 組の重みと前記フレームの前記他の1つの前記音声属性を定義する他の1組の類 別子とにさらに応答して、他の1組の統計的パラメータを計算することを特徴と する請求項16に記載の方法。
  18. (18)前記1組の統計的パラメータを計算する前記ステップが:前記音声フレ ームの以前のものに対する前記類別子の各々の平均を計算するステップ;および 前記音声フレームの前記以前のものに対する前記類別子の前記平均されたもの、 前記連絡された1組の重み、および前記他の1組の類別子、に応答して前記他の 1組の統計的パラメータを計算するステップ; をさらに含むことを特徴とする請求項17に記載の方法。
  19. (19)前記1組の統計的パラメータを計算する前記ステップが:前記フレーム の各々における音声の存在を検出するステップ;および 前記フレームの前記他の1つ内に音声が検出されなかったときに前記他の1組の 統計的パラメータの計算を中止させるステップ;をさらに含むことを特徴とする 請求項18に記載の方法。
  20. (20)前記1組の統計的パラメータを計算する前記ステップが:前記他の組の 類別子が無声音フレームを表わす確率および前記他の組の類別子が有声音フレー ムを表わす確率とを計算するステップ:および あるフレームが無声音である総合確率を計算するステップ;をさらに含むことを 特徴とする請求項19に記載の方法。
  21. (21)前記1組のパラメータを計算する前記ステップが、無声音フレームを表 わす統計的平均化類別子および有声音フレームを表わす1組の統計的平均類別子 をさらに含むことを特徴とする請求項18項に記載の方法。
  22. (22)前記1組の統計的パラメータを計算する前記ステップが、前記フレーム の他の1つに対し無声音フレームを表わす前記1組の平均類別子と前記フレーム の前記他の1つに対し無声音フレームを表わす前記1組の類別子との間の共分散 マトリックスを計算するステップをさらに含むことを特徴とする請求項21に記 載の方法。
JP62506332A 1987-04-03 1988-01-12 適応多変数推定装置 Withdrawn JPH01502779A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3429687A 1987-04-03 1987-04-03
US34,296 1987-04-03
PCT/US1988/000030 WO1988007738A1 (en) 1987-04-03 1988-01-12 An adaptive multivariate estimating apparatus

Publications (2)

Publication Number Publication Date
JPH01502779A true JPH01502779A (ja) 1989-09-21
JPH0795237B1 JPH0795237B1 (ja) 1995-10-11

Family

ID=21875521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62506332A Withdrawn JPH01502779A (ja) 1987-04-03 1988-01-12 適応多変数推定装置

Country Status (9)

Country Link
EP (1) EP0308433B1 (ja)
JP (1) JPH01502779A (ja)
AT (1) ATE82426T1 (ja)
AU (1) AU599459B2 (ja)
CA (2) CA1337708C (ja)
DE (1) DE3875894T2 (ja)
HK (1) HK106693A (ja)
SG (1) SG59893G (ja)
WO (1) WO1988007738A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021091A1 (fr) * 2000-09-06 2002-03-14 Matsushita Communication Industrial Co., Ltd. Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
WO2006106946A1 (ja) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology 音高推定方法及び装置並びに音高推定用プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988007739A1 (en) * 1987-04-03 1988-10-06 American Telephone & Telegraph Company An adaptive threshold voiced detector
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
CN104517614A (zh) * 2013-09-30 2015-04-15 上海爱聊信息科技有限公司 基于各子带特征参数值的清浊音判决装置及其判决方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1988007739A1 (en) * 1987-04-03 1988-10-06 American Telephone & Telegraph Company An adaptive threshold voiced detector

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704702B2 (en) 1997-01-23 2004-03-09 Kabushiki Kaisha Toshiba Speech encoding method, apparatus and program
WO2002021091A1 (fr) * 2000-09-06 2002-03-14 Matsushita Communication Industrial Co., Ltd. Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
US6934650B2 (en) 2000-09-06 2005-08-23 Panasonic Mobile Communications Co., Ltd. Noise signal analysis apparatus, noise signal synthesis apparatus, noise signal analysis method and noise signal synthesis method
WO2006106946A1 (ja) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology 音高推定方法及び装置並びに音高推定用プログラム

Also Published As

Publication number Publication date
EP0308433A1 (en) 1989-03-29
AU1222688A (en) 1988-11-02
JPH0795237B1 (ja) 1995-10-11
DE3875894D1 (en) 1992-12-17
SG59893G (en) 1993-07-09
DE3875894T2 (de) 1993-05-19
ATE82426T1 (de) 1992-11-15
WO1988007738A1 (en) 1988-10-06
AU599459B2 (en) 1990-07-19
CA1337708C (en) 1995-12-05
HK106693A (en) 1993-10-15
EP0308433B1 (en) 1992-11-11
CA1338251C (en) 1996-04-16

Similar Documents

Publication Publication Date Title
EP0625774B1 (en) A method and an apparatus for speech detection
US5715372A (en) Method and apparatus for characterizing an input signal
US6993481B2 (en) Detection of speech activity using feature model adaptation
US8428945B2 (en) Acoustic signal classification system
AU770410B2 (en) Apparatus and methods for detecting emotions
US5046100A (en) Adaptive multivariate estimating apparatus
US5007093A (en) Adaptive threshold voiced detector
JPH01502779A (ja) 適応多変数推定装置
US4972490A (en) Distance measurement control of a multiple detector system
JP2797861B2 (ja) 音声検出方法および音声検出装置
EP0309561B1 (en) An adaptive threshold voiced detector
EP0310636B1 (en) Distance measurement control of a multiple detector system
US20220068270A1 (en) Speech section detection method
AU2004200002B2 (en) Apparatus and methods for detecting emotions
Abu-El-Quran Feature extraction for audio classification
Yamazaki et al. An objective method for evaluating the quality of speech with code errors using pattern matching techniques
Dal Degan et al. AUTocoRRELATION FUNCTION

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees