JPH0795239B2

JPH0795239B2 - 音声フレーム中の基本周波数の存在を検出する装置および方法

Info

Publication number: JPH0795239B2
Application number: JP63503536A
Authority: JP
Inventors: リントムソン，デビッド
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1987-04-03
Filing date: 1988-01-12
Publication date: 1995-10-11
Anticipated expiration: 2010-10-11
Also published as: HK21794A; JPH01502858A; AU598933B2; AU1700788A; EP0309561A1; DE3876569T2; WO1988007739A1; CA1336208C; SG60993G; EP0309561B1; DE3876569D1; ATE83329T1

Description

【発明の詳細な説明】［技術分野］本発明は通常有声音／無声音判別と呼ばれるところの音
声が基本周波数を含むか否かの判定に関する。さらにと
くには、無声音／有声音判別は２段有声音検出器により
行われ、統計的手法を用いて最終しきい値が音声環境に
適応的に計算される。

［背景技術及び問題点］低ビット速度音声コーダにおいてはしばしば、不正確な
音声判別のために音声品質の低下が生ずる。これらの音
声判別を正確に行う際の困難な点は、単一の音声パラメ
ータすなわち類別子（classifier）では有声音音声と無
声音音声との識別に信頼性がないという事実にある。音
声判定を行うために、多重音声類別子を重みつき和の形
に組合わせることは当業者に周知である。この方法は通
常識別分析と呼ばれる。この方法は、デー・ピー・プレ
ザス（D.P.Prezas）他による「パターン認識および適応
時間−領域分析を用いた迅速かつ正確なピッチ検出」、
IEEE音響・音声および信号処理国際会議資料、第１巻、
109-112ページ、1986年４月（“Fast and Accurate Pit
ch Detection Using Pattern Recognition and Adaptiv
e Time-Domain Analysis"、Proc.IEEE Int.Conf.Acous
t.,Speech and Signal Proc.,Vol.1,pp109-112,April 1
986）に記載されている。この論文の説明のように、音
声類別子の重みつき和がもしある特定のしきい値より大
であれば音声フレームは有声音と宣言され、もしそうで
なければ無声音と宣言される。重み及びしきい値は有声
か無声かが既知である音声フレームからなるトレーニン
グセットに対する性能を最大化するように選択される。

固定重みつき和による方法に付帯する問題点は、音声環
境が変化する場合にそれが良好に実行しないことであ
る。その原因は、しきい値が、非線形ひずみ、及びろ波
による影響を受けて音声とは異なる学習セットから決定
されることである。

しきい値を変化する音声環境に適応させるための一方法
が、エイチ・ハサナイン（H.Hassanein）他の論文「改
良形音声検出器を用いたリアルタイム環境におけるGold
-Rabinerピッチ検出器の使用」、IEEE音響・音声および
信号処理学会トランザクション、1986年、東京、第ASSP
-33巻、第１号、319-320ページ（“Implementation of
the Gold-Rabiner Pitch Detector in a Real Time Env
ironment Using an Improved Voicing Detector"、IEEE
Transactions on Acoustic,Speech and Signal Proces
sing,1986,Tokyo,Vol,ASSP-33,No.1,pp319-320）に開示
されている。この論文は、３つの異なるパラメータをこ
れらのパラメータに付属の独立しきい値と比較し、各比
較に基づいて適応しきい値を１つずつ増加または減少す
る試行的方法を開示している。使用される３つのパラメ
ータは、信号のエネルギー、第１の反射係数、およびゼ
ロクロスカウント数である。例えば、もし音声信号エネ
ルギーがあらかじめ定義されたエネルギーレベルより小
さければ、適応しきい値が１つ増加される。一方もし音
声信号エネルギーが他のあらかじめ定義されたエネルギ
ーレベルより大きければ、適応しきい値が１つだけ減少
される。適応しきい値が計算された後に、それが基本ピ
ッチ検出器の出力から差引かれる。もし差引かれた結果
が正の数を与えれば、音声フレームは有声音と宣言さ
れ、そうでなければ音声フレームは無声音と宣言され
る。開示の方法に伴う問題点は、パラメータ自身が基本
ピッチ検出器において使用されないことである。従っ
て、適応しきい値の調節は特別のものであり、それが計
算される元の物理現象とは直接連結されていない。さら
に、しきい値は変化する音声環境には迅速に適応可能で
はない。

［解決法］上記の問題点は、適応統計的装置を使用することにより
変化する環境に適応して音声判別を行う音声判別装置に
より解決されかつ技術的進歩が達成される。統計的値は
有声音検出器の出力に基づいて統計的手法を使用するこ
とにより変化する環境に適応される。フレームの音声属
性に応答して音声フレーム内における基本周波数の存在
を指示する一般値を発生する有声音検出器により統計的
パラメータが計算される。第２番目に、発生された値に
応答して音声フレームの無声音のものおよび有声音のも
のに対する平均が計算される。２つの平均は次に判別領
域を決定するのに使用され、判別領域および現在の音声
フレームとに応答して基本周波数の存在の判定が行われ
る。

現在および過去の音声フレームの音声属性に応答して、
現在の音声フレームが無声音である確率を計算するこ
と、あるフレームが無声音であろうという総合確率を計
算すること、および現在の音声フレームが有声音である
確率を計算すること、により無声音フレームに対する平
均が計算されることが好ましい。次に現在の音声フレー
ムが無声音である確率および総合確率とに応答して無声
音音声フレームの平均が計算される。さらに、現在の音
声フレームが有声音である確率および総合確率に応答し
て有声音音声フレームの平均が計算される。確率の計算
は最尤（ゆう）（maximum likelihood）統計的手法を用
いることにより実行されるのが好ましい。

一般値の発生は識別分析手法を用いて実行され、音声属
性は音声類別子であることが好ましい。

判定領域は、現在及び過去のフレームの一般値および有
声音および無声音のフレームに応答して、無声音および
有声音の音声フレームの平均、重み、および発生された
しきい値により定義される。

音声フレーム内における基本周波数の存在を検出するた
めの方法は、現在の音声のフレームの音声フレームを定
義する１組の類別子に応答して一般値を発生して基本周
波数の存在を指示するステップ、一般値に応答して１組
の統計的パラメータを計算するステップ、および一般値
と計算された統計的パラメータとに応答して基本周波数
の存在を判定するステップ、を含む。一般値を発生する
ステップは識別分析手法を用いて実行される。さらに基
本周波数を判定するステップは、１組のパラメータに応
答して重み値およびしきい値を計算するステップを含
む。

［図面の簡単な説明］第１図は本発明をブロック図の形で表わした図；第２図および第３図は第１図の有声音検出装置により実
行されるある種の機能をさらに詳細に表わした図であ
る。

［詳細な説明］第１図は識別変数または一般変数を発生するために音声
類別子を処理するための識別有声音検出器をまず利用す
ることにより無声音／有声音判別動作を実行するための
装置を示す。後者の変数は有声音判別を行うために統計
的分析される。統計的分析は、種々の音声環境において
信頼できる性能を与えるように無声音／有声音判別を行
うときに利用されるしきい値に適応する。

ここで、第１図に示す装置の全体的動作を考えてみる。
類別子発生器100は各音声フレームに応答して、音声エ
ネルギーの対数（log）、LPC（線形予測分析）ゲインの
対数、第１反射係数の対数面積比、および１ピッチ周期
だけオフセットされている１フレーム長の２つの音声セ
グメントの二乗相関係数あることが好ましい類別子（cl
assifier）を発生する。これらの類別子の計算は、アナ
ログ音声をディジタルにサンプリングすること、ディジ
タルサンプルのフレームを形成すること、およびこれら
のフレームを処理すること、を含み、これは当業者には
周知である。発生器100は通路106を介して類別子を沈黙
検出器101および識別有声音検出器102に伝送する。識別
有声音検出器102は通路106を介して受けとられた類別子
に応答して識別値ｘを計算する。検出器102は式ｘ＝
ｃ′ｙ＋ｄを実行することによりこの計算を実行する。
“c"は重みからなるベクトル、“y"は類別子からなるベ
クトル、および“d"はしきい値を表わすスカラーである
ことが好ましい。ベクトルｃの成分は、音声エネルギー
の対数に対応する成分は0.3918606に、LPCゲインの対数
に対応する成分は−0.0520902に、第１反射係数の対数
面積比に対応する成分は0.5637082に、および二乗相関
係数に対応する成分は1.361249に等しく初期化し、また
ｄは最初−8.36454に等しく初期化することが好まし
い。識別変数ｘを計算した後に検出器102は通路111を介
してこの値を統計的計算器103および減算器107に伝送す
る。

沈黙検出器101は通路106を介して伝送された類別子に応
答して、通路109上で類別子発生器100によって受取られ
たデータ上に音声が存在するか否かを判定する。音声の
存在の指示は沈黙検出器101により通路110を介して統計
的計算器103に伝送される。

各音声フレームに対して検出器102は識別値ｘを発生し
それを通路111を介して伝送する。統計的計算器103は、
現在の沈黙でないフレームに対する識別値内でそれ以前
の沈黙でないフレームと平均をとることにより、通路11
1を介して受取られる識別値の平均を維持する。統計的
計算器103は通路110を介して受取られた信号に応答し
て、あるフレームが無声音である総合確率およびあるフ
レームが有声音である確率とを計算する。さらに統計的
計算器103は、そのフレームが無声音であった場合に現
フレームに対する識別値が有するであろう統計値および
そのフレームが有声音であった場合に現フレームに対す
る識別値が有するであろう統計値とを計算する。この統
計値は平均値であることが好ましい。計算器103により
行われる計算は、現フレームに基づくのみでなくそれ以
前のフレームにも基づいている。統計的計算器103は、
これらの計算を、通路106を介して受取られる現フレー
ムに対する識別値および類別子の平均に基づくのみでな
く、重みおよびフレームが無声音であるかまたは有声音
であるかを判別するところの、通路113を介して、しき
い値計算器104から受取られたしきい値に基づいて行
う。

計算器104は、計算器103により発生された通路112を介
して受取られた現フレームに対する類別子の確率及び統
計値に応答して、重み値ａとして使用される値および現
フレームに対するしきい値ｂ、とを再計算する。次にこ
れらの新しいａおよびｂの値は通路113を介して統計的
計算器103に逆伝送される。

計算器104は、重み、しきい値及び統計値、とを通路114
を介してU/V判別器105に伝送する。後者の判別器は通路
114および115を介して伝送された情報に応答してこのフ
レームが無声音であるかまたは有声音であるかを判別
し、この判別を通路116を介して伝送する。

ここで、第１図に示すブロックの103、104、105および1
07の動作をさらに詳細に説明する。統計的計算器103
は、エヌ・イー・ディ（N.E.Day）著の「混合正規分布
の成分の推定」（“Estimating the Components of a M
ixture of Normal Distribution"、ビオメトリカ［Biom
etrika］誌、第56巻、第３号、463-474ページ、1969
年）という題名の文献に記載されたものに類似の改良EM
アルゴリズムを実行する。くずし平均（decaying avera
ge）の概念を用いて、計算器103は次式１、２および３
を計算することにより、現フレームおよびそれ以前のフ
レームに対する識別値の平均を計算する。

ｎ＝ｎ＋1 ifn＜2000 （１）ｚ＝1/n （２） X_n＝（１−ｚ）X_n-1＋zx_n （３） x_nは現フレームのための識別値であって通路111を介し
て検出器102から受取られ、2000までの処理フレーム数
である。ｚはくずし平均係数を示し、X_nは現フレームお
よび過去のフレームに対する識別子の平均を示す。統計
的計算器103はｚ、x_nおよびX_n値の受領に応答して、次
のようにまずx_nの二次モーメントQ_nを計算することによ
り共分散値Ｔを計算する。

Q_n＝（１−ｚ）Q_n-1＋▲zx² _n▼ （４） Q_nが計算されると、次のようにＴが計算される。

Ｔ＝Q_n−▲ｘ² _n▼ （５）現フレームの識別値から次のように平均値が差引かれ
る。

x_n＝x_n−X_n （６）次に計算器103は以下に示す式（７）を解くことによ
り、現在値x_nにより表わされるフレームが無声音である
確率を決定する。

（７）式を解いた後に計算器103は次式を解くことによ
り、識別値が有声音フレームを表わす確率を決定する。

Ｐ（v|x_n）＝１−Ｐ（u|x_n）（８）次に計算器103はp_nを求める式（９）を解くことによ
り、あるフレームが無声音であろうという総合確率を決
定する。

p_n＝（１−ｚ）p_n-1＋zP（u|x_n）（９）フレームが無声音であろうという確率を決定した後に、
計算器103は無声音型および有声音型の両方のフレーム
に対する識別値の平均値を与える２つの値ｕおよびｖを
決定する。統計的平均無声音値である値ｕは、もしフレ
ームが無声音であるならば平均識別値を含み；また統計
的平均有声音値である値ｖは、もしフレームが音声音で
あるならば平均識別値を与える。以下に示すように、現
フレームに対する値ｕは式（10）を計算することにより
解かれ、現フレームに対する値ｖは式（11）を計算する
ことにより決定される。

u_n＝（１−ｚ）u_n-1＋zx_nＰ（u|x_n）／p_n−zx_n（10）
v_n＝（１−ｚ）v_n-1＋zx_nＰ（v|x_n）／（１−p_n）−zx_n
（11）ここで計算器103は、通路112を介してｕおよびｖ、値
Ｔ、および確率P_nをしきい値計算器104に伝送する。

計算器104はこの情報に応答してａおよびｂに対する新
しい値を計算する。次にこれらの新しい値は通路113を
介して統計的計算器103に逆伝送される。これにより変
化する環境に迅速に適応可能である。ｎが好ましくは99
以上になると、値ａおよびｂは次式のように計算され
る。値ａは次式を解くことにより決定される。

値ｂは次式を解くことにより決定される。

式（12）および（13）を計算した後に、計算器104は通
路114を介して値ａ、ｕ、およびｖをブロック105に伝送
する。

判別器105はこの伝送された情報に応答して現フレーム
が有声音であるかまたは無声音であるかを判別する。も
し値が正であれば、このときは、もし次式が真であるな
らばフレームを有声音であると宣言される。

ax_n−ａ（u_n＋v_n）/2＞０（14）またはもし値が負であれば、このときは、もし次式が真
であるならばフレームは有声音であると宣言される。

ax_n−ａ（u_n＋v_n）/2＜０（15）式（14）はまた次式のように表わされる。

ax_n＋ｂ−log［（１−p_n）／p_n］＞０式（15）はまた次式のようにも表わされる。

ax_n＋ｂ−log［（１−p_n）／p_n］＜０もし前記の条件が満たされないならば、判別器105はフ
レームが無声音であると宣言する。

第２図および第３図は第１図の装置により実施される操
作を流れ図の形式でさらに詳細に示す。ブロック200は
第１図のブロック101を実行する。ブロック202ないし21
8は統計的計算器103を実行する。ブロック222はしきい
値計算器104を実行し、ブロック226ないし238は第１図
のブロック105を実行する。減算器107はブロック208お
よびブロック224により実行される。ブロック202は現フ
レームとそれ以前の全てのフレームとに対する識別値の
平均を表わす値を計算する。ブロック200は現フレーム
内には音声が存在するか否かを判別し、そしてもし現フ
レーム内に音声が存在しなければ、制御が判別ブロック
226に引渡される前にブロック224により現識別値から識
別値に対する平均が差引かれる。

しかしながら、現フレーム内に音声が存在すれば、この
ときはブロック202ないし222により統計的計算および重
み計算が実行される。まず、第１番目にブロック202に
おいて平均値が求められる。第２番目にブロック206に
おいて２次モーメントが計算される。次にブロック206
においてもまた、現フレームおよび過去のフレームに対
する平均値Ｘと共に後者の値が使用されてＴを計算す
る。次にブロック208において識別値x_nから平均Ｘが差
引かれる。

ブロック210は、現在の重み値ａ、現在のしきい値ｂ、
および現フレームに対する識別値x_nとを利用することに
より、現フレームが無声音である確率を計算する。現フ
レームが無声音であるという確率を計算した後に、ブロ
ック212により現フレームが有声音であるという確率が
計算される。次にブロック214よりあるフレームが無声
音であろうという総合確率p_nが計算される。

ブロック216および218は２つの値ｕおよびｖを計算す
る。値ｕは、もしそのフレームが無声音であったならば
識別値がもつであろう統計的平均値を表わす。値ｖは、
もしそのフレームが有声音であったならば識別値がもつ
であろう統計的平均値を表わす。現フレームおよびそれ
以前のフレームに対する実際の識別値は値ｕまたは値ｖ
の周りにクラスタ（集団化）される。もしこれらのフレ
ームが無声音であることが判ると、それ以前のフレーム
および現フレームに対する識別値は値ｕのまわりにクラ
スタされ；そうでなければそれ以前の値は値ｖのまわり
にクラスタされる。ブロック222は次に新しい重み値ａ
および新しいしきい値ｂを計算する。値ａおよびｂは第
２図内のそれ以前のブロックにより次に続くフレーム内
で使用される。

ブロック226ないし238は第１図のU/V判別器105を実行す
る。ブロック226は現フレームに対する値ａが０より大
であるか否かを判別する。もしこの条件が真であれば、
このときは判別ブロック228が実行される。後者の判別
ブロックは、テストにより有声音かまたは無声音かを判
別する。もしブロック228の判別において有声音である
ことが判ると、このときフレームはブロック230により
有声音として表示され、いれ以外はブロック232により
無声音として表示される。もし値ａが０より小であるな
らば、ブロック234ないし238の機能が実行されブロック
228ないし232と同様に機能する。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭61−48898（ＪＰ，Ａ) 特開昭60−200300（ＪＰ，Ａ) 特開昭60−114900（ＪＰ，Ａ) ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＶｏｌ．ＡＳＳＰ−24，Ｎｏ. ３，Ｊｕｎｅ 1976，Ｐ．201−212

Claims

【特許請求の範囲】

【請求項１】非トレーニングセット音声のフレームの音
声属性を定義する類別子のセットに応答して基本周波数
の存在を指示する一般値を発生する手段と、前記一般値に応答して統計的パラメータのセットを計算
するパラメータセット計算手段と、前記パラメータのセットに応答してしきい値を計算する
手段と、前記パラメータのセットに応答して重み値を計算する手
段と、他のフレームに対するパラメータのセットの計算に使用
するために、前記重み値およびしきい値を前記パラメー
タセット計算手段に通知する手段と、前記重み値およびしきい値ならびに計算されたパラメー
タのセットに応答して現在のフレーム中の基本周波数の
存在を判定する手段とからなることを特徴とする、音声
フレーム中の基本周波数の存在を検出する装置。
【請求項２】前記発生手段が前記一般値を発生するため
に識別分析を実行する手段からなることを特徴とする請
求項１の装置。
【請求項３】前記パラメータセット計算手段が、通知さ
れた重み値およびしきい値ならびに前記他のフレームの
一般値にさらに応答して他の統計的パラメータのセット
を計算することを特徴とする請求項１の装置。
【請求項４】前記パラメータセット計算手段が、現在および過去のフレームにわたる前記一般値の平均を
計算する手段と、前記一般値の平均、前記通知された重み値およびしきい
値、ならびに前記他のフレームの一般値に応答して前記
他の統計的パラメータのセットを決定する手段とをさら
に有することを特徴とする請求項３の装置。
【請求項５】現在および過去の非トレーニング音声の各
フレームの音声属性を定義する類別子のセットに応答し
て基本周波数の存在を指示する一般値を発生する手段
と、現在および過去のフレームにわたる前記一般値の分散を
計算する手段と、現在および過去のフレームに応答して現在のフレームが
無声フレームである第１確率を計算する手段と、現在および過去のフレームならびに前記第１確率に応答
して、いずれかのフレームが無声フレームである全確率
を計算する手段と、現在のフレームが有声フレームである第２確率を計算す
る手段と、前記第１確率、前記全確率および前記分散値に応答して
無声フレームの平均を計算する手段と、前記第２確率、前記全確率および前記分散値に応答して
有声フレームの平均を計算する手段と、前記無声フレームの平均、前記有声フレームの平均およ
び前記分散値に応答して判別領域を決定する手段と、現在のフレームに対する前記判別領域に応答して基本周
波数の存在の判定を行う判定手段とからなることを特徴
とする音声フレーム中の基本周波数の存在を検出する装
置。
【請求項６】第１確率計算手段が、最尤統計的演算を実
行することを特徴とする請求項５の装置。
【請求項７】第１確率計算手段が、重み値およびしきい
値にさらに応答して最尤統計的演算を実行することを特
徴とする請求項６の装置。
【請求項８】非トレーニングセット音声のフレームの音
声属性を定義する類別子のセットに応答して基本周波数
の存在を指示する一般値を発生するステップと、前記一般値に応答して統計的パラメータのセットを計算
するパラメータセット計算ステップと、前記一般値および計算されたパラメータのセットに応答
して前記フレーム中の基本周波数の存在を判定する判定
ステップとからなる、音声フレーム中の基本周波数の存
在を検出する方法であって、判定ステップが、前記パラメータのセットに応答してしきい値を計算する
ステップと、前記パラメータのセットに応答して重み値を計算するス
テップと、他のフレームに対するパラメータのセットの計算に使用
するために、前記重み値およびしきい値を通知するステ
ップとからなることを特徴とする、音声フレーム中の基
本周波数の存在を検出する方法。
【請求項９】前記発生ステップが前記一般値を発生する
ために識別分析を実行するステップからなることを特徴
とする請求項８の方法。
【請求項１０】前記パラメータセット計算ステップが、
通知された重み値およびしきい値ならびに前記他のフレ
ームの一般値にさらに応答して他の統計的パラメータの
セットを計算することを特徴とする請求項９の方法。
【請求項１１】前記パラメータセット計算ステップが、現在および過去のフレームにわたる前記一般値の平均を
計算するステップと、前記一般値の平均、前記通知された重み値およびしきい
値、ならびに前記他のフレームの一般値に応答して前記
他の統計的パラメータのセットを決定するステップとを
さらに有することを特徴とする請求項10の方法。