JPS60114900A

JPS60114900A - 有音・無音判定法

Info

Publication number: JPS60114900A
Application number: JP58222417A
Authority: JP
Inventors: 森井　秀司; 二矢田　勝行; 藤井　諭
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-11-25
Filing date: 1983-11-25
Publication date: 1985-06-21
Also published as: JPH0449952B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置に用いる有音・無音判定法に関す
るものである。

従来例の構成とその問題点有音・無音判定法の従来例としては、信号のエネルギー
と零交差回数を用めた方法が知られている。これは、新
美康永：音声認識、共立出版（１９７９）、あるいは、
Ｌ　−１（、Ｒａｂｉｎｅｒ　ａｎｄ　Ｍ、　Ｒ。

Ｓａｍｂｕｒ　：　Ａｎ　ａｌｇｏｒｉｔｈｍ　ｆｏｒ
　ｄｅｔｅｒｍｉｎｉｎｇ　ｔｈｅｅｎｃｌｐｏｉｎｔ
　ｏｆ　１ｓｏｌａｔｅｄ　ｕｔｔｅｒａｎｃｅｓ　、
　Ｂｅ１ｌ　５ｙｓｔ、　Ｔｅｃｈ。

Ｔ、、（１９７５）　に示されている。

以下−而を参照しながら従来例の有音・無音判定を含む
音声区間検出方法について説明する。

第１図は従来例の音声区間検出方法の構成を示したもの
である。図において、１は信号エネルギー算出部で１０
７ｎＳＯＣ区間（以下フレームと記す）毎の信号エネル
ギーＥ（ｎ）（ｎはフレーム番号）を算出する。２は零
交差回数算出部でフレーム毎の零交差回数Ｎ　ｚ　（ｎ
）を算出する。３は音声の始端、終端候補決定部で信号
エネルギーＥ　（ｎ）と２つの閾値Ｅ”１．Ｅ２を用い
て始端及び終端の候補点を見つける。４は音声区間決定
部で、零交差数Ｎ　ｚ　（ｎ）を用いて音声区間の始端
及び終端を４定する。

以上のように構成された音声区間検出方法について以下
その検出方法を説明する。

零交差回数というのは信号の符号のみを残し、振幅を１
ビツトに触子化した零交差波の一定区間における符号の
変化の回数である。この零交差回数は信号のスペクトル
中の優勢な周波数成分とよく対応する。第２図は防音室
で発声された音声信号の零交差回数の分布を示したもの
で上段体）は無音部分、中段０））は無声子音、下段（
Ｃ）は有声音の分布を表わしている。第２図から分るよ
うに高域の周波数成分が優勢な無声子音では零交差回数
は大きな値となり、無音・有声音では小さな値となる。

従来の有音・無音判定法はこれを第１」用し、信号エネ
ルギーの小さな無声子音の検出精度を上げている。

音声の始端・終端候補決定部３は信号のエネルギーレベ
ルにより、確実に音声区間であるという部分を検出する
ものである。信号エネルギー算出部１で計算されたフレ
ーム毎の信号エネルギーＥ（、）に対し２つの閾値゛Ｅ
１１．Ｅ２（Ｅｌ〉Ｅ２）を適用し音声の始端候補ｎ１
．終端候補ｎ２をめる。これは第３１図（、）の例に示
すように、エネルギーの値がＥ２を越え、かつその後Ｅ
２以下になることなしにＥｌ　を越えるとき、音声区間
に入ったとみなし、Ｅ２を越えた点を始端候補ｎ１　と
する。終端候補ｎ２は時間軸を逆にして、同様の方法で
決定する。

１：↑声区間決定部４では、零交差回数算出部２で計算
されたフレーム毎の零交差回数Ｎ　ｚ　（ｎ）と閾値Ｎ
。

を用いて、エネルギーは小さいが零交差回数が大きい無
声子詮か先の音声区間候補（ｎｌ、ｎ２）の外側にない
か検査する。

第３図（ｂ）に示すように始端候補ｎ１　より前の数フ
レームの区間で零交差回数が閾値Ｎｏより犬となるフレ
ームの数を数え、その数が一定値（たとえば３）以上で
あれば始端候補ｎ１　より前に無声子音区間があるとみ
なし最初にＮＯを越えたフレームｎ　１１に始端を移す
。終端についても同様である。ただ第３図（ｂ）では終
端ｎ２はもとの１まである場合を示している。このよう
にして最終的な音声区間（ｎ　１’　、　ｎ　２　）が
決定される。

しかし、上記のように零交差回数を用いた方法では、エ
ネルギーが小さく零交差回数も小さい有声子音（例えば
／ｂ／、／ｄ／、／γ／）などの脱落を減少することは
出来ない。また、零交差回数は環境騒音の形厚を受けや
すいため、適応出来る環境に制限があるなどの欠点を有
していた。例と１７で、第４図に、信号雑音比２０ｄＢ
程１ｆ−て発ハ・さ凡た（、）無ｇ−、（ｂ）無声子音
、（Ｃ）有声音の零交差回数の分布を示す。第４図によ
ると、無音部６と無声子音昌Ｉ５７での分布の差はほと
んどない。したかつて、上記のような騒音環境では従来
法は有効に動作し７ない。

発明の目的本発明は従来技術のもつ以上のような欠点を解消するも
ので、検出精度が高く、しかも環境騒音による性能劣下
の少ない有音・無音判定法を提供するものである。

発明の構Ｊ戊本発明は上記目的を達成するもので、音声を含む信号の
パワースペクトルから、環境騒音学習により得られた環
境騒音のスペクトル成分を除去したパワースペクトルを
パラメータとして用い、第１の方法として前記パラメー
タの和で表わされる信号のエネルギーレベルと１（、↓
、１値との比較による判定を行い、前記第１の方法によ
る判定が不定のものについて、ｒ君２の方法として前記
）くラメータと無音・無声子す［ｆ・有声子音の３つの
標準・々ターントノスベク！・ルの形状による判定を行
うことニヨり有ｊ（？・無音の判定を行うことを特徴と
する有音・無詮判定法を提供するものである。

実帷例の説明以下本発明の一実施例について図面を参照しながら説明
する。第５図は本発明の一実施例における音声認識装置
の音声区間検出部のブロック図を示したものである。第
６図においで、８はマイク、９は低域（２５０〜６００
１し）、１０は中域（６００〜１５００１−１ｚ）　、
　１１は高域（１５００〜４０００　））ｚ　）の帯域
フィルタである。１２は整流平滑部で９゜１０．１１の
帯域通過フィルタ群の出力を各帯域毎のパワーに変換す
る。１３はマルチプレクサで各帯域毎のパワーを環境騒
音学習部１４あるいは環境騒音除去部１５に時分割で入
力するだめのものである。１６は信号エネルギーによる
判定部であり、１７のエネルギー閾値メモリの１＆１値
との比較で無声であるか有音であるかの判定を行なう。

１８は統計的距離尺度による判定部で、１９の標準パタ
ーンメモリにある無音・無声子音と無音・有声子音の２
つの線形判別関数の係数を用い、無音・無声子音・有声
子音のいずり、にスペクトルの形状が最も類似している
かの判定を行なう。なおハード溝成上では第５図におけ
る１６〜１９は汎用のマイクロプロセッサ１つで構成さ
れている。

以上のように構成された音声区間検出部についてその動
作を説明する。

まず、標準環境下（たとえば防音室）で発声された多数
話者の音声から帯域ｄ過フィルタ群９゜１０．１１によ
り得られるパワースペクトルの無音、無声子音、有声子
音という３つのクラスの分布をめる。そして統計処理に
より無音のパワースペクトルの平均値Ｓｔ　と、２つの
エネルギー閾値Ｅ１．Ｅ２をめ第５図のエネルギー閾値
メモリ１７に入れておく。さらに無音と無声子音、無音
と有声子音を分離する２つの線形判別関数の係数である
重み係数Ａｉ、平均値ＬＰｉ　（後に詳しく述べる）を
め第５図の標準パターンメモリ１９に入れておく。

次に、使用する環境の騒音を学習する。

環境騒音学習は、音声認識装置の電源が入れられたとき
、あるいは音声認識装置ｔに環境騒音学習実行というコ
マンドが入力されたとき行なわれる。

この環境騒音・学習は、音声を含まない環境騒音のみの
信号の一定時間（たとえば１０秒）における平均的なス
ペクトル形状をめるものである。第５図のマイク８より
入力される騒音のみの信号は、低域９．中域ＩＱ、高域
１１の帯域通過フィルタ群と整流平滑部１２により低域
、中域、高域のパワースペクトルに変換されマルチプレ
クサ１３を通して環境騒音学習部１４に入力される。環
境騒音学習部１４では低域、中域、高域のパワースペク
トルの各周波数成分毎の平均値Ｎｉをめる。

さらに、このＮｉ　とエネルギー閾値メモリ１７に入れ
である標準環境の無音のパワースペクトルの平均値Ｓｔ
　とを用いて式（１）より帯域フィルタ毎の補−正係数
ａｔ（ｉ＝１〜３）をめる。このａｔは使用環境の騒音
のエネルギーレベルを標準環境の無音−のエネルギーレ
ベルに補正する係数であり、環境騒音学習により得られ
た騒音の帯域毎のパワーの平均Ｎｉ　とあらかじめ得ら
れている標準環境の無音の帯域毎パワーの平均ＳＬ　と
の差によりめら牙ｔ、環境騒音除去部１５に格納してお
く。

ａ　ｉ　＝Ｎｉ　−３ｉ　・・・・・・−・・・・・式
０）％式％ａｉ：帯域フィルタｉの出力パワーの補正係数Ｎｉ：環
境騒音の帯域フィルタｉの出力パワーの平均Ｓｉ：標準環境の無音の帯域フィルタｉの出力パワーの
平均次に有音・無音判定法について第５図及び第６図のクロ
ーチャートを参照しながら説明する。

マイク８より入力される音声を含む信号は第５図の帯域
通過フィルタ群９，１０．１１及び整流平滑部１２によ
り低域・中域・高域の３つの帯域のパワーＰｉ（ｉ＝１
〜３）に変換される。この３つのパワーＰｉ（ｉ＝１〜
３）はマルチプレクサ１３を１ｍす、ＩＱｍＳＯ［：毎
（フレーム毎）に環境騒音除去＃Ａ１５に入力される。

環境騒音除去部１５では入力されたパワーＰｉ　と環境
騒音学習で得られた補正係数ａｉを用いて、式（２）に
示すように環境騒音を除去した帯域毎の対数パワーＬＰ
ｉ　に変換する。

ＬＰ　ｉ　＝　ｌ１ｏｑ１ｏ（Ｐ　ｉ　−ａ　ｉ　）　
・−＝−＝−・式（２）ｉ＝１〜３（帯域パワーの種数
を表わす）また、式（３）に示す３つの帯域パフ−Ｐｉ
の和の対数をとった対数全帯域パワーＬＰＷ　もめる。

ＬＰ’Ｗ＝ｌｏｇ１０（Ｚ（ｐｔ−ａｉ）ｌ・・＝−・
式（３）以上の処理は第６図の処理イ〜ハにあたる。

次にエネルギーによる判定部１６では、式（３）により
１得られた対数全帯域パワーＬＰＷ　と、閾値メモリ１
７にある２つのエネルギー１．；ム１ｆｌｉｉ８１．Ｅ
２（Ｅｌ〉Ｅ２）との比較により無音・有音の判定を行
なう。

この２つの閾値Ｅ１．Ｅ２は標準環境下で発声された音
声データにより設定されたもので、ＬＰＷ＞Ｅｌならば
確実に有声でありＬＰＷ＜Ｅ２ならば確実に無音である
という値に設定されている。したがって、エネルギによ
る判定部１６では、式（４）のような判定が行なわれる
。

これは第６図に示す判定部、及びホである。式（４）に
おりて不定と判定さｉｔだものは、エネルギーレベルで
は判定出来ないため次段の統計的距離による判定部１８
で、スペクトル形犬により無音であるか有音であるかが
判定される。統計的距離にょる判定部１８では、式（２
）により得られるスペクトルの大まかな形状を示す低域
・中域・高域の３つの帯域の対数パワーＬＰｉ（ｉ＝１
〜３）をパラメータとし、標準パターンメモリ１９にあ
るそつの線形判別関数の係数を用い、判別関数の値を計
算する。この２つの線形判別関数は、標準環境下で発声
された音声データの無音・無声子音・有声子音により設
計されたもので１つは無音／無声子音の線形判別関数で
あり、もう１つは無音／有声子音の線形判別関数である
。線形判別関数ＦＸは式（５）のように表わされ、（ただしＡ１は重み係数、ＬＰｉは１１２−均値）重み
係数Ａ１は２つのクラスの最適な判別を行うように設定
され、２つのクラスの繰向分散２級間分散の比であるＦ
　１ｓｈｅｒ　比の最大化条件からめられる。標準パタ
ーンメモリ１９には式（向における重み係数Ａｉ　と平
均値ＬＰｉ　が格納されている。

また、この２つの線形判別関数は、入力が無音のときは
負の値をとり、無声子音あるいは有声子音の場合はＩＥ
の値をとるように設計しである。したがって、この統計
的距離による判別部１８では、無音／無声子音と無音／
有声子音の２つの線形判別関数式（５）を計算しく第６
図クローチャートの処理へ及びチにあたる。）第６図の
判定ト及びりに示すようにいずれか１方でも正の値（と
るならば有音と判定しく第６図灰理ヌ）２つとも負の値
ならば無音と判定する（第６図処理層）。

このようにして各クレームごとに有音と無音の判定を行
い、得られプこフレーム毎の有音／無音の判定結果は後
段の澤声認識部（図示せず）に送られ利用される。

本実施例によれば、環境騒音の学習を行ないその騒音の
スペクトル成分を除去することにより、標準環境下で設
定さＪｔた閾値や線形判別関数をそのｉｔ利用すること
が出来るようになる。そのため、無声子音や有声子音の
ようにエネルギーレベルの低い音素に対し、線形判別関
数を用いた無音とのスペクトル形状の相異というものが
利用出来るため精度の高込有音・無音判定が実現できる
。

第７図は、男性話者が／５ｏｂａ／　（ｒそば」）と発
声した場合（、）対数全帯域パフ−ＬＰＷ　と（ｂ）２
つの線形判別関数の一値ＦＸ１．ＦＸ２を示したもので
ある。

ＦＸｌ（実ＩＮ　）は無音／無声子音を判別する線形判
別関数であり、Ｆｘ２（破線）は無音／有声子音を判別
する線形判別関数である。第７図のＬＰＷは語頭の／Ｓ
／及び語中の／ｂ／の一部でＥ２より大きくＥｌ　より
小さい不定領域の値を示すが、線形判別関数Ｆｘ１．Ｆ
ｘ２のいずれかがＩＥの値を示すため旧しく有音と判定
される。このように本実施例による方法で（は信号のエ
ネルギーレベルの小さな無声子音や有声子音も帯域フィ
ルタ出力というスペクトル情報を用いた線形判別関数に
より市しく判定することが出来る。

また、約１秒程度の単語２００語の音声データを用い有
音／無音判定実験を行ったところ、９６，８％という高
い正解率を得ることが出来た。さらに同じ音声データに
ＳＮ比が２０ｄＢ程度になるようにホワイトノイズを付
加し同様の実験を行なった結果正解率はほとんど低下せ
ず、環境騒音学習の効果が有効であることを確認するこ
とが出来た。

なお、前記実悔例ではエネルギーレベルでは不定である
場合、パワースペクトルの統計的距離尺度を用いて判定
を行なう場合について述べたが、スペクトル形状の比較
で判定するものであってももちろん良い。

また統計的距離尺度として線形判別関数を用いた場合に
ついて説明したが統計的距離尺度としてマハラノビス距
離、べ習ズ判定に基ずく尺度を用いても良い。

さらに、パワースペクトルをめる方法として低域・中域
・高域の３つの帯域通過フィルタを用いた場合について
説明したが、帯域をより細くした・１°１シ域通過フィ
ルタ群を用いたり、ＦＦＴなとのスペクトル分析法を用
いても良い。

発明の効果以上要するに本発明は音声を含む信号のパワースベクｌ
−／Ｌ／から、環境騒音学習により得られた環境騒音の
スペクトル成分を除去したパワースペクトルをパラメー
タとして用い、第１の方法として前記パラメータの和で
表わされる信号のエネルギーレベルと開直との比較によ
る判定を行い、前記第１の方法による判定が不定のもの
について、第２の方法として前記パラメータと無音・無
声子音・有声子音の３つの標準パターンとのスペクトル
の形状による判定を行うことにより有音・無音の判定を
行うことを特徴とする有音・無斤判定法を提供するもの
で、使用環境の変化や騒音による性能劣化の少ない、高
い精度の判定を行うことができる利点を有する。

【図面の簡単な説明】

第１図は従来の有音・無音判定を含む音声区間検出方法
を説明するブロック図、第２図は信号雑音比約４ｏｄＢ
の場合の零交差回数の頻度分布図、第３図は音声信号の
エネルギー変化と零交差回数の変化を示す図、第４図は
信号雑音比が約２０ｄＢとなるようにホワイトノイズが
付加され−た場合の零交差回数の頻度分布を無音・無声
子音・有声子音に分けて示した図、第５図は本発明の一
実倫例における有音・無圧判定法を説明するだめの音声
区間検出部のプロ１．り図、第６図は本発明の一実施例
における有音・無音判定法のフローチャート、第７図は
本発明の一実施例における判定法のノくワーレベルの変
化と２つの線形判別関数の値の変化を示す図である。８・・・・マイク、９，１０．１１　・・・帯域通過フ
ィルタ、１２−・−・・整流平滑部、１３−　・マルチ
プレクサ、１４・・・・環境騒音学習部、１５・・・・
環境騒音除去部、１６・・・エネルギーによる判定部、
１７−・・・・エネルギー閾値メモリ、１８　・統１；
１的距離尺度による判定部、１９・・・標準・２ターン
メモ　リ。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第　
４１ヌ１雫ＭＥＥＩ数（回／ｌｏｍｓｅｃ）第６図メーーーー＼３ンく　轍畝［司ｉに０準ｄ　２

Claims

【特許請求の範囲】

（１）音声を含む信号のパワースペクトルから、環境騒
音学習により得られた環境騒音のスペクトル成分を除去
したパワースペクトルをパラメータとして用い、第１の
方法として前記パラメータの和で表わされる信号のエネ
ルギーレベルと閾値との比較による判定を行い、前記第
１の方法による判定が不定のものについて、第２の方法
として前記パラメータと無音・無声子音・有声子音の３
つの標準パターンとのスペクトルの形状による判定を行
うことにより有音・無音の判定を行うことを特徴とする
有音・無音判定法。
（２）スペク岐ルの形状による判定として、線形判別関
数、マハラノビス距離、ベイズ判定に基づく尺度のいず
れかの統計的距離尺度による類似度を用いることを特徴
とする特許請求の範囲第１項記載の有音・無音判定法。