JPS60200300A

JPS60200300A - 音声の始端・終端検出装置

Info

Publication number: JPS60200300A
Application number: JP59056622A
Authority: JP
Inventors: 森井　秀二; 藤井　諭; 昌克星見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-03-23
Filing date: 1984-03-23
Publication date: 1985-10-09
Also published as: JPH0222960B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置に用いられる音声の始端・終端の
検出装置に関するものである。

従来例の構成とその問題点音声の始端、終端の検出方法に関する従来例としては、
信号のエネルギーと零交差回数を用いた方法が知られて
いる。これは、新美康永：音声認識、共立出版（１９γ
９）、あるいは、Ｌ、　Ｒ，Ｒａｂｉｎｅｒ　ａｎｄ　
Ｍ、　Ｒ，８ａｍｂｕｒ　：ムｎ　ａｌｇｏｖｉｔｂｍ
ｆｏｒ　ｄｅｔｅｒｍｉｎｉｎｇ　ｔｈｅ　ｅｎｄｐｏ
ｉｎｔ　ｏｆ　１ｓｏｌａｔｅｄｕｔｔｅｒａｎｃｅｓ
　、　Ｂｅｌ　ｌ　５ｙｓｔ　、　Ｔｏ’ｃｈ、　Ｊ、
　、　（１９７５）に示されている。

零交差回数というのは信号の符号のみを残し、振幅を１
ビツトに量子化した零交差波の一定時間長の区間におけ
る零交差の平均回数である。音声のようにスペクトル構
造をもった信号の零交差回数はスペクトル中の優勢な周
波数成分とよく対応する。第１図（ａ）〜（Ｃ）は音声
信号の零交差回数の分布を示したもので、（→は無音、
（ロ）は無声音、（Ｃ）は有声音の分布である。図から
分るように、音声信号の零交差回数は、有声音のように
低域の周波数成分の優勢は音声では第１図（Ｃ）のよう
に小さな値を示し、無声音のように高域の周波数成分の
優勢な音声では第１図（ｂ）のように大きな値を示す。

従来法による音声の始端・終端検出方法はこの零交差回
数を利用することにょシ信号のエネルギーは小さいが、
零交差回数は大きな値をとる無声子音の検出精度を上げ
た方法である。

以下図面を参照しながら従来例の音声の始端・終端検出
方法について説明する。

第２図は従来例の構成を示したものであシ、第３図は従
来例における音声の始端・終端検出方法の動作を説明す
るための例を示したものである。音声を含む信号は第２
図に示すエネルギー算出部１と零交差回数算出部２によ
りフレーム（例えば１０　ｍ５ｅｃ長）毎に信号エネル
ギーＥ（ロ）（ｎはフレーム番号）と零交差回数Ｎｚ（
ｎ）という２つの特徴パラメータに変換される。３は信
号のエネルギーレベルによシ確実に音声区間であるとい
う部分を検出する始端・終端候補決定部であシ、信号エ
ネルギーＥ（ロ）に対対し２つの閾値１ｃｓ　＋　Ｅｌ
（Ｅ＋＞Ｅｌ）を適用し音声の始端候補ｎ１、終端候補
ｎ２をめる。これは第３図（ａ）の例に示すように、エ
ネルギーの値がＥｌを越え、かつその後Ｅ２以下になる
ことなしにＥｌを越えるとき、音声区間に入ったとみな
し、Ｋ２を越えた点を始端候補ｎ１とするものである。

終端候補ｎ２は時間軸を逆にして、同様の方法で決定す
る。第２図の４は音声の始端・終端決定部である。ここ
では、零交差回数算出部２で計算された信号の零交差回
数Ｎｚ　（ｎ）と閾値ＮＯを用いて、エネルギーＥ（→
は小さいが零交差回数Ｈｚ（→が大きな値をとる無声音
が、始端・終端候補決定部３で定められた音声の始端・
終端候補（ｎｌ、町）の外側にないか検査する。第３図
山）の例に示すように、始端候補ｎ１より前の数フレー
ムの区間において零交差回数Ｎｚ（ｎ）が閾値Ｎｏより
犬となるフレームの数を数え、その数が一定値（たとえ
ば３）以上であれば始端候補ｎ１よｐ前に無声音がある
とみなし最初に閾値Ｎｏを越えたフレームｎ１に始端を
移す。終端についても同様である。ただし、第３図（ｂ
）では終端ｎ２はもとのままである場合を示している。

このようにして最終的な音声の始端、終端（ｎ′＋　１
町）が決定される。

しかし、上記のように零交差回数を用いた方法では、エ
ネルギーが小さく零交差回数も小さい有声子音（例えば
、／ｂ／、／ｄ／）などの脱落を減少することはできな
い。また、音声の始端、終端には唇を開けたときの雑音
とか呼吸音による雑音が付加しやすい。第４図（ａ）、
（ロ）は上記雑音が付加した音声のエネルギー変化を示
したもので、（＝１１は唇の動きによる雑音が始端に付
加した場合の例として異様（／１ｊｏｏ／　）という音
声のパワー変化を示し、（ｂ）は呼吸音による雑音が始
端に付加した場合の例として出湯（／１ｄｅｊｕ／　）
という音声のパワー変化を示したものである。図に示し
た例のような場合、従来例では始端は雑音部分となって
しまう。このように、従来例による方法では始端。

終端の位置を誤ってしまい音素の脱落や雑音による音素
の付加がさけら詐ない場合があるという欠点がある。

発明の目的本発明は上記欠点に鑑み、音声の脱落、雑音の付加が少
なく、位置精度の高い音声の始端、終端検出装置を提供
するものである。

発明の構成上記目的を達成するためには、信号のエネルギーとスペ
クトル形状によりフレーム毎（例えば１０　ｍ５ｅｃ　
）に有音・無音の判定を行なう有音・無音判定部と、フ
レーム毎の有音・無音判定結果の持続性によシ音声の始
端・終端候補を検出する部分と、無音から有音またはそ
の逆の有音から無音に変化する場合における信号のエネ
ルギーの変化とスペクトルの変化の大きさという動的な
特徴により始端・終端の位置を決定する部分とを備え、
入力された音声を含む信号から音声の始端・終端の位置
を検出するようにしたものである。

実施例の説明以下、本発明の実施例について図面を参照しながら説明
する。

第６図は本発明の一実施例における音声認識装置に組込
まれた音声の始端・終端検出装置のブロック図を示した
ものである。図において６はエネルギー抽出部で、整流
平滑回路で構成され信号のパ’７−ｅ７レーＡ毎に抽出
する。６はスペクトル形状抽出部で、例えば、低域（２
５０〜６００Ｈｚ）。

中域（６００〜１５００Ｈｚ　）、　高域（１６００〜
４０００Ｈ２）の３種類の帯域通過フィルタ群と整流平
滑回路で構成され、各帯域におけるフレーム毎ノパワー
がスペクトル情報として用いられている。エネルギー抽
出部６とスペクトル形状抽出部６とで特徴量抽出部１３
を構成する。７はマルチプレクサで、エネルギー抽出部
６がらの信号のパワーとスペクトル形状抽出部６からの
帯域フィルタパワーを時分割で有音・無音判定部８へ入
力するためのものである。８は有音・無音判定部で、無
音、無声音、有声音の判別を行うためのものである。９
，１ｏは閾値メモリと標準パターンメモリであり有音・
無音判定部８で用いられる定数値が格納されている。閾
値メモリ９には、パワーの２つの閾値ｇ、、ｘ２（ｘｉ
）ＩＣ２）が格納しである。また、標準パターンメモリ
１０には、無音・無声音を判別するだめの線形判別関数
と無音・有声音を判別するだめの線形判別関数の２種類
の線形判別関数の係数が格納されている。そして、これ
ら２つの閾値Ｌ　Ｉ　Ｅ２と２つの線形判別関数の係数
は、あらかじめ使用する環境下で発声された音声データ
の統計処理によりめられ、格納されている。１１は始端
・終端候補検出部であり、有音・無音判定部８より送ら
れてくるフレーム毎の有音・無音判定結果の持続時間に
より、音声の始端・終端候補を検出する。１２は始端・
終端決定部で、最終的な始端・終端を決定する。なお、
第６図８〜１２はマイクロプロセッサ１台で構成される
。

以上のように構成された音声の始端・終端検出装置につ
いてその動作を説明する。

マイク等よシ入力される音声を含む信号は第６図のエネ
ルギー抽出部６およびスペクトル形状抽出部６によりフ
レーム毎にパワーＰＷと３つの帯域ハｒｙ−Ｐｉ（ｉ＝
ｉ〜３）に変換される。・このＦＷ、Ｐｉはマルチプレ
クサ７を経て有音・無音判定部８に入力される。有音・
無音判定部８では入力されたＰ　Ｗ　、　Ｐｉ　（１＝
　１〜３　）　（７）　４　つ（Ｄパラメータを対数変
換し対数パワーＬＰＷと対数帯域パワーＬＰ１　（１＝
１〜３）をめる。そして、ＬＰＷとＬＰｉ（ｉ−１〜３
）の４つのパラメータと閾値メモリ９と標準パターンメ
モリ１０に格納されている閾値Ｅ１　＋　”２と２つの
線形判別関数の係数、とを用いて、入力されたフレーム
が有音であるか無音であるかを判定する。この有音・無
音判定はまず最初に２つのエネルギー閾値ＥＩ　ｚ　Ｅ
２（Ｋ＋＞Ｉｈ）　と対数パワーＬＰＷとの比較による
判定が行なわれる。２つの閾値Ｅ１ｒ　Ｅ２はＬＰＷ）
ＩＣ＋ならば確実に有音であり、ＬＰＷ（Ｋ２ならば確
実に無音であるという値に設定されているため判定結果
は式（１）に示すようなものとなる。

ＬＰＷというエネルギー量を用いた判定で不定という判
定結果を得た場合は、さらにスペクトル形状による有音
・無音判定を行なう。これは、低域。

中域、高域の３つの帯域の対数ノくワーＬＰｉ（ｉ＝１
〜３）をスペクトル形状を表わすノ（ラメータとし、標
準パターンメモリ１０に格納しである２種類の線形判別
関数の係数を用い判別関数の値を計算することにより有
音・無音を判定するものである。この２つの線形判別関
数のうち１つは無音／無声音を判別するためのものであ
り、もう１つは無音／有声音を判別するためのものであ
る。

線形判別関数ＦＸは式＠）に示すものであシ、標準パタ
ーンメモリ１ｏには式（２）のム１（ｉ＝１〜３）とＬ
Ｐｉ（ｉ＝１〜３）が無音／無声音。

無音／有声音という２種類の線形判別関数毎に格（ただ
し、ムｌは係数、Ｉ、Ｐｉは平均値）式（２）における
人ｉは２つのクラスの最適な判別を行なうように設定さ
れ２つのクラスの級内分散、縁間分散の比であるＦｉｓ
ｈｅｒ比の最大化条件からめられる。本実施例において
、式（２）のムｉおよびＬＰｉははあらかじめ使用環境
下で発声された音声データの無音・無声音・有声音を統
計処理してめられる。そしてＦＸの値は入力が無音のと
き負で、入力が無声音あるいは有声音のときは正の値を
とるように設定しである。したがって、スペクトル形状
による有音・無音判定は無音／無声音と無音／有声音の
２つの線形判別関数を計算しいずれか一方でも正の値を
とるならば有音、２つとも負の値ならば無音と判定する
。このようにして得られたフレーム毎の有音・無音の判
定結果は第６図の始端・終端候補検出部１１に送られる
。始端・終端候補検出部１１では７レーム毎に得られる
有音・無音の判定結果の持続時間により音声の始端候補
および終端候補を検出する。１１の始端・終端候補検出
部はマイクロプロセッサの２つのレジスタをカウンタと
して用い、さらに比較演算機能を用いて構成される。そ
して、始端候補検出においては１つのカウンタだけを用
い、終端候補検出ではカウンタを２つとも用いている。

第６図は始端候補検出のための処理の流れを示したもの
である。第６図は有音と判定されたフレームが６フレ一
ム以上連続したときその先頭のフレームを始端候補とす
ることを示している。第６図の処理イハ有音フレームの
カウンタ（第６図のＣｔＯｔｌ）ＩＴ）。

始端候補フレーム番号格納領域（第６図邦人ＭＫＳ　）
そして処理フレームポジション（第６図りの初期化のた
めのリセットである。第６図処理口は処理フレームポジ
ションの更新である。処理・・は処理フレームが有音で
あるか無音であるかの比較による分岐である。処理して
いるフレームが有音である場合は有音フレームのカウン
タ（ＣＯＬＩＮＴ）に１を加える（第６図処理二）。さ
らに、始端候補フレーム番号格納領域（ＦＲＡＭＥＳ）
が０にリセットされたままである場合は現在処理を行な
っているフレームの番号（Ｉ）を格納する（処理ホ。

へ）。処理トでは有音フレームのカウンタが６になった
かの判定を行なう。そして、カウンタが６以下の場合は
処理口に戻り、カウンタが６以上になりた場合は始端候
補が検出されたということで始端候補検出処理を終了す
る。処理が終了するまでの間に処理ノ〜において無音で
あるというフレームがあった場合は、処理チにおいて有
音フレームカウンタおよび始端候補フレーム番号格納領
域はリセットされ処理は口に戻る。有音フレームカウン
タは無音フレームがあると処理チによりリセットされる
ため有音が連続したフレーム数のカウンタとなる。した
がって、処理トの判定は有音が６フレ一ム以上連続した
かの判定となる。したがって、音声の始端の前に唇の動
きによる雑音などで有声と判定されたフレームが２〜３
フレームあってもその後に１フレームでも無音と判定さ
れるフレームがあればそれは除去される。このようにし
て始端候補が検出されると次に終端候補検出のだめの処
理が行なわれる。第７図は終端候補検出のための処理の
流れを示したものである。

第７図の処理イは無音フレームのカウンタ（第７図のＣ
０ｔＴＮＴ　１）　、有音フレームのカウンタ（第７図
のＣ０ＵＮＴ２　）そして終端候補フレーム番号格納領
域（第７図ＦＲムＭｉＣＩＫ　）　の初期化のためのリ
セットである。第７図処理口は処理フレームポジション
（第７図工）の更新である。処理ハは処理フレームが有
音であるか無音であるかの比較による分岐である。処理
しているフレームが無音である場合は無音フレームカウ
ンタを更新し、有音フレームカウンタをリセットする（
処理二、ホ）。さらに無音カウンタが２以上でかつ終端
フレーム番号格納領域がリセットされている場合には無
音フレームカウンタが１となったフレームの番号を終端
候補フレームとして終端７レーム格納領域に格納する（
処理へ、ト）。処理チでは無音フレームカウンタが３０
になったかの判定を行なう。そして、無音フレームカウ
ンタが３０未満の場合は処理口に戻り、３０以上となっ
た場合は音声が終了したとみなし処理を終了する。処理
ハにおいて有音であった場合に分岐する処理り。

ヌ、ルは終端候補フレームが格納されてから有音のフレ
ームが何フレーム連続したかの処理で６７レ一ム以上連
続した場合は、音声は終了していないとみなし処理イに
戻り終端候補検出をやり直す。

有音フレームが６フレ一ム未満の場合は雑音とみなし、
その区間は無音区間であるということで処理二において
無音７レームカウンタにその区間長が加えられる。

終端候補は無音フレームが２フレーム連続したとき音声
の終了の可能性があるとし先頭の無音フレームを音声の
終了候補とし、その終了候補フレームから２９フレーム
の間に有音フレームが５フレ一ム以上連続することがな
い場合は先の終了候補フレームを終端候補とする。もし
、終了候補から２９フレーム後の間に有音フレームが６
フレ一ム以上連続した場合は、音声はまだ終了していな
いとし、カウンタおよび終了候補フレームをすべてリセ
ットし第７図に示す終端検出処理を次のフレームからや
シ直す。このような処理により終端に付加された４フレ
ーム以下の雑音は取り除かれる。

始端・終端決定部１２では始端・終端候補検出部１１に
よシ検出された始端・終端候補フレーム付近におけるパ
ワーＬＰＷとスペクトルＬＰ、の変化の大きさにより最
終的な始端・終端を決定する。

パワーの変化の大きさを表わすパラメータとしては式に
））に示すようにフレーム毎に得られる対数パワーＬＰ
Ｗの差分値Ｉ、ＰＷＤが用いられる。

ＬＰＷＤＪ＝ＬＰＷｊ−ＬＰＷ５　ｔ　・・・・・・　
式（３）Ｃただし、Ｊはフレーム番号）また、スペクトルの変化の大きさを表わすパラメータと
しては式（４）に示す帯域対数パワーＬＰｉのユークリ
ッド距離８ＰＤを用いる。

ＳＰＤ、＝＝、Σ　（ＬＰｉｊ　ＬＰｔｌ−ｔ　）２　
・・・・・・　式（４（ただし、１は帯域を表わし、ｊ
はフレーム番号を表わす）ＬＰＷＩ）というパラメータはパワーが増加している場
合圧の値をと９、パワーが減少している場合は負の値を
とる。また、８ＰＤは無音から有音へと変化する場合の
ようにスペクトルの形状が大きく変化するところでは大
きな値をとる。始端の決定はまず始めにＬＰＷＤが正の
値をとるフレームを始端候補から後端に向って検索する
。次にＬＰＷＤが最初に正となったフレニムから後２フ
レームの計３フレームの中でＬＰＷＤが正の値でＳＰＤ
が最大となるフレームをめ、そのフレームを始端フレー
ムと決定する。

終端の決定は、まず始めにＬＰＷＤが負の値をとるフレ
ームを終端候補フレームから始端方向に向って検索する
。次にＬＰＷＤが最初に負となったフレームから２フレ
ーム前の計３フレームの中でＬＰＷＤが負の値でＢＰＤ
が最大となる請求め、そのフレームの１つ前のフレーム
を終端フレームと決定する。このようにして得られた始
端・終端は音声認識装置にて利用される。

本実施例によれば、有音・無音判定部８においてエネル
ギーレベルが低い入力信号に対し、線形判別関数を用い
無音とのスペクトル形状の相異によｐ有音であるか無音
であるか判定する方法をとっているため、エネルギーの
小さな無声子音や有声子音の脱落を減少することができ
る。また、始端・終端候補検出部１１において、音声の
持続性を考慮した検出を行なっているので、音声の始端
・終端前後に付加された短かい雑音を取シ除くことがで
きる。さらに、始端・終端決定部１２では、無音から有
音あるいは逆の場合におけるエネルギーの変化とスペク
トル形状の変化の大きさを利用して始端・終端の位置を
決定しているため位置精度の高い音声の始端・終端を得
ることができる。

第８図は「土台Ｊ　（／　ｄｏｄａｉ　／　）と発声さ
れた音声に本発明の一実施例における始端・終端検出を
適応した例で、第８図ａは対数パワーＬＰＷを示し、ｂ
はスペクトル変化ＳＰＤ、ｃはパワー変化ＬＰＷＤ、ｄ
の実線は無音／無声音を判別する線形判別関数の値、破
線は無音／有声音を判別する線形判別関数の値を示した
ものである。第８図の例においては、始端・終端にそれ
ぞれ雑音が見られる。フレーム毎の無音・有音判定部８
では、ＬＰＷが８１以上であるか、またはＬＰＷがＥｌ
とＥ２の間にある場合はｄに示す二つの線形判別関数の
正負を勘案することによシ、ａに示すイから口およびハ
から二の区間を有音と判定する。これにより始端の雑音
が取り除かれる。始端・終端候補検出部１１においては
、有音・無音フレームの持続性により始端候補フレーム
をイとし、終端候補フレームを口とする。このときノ・
から二の有音区間は５フレ一ム未満であるため雑音と判
定される。そして、始端・終端決定部１２では対数パワ
ーの変化Ｃとスペクトルの変化すによｐ始端子、終端口
が決定され雑音が除去された正しい始端・終端の位置が
得られる。あらかじめ目視による始端・終端のラベル付
けが行なわれている男性話者１名が発声した２１２単語
を用いて本発明の一実施例の評価実験を行なった結果、
ラベルとの差が２フレ一ム以内となるものが始端で９３
．４％、終端で９２．９％、ラベルとの差が３フレ一ム
以内となるものが始端で９７．６％、終端で９７．２％
という結果を得た。そして、始端の音素脱落という重大
な誤シは２単語、終端の音素脱落という重大な誤９は２
単語と少なく、また雑音の付加による誤りはなく、良好
な結果を得ることができ、本発明による音声の始端・終
端検出装置が有効に動作することを確めることができた
。

なお、以上の説明ではスペクトル形状を表わすパラメー
タとして帯域対数・シワ−を用い有音・無音の判定とし
て線形判別関数を用いた場合について説明したが、スペ
クトル形状を表わすノ（ラメータとして信号のフーリエ
変換や線形予測分析によシ得られるパワースペクトルや
線形予測分析により得られるＬＰＣ−ケプヌトラム係数
を用い、有音・無音の判定法としてベイズ判定やマノ・
ラノピス距離などの統計的距離尺度を用いても良い。

発明の効果以上のように、本発明は信号のエネルギー情報だけでな
くスペクトル形状をも用いたフレーム毎の有音・無音判
定部と、音、声の持続性を考慮した始端・終端候補検出
部と、エネルギーの変化およびスペクトル形状の変化量
により始端・終端位置を決定する決定部により構成され
る音声の始端・終端検出装置を提供するもので、有音・
無音判定として、無音・無声音・有声音のスペクトル標
準パターンとの統計的距離尺度を用いたスペクトル形状
の相異を利用しているため、エネルギーの小さな無声子
音や有声子音の脱落を少なくでき、また有音の持続性に
よる始端・終端候補検出を行なっているため雑音の付加
が少なく、シかもエネルギーとスペクトルの変化の大き
さにより始端・終端の位置を決定するため位置精度が高
いというすぐれた効果が得られる。

【図面の簡単な説明】

第１図は従来用いられている零交差回数の分布図、第２
図は従来の始端・終端検出装置のブロック図、第３図は
従来の始端・終端検出装置の動作例を説明する図、第４
図は従来で雑音が付加した音声のエネルギー変化を示す
図、第６図は本発明の一実施例における音声の始端・終
端検出装置のブロック図、第６図は本発明の一実施例に
おける始端候補検出処理を示すフローチャート図、第７
図は本発明の一実施例における終端候補検出処理を示す
フローチャート図、第８図は本発明の一実施例における
動作例を説明する図である。

Claims

【特許請求の範囲】

（１）音声を含む信号から一定時間長の区間毎に信号の
エネルギーとスペクトル形状を表わす特徴量を抽出する
特徴量抽出部と、前記特徴量を用いて入力された信号が
有音であるか無音であるか一定時間長の区間毎に判定す
る有音・無音判定部と、前記有音・無音の判定結果の時
系列を用い判定結果の持続時間によシ音声の始端・終端
の候補を検出する始端・終端候補検出部と、始端・終端
候補の前後における信号のエネルギー変化とスペクトル
の変化の大きさを用いて始端・終端の位置を決定する始
端・終端決定部とを具備することを特徴とする音声の始
端・終端検出装置。
（２）信号のスペクトル形状を表わす特徴量として、帯
域フィルタ群、フーリエ変換若しくは線形子−スベクト
ルまたは線形予測分析にょシ得られるＬＰＣケブヌトラ
ム係数のいずれかを用いることを特徴とする特許請求の
範囲第１項記載の音声の始端・終端検出装置。
（３）有音・無音判定部が、信号のエネルギーと二つの
閾値との比較を行う第１判定部と、無音。無声音、有声音の三つの標準パターンと久方信号のスペ
クトルとの統計的距離尺度を用いスペクトルの類似度に
よる判定を行う第２判定部とを備え、前記統計的距離尺
度として線形判別関数、マハラノビス距離、ベイズ判定
のいずれかを用いるこを特徴とする特許請求の範囲第１
項記載の音声の始端・終端検出装置。
（４）始端・終端決定部のスペクトルの変化の大きさを
表わす特徴量として、一定時間長の区間におけるスペク
トルを表わす特徴量と前の区間のスペクトルを表わす特
徴量とのユークリッド距離を用いることを特徴とする特
許請求の範囲第１項記載の音声の始端・終端検出装置。