JP3096564B2

JP3096564B2 - 音声検出装置

Info

Publication number: JP3096564B2
Application number: JP06146633A
Authority: JP
Inventors: 俊幸渡辺
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1994-06-28
Filing date: 1994-06-28
Publication date: 2000-10-10
Anticipated expiration: 2015-10-10
Also published as: JPH0816185A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号を含む入力信
号からその音声信号の時間領域（区間）を検出する音声
検出装置に関する。

【０００２】

【従来の技術】図５は第１の従来例を示す回路ブロック
図である。

【０００３】１は音声を電気的な音声信号に変換する音
声信号変換手段であるマイクロホン（以下マイクとい
う）、２はこのマイク１からの音声信号を増幅する音声
増幅回路、３はこの音声増幅回路２から得られる音声信
号から音声の特徴パラメータである周波数スペクトルを
抽出するスペクトル抽出回路、４はこのスペクトル抽出
回路３からの周波数スペクトルを時系列的に貯えるメモ
リである。

【０００４】５は第１比較器であり、上記音声増幅回路
２から入力される信号の波高値と第１閾値（Ｖ１）とを
比較し、この波高値が第１閾値（Ｖ１）を越えたときに
音声入力検知信号を出力する。

【０００５】６は第２比較器であり、上記音声増幅回路
３からの入力信号の波高値と第１閾値（Ｖ１）より小さ
い第２閾値（Ｖ２）とを比較し、この波高値が第２閾値
（Ｖ２）より低下したときに音声低下検知信号を出力す
る。

【０００６】７はこの第２比較器６からの音声低下検知
信号が連続して出力される時間を計数するカウンタ回路
であり、例えばこの計数値が１５０ｍｓｅｃに達した時
点で音声入力終了信号を出力するものである。

【０００７】８はパターン編集回路であり、上記第１比
較器５からの音声入力信号があった時点から例えば５０
ｍｓｅｃ以前の時点を音声入力開始時点とするとともに
上記カウンタ回路７からの音声入力終了信号があった時
点を音声入力終了時点とした音声領域（区間）を設定
し、この音声領域に含まれる上記メモリ４に貯えられた
周波数スペクトルが読み出される。９はこのパターン編
集回路によって読み出された周波数スペクトルを格納す
る音声パターンメモリである。

【０００８】次に、図６を用いてこの回路動作を説明す
る。同図ａの場合、マイク１に音声信号Ｓのみが入力さ
れた場合、この入力信号の波高値が第１比較器５の第１
閾値（Ｖ１）を越えた時点Ｔ１から５０ｍｓｅｃ以前の
時点Ｔ０が音声パターン編集回路８によって音声入力開
始時点に設定される。

【０００９】一方、入力信号の波形値が第２比較器６の
第２閾値（Ｖ２）より１５０ｍｓｅｃ以内では、カウン
タ７から音声入力終了信号は得られず、時点Ｔ４以降に
おいてはこの時点Ｔ４から１５０ｍｓｅｃ経過後の時点
Ｔ５にカウンタ回路７から音声入力終了信号が得られ、
この時点Ｔ５が音声パターン編集回路８によって音声入
力終了時点として設定される。

【００１０】しかしながら、同図ｂの如く、周囲ノイズ
Ｎが比較的高いレベルの入力であった場合、音声入力開
始時点は同様に設定されるものの、音声信号Ｓの波高値
が低下しても周囲のノイズＮのレベルが第２比較器６の
第２閾値（Ｖ２）より高いために、音声入力終了時点を
設定することができなくなり、音声領域の検出を妨げて
いた。

【００１１】そこで、第２従来例として、図７に示すよ
うな音声検出装置で上記問題点は解消できる。図５と同
一部分には同一符号を付け説明は省略する。

【００１２】つまり、第２比較器６の変わりに、雑音認
識手段１０を設けたところが異なる部分である。

【００１３】この雑音認識手段１０は比較器５からの音
声入力検知信号を受け、この信号があった時点の５０ｍ
ｓｅｃ以前の時点よりさらに以前の時間領域の周波数ス
ペクトル、即ちノイズＮのみによる雑音スペクトル列を
メモリから読み出して、この雑音スペクトル列を平均化
した雑音パターンを導出する雑音パターン編集回路１０
ａと、この雑音パターン編集回路１０ａによって導出さ
れた雑音パターンを直ちに格納する雑音パターンメモリ
１０ｂと、上記スペクトル抽出から連続して時系列的に
得られる各周波数スペクトルとの一致が取れたときに雑
音領域検出信号をカウンタ回路７へ出力する雑音領域検
出回路１０ｃとからなっている。

【００１４】入力信号の周波数スペクトルがスペクトル
抽出回路３によって１０ｍｓｅｃ程度のサンプリング周
波数で順次抽出されてメモリに時系列的に記憶される。

【００１５】比較器５によって音声増幅回路２からの入
力信号の波高値が閾値（Ｖ１）を越えた時点Ｔ１で、音
声入力検知信号が入力された雑音パターン編集回路１０
ａは、音声入力開始時点Ｔ０より以前の時間領域即ちノ
イズ信号のみの時間領域に含まれる上記メモリ４の各周
波数スペクトルを読み出して、時間平均した周波数スペ
クトルを雑音パターンとして雑音パターンメモリ１０ｂ
に格納する。

【００１６】そして、図８に示すように領域検出回路１
０ｃでこの雑音パターンと上記スペクトル抽出回路３か
ら時点Ｔ１以降に抽出される各時点と比較され、この検
出信号によりカウンタ回路７は一致を検出した後の所定
時間（例えば１５０ｍｓｅｃ）だけその検出が継続した
時点で音声入力終了信号を出力する。

【００１７】それにより、ノイズ信号Ｎより低いレベル
が前記所定期間継続してから音声入力を終了したことを
認識することができる。

【００１８】ここで、判別のために用いられる閾値（Ｖ
１等）は誤検出を防止するために、通常考えられるノイ
ズレベルより十分高く設定しておく必要がある。もしく
は、入力されたノイズレベルに応じて、閾値を変化さ
せ、いかなるノイズが入ってきても誤検出しないように
している。

【００１９】しかしながら、単語の音声領域（区間）に
対して厳しい精度で検出を必要とする音声認識手法を利
用する場合には、ノイズを多く検出できる環境では、前
記のような方法だけでは、精度良く音声区間の検出はで
きない。

【００２０】例えば、この音声認識手法としては、音声
区間の中の特徴パラメータ時系列を多次元のベクトルと
みなし、統計的な判別手法による音声認識を行う方法が
ある。つまり、認識すべき単語は話者によって、音声速
度及び発声時間（字間を伸ばしたり、縮めたり）の差が
あるため、音声の一定期間を抜き取り、それを決められ
た期間に圧縮／伸張する。それにより、圧縮／伸張した
信号をパターン化して、予め記憶された基準のパターン
と比較され、入力された音声を判別するといった方法が
ある。

【００２１】その方法においては、一定期間を抜き取る
際に、音声の波高値がある所定レベルを越えたときに音
声がありと認識するようになっている。

【００２２】そこで、図９を用いて抜き取りを説明す
る。尚、説明を容易にするため、図は省略図になってい
る。同図において、Ｖ１、Ｖ２、Ｖ３は前述した閾値で
あり、入力信号のノイズレベルで決定されるものとす
る。閾値は図９の中では図ａが最も低く、図ｃが最も高
くなっている。

【００２３】この図において、閾値Ｖ１、Ｖ２、Ｖ３を
越える入力音声がある位置Ｋ１から、この閾値以下にな
る位置Ｅまでを音声区間（期間）として抽出する。

【００２４】実際には、音声信号ＳはノイズＮに埋もれ
ているが、特に急激な変化が無い限り位置Ｋ０から始ま
っていると予測される。

【００２５】そのため、ノイズ成分Ｎが増加すると、正
規の信号開始位置Ｋ０より、判別された信号開始位置Ｋ
１との差が広がることになる。ここで、この図のように
信号の立ち上がりが急峻な音声ではこの差はあまり生じ
てこない。

【００２６】しかしながら、図１０に示すように立ち上
がりが滑らかな場合、ノイズ成分のレベルが低くても前
述した差が現れ、さらにノイズ成分のレベルが高くなる
と、より一層その差が拡大することが明かとなろう。

【００２７】そのため、実際の音声信号より狭い範囲で
音声区間（期間）として検出してしまい、正しく音声を
認識することができなくなる。つまり、ノイズ成分によ
り閾値を変化させることは音声信号を検出するには有効
であるが、ノイズに埋もれた信号まで除去してしまうた
めに音声区間（期間）を正しく検出することはできなく
なる。したがって、音声開始位置での波高値の変化率が
小さい場合は前述した差が大きくなり、音声区間の検出
精度を損なってしまう。

【００２８】

【発明が解決しようとする課題】本発明は、音声信号を
ある閾値で判別することで音声の開始／終了を検出する
音声判別装置において、その閾値が音声信号に含まれる
ノイズ成分に影響されないようにすることで、実際の音
声信号開始（あるいは終了）点が判別した点よりずれて
しまうことになり、正確に音声信号区間（期間）を判別
することができないといった欠点を解決するものであ
る。

【００２９】

【課題を解決するための手段】本発明は、音声入力用の
マイクロフォンと、このマイクロフォンから得られる音
声信号を増幅する音声増幅回路と、この音声増幅回路か
ら得られる音声信号から音声の特徴パラメータである周
波数スペクトラムを抽出するスペクトル抽出回路と、前
記スペクトル抽出回路からの周波数スペクトルを時系列
的に蓄えるメモリと、前記音声増幅回路からの音声信号
を比較入力とする比較器と、前記比較器からの音声入力
検知信号を受け、この信号があった時点以前の時間領域
の周波数スペクトラムを前記メモリから読み出して、こ
の雑音スペクトル列を平均化した雑音パターンを導出す
る雑音パターン編集回路と、この雑音パターン編集回路
によって導出された雑音パターンを格納する雑音パター
ンメモリと、前記スペクトル抽出回路から連続して時系
列的に得られる各周波数スペクトルとの一致がとれたと
きに雑音領域検出信号を出力する雑音領域検出回路から
なる雑音認識手段と、前記雑音領域検出回路からの雑音
領域検出信号を受け、その検出信号を所定時間継続した
かどうかをカウントし、所定時間継続したなら音声入力
終了信号を出力するカウンタと、前記カウンタで定めら
れる音声領域に含まれる上記メモリに蓄えれられた周波
数スペクトルを読み出すパターン編集回路と、前記雑音
パターンメモリからの雑音パターンを平均化して保持
し、前記比較器の基準電圧入力端子に出力する平均化回
路と、前記比較器からの音声入力検知信号を受け、その
検知信号以降の音声信号を前記メモリから読出し、波形
予測により検出信号以前の音声信号を算出し、音声開始
位置信号を出力する波形予測回路と、からなることを特
徴とする音声検出装置である。

【００３０】

【００３１】

【００３２】

【００３３】

【００３４】

【作用】本発明は、音声信号をノイズレベルで変動する
閾値で判別し、その判別した音声開始位置より、ノイズ
に埋もれた音声信号を算出して実際の音声信号開始位置
を求めるものである。

【００３５】

【実施例】図１は、本発明の一実施例を示す回路ブロッ
クであり、従来例と同一部分には同一符号を付け説明は
省略する。

【００３６】１２は雑音パターンメモリ１０ｂからの雑
音パターンを平均化し、保持し、第１比較器５の基準電
圧入力端子に出力する平均化回路である。１３は第１比
較器５からの音声入力検知信号を受け、その検知信号以
降の音声信号をメモリ４から読みだし、波形予測により
検知信号以前の音声信号を算出し、音声開始位置信号を
出力する波形予測回路である。

【００３７】次に同図を用いて本発明を説明する。第１
比較器５によって上記音声増幅回路２からの入力信号の
波高値が、雑音認識手段１０から得られる雑音パターン
を平均化回路１２で平均化した信号レベル（あるいはそ
れよりわずか越えた信号レベル）を越えた位置Ｋ１を検
出し、入力音声検出信号を波形予測回路１３と雑音パタ
ーン編集回路１０ａに送出する。

【００３８】この雑音パターン編集回路１０ａは入力音
声検出信号を受け、その信号以前に入力されている音声
信号をノイズと判別し、雑音パターンメモリ１０ｂはこ
の判別したノイズレベルを保持する。

【００３９】そして、入力された音声信号がこのノイズ
レベルより低下したことを判別する領域検出回路１０ｃ
で入力信号が低下したことを検出する。その検出信号を
所定時間（例えば１５０ｍｓｅｃ）継続するかどうかを
カウンタで検出し、継続したなら音声入力終了信号を出
力する。

【００４０】一方、波形予測回路１３は入力音声検出信
号を受け、その時点以降の入力音声信号より線形予測を
行い、実際の音声信号開始位置を算出する。

【００４１】次に、ここで使用している線形予測方式の
一例を簡単に説明する。尚、本発明で使用する線形予測
は特にこの方式に限定されるものではない。

【００４２】一般的な線形予測とは複数のデータより最
短距離となる直線（高次曲線でもかまわない）を求める
方法である。

【００４３】つまり、図２において点Ｐ１、Ｐ２、Ｐ
３、Ｐ４、、、Ｐ（ｎ−１）、Ｐｎを分布したデータを
用いて、最短の距離の算出により直線：ｙ＝ａｘ＋ｂ
（ａ、ｂ：定数）を求める（ここでは高次曲線の説明は
省略する）。

【００４４】直線の求め方としては一般的に最小２乗法
等で求めることができる。

【００４５】そして、その線形予測で求められた直線
（曲線）を用いて入力音声信号のノイズ成分で埋もれた
部分を算出するとともに波高値が零となる時間を求める
ことができる。

【００４６】したがって、算出により求められた波高値
の零の時間を入力音声の略開始であると設定し、実際の
音声期間（区間）を判別することができる。

【００４７】つまり、音声の立ち上がりはノイズに埋も
れており、開始位置が判別しにくい、そこで、このよう
に線形予測で音声の立ち上がりを算出し、音声期間（区
間）を判別することで、音声の認識率を向上することが
できる。

【００４８】したがって、図１０において信号開始位置
Ｋ１は線形予測にて信号開始位置Ｋ０と補正され、入力
音声信号の立ち上がり検出漏れを防止する。

【００４９】また、入力された音声信号のノイズレベル
に応じて第１比較器５の基準レベルが変動するのでノイ
ズを音声信号として誤検出することはない。

【００５０】次に、この音声信号区間を判別する流れに
ついて図３を用いて説明する。ステップＳ１で入力音声
信号が所定期間以上続けて閾値Ｖ１以上であったかをカ
ウンタで検出する。ステップＳ２では音声が入力された
ことを認識し、ステップＳ３では音声波形予測手段よ
り、入力音声信号のゼロクロス点を算出し、その点を入
力音声開始位置と設定する。

【００５１】その後、ステップＳ４で所定期間以上続け
て閾値Ｖ１以下となるまで音声入力があるものと判別
し、カウンタにより判別出力を入力音声終了信号として
出力する。このステップＳ４がＯＫとなれば音声終了と
し（ステップＳ５）、前述した音声開始位置とによりス
テップＳ６で音声区間を検出する。

【００５２】その後、再び音声入力待機状態に復帰する
ため、ステップＳ１に戻る。

【００５３】したがって、単語の音声領域（区間）に対
して厳しい精度で検出を必要とする音声認識手法を利用
する場合でも、ノイズを多く検出できる環境において、
音声の開始が検出でき、精度良く音声区間の検出ができ
る。

【００５４】また、ノイズに埋もれた信号まで除去する
ことを減少させるために音声区間（期間）を正しく検出
することができる。したがって、音声開始位置での波高
値の変化率が小さい場合で前述した差が大きくなったと
きでも、音声区間の検出精度を損なってしまうことはな
い。

【００５５】図４は第２の実施例の回路ブロック図を示
す。上記実施例と同一部分には同一符号を付け説明は省
略する。この実施例では入力音声の終端部の波高値が徐
々に減少し、滑らかな傾きになったときにも対応するた
めに、第１実施例で終了検出部に第２波形予測回路１４
を加えた構成になっている。

【００５６】この第２波形予測回路１４は入力音声検出
信号を受け、その時点以前の入力音声信号より線形予測
を行い、実際の音声信号終了位置を算出する。

【００５７】したがって、第１の実施例では音声入力開
始位置のみであった線形補正を音声入力終了位置まで施
すことにより、入力音声の開始終了の期間が識別でき、
入力音声の認識率が向上することになる。

【００５８】

【発明の効果】本発明によれば、入力された音声信号よ
りノイズに埋もれた音声信号開始位置や終了位置を算出
して求めることにより、波高値の変化率によらずに精度
良く音声区間の検出が行える。

【図面の簡単な説明】

【図１】本発明の第１実施例の回路ブロック図である。

【図２】最小２乗法を説明する図である。

【図３】本発明のフローチャートである。

【図４】本発明の第２実施例の回路ブロック図である。

【図５】第１従来例の回路ブロック図である。

【図６】第１従来例の入力音声信号の波形図である。

【図７】第２従来例の回路ブロック図である。

【図８】第２従来例の入力音声信号の波形図である。

【図９】入力音声信号の波形の簡易図である。

【図１０】入力音声信号の波形の簡易図である。

【符号の説明】

１マイクロフォン２音声増幅回路３スペクトル抽出回路４メモリ５第１比較器６第２比較器７カウンタ回路８パターン編集回路１０雑音認識手段１２平均化回路１３波形予測回路１４波形予測回路

Claims

(57)【特許請求の範囲】

【請求項１】音声入力用のマイクロフォンと、このマイクロフォンから得られる音声信号を増幅する音
声増幅回路と、この音声増幅回路から得られる音声信号から音声の特徴
パラメータである周波数スペクトラムを抽出するスペク
トル抽出回路と、前記スペクトル抽出回路からの周波数スペクトルを時系
列的に蓄えるメモリと、前記音声増幅回路からの音声信号を比較入力とする比較
器と、前記比較器からの音声入力検知信号を受け、この信号が
あった時点以前の時間領域の周波数スペクトラムを前記
メモリから読み出して、この雑音スペクトル列を平均化
した雑音パターンを導出する雑音パターン編集回路と、
この雑音パターン編集回路によって導出された雑音パタ
ーンを格納する雑音パターンメモリと、前記スペクトル
抽出回路から連続して時系列的に得られる各周波数スペ
クトルとの一致がとれたときに雑音領域検出信号を出力
する雑音領域検出回路からなる雑音認識手段と、前記雑音領域検出回路からの雑音領域検出信号を受け、
その検出信号を所定時間継続したかどうかをカウント
し、所定時間継続したなら音声入力終了信号を出力する
カウンタと、前記カウンタで定められる音声領域に含まれる上記メモ
リに蓄えれられた周波数スペクトルを読み出すパターン
編集回路と、前記雑音パターンメモリからの雑音パターンを平均化し
て保持し、前記比較器の基準電圧入力端子に出力する平
均化回路と、前記比較器からの音声入力検知信号を受け、その検知信
号以降の音声信号を前記メモリから読出し、波形予測に
より検出信号以前の音声信号を算出し、音声開始位置信
号を出力する波形予測回路と、からなることを特徴とする音声検出装置。