JP3096564B2 - 音声検出装置 - Google Patents
音声検出装置Info
- Publication number
- JP3096564B2 JP3096564B2 JP06146633A JP14663394A JP3096564B2 JP 3096564 B2 JP3096564 B2 JP 3096564B2 JP 06146633 A JP06146633 A JP 06146633A JP 14663394 A JP14663394 A JP 14663394A JP 3096564 B2 JP3096564 B2 JP 3096564B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- circuit
- voice
- noise
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【0001】
【産業上の利用分野】本発明は、音声信号を含む入力信
号からその音声信号の時間領域(区間)を検出する音声
検出装置に関する。
号からその音声信号の時間領域(区間)を検出する音声
検出装置に関する。
【0002】
【従来の技術】図5は第1の従来例を示す回路ブロック
図である。
図である。
【0003】1は音声を電気的な音声信号に変換する音
声信号変換手段であるマイクロホン(以下マイクとい
う)、2はこのマイク1からの音声信号を増幅する音声
増幅回路、3はこの音声増幅回路2から得られる音声信
号から音声の特徴パラメータである周波数スペクトルを
抽出するスペクトル抽出回路、4はこのスペクトル抽出
回路3からの周波数スペクトルを時系列的に貯えるメモ
リである。
声信号変換手段であるマイクロホン(以下マイクとい
う)、2はこのマイク1からの音声信号を増幅する音声
増幅回路、3はこの音声増幅回路2から得られる音声信
号から音声の特徴パラメータである周波数スペクトルを
抽出するスペクトル抽出回路、4はこのスペクトル抽出
回路3からの周波数スペクトルを時系列的に貯えるメモ
リである。
【0004】5は第1比較器であり、上記音声増幅回路
2から入力される信号の波高値と第1閾値(V1)とを
比較し、この波高値が第1閾値(V1)を越えたときに
音声入力検知信号を出力する。
2から入力される信号の波高値と第1閾値(V1)とを
比較し、この波高値が第1閾値(V1)を越えたときに
音声入力検知信号を出力する。
【0005】6は第2比較器であり、上記音声増幅回路
3からの入力信号の波高値と第1閾値(V1)より小さ
い第2閾値(V2)とを比較し、この波高値が第2閾値
(V2)より低下したときに音声低下検知信号を出力す
る。
3からの入力信号の波高値と第1閾値(V1)より小さ
い第2閾値(V2)とを比較し、この波高値が第2閾値
(V2)より低下したときに音声低下検知信号を出力す
る。
【0006】7はこの第2比較器6からの音声低下検知
信号が連続して出力される時間を計数するカウンタ回路
であり、例えばこの計数値が150msecに達した時
点で音声入力終了信号を出力するものである。
信号が連続して出力される時間を計数するカウンタ回路
であり、例えばこの計数値が150msecに達した時
点で音声入力終了信号を出力するものである。
【0007】8はパターン編集回路であり、上記第1比
較器5からの音声入力信号があった時点から例えば50
msec以前の時点を音声入力開始時点とするとともに
上記カウンタ回路7からの音声入力終了信号があった時
点を音声入力終了時点とした音声領域(区間)を設定
し、この音声領域に含まれる上記メモリ4に貯えられた
周波数スペクトルが読み出される。9はこのパターン編
集回路によって読み出された周波数スペクトルを格納す
る音声パターンメモリである。
較器5からの音声入力信号があった時点から例えば50
msec以前の時点を音声入力開始時点とするとともに
上記カウンタ回路7からの音声入力終了信号があった時
点を音声入力終了時点とした音声領域(区間)を設定
し、この音声領域に含まれる上記メモリ4に貯えられた
周波数スペクトルが読み出される。9はこのパターン編
集回路によって読み出された周波数スペクトルを格納す
る音声パターンメモリである。
【0008】次に、図6を用いてこの回路動作を説明す
る。同図aの場合、マイク1に音声信号Sのみが入力さ
れた場合、この入力信号の波高値が第1比較器5の第1
閾値(V1)を越えた時点T1から50msec以前の
時点T0が音声パターン編集回路8によって音声入力開
始時点に設定される。
る。同図aの場合、マイク1に音声信号Sのみが入力さ
れた場合、この入力信号の波高値が第1比較器5の第1
閾値(V1)を越えた時点T1から50msec以前の
時点T0が音声パターン編集回路8によって音声入力開
始時点に設定される。
【0009】一方、入力信号の波形値が第2比較器6の
第2閾値(V2)より150msec以内では、カウン
タ7から音声入力終了信号は得られず、時点T4以降に
おいてはこの時点T4から150msec経過後の時点
T5にカウンタ回路7から音声入力終了信号が得られ、
この時点T5が音声パターン編集回路8によって音声入
力終了時点として設定される。
第2閾値(V2)より150msec以内では、カウン
タ7から音声入力終了信号は得られず、時点T4以降に
おいてはこの時点T4から150msec経過後の時点
T5にカウンタ回路7から音声入力終了信号が得られ、
この時点T5が音声パターン編集回路8によって音声入
力終了時点として設定される。
【0010】しかしながら、同図bの如く、周囲ノイズ
Nが比較的高いレベルの入力であった場合、音声入力開
始時点は同様に設定されるものの、音声信号Sの波高値
が低下しても周囲のノイズNのレベルが第2比較器6の
第2閾値(V2)より高いために、音声入力終了時点を
設定することができなくなり、音声領域の検出を妨げて
いた。
Nが比較的高いレベルの入力であった場合、音声入力開
始時点は同様に設定されるものの、音声信号Sの波高値
が低下しても周囲のノイズNのレベルが第2比較器6の
第2閾値(V2)より高いために、音声入力終了時点を
設定することができなくなり、音声領域の検出を妨げて
いた。
【0011】そこで、第2従来例として、図7に示すよ
うな音声検出装置で上記問題点は解消できる。図5と同
一部分には同一符号を付け説明は省略する。
うな音声検出装置で上記問題点は解消できる。図5と同
一部分には同一符号を付け説明は省略する。
【0012】つまり、第2比較器6の変わりに、雑音認
識手段10を設けたところが異なる部分である。
識手段10を設けたところが異なる部分である。
【0013】この雑音認識手段10は比較器5からの音
声入力検知信号を受け、この信号があった時点の50m
sec以前の時点よりさらに以前の時間領域の周波数ス
ペクトル、即ちノイズNのみによる雑音スペクトル列を
メモリから読み出して、この雑音スペクトル列を平均化
した雑音パターンを導出する雑音パターン編集回路10
aと、この雑音パターン編集回路10aによって導出さ
れた雑音パターンを直ちに格納する雑音パターンメモリ
10bと、上記スペクトル抽出から連続して時系列的に
得られる各周波数スペクトルとの一致が取れたときに雑
音領域検出信号をカウンタ回路7へ出力する雑音領域検
出回路10cとからなっている。
声入力検知信号を受け、この信号があった時点の50m
sec以前の時点よりさらに以前の時間領域の周波数ス
ペクトル、即ちノイズNのみによる雑音スペクトル列を
メモリから読み出して、この雑音スペクトル列を平均化
した雑音パターンを導出する雑音パターン編集回路10
aと、この雑音パターン編集回路10aによって導出さ
れた雑音パターンを直ちに格納する雑音パターンメモリ
10bと、上記スペクトル抽出から連続して時系列的に
得られる各周波数スペクトルとの一致が取れたときに雑
音領域検出信号をカウンタ回路7へ出力する雑音領域検
出回路10cとからなっている。
【0014】入力信号の周波数スペクトルがスペクトル
抽出回路3によって10msec程度のサンプリング周
波数で順次抽出されてメモリに時系列的に記憶される。
抽出回路3によって10msec程度のサンプリング周
波数で順次抽出されてメモリに時系列的に記憶される。
【0015】比較器5によって音声増幅回路2からの入
力信号の波高値が閾値(V1)を越えた時点T1で、音
声入力検知信号が入力された雑音パターン編集回路10
aは、音声入力開始時点T0より以前の時間領域即ちノ
イズ信号のみの時間領域に含まれる上記メモリ4の各周
波数スペクトルを読み出して、時間平均した周波数スペ
クトルを雑音パターンとして雑音パターンメモリ10b
に格納する。
力信号の波高値が閾値(V1)を越えた時点T1で、音
声入力検知信号が入力された雑音パターン編集回路10
aは、音声入力開始時点T0より以前の時間領域即ちノ
イズ信号のみの時間領域に含まれる上記メモリ4の各周
波数スペクトルを読み出して、時間平均した周波数スペ
クトルを雑音パターンとして雑音パターンメモリ10b
に格納する。
【0016】そして、図8に示すように領域検出回路1
0cでこの雑音パターンと上記スペクトル抽出回路3か
ら時点T1以降に抽出される各時点と比較され、この検
出信号によりカウンタ回路7は一致を検出した後の所定
時間(例えば150msec)だけその検出が継続した
時点で音声入力終了信号を出力する。
0cでこの雑音パターンと上記スペクトル抽出回路3か
ら時点T1以降に抽出される各時点と比較され、この検
出信号によりカウンタ回路7は一致を検出した後の所定
時間(例えば150msec)だけその検出が継続した
時点で音声入力終了信号を出力する。
【0017】それにより、ノイズ信号Nより低いレベル
が前記所定期間継続してから音声入力を終了したことを
認識することができる。
が前記所定期間継続してから音声入力を終了したことを
認識することができる。
【0018】ここで、判別のために用いられる閾値(V
1等)は誤検出を防止するために、通常考えられるノイ
ズレベルより十分高く設定しておく必要がある。もしく
は、入力されたノイズレベルに応じて、閾値を変化さ
せ、いかなるノイズが入ってきても誤検出しないように
している。
1等)は誤検出を防止するために、通常考えられるノイ
ズレベルより十分高く設定しておく必要がある。もしく
は、入力されたノイズレベルに応じて、閾値を変化さ
せ、いかなるノイズが入ってきても誤検出しないように
している。
【0019】しかしながら、単語の音声領域(区間)に
対して厳しい精度で検出を必要とする音声認識手法を利
用する場合には、ノイズを多く検出できる環境では、前
記のような方法だけでは、精度良く音声区間の検出はで
きない。
対して厳しい精度で検出を必要とする音声認識手法を利
用する場合には、ノイズを多く検出できる環境では、前
記のような方法だけでは、精度良く音声区間の検出はで
きない。
【0020】例えば、この音声認識手法としては、音声
区間の中の特徴パラメータ時系列を多次元のベクトルと
みなし、統計的な判別手法による音声認識を行う方法が
ある。つまり、認識すべき単語は話者によって、音声速
度及び発声時間(字間を伸ばしたり、縮めたり)の差が
あるため、音声の一定期間を抜き取り、それを決められ
た期間に圧縮/伸張する。それにより、圧縮/伸張した
信号をパターン化して、予め記憶された基準のパターン
と比較され、入力された音声を判別するといった方法が
ある。
区間の中の特徴パラメータ時系列を多次元のベクトルと
みなし、統計的な判別手法による音声認識を行う方法が
ある。つまり、認識すべき単語は話者によって、音声速
度及び発声時間(字間を伸ばしたり、縮めたり)の差が
あるため、音声の一定期間を抜き取り、それを決められ
た期間に圧縮/伸張する。それにより、圧縮/伸張した
信号をパターン化して、予め記憶された基準のパターン
と比較され、入力された音声を判別するといった方法が
ある。
【0021】その方法においては、一定期間を抜き取る
際に、音声の波高値がある所定レベルを越えたときに音
声がありと認識するようになっている。
際に、音声の波高値がある所定レベルを越えたときに音
声がありと認識するようになっている。
【0022】そこで、図9を用いて抜き取りを説明す
る。尚、説明を容易にするため、図は省略図になってい
る。同図において、V1、V2、V3は前述した閾値で
あり、入力信号のノイズレベルで決定されるものとす
る。閾値は図9の中では図aが最も低く、図cが最も高
くなっている。
る。尚、説明を容易にするため、図は省略図になってい
る。同図において、V1、V2、V3は前述した閾値で
あり、入力信号のノイズレベルで決定されるものとす
る。閾値は図9の中では図aが最も低く、図cが最も高
くなっている。
【0023】この図において、閾値V1、V2、V3を
越える入力音声がある位置K1から、この閾値以下にな
る位置Eまでを音声区間(期間)として抽出する。
越える入力音声がある位置K1から、この閾値以下にな
る位置Eまでを音声区間(期間)として抽出する。
【0024】実際には、音声信号SはノイズNに埋もれ
ているが、特に急激な変化が無い限り位置K0から始ま
っていると予測される。
ているが、特に急激な変化が無い限り位置K0から始ま
っていると予測される。
【0025】そのため、ノイズ成分Nが増加すると、正
規の信号開始位置K0より、判別された信号開始位置K
1との差が広がることになる。ここで、この図のように
信号の立ち上がりが急峻な音声ではこの差はあまり生じ
てこない。
規の信号開始位置K0より、判別された信号開始位置K
1との差が広がることになる。ここで、この図のように
信号の立ち上がりが急峻な音声ではこの差はあまり生じ
てこない。
【0026】しかしながら、図10に示すように立ち上
がりが滑らかな場合、ノイズ成分のレベルが低くても前
述した差が現れ、さらにノイズ成分のレベルが高くなる
と、より一層その差が拡大することが明かとなろう。
がりが滑らかな場合、ノイズ成分のレベルが低くても前
述した差が現れ、さらにノイズ成分のレベルが高くなる
と、より一層その差が拡大することが明かとなろう。
【0027】そのため、実際の音声信号より狭い範囲で
音声区間(期間)として検出してしまい、正しく音声を
認識することができなくなる。つまり、ノイズ成分によ
り閾値を変化させることは音声信号を検出するには有効
であるが、ノイズに埋もれた信号まで除去してしまうた
めに音声区間(期間)を正しく検出することはできなく
なる。したがって、音声開始位置での波高値の変化率が
小さい場合は前述した差が大きくなり、音声区間の検出
精度を損なってしまう。
音声区間(期間)として検出してしまい、正しく音声を
認識することができなくなる。つまり、ノイズ成分によ
り閾値を変化させることは音声信号を検出するには有効
であるが、ノイズに埋もれた信号まで除去してしまうた
めに音声区間(期間)を正しく検出することはできなく
なる。したがって、音声開始位置での波高値の変化率が
小さい場合は前述した差が大きくなり、音声区間の検出
精度を損なってしまう。
【0028】
【発明が解決しようとする課題】本発明は、音声信号を
ある閾値で判別することで音声の開始/終了を検出する
音声判別装置において、その閾値が音声信号に含まれる
ノイズ成分に影響されないようにすることで、実際の音
声信号開始(あるいは終了)点が判別した点よりずれて
しまうことになり、正確に音声信号区間(期間)を判別
することができないといった欠点を解決するものであ
る。
ある閾値で判別することで音声の開始/終了を検出する
音声判別装置において、その閾値が音声信号に含まれる
ノイズ成分に影響されないようにすることで、実際の音
声信号開始(あるいは終了)点が判別した点よりずれて
しまうことになり、正確に音声信号区間(期間)を判別
することができないといった欠点を解決するものであ
る。
【0029】
【課題を解決するための手段】本発明は、音声入力用の
マイクロフォンと、このマイクロフォンから得られる音
声信号を増幅する音声増幅回路と、この音声増幅回路か
ら得られる音声信号から音声の特徴パラメータである周
波数スペクトラムを抽出するスペクトル抽出回路と、前
記スペクトル抽出回路からの周波数スペクトルを時系列
的に蓄えるメモリと、前記音声増幅回路からの音声信号
を比較入力とする比較器と、前記比較器からの音声入力
検知信号を受け、この信号があった時点以前の時間領域
の周波数スペクトラムを前記メモリから読み出して、こ
の雑音スペクトル列を平均化した雑音パターンを導出す
る雑音パターン編集回路と、この雑音パターン編集回路
によって導出された雑音パターンを格納する雑音パター
ンメモリと、前記スペクトル抽出回路から連続して時系
列的に得られる各周波数スペクトルとの一致がとれたと
きに雑音領域検出信号を出力する雑音領域検出回路から
なる雑音認識手段と、前記雑音領域検出回路からの雑音
領域検出信号を受け、その検出信号を所定時間継続した
かどうかをカウントし、所定時間継続したなら音声入力
終了信号を出力するカウンタと、前記カウンタで定めら
れる音声領域に含まれる上記メモリに蓄えれられた周波
数スペクトルを読み出すパターン編集回路と、前記雑音
パターンメモリからの雑音パターンを平均化して保持
し、前記比較器の基準電圧入力端子に出力する平均化回
路と、前記比較器からの音声入力検知信号を受け、その
検知信号以降の音声信号を前記メモリから読出し、波形
予測により検出信号以前の音声信号を算出し、音声開始
位置信号を出力する波形予測回路と、からなることを特
徴とする音声検出装置である。
マイクロフォンと、このマイクロフォンから得られる音
声信号を増幅する音声増幅回路と、この音声増幅回路か
ら得られる音声信号から音声の特徴パラメータである周
波数スペクトラムを抽出するスペクトル抽出回路と、前
記スペクトル抽出回路からの周波数スペクトルを時系列
的に蓄えるメモリと、前記音声増幅回路からの音声信号
を比較入力とする比較器と、前記比較器からの音声入力
検知信号を受け、この信号があった時点以前の時間領域
の周波数スペクトラムを前記メモリから読み出して、こ
の雑音スペクトル列を平均化した雑音パターンを導出す
る雑音パターン編集回路と、この雑音パターン編集回路
によって導出された雑音パターンを格納する雑音パター
ンメモリと、前記スペクトル抽出回路から連続して時系
列的に得られる各周波数スペクトルとの一致がとれたと
きに雑音領域検出信号を出力する雑音領域検出回路から
なる雑音認識手段と、前記雑音領域検出回路からの雑音
領域検出信号を受け、その検出信号を所定時間継続した
かどうかをカウントし、所定時間継続したなら音声入力
終了信号を出力するカウンタと、前記カウンタで定めら
れる音声領域に含まれる上記メモリに蓄えれられた周波
数スペクトルを読み出すパターン編集回路と、前記雑音
パターンメモリからの雑音パターンを平均化して保持
し、前記比較器の基準電圧入力端子に出力する平均化回
路と、前記比較器からの音声入力検知信号を受け、その
検知信号以降の音声信号を前記メモリから読出し、波形
予測により検出信号以前の音声信号を算出し、音声開始
位置信号を出力する波形予測回路と、からなることを特
徴とする音声検出装置である。
【0030】
【0031】
【0032】
【0033】
【0034】
【作用】本発明は、音声信号をノイズレベルで変動する
閾値で判別し、その判別した音声開始位置より、ノイズ
に埋もれた音声信号を算出して実際の音声信号開始位置
を求めるものである。
閾値で判別し、その判別した音声開始位置より、ノイズ
に埋もれた音声信号を算出して実際の音声信号開始位置
を求めるものである。
【0035】
【実施例】図1は、本発明の一実施例を示す回路ブロッ
クであり、従来例と同一部分には同一符号を付け説明は
省略する。
クであり、従来例と同一部分には同一符号を付け説明は
省略する。
【0036】12は雑音パターンメモリ10bからの雑
音パターンを平均化し、保持し、第1比較器5の基準電
圧入力端子に出力する平均化回路である。13は第1比
較器5からの音声入力検知信号を受け、その検知信号以
降の音声信号をメモリ4から読みだし、波形予測により
検知信号以前の音声信号を算出し、音声開始位置信号を
出力する波形予測回路である。
音パターンを平均化し、保持し、第1比較器5の基準電
圧入力端子に出力する平均化回路である。13は第1比
較器5からの音声入力検知信号を受け、その検知信号以
降の音声信号をメモリ4から読みだし、波形予測により
検知信号以前の音声信号を算出し、音声開始位置信号を
出力する波形予測回路である。
【0037】次に同図を用いて本発明を説明する。第1
比較器5によって上記音声増幅回路2からの入力信号の
波高値が、雑音認識手段10から得られる雑音パターン
を平均化回路12で平均化した信号レベル(あるいはそ
れよりわずか越えた信号レベル)を越えた位置K1を検
出し、入力音声検出信号を波形予測回路13と雑音パタ
ーン編集回路10aに送出する。
比較器5によって上記音声増幅回路2からの入力信号の
波高値が、雑音認識手段10から得られる雑音パターン
を平均化回路12で平均化した信号レベル(あるいはそ
れよりわずか越えた信号レベル)を越えた位置K1を検
出し、入力音声検出信号を波形予測回路13と雑音パタ
ーン編集回路10aに送出する。
【0038】この雑音パターン編集回路10aは入力音
声検出信号を受け、その信号以前に入力されている音声
信号をノイズと判別し、雑音パターンメモリ10bはこ
の判別したノイズレベルを保持する。
声検出信号を受け、その信号以前に入力されている音声
信号をノイズと判別し、雑音パターンメモリ10bはこ
の判別したノイズレベルを保持する。
【0039】そして、入力された音声信号がこのノイズ
レベルより低下したことを判別する領域検出回路10c
で入力信号が低下したことを検出する。その検出信号を
所定時間(例えば150msec)継続するかどうかを
カウンタで検出し、継続したなら音声入力終了信号を出
力する。
レベルより低下したことを判別する領域検出回路10c
で入力信号が低下したことを検出する。その検出信号を
所定時間(例えば150msec)継続するかどうかを
カウンタで検出し、継続したなら音声入力終了信号を出
力する。
【0040】一方、波形予測回路13は入力音声検出信
号を受け、その時点以降の入力音声信号より線形予測を
行い、実際の音声信号開始位置を算出する。
号を受け、その時点以降の入力音声信号より線形予測を
行い、実際の音声信号開始位置を算出する。
【0041】次に、ここで使用している線形予測方式の
一例を簡単に説明する。尚、本発明で使用する線形予測
は特にこの方式に限定されるものではない。
一例を簡単に説明する。尚、本発明で使用する線形予測
は特にこの方式に限定されるものではない。
【0042】一般的な線形予測とは複数のデータより最
短距離となる直線(高次曲線でもかまわない)を求める
方法である。
短距離となる直線(高次曲線でもかまわない)を求める
方法である。
【0043】つまり、図2において点P1、P2、P
3、P4、、、P(n−1)、Pnを分布したデータを
用いて、最短の距離の算出により直線:y=ax+b
(a、b:定数)を求める(ここでは高次曲線の説明は
省略する)。
3、P4、、、P(n−1)、Pnを分布したデータを
用いて、最短の距離の算出により直線:y=ax+b
(a、b:定数)を求める(ここでは高次曲線の説明は
省略する)。
【0044】直線の求め方としては一般的に最小2乗法
等で求めることができる。
等で求めることができる。
【0045】そして、その線形予測で求められた直線
(曲線)を用いて入力音声信号のノイズ成分で埋もれた
部分を算出するとともに波高値が零となる時間を求める
ことができる。
(曲線)を用いて入力音声信号のノイズ成分で埋もれた
部分を算出するとともに波高値が零となる時間を求める
ことができる。
【0046】したがって、算出により求められた波高値
の零の時間を入力音声の略開始であると設定し、実際の
音声期間(区間)を判別することができる。
の零の時間を入力音声の略開始であると設定し、実際の
音声期間(区間)を判別することができる。
【0047】つまり、音声の立ち上がりはノイズに埋も
れており、開始位置が判別しにくい、そこで、このよう
に線形予測で音声の立ち上がりを算出し、音声期間(区
間)を判別することで、音声の認識率を向上することが
できる。
れており、開始位置が判別しにくい、そこで、このよう
に線形予測で音声の立ち上がりを算出し、音声期間(区
間)を判別することで、音声の認識率を向上することが
できる。
【0048】したがって、図10において信号開始位置
K1は線形予測にて信号開始位置K0と補正され、入力
音声信号の立ち上がり検出漏れを防止する。
K1は線形予測にて信号開始位置K0と補正され、入力
音声信号の立ち上がり検出漏れを防止する。
【0049】また、入力された音声信号のノイズレベル
に応じて第1比較器5の基準レベルが変動するのでノイ
ズを音声信号として誤検出することはない。
に応じて第1比較器5の基準レベルが変動するのでノイ
ズを音声信号として誤検出することはない。
【0050】次に、この音声信号区間を判別する流れに
ついて図3を用いて説明する。ステップS1で入力音声
信号が所定期間以上続けて閾値V1以上であったかをカ
ウンタで検出する。ステップS2では音声が入力された
ことを認識し、ステップS3では音声波形予測手段よ
り、入力音声信号のゼロクロス点を算出し、その点を入
力音声開始位置と設定する。
ついて図3を用いて説明する。ステップS1で入力音声
信号が所定期間以上続けて閾値V1以上であったかをカ
ウンタで検出する。ステップS2では音声が入力された
ことを認識し、ステップS3では音声波形予測手段よ
り、入力音声信号のゼロクロス点を算出し、その点を入
力音声開始位置と設定する。
【0051】その後、ステップS4で所定期間以上続け
て閾値V1以下となるまで音声入力があるものと判別
し、カウンタにより判別出力を入力音声終了信号として
出力する。このステップS4がOKとなれば音声終了と
し(ステップS5)、前述した音声開始位置とによりス
テップS6で音声区間を検出する。
て閾値V1以下となるまで音声入力があるものと判別
し、カウンタにより判別出力を入力音声終了信号として
出力する。このステップS4がOKとなれば音声終了と
し(ステップS5)、前述した音声開始位置とによりス
テップS6で音声区間を検出する。
【0052】その後、再び音声入力待機状態に復帰する
ため、ステップS1に戻る。
ため、ステップS1に戻る。
【0053】したがって、単語の音声領域(区間)に対
して厳しい精度で検出を必要とする音声認識手法を利用
する場合でも、ノイズを多く検出できる環境において、
音声の開始が検出でき、精度良く音声区間の検出ができ
る。
して厳しい精度で検出を必要とする音声認識手法を利用
する場合でも、ノイズを多く検出できる環境において、
音声の開始が検出でき、精度良く音声区間の検出ができ
る。
【0054】また、ノイズに埋もれた信号まで除去する
ことを減少させるために音声区間(期間)を正しく検出
することができる。したがって、音声開始位置での波高
値の変化率が小さい場合で前述した差が大きくなったと
きでも、音声区間の検出精度を損なってしまうことはな
い。
ことを減少させるために音声区間(期間)を正しく検出
することができる。したがって、音声開始位置での波高
値の変化率が小さい場合で前述した差が大きくなったと
きでも、音声区間の検出精度を損なってしまうことはな
い。
【0055】図4は第2の実施例の回路ブロック図を示
す。上記実施例と同一部分には同一符号を付け説明は省
略する。この実施例では入力音声の終端部の波高値が徐
々に減少し、滑らかな傾きになったときにも対応するた
めに、第1実施例で終了検出部に第2波形予測回路14
を加えた構成になっている。
す。上記実施例と同一部分には同一符号を付け説明は省
略する。この実施例では入力音声の終端部の波高値が徐
々に減少し、滑らかな傾きになったときにも対応するた
めに、第1実施例で終了検出部に第2波形予測回路14
を加えた構成になっている。
【0056】この第2波形予測回路14は入力音声検出
信号を受け、その時点以前の入力音声信号より線形予測
を行い、実際の音声信号終了位置を算出する。
信号を受け、その時点以前の入力音声信号より線形予測
を行い、実際の音声信号終了位置を算出する。
【0057】したがって、第1の実施例では音声入力開
始位置のみであった線形補正を音声入力終了位置まで施
すことにより、入力音声の開始終了の期間が識別でき、
入力音声の認識率が向上することになる。
始位置のみであった線形補正を音声入力終了位置まで施
すことにより、入力音声の開始終了の期間が識別でき、
入力音声の認識率が向上することになる。
【0058】
【発明の効果】本発明によれば、入力された音声信号よ
りノイズに埋もれた音声信号開始位置や終了位置を算出
して求めることにより、波高値の変化率によらずに精度
良く音声区間の検出が行える。
りノイズに埋もれた音声信号開始位置や終了位置を算出
して求めることにより、波高値の変化率によらずに精度
良く音声区間の検出が行える。
【図1】本発明の第1実施例の回路ブロック図である。
【図2】最小2乗法を説明する図である。
【図3】本発明のフローチャートである。
【図4】本発明の第2実施例の回路ブロック図である。
【図5】第1従来例の回路ブロック図である。
【図6】第1従来例の入力音声信号の波形図である。
【図7】第2従来例の回路ブロック図である。
【図8】第2従来例の入力音声信号の波形図である。
【図9】入力音声信号の波形の簡易図である。
【図10】入力音声信号の波形の簡易図である。
1 マイクロフォン 2 音声増幅回路 3 スペクトル抽出回路 4 メモリ 5 第1比較器 6 第2比較器 7 カウンタ回路 8 パターン編集回路 10 雑音認識手段 12 平均化回路 13 波形予測回路 14 波形予測回路
Claims (1)
- 【請求項1】音声入力用のマイクロフォンと、 このマイクロフォンから得られる音声信号を増幅する音
声増幅回路と、 この音声増幅回路から得られる音声信号から音声の特徴
パラメータである周波数スペクトラムを抽出するスペク
トル抽出回路と、 前記スペクトル抽出回路からの周波数スペクトルを時系
列的に蓄えるメモリと、 前記音声増幅回路からの音声信号を比較入力とする比較
器と、 前記比較器からの音声入力検知信号を受け、この信号が
あった時点以前の時間領域の周波数スペクトラムを前記
メモリから読み出して、この雑音スペクトル列を平均化
した雑音パターンを導出する雑音パターン編集回路と、
この雑音パターン編集回路によって導出された雑音パタ
ーンを格納する雑音パターンメモリと、前記スペクトル
抽出回路から連続して時系列的に得られる各周波数スペ
クトルとの一致がとれたときに雑音領域検出信号を出力
する雑音領域検出回路からなる雑音認識手段と、 前記雑音領域検出回路からの雑音領域検出信号を受け、
その検出信号を所定時間継続したかどうかをカウント
し、所定時間継続したなら音声入力終了信号を出力する
カウンタと、 前記カウンタで定められる音声領域に含まれる上記メモ
リに蓄えれられた周波数スペクトルを読み出すパターン
編集回路と、 前記雑音パターンメモリからの雑音パターンを平均化し
て保持し、前記比較器の基準電圧入力端子に出力する平
均化回路と、 前記比較器からの音声入力検知信号を受け、その検知信
号以降の音声信号を前記メモリから読出し、波形予測に
より検出信号以前の音声信号を算出し、音声開始位置信
号を出力する波形予測回路と、 からなることを特徴とする音声検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06146633A JP3096564B2 (ja) | 1994-06-28 | 1994-06-28 | 音声検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06146633A JP3096564B2 (ja) | 1994-06-28 | 1994-06-28 | 音声検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0816185A JPH0816185A (ja) | 1996-01-19 |
JP3096564B2 true JP3096564B2 (ja) | 2000-10-10 |
Family
ID=15412151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06146633A Expired - Fee Related JP3096564B2 (ja) | 1994-06-28 | 1994-06-28 | 音声検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3096564B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4552533B2 (ja) * | 2004-06-30 | 2010-09-29 | ソニー株式会社 | 音響信号処理装置及び音声度合算出方法 |
-
1994
- 1994-06-28 JP JP06146633A patent/JP3096564B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0816185A (ja) | 1996-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101041039B1 (ko) | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 | |
EP0757342A2 (en) | User selectable multiple threshold criteria for voice recognition | |
US8046215B2 (en) | Method and apparatus to detect voice activity by adding a random signal | |
US5222147A (en) | Speech recognition LSI system including recording/reproduction device | |
US20050259834A1 (en) | Voice controlled system and method | |
US4718097A (en) | Method and apparatus for determining the endpoints of a speech utterance | |
JPH04182700A (ja) | 音声認識装置 | |
JP3096564B2 (ja) | 音声検出装置 | |
EP0614169B1 (en) | Voice signal processing device | |
JP4880136B2 (ja) | 音声認識装置および音声認識方法 | |
JPH07109559B2 (ja) | 音声区間検出方法 | |
JP2007516450A (ja) | デジタル音声信号におけるクリッキングノイズ検出 | |
JP2754960B2 (ja) | 音声認識装置 | |
JPH056193A (ja) | 音声区間検出方式及び音声認識装置 | |
JPS62141595A (ja) | 音声検出方式 | |
JPH0376471B2 (ja) | ||
JPS61259296A (ja) | 音声区間検出方式 | |
KR100487370B1 (ko) | 티브이의 사운드 잡음 제거장치 및 그 방법 | |
KR20040082756A (ko) | 비음성 제거에 의한 음성 추출 방법 | |
JPH0651792A (ja) | 音声認識装置 | |
JP2000352987A (ja) | 音声認識装置 | |
JPS6250837B2 (ja) | ||
JPH09127982A (ja) | 音声認識装置 | |
JPH0863183A (ja) | 音声認識方法 | |
JP2712176B2 (ja) | 音声検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070804 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080804 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090804 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |