JP2004102161A - Device, method, and program for voice detection - Google Patents
Device, method, and program for voice detection Download PDFInfo
- Publication number
- JP2004102161A JP2004102161A JP2002267108A JP2002267108A JP2004102161A JP 2004102161 A JP2004102161 A JP 2004102161A JP 2002267108 A JP2002267108 A JP 2002267108A JP 2002267108 A JP2002267108 A JP 2002267108A JP 2004102161 A JP2004102161 A JP 2004102161A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- band
- voice
- time
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は音声検出装置、音声検出方法および音声検出プログラムに関し、特に、話者の発話の検出を精度よく行う場合に適用して好適なものである。
【0002】
【従来の技術】
従来の音声検出装置では、話者の発話および無発話を判定するため、話者側から送られた話者信号の音圧を測り、予め設定したしきい値と比較する方法があった。
また、雑音環境下での話者の発話および無発話の判定精度を向上させるため、例えば、特許文献1に開示されているように、時定数の異なる時間平均器を設け、短時間の平均音圧より長時間の平均音圧を差し引いてから、予め設定したしきい値と比較する方法もあった。
【0003】
図3は、従来の音声検出装置の概略構成を示すブロック図である。
図3において、従来の音声検出装置には、話者信号を絶対値化する絶対値化回路11、短時間の平均音圧を算出する短時間音圧平均器12a、長時間の平均音圧を算出する長時間音圧平均器12b、短時間音圧平均器12aの出力から長時間音圧平均器12bの出力を減算する減算器13、減算器13からの出力をしきい値と比較する比較器14が設けられている。
【0004】
ここで、話者信号には、話者の発話による音声信号および雑音環境下での雑音信号が含まれている。
そして、話者信号が絶対値化回路11に入力されると、絶対値化回路11にて話者信号が絶対値化され、短時間音圧平均器12aおよび長時間音圧平均器12bに出力される。
【0005】
そして、絶対値化された話者信号の短時間の平均音圧が短時間音圧平均器12aにて算出されるとともに、絶対値化された話者信号の長時間の平均音圧が長時間音圧平均器12bにて算出され、これらの平均音圧が減算器13にて互いに減算される。
ここで、雑音はほぼ定常的に発生するのに対し、話者の発話は間欠的に行われる。
【0006】
このため、雑音の平均音圧は、平均時間に依存することなくほぼ一定値を維持し、短時間音圧平均器12aおよび長時間音圧平均器12bで捉えられる雑音の平均音圧はほぼ一致するため、短時間音圧平均器12aの出力値から長時間音圧平均器12bの出力値を減算することで、雑音の影響を打ち消すことができる。一方、音声信号の平均音圧は、平均時間が長いと、発話時のレベルと無発話時のレベルが平均化されるが、平均時間が短いと、話者の発話または無発話に応じて変動するようになり、話者の発話時または無発話時のレベルを抽出することが可能となる。
【0007】
この結果、短時間音圧平均器12aでは、発話時と無発話時とで平均音圧を大きく異ならせることが可能となり、話者の発話時または無発話時のレベルを抽出することが可能となるとともに、長時間音圧平均器12bでは、発話または無発話にかかわらず、平均音圧をほぼ一定に維持することが可能となり、雑音の平均音圧を抽出することが可能となる。
【0008】
そして、減算器13からの出力は比較器14に入力され、減算器13からの出力がしきい値と比較される。
そして、減算器13からの出力がしきい値より大きい時は発話状態と判定することが可能となるとともに、減算器13からの出力がしきい値より小さい時は無発話状態と判定することが可能となる。
【0009】
【特許文献1】
特開平1−12728号公報
【0010】
【発明が解決しようとする課題】
しかしながら、図3の短時間音圧平均器12aおよび長時間音圧平均器12bでは、話者信号の平均音圧を算出するための平均時間こそ異なるが、話者信号の平均音圧を算出するための周波数帯域は同一である。
このため、発話が長時間に及ぶ場合、長時間音圧平均器12bで算出される定常音圧が音声の影響をより強く受けて、正しい値を維持できなくなり、発話検出の精度が劣化するという問題があった。
【0011】
そこで、本発明の目的は、発話時間の影響による発話検出の精度の劣化を抑制することが可能な音声検出装置、音声検出方法および音声検出プログラムを提供することである。
【0012】
【課題を解決するための手段】
上述した課題を解決するために、請求項1記載の音声検出装置によれば、音声信号および雑音信号を含む話者信号を入力し、前記音声信号のレベルと予め設定された基準となるレベルとを比較して、その比較結果に基づいて発話状態か無発話状態かを判定する音声検出装置において、前記音声信号が分布する周波数帯域に前記話者信号を帯域制限する音声帯域制限手段と、前記音声帯域制限手段の出力信号のレベルを時間で平均する第1の時間平均手段と、前記雑音信号が分布する周波数帯域に前記話者信号を帯域制限する雑音帯域制限手段と、前記雑音帯域制限手段の出力信号のレベルを前記第1の時間平均手段の平均する時間よりも長い時間で平均する第2の時間平均手段と、前記第1の時間平均手段の出力信号から前記第2の時間平均手段の出力信号を減算する減算手段と、前記減算手段の出力信号のレベルと予め設定された基準となるレベルとを比較する比較器とを備えることを特徴とする。
【0013】
これにより、第1の時間平均手段に入力される雑音信号を抑圧して、音声信号を効率よく抽出することが可能となるとともに、第2の時間平均手段に入力される音声信号を抑圧して、雑音信号を効率よく抽出することが可能となる。
このため、発話が長時間に及んだ場合においても、雑音レベル検出時の音声信号の影響を抑圧することが可能となり、第2の時間平均手段で算出される雑音レベルの精度を向上させることが可能となることから、発話時間の影響による発話検出の精度の劣化を抑制することが可能となる。
【0014】
また、請求項2記載の音声検出装置によれば、前記第2の時間平均手段の後段に、前記第2の時間平均手段の出力信号のレベルに対して重み付けを行い周波数特性の補正をする重み補正手段をさらに備えたことを特徴とする。
これにより、第2の時間平均手段の出力信号のレベルが第1の時間平均手段に入力される信号の帯域に合致するように、第2の時間平均手段の出力信号のレベルを補正することが可能となる。
【0015】
このため、第1の時間平均手段に入力される信号の帯域と、第2の時間平均手段に入力される信号の帯域とが異なる場合においても、第1の時間平均手段の出力信号から第2の時間平均手段の出力信号を減算することで、第1の時間平均手段の出力信号に残存する雑音成分を除去することができ、音声検出の精度を向上させることが可能となる。
【0016】
また、請求項3記載の音声検出装置によれば、前記音声帯域制限手段および前記雑音帯域制限手段は、前記話者信号を入力しフィルタリングする第1のハイパスフィルタと、前記第1のハイパスフィルタの出力信号をフィルタリングする第2のハイパスフィルタおよびローパスフィルタとを備え、前記話者信号は、前記第1のハイパスフィルタを経て前記第2のハイパスフィルタに入力され前記音声信号が分布する周波数帯域に帯域制限され、前記第2のハイパスフィルタの出力信号は、前記第1の時間平均手段に入力され、前記話者信号は、前記第1のハイパスフィルタを経て前記ローパスフィルタに入力され前記雑音信号が分布する周波数帯域に帯域制限され、前記ローパスフィルタの出力信号は、前記第2の時間平均手段に入力されることを特徴とする。
【0017】
これにより、自動車の車室内などに分布する低域雑音帯域と、音声のホルマント周波数の中心が集中する音声帯域とを分離することが可能となり、自動車の車室内などの特定環境下における音声検出の精度を容易に向上させることが可能となる。
また、請求項4記載の音声検出方法によれば、話者信号から音声信号を抽出する周波数帯域と、前記話者信号から雑音を抽出する周波数帯域とを異ならせることにより、前記話者信号に含まれる音声を検出することを特徴とする。
【0018】
これにより、話者信号に含まれる音声信号と雑音信号とを効率よく分離することが可能となり、音声信号に雑音信号が重畳されている場合においても、音声レベル検出時の雑音レベルの影響を軽減することが可能となることから、音声検出の精度を向上させることが可能となる。
また、請求項5記載の音声検出プログラムによれば、音声信号が分布する第1の周波数帯域に話者信号を帯域制限するステップと、雑音信号が分布する第2の周波数帯域に前記話者信号を帯域制限するステップと、前記第1の周波数帯域に帯域制限された話者信号と、前記前記第2の周波数帯域に帯域制限された話者信号との比較結果に基づいて、前記話者信号に含まれる音声を検出するステップとを備えることを特徴とする。
【0019】
これにより、話者信号に含まれる音声信号と雑音信号とを分離して、音声信号に雑音信号が重畳されている場合においても、音声信号および雑音信号を効率よく抽出することが可能となる。
このため、発話が長時間に及んだ場合においても、雑音レベル検出時の音声信号の影響を抑圧することが可能となり、発話時間の影響による発話検出の精度の劣化を抑制することが可能となる。
【0020】
【発明の実施の形態】
以下、本発明の実施形態に係る音声検出装置について図面を参照しながら説明する。
図1は、本発明の一実施形態に係る音声検出装置の概略構成を示すブロック図である。
【0021】
図1において、音声検出装置には、ハイパスフィルタ1、2a、ローパスフィルタ2b、ハイパスフィルタ1およびローパスフィルタ2aで帯域制限された話者信号を絶対値化する絶対値化回路3a、ハイパスフィルタ1およびローパスフィルタ2bで帯域制限された話者信号を絶対値化する絶対値化回路3b、短時間の平均音圧を算出する短時間音圧平均器4a、長時間の平均音圧を算出する長時間音圧平均器4b、長時間音圧平均器4bから出力される信号レベルを補正する重み調整アンプ5、短時間音圧平均器4aの出力から重み調整アンプ5の出力を減算する減算器6および減算器6からの出力をしきい値と比較する比較器7が設けられている。
【0022】
ここで、話者信号には、話者の発話による音声信号および雑音環境下での雑音信号が含まれている。
また、ハイパスフィルタ1は、電話回線で伝送されない帯域の信号を遮断するためのもので、電話回線の帯域は通常300Hz以上になっているため、ハイパスフィルタ1の通過帯域は、この電話回線の帯域に対応して設定することができる。
【0023】
また、ハイパスフィルタ2aは、人間のホルマント周波数が主に分布する帯域の信号を抽出するとともに、自動車の車内などで発生する低域雑音を遮断するためのもので、人間のホルマント周波数の中心は2000Hz近辺に集中するため、ハイパスフィルタ2aの遮断周波数を2000Hz近辺に設定することにより、低域雑音の影響を低減させつつ、人間の音声を精度よく抽出することができる。
【0024】
また、ローパスフィルタ2bは、ハイパスフィルタ2aで帯域制限された信号と相関の弱い帯域の信号を抽出するもので、例えば、自動車の車内などで発生する低域雑音を抽出するとともに、人間のホルマント周波数が主に分布する帯域の信号を遮断する。
すなわち、人間のホルマント周波数の中心は2000Hz近辺に集中し、自動車の車内などで発生する雑音はそれよりも低域に集中するため、ローパスフィルタ2bの遮断周波数を2000Hz近辺に設定することにより、人間の音声の影響を低減させつつ、雑音音圧を精度よく抽出することができる。
【0025】
そして、ハイパスフィルタ1で300Hz以下の低域成分がカットされた話者信号は、ハイパスフィルタ2aおよびローパスフィルタ2bにそれぞれ入力される。
そして、ハイパスフィルタ2aでは、人間のホルマント周波数が主に分布する2000Hz近辺の帯域の信号が抽出されるとともに、自動車の車内などで発生する低域雑音がカットされ、絶対値化回路3aに入力される。
【0026】
そして、ハイパスフィルタ2aで抽出された信号が絶対値化回路3aに入力されると、その信号が絶対値化された後、短時間音圧平均器4aに出力される。
そして、絶対値化回路3aで絶対値化された信号の短時間の平均音圧が算出され、減算器6に出力される。
一方、ローパスフィルタ2bでは、自動車の車内などで発生する低域雑音が抽出されるとともに、人間のホルマント周波数が主に分布する2000Hz近辺の帯域の信号がカットされ、絶対値化回路3bに入力される。
【0027】
そして、ローパスフィルタ2bで抽出された信号が絶対値化回路3bに入力されると、その信号が絶対値化された後、長時間音圧平均器4bに出力される。
そして、絶対値化回路3bで絶対値化された信号の長時間の平均音圧が算出され、重み調整アンプ5に出力される。
ここで、長時間音圧平均器4bが重み調整アンプ5に入力されると、重み調整アンプ5は、長時間音圧平均器4bから出力される帯域の平均音圧が短時間音圧平均器4aから出力される信号の帯域に合致するように、長時間音圧平均器4bから出力される平均音圧を補正する。
【0028】
そして、短時間音圧平均器4aで算出された平均音圧が減算器6に入力されるとともに、長時間音圧平均器4bで算出された平均音圧が重み調整アンプ5を介して減算器6に入力されると、これらの値が減算されて、比較器7に入力される。
ここで、重み調整アンプ5にて長時間音圧平均器4bから出力される平均音圧の周波数特性を補正することにより、異なる帯域に帯域制限された信号同士を減算することで、ハイパスフィルタ2aで除去しきれずに残存する雑音成分を短時間音圧平均器4aの出力信号から除去することができ、音声検出の精度を向上させることが可能となる。
【0029】
そして、減算器6からの出力が比較器7に入力されると、減算器6からの出力がしきい値と比較される。
そして、減算器6からの出力がしきい値より大きい時は発話状態と判定することが可能となるとともに、減算器6からの出力がしきい値より小さい時は無発話状態と判定することが可能となる。
【0030】
図2は、本発明の一実施形態に係る自動車内での音声および雑音の周波数分布を示す図である。
図2において、人間の音声のスペクトル分布A1は通常300〜3500Hzに分布し、人間の音声A3のホルマント周波数の中心は2000Hz近辺に存在する。
【0031】
一方、車内雑音のスペクトル分布B1のピークは、人間の音声のスペクトル分布A1のピークよりも低域に存在し、音声A3のホルマント周波数の中心が集中する2000Hz近辺では、車内雑音のスペクトル分布B1の裾に対応する。
このため、人間の音声のスペクトル分布B1が2000Hz近辺以上に帯域制限されるように、フィルタ特性C1を設定するとともに、車内雑音のスペクトル分布B1が2000Hz近辺以下に帯域制限されるように、フィルタ特性C2を設定する。
【0032】
そして、ハイパスフィルタ1、2aを組み合わせてフィルタ特性C1を実現するとともに、ハイパスフィルタ1とローパスフィルタ2bを組み合わせてフィルタ特性C2を実現することにより、帯域制限された人間の音声スペクトル分布A2の平均音圧を短時間音圧平均器4aで算出することが可能となるとともに、帯域制限された車内雑音のスペクトル分布B2の平均音圧を長時間音圧平均器4bで算出することが可能となる。
【0033】
このため、話者信号に含まれる音声信号と雑音信号とを分離して、音声信号に雑音信号が重畳されている場合においても、音声信号および雑音信号を効率よく抽出することが可能となる。
このため、発話が長時間に及んだ場合においても、雑音レベル検出時の音声信号の影響を抑圧することが可能となり、発話時間の影響による発話検出の精度の劣化を抑制することが可能となる。
【0034】
ここで、短時間音圧平均器4aに入力される信号と長時間音圧平均器4bに入力される信号とを異なる帯域に帯域制限し、短時間音圧平均器4aから出力される信号に残存する雑音を除去するために、短時間音圧平均器4aで算出される平均音圧から長時間音圧平均器4bで算出される平均音圧を差し引くと、差し引かれる雑音の帯域が異なるようになる。
【0035】
一方、自動車内の定常雑音は、雑音のレベルの大小にかかわらず、スペクトルパターンはほぼ一定の形状を維持する。
例えば、低速走行の場合、自動車のエンジン音は小さくなり、そのエンジン音に比例してタイヤと路面間で生じるロードノイズや風切り音なども小さくなる。逆に、高速走行の場合、自動車のエンジン音は大きくなり、そのエンジン音に比例してタイヤと路面間で生じるロードノイズや風切り音なども大きくなる。
【0036】
この結果、長時間音圧平均器4bで算出された平均音圧に重み補正値を乗じることにより、長時間音圧平均器4bで捉えられた帯域の雑音を短時間音圧平均器4aで捉えられる帯域の雑音に変換することができる。
このため、短時間音圧平均器4aの平均音圧から、重み補正値が乗じられた長時間音圧平均器4bの平均音圧を差し引くことにより、短時間音圧平均器4aに入力される信号と長時間音圧平均器4bに入力される信号とが異なる帯域に帯域制限された場合においても、短時間音圧平均器4aの平均音圧に残存する雑音を除去することが可能となる。
【0037】
すなわち、雑音のレベルの大小にかかわらず、スペクトルパターンはほぼ一定の形状を維持する場合、図2(b)に示すように、長時間音圧平均器4bで捉えることができる音圧の積分量Dと音声検出を正確に行うために得なければならない音圧量Eとの比はほぼ一定になる。
ここで、話者信号に含まれる音声信号から雑音を正確に除去した値を比較器7に入力するためには、以下の(1)式を減算器6で算出する必要がある。
【0038】
(減算器出力)=(短時間音圧平均器4aの平均音圧)−E ・・・(1)
ただし、Eは、図2(b)の音声検出を正確に行うために得なければならない音圧量である。
一方、雑音のレベルの大小にかかわらず、スペクトルパターンはほぼ一定の形状を維持する場合、音声検出を正確に行うために得なければならない音圧量Eは、長時間音圧平均器4bで捉えることができる音圧の積分量Dを用いて以下の(2)式で算出することができる。
【0039】
E=(重み補正値)×D ・・・(2)
従って、(2)式を(1)式に代入することにより、減算器出力は、以下の(3)式を用いて算出することができる。
(減算器出力)=(短時間音圧平均器4aの平均音圧)−(重み補正値)×(長時間音圧平均器4bの平均音圧)・・・(3)
よって、短時間音圧平均器4aの平均音圧を減算器6に入力するとともに、重み調整アンプ5を介し長時間音圧平均器4bの平均音圧を減算器6に入力することにより、話者信号に含まれる音声信号から雑音を正確に除去した値を算出することができ、話者信号に含まれる音声信号と雑音とが異なる帯域に帯域制限された場合においても、話者信号に含まれる音声信号から雑音を正確に除去した値を比較器7に入力することが可能となる。
【0040】
なお、重み補正値は適当な値に設定することができ、例えば、無音時または雑音だけが入力された時は、減算器6からの出力がしきい値を越えないような値に設定してもよいし、音声+雑音が入力された時に音声がある場合は、減算器6からの出力がしきい値を越えるような値に設定してもよい。
また、エンジン音やロードノイズなどは車種によってそれぞれ固有のものであるため、スペクトルパターンは車種によってそれぞれ固有のもとなるが、車種が変わった場合には、重み調整アンプ5で設定される重み補正を変更することができるので、どんな形状のスペクトルパターンであっても対応することができる。
【0041】
【発明の効果】
以上説明したように、本発明によれば、話者信号の帯域制限を行うことにより、話者信号に含まれる音声信号と雑音信号とを分離することができ、雑音レベル検出時の音声信号の影響を抑圧することが可能となるため、発話時間の影響による発話検出の精度の劣化を抑制することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声検出装置の概略構成を示すブロック図である。
【図2】本発明の一実施形態に係る自動車内での音声および雑音の周波数分布を示す図である。
【図3】従来の音声検出装置の概略構成を示すブロック図である。
【符号の説明】
1、2a ハイパスフィルタ
2b ローパスフィルタ
3a、3b 絶対値化回路
4a 短時間音圧平均器
4b 長時間音圧平均器
5 重み調整アンプ
6 減算器
7 比較器
A1 人間の音声のスペクトル分布
A2 帯域制限後の人間の音声スペクトル分布
A3 人間の音声
B1 車内雑音のスペクトル分布
B2 帯域制限後の車内雑音のスペクトル分布
C1、C2 フィルタ特性
D 長時間音圧平均器で捉えることができる音圧の積分量
E 音声検出を正確に行うために得なければならない音圧量[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice detection device, a voice detection method, and a voice detection program, and is particularly suitable when applied to a case where detection of a speaker's utterance is accurately performed.
[0002]
[Prior art]
In a conventional voice detection device, there is a method of measuring the sound pressure of a speaker signal sent from the speaker side and comparing the measured sound pressure with a preset threshold value in order to determine whether the speaker is speaking or not.
Further, in order to improve the determination accuracy of a speaker's utterance and no utterance in a noisy environment, for example, as disclosed in Patent Document 1, time averagers having different time constants are provided, and a short-time average sound is provided. There is also a method of subtracting the average sound pressure for a long time from the pressure and comparing the result with a preset threshold value.
[0003]
FIG. 3 is a block diagram showing a schematic configuration of a conventional voice detection device.
In FIG. 3, a conventional voice detection device includes an absolute
[0004]
Here, the speaker signal includes a voice signal generated by the speaker's speech and a noise signal in a noise environment.
When the speaker signal is input to the absolute
[0005]
The short-term average sound pressure of the absolute-valued speaker signal is calculated by the short-time
Here, the noise occurs almost constantly, while the speaker speaks intermittently.
[0006]
For this reason, the average sound pressure of the noise maintains a substantially constant value without depending on the averaging time, and the average sound pressure of the noise captured by the short-time sound
[0007]
As a result, in the short-time sound
[0008]
Then, the output from the
When the output from the
[0009]
[Patent Document 1]
JP-A-1-12728
[Problems to be solved by the invention]
However, in the short-time sound pressure averager 12a and the long-time
For this reason, when the utterance lasts for a long time, the steady sound pressure calculated by the long-time sound
[0011]
Therefore, an object of the present invention is to provide a voice detection device, a voice detection method, and a voice detection program capable of suppressing deterioration in accuracy of utterance detection due to the influence of utterance time.
[0012]
[Means for Solving the Problems]
In order to solve the above-described problem, according to the voice detection device according to claim 1, a speaker signal including a voice signal and a noise signal is input, and a level of the voice signal and a predetermined reference level are set. In the voice detection device that determines whether the speech state or the non-speech state based on the comparison result, a voice band limiting unit that band-limits the speaker signal to a frequency band in which the voice signal is distributed, First time averaging means for averaging the level of the output signal of the voice band limiting means with time, noise band limiting means for band limiting the speaker signal to a frequency band in which the noise signal is distributed, and the noise band limiting means Second time averaging means for averaging the level of the output signal of the first time averaging means for a time longer than the averaging time of the first time averaging means, and the second time averaging means based on the output signal of the first time averaging means. Subtracting means for subtracting an output signal of the stage, characterized in that it comprises a comparator for comparing the level of the level and the preset reference output signal of said subtraction means.
[0013]
This makes it possible to suppress the noise signal input to the first time averaging means and efficiently extract the audio signal, and suppress the audio signal input to the second time averaging means. , A noise signal can be efficiently extracted.
For this reason, even if the utterance lasts for a long time, it is possible to suppress the influence of the voice signal when detecting the noise level, and to improve the accuracy of the noise level calculated by the second time averaging means. Is possible, it is possible to suppress deterioration in accuracy of utterance detection due to the effect of the utterance time.
[0014]
According to the second aspect of the present invention, the level of the output signal of the second time averaging means is weighted at the subsequent stage of the second time averaging means to correct the frequency characteristic. It is characterized by further comprising a correcting means.
This makes it possible to correct the level of the output signal of the second time averaging means so that the level of the output signal of the second time averaging means matches the band of the signal input to the first time averaging means. It becomes possible.
[0015]
For this reason, even when the band of the signal input to the first time averaging means is different from the band of the signal input to the second time averaging means, the second signal is output from the first time averaging means. By subtracting the output signal of the time averaging means, noise components remaining in the output signal of the first time averaging means can be removed, and the accuracy of voice detection can be improved.
[0016]
Further, according to the voice detecting device of the third aspect, the voice band limiting unit and the noise band limiting unit may include a first high-pass filter for inputting and filtering the speaker signal, and a first high-pass filter. A second high-pass filter and a low-pass filter for filtering an output signal, wherein the speaker signal is input to the second high-pass filter via the first high-pass filter and is applied to a frequency band in which the audio signal is distributed. The limited output signal of the second high-pass filter is input to the first time averaging means, and the speaker signal is input to the low-pass filter via the first high-pass filter and the noise signal is distributed. And the output signal of the low-pass filter is input to the second time averaging means. And wherein the door.
[0017]
This makes it possible to separate the low-frequency noise band distributed in the interior of the vehicle from the audio band in which the center of the formant frequency of the audio is concentrated, and to detect the audio in a specific environment such as the interior of the automobile. Accuracy can be easily improved.
According to the voice detection method of the fourth aspect, the frequency band for extracting a voice signal from a speaker signal and the frequency band for extracting noise from the speaker signal are different from each other, so that It is characterized in that included voices are detected.
[0018]
This makes it possible to efficiently separate the voice signal and the noise signal included in the speaker signal, and reduces the influence of the noise level when detecting the voice level even when the noise signal is superimposed on the voice signal. Therefore, the accuracy of voice detection can be improved.
According to the speech detection program of the fifth aspect, the step of band-limiting the speaker signal to a first frequency band in which a speech signal is distributed, and the step of band-limiting the speaker signal in a second frequency band in which a noise signal is distributed. Band limiting the speaker signal based on a comparison result of the speaker signal band-limited to the first frequency band and the speaker signal band-limited to the second frequency band. And detecting a voice included in.
[0019]
This makes it possible to separate the speech signal and the noise signal included in the speaker signal, and to efficiently extract the speech signal and the noise signal even when the noise signal is superimposed on the speech signal.
For this reason, even when the utterance lasts for a long time, it is possible to suppress the influence of the voice signal when detecting the noise level, and it is possible to suppress the deterioration of the accuracy of the utterance detection due to the influence of the utterance time. Become.
[0020]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a speech detection device according to an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating a schematic configuration of a voice detection device according to an embodiment of the present invention.
[0021]
In FIG. 1, a voice detection device includes an absolute value conversion circuit 3a for converting a speaker signal band-limited by the high-pass filters 1 and 2a, a low-
[0022]
Here, the speaker signal includes a voice signal generated by the speaker's speech and a noise signal in a noise environment.
The high-pass filter 1 is for blocking signals in a band not transmitted by the telephone line. Since the band of the telephone line is usually 300 Hz or more, the pass band of the high-pass filter 1 is set to the band of this telephone line. Can be set corresponding to.
[0023]
The high-pass filter 2a is for extracting a signal in a band in which human formant frequencies are mainly distributed, and for cutting off low-frequency noise generated in an automobile or the like. The center of the human formant frequency is 2000 Hz. By setting the cutoff frequency of the high-pass filter 2a to around 2000 Hz to concentrate on the vicinity, it is possible to accurately extract human voice while reducing the influence of low-frequency noise.
[0024]
The low-
That is, since the center of the human formant frequency is concentrated around 2000 Hz, and the noise generated in the interior of the vehicle is concentrated in a lower frequency than that, the cutoff frequency of the low-
[0025]
The speaker signal from which the low-frequency component of 300 Hz or less has been cut by the high-pass filter 1 is input to the high-pass filter 2a and the low-
In the high-pass filter 2a, a signal in a band around 2000 Hz where human formant frequencies are mainly distributed is extracted, and low-frequency noise generated in the interior of an automobile or the like is cut and input to the absolute value conversion circuit 3a. You.
[0026]
When the signal extracted by the high-pass filter 2a is input to the absolute value conversion circuit 3a, the signal is converted to an absolute value and then output to the short-time sound pressure averager 4a.
Then, the short-time average sound pressure of the signal converted into the absolute value by the absolute value conversion circuit 3 a is calculated and output to the subtractor 6.
On the other hand, the low-
[0027]
When the signal extracted by the low-
Then, a long-term average sound pressure of the signal converted into the absolute value by the absolute
Here, when the long-time
[0028]
The average sound pressure calculated by the short-time sound pressure averaging device 4a is input to the subtractor 6, and the average sound pressure calculated by the long-time sound
Here, the weight adjustment amplifier 5 corrects the frequency characteristics of the average sound pressure output from the long-time sound
[0029]
When the output from the subtractor 6 is input to the comparator 7, the output from the subtractor 6 is compared with a threshold.
When the output from the subtracter 6 is larger than the threshold value, it is possible to determine the utterance state, and when the output from the subtracter 6 is smaller than the threshold value, it is possible to determine the non-speech state. It becomes possible.
[0030]
FIG. 2 is a diagram illustrating a frequency distribution of voice and noise in a vehicle according to an embodiment of the present invention.
In FIG. 2, the spectral distribution A1 of the human voice is normally distributed in the range of 300 to 3500 Hz, and the center of the formant frequency of the human voice A3 exists near 2000 Hz.
[0031]
On the other hand, the peak of the in-vehicle noise spectrum distribution B1 is lower than the peak of the human voice spectrum distribution A1, and around 2000 Hz where the center of the formant frequency of the voice A3 is concentrated, the peak of the in-vehicle noise spectrum distribution B1 is lower. Corresponds to the hem.
Therefore, the filter characteristic C1 is set so that the spectral distribution B1 of the human voice is band-limited to around 2000 Hz or higher, and the filter characteristic C1 is set so that the spectral distribution B1 of the vehicle interior noise is band-limited to around 2000 Hz or lower. Set C2.
[0032]
The filter characteristic C1 is realized by combining the high-pass filters 1 and 2a, and the filter characteristic C2 is realized by combining the high-pass filter 1 and the low-
[0033]
Therefore, it is possible to separate the voice signal and the noise signal included in the speaker signal, and to efficiently extract the voice signal and the noise signal even when the noise signal is superimposed on the voice signal.
For this reason, even when the utterance lasts for a long time, it is possible to suppress the influence of the voice signal when detecting the noise level, and it is possible to suppress the deterioration of the accuracy of the utterance detection due to the influence of the utterance time. Become.
[0034]
Here, the signal input to the short-time sound pressure averager 4a and the signal input to the long-time
[0035]
On the other hand, as for the stationary noise in the automobile, the spectral pattern maintains a substantially constant shape regardless of the level of the noise.
For example, when the vehicle is running at a low speed, the engine sound of the vehicle is reduced, and road noise and wind noise generated between the tire and the road surface are reduced in proportion to the engine sound. Conversely, in the case of high-speed running, the engine noise of the automobile increases, and road noise and wind noise generated between the tire and the road surface increase in proportion to the engine noise.
[0036]
As a result, by multiplying the average sound pressure calculated by the long-time sound
Therefore, the average sound pressure of the long-time
[0037]
That is, when the spectrum pattern maintains a substantially constant shape regardless of the level of the noise level, as shown in FIG. 2B, the integration amount of sound pressure that can be captured by the
Here, in order to input a value obtained by accurately removing noise from the voice signal included in the speaker signal to the comparator 7, the following equation (1) needs to be calculated by the subtractor 6.
[0038]
(Subtractor output) = (average sound pressure of short-time sound pressure averaging device 4a) −E (1)
Here, E is a sound pressure amount that must be obtained in order to accurately perform the sound detection in FIG.
On the other hand, regardless of the level of the noise level, when the spectrum pattern keeps a substantially constant shape, the sound pressure amount E that must be obtained in order to accurately detect the voice is captured by the long-time
[0039]
E = (weight correction value) × D (2)
Therefore, by substituting equation (2) into equation (1), the subtractor output can be calculated using the following equation (3).
(Subtractor output) = (average sound pressure of short-time sound pressure averager 4a) − (weight correction value) × (average sound pressure of long-time
Accordingly, by inputting the average sound pressure of the short-time sound pressure averager 4a to the subtractor 6, and inputting the average sound pressure of the long-time
[0040]
The weight correction value can be set to an appropriate value. For example, when there is no sound or when only noise is input, the weight correction value is set so that the output from the subtractor 6 does not exceed the threshold value. Alternatively, if there is a voice when voice + noise is input, a value may be set so that the output from the subtracter 6 exceeds a threshold value.
Further, since the engine sound, road noise, and the like are unique to each vehicle type, the spectral pattern is unique to each vehicle type, but when the vehicle type changes, the weight correction set by the weight adjustment amplifier 5 is set. Can be changed, so that a spectrum pattern of any shape can be handled.
[0041]
【The invention's effect】
As described above, according to the present invention, it is possible to separate the speech signal and the noise signal included in the speaker signal by performing the band limitation of the speaker signal, and to separate the speech signal when detecting the noise level. Since the influence can be suppressed, it is possible to suppress the deterioration of the accuracy of the utterance detection due to the influence of the utterance time.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a schematic configuration of a voice detection device according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a frequency distribution of voice and noise in a vehicle according to an embodiment of the present invention.
FIG. 3 is a block diagram illustrating a schematic configuration of a conventional voice detection device.
[Explanation of symbols]
1, 2a High-
Claims (5)
前記音声信号が分布する周波数帯域に前記話者信号を帯域制限する音声帯域制限手段と、
前記音声帯域制限手段の出力信号のレベルを時間で平均する第1の時間平均手段と、
前記雑音信号が分布する周波数帯域に前記話者信号を帯域制限する雑音帯域制限手段と、
前記雑音帯域制限手段の出力信号のレベルを前記第1の時間平均手段の平均する時間よりも長い時間で平均する第2の時間平均手段と、
前記第1の時間平均手段の出力信号から前記第2の時間平均手段の出力信号を減算する減算手段と、
前記減算手段の出力信号のレベルと予め設定された基準となるレベルとを比較する比較器とを備えることを特徴とする音声検出装置。A speaker signal including a voice signal and a noise signal is input, and the level of the voice signal is compared with a predetermined reference level, and it is determined based on the comparison result whether the voice state is a voice state or a non-voice state. In the voice detection device,
Voice band limiting means for band limiting the speaker signal to a frequency band in which the voice signal is distributed,
First time averaging means for averaging the level of the output signal of the audio band limiting means with time;
Noise band limiting means for band limiting the speaker signal to a frequency band in which the noise signal is distributed,
Second time averaging means for averaging the level of the output signal of the noise band limiting means for a time longer than the averaging time of the first time averaging means;
Subtraction means for subtracting the output signal of the second time averaging means from the output signal of the first time averaging means;
A sound detector comprising: a comparator for comparing a level of an output signal of the subtraction means with a preset reference level.
前記話者信号を入力しフィルタリングする第1のハイパスフィルタと、
前記第1のハイパスフィルタの出力信号をフィルタリングする第2のハイパスフィルタおよびローパスフィルタとを備え、
前記話者信号は、前記第1のハイパスフィルタを経て前記第2のハイパスフィルタに入力され前記音声信号が分布する周波数帯域に帯域制限され、
前記第2のハイパスフィルタの出力信号は、前記第1の時間平均手段に入力され、
前記話者信号は、前記第1のハイパスフィルタを経て前記ローパスフィルタに入力され前記雑音信号が分布する周波数帯域に帯域制限され、
前記ローパスフィルタの出力信号は、前記第2の時間平均手段に入力されることを特徴とする請求項1または2記載の音声検出装置。The voice band limiting means and the noise band limiting means,
A first high-pass filter for inputting and filtering the speaker signal;
A second high-pass filter and a low-pass filter for filtering an output signal of the first high-pass filter;
The speaker signal is input to the second high-pass filter via the first high-pass filter and band-limited to a frequency band in which the audio signal is distributed,
An output signal of the second high-pass filter is input to the first time averaging means,
The speaker signal is input to the low-pass filter via the first high-pass filter and band-limited to a frequency band in which the noise signal is distributed,
3. The voice detection device according to claim 1, wherein an output signal of the low-pass filter is input to the second time averaging unit.
雑音信号が分布する第2の周波数帯域に前記話者信号を帯域制限するステップと、
前記第1の周波数帯域に帯域制限された話者信号と、前記前記第2の周波数帯域に帯域制限された話者信号との比較結果に基づいて、前記話者信号に含まれる音声を検出するステップとをコンピュータに実行させることを特徴とする音声検出プログラム。Band limiting the speaker signal to a first frequency band in which the audio signal is distributed;
Band limiting the speaker signal to a second frequency band in which a noise signal is distributed;
Detecting a voice included in the speaker signal based on a comparison result between the speaker signal band-limited to the first frequency band and the speaker signal band-limited to the second frequency band; And a step of causing a computer to execute the steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002267108A JP2004102161A (en) | 2002-09-12 | 2002-09-12 | Device, method, and program for voice detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002267108A JP2004102161A (en) | 2002-09-12 | 2002-09-12 | Device, method, and program for voice detection |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004102161A true JP2004102161A (en) | 2004-04-02 |
Family
ID=32265727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002267108A Withdrawn JP2004102161A (en) | 2002-09-12 | 2002-09-12 | Device, method, and program for voice detection |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004102161A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008170789A (en) * | 2007-01-12 | 2008-07-24 | Raytron:Kk | Voice section detection apparatus and voice section detection method |
CN112309413A (en) * | 2019-07-31 | 2021-02-02 | 株式会社电装天 | Noise reduction device |
-
2002
- 2002-09-12 JP JP2002267108A patent/JP2004102161A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008170789A (en) * | 2007-01-12 | 2008-07-24 | Raytron:Kk | Voice section detection apparatus and voice section detection method |
JP4607908B2 (en) * | 2007-01-12 | 2011-01-05 | 株式会社レイトロン | Speech segment detection apparatus and speech segment detection method |
CN112309413A (en) * | 2019-07-31 | 2021-02-02 | 株式会社电装天 | Noise reduction device |
US11017796B2 (en) * | 2019-07-31 | 2021-05-25 | Denso Ten Limited | Noise reduction apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8612222B2 (en) | Signature noise removal | |
US7171357B2 (en) | Voice-activity detection using energy ratios and periodicity | |
US8015002B2 (en) | Dynamic noise reduction using linear model fitting | |
CN106797233B (en) | Echo cancellation device, echo cancellation method, and recording medium | |
US8073689B2 (en) | Repetitive transient noise removal | |
KR100414841B1 (en) | Noise reduction method and apparatus | |
JP2995737B2 (en) | Improved noise suppression system | |
JP5219522B2 (en) | Speech intelligibility improvement system and speech intelligibility improvement method | |
KR100930745B1 (en) | Sound signal correcting method, sound signal correcting apparatus and recording medium | |
US20060136199A1 (en) | Advanced periodic signal enhancement | |
US20110282660A1 (en) | System for Suppressing Rain Noise | |
WO2010131470A1 (en) | Gain control apparatus and gain control method, and voice output apparatus | |
WO2012038998A1 (en) | Noise suppression device | |
WO2002101729A1 (en) | Noise suppressor | |
CA2458428A1 (en) | System for suppressing wind noise | |
JP2007011330A (en) | System for adaptive enhancement of speech signal | |
US8326621B2 (en) | Repetitive transient noise removal | |
CN104867499A (en) | Frequency-band-divided wiener filtering and de-noising method used for hearing aid and system thereof | |
JP2008070878A (en) | Voice signal pre-processing device, voice signal processing device, voice signal pre-processing method and program for voice signal pre-processing | |
JP2000250568A (en) | Voice section detecting device | |
JP2001159899A (en) | Noise suppressor | |
JP2004102161A (en) | Device, method, and program for voice detection | |
JP2008165125A (en) | Audio signal processor, audio signal processing method, and audio signal processing program | |
JP2007065122A (en) | Noise suppressing device of on-vehicle voice recognition device | |
JP2001215992A (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060110 |