JP2012027114A - 音声検出装置 - Google Patents

音声検出装置 Download PDF

Info

Publication number
JP2012027114A
JP2012027114A JP2010163680A JP2010163680A JP2012027114A JP 2012027114 A JP2012027114 A JP 2012027114A JP 2010163680 A JP2010163680 A JP 2010163680A JP 2010163680 A JP2010163680 A JP 2010163680A JP 2012027114 A JP2012027114 A JP 2012027114A
Authority
JP
Japan
Prior art keywords
peak
signal
filter
noise
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010163680A
Other languages
English (en)
Other versions
JP5450298B2 (ja
Inventor
Hiroaki Kawasaki
博秋 河崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toa Corp
Original Assignee
Toa Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toa Corp filed Critical Toa Corp
Priority to JP2010163680A priority Critical patent/JP5450298B2/ja
Publication of JP2012027114A publication Critical patent/JP2012027114A/ja
Application granted granted Critical
Publication of JP5450298B2 publication Critical patent/JP5450298B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 音声成分と雑音成分とが混在する入力信号から当該音声成分を検出する。
【解決手段】 本発明に係る音声検出装置10によれば、入力信号X(z)は、まず、平坦化回路20に入力され、ここで、その周波数スペクトル全体が軽度に平坦化される。この平坦化後信号X’(z)は、線形予測誤差フィルタ30と逆フィルタ40とに入力される。線形予測誤差フィルタ30は、過去の平坦化後信号X’(z)に基づいて現在の平坦化後信号X’(z)を予測する。そして、この線形予測誤差フィルタ30の逆フィルタ40によって当該平坦化後信号X’(z)が処理されることで、これに含まれるピークが強調される。この強調後信号W(z)は、スペクトルサブトラクション50に入力され、ここで、雑音成分のピークを差し引かれる。そして、この差引後信号G(z)は、ピーク判定回路60に入力され、ここで、音声成分のピークの有無が判定される。
【選択図】 図1

Description

本発明は、音声検出装置に関し、特に、音声成分と雑音成分とが混在する入力信号から当該音声成分を検出する、音声検出装置に関する。
この種の音声検出装置として、従来、例えば特許文献1に開示の音声応答スイッチに適用されたものがある。この従来技術によれば、音声信号の入力レベルが所定値以上であるときに、所定時間にわたって、当該音声信号から少なくとも第1フォルマントF1と第2フォルマントF2とが抽出される。そして、抽出された第1フォルマントF1と第2フォルマントF2とから母音の変化が求められ、この変化が“a”および“o”という2つの母音のいずれか一方を始音とすることを含む所定の条件を満足するとき、音声信号が予め設定された制御音声と一致したと判断され、スイッチ要素がオンされる。
特開昭61−246800号公報
このように、上述の従来技術では、第1フォルマントF1と第2フォルマントF2とに基づいて音声検出が行われるが、特に第1フォルマントF1の抽出が必須とされることで、次のような問題がある。即ち、日常の環境下においては、例えば道路交通騒音をはじめ1kHz付近の周波数帯域に大きなパワーを持つ雑音が多く存在する。その一方で、この1kHz付近という周波数帯域は、第1フォルマントF1の周波数帯域と重なる。このため、当該第1フォルマントF1の抽出が必須とされる従来技術では、道路交通騒音等の日常的な雑音の影響を受け易く、ゆえに、使用可能な環境が極端に制限される、という問題がある。しかも、従来技術では、第1フォルマントF1を含む各フォルマントの抽出が、具体的には複数に分割された周波数帯域毎の信号レベルに基づいて行われるため、個々の周波数帯域に一定レベル以上の雑音成分が存在する場合には、当該雑音成分がフォルマントとして誤って検出される。従って、道路交通騒音はおろか、それ以外の雑音の影響をも受け易い。
そこで、本発明は、従来よりも道路交通騒音等の雑音の影響を受け難く、特に防犯用途において人間の悲鳴や叫び声等を検出するのに好適な、音声検出装置を提供することを、目的とする。
この目的を達成するために、本発明は、音声成分と雑音成分とが混在する入力信号から当該音声成分を検出する音声検出装置において、入力信号の周波数スペクトルのピークを強調するピーク強調手段と、このピーク強調手段によってピークが強調された後の強調後スペクトルのうち雑音成分に対応する雑音スペクトルを推定する雑音推定手段と、強調後スペクトルから当該雑音スペクトルを差し引く差引手段と、を具備するものである。
即ち、本発明は、音声成分と雑音成分とが混在する入力信号の周波数スペクトルを観察すると、この入力信号の周波数スペクトルには、当該音声成分と雑音成分とのそれぞれのピークが含まれており、これらのピークは、音声成分のものと雑音成分のものとで互いに異なる性質を有する点に、着目したものである。この着目点に基づいて、まず、入力信号の周波数スペクトルのピークが、ピーク強調手段によって強調され、つまり当該ピークの性質を含め顕著化される。そして、このピーク強調後のスペクトルのうち、雑音成分に対応する雑音スペクトルが、雑音推定手段によって推定される。さらに、差引手段によって、当該雑音スペクトルがピーク強調後スペクトルから差し引かれる。これにより、ピーク強調後スペクトルに含まれるピークのうち、雑音成分のピークが除去され、音声成分のピーク、つまりフォルマント、のみが残る。このフォルマントのピークが捉えられることで、音声成分の検出が実現される。
なお、本発明において、ピーク強調手段は、過去の入力信号に基づいて現在の入力信号を予測する予測手段と、この予測手段による演算式の逆演算式により入力信号を処理することでピークを強調する強調実行手段と、を含むものであってもよい。ここで、予測手段は、入力信号に含まれる周期的な成分、つまりフォルマント、を予測することになる。そして、強調実行手段は、予測手段による演算式の逆演算式により入力信号を処理することで、当該入力信号に含まれるフォルマントを強調することになる。このとき、フォルマントのみならず、雑音成分のピークも強調されるが、この雑音成分のピークは、上述の如く差引手段によって除去される。
ここで言う予測手段は、例えば線形予測誤差フィルタによって構成することができる。そして、強調実行手段は、当該線形予測誤差フィルタの逆フィルタによって構成することができる。
この場合、予測手段としての線形予測誤差フィルタと、強調実行手段としての逆フィルタと、のそれぞれは、格子型(Lattice)型のデジタルフィルタであるのが、望ましい。即ち、線形予測誤差フィルタと逆フィルタとは、互いに共役であるため、このうちの一方が、例えばFIR(Finite
Impulse Response)フィルタによって設計されると、他方は、必然的にIIR(Infinite Impulse Response)フィルタとなる。ここで、IIRフィルタは、一般に、不安定である、言い換えれば安定判別が困難である、という欠点を有するが、格子型であれば、この欠点が解消されることが、知られている。また、例えば線形予測誤差フィルタが格子型のFIRフィルタによって設計され、逆フィルタが格子型のIIRフィルタによって設計される、とすると、線形予測誤差フィルタとしての格子型FIRフィルタについては、トランスバーサル型をはじめとする他構成のフィルタよりも高い収束速度が得られる等の優れた線形予測性能が発揮される。そして、この線形予測誤差フィルタとしての格子型FIRフィルタのフィルタ係数が、そのまま逆フィルタとしての格子型IIRフィルタのフィルタ係数に適用されることで、当該逆フィルタが設計される。つまり、逆フィルタの設計が容易である、という利点もある。
さらに、本発明における雑音推定手段は、強調後スペクトルを時間平均することで雑音スペクトルを推定するものであってもよい。即ち、雑音成分が略定常的に存在する場合は、強調後スペクトルに含まれる当該雑音成分のピークは概ね不変である。一方、この雑音成分のピークに比べると、音声成分のピークは単発的(間欠的)であり、つまり計時的に変化する。従って、強調後スペクトルが時間平均されると、これに含まれる雑音成分のピークのみが残り、音声成分のピークは全体的に低減される。これにより、雑音スペクトルの推定が実現される。
また、入力信号に有色雑音が含まれる、とすると、当該入力信号の周波数スペクトルは、周波数に対してパワーが概ね反比例するような全体的に傾斜した特性となる。そして、この周波数スペクトルのピークがそのままピーク強調手段によって強調される、とすると、当該周波数スペクトルの傾斜が急峻になる等の種々の不都合が生じる。このため、本発明においては、入力信号の周波数スペクトルを平坦化する平坦化手段が、さらに備えられてもよい。ただし、平坦化手段は、この入力信号の周波数スペクトルに含まれるピークについては、平坦化されることなく、その先鋭さが維持される程度に、当該周波数スペクトルを平坦化するものとする。そして、ピーク強調手段は、この平坦化手段によって平坦化された後の平坦化後スペクトルのピークを強調するものとする。
このような平坦化手段は、入力信号の周波数スペクトルに含まれるピークに追随するのに不十分な低い周波数分解能を持つ低分解能フィルタ、例えば比較的にタップ数(フィルタ次数)の少ないデジタルフィルタによって構成することができる。
上述したように、本発明によれば、入力信号の周波数スペクトルに含まれる音声成分のピークと雑音成分のピークとが互いに異なる性質を有する点に着目して、当該入力信号の周波数スペクトルのピークが強調され、この強調されたピークのうち雑音成分のピークが除去されることで、音声成分のピークのみが捉えられる。つまり、道路交通騒音等の雑音が存在する環境下において、当該雑音の影響を排除することができる。従って、雑音の影響を受け易い上述の従来技術に比べて、正確な音声検出を実現することができる。これは、特に防犯用途において人間の悲鳴や叫び声等を適確に検出するのに好適である。
本発明の一実施形態の概略構成を示すブロック図である。 同実施形態における入力信号の周波数スペクトルを示す図解図である。 同実施形態における線形予測誤差フィルタの具体的な構成を示すブロック図である。 同線形予測誤差フィルタに逆フィルタを組み合わせた構成を示すブロック図である。 同線形予測誤差フィルタのさらに具体的な構成を示すブロック図である。 同実施形態における逆フィルタのさらに具体的な構成を示すブロック図である。 同実施形態における平坦化回路の必要性を説明するための図解図である。 同平坦化回路による処理後信号の周波数スペクトルを示す図解図である。 同実施形態における逆フィルタによる処理後信号の周波数スペクトルを示す図解図である。 同実施形態におけるスペクトルサブトラクションの具体的な構成を示す図解図である。 同スペクトルサブトラクションの動作を説明するための図解図である。 同実施形態における一実験結果を示す図解図である。 同実施形態におけるピーク判定回路の動作を説明するための図解図である。 図13の別の態様を示す図解図である。
本発明の一実施形態について、図1〜図14を参照して説明する。
本実施形態に係る音声検出装置10は、例えばスーパ防犯灯等の防犯機器に適用されるものであり、詳しくは当該防犯機器に備えられたマイクロホンによって人間の悲鳴や叫び声等が拾われたときに、これを検出するためのものである。この音声検出を実現するべく、当該音声検出装置10は、図1に示すように、平坦化手段としての平坦化回路20を有しており、この平坦化回路20に、図示しないマイクロホンの出力信号X(z)(z;z変換における変数)が入力される。
ここで、平坦化回路20に入力される信号X(z)には、上述の悲鳴や叫び声等の音声成分の他に、道路交通騒音等の雑音成分が含まれる場合がある。この場合、入力信号X(z)の周波数スペクトルには、例えば図2にα,βおよびγという符号を付して示すように、当該音声成分と雑音成分とのそれぞれに対応するピークが現れる。このうち、最も周波数fの低いピークαは、雑音成分のピークである。そして、他のピークβおよびγは、音声成分のピークであり、詳しくは周波数fの低いものから順に第2フォルマントおよび第3フォルマントのピークである。なお、図2において、一点鎖線は、各ピークα,βおよびγを含む入力信号X(z)の平均パワーである。また、本実施形態では、周波数スペクトルを求めるための離散フーリエ変換(DFT;Discrete Fourier Transform)の周波数帯域がf=1200Hz〜3000Hzに制限されている。従って、実際には、第1フォルマントのピークも存在するが、この第1フォルマントのピークは、当該周波数帯域外であるので、図2には現れない。さらに、入力信号X(z)には、有色雑音も含まれている。従って、図2から分かるように、当該有色雑音を含む入力信号X(z)の周波数スペクトルは、周波数fに対してパワーPが概ね反比例するような全体的に傾斜した特性となる。
図1に戻って、平坦化回路20は、入力信号X(z)に対して、後述する平坦化処理を施す。そして、この平坦化処理後の信号X’(z)は、予測手段としての線形予測誤差フィルタ(LPEF;Linear Prediction Error Filter)30と、当該線形予測誤差フィルタ30の逆フィルタ(LPEF−1)40と、のそれぞれに入力される。
線形予測誤差フィルタ30は、後述するように、過去の平坦化後信号X’(z)に基づいて現在の平坦化後信号X’(z)を予測し、その予測誤差E(z)が最小になるように適応動作する。そして、この線形予測誤差フィルタ30の適応動作に合わせて、これと共役な逆フィルタ40が形成され、この逆フィルタ40によって、平坦化後信号X’(z)が処理される。これにより、この平坦化後信号X’(z)に含まれる上述のピークα,βおよびγが強調される。このピーク強調についても、後で詳しく説明する。
さらに、この逆フィルタ40によってピーク強調された後の強調後信号W(z)は、スペクトルサブトラクション(SS;Spectrum Subtraction)50に入力される。スペクトルサブトラクション50は、入力された強調後信号W(z)に含まれる雑音成分のピークαを推定し、このピークαを当該強調後信号W(z)から差し引く。これによって、雑音成分のピークαが除去され、音声成分のピークβおよびγのみが残された、差引後信号G(z)が生成される。この差引後信号G(z)は、ピーク判定回路60に入力される。なお、この差引後信号G(z)を生成するためのスペクトルサブトラクション50の動作についても、後で詳しく説明する。
ピーク判定回路60は、差引後信号G(z)に音声成分のピークβおよびγが含まれているか否かを判定する。そして、この音声成分のピークβおよびγが含まれている場合には、例えば防犯機器に備えられている図示しない警報機を作動させたり、所定の防災センタに通知信号を送信したりする。このピーク判定回路60によるピーク判定処理の要領についても、後で詳しく説明する。
このように、本実施形態の音声検出装置10によれば、平坦化回路20,線形予測誤差フィルタ30,逆フィルタ40,スペクトルサブトラクション50およびピーク判定回路60を備える構成によって、音声検出が実現されるが、これらについて、以下、より具体的に説明する。
まず、線形予測誤差フィルタ30の必要性について、説明する。即ち、線形予測誤差フィルタ30は、上述したように過去の平坦化後信号X’(z)に基づいて現在の平坦化後信号X’(z)を予測するものであるが、結果的に、予測可能な成分が打ち消され、予測不可能な成分のみが予測誤差E(z)として出力される。このような線形予測誤差フィルタ30は、例えば図3に示すように、1サンプル分の遅延素子302と、FIR型の適応フィルタ304と、加算器306と、によって構成される。
この図3に示す構成において、例えば、今、平坦化後信号X’(z)ではなく、上述の入力信号X(z)が直接的に入力される、と仮定する。この場合、当該入力信号X(z)は、遅延素子302によって遅延された後、適応フィルタ304によって処理される。そして、この適応フィルタ304による処理後信号U(z)は、加算器306に入力される。加算器306には、入力信号X(z)も入力されており、当該加算器306は、この入力信号X(z)から適応フィルタ304による処理後信号U(z)を差し引く。この差し引き後の信号E(z)が、(入力信号X(z)に対応する)予測誤差として出力され、当該予測誤差E(z)が最小になるように、適応フィルタ304が適応動作する。
ここで、適応フィルタ304の伝達関数をH(z)とすると、当該適応フィルタ304による処理後信号U(z)は、次の数1によって表される。
Figure 2012027114
そして、この適応フィルタ304の伝達関数H(z)を含む線形予測誤差フィルタ30全体の伝達関数をL(z)とすると、この伝達関数L(z)は、次の数2によって表される。
Figure 2012027114
さらに、適応フィルタ304のタップ数をNとすると、当該適応フィルタ304の伝達関数H(z)は、次の数3によって表される。なお、この数3において、hは、nタップ目のフィルタ係数である。
Figure 2012027114
そして、この数3の表現が便宜的に書き換えられた上で、当該数3が数2に代入されると、線形予測誤差フィルタ30全体の伝達関数L(z)は、次の数4のように表される。
Figure 2012027114
一方、音声、特に有声音P(z)は、次の数5のように表される。なお、この数5において、A(z)は、当該有声音を発する発声者の声道全体の伝達関数(共振特性)であり、B(z)は、当該発声者の声帯振動の特性である。
Figure 2012027114
この数5によって表される有声音P(z)の特性、特に母音のフォルマントの特性は、声道の伝達関数A(z)に依存する。そこで、この声道の伝達関数A(z)を、例えば有限長の全極型モデルで表現する、とすると、当該伝達関数A(z)は、次の数6のように表される。なお、この数6において、Mは、当該全極型モデルのタップ数である。
Figure 2012027114
ゆえに、入力信号X(z)として有声音P(z)のみが入力される、と仮定すると、予測誤差E(z)は、次の数7によって表される。
Figure 2012027114
その上で、適応フィルタ304が、声道の伝達関数A(z)を表現するのに十分なタップ数Nを有し、かつ、数7によって表される予測誤差E(z)が最小になるように適応動作する、とすると、当該数7において、次の数8が成立する。
Figure 2012027114
これは、即ち、適応フィルタ304を含む線形予測誤差フィルタ30によって声道の伝達関数A(z)の逆数が予測されることを、意味する。
従って、この線形予測誤差フィルタ30の逆フィルタ40によって入力信号X(z)が処理されることで、つまり当該逆フィルタ40の伝達関数L−1(z)が入力信号X(z)に掛けられることで、当該入力信号X(z)に含まれるフォルマントが強調される。なお、逆フィルタ40の伝達関数L−1(z)は、次の数9によって表される。
Figure 2012027114
このような逆フィルタ40は、図4に示すように、線形予測誤差フィルタ30における適応フィルタ304の伝達関数H(z)がコピーされる言わば従属フィルタ402と、この従属フィルタ402による処理後信号を入力信号X(z)に加算する加算器404と、この加算器404による加算後の信号W(z)を遅延させて従属フィルタ402に入力する1サンプル分の遅延素子406と、によって構成される。そして、加算器404による加算後の信号W(z)が、この逆フィルタ40による処理後信号、つまり強調後信号、として出力される。ただし、この逆フィルタ40の構成は、いわゆるIIR型であるため、その動作が不安定になることが懸念される。そこで、この欠点を解消するべく、逆フィルタ40として、格子型のものが採用される。これに合わせて、線形予測誤差フィルタ30もまた、格子型とされる。
具体的には、まず、線形予測誤差フィルタ30は、図5に示すように、遅延素子302の出力が入力される遅延側(後ろ向き予測側)の加算器310と、入力信号X(z)が直接的に入力される非遅延側(前向き予測側)の別の加算器312と、を有している。また、遅延素子302の出力は、乗算器314にも入力され、この乗算器314の出力は、非遅延側の加算器312に入力される。非遅延側の加算器312は、乗算器314の出力を入力信号X(z)から差し引いて、この差し引き後の信号を次段の加算器312aに入力する。併せて、入力信号X(z)は、別の乗算器316にも入力され、この乗算器316の出力は、遅延側の加算器310に入力される。遅延側の加算器310は、乗算器316の出力を遅延素子302の出力から差し引いて、この差し引き後の信号を次段の遅延素子302aに入力する。次段の遅延素子302aは、2つの加算器310aおよび312aと2つの乗算器314aおよび316aと共に、前段と同様の構成を築く。そして、この構成は、M段にわたって縦続され、最終のM段目の非遅延側加算器312bが、図3および図4に示した加算器306を担う。つまり、このM段目の非遅延側加算器312bの出力が、予測誤差E(z)とされる。なお、最初の1段目を構成する2つの乗算器314および316には、互いに同じフィルタ係数(反射係数)δが設定される。このことは、他段についても、同様である。これらのフィルタ係数δ,δ,…,δの算出法については、公知であるので、ここでの詳しい説明を省略する。
一方、逆フィルタ40は、図6に示すように、遅延素子406の出力が入力される帰還側(後ろ向き予測に対応する側)の加算器410と、強調後信号W(z)を出力する順方向側(前向き予測に対応する側)の別の加算器412と、を有している。また、遅延素子406の出力は、乗算器414にも入力され、この乗算器414の出力は、順方向側の加算器412に入力される。この順方向側加算器412は、その前段の加算器412a経由で入力される信号に当該乗算器414の出力を加算して、この加算後の信号を強調後信号W(z)として出力する。併せて、この強調後信号W(z)は、別の乗算器416にも入力され、この乗算器416の出力は、帰還側の加算器410に入力される。帰還側の加算器410は、乗算器416の出力を遅延素子406の出力から差し引いて、この差し引き後の信号を次段の遅延素子406aに入力する。次段の遅延素子406aは、前段の遅延素子406が2つの加算器410および412と2つの乗算器414および416と共に築くのと同様の構成を、2つの加算器410aおよび412aと2つの乗算器414aおよび416aと共に築く。そして、この構成は、M段にわたって縦続され、M段目の順方向側加算器412bが、図4に示した加算器404を担う。つまり、このM段目の順方向側加算器412bに、入力信号X(z)が入力される。なお、1段目の各乗算器414および416には、図5に示した線形予測誤差フィルタ30の1段目の各乗算器314および316のフィルタ係数δが設定される。このことは、他段についても、同様である。これにより、線形予測誤差フィルタ30の逆フィルタ40が構成される。
このような格子型の逆フィルタ40は、IIR型であるものの、安定した動作を奏することが知られている。言い換えれば、安定判別が容易であり、具体的には、各フィルタ係数δ,δ,…,δのそれぞれが±1未満であれば、当該逆フィルタ40の動作が安定することが知られている。また、線形予測誤差フィルタ30についても、格子型とされることで、トランスバーサル型等の他構成のフィルタよりも高い収束速度が得られる等の優れた線形予測性能が発揮される。しかも、この線形予測誤差フィルタ30の各フィルタ係数δ,δ,…,δが逆フィルタ40にそのまま適用されることで、当該逆フィルタ40が実現される。
このように、線形予測誤差フィルタ30の逆フィルタ40によって入力信号X(z)が処理されることで、当該入力信号X(z)に含まれるフォルマントが強調されるが、この場合、つまり入力信号X(z)に対して直接的にピーク強調が施された場合、次のような不都合が生じる。
即ち、入力信号X(z)は、上述した図2の如く全体的に傾斜した周波数スペクトルを示すが、この入力信号X(z)に対して直接的にピーク強調が施される、とすると、図7に実線の曲線で示すように、当該ピーク強調後の周波数スペクトルの傾斜が急峻になる。なお、同図における破線曲線は、ピーク強調前の入力信号X(z)の周波数スペクトルであり、つまり図2に示した実線の曲線と同じものである。そして、このように周波数スペクトルの傾斜が急峻になることによって、各ピークα,βおよびγ以外の部分のパワーが特にフォルマントのピークβおよびγよりも大きくなる恐れがあり、そうなると、後述するピーク判定回路60による当該フォルマントのピークβおよびγの判定が難しくなる。また、このピーク強調においては、フォルマントのピークβおよびγのみならず、雑音成分のピークαも強調されるため、特に当該雑音成分のピークαが過大となり、言わばレンジオーバ(オーバフロー)となる。
この不都合を回避するために、平坦化回路20が設けられている。つまり、この平坦化回路20によって入力信号X(z)が処理されることで、図8に実線の曲線で示すように、各ピークα,βおよびγについては、それぞれの先鋭さが維持される程度に、当該入力信号X(z)の周波数スペクトル全体が平坦化され、傾斜が是正される。このような平坦化回路20は、各ピークα,βおよびγには追随し得ない程度の低い周波数分解能のフィルタによって実現され、例えば線形予測誤差フィルタ30と同様の構成であり、かつ、当該線形予測誤差フィルタ30よりもタップ数の少ないフィルタによって実現される。勿論、これ以外の構成によって、当該平坦化回路20が実現されてもよい。
そして、この平坦化回路20によって言わば軽度に平坦化処理された後の平坦化後信号X’(z)が、線形予測誤差フィルタ30と逆フィルタ40とのそれぞれに入力される。これにより、図7に実線の曲線で示したのとは異なり、図9に実線の曲線で示すように、各ピークα,βおよびγが適度に強調された強調後信号W(z)が得られる。なお、図9における破線曲線は、ピーク強調前の平坦化後信号X’(z)の周波数スペクトルであり、つまり図8に実線の曲線で示したのと同じである。
さらに、強調後信号W(z)は、スペクトルサブトラクション50に入力されるが、このスペクトルサブトラクション50は、図10に示すような構成とされている。即ち、スペクトルサブトラクション50は、移動平均回路502を有しており、この移動平均回路502に、強調後信号W(z)が入力される。移動平均回路502は、入力された強調後信号W(z)をTaという所定期間にわたって、例えばTa=5秒間にわたって、移動平均(時間平均)する。そして、この移動平均回路502によって移動平均された後の平均化信号Wa(z)は、乗算器504に入力され、ここで、εという一定の係数を掛けられる。この係数εの値は、状況に応じて適宜に定められ、例えばε=1.5とされる。そして、この乗算器504による乗算後の平均化信号Wa’(z)は、加算器506に入力される。
また、スペクトルサブトラクション50は、遅延回路508を有しており、この遅延回路508にも、強調後信号W(z)が入力される。遅延回路508は、入力された強調後信号W(z)をTdという一定期間だけ遅延させる。この遅延回路508による遅延時間Tdは、移動平均回路502による移動平均時間Taの1/2であり、つまりTd=2.5秒間である。そして、この遅延回路508による遅延後の信号Wdもまた、加算器506に入力される。
加算器506は、遅延回路508による遅延後信号Wd(z)から乗算器504による乗算後の平均化信号Wa’(z)を差し引くことで、上述した差引後信号G(z)を生成する。ここで、遅延後信号Wd(z)は、現在時刻よりも遅延時間Tdだけ前の時刻における強調後信号W(z)であり、例えば図11(a)に示すような周波数スペクトルとなる。一方、平均化信号Wa’(z)は、遅延回路508による遅延時間Tdだけ遡った時刻を中心として、見かけ上、その前後2.5秒間の合計5秒間という平均化時間Taにわたって強調後信号W(z)が移動平均され、さらにそのレベルがε倍されたものである。特に、このTa=5秒間という平均化時間においては、定在する雑音成分のピークαは概ね不変である。これに対して、悲鳴や叫び声などの音声成分(長母音成分)は単発的であるので、そのピークβおよびγは変動する。この結果、平均化信号Wa’(z)は、図11(b)に示すように、雑音成分のピークαのみが残り、音声成分のピークβおよびγについては大きく低減された周波数スペクトルとなる。従って、差引後信号G(z)は、図11(c)に示すように、雑音成分のピークαが除去され、音声成分のピークβおよびγのみが残された周波数スペクトルとなる。つまり、音声成分のピークβおよびγのみが抽出される。ゆえに、この音声成分のピークβおよびγが捉えられることで、音声検出が実現される。
なお、上述の如く移動平均回路502による平均化時間Taにわたって雑音成分のピークαが概ね不変であるとしても、この平均化時間Taにわたる移動平均処理によって、当該雑音成分のピークαもまた多少低減される。この低減分を補うために、上述の乗算器504が設けられる。つまり、差引後信号G(z)において雑音成分のピークαが適当に除去されるように、乗算器504の係数εが設定される。
ここで、実際の実験結果を報告する。
即ち、図示しない評価音源を用いて、雑音として、ピンクノイズと1400Hzの正弦波とを発生させる。そして、音声として、「助けて〜」という男声を発生させる。これらの音声と雑音とのSNR(Signal-Noise Ratio)は、約−15dBとされる。そして、これらの音声と雑音とを含む入力信号X(z)を得るためのサンプリング周波数は、32kHzとされ、上述した離散フーリエ変換の点数は、800とされる。さらに、平坦化回路20を構成する線形予測誤差フィルタのタップ長が、40とされ、ステップサイズが、0.00625とされる。そして、線形予測誤差フィルタ30のタップ長が、800とされ、ステップサイズが、0.25とされる。逆フィルタ40についても、この線形予測誤差フィルタ30と同じタップ数およびステップサイズとされる。そして、スペクトルサブトラクション50の上述した平均化時間Taは、Ta=5秒間とされ、係数εは、ε=1.5とされる。
このような条件下での入力信号X(z)は、図12(a)に示すような周波数スペクトルとなる。そして、この入力信号X(z)が平坦化された後の平坦化後信号X’(z)は、図12(b)に示すような周波数スペクトルとなる。これらの比較から分かるように、図12(a)の入力信号X(z)の周波数スペクトルにおいては、雑音成分のピークαに比べて、音声成分のピークβおよびγは特段に目立たないものの、図12(b)の平坦化後信号X’(z)の周波数スペクトルでは、雑音成分のピークαと同じ程度に、当該音声成分のピークβおよびγが目立つようになる。
さらに、平坦化後信号X’(z)がピーク強調された後の強調後信号W(z)は、図12(c)に示すような周波数スペクトルとなる。そして、この強調後信号W(z)が上述の平均化時間Taにわたって移動平均された後の平均化信号Wa(z)は、図12(d)に示すような周波数スペクトルとなる。これらの比較から分かるように、図12(c)の強調後信号W(z)の周波数スペクトルにおいては、音声成分のピークβおよびγは十分に大きいものの、図12(d)の平均化信号Wa(z)の周波数スペクトルでは、当該音声成分のピークβおよびγは極端に低減されている。これに対して、雑音成分のピークαもまた、低減されるものの、その低減度合は小さい。
そして、上述したように、強調後信号W(z)がTdという遅延時間だけ遅延されることによって遅延後信号Wd(z)が生成され、平均化信号Wa(z)に係数εが掛けられることで乗算後の平均化信号Wa’(z)が生成され、これらの差し引きによって差引後信号G(z)が生成される。そして、この差引後信号G(z)は、図12(e)に示すような周波数スペクトルとなる。この図12(e)の差引後信号G(z)の周波数スペクトルから明らかなように、雑音成分のピークαが除去され、音声成分のピークβおよびγのみが残る。
このように、実際の実験によっても、本実施形態の有効性が確認された。
差引後信号G(z)は、ピーク判定回路60に入力され、ここで、音声成分のピークβおよびγの有無が判定されるが、当該差引後信号G(z)の周波数スペクトルは、スペクトルサブトラクション50による処理の結果、負数をも持つことになるため、絶対的な評価によって当該音声成分のピークβおよびγの有無を判定することができない。つまり、或る一定の閾値を設定すると共に、この閾値よりも大きい音声成分のピークβおよびγが存在するか否かによって、当該音声成分のピークβおよびγの有無を判定することができない。それゆえに、ピーク判定回路60は、次の相対的評価によってピーク判定を行う。
即ち、今、差引後信号G(z)の周波数スペクトルの一部が、例えば図13に示すような特性である、とする。ここで、任意の周波数ビンiにおける成分値g[i]が、次の数10で表される条件式を満足するときに、当該成分値g[i]が音声成分のピークβまたはγである、と判定される。
Figure 2012027114
この数10で表される条件式に基づいて、つまり連続する5つの周波数ビン[i−2]〜[i+2]における成分値g[i−2]〜g[i+2]に基づいて、その中央の周波数ビンiにおける成分値g[i]が音声成分のピークβまたはγであるか否かが判定されることで、負数を持つ差引後信号G(z)の周波数スペクトルであっても、当該音声信号のピークβおよびγの有無を正確に判定することができる。また、ゆらぎ等によって、音声信号のピークβおよびγが、例えば図14に示す如く一種不明確となっても、それらの有無を正確に判定することができる。なお、数10のQ5〜Q8に含まれる「4」という数値は、いわゆる経験値であり、状況に応じて異なる値が設定されることがある。
以上のように、本実施形態によれば、入力信号X(z)の周波数スペクトルを求めるための離散フーリエ変換の周波数帯域がf=1200Hz〜3000Hzに制限されており、つまり第1フォルマントについては音声検出の対象から意図的に外されている。従って、第1フォルマントの周波数帯域と重複する1kHz付近の周波数帯域に大きなパワーを持つ道路交通騒音等の雑音が存在する環境下においても、当該雑音の影響を排除しつつ、音声検出を実現することができる。その上で、本実施形態によれば、入力信号X(z)の周波数スペクトルに含まれる雑音成分のピークαと音声成分のピークβおよびγとの性質の差異に着目して、これらのピークα,βおよびγを強調し、さらに、このピーク強調後の周波数スペクトルから雑音成分のピークαのみを除去して、音声成分のピークβおよびγを捉えることで、音声検出を実現している。従って、道路交通騒音のみならず、それ以外の雑音の影響をも排除することができ、ひいては当該雑音の影響を受け易い上述の従来技術よりも正確な音声検出を実現することができる。これは、特に防犯用途において人間の悲鳴や叫び声等を適確に検出するのに好適である。
なお、このような音声検出装置10は、例えばCPU(Central Processing
Unit)や当該CPUとDSP(Digital Signal Processor)との組合せによって実現される。また、これらのCPUやDSPにとっては、比較的に少ない処理量で上述した要領による音声検出が可能であるので、当該CPUやDSPとして比較的に廉価なものを採用することができ、特にDSPとしては固定小数点型のものを採用することができる。さらに、入力信号X(z)を得るためのサンプリング周波数を、上述した32kHzよりも低減することができ、例えば12kHzにダウンサンプリングすることができる。このこともまた、CPUやDSPの廉価化に大きく貢献する。
本実施形態においては、防犯用途に本発明を適用する場合について説明したが、これに限らない。即ち、音声成分と雑音成分とが混在する入力信号X(z)から当該音声成分のみを検出する必要性がある用途であれば、本発明を適用することができる。
また、離散フーリエ変換の周波数帯域を制限することで、結果的に、第1フォルマントが音声検出の対象が外れるようにしたが、これに限らない。即ち、当該第1フォルマントを音声検出の対象から外すための別の手段、例えばローパスフィルタ等の周波数制限手段、を採用してもよい。
さらに、線形予測誤差フィルタ30として、図5に示した格子型のFIRフィルタを採用したが、トランスバーサル型等の他構成のフィルタを採用してもよい。この場合、逆フィルタについても、当該線形予測誤差フィルタ30と共役な構成のフィルタを採用するのが肝要である。ただし、格子型のフィルタを採用することで、多大な利点が得られることは、上述した通りである。
そして、スペクトルサブトラクション50として、図10に示した構成のものを採用したが、これに限らない。特に、雑音成分のピークαを推定するための手段として、移動平均回路502以外のものを採用してもよい。
10 音声検出装置
20 平坦化回路
30 線形予測誤差フィルタ
40 逆フィルタ
50 スペクトルサブトラクション

Claims (7)

  1. 音声成分と雑音成分とが混在する入力信号から該音声成分を検出する音声検出装置において、
    上記入力信号の周波数スペクトルのピークを強調するピーク強調手段と、
    上記ピーク強調手段によって上記ピークが強調された後の強調後スペクトルのうち上記雑音成分に対応する雑音スペクトルを推定する雑音推定手段と、
    上記強調後スペクトルから上記雑音スペクトルを差し引く差引手段と、
    を具備することを特徴とする、音声検出装置。
  2. 上記ピーク強調手段は、過去の上記入力信号に基づいて現在の該入力信号を予測する予測手段と、該予測手段による演算式の逆演算式により上記入力信号を処理することで上記ピークを強調する強調実行手段と、を含む、
    請求項1に記載の音声検出装置。
  3. 上記予測手段は線形予測誤差フィルタを含み、
    上記強調実行手段は上記線形予測誤差フィルタの逆フィルタを含む、
    請求項2に記載の音声検出装置。
  4. 上記線形予測誤差フィルタおよび上記逆フィルタのそれぞれは格子型である、
    請求項3に記載の音声検出装置。
  5. 上記雑音推定手段は上記強調後スペクトルを時間平均することで上記雑音スペクトルを推定する、
    請求項1ないし4のいずれかに記載の音声検出装置。
  6. 上記ピークが維持される程度に上記入力信号の上記周波数スペクトルを平坦化する平坦化手段をさらに備え、
    上記ピーク強調手段は上記平坦化手段によって平坦化された後の平坦化後スペクトルの上記ピークを強調する、
    請求項1ないし5のいずれかに記載の音声検出装置。
  7. 上記平坦化手段は上記ピークに追随するのに不十分な低い周波数分解能を持つ低分解能フィルタを含む、
    請求項6に記載の音声検出装置。
JP2010163680A 2010-07-21 2010-07-21 音声検出装置 Active JP5450298B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010163680A JP5450298B2 (ja) 2010-07-21 2010-07-21 音声検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010163680A JP5450298B2 (ja) 2010-07-21 2010-07-21 音声検出装置

Publications (2)

Publication Number Publication Date
JP2012027114A true JP2012027114A (ja) 2012-02-09
JP5450298B2 JP5450298B2 (ja) 2014-03-26

Family

ID=45780138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010163680A Active JP5450298B2 (ja) 2010-07-21 2010-07-21 音声検出装置

Country Status (1)

Country Link
JP (1) JP5450298B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883183A (zh) * 2020-03-16 2020-11-03 珠海市杰理科技股份有限公司 语音信号筛选方法、装置、音频设备和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3823315B1 (en) 2019-11-18 2024-01-10 Panasonic Intellectual Property Corporation of America Sound pickup device, sound pickup method, and sound pickup program

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250599A (ja) * 1999-03-04 2000-09-14 Toshiba Corp 音響特徴抽出方法及び装置
JP2001159899A (ja) * 1999-12-01 2001-06-12 Matsushita Electric Ind Co Ltd 騒音抑圧装置
JP2006215568A (ja) * 2005-02-03 2006-08-17 Samsung Electronics Co Ltd 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体
JP2007293059A (ja) * 2006-04-25 2007-11-08 Canon Inc 信号処理装置およびその方法
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2008165113A (ja) * 2007-01-04 2008-07-17 Toyota Motor Corp 音声合成装置
JP2009223210A (ja) * 2008-03-18 2009-10-01 Toshiba Corp 信号帯域拡張装置および信号帯域拡張方法
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250599A (ja) * 1999-03-04 2000-09-14 Toshiba Corp 音響特徴抽出方法及び装置
JP2001159899A (ja) * 1999-12-01 2001-06-12 Matsushita Electric Ind Co Ltd 騒音抑圧装置
JP2006215568A (ja) * 2005-02-03 2006-08-17 Samsung Electronics Co Ltd 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体
JP2007293059A (ja) * 2006-04-25 2007-11-08 Canon Inc 信号処理装置およびその方法
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2008165113A (ja) * 2007-01-04 2008-07-17 Toyota Motor Corp 音声合成装置
JP2009223210A (ja) * 2008-03-18 2009-10-01 Toshiba Corp 信号帯域拡張装置および信号帯域拡張方法
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883183A (zh) * 2020-03-16 2020-11-03 珠海市杰理科技股份有限公司 语音信号筛选方法、装置、音频设备和系统
CN111883183B (zh) * 2020-03-16 2023-09-12 珠海市杰理科技股份有限公司 语音信号筛选方法、装置、音频设备和系统

Also Published As

Publication number Publication date
JP5450298B2 (ja) 2014-03-26

Similar Documents

Publication Publication Date Title
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP5453740B2 (ja) 音声強調装置
US10482896B2 (en) Multi-band noise reduction system and methodology for digital audio signals
US8170879B2 (en) Periodic signal enhancement system
JP4423300B2 (ja) 雑音抑圧装置
US7610196B2 (en) Periodic signal enhancement system
JP4973733B2 (ja) 能動消音装置および能動消音装置の制御方法
EP2023342A1 (en) Noise reduction with integrated tonal noise reduction
JP6136995B2 (ja) 雑音低減装置
US9082411B2 (en) Method to reduce artifacts in algorithms with fast-varying gain
JP2006323336A (ja) 音声を含むオーディオ信号のための回路配列もしくは方法
JP5450298B2 (ja) 音声検出装置
JP5377167B2 (ja) 悲鳴検出装置および悲鳴検出方法
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
JP5466581B2 (ja) 反響消去方法、反響消去装置及び反響消去プログラム
CN109246548B (zh) 爆破噪声控制系统、方法及计算装置
WO2006123495A1 (ja) ハウリング制御装置および音響装置
CA2524162C (en) Periodic signal enhancement system
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP5975398B2 (ja) 音声強調装置
WO2014097470A1 (ja) 残響除去装置
JP2014199343A5 (ja) 信号処理装置及び方法
KR101086624B1 (ko) Stfd용 헤드셋에서의 잡음 제거 시스템
JP2011070084A (ja) 有音無音判定装置、有音無音判定方法、および、有音無音判定プログラム
JP6064774B2 (ja) 雑音除去装置、雑音除去方法、及び雑音除去プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131225

R150 Certificate of patent or registration of utility model

Ref document number: 5450298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250