JP2014123011A

JP2014123011A - 雑音検出装置および方法、並びに、プログラム

Info

Publication number: JP2014123011A
Application number: JP2012279013A
Authority: JP
Inventors: Runyu Shi; 潤宇史; Hiroyuki Honma; 弘幸本間; Yuki Yamamoto; 優樹山本; Toru Chinen; 徹知念
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2014-07-03
Also published as: US20140180682A1; CN103886870A

Abstract

【課題】機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにする。
【解決手段】振幅特徴量および周波数特徴量を複数フレーム分保持する保持部に保持されている振幅特徴量および周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、特徴変化量を予め設定された閾値と比較することにより、保持部に保持されている振幅特徴量および周波数特徴量を重み付け平均化すべきフレームの区間を特定する区間特定部と、特定された区間のフレームのそれぞれに対応する振幅特徴量および周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、特徴量集合に基づいて、入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える。
【選択図】図１

Description

本技術は、雑音検出装置および方法、並びに、プログラムに関し、特に、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにする雑音検出装置および方法、並びに、プログラムに関する。

ＩＣレコーダ、スマートフォン、ビデオカメラなどの録音機器は、内蔵された小型のマイクロホンにより、周辺の音声を録音する。

このような録音機器で録音するときには、ユーザが操作ボタンなど用いて該録音機器を操作するときの操作音、または、録音機器から離隔した位置で発生したキーボードの操作音などが、雑音として録音音声に混入してしまう。

そこで、録音機器において、録音時に雑音として混入する離隔した位置で発生したキーボードの操作音のような特殊な雑音を検出及び低減するための技術が提案されている（例えば、特許文献１参照。）。

特許文献１の雑音検出方法では、主として、録音機器から離隔した位置で発生したキーボードの操作音を検出対象としている。

キーボードの操作音は、一般的に、録音された音声信号上で継続時間が比較的に長いパルス状の雑音信号の集合として現れる。このため、継続時間が比較的に長いパルス状の雑音信号の振幅値（信号レベル）を閾値と比較したり、音声信号には殆どない高周波数域成分を閾値と比較することで、操作音による雑音を容易に検出することが可能である。

また、入力信号が音声（例えば、会話など）であるか非音声であるかを判定する技術も提案されている（例えば、特許文献２参照）。例えば、特許文献２の技術を利用して非音声と判定したフレームが雑音として認識されるようにすることも可能である。

特開２０１２−０２７１８６号公報特開２００９−２５１１３４号公報

しかしながら、録音機器により録音された雑音は、必ずしもキーボードの操作音のような、周波数特徴がパルス信号に似る信号ではなく、多人数の大爆笑や、擦り音など特殊な周波数特徴を持つ突発性の雑音も多く発生している。このような雑音は、例えば、特許文献１などの従来の技術により検出することが困難であった。

また、録音機器により録音された突発性の雑音の多く（例えば、長時間の拍手、咳、くしゃみ）は、継続時間が安定せず、分散の大きいほぼ予測不能な値となるため、特許文献１の技術に係る雑音検出方式の１つである減衰特徴量を用いた検出方式により検出することも困難であった。

さらに、特許文献１の技術のような減衰特徴量を用いた検出方式では、比較的に長い時間範囲で信号を分析しているため、その時間範囲分の遅延が生じるという問題があった。

また、特許文献２の技術は、あくまで入力信号が音声であるかどうかを判断する手法であり、雑音の検出を目的としていない。例えば、特許文献２の技術を利用して雑音検出を行なったとしても、その雑音が突発性雑音であるか否かを判断することはできない。

また、特許文献２記載の方式は、計算が複雑であり、例えば、モバイル機器に実装することが難しいと考えられる。

本技術はこのような状況に鑑みて開示するものであり、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにするものである。

本技術の一側面は、音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置である。

前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも２種類の振幅特徴量を計算し、前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のＲＳＭ値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備えるようにすることができる。

前記特徴量選択部は、前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択するようにすることができる。

前記振幅特徴量計算部は、前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のＲＭＳ値のうちの、少なくとも１つを前記振幅特徴量として計算し、前記周波数特徴量計算部は、前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の１つの値若しくは複数の値のうちの、少なくとも１つを前記周波数特徴量として計算するようにすることができる。

前記雑音判定部は、前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第１の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第２の値との割合を算出し、前記算出された割合に基づいて、雑音尤度を算出し、前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定するようにすることができる。

前記雑音判定部は、前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定するようにすることができる。

前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備えるようにすることができる。

前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備えるようにすることができる。

本技術の一側面は、振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップを含む雑音検出方法である。

本技術の一側面は、コンピュータを、音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させるプログラムである。

本技術の一側面においては、音声の入力信号の所定のフレームの波形における振幅特徴量が計算され、前記所定のフレームの波形における周波数特徴量が計算され、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量が計算され、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間が特定され、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合が、特徴量集合として生成され、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かが判定される。

本技術によれば、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができる。

本技術の一実施の形態に係る雑音検出装置の構成例を示すブロック図である。信号入力部の周波数特性曲線と、周波数特性線形平均の関係を示す図である。図１のフレーム統合部の詳細な構成例を示すブロック図である。入力信号の波形、振幅特徴量の変化を示す波形、および特徴変化量の変化を示す波形の図である。図１の雑音検出装置による雑音検出処理の例を説明するフローチャートである。図５の統合処理の詳細な例を説明するフローチャートである。本技術を適用した雑音検出装置の別の実施の形態に係る構成例を示すブロック図である。図７の特徴量選択部の詳細な構成例を示すブロック図である。咳と母音および咳と子音の周波数特性の比較の一例を示す図である。音声信号におけるゼロ交差率の分布の一例を示す図である。本技術を適用した雑音検出装置のさらに別の実施の形態に係る構成例を示すブロック図である。パーソナルコンピュータの構成例を示すブロック図である。

以下、図面を参照して、ここで開示する技術の実施の形態について説明する。

図１は、本技術の一実施の形態に係る雑音検出装置の構成例を示すブロック図である。同図に示される雑音検出装置１００は、例えば、周囲の音声に含まれる突発性の雑音（非定常性雑音とも称する）を検出するようになされている。ここで、突発性の雑音は、例えば、長時間の拍手、咳、くしゃみなどの音とされる。

図１に示されるように、雑音検出装置１００は、周波数特性補正部１０１、定常性雑音軽減部１０２、振幅特徴量計算部１０４、周波数特徴量計算部１０５、フレーム統合部１０６、尤度計算部１０７、および、雑音検出部１０８により構成されている。

また、雑音検出装置１００には信号入力部５１が接続され、さらに信号処理装置５２が接続されている。

信号入力部５１は、周囲の音声を集音マイク、マイクから入力された音声信号を主制御装置から与えられる増幅率で増幅するアンプ、および、アンプから供給されたアナログ信号をデジタル信号に変換するＡＤ変換器を有する構成とされる。

なお、近年では、アンプおよびＡＤ変換器（ＤＡ変換器を含む場合もある）が一体化されたモジュールが普及しており、信号入力部５１の内部にこのようなモジュールが設けられるようにしてもよい。また、信号入力部５１は、記録媒体（例えば、ハードディスク、ＣＤ、半導体メモリなど）から直接デジタル音声信号を読み込む機能を有するものとされるようにしてもよい。

周波数特性補正部１０１は、例えば、信号入力部５１の固有周波数特性Ｆ_ｉｄ(ｎ)を補間するフィルタを有する構成とされる。すなわち、信号入力部５１から供給されたデジタル信号が、信号入力部５１の固有周波数特性に影響されないようにするため、上述したフィルタにより、入力信号から信号入力部５１の固有周波数特性の影響が除去される。なお、周波数特性補正部１０１の処理の詳細については後述する。

周波数特性補正部１０１は、信号入力部５１の固有周波数特性の影響が除去された信号を定常性雑音軽減部に供給する。

定常性雑音軽減部１０２では、定常性雑音のレベルが算出される。ここで、定常性雑音は、デジタル信号に含まれた周波数特徴および振幅特徴が長い時間区間で変化しない雑音を意味する。例えば、雑音検出装置１００、信号入力部５１、または信号処理装置５２の駆動音、会議室内の空調の音などが定常性雑音とされる。

定常性雑音軽減部１０２では、計算したレベルの定常性雑音成分を、入力信号から取り除いた後、振幅特徴量計算部１０４および周波数特徴量計算部１０５に供給する。定常性雑音の軽減は、例えば、一般的に用いられているノイズリダクションの方式などが採用されるようにしてもよいし、その他の方式が採用されるようにしてもよい。

振幅特徴量計算部１０４では、定常性雑音軽減部１０２から供給された入力信号から１以上の振幅特徴量を計算し、フレーム統合部１０６へ供給する。この振幅特徴量の詳細については後述する。

周波数特徴量計算部１０５では、定常性雑音軽減部１０２から供給された入力信号から１以上の周波数特徴量を計算し、フレーム統合部１０６へ供給する。この周波数特徴量の詳細については後述する。

フレーム統合部１０６では、振幅特徴量計算部１０４と周波数特徴量計算部１０５から供給されたフレーム毎に計算された振幅特徴量および周波数特徴量を、所定数フレーム分収集し、１の特徴量集合Ｆ_packとして統合する。なお、統合方式の詳細については後述する。特徴量集合Ｆ_packは、尤度計算部１０７に供給される。

尤度計算部１０７は、フレーム統合部１０６で統合された特徴量集合Ｆ_packに含まれる特徴量のそれぞれについて、予め定めた閾値との割合を算出する。そして、尤度計算部１０７は、算出した割合に基づいて、特徴量集合Ｆ_packの特徴量毎の雑音尤度を推定し、推定した特徴量毎の雑音尤度の重み付け平均値を入力信号の雑音尤度として算出する。算出された雑音尤度は、雑音検出部１０８に供給される。なお、雑音尤度の算出方式の詳細については後述する。

雑音検出部１０８では、尤度計算部１０７から供給された入力信号の雑音尤度を予め定めた閾値と比較し、入力信号が非定常性雑音かどうかを判定する。雑音検出部１０８による判定結果は、雑音検出装置１００による最終的な検出結果として信号処理装置５２に出力される。

信号処理装置５２では、雑音検出部１０８から出力された検出結果を利用した信号処理を行う。また、信号処理装置５２には、必要に応じて音声信号を記録する記録部が設けられ、例えば、ハードディスク、ＣＤ、半導体メモリなどの記録媒体に音声信号を記録するようになされている。

具体的には、信号処理装置５２では、例えば、雑音検出部１０８から出力された検出結果を利用して、入力信号の音声部分だけに適応した録音感度の算出を行う。例えば、雑音を含んだ周囲の音声の中から、雑音を除いた音声を録音するために適した録音感度を算出する。

また、信号処理装置５２では、雑音検出部１０８から出力された検出結果を利用した適応処理を行う。例えば、信号処理装置５２では、検出結果を利用して、雑音を軽減する処理を実行する。

あるいはまた、信号処理装置５２では、検出結果を利用して、雑音の種類（咳、くしゃみ、笑い声など）を知り、その雑音の種類から、入力信号の録音環境を推定し、その情報をフィードバックするようにしてもよい。例えば、雑音の種類が咳である場合、録音環境にいる人の健康状況が良くない旨を表す情報をフィードバックし、雑音の種類がくしゃみである場合、その場の空気が清潔ではない旨を表す情報をフィードバックし、雑音の種類が笑い声である場合、発言が面白い旨の情報をフィードバックするなどしてもよい。

次に、周波数特性補正部１０１の処理の詳細について説明する。周波数特性補正部１０１は、信号入力部５１から、フレームｎに対応する入力信号Ｓ（ｎ）を取得する。ここで、入力信号Ｓ（ｎ）は、式（１）のように定義する。

式（１）において、Ｌは、ＡＤ変換におけるサンプリングの結果得られるサンプル値であって、１つのフレームに含まれるサンプル値の数を表すものとし、式（１）により第ｎ番目のフレームに含まれるサンプル値の集合が得られるものとする。

そして、周波数特性補正部１０１は、予め測定して得られた信号入力部５１の固有周波数特性Ｆ_ｉｄ(ｎ)に基づいて、固有周波数特性Ｆ_ｉｄ(ｎ)を補正するフィルタＨ_ｉｄを生成し、入力信号Ｓ（ｎ）を、フィルタＨ_ｉｄによって処理することで、入力信号Ｓ（ｎ）から固有周波数特性Ｆ_ｉｄ(ｎ)を除去するように補正する。

図２は、縦軸を音圧、横軸を周波数とし、信号入力部５１の固有周波数特性を表す周波数特性曲線と、理想的な周波数特性である周波数特性線形平均の関係を示す図である。図２に示されるように、周波数特性曲線は、周波数が３kHz,７kHz,１１kHz,１５kHz付近で、それぞれ−６dB,＋１１dB,＋８dB,―１５dBだけ周波数特性線形平均と異なっている。この場合、周波数が３kHz,７kHz,１１kHz,１５kHz付近で、それぞれ＋６dB,―１１dB,−８dB,＋１５dBだけ補正するＨ_ｉｄを生成することにより、入力信号Ｓ（ｎ）から固有周波数特性Ｆ_ｉｄ(ｎ)を除去するように補正することが可能となる。

なお、図２において抽出された周波数である３kHz,７kHz,１１kHz,１５kHz付近は、例えば、音圧が周波数特性線形平均から最も離れており、補正が必要となる周波数として選択された周波数とされる。

あるいはまた、周波数特性補正部１０１は、信号入力部５１の固有周波数特性Ｆ_ｉｄ(ｎ)に応じたマッピングテーブルを生成し、後述する振幅特徴量の算出および周波数特徴量の算出の際に、そのマッピングテーブルを振幅特徴量計算部１０４および周波数特徴量計算部１０５に供給するようにしてもよい。例えば、周波数が３kHz,７kHz,１１kHz,１５kHz付近で、それぞれ＋６dB,―１１dB,−８dB,＋１５dBだけ音圧を付加する旨を表す情報をマッピングテーブルとし、振幅特徴量計算部１０４および周波数特徴量計算部１０５に供給する。

なお、定常性雑音軽減部１０２においても、周波数特性補正部１０１と同様にマッピングテーブルを作成し、定常性雑音が軽減されるようにしてもよい。

次に、振幅特徴量の詳細について説明する。

振幅特徴量計算部１０４では、入力信号Ｓ（ｎ）の振幅特性を解析し、フレームｎの振幅特性を表す振幅特徴量を算出する。ここでは、フレームｎの振幅特徴量として、Ｅ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）を算出するものとする。

Ｅ_１（ｎ）は、フレームｎに含まれるＬ個のサンプル値のピーク値を表す振幅特徴量であって、式（２）により算出される。

Ｅ_２（ｎ）は、フレームｎに含まれるＬ個のサンプル値の平均値を表す振幅特徴量であって、式（３）により算出される。

Ｅ_３（ｎ）は、フレームｎに含まれるＬ個のサンプル値のＲＭＳ（Root Mean Square）値を表す振幅特徴量であって、式（４）により算出される。

なお、式（３）および式（４）においては、サンプル値の線形平均を算出する例を示したが、例えば、サンプル値の対数平均、または、サンプル値の線形平均と対数平均を重み付けして加算することにより得られた値などを用いるようにしてもよい。

さらに、Ｅ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）を算出する前に、入力信号Ｓ（ｎ）をハイパスフィルタによって処理し、入力信号に含まれるＤＣ成分のノイズが除去されるようにしてもよい。

なお、上述したＥ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）以外の振幅特徴量が算出されるようにしてもよい。

次に、周波数特徴量の詳細について説明する。

周波数特徴量計算部１０５では、入力信号Ｓ（ｎ）の周波数特性を解析し、フレームｎの周波数特性を表す周波数特徴量を算出する。ここでは、フレームｎの周波数特徴量として、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）を算出するものとする。

Ｆ_１（ｎ）は、入力信号のゼロ交差率を表す特徴量であって、式（５）により算出される。

式（５）におけるsymbol（ｉ）は、式（６）により表される。

Ｆ_２（ｎ）は、入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合を表す特徴量であって、式（７）により算出される。

式（７）におけるＥ_３（ｎ）は、式（４）により算出されるＥ_３（ｎ）とされる。

また、式（７）に示されるＳｉｇ_{ｂｐｆ＿１}（ｉ）、Ｓｉｇ_{ｂｐｆ＿２}（ｉ）、・・・は、式（８）により算出される。

なお、式（８）におけるＦ_{ｂｐｆ＿ｍ}（ｈ）は、第ｍ番目の周波数成分を抽出するためのフィルタの係数を表すものとする。

Ｆ_３（ｎ）は、入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合を表す特徴量であって、式（９）により算出される。

式（９）に示されるｂｐｆ_{ａ１＿ｒｍｓ}（ｎ）、ｂｐｆ_{ａ２＿ｒｍｓ}（ｎ）、ｂｐｆ_{ｂ１＿ｒｍｓ}（ｎ）、ｂｐｆ_{ｂ２＿ｒｍｓ}（ｎ）、・・・のそれぞれは、式（７）の分子として示されたｂｐｆ１_ｒｍｓ（ｎ）、ｂｐｆ２_ｒｍｓ（ｎ）、・・・と同様にして算出される。ただし、ｂｐｆ_{ａ１＿ｒｍｓ}（ｎ）、ｂｐｆ_{ａ２＿ｒｍｓ}（ｎ）、ｂｐｆ_{ｂ１＿ｒｍｓ}（ｎ）、ｂｐｆ_{ｂ２＿ｒｍｓ}（ｎ）、・・・を算出する場合、それぞれの周波数成分に対応するＦ_{ｂｐｆ＿ｍ}（ｈ）が用いられるものとする。

Ｆ_４（ｎ）は、入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の１つの値または複数の値から成る特徴量であって、式（１０）により算出される。

なお、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）を算出する前に、入力信号Ｓ（ｎ）をハイパスフィルタによって処理し、入力信号に含まれるＤＣ成分のノイズが除去されるようにしてもよい。

ここでは、振幅特徴量計算部１０４がＥ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）を算出し、周波数特徴量計算部１０５がＦ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）を算出すると説明した。しかし、振幅特徴量計算部１０４がＥ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）のうち、いずれか１つまたは２つを算出し、周波数特徴量計算部１０５がＦ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）のうち、いずれか１つ乃至３つを算出するようにしてもよい。

なお、上述したＦ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）以外の周波数特徴量が算出されるようにしてもよい。

次に、フレーム統合部１０６による統合方式の詳細について説明する。

図３は、フレーム統合部１０６の詳細な構成例を示す図である。同図に示されるように、フレーム統合部１０６は、特徴保持部１２１、統合対象判定部１２２、重み計算部１２３、および統合部１２４により構成されている。

特徴保持部１２１は、振幅特徴量計算部１０４から供給される振幅特徴量および周波数特徴量計算部１０５から供給される周波数特徴量を、過去の所定数のフレーム分（例えば、ａフレーム分）だけ保持する。

統合対象判定部１２２は、特徴保持部１２１に保持された振幅特徴量または周波数特徴量を用いて統合対象となるフレームを次のようにして判定する。

統合対象判定部１２２では、特徴保持部１２１に保持されている振幅特徴量または周波数特徴量のうちいずれか１つの特徴量Ｆ_ｄを用いて、この特徴量のフレーム間の特徴量の変化を表す特徴変化量Ｆ_ｄ_diffを算出する。

例えば、特徴保持部１２１に、Ｅ_１（ｎ）、Ｅ_２（ｎ）、Ｅ_３（ｎ）、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）が保持されている場合、Ｅ_３（ｎ）を用いて、ｉ−１番目のフレームの振幅特徴量Ｅ_３（ｉ−１）と、ｉ番目のフレームの振幅特徴量Ｅ_３（ｉ）の変化を表す特徴変化量Ｆ_ｄ_diffを算出する。

特徴変化量Ｆ_ｄ_diffは、式（１１）により算出される。

統合対象判定部１２２は、特徴保持部１２１に保持されている全フレーム分の特徴量を用いて各フレーム間の特徴変化量を順次算出する。そして、算出された特徴変化量をそれぞれ予め設定された閾値Ｆ_ｄ_diff_thと比較する。過去のフレームにおいて、最初に特徴変化量Ｆ_ｄ_diffが閾値Ｆ_ｄ_diff_thを超えたフレームを統合対象開始フレームとし、統合対象開始フレームから現在のフレームｎまでのフレーム（例えば、ｂフレーム）の振幅特徴量と周波数特徴量を統合対象として判定する。この判定結果は、重み計算部１６３に供給される。

図４を参照してさらに詳細に説明する。図４は、横軸がフレームとされ、図中上から順番に、入力信号の波形、入力信号から算出された振幅特徴量の変化を示す波形、および振幅特徴量に基づいて算出された特徴変化量の変化を示す波形がそれぞれ示されている。図４の場合、例えば、会議の音声の中に咳の音が混入しているものとする。

いま、現在のフレームが第４６０番目のフレームとされ、特徴保持部１２１には、第４４１番目のフレーム乃至第４６０番目のフレームの２０フレーム分の振幅特徴量と周波数特徴量が保持されているものとする。

図４の例では、２０フレーム分の振幅特徴量の中で、第４５２番目のフレームに対応する特徴変化量が最初に閾値Ｆ_ｄ_diff_th（＝１．２）を超えている。従って、第４５２番目のフレームが統合対象開始フレームとされ、第４６０番目のフレームまでの９フレームが統合対象とされることになる。

このようにして統合対象となるフレームが判定される。

重み計算部１６３は、特徴保持部１２１に保持されている特徴量のうちの１つの特徴量Ｆ_ｗを用いて、現在のフレームの特徴量Ｆ_ｗと統合対象となる他のフレームの特徴量Ｆ_ｗとの差または比に基づいて重みを計算する。第ｉ番目のフレームの重みＷ（ｉ）は、式（１２）または式（１３）により計算される。

なお、式（１２）は、現在のフレームの特徴量Ｆ_ｗと統合対象となる他のフレームの特徴量Ｆ_ｗとの差に基づいて重みを計算する場合の式を示しており、式（１３）は、現在のフレームの特徴量Ｆ_ｗと統合対象となる他のフレームの特徴量Ｆ_ｗとの比に基づいて重みを計算する場合の式を示している。

なお、重み計算部１６３が用いる特徴量Ｆ_ｗは、統合対象判定部１２２が用いる特徴量Ｆ_ｄと同じであってもよいし、異なってもよい。

重み計算部１６３で計算された重みは、統合部１２４に供給される。

統合部１２４は、重み計算部１６３から供給された重みを用いて振幅特徴量の重み付け平均値Ｅｓ（ｎ）を式（１４）により計算する。

式（１４）において、ｎは現在のフレームを表しており、ｂは統合対象となったフレーム数を表している。また、上述したように、複数の振幅特徴量（例えば、Ｅ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ））が特徴保持部１２１に保持されている場合、式（１４）におけるＥ（ｎ）を、Ｅ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）のそれぞれとし、振幅特徴量の、重み付け平均値Ｅｓ_１（ｎ）乃至重み付け平均値Ｅｓ_３（ｎ）がそれぞれ算出される。

また、統合部１２４は、重み計算部１６３から供給された重みを用いて周波数特徴量の重み付け平均値Ｆｓ（ｎ）を式（１５）により計算する。

式（１５）において、ｎは現在のフレームを表しており、ｂは統合対象となったフレーム数を表している。また、上述したように、複数の周波数特徴量（例えば、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ））が特徴保持部１２１に保持されている場合、式（１４）におけるＦ（ｎ）を、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）のそれぞれとし、周波数特徴量の重み付け平均値Ｆｓ_１（ｎ）乃至Ｆｓ_４（ｎ）がそれぞれ算出される。

そして、統合部１２４は、振幅特徴量の重み付け平均値Ｅｓ（ｎ）および周波数特徴量の重み付け平均値Ｆｓ（ｎ）の集合を特徴量集合Ｆ_packとして尤度計算部１０７に供給する。

なお、フレーム統合部１０６に、重み計算部１６３が含まれないようにし、統合部１２４では、統合対象判定部１２２で判定した統合対象のフレームの振幅特徴量と周波数特徴量の単純平均のセットを統合して特徴量集合Ｆ_packを生成するようにしてもよい。

また、フレーム統合部１０６に、統合対象判定部１６２が含まれないようにし、重み計算部１２３では、特徴保持部１２１で保持した全フレームの重みを計算し、統合部１２４では、全フレームの振幅特徴量と周波数特徴量の重み付け平均の集合を統合した特徴量集合Ｆ_packを生成するようにしてもよい。

さらに、フレーム統合部１０６に、統合対象判定部１６２および重み計算部１６３が含まれないようにし、統合部１２４では、特徴保持部１２１で保持した全フレームの振幅特徴量と周波数特徴量の単純な平均値のセットを特徴量集合Ｆ_packとして生成するようにしてもよい。

尤度計算部１０７は、フレーム統合部１０６で統合された特徴量集合Ｆ_packに含まれる特徴量のそれぞれについて、予め定めた閾値との割合を算出する。

例えば、振幅特徴量に対応する閾値Ｅ_thと周波数特徴量に対応する閾値Ｆ_thが予め定められている。

尤度計算部１０７は、特徴量集合Ｆ_packに含まれる振幅特徴量の重み付け平均値についての閾値Ｅ_thの割合Ｒ_Ｅ（ｎ）を式（１６）により計算する。

また、尤度計算部１０７は、特徴量集合Ｆ_packに含まれる周波数特徴量の重み付け平均値についての閾値Ｆ_thの割合Ｒ_Ｆ（ｎ）を式（１７）により計算する。

そして、尤度計算部１０７は、割合Ｒ_Ｅ（ｎ）と割合Ｒ_Ｆ（ｎ）のそれぞれに、予め定められた重みＡ_Ｅと重みＡ_Ｆを乗じて、重み付け加算値を算出する。この重み付け加算値は、式（１８）により算出され、入力信号の第ｎ番目のフレームに対応する雑音尤度Ｒ（ｎ）として雑音検出部１０８に供給される。

雑音検出部１０８は、尤度計算部１０７から供給された入力信号の雑音尤度を予め定めた閾値と比較し、入力信号の第ｎ番目のフレームが非定常性雑音のフレームであるか否かを判定する。例えば、非定常性雑音を判定するための雑音尤度閾値Ｒ_thが予め定められており、雑音尤度Ｒ（ｎ）が雑音尤度閾値Ｒ_thより大きい場合、入力信号の第ｎ番目のフレームが非定常性雑音のフレームであると判定する。一方、雑音尤度Ｒ（ｎ）が雑音尤度閾値Ｒ_th以下である場合、入力信号の第ｎ番目のフレームが非定常性雑音のフレームではないと判定する。

このようにして、非定常性雑音が検出される。本技術では、上述したように、少なくとも１つの振幅特徴量、および、少なくとも１つの周波数特徴量を用いて非定常性雑音であるか否かの判定が行われるようにしたので、非定常性雑音をより精度高く検出することができる。

また、フレーム統合部１０６において、統合対象のフレームが特定されるので、特徴量集合Ｆ_packに含まれる特徴量の計算の負荷を軽減することができる。これにより、例えば、小型の省電力機器などにも、雑音検出装置１００を搭載することが可能となる。

さらに、雑音尤度閾値を、咳を検出するための専用の雑音尤度閾値とすることで、咳のみを非定常性雑音として判定することができ、拍手を検出するための専用の雑音尤度閾値とすることで、拍手のみを非定常性雑音として判定することができる。このように、本技術では、雑音尤度閾値を適切に設定することにより、非定常性雑音の種類を特定することも可能となる。

上述した例では、尤度計算部１０７が、予め設定された振幅特徴量に対応する閾値Ｅ_thと周波数特徴量に対応する閾値Ｆ_thとに基づく閾値比較を行い、式（１６）乃至式（１８）の計算を行って雑音尤度を計算するものとした。

しかしながら、例えば、尤度計算部１０７が、予め学習した識別モデルＭを用いて特徴量集合Ｆ_packから雑音尤度を計算するようにしてもよい。この場合、識別モデルＭとして、例えば、ガウス混合モデル（ＧＭＭ）、隠れマルコフモデル（ＨＭＭ）、サポートベクターマシン（ＳＶＭ）などを採用することができる。

すなわち、特徴量集合Ｆ_packに含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いて特徴ベクトル空間が生成される。そして、尤度計算部１０７が、前記特徴ベクトル空間において予め学習した識別モデルに基づいて、特徴量集合Ｆ_packに対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームであることの確からしさを表す雑音尤度を算出する。

なお、これらの識別モデルを用いた尤度の算出方式については従来より一般に採用されているものと同様である。

次に、図５のフローチャートを参照して、雑音検出装置１００による雑音検出処理の例について説明する。

ステップＳ２１において、周波数特性補正部１０１は、信号入力部５１から出力される入力信号Ｓ（ｎ）を取得する。

ステップＳ２２において、周波数特性補正部１０１は、信号入力部５１の固有周波数特性Ｆ_ｉｄ(ｎ)を補正する。このとき、例えば、図２を参照して上述したような固有周波数特性が補正され、入力信号から信号入力部５１の固有周波数特性の影響が除去される。

ステップＳ２３において、定常性雑音軽減部１０２は、定常性雑音を除去する。これにより、例えば、雑音検出装置１００、信号入力部５１、または信号処理装置５２の駆動音、会議室内の空調の音などが除去される。

ステップＳ２４において、振幅特徴量計算部１０４は、定常性雑音軽減部１０２から供給された入力信号から振幅特徴量を計算する。このとき、フレームｎの振幅特徴量として、上述したＥ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）の少なくとも１つが算出される。

ステップＳ２５において、周波数特徴量計算部１０５は、定常性雑音軽減部１０２から供給された入力信号から周波数特徴量を計算する。このとき、フレームｎの周波数特徴量として、上述したＦ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）の少なくとも１つが算出される。

ステップＳ２６において、フレーム統合部１０６は、図６を参照して後述する統合処理を実行する。これにより、ステップＳ２４の処理で計算された振幅特徴量、および、ステップＳ２５の処理で計算された周波数特徴量が、所定数フレーム分統合され、振幅特徴量の重み付け平均値Ｅｓ（ｎ）および周波数特徴量の重み付け平均値Ｆｓ（ｎ）が算出される。そして、振幅特徴量の重み付け平均値Ｅｓ（ｎ）および周波数特徴量の重み付け平均値Ｆｓ（ｎ）の集合が特徴量集合Ｆ_packとして出力される。

ステップＳ２７において、尤度計算部１０７は、入力信号の雑音尤度を計算する。このとき、上述したように、特徴量集合Ｆ_packに含まれる特徴量のそれぞれについて、振幅特徴量に対応する閾値Ｅ_thと周波数特徴量に対応する閾値Ｆ_thとの割合が算出される。そして、割合Ｒ_Ｅ（ｎ）と割合Ｒ_Ｆ（ｎ）のそれぞれに、予め定められた重みＡ_Ｅと重みＡ_Ｆを乗じて、重み付け加算値が算出され、入力信号の第ｎ番目のフレームに対応する雑音尤度Ｒ（ｎ）とされる。

ステップＳ２８において、雑音検出部１０８は、雑音尤度Ｒ（ｎ）が雑音尤度閾値Ｒ_thより大きいか否かを判定する。

ステップＳ２８において、雑音尤度Ｒ（ｎ）が雑音尤度閾値Ｒ_thより大きいと判定された場合、処理は、ステップＳ２９に進む。

ステップＳ２９において、雑音検出部１０８は、入力信号の第ｎ番目のフレームが非定常性雑音のフレームであると判定する。

一方、ステップＳ２８において、雑音尤度Ｒ（ｎ）が雑音尤度閾値Ｒ_thより大きくないと判定された場合、処理は、ステップＳ３０に進む。

ステップＳ３０において、雑音検出部１０８は、入力信号の第ｎ番目のフレームが非定常性雑音のフレームではないと判定する。

このようにして雑音検出処理が実行される。

次に、図６のフローチャートを参照して、図５のステップＳ２６の統合処理の詳細な例について説明する。

ステップＳ５１において、統合対象判定部１２２は、特徴保持部１２１に保持されている振幅特徴量と周波数特徴量を取得する。

ステップＳ５２において、統合対象判定部１２２は、ステップＳ５１で取得した振幅特徴量または周波数特徴量のうちいずれか１つの特徴量Ｆ_ｄを用いて、この特徴量のフレーム間の特徴量の変化を表す特徴変化量Ｆ_ｄ_diffを算出する。なお、特徴変化量Ｆ_ｄ_diffは、特徴保持部１２１に保持されている振幅特徴量と周波数特徴量に対応する全フレーム分算出される。

例えば、特徴保持部１２１に、Ｅ_１（ｎ）、Ｅ_２（ｎ）、Ｅ_３（ｎ）、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）が保持されている場合、Ｅ_３（ｎ）を用いて、ｉ−１番目のフレームの振幅特徴量Ｅ_３（ｉ−１）と、ｉ番目のフレームの振幅特徴量Ｅ_３（ｉ）の変化を表す特徴変化量Ｆ_ｄ_diff（ｉ）が算出される。

ステップＳ５３において、統合対象判定部１２２は、変数ｉに現在のフレームを表す番号ｎをセットする。

ステップＳ５４において、統合対象判定部１２２は、特徴変化量Ｆ_ｄ_diff（ｉ）を予め設定された閾値Ｆ_ｄ_diff_thと比較し、特徴変化量Ｆ_ｄ_diff（ｉ）が閾値Ｆ_ｄ_diff_thを超えたか否かを判定する。

ステップＳ５４において、特徴変化量Ｆ_ｄ_diff（ｉ）が閾値Ｆ_ｄ_diff_thを超えていないと判定された場合、処理は、ステップＳ５５に進む。

ステップＳ５５において、変数ｉがデクリメントされ、処理は、ステップＳ５４に戻る。

一方、ステップＳ５４において、特徴変化量Ｆ_ｄ_diff（ｉ）が閾値Ｆ_ｄ_diff_thを超えたと判定された場合、処理は、ステップＳ５６に進む。

ステップＳ５６において、統合対象判定部１２２は、ｉ番目のフレーム（ｉフレーム）からｎ番目のフレーム（ｎフレーム）までを統合対象として判定する。いまの場合、ｉフレームが統合対象開始フレームとされたことになる。

ステップＳ５７において、重み計算部１６３は、特徴保持部１２１に保持されている特徴量のうちの１つの特徴量Ｆ_ｗを用い、現在のフレームの特徴量Ｆ_ｗと統合対象となる他のフレームの特徴量Ｆ_ｗとの差または比に基づいて重みを計算する。なお、重み計算部１６３が用いる特徴量Ｆ_ｗは、統合対象判定部１２２が用いる特徴量Ｆ_ｄと同じであってもよいし、異なってもよい。

ステップＳ５８において、統合部１２４は、ステップＳ５７の処理で計算された重みを用いて振幅特徴量の重み付け平均値Ｅｓ（ｎ）および周波数特徴量の重み付け平均値Ｆｓ（ｎ）を計算する。

ステップＳ５９において、統合部１２４は、振幅特徴量の重み付け平均値Ｅｓ（ｎ）および周波数特徴量の重み付け平均値Ｆｓ（ｎ）の集合を特徴量集合Ｆ_packとして生成する。

このようにして、統合処理が実行される。

図７は、本技術を適用した雑音検出装置１００の別の実施の形態に係る構成例を示すブロック図である。図７の構成における雑音検出装置１００には、図１の場合とは異なり、特徴量選択部１０３が設けられている。図７の雑音検出装置１００のそれ以外の構成は、図１の場合と同様である。

特徴量選択部１０３は、定常性雑音軽減部１０２の処理を経て出力される入力信号に基づいて、振幅特徴量計算部１０４が計算すべき振幅特徴量、および、周波数特徴量計算部１０５が計算すべき周波数特徴量を特定する。これにより、振幅特徴量計算部１０４および周波数特徴量計算部１０５の計算負荷を軽減することができる。

図８は、特徴量選択部１０３の詳細な構成例を示すブロック図である。同図に示されるように、特徴量選択部１０３は、特徴計算部１３１、特徴判定部１３２、および、選択情報出力部１３３により構成されている。

特徴計算部１３１は、入力信号の特徴量を計算し、特徴判定部１３２に供給する。特徴計算部１３１により計算される特徴量は、例えば、上述した上述した振幅特徴量である、Ｅ_１（ｎ）、Ｅ_２（ｎ）、およびＥ_３（ｎ）、または上述した周波数特徴量である、Ｆ_１（ｎ）、Ｆ_２（ｎ）、Ｆ_３（ｎ）、およびＦ_４（ｎ）の中の１つとされる。

特徴判定部１３２では、特徴計算部１３１から供給された特徴量を閾値と比較し、その結果から、当該フレームの入力信号の特徴タイプを判定し、その特徴タイプを選択情報出力部１３３に供給する。

選択情報出力部１３３では、特徴判定部１３２から供給された特徴タイプを用いて、それぞれの特徴タイプに対応した特徴選択情報を選択し、その特徴選択情報を、振幅特徴量計算部１０４および周波数特徴量計算部１０５に出力する。ここで、特徴選択情報は、振幅特徴量計算部１０４が計算すべき振幅特徴量、および、周波数特徴量計算部１０５が計算すべき周波数特徴量を特定する情報とされる。

図９は、非定常性雑音の１つである咳の周波数特性を説明する図であって、咳と母音および咳と子音の周波数特性の比較の一例を示す図である。同図は、横軸が周波数とされ、縦軸が音圧レベルとされ、咳の音声に係る周波数特性と通常の言葉の音声に係る周波数特性が折れ線により示されている。同図の上側には、母音の音声と咳の音声と咳の音声の周波数性が示されており、同図の下側には、子音の音声と咳の音声の周波数特性が示されている。

同図の上側に示されるように、咳の音声と母音の音声とを比較した場合、１.４kHz以下の区間、４kHzから６.８kHzまでの区間、および１１.７kHz以上の区間で、音圧レベルが大きく異なっている。つまり、これらの区間の周波数特徴量、例えば、１.４kHz以下の周波数域成分、４kHzから６.８kHzまでの周波数域成分、および１１.７kHz以上の周波数域成分を取り出すフィルタを用い、入力信号の全ての周波数成分に対する上述した区間の周波数成分の比率を表すパラメータの集合などを算出すれば、簡単に咳の音声と母音の音声とを区別することができる。

また、同図の下側に示されるように、咳の音声と子音の音声とを比較した場合、１.８kHz以下の区間、６.５kHzから８.８kHzまでの区間、及び１７.７kHz以上の区間で、音圧レベルが大きく異なっている。つまり、咳の音声と母音の音声との比較の場合と同様に各区間の周波数域成分を取り出すフィルタを用い、簡単に咳の音声と子音の音声とを区別することができる。

しかし、咳と母音の比較、咳と子音の比較には、それぞれ異なる周波数成分を抽出する必要があり、高い精度で咳を検出するためには、合計６通りの周波数成分に係る特徴量を算出する必要がある。すなわち、入力信号が母音に近い音声であるのか、または子音に近い音声であるのかが事前に分かっていなければ、その両方の場合を想定して特徴量を算出しなければならない。

例えば、予め入力信号が母音に近い音声であるのか、または子音に近い音声であるのかを認識することが可能であれば、合計３通りの周波数成分に係る特徴量の算出のみで足りるので、特徴量の算出に係る負荷を軽減することが可能となる。

図１０は、複数の音声信号をサンプルとした実験の結果得られた、音声信号のゼロ交差率の分布の一例を示す図である。同図は、横軸がゼロ交差率を表し、縦軸が当該ゼロ交差率を有する音声信号のフレーム単位のサンプル数を表している。

図１０に示されるように、サンプルの分布には、ゼロ交差率０.０５を境界として、２つのガウシアン特性が見られる。ゼロ交差率が０.０５以下にあるサンプルは、そのほとんどが母音であることが分かっている。一方、ゼロ交差率が０.０５以上であるサンプルは、そのほとんどが子音であることが分かっている。

すなわち、ゼロ交差率０.０５を閾値Ｆ_thとし、入力信号のゼロ交差率を閾値Ｆ_thと比較することにより、入力信号が母音に近い音声であるのか、または子音に近い音声であるのかを認識することが可能となる。

特徴量選択部１０３の特徴計算部１３１は、例えば、入力信号のゼロ交差率を計算し、特徴判定部１３２では、入力信号のゼロ交差率を閾値Ｆ_thと比較し、その結果から、当該フレームの入力信号の特徴タイプが母音であるか子音であるかを判定する。これにより、振幅特徴量計算部１０４が計算すべき振幅特徴量、および、周波数特徴量計算部１０５が計算すべき周波数特徴量が、母音用の特徴量または子音用の特徴量とされる。

このように、特徴量選択部１０３を設けることにより、振幅特徴量計算部１０４および周波数特徴量計算部１０５の計算負荷を軽減することができる。

なお、ここでは、特徴量選択部１０３が、当該フレームの入力信号の特徴タイプが母音であるか子音であるかを判定する例について説明したが、例えば、当該フレームの入力信号の特徴タイプが音圧が大きいもの（大音圧）であるか音圧が小さいもの（小音圧）であるかを判定するようにしてもよい。例えば、小音圧の場合（音量が小さい場合）は、良好なＳ／Ｎ特性を得られにくいので、定常性雑音に影響されにくい特徴量が選択されるようにしてもよい。

この場合、ゼロ交差率に代えて、フレームｎに含まれるＬ個のサンプル値の平均値を表す振幅特徴量（Ｅ_２（ｎ））、または、フレームｎに含まれるＬ個のサンプル値のＲＭＳ値を表す振幅特徴量（Ｅ_３（ｎ））を閾値と比較することで当該フレームの入力信号の特徴タイプを判定するようにすればよい。

図１１は、本技術を適用した雑音検出装置１００のさらに別の実施の形態に係る構成例を示すブロック図である。図１１の構成における雑音検出装置１００には、図１の場合とは異なり、周波数特性補正部１０１、定常性雑音軽減部１０２、フレーム統合部１０６、および尤度計算部１０７が設けられていない。図１１の雑音検出装置１００のそれ以外の構成は、図１の場合と同様である。

図１１の構成の場合、雑音検出装置１００は、信号入力部５１から供給された入力信号から直接、振幅特徴量および周波数特徴量を計算し、それらの振幅特徴量および周波数特徴量を直接利用して当該フレームが非定常性雑音のフレームであるか否かの判定を行う。この場合、雑音検出部１０８は、例えば、振幅特徴量および周波数特徴量のそれぞれを閾値判定し、判定結果に対応して当該フレームが非定常性雑音のフレームであるか否かの判定を行うことになる。

あるいはまた、図１１に示される雑音検出装置１００に、周波数特性補正部１０１、定常性雑音軽減部１０２、フレーム統合部１０６、および尤度計算部１０７のうちの、いずれか１つ乃至３つを追加する構成を採用することも可能である。

なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図１２に示されるような汎用のパーソナルコンピュータ７００などに、ネットワークや記録媒体からインストールされる。

図１２において、ＣＰＵ（Central Processing Unit）７０１は、ＲＯＭ（Read Only Memory）７０２に記憶されているプログラム、または記憶部７０８からＲＡＭ（Random Access Memory）７０３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７０３にはまた、ＣＰＵ７０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。このバス７０４にはまた、入出力インタフェース７０５も接続されている。

入出力インタフェース７０５には、キーボード、マウスなどよりなる入力部７０６、ＬＣＤ(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部７０７、ハードディスクなどより構成される記憶部７０８、モデム、ＬＡＮカードなどのネットワークインタフェースカードなどより構成される通信部７０９が接続されている。通信部７０９は、インターネットを含むネットワークを介しての通信処理を行う。

入出力インタフェース７０５にはまた、必要に応じてドライブ７１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部７０８にインストールされる。

上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア７１１などからなる記録媒体からインストールされる。

なお、この記録媒体は、図１２に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ７０２や、記憶部７０８に含まれるハードディスクなどで構成されるものも含む。

なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

なお、本技術は以下のような構成も取ることができる。

（１）
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部と
を備える雑音検出装置。
（２）
前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも２種類の振幅特徴量を計算し、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のＲＳＭ値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備える
（１）に記載の雑音検出装置。
（３）
前記特徴量選択部は、
前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する
（２）に記載の雑音検出装置。
（４）
前記振幅特徴量計算部は、
前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のＲＭＳ値のうちの、少なくとも１つを前記振幅特徴量として計算し、
前記周波数特徴量計算部は、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の１つの値若しくは複数の値のうちの、少なくとも１つを前記周波数特徴量として計算する
（１）乃至（３）のいずれかに記載の雑音検出装置。
（５）
前記雑音判定部は、
前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第１の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第２の値との割合を算出し、
前記算出された割合に基づいて、雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
（１）乃至（４）のいずれかに記載の雑音検出装置。
（６）
前記雑音判定部は、
前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
（１）乃至（５）のいずれかに記載の雑音検出装置。
（７）
前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備える
（１）乃至（６）のいずれかに記載の雑音検出装置。
（８）
前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備える
（１）乃至（７）のいずれかに記載の雑音検出装置。
（９）
振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、
周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、
特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、
区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、
特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、
雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップ
を含む雑音検出方法。
（１０）
コンピュータを、
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させる
プログラム。

５１信号入力部，５２信号処理装置，１００雑音検出装置，１０１周波数特性補正部，１０２定常性雑音軽減部，１０３特徴量選択部，１０４振幅特徴量計算部，１０５周波数特徴量計算部，１０６フレーム統合部，１０７尤度計算部，１０８雑音検出部，１２１特徴保持部，１２２統合対象判定部，１２３重み計算部，１２４統合部，１３１特徴計算部，１３２特徴判定部，１３３選択情報出力部，７１１リムーバブルメディア

Claims

音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部と
を備える雑音検出装置。
前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも２種類の振幅特徴量を計算し、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のＲＳＭ値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備える
請求項１に記載の雑音検出装置。
前記特徴量選択部は、
前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する
請求項２に記載の雑音検出装置。
前記振幅特徴量計算部は、
前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のＲＭＳ値のうちの、少なくとも１つを前記振幅特徴量として計算し、
前記周波数特徴量計算部は、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の１つの値若しくは複数の値のうちの、少なくとも１つを前記周波数特徴量として計算する
請求項１に記載の雑音検出装置。
前記雑音判定部は、
前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第１の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第２の値との割合を算出し、
前記算出された割合に基づいて、雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
請求項１に記載の雑音検出装置。
前記雑音判定部は、
前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
請求項１に記載の雑音検出装置。
前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備える
請求項１に記載の雑音検出装置。
前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備える
請求項１に記載の雑音検出装置。
振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、
周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、
特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、
区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、
特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、
雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップ
を含む雑音検出方法。
コンピュータを、
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか１つの特徴量に基づいて、時間的に隣接する２つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させる
プログラム。