JP5998603B2

JP5998603B2 - 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム

Info

Publication number: JP5998603B2
Application number: JP2012094395A
Authority: JP
Inventors: 安部　素嗣; 素嗣安部; 西口　正之; 正之西口; 倉田　宜典; 宜典倉田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-04-18
Filing date: 2012-04-18
Publication date: 2016-09-28
Anticipated expiration: 2032-04-18
Also published as: CN104221018A; WO2013157254A1; JP2013222113A; IN2014DN08472A; US20150043737A1

Description

本技術は、音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラムに関する。

近年、家電（家庭用電気機器）は、操作音、通知音、動作音、警報音など、動作状況に応じて様々な音（以下、「動作状況音」という）を発する。この動作状況音を、家庭内のどこかに設置したマイクロフォン等で観測し、いつどの家電がどのような動作をしているかを検出できれば、いわゆるライフログのような自身の行動履歴の自動収集、あるいは聴覚障害者などへの通知音の可視化、さらには、独居老人の行動見守りなど、様々な応用機能が実現できる。

動作状況音は、単純なブザー音、ビープ音の場合や、音楽、音声などの場合もあり、その継続時間長は、短いものでは３００ｍｓ程度から、長いものでは数十秒程度である。これらが、家電に装備された圧電ブザーや薄型スピーカなど、あまり音質の良くない再生デバイスを通じて再生され、空間に伝播される。

例えば、特許文献１には、楽曲の一部断片データを時間周波数分布に変換して特徴量を抽出し、その特徴量を既に登録されている楽曲の特徴量と比較し、楽曲名を同定する技術が記載されている。

特許第４７８８８１０号公報

特許文献１に記載されると同様の技術を、上述の動作状況音の検出に適用することも考えられる。しかし、家電から発せられる動作状況音に関しては、以下のような、その検出の妨げとなる事項が存在する。

（１）数百ミリ秒などの短い動作状況音も認識しなくてはならない。
（２）再生デバイスの質が悪いため、音が割れていたり、共振が発生して周波数特性が極端に歪んでいたりすることがある。
（３）空間伝播により、家庭電化製品自体が発した音と比べて振幅・位相周波数特性が歪むことがある。例えば、図１７（ａ）は、家庭電化製品に近い位置で録音した動作状況音の波形例を示している。これに対して、図１７（ｂ）は、家庭電化製品から遠い位置で録音した動作状況音の波形例を示しているが、歪んだものとなっている。

（４）空間伝播により、比較的大きな雑音、テレビの出力音、会話音などの非定常な雑音が重畳されることがある。例えば、図１７（ｃ）は、雑音原であるテレビの近い位置で録音した動作状況音の波形例を示しているが、動作状況音は雑音に埋もれてしまっている。
（５）家庭電化製品毎の音の大きさやマイクロフォンまでの距離がそれぞれの家電に依存するため、録音される音の音量がまちまちになる。

本技術の目的は、家電から発生される動作状況音等の被検出音の良好な検出を可能することにある。

本技術の概念は、
入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出部と、
所定数の被検出音の特徴量列を保持する特徴量保持部と、
上記特徴量抽出部で新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、上記保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較部とを備え、
上記特徴量抽出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化する平滑化部とを有し、
上記平滑化された尤度分布から上記所定時間毎の特徴量を抽出する
音検出装置にある。

本技術において、特徴量抽出部により、入力時間信号から所定時間毎の特徴量が抽出される。この場合、特徴量抽出部では、入力時間信号が時間フレーム毎に時間周波数変換されて時間周波数分布が得られ、この時間周波数分布よりトーンらしさの尤度分布が求められ、この尤度分布が周波数方向および時間方向に平滑化され、この平滑化された尤度分布から所定時間毎の特徴量が抽出される。

例えば、尤度分布検出部は、時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、この検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、このフィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える、ようにされてもよい。

特徴量保持部には、所定数の被検出音の特徴量列が保持されている。この被検出音には、家庭電化製品から発せられる動作状況音（操作音、通知音、動作音、警報音など）の他に、人や動物の声音などを含めることができる。比較部により、特徴量抽出部で新たに特徴量が抽出される毎に、この特徴量抽出部で抽出された特徴量の列が、保持されている所定数の被検出音の特徴量列とそれぞれ比較されて、この所定数の被検出音の検出結果が得られる。

例えば、比較部は、所定数の被検出音のそれぞれについて、保持されている被検出音の特徴量列と特徴量抽出部で抽出された特徴量列との間の対応する特徴量間の相関演算で類似度を求め、この求められた類似度に基づいて被検出音の検出結果を得る、ようにされてもよい。

このように本技術においては、入力時間信号の時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化したものから所定時間毎の特徴量を抽出して用いるものであり、被検出音（家庭用電化製品から発せられる動作状況音など）の検出を、マイクロフォンの設置位置などに依らずに、精度よく行うことが可能となる。

なお、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を周波数方向および／または時間方向に間引く間引き部をさらに備える、ようにされてもよい。また、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を量子化する量子化部をさらに備える、ようにされてもよい。この場合、特徴量列のデータ量を低減でき、比較演算の負荷を軽減可能となる。

また、本技術において、例えば、所定数の被検出音の検出結果を時刻情報と共に記録媒体に記録する記録制御部をさらに備える、ようにされてもよい。この場合、例えば、家庭用電化製品の動作履歴など、従って家庭内におけるユーザの行動履歴の取得が可能となる。

また、本技術の他の概念は、
入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する特徴量抽出部とを備える
音特徴量抽出装置にある。

本技術において、時間周波数変換部により、入力時間信号が時間フレーム毎に時間周波数変換されて時間周波数分布が得られる。尤度分布検出部により、この時間周波数分布よりトーンらしさの尤度分布が求められる。例えば、尤度分布検出部は、時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、この検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、このフィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える、ようにされてもよい。そして、特徴量抽出部により、尤度分布が周波数方向および時間方向に平滑化されて所定時間毎の特徴量が抽出される。

このように本技術においては、入力時間信号の時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化したものから所定時間毎の特徴量を抽出するものであり、入力時間信号に含まれる音の特徴量を良好に抽出できる。

なお、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を周波数方向および／または時間方向に間引く間引き部をさらに備える、ようにされてもよい。また、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を量子化する量子化部をさらに備える、ようにされてもよい。これにより、抽出される特徴量のデータ量の低減が可能となる。

また、本技術において、例えば、入力時間信号に基づいて音区間を検出する音区間検出部をさらに備え、尤度分布検出部は、検出された音区間の範囲で時間周波数分布よりトーンらしさの尤度分布を求める、ようにされてもよい。これにより、音区間に対応した特徴量を抽出することが可能となる。

この場合、音区間検出部は、入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、この時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、この抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部と、この得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、この平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とを有する、ようにされてもよい。

また、本技術の他の概念は、
入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部とを備える
音区間検出装置にある。

本技術において、時間周波数変換部により、入力時間信号が時間フレーム毎に時間周波数変換されて時間周波数分布が得られる。特徴量抽出部により、時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量が抽出される。そして、スコア化部により、抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアが得られる。なお、本技術において、例えば、得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、この平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とをさらに備える、ようにされてもよい。

このように本技術においては、入力時間信号の時間周波数分布より時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出し、この特徴量から時間フレーム毎の、音区間らしさを示すスコアを得るものであり、音区間情報を精度よく得ることができる。

本技術によれば、家庭電化製品から発せられる動作状況音等の被検出音の検出を良好に行うことができる。

実施の形態としての音検出装置の構成例を示すブロック図である。特徴量登録装置の構成例を示すブロック図である。音区間とその前後に存在するノイズ区間の一例を示す図である。特徴量登録装置を構成する音区間検出部の構成例を示すブロック図である。トーン強度特徴量計算部を説明するための図である。トーン強度特徴量計算部に含まれるトーン性らしさのスコアＳ(n,k)の分布を得るためのトーン尤度分布検出部の構成例を示すブロック図である。２次元多項式関数がトーン性のスペクトルピーク近傍ではよく当てはまるが、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらないという性質を説明するための模式図である。トーン性ピークの時間方向への変化と、スペクトログラム上の小領域Г内でのフィッティングを模式的に示す図である。トーン尤度分布検出部におけるトーン尤度分布検出の処理手順の一例を示すフローチャートである。トーン成分検出結果の一例を示す図である。音声のスペクトログラムの一例を示す図である。特徴量抽出部の構成例を示すブロック図である。音検出部の構成例を示すブロック図である。音検出部の各部の動作を説明するための図である。音検出処理をソフトウェアで行うコンピュータ装置の構成例を示すブロック図である。ＣＰＵによる被検出音の検出処理の手順の一例を示すフローチャートである。家庭電化製品自体が発した音の録音状態を説明するための図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［音検出装置］
図１は、実施の形態としての音検出装置１００の構成例を示している。この音検出部１００は、マイクロフォン１０１と、音検出部１０２と、特徴量データベース１０３と、記録・表示部１０４を有している。

この音検出装置１００は、家電から発せられる動作状況音（操作音、通知音、動作音、警報音など）を検出する音検出プロセスを実行し、検出結果の記録および表示を行う。すなわち、この音検出プロセスでは、マイクロフォン１０１で集音されて得られる時間信号ｆ(t)から所定時間毎の特徴量が抽出され、特徴量データベースに登録されている所定数の被検出音の特徴量列と比較される。そして、この音検出プロセスでは、所定の被検出音の特徴量列と概ね一致するとの比較結果が得られた場合、その時刻とその所定の被検出音の名が記録および表示される。

マイクロフォン１０１は、室内の音を集音し、時間信号ｆ(t)を出力する。この室内の音には、家電１〜家電Ｎから発せられる動作状況音（操作音、通知音、動作音、警報音など）も含まれる。音検出部１０２は、マイクロフォン１０１から出力される時間信号ｆ(t)を入力とし、この時間信号から所定時間毎の特徴量を抽出する。この意味で、音検出部１０２は、特徴量抽出部を構成する。

特徴量保持部を構成する特徴量データベース１０３には、所定数の被検出音の特徴量列が、被検出音名と対応付けられて登録され保持されている。この実施の形態において、この所定数の被検出音は、例えば、家電１〜家電Ｎで発生される動作状況音の全部あるいは一部である。音検出部１０２は、新たな特徴量を抽出する毎に、抽出された特徴量の列を、特徴量データベース１０３に保持されている所定数の被検出音の特徴量列のそれぞれと比較して、所定数の被検出音の検出結果を得る。この意味で、音検出部１０２は、比較部を構成している。

記録・表示部１０４は、音検出部１０２における被検出音の検出結果を、時刻と共に記録媒体に記録し、また、ディスプレイに表示する。例えば、音検出部１０２における被検出音の検出結果が家電１の通知音Ａが検出されたことを示している場合、記録・表示部１０４は、そのときの時刻と家電１の通知音Ａが鳴った旨を、記録媒体に記録し、また、ディスプレイに表示する。

図１に示す音検出装置１００の動作を説明する。マイクロフォン１０１では、室内の音が集音される。このマイクロフォン１０１から出力される時間信号は音検出部１０２に供給される。音検出部１０２では、この時間信号から所定時間毎の特徴量が抽出される。そして、この音検出部１０２では、新たな特徴量が抽出される毎に、抽出された特徴量の列が、特徴量データベース１０３に保持されている所定数の被検出音の特徴量列のそれぞれと比較され、所定数の被検出音の検出結果が得られる。この検出結果は、記録・表示部１０４に供給される。記録・表示部１０４では、その検出結果が、時刻と共に記録媒体に記録され、また、ディスプレイに表示される。

［特徴量登録装置］
図２は、特徴量データベース１０３に、被検出音の特徴量列を登録する特徴量登録装置２００の構成例を示している。この特徴量登録装置２００は、マイクロフォン２０１と、音区間検出部２０２と、特徴量抽出部２０３と、特徴量登録部２０４を有している。

この特徴量登録装置２００は、音登録プロセス（音区間検出プロセスおよび音特徴抽出プロセス）を実行し、被検出音（家電から発せられる動作状況音）の特徴量列を特徴量データベース１０３に登録する。通例、マイクロフォン２０１で録音される登録すべき被検出音の前後にはノイズ区間が存在する。そのため、音区間検出プロセスでは、実際に登録すべき有意な音（被検出音）のある音区間が検出される。図３は、音区間とその前後に存在するノイズ区間の一例を示している。また、音特徴抽出プロセスでは、マイクロフォン２０１から得られるその音区間の時間信号ｆ(t)から、被検出音の検出に有用な特徴量が抽出され、被検出音名と共に特徴量データベース１０３に登録される。

マイクロフォン２０１は、被検出音として登録すべき家電の動作状況音を集音する。音区間検出部２０２は、マイクロフォン２０１から出力される時間信号ｆ(t)を入力とし、この時間信号ｆ(t)から音区間、すなわち家電から発せられる動作状況音の区間を検出する。特徴量抽出部２０３は、マイクロフォン２０１から出力される時間信号ｆ(t)を入力とし、この時間信号ｆ(t)から所定時間毎の特徴量を抽出する。

特徴量抽出部２０３は、入力時間信号ｆ(t)を時間フレーム毎に時間周波数変換して時間周波数分布を得、この時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する。この場合、特徴量抽出部２０３は、音区間検出部２０２から供給される音区間情報に基づいて音区間の範囲で特徴量を抽出し、家電から発せられる動作状況音の区間に対応した特徴量の列を得る。

特徴量登録部２０４は、特徴量抽出部２０３で得られた、被検出音としての家電で発せられる動作状況音に対応した特徴量列を、その被検出音名（動作状況音の情報）に対応付けて、特徴量データベース１０３に登録する。図示の例では、特徴量データベース１０３に、Ｉ個の被検出音の特徴量列Ｚ1(m)，Ｚ2(m)，・・・，Ｚi(m)，・・・，ＺI(m)が登録されている状態を示している。

「音区間検出部」
図４は、音区間検出部２０２の構成例を示している。この音区間検出部２０２の入力は、登録すべき被検出音（家電で発せられる動作状況音）をマイクロフォン２０１で録音して得られる時間信号ｆ(t)であり、図３示すように、前後にノイズ区間も含まれる。また、この音区間検出部２０２の出力は、実際に登録すべき有意な音（被検出音）のある音区間を示す音区間情報である。

この音区間検出部２０２は、時間周波数変換部２２１と、振幅特徴量計算部２２２と、トーン強度特徴量計算部２２３と、スペクトル概形特徴量計算部２２４と、スコア計算部２２５と、時間平滑化部２２６と、閾値判定部２２７を有している。

時間周波数変換部２２１は、入力時間信号ｆ(t)を時間周波数変換して、時間周波数信号Ｆ(n,k)を得る。ここで、ｔは離散時間、ｎは時間フレームの番号、ｋは離散周波数を表す。時間周波数変換部２２１は、例えば、以下の数式（１）に示すように、短時間フーリエ変換により、入力時間信号ｆ(t)を時間周波数変換し、時間周波数信号Ｆ(n,k)を得る。

ただし、Ｗ(t)は窓関数、Ｍは窓関数のサイズ、Ｒはフレーム時間間隔（＝ホップサイズ）を表す。時間周波数信号Ｆ(n,k)は、時間フレームｎ、周波数ｋにおける周波数成分の対数振幅値を表すものであり、いわゆるスペクトログラム（時間周波数分布）である。

振幅特徴量計算部２２２は、時間周波数信号Ｆ(n,k)より、振幅特徴量ｘ0(n)，ｘ1(n)を計算する。具体的には、振幅特徴量計算部２２２は、所定の周波数範囲（下限ＫL 、上限ＫH）について、以下の数式（２）で表される、対象フレームｎの近傍時間区間（前後に長さＬとする）の平均振幅Ａave(n)を求める。

また、振幅特徴量計算部２２２は、所定の周波数範囲（下限ＫL 、上限ＫH）について、以下の数式（３）で表される、対象フレームｎにおける絶対振幅Ａabs(n)を求める。

さらに、振幅特徴量計算部２２２は、所定の周波数範囲（下限ＫL 、上限ＫH）について、以下の数式（４）で表される、対象フレームｎにおける相対振幅Ａrel(n)を求める。

そして、振幅特徴量計算部２２２は、以下の数式（５）に示すように、絶対振幅Ａabs(n)を振幅特徴量ｘ0(n)とし、相対振幅Ａrel(n)を振幅特徴量ｘ1(n)とする。

トーン強度特徴量計算部２２３は、時間周波数信号Ｆ(n,k)より、トーン強度特徴量ｘ2(n)を計算する。トーン強度特徴量計算部２２３は、まず、時間周波数信号Ｆ(n,k)の分布（図５（ａ）参照）を、トーン性らしさのスコアＳ(n,k)の分布（図５（ｂ）参照）に変換する。スコアＳ(n,k)は、Ｆ(n,k)の各時間ｎ、各周波数ｋにて、その時間周波数成分がどの程度「トーン成分らしいか」を０から１の間のスコアで表したものである。具体的には、スコアＳ(n,k)は、Ｆ(n,k)が周波数方向にトーン性のピークを形成する位置では１に近く、それ以外の位置では０に近い値をとるものである。

図６は、トーン強度特徴量計算部２２３に含まれる、トーン性らしさのスコアＳ(n,k)の分布を得るためのトーン尤度分布検出部２３０の構成例を示している。このトーン尤度分布検出部２３０は、ピーク検出部２３１と、フィッティング部２３２と、特徴量抽出部２３３と、スコア化部２３４を有している。

ピーク検出部２３１で、スペクトログラム（時間周波数信号Ｆ(n,k)の分布）の各時間フレームにおいて、周波数方向のピークが検出される。すなわち、ピーク検出部２３１では、このスペクトログラムに対し、全てのフレーム、全ての周波数で、その位置が周波数方向に関してのピーク（極大値）であるか否かが検出される。

Ｆ(n,k)がピークであるか否かの検出は、例えば、以下の数式（６）を満足するか否かを確認することで行われる。なお、ピークの検出方法として３点を使った方法を示しているが、５点を使った方法であってもよい。

フィッティング部２３２では、ピーク検出部２３１で検出された各ピークに関し、以下のように、そのピークの近傍領域においてトーンモデルがフィッティングされる。まず、フィッティング部２３２では、対象とするピークを原点とする座標に座標変換することが行われ、以下の数式（７）に示すように、近傍の時間周波数領域が設定される。ここで、ΔNは時間方向の近傍領域（例えば３点）、Δkは周波数方向の近傍領域（例えば２点）を表す。

続いて、フィッティング部２３２では、近傍領域内の時間周波数信号に対し、例えば、以下の数式（８）に示すような２次多項式関数のトーンモデルがフィッティングされる。この場合、フィッティング部２３２では、例えば、ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィティングが行われる。

すなわち、フィッティング部２３２では、時間周波数信号と多項式関数の近傍領域内における、以下の数式（９）に示すような二乗誤差を最小にする係数が、以下の数式（１０）に示すように求められることで、フィッティングが行われる。

この２次多項式関数は、トーン性のスペクトルピーク近傍では、よく当てはまる（誤差が小さい）が、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらない（誤差が大きい）、という性質をもつ。図７（ａ）、（ｂ）は、その様子を模式的に示している。図７（ａ）は、上述の数式（１）で得られる、第ｎフレームのトーン性ピーク付近のスペクトルを模式的に示している。

図７（ｂ）は、図７（ａ）のスペクトルに対して、以下の数式（１１）で示される２次関数ｆ0(k)を当てはめる様子を示している。ただし、ａがピーク曲率、ｋ0が真のピークの周波数、ｇ0が真のピーク位置での対数振幅値である。トーン性の成分のスペクトルピークでは２次関数がよく当てはまるが、ノイズ性のピークでは、ずれが大きい傾向がある。

図８（ａ）は、トーン性ピークの時間方向への変化を模式的に示している。トーン性ピークは、前後の時間フレームで、その概形を保ったまま振幅および周波数が変化をしていく。なお、実際に得られるスペクトルは離散点だが、便宜的に曲線で示している。一点鎖線が前フレーム、実線が現フレーム、点線が次フレームである。

多くの場合、トーン性の成分はある程度の時間の持続性があり、多少の周波数変化や時間変化を伴うものの、ほぼ同じ形の２次関数のシフトで表すことができる。この変化Ｙ(k,n)は、以下の数式（１２）で表される。スペクトルを対数振幅で表しているため、振幅の変化はスペクトルの上下への移動になる。振幅変化項ｆ1(n)が加算となるのはそのためである。ただし、βは周波数の変化率、ｆ1(n)はピーク位置における振幅の変化を表す時間関数である。

この変化Ｙ(k,n)は、ｆ1(n)を時間方向の２次関数で近似すると、以下の数式（１３）で表される。ａ、k0、β、d1、e1、ｇ0 は定数なので、適切に変数変換をすることで、この数式（１３）は、上述の数式（８）式と等価となる。

図８（ｂ）は、スペクトログラム上の小領域Г内でのフィッティングを模式的に示している。トーン性ピークでは、類似した形状が緩やかに時間変化するため、数式（８）がよく適合する傾向にある。しかし、ノイズ性のピーク近傍に関しては、ピークの形状やピークの周波数がばらつくため、数式（８）はあまりよく適合しない、つまり、最適に当てはめても誤差が大きいものとなる。

なお、上述の数式（１０）では、ａ，ｂ，ｃ，ｄ，ｅ，ｇの全ての係数に関するフィッティングを行う計算を示した。しかし、いくつかの係数についてはあらかじめ定数に固定した上でのフィッティングを行ってもよい。また、２次以上の多項式関数でフィッティングしてもよい。

図６に戻って、特徴量抽出部２３３では、フィッティング部２３２で得られる各ピークにおけるフィッティング結果（上述の数式（１０）参照）に基づいて、以下の数式（１４）に示すような特徴量（ｘ0，ｘ1，ｘ2，ｘ3，ｘ4，ｘ5）が抽出される。各特徴量は、各ピークにおける周波数成分の性質を表す特徴量であり、それ自体を音声や楽音などの分析に用いることができる。

スコア化部２３４では、各ピークのトーン成分らしさを定量化するために、ピーク毎に特徴量抽出部２３３で抽出された特徴量が用いられて、各ピークのトーン成分らしさを示すスコアＳ(n,k)が得られる。スコア化部２３４では、特徴量（ｘ0，ｘ1，ｘ2，ｘ3，ｘ4，ｘ5）のうち、一つまたは複数の特徴量が用いられて、以下の数式（１５）に示すように、スコアＳ(n,k)が求められる。この場合、少なくとも、フィッティングの正規化誤差ｘ5、あるいは周波数方向のピークの曲率ｘ0が使用される。

ただし、Sigm(x)はシグモイド関数であり、ｗiは予め定める荷重係数であり、Ｈi(xi)は、i番目の特徴量ｘiに対して施すあらかじめ定める非線形関数である。非線形関数Ｈi(xi)には、例えば、以下の数式（１６）に示すような関数を用いることができる。ただし、ｕi，ｖiは、あらかじめ定める荷重係数である。ｗi，ｕi，ｖiは、なんらかの適切な定数をあらかじめ定めてもよいが、例えば、多数のデータを用いて最急降下学習などを行うことで、自動的に決定することもできる。

スコア化部２３４では、上述したように、ピーク毎に、数式（１５）によって、トーン成分らしさを示すスコアＳ(n,k)が求められる。なお、スコア化部２３４では、ピークではない位置（n,k）におけるスコアＳ(n,k)は０とされる。スコア化部２３４では、時間周波数信号ｆ（n,k）の各時刻、各周波数において、０から１の間の値を取るトーン成分らしさのスコアＳ(n,k)が得られる。

図９のフローチャートは、トーン尤度分布検出部２３０におけるトーン尤度分布検出の処理手順の一例を示している。トーン尤度分布検出部２３０は、ステップＳＴ１において、処理を開始し、その後、ステップＳＴ２の処理に移る。このステップＳＴ２において、トーン尤度分布検出部２３０は、フレーム（時間フレーム）の番号ｎを０に設定する。

次に、トーン尤度分布検出部２３０は、ステップＳＴ３において、ｎ＜Ｎであるか否かを判断する。なお、スペクトログラム（時間周波数分布）のフレームは０からＮ−１まで存在するものとする。ｎ＜Ｎでないとき、トーン尤度分布検出部２３０は、全てのフレームの処理が終了したものと判断し、ステップＳＴ４において、処理を終了する。

ｎ＜Ｎであるとき、トーン尤度分布検出部２３０は、ステップＳＴ５において、離散周波数ｋを０に設定する。そして、トーン尤度分布検出部２３０は、ステップＳＴ６において、ｋ＜Ｋであるか否かを判断する。なお、スペクトログラム（時間周波数分布）の離散周波数ｋは０からＫ−１まで存在するものとする。ｋ＜Ｋでないとき、トーン尤度分布検出部２３０は、全ての離散周波数の処理が終了したものと判断し、ステップＳＴ７において、ｎをインクリメントし、その後に、ステップＳＴ３に戻り、次のフレームの処理に移る。

ステップＳＴ６でｋ＜Ｋであるとき、トーン尤度分布検出部２３０は、ステップＳＴ８において、Ｆ(n,k)がピークであるか否かを判断する。ピークでないとき、トーン尤度分布検出部２３０は、ステップＳＴ９において、スコアＳ(n,k)を０とし、ステップＳＴ１０において、ｋをインクリメントし、その後に、ステップＳＴ６に戻り、次の離散周波数の処理に移る。

ステップＳＴ８でピークであるとき、トーン尤度分布検出部２３０は、ステップＳＴ１１の処理に移る。このステップＳＴ１１において、トーン尤度分布検出部２３０は、そのピークの近傍領域においてトーンモデルをフィッティングする。そして、トーン尤度分布検出部２３０は、ステップＳＴ１２において、フィッティング結果に基づいて、種々の特徴量（ｘ0，ｘ1，ｘ2，ｘ3，4，ｘ5）を抽出する。

次に、トーン尤度分布検出部２３０は、ステップＳＴ１３において、ステップＳＴ１２で抽出された特徴量を用いて、そのピークのトーン成分らしさを示す、０から１の間の値をとるスコアＳ(n,k)を求める。トーン尤度分布検出部２３０は、このステップＳＴ１４の処理の後、ステップＳＴ１０において、ｋをインクリメントし、その後に、ステップＳＴ６に戻り、次の離散周波数の処理に移る。

図１０は、図１１に示すような時間周波数分布（スペクトログラム）Ｆ(n,k)から、図６に示すトーン尤度分布検出部２３０で得られたトーン成分らしさのスコアＳ(n,k)の分布の一例を示している。スコアＳ(n,k)の値が大きいほど黒く表示されているが、ノイズ性のピークは概ね検出されていないのに対し、トーン性の成分（図１１で黒い太横線を形成している成分）のピークは概ね検出されていることが分かる。

図４に戻って、トーン強度特徴量計算部２２３は、続いて、スコアＳ(n,k)が所定の閾値Ｓthsdより大きい位置（図５（ｂ）参照）について、その近傍周波数位置の成分のみを抽出するトーン成分抽出フィルタＨ(n,k)（図５（ｃ）参照）を作成する。以下の数式（１７）は、このトーン成分抽出フィルタＨ(n,k)を表している。

ただし、ｋTはトーン成分が検出された周波数であり、Δｋは所定の周波数幅である。ここで、上述したように時間周波数信号Ｆ(n,k)を得るための短時間フーリエ変換（数式（１）参照）における窓関数Ｗ(t)のサイズがＭであるとき、Δｋは２／Ｍとされることが望ましい。

トーン強度特徴量計算部２２３は、続いて、このトーン成分抽出フィルタＨ(n,k)を、元の時間周波数信号時間周波数信号Ｆ(n,k)に乗算して、図５（ｄ）に示すように、トーン成分のみを残したスペクトル（トーン成分スペクトル）ＦT(n,k)を得る。以下の数式（１８）は、このトーン成分スペクトルＦT(n,k)を表している。

トーン強度特徴量計算部２２３は、最後に、所定の周波数範囲（下限ＫL 、上限ＫH）ついて総和をとり、以下の数式（１９）で表される、対象フレームｎにおけるトーン成分強度Ａtone(n)を求める。

そして、トーン強度特徴量計算部２２３は、以下の数式（２０）に示すように、トーン成分強度Ａtone(n)をトーン強度特徴量ｘ2(n)とする。

スペクトル概形特徴量計算部２２４は、スペクトル概形特徴量ｘ3(n)，ｘ4(n)，ｘ5(n)，ｘ6(n)を、以下の数式（２１）に示すように、求める。ただし、Ｌは、特徴量の次元数であり、ここでは、Ｌ＝７の場合を示している。

このスペクトル概形特徴量は、対数スペクトルを離散コサイン変換により展開した低次ケプストラムである。ここでは、４次までを示したが、より高次の係数まで使用してもよい。また、いわゆるＭＦＣＣ（Mel-Frequency Cepstral Coefficients）のように、周波数軸を歪曲させてから離散コサイン変換を施したものを用いてもよい。

上述の振幅特徴量ｘ0(n)，ｘ1(n)、トーン強度特徴量ｘ2(n)、スペクトル概形特徴量ｘ3(n)，ｘ4(n)，ｘ5(n)，ｘ6(n)は、フレームｎにおけるＬ次元（ここでは７次元）の特徴量ベクトルｘ(n)を構成する。因みに、「音の大きさ、音の高さ、音色」を音の三要素と言い、音の性質を表す基本的な属性である。特徴量ベクトルｘ(n)は、振幅（音の大きさに関係）、トーン成分強度（音の高さに関係）、スペクトル概形（音色の関係）により構成されることで、音の三要素の全てに関する特徴量を構成している。

スコア計算部２２５は、特徴量ベクトルｘ(n)の要素を合成し、フレームｎが実際に登録すべき有意な音（被検出音）のある音区間であるかどうかを、０から１の間のスコアＳ(n)で表現する。このは、例えば、以下の数式（２２）により求められる。ただし、Sigm()はシグモイド関数であり、ｕi，ｖi，ｗi（ｉ＝０，・・・,Ｌ−１）はサンプルデータより経験的に決める定数である。

時間平滑化部２２６は、スコア計算部２２５で求められたスコアＳ(n)を時間方向に平滑化する。この平滑化の処理では、単純に移動平均をとってもよいし、例えばメジアンフィルタのように中央値を取るようなフィルタを用いてもよい。以下の数式（２３）は、平滑化スコアＳa(n)を、平均処理で得る例を示している。ただし、Δｎは、フィルタのサイズであり、経験的に決める定数である。

閾値判定部２２７は、時間平滑化部２２６で得られた各フレームｎの平滑化スコアＳa(n)を閾値と比較し、閾値以上となるフレーム区間を音区間と判定し、そのフレーム区間を示す音区間情報を出力する。

図４に示す音区間検出部２０２の動作を説明する。登録すべき被検出音（家電で発せられる動作状況音）をマイクロフォン２０１で録音して得られる時間信号ｆ(t)は、時間周波数変換部２２１に供給される。この時間周波数変換部２２１では、入力時間信号ｆ(t)が時間周波数変換されて、時間周波数信号Ｆ(n,k)が得られる。この時間周波数信号Ｆ(n,k)は、振幅特徴量計算部２２２、トーン強度特徴量計算部２２３およびスペクトル概形特徴量計算部２２４に供給される。

振幅特徴量計算部２２２では、時間周波数信号Ｆ(n,k)より、振幅特徴量ｘ0(n)，ｘ1(n)が計算される（数式（５）参照）。また、トーン強度特徴量計算部２２３では、時間周波数信号Ｆ(n,k)より、トーン強度特徴量ｘ2(n)が計算される（数式（２０）参照）。さらに、スペクトル概形特徴量計算部２２４では、スペクトル概形特徴量ｘ3(n)，ｘ4(n)，ｘ5(n)，ｘ6(n)が計算される（数式（２１）参照）。

振幅特徴量ｘ0(n)，ｘ1(n)、トーン強度特徴量ｘ2(n)、スペクトル概形特徴量ｘ3(n)，ｘ4(n)，ｘ5(n)，ｘ6(n)は、フレームｎにおけるＬ次元（ここでは７次元）の特徴量ベクトｘ(n)として、スコア計算部２２５に供給される。スコア計算部２２５では、特徴量ベクトルｘ(n)の要素が合成されて、フレームｎが実際に登録すべき有意な音（被検出音）のある音区間であるかどうかを表現する、０から１の間のスコアＳ(n)が計算される（数式（２２）参照）。このスコアＳ(n)は、時間平滑化部２２６に供給される。

時間平滑化部２２６では、スコアＳ(n)が時間方向に平滑化され（数式（２３）参照）、平滑化スコアＳa(n)は閾値判定部２２７に供給される。閾値判定部２２７では、各フレームｎの平滑化スコアＳa(n)が閾値と比較され、閾値以上となるフレーム区間が音区間と判定され、そのフレーム区間を示す音区間情報が出力される。

図４に示す音区間検出部２０２は、入力時間信号ｆ(t)の時間周波数分布Ｆ(n,k)より時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出し、この特徴量から時間フレーム毎の、音区間らしさを示すスコアＳ(n)を得るものである。そのため、登録すべき検出音がノイズ環境下で録音される場合であっても、この検出音の区間を示す音区間情報を精度よく得ることができる。

「特徴量抽出部」
図１２は、特徴量抽出部２０３の構成例を示している。この特徴量抽出部２０３の入力は、登録すべき被検出音（家電で発せられる動作状況音）をマイクロフォン２０１で録音して得られる時間信号ｆ(t)であり、図３示すように、前後にノイズ区間も含まれる。また、この特徴量抽出部２０３の出力は、登録すべき被検出音の区間で所定時間毎に抽出された特徴量の列である。

この特徴量抽出部２０３は、時間周波数変換部２４１と、トーン尤度分布検出部２４２と、時間周波数平滑化部２４３と、間引き・量子化部２４４を有している。時間周波数変換部２４１は、上述の音区間検出部２０２の時間周波数変換部２２１と同様に、入力時間信号ｆ(t)を時間周波数変換して、時間周波数信号Ｆ(n,k)を得る。なお、特徴量抽出部２０３は、音区間検出部２０２の時間周波数変換部２２１で得られた時間周波数信号Ｆ(n,k)を利用してもよく、その場合には、この時間周波数変換部２４１を不要とできる。

トーン尤度分布検出部２４２は、音区間検出部２０２からの音区間情報に基づいて、音区間のトーン尤度分布を検出する。すなわち、トーン尤度分布検出部２４２は、まず、上述した音区間検出部２０２のトーン強度特徴量計算部２２３におけると同様にして、時間周波数信号Ｆ(n,k)の分布（図５（ａ）参照）を、トーン性らしさのスコアＳ(n,k)の分布（図５（ｂ）参照）に変換する。

トーン尤度分布検出部２４２は、続いて、音区間情報を用いて、以下の数式（２４）に示すように、登録すべき有意な音（被検出音）のある音区間のトーン尤度分布Ｙ(n,k)を求める。

時間周波数平滑化部２４３は、トーン尤度分布検出部２４２で求められた音区間のトーン尤度分布Ｙ(n,k)を、時間方向および周波数方向に平滑化し、以下の数式（２５）に示すように、平滑化されたトーン尤度分布Ｙa(n,k)を得る。

ただし、Δk は平滑化フィルタの周波数方向の片側サイズ、Δn は時間方向の片側サイズ、Ｈ(n,k)は平滑化フィルタの２次元インパルス応答である。なお、上述では表記を簡単にするため、周波数方向に歪みのないフィルタを用いて説明した。しかし、例えば、メル周波数のように、周波数軸を歪曲するフィルタを用いて平滑化を行ってもよい。

間引き・量子化部３４４は、時間周波数平滑化部２４３で得られた平滑化されたトーン尤度分布Ｙa(n,k)を間引きし、さらに、量子化して、以下の数式（２６）に示すように、登録すべき有意な音（被検出音）の特徴量Ｚ(m,l)を生成する。

ただし、Ｔは時間方向の離散化ステップ、Ｋは周波数方向の離散化ステップ、ｍは間引きされた離散時間、ｌは間引きされた離散周波数である。また、Ｍは時間方向のフレーム数（＝登録すべき有意な音（被検出音）の時間長に相当する）、Ｌは周波数方向の次元数、Quant[]は量子化の関数である。

上述の特徴量ｚ(m,l)は、周波数方向にまとめて、以下の数式（２７）に示すように、ベクトル表記して、Ｚ(m)で表すことができる。

この場合、上述の特徴量Ｚ(m,l)は、時間方向にＴ毎に抽出されたＭ個のベクトルＺ(0)，・・・，Ｚ(M-1)，Ｚ(M)により構成されていることになる。したがって、間引き・量子化部２４４からは、登録すべき被検出音の区間で所定時間毎に抽出された特徴量（ベクトル）の列Ｚ(m)が得られる。

なお、時間周波数平滑化部２４３で得られた平滑化されたトーン尤度分布Ｙa(n,k)をそのまま特徴量抽出部２０３の出力、つまり特徴量列として用いることも考えられる。しかし、平滑化されているので全ての時間、周波数のデータを持っている必要はない。時間方向および周波数方向に間引きすることで、情報量を減らすことができる。また、量子化により、例えば、８ビットや１６ビットのデータを２ビットや３ビットのデータに変換できる。このように間引きおよび量子化が行われることで、特徴量（ベクトル）列Ｚ(m)の情報量を低減でき、後述する音検出装置１００におけるマッチング計算の処理負荷を軽減することが可能となる。

図１２に示す特徴量抽出部２０３の動作を説明する。登録すべき被検出音（家電で発せられる動作状況音）をマイクロフォン２０１で録音して得られる時間信号ｆ(t)は、時間周波数変換部２４１に供給される。この時間周波数変換部２４１では、入力時間信号ｆ(t)が時間周波数変換されて、時間周波数信号Ｆ(n,k)が得られる。この時間周波数信号Ｆ(n,k)は、トーン尤度分布検出部２４２に供給される。また、このトーン尤度分布検出部２４２には、音区間検出２０２で得られた音区間情報も供給される。

このトーン尤度分布検出部２４２では、時間周波数信号Ｆ(n,k)の分布がトーン性らしさのスコアＳ(n,k)の分布に変換され、さらに、音区間情報が用いられて、登録すべき有意な音（被検出音）のある音区間のトーン尤度分布Ｙ(n,k)が求められる（数式（２４）参照）。このトーン尤度分布Ｙ(n,k)は、時間周波数平滑化部２４３に供給される。

時間周波数平滑化部２４３では、トーン尤度分布Ｙ(n,k)が時間方向および周波数方向に平滑化され、平滑化されたトーン尤度分布Ｙa(n,k)が得られる（数式（２５）参照）。このトーン尤度分布Ｙa(n,k)は間引き・量子化部２４４に供給される。間引き・量子化部２４４では、トーン尤度分布Ｙa(n,k)が間引きされ、さらに、量子化されて、登録すべき有意な音（被検出音）の特徴量ｚ(m,l)、従って特徴量列Ｚ(m)が得られる（数式（２６）、数式（２７）参照）。

図２に戻って、特徴量登録部２０４は、特徴量登録部２０４で生成された登録すべき被検出音の特徴量列Ｚ(m)を、被検出音名（動作状況音の情報）と対応付けて、特徴量データベース１０３に登録する。

図２に示す特徴登録装置２００の動作を説明する。マイクロフォン２０１では、被検出音として登録すべき家電の動作状況音が集音される。このマイクロフォン２０１から出力される時間信号ｆ(t)は、音区間検出部２０２および特徴量抽出部２０３に供給される。音区間検出部２０２では、入力時間信号ｆ(t)から、音区間、すなわち家電から発せられる動作状況音の区間が検出されて、音区間情報が出力される。この音区間情報は特徴量抽出部２０３に供給される。

特徴量抽出部２０３では、入力時間信号ｆ(t)が時間フレーム毎に時間周波数変換されて時間周波数信号Ｆ(n,k)の分布が得られ、さらに、この時間周波数分布からトーンらしさの尤度分布、つまりスコアＳ(n,k)の分布が求められる。そして、特徴量抽出部２０３では、音区間情報に基づいて、スコアＳ(n,k)の分布から音区間のトーン尤度分布Ｙ(n,k)が得られ、それが時間方向および周波数方向に平滑化され、さらに、間引き・量子化の処理が施されて、特徴量列Ｚ(m)が生成される。

特徴量抽出部２０３で生成された、登録すべき被検出音（家電の動作状況音）の特徴量列Ｚ(m)は、特徴量登録部２０４に供給される。特徴量登録部２０４では、特徴量列Ｚ(m)を、その被検出音名（動作状況音の情報）に対応付けて、特徴量データベース１０３に登録することが行われる。以下では、Ｉ個の被検出音が登録されたものとし、それらの特徴量列をＺ1(m)，Ｚ2(m)，・・・，Ｚi(m)，・・・，ＺI(m)と表記し、また、各特徴量列の時間フレーム数（時間方向に並ぶベクトルの個数）をＭ1，Ｍ2，・・・，Ｍi，・・・，ＭIと記述する。

「音検出部」
図１３は、音検出部１０２の構成例を示している。この音検出部１０２は、信号バッファ部１２１と、特徴量抽出部１２２と、特徴量バッファ部１２３と、比較部１２４を有している。信号バッファ部１２１は、マイクロフォン１０１で集音されて得られる時間信号ｆ(t)の信号サンプルを所定数バッファリングする。所定数とは、特徴量抽出部１２２が新たに１フレーム分の特徴量列を計算できるだけのサンプル数である。

特徴量抽出部１２２は、信号バッファ部１２１にバッファリングされた時間信号ｆ(t)の信号サンプルに基づいて、所定時間毎の特徴量を抽出する。詳細説明は省略するが、この特徴量抽出部２０３は、上述した特徴登録装置２００の特徴量抽出部２０３（図１２参照）と同様に構成される。

ただし、特徴量抽出部１２２においては、トーン尤度分布検出部２４２は全区間のトーン尤度分布Ｙ(n,k)を求める。つまり、トーン尤度分布検出部２４２は、時間周波数信号Ｆ(n,k)の分布から得られたスコアＳ(n,k)の分布をそのまま出力する。そして、間引き・量子化部２４４は、入力時間信号ｆ(t)の全区間において、Ｔ（時間方向の離散化ステップ）毎に、新たに抽出された特徴量（ベクトル）Ｘ(n)を出力する。ここで、ｎは現在抽出された特徴量のフレーム番号（現在の離散時間に相当する）である。

特徴量バッファ部１２３は、特徴量抽出部１２２から出力される特徴量（ベクトル）Ｘ(n)を、図１４に示すように、最新からＮ個保存する。ここで、Ｎは、少なくとも、特徴量データベース１０３に登録（保持）されている特徴量列Ｚ1(m)，Ｚ2(m)，・・・，Ｚi(m)，・・・，ＺI(m)のうち、最も長い特徴量列のフレーム数（時間方向に並ぶベクトルの個数）と同じかそれ以上の数である。

比較部１２４は、特徴量抽出部１２２で新たな特徴量Ｘ(n)が抽出される毎に、信号バッファ部１２３に保存されている特徴量の列を、特徴量データベース１０３に登録されているＩ個の被検出音の特徴量列と順次比較し、Ｉ個の被検出音の検出結果を得る。ここで、ｉを被検出音の番号とすると、被検出音の長さ（フレーム数Ｍi）はそれぞれの被検出音で異なる。

比較部１２４は、図１４に示すように、特徴量バッファ部１２３の最新フレームｎに、被検出音の特徴量列の最終フレームＺi（Ｍi−１）を合わせ、特徴量バッファ部１２３に保存されているＮ個の特徴量のうち、被検出音の特徴量列の長さ分のフレームを用いて類似度を算出する。この類似度Ｓim(n,i)は、例えば、以下の数式（２８）で示すように、特徴量間の相関演算により計算できる。ただし、Ｓim(n,i)は、第ｎフレームにおける第ｉ番目の被検出音の特徴量列との間の類似度を意味する。比較部１２４は、類似度が所定の閾値より大きい場合には、「時刻ｎにおいて第ｉ番目の被検出音が鳴っている」と判定し、その判定結果を出力する。

図１３に示す音検出部１０２の動作を説明する。マイクロフォン１０１で集音されて得られる時間信号ｆ(t)は信号バッファ部１２１に供給され、その信号サンプルが所定数バッファリングされる。特徴量抽出部１２２では、信号バッファ部１２１にバッファリングされた時間信号ｆ(t)の信号サンプルに基づいて、所定時間毎に特徴量が抽出される。そして、この特徴量抽出部１２２からは、Ｔ（時間方向の離散化ステップ）毎に、新たに抽出された特徴量（ベクトル）Ｘ(n)が順次出力される。

特徴量バッファ部１２３には、特徴量抽出部１２２で抽出された特徴量Ｘ(n)が供給され、最新からＮ個保存される。比較部１２４では、特徴量抽出部１２２で新たな特徴量Ｘ(n)が抽出される毎に、信号バッファ部１２３に保存されている特徴量の列が、特徴量データベース１０３に登録されているＩ個の被検出音の特徴量列と順次順次比較され、Ｉ個の被検出音の検出結果が得られる。

この場合、比較部１２４では、特徴量バッファ部１２３の最新フレームｎに、被検出音の特徴量列の最終フレームＺi（Ｍi−１）を合わせ、被検出音の特徴量列の長さ分のフレームが用いられて類似度が算出される（図１４参照）。そして、比較部１２４では、類似度が所定の閾値より大きい場合には、「時刻ｎにおいて第ｉ番目の被検出音が鳴っている」と判定され、その判定結果が出力される。

なお、図１に示す音検出装置１００は、ハードウェアで構成できる他、ソフトウェアで構成することもできる。例えば、図１５に示すコンピュータ装置３００に、図１に示す音検出装置１００の一部または全部の機能を持たせ、上述したと同様の被検出音の検出処理を行わせることができる。

コンピュータ装置３００は、ＣＰＵ(Central Processing Unit)３０１、ＲＯＭ(Read OnlyMemory)３０２、ＲＡＭ(Random Access Memory)３０３、データ入出力部（データＩ／Ｏ）３０４およびＨＤＤ（Hard Disk Drive）３０５により構成されている。ＲＯＭ３０２には、ＣＰＵ３０１の処理プログラムなどが格納されている。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして機能する。ＣＰＵ３０１は、ＲＯＭ３０２に格納されている処理プログラムを必要に応じて読み出し、読み出した処理プログラムをＲＡＭ３０３に転送して展開し、当該展開された処理プログラムを読み出して、トーン成分検出処理を実行する。

このコンピュータ装置３００においては、入力時間信号ｆ(t)は、データＩ／Ｏ３０４を介して入力され、ＨＤＤ３０５に蓄積される。このようにＨＤＤ３０５に蓄積される入力時間信号ｆ(t)に対して、ＣＰＵ３０１により、被検出音の検出処理が行われる。そして、検出結果がデータＩ／Ｏ３０４を介して外部に出力される。なお、ＨＤＤ３０５には、Ｉ個の被検出音の特徴量列が予め登録されて保持されている。

図１６のフローチャートは、ＣＰＵ３０１による被検出音の検出処理の手順の一例を示している。ＣＰＵ３０１は、ステップＳＴ２１において、処理を開始し、その後、ステップＳＴ２２の処理に移る。このステップＳＴ２２において、ＣＰＵ１８１は、入力時間信号ｆ(t)を、例えばＨＤＤ３０５に構成される信号バッファ部に入力する。そして、ＣＰＵ３０１は、ステップＳＴ２３において、１フレーム分の特徴量列を計算できるだけのサンプル数が溜まったか否かを判断する。

１フレーム分のサンプル数が溜まったとき、ＣＰＵ３０１は、ステップＳＴ２４において、特徴量Ｘ(n)を抽出する処理を行う。ＣＰＵ３０１は、ステップＳＴ２５において、抽出された特徴量Ｘ(n)を、例えばＨＤＤ３０５に構成される特徴量バッファ部に入力する。そして、ＣＰＵ３０１は、ステップＳＴ２６において、被検出音番号ｉが０にセットされる。

次に、ＣＰＵ３０１は、ステップＳＴ２７において、ｉ＜Ｉであるか否かを判定する。ｉ＜Ｉであるとき、ＣＰＵ３０１は、ステップＳＴ２８において、信号バッファ部に保存されている特徴量の列とＨＤＤ３０５に登録されているｉ番目の被検出音の特徴量列Ｚi(m)との間の類似度を算出する。そして、ＣＰＵ３０１は、ステップＳＴ２９において、類似度＞閾値を満足するか否かを判定する。

類似度＞閾値を満足するとき、ＣＰＵ３０１は、ステップＳＴ３０において、一致結果を出力する。すなわち、「時刻ｎにおいて第ｉ番目の被検出音が鳴っている」との判定結果を、検出出力として出力する。その後、ＣＰＵ３０１は、ステップＳＴ３１において、ｉをインクリメントし、ステップＳＴ２７の処理に戻る。なお、ステップＳＴ２９において、類似度＞閾値を満足しないとき、ＣＰＵ３０１は、直ちに、ステップＳＴ３１において、ｉをインクリメントし、ステップＳＴ２７の処理に戻る。また、ステップＳＴ２７でｉ＞Ｉでないとき、現在のフレームの処理を終了したものと判断し、ステップＳＴ２２の処理に戻り、次のフレームの処理に移る。

次に、ＣＰＵ１８１は、ステップＳＴ３において、フレーム（時間フレーム）の番号ｎを０に設定する。そして、ＣＰＵ１８１は、ステップＳＴ４において、ｎ＜Ｎであるか否かを判断する。なお、スペクトログラム（時間周波数分布）のフレームは０からＮ−１まで存在するものとする。ｎ＜Ｎでないとき、ＣＰＵ１８１は、全てのフレームの処理が終了したものと判断し、ステップＳＴ５において、処理を終了する。

ｎ＜Ｎであるとき、ＣＰＵ１８１は、ステップＳＴ６において、離散周波数ｋを０に設定する。そして、ＣＰＵ１８１は、ステップＳＴ７において、ｋ＜Ｋであるか否かを判断する。なお、スペクトログラム（時間周波数分布）の離散周波数ｋは０からＫ−１まで存在するものとする。ｋ＜Ｋでないとき、ＣＰＵ１８１は、全ての離散周波数の処理が終了したものと判断し、ステップＳＴ８において、ｎをインクリメントし、その後に、ステップＳＴ４に戻り、次のフレームの処理に移る。

ステップＳＴ７でｋ＜Ｋであるとき、ＣＰＵ１８１は、ステップＳＴ９において、Ｆ(n,k)がピークであるか否かを判断する。ピークでないとき、ＣＰＵ１８１は、ステップＳＴ１０において、スコアＳ(n,k)を０とし、ステップＳＴ１１において、ｋをインクリメントし、その後に、ステップＳＴ７に戻り、次の離散周波数の処理に移る。

ステップＳＴ９でピークであるとき、ＣＰＵ１８１は、ステップＳＴ１２の処理に移る。このステップＳＴ１２において、ＣＰＵ１８１は、そのピークの近傍領域においてトーンモデルをフィッティングする。そして、ＣＰＵ１８１は、ステップＳＴ１３において、フィッティング結果に基づいて、種々の特徴量（ｘ0，ｘ1，ｘ2，ｘ3，ｘ4，ｘ5）を抽出する。

次に、ＣＰＵ１８１は、ステップＳＴ１４において、ステップＳＴ１３で抽出された特徴量を用いて、そのピークのトーン成分らしさを示す、０から１の間の値をとるスコアＳ(n,k)を求める。ＣＰＵ１８１は、このステップＳＴ１４の処理の後、ステップＳＴ１１において、ｋをインクリメントし、その後に、ステップＳＴ７に戻り、次の離散周波数の処理に移る。

上述したように、図１に示す音検出装置１００においては、マイクロフォン１０１で集音されて得られる入力時間信号ｆ(t)の時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化したものから所定時間毎の特徴量を抽出して用いるものである。従って、被検出音（家庭用電化製品から発せられる動作状況音など）の検出を、マイクロフォン１０１の設置位置などに依らずに、精度よく行うことができる。

また、図１に示す音検出装置１００においては、音検出部１０２で得られた被検出音の検出結果を、時刻と共に記録媒体に記録し、また、ディスプレイに表示するものである。従って、家庭内における家電等の動作状況を自動的に記録でき、自らの行動履歴（いわゆるライフログ）の取得が可能になる。また、聴覚障害者などに、音による通知を自動的に視覚化することが可能になる。

＜２．変形例＞
なお、上述実施の形態においては、家庭内において、家電から発せられる動作状況音（操作音、通知音、動作音、警報音など）を検出する例を示した。しかし、本技術は、家庭内の用途に限らず、生産工場などで製造された製品の音機能に関する検査の自動化にも用いることができる。また、動作状況音の検出だけに限られるものではなく、特定の人や動物の音声、さらにはその他の環境音の検出にも、本技術を適用できることは勿論である。

また、上述実施の形態においては、短時間フーリエ変換により時間周波数変換を行うように説明したが、ウェーブレット変換など、その他の変換手法を使用して、入力時間信号を時間周波数変換することも考えられる。また、上述実施の形態においては、検出された各ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィッティングを行うように説明したが、４乗誤差最小基準やエントロピー最小基準などによりフィッティングを行うことも考えられる。

また、本技術は、以下のような構成を取ることもできる。
（１）入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出部と、
所定数の被検出音の特徴量列を保持する特徴量保持部と、
上記特徴量抽出部で新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、上記保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較部とを備え、
上記特徴量抽出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部とを有し、
上記求められた尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出装置。
（２）上記尤度分布検出部は、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
前記（１）に記載の音検出装置。
（３）上記特徴量抽出部は、
上記平滑化された尤度分布を周波数方向および／または時間方向に間引く間引き部をさらに備える
前記（１）または（２）に記載の音検出装置。
（４）上記特徴量抽出部は、
上記平滑化された尤度分布を量子化する量子化部をさらに備える
前記（１）または（２）に記載の音検出装置。
（５）上記比較部は、
上記所定数の被検出音のそれぞれについて、上記保持されている被検出音の特徴量列と上記特徴量抽出部で抽出された特徴量列との間の対応する特徴量間の相関演算で類似度を求め、該求められた類似度に基づいて上記被検出音の検出結果を得る
前記（１）から（４）のいずれかに記載の音検出装置。
（６）上記所定数の被検出音の検出結果を時刻情報と共に記録媒体に記録する記録制御部をさらに備える
前記（１）から（５）のいずれかに記載の音検出装置。
（７）入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
上記特徴量抽出ステップでは、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出方法。
（８）コンピュータに、
入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
上記特徴量抽出ステップでは、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出方法を実行させるためのプログラム。
（９）入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する特徴量抽出部とを備える
音特徴量抽出装置。
（１０）上記尤度分布検出部は、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
前記（９）に記載の音特徴量抽出装置。
（１１）上記平滑化された尤度分布を周波数方向および／または時間方向に間引く間引き部をさらに備える
前記（９）または（１０）に記載の音特徴量抽出装置。
（１２）上記平滑化された尤度分布を量子化する量子化部をさらに備える
前記（９）または（１０）に記載の音特徴量抽出装置。
（１３）上記入力時間信号に基づいて音区間を検出する音区間検出部をさらに備え、
上記尤度分布検出部は、
上記検出された音区間の範囲で上記時間周波数分布よりトーンらしさの尤度分布を求める
前記（９）から（１２）のいずれかに記載の音特徴量抽出装置。
（１４）上記音区間検出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部と、
上記得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、
上記平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とを有する
前記（１３）に記載の音特徴量抽出装置。
（１５）入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出ステップと、
上記尤度分布を周波数方向および時間方向に平滑化する平滑化ステップとを備える
音特徴量抽出方法。
（１６）入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部とを備える
音区間検出装置。
（１７）上記得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、
上記平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とをさらに備える
前記（１６）に記載の音区間検出装置。
（１８）入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出ステップと、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化ステップとを備える
音区間検出方法。

１００・・・音検出装置
１０１・・・マイクロフォン
１０２・・・音検出部
１０３・・・特徴量データベース
１０４・・・記録・表示部
１２１・・・信号バッファ部
１２２・・・特徴量抽出部
１２３・・・特徴量バッファ部
１２４・・・比較部
２００・・・特徴量登録装置
２０１・・・マイクロフォン
２０２・・・音区間検出部
２０３・・・特徴量抽出部
２０４・・・特徴量登録部
２２１・・・時間周波数変換部
２２２・・・振幅特徴量計算部
２２３・・・トーン強度特徴量計算部
２２４・・・スペクトル概形特徴量計算部
２２５・・・スコア計算部
２２６・・・時間平滑化部
２２７・・・閾値判定部
２３０・・・トーン尤度分布検出部
２３１・・・ピーク検出部
２３２・・・フィッティング部
２３３・・・特徴量抽出部
２３４・・・スコア化部
２４１・・・時間周波数変換部
２４２・・・トーン尤度分布検出部
２４３・・・時間周波数変換部
２４４・・・真引き・量子化部

Claims

入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出部と、
所定数の被検出音の特徴量列を保持する特徴量保持部と、
上記特徴量抽出部で新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、上記保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較部とを備え、
上記特徴量抽出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部とを有し、
上記求められた尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出装置。
上記尤度分布検出部は、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
請求項１に記載の音検出装置。
上記特徴量抽出部は、
上記平滑化された尤度分布を周波数方向および／または時間方向に間引く間引き部をさらに備える
請求項１または請求項２に記載の音検出装置。
上記特徴量抽出部は、
上記平滑化された尤度分布を量子化する量子化部をさらに備える
請求項１または請求項２に記載の音検出装置。
上記比較部は、
上記所定数の被検出音のそれぞれについて、上記保持されている被検出音の特徴量列と上記特徴量抽出部で抽出された特徴量列との間の対応する特徴量間の相関演算で類似度を求め、該求められた類似度に基づいて上記被検出音の検出結果を得る
請求項１から請求項４のいずれかに記載の音検出装置。
上記所定数の被検出音の検出結果を時刻情報と共に記録媒体に記録する記録制御部をさらに備える
請求項１から請求項５のいずれかに記載の音検出装置。
入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
上記特徴量抽出ステップでは、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出方法。
コンピュータに、
入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
上記特徴量抽出ステップでは、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出方法を実行させるためのプログラム。
入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る第１の時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する第１の特徴量抽出部とを備える
音特徴量抽出装置。
上記尤度分布検出部は、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
請求項９に記載の音特徴量抽出装置。
上記平滑化された尤度分布を周波数方向および／または時間方向に間引く間引き部をさらに備える
請求項９または請求項１０に記載の音特徴量抽出装置。
上記平滑化された尤度分布を量子化する量子化部をさらに備える
請求項９または請求項１０に記載の音特徴量抽出装置。
上記入力時間信号に基づいて音区間を検出する音区間検出部をさらに備え、
上記尤度分布検出部は、
上記検出された音区間の範囲で上記時間周波数分布よりトーンらしさの尤度分布を求める
請求項９から請求項１２のいずれかに記載の音特徴量抽出装置。
上記音区間検出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る第２の時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する第２の特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部と、
上記得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、
上記平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とを有する
請求項１３に記載の音特徴量抽出装置。
入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出ステップと、
上記尤度分布を周波数方向および時間方向に平滑化する平滑化ステップとを備える
音特徴量抽出方法。