JP5998603B2 - 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム - Google Patents

音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム Download PDF

Info

Publication number
JP5998603B2
JP5998603B2 JP2012094395A JP2012094395A JP5998603B2 JP 5998603 B2 JP5998603 B2 JP 5998603B2 JP 2012094395 A JP2012094395 A JP 2012094395A JP 2012094395 A JP2012094395 A JP 2012094395A JP 5998603 B2 JP5998603 B2 JP 5998603B2
Authority
JP
Japan
Prior art keywords
time
sound
unit
frequency
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012094395A
Other languages
English (en)
Other versions
JP2013222113A (ja
JP2013222113A5 (ja
Inventor
安部 素嗣
素嗣 安部
西口 正之
正之 西口
倉田 宜典
宜典 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012094395A priority Critical patent/JP5998603B2/ja
Priority to IN8472DEN2014 priority patent/IN2014DN08472A/en
Priority to PCT/JP2013/002581 priority patent/WO2013157254A1/en
Priority to US14/385,856 priority patent/US20150043737A1/en
Priority to CN201380019489.0A priority patent/CN104221018A/zh
Publication of JP2013222113A publication Critical patent/JP2013222113A/ja
Publication of JP2013222113A5 publication Critical patent/JP2013222113A5/ja
Application granted granted Critical
Publication of JP5998603B2 publication Critical patent/JP5998603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Description

本技術は、音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラムに関する。
近年、家電(家庭用電気機器)は、操作音、通知音、動作音、警報音など、動作状況に応じて様々な音(以下、「動作状況音」という)を発する。この動作状況音を、家庭内のどこかに設置したマイクロフォン等で観測し、いつどの家電がどのような動作をしているかを検出できれば、いわゆるライフログのような自身の行動履歴の自動収集、あるいは聴覚障害者などへの通知音の可視化、さらには、独居老人の行動見守りなど、様々な応用機能が実現できる。
動作状況音は、単純なブザー音、ビープ音の場合や、音楽、音声などの場合もあり、その継続時間長は、短いものでは300ms程度から、長いものでは数十秒程度である。これらが、家電に装備された圧電ブザーや薄型スピーカなど、あまり音質の良くない再生デバイスを通じて再生され、空間に伝播される。
例えば、特許文献1には、楽曲の一部断片データを時間周波数分布に変換して特徴量を抽出し、その特徴量を既に登録されている楽曲の特徴量と比較し、楽曲名を同定する技術が記載されている。
特許第4788810号公報
特許文献1に記載されると同様の技術を、上述の動作状況音の検出に適用することも考えられる。しかし、家電から発せられる動作状況音に関しては、以下のような、その検出の妨げとなる事項が存在する。
(1)数百ミリ秒などの短い動作状況音も認識しなくてはならない。
(2)再生デバイスの質が悪いため、音が割れていたり、共振が発生して周波数特性が極端に歪んでいたりすることがある。
(3)空間伝播により、家庭電化製品自体が発した音と比べて振幅・位相周波数特性が歪むことがある。例えば、図17(a)は、家庭電化製品に近い位置で録音した動作状況音の波形例を示している。これに対して、図17(b)は、家庭電化製品から遠い位置で録音した動作状況音の波形例を示しているが、歪んだものとなっている。
(4)空間伝播により、比較的大きな雑音、テレビの出力音、会話音などの非定常な雑音が重畳されることがある。例えば、図17(c)は、雑音原であるテレビの近い位置で録音した動作状況音の波形例を示しているが、動作状況音は雑音に埋もれてしまっている。
(5)家庭電化製品毎の音の大きさやマイクロフォンまでの距離がそれぞれの家電に依存するため、録音される音の音量がまちまちになる。
本技術の目的は、家電から発生される動作状況音等の被検出音の良好な検出を可能することにある。
本技術の概念は、
入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出部と、
所定数の被検出音の特徴量列を保持する特徴量保持部と、
上記特徴量抽出部で新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、上記保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較部とを備え、
上記特徴量抽出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化する平滑化部とを有し、
上記平滑化された尤度分布から上記所定時間毎の特徴量を抽出する
音検出装置にある。
本技術において、特徴量抽出部により、入力時間信号から所定時間毎の特徴量が抽出される。この場合、特徴量抽出部では、入力時間信号が時間フレーム毎に時間周波数変換されて時間周波数分布が得られ、この時間周波数分布よりトーンらしさの尤度分布が求められ、この尤度分布が周波数方向および時間方向に平滑化され、この平滑化された尤度分布から所定時間毎の特徴量が抽出される。
例えば、尤度分布検出部は、時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、この検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、このフィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える、ようにされてもよい。
特徴量保持部には、所定数の被検出音の特徴量列が保持されている。この被検出音には、家庭電化製品から発せられる動作状況音(操作音、通知音、動作音、警報音など)の他に、人や動物の声音などを含めることができる。比較部により、特徴量抽出部で新たに特徴量が抽出される毎に、この特徴量抽出部で抽出された特徴量の列が、保持されている所定数の被検出音の特徴量列とそれぞれ比較されて、この所定数の被検出音の検出結果が得られる。
例えば、比較部は、所定数の被検出音のそれぞれについて、保持されている被検出音の特徴量列と特徴量抽出部で抽出された特徴量列との間の対応する特徴量間の相関演算で類似度を求め、この求められた類似度に基づいて被検出音の検出結果を得る、ようにされてもよい。
このように本技術においては、入力時間信号の時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化したものから所定時間毎の特徴量を抽出して用いるものであり、被検出音(家庭用電化製品から発せられる動作状況音など)の検出を、マイクロフォンの設置位置などに依らずに、精度よく行うことが可能となる。
なお、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を周波数方向および/または時間方向に間引く間引き部をさらに備える、ようにされてもよい。また、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を量子化する量子化部をさらに備える、ようにされてもよい。この場合、特徴量列のデータ量を低減でき、比較演算の負荷を軽減可能となる。
また、本技術において、例えば、所定数の被検出音の検出結果を時刻情報と共に記録媒体に記録する記録制御部をさらに備える、ようにされてもよい。この場合、例えば、家庭用電化製品の動作履歴など、従って家庭内におけるユーザの行動履歴の取得が可能となる。
また、本技術の他の概念は、
入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する特徴量抽出部とを備える
音特徴量抽出装置にある。
本技術において、時間周波数変換部により、入力時間信号が時間フレーム毎に時間周波数変換されて時間周波数分布が得られる。尤度分布検出部により、この時間周波数分布よりトーンらしさの尤度分布が求められる。例えば、尤度分布検出部は、時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、この検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、このフィッティング結果に基づき、検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える、ようにされてもよい。そして、特徴量抽出部により、尤度分布が周波数方向および時間方向に平滑化されて所定時間毎の特徴量が抽出される。
このように本技術においては、入力時間信号の時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化したものから所定時間毎の特徴量を抽出するものであり、入力時間信号に含まれる音の特徴量を良好に抽出できる。
なお、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を周波数方向および/または時間方向に間引く間引き部をさらに備える、ようにされてもよい。また、本技術において、例えば、特徴量抽出部は、平滑化された尤度分布を量子化する量子化部をさらに備える、ようにされてもよい。これにより、抽出される特徴量のデータ量の低減が可能となる。
また、本技術において、例えば、入力時間信号に基づいて音区間を検出する音区間検出部をさらに備え、尤度分布検出部は、検出された音区間の範囲で時間周波数分布よりトーンらしさの尤度分布を求める、ようにされてもよい。これにより、音区間に対応した特徴量を抽出することが可能となる。
この場合、音区間検出部は、入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、この時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、この抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部と、この得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、この平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とを有する、ようにされてもよい。
また、本技術の他の概念は、
入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部とを備える
音区間検出装置にある。
本技術において、時間周波数変換部により、入力時間信号が時間フレーム毎に時間周波数変換されて時間周波数分布が得られる。特徴量抽出部により、時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量が抽出される。そして、スコア化部により、抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアが得られる。なお、本技術において、例えば、得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、この平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とをさらに備える、ようにされてもよい。
このように本技術においては、入力時間信号の時間周波数分布より時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出し、この特徴量から時間フレーム毎の、音区間らしさを示すスコアを得るものであり、音区間情報を精度よく得ることができる。
本技術によれば、家庭電化製品から発せられる動作状況音等の被検出音の検出を良好に行うことができる。
実施の形態としての音検出装置の構成例を示すブロック図である。 特徴量登録装置の構成例を示すブロック図である。 音区間とその前後に存在するノイズ区間の一例を示す図である。 特徴量登録装置を構成する音区間検出部の構成例を示すブロック図である。 トーン強度特徴量計算部を説明するための図である。 トーン強度特徴量計算部に含まれるトーン性らしさのスコアS(n,k)の分布を得るためのトーン尤度分布検出部の構成例を示すブロック図である。 2次元多項式関数がトーン性のスペクトルピーク近傍ではよく当てはまるが、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらないという性質を説明するための模式図である。 トーン性ピークの時間方向への変化と、スペクトログラム上の小領域Г内でのフィッティングを模式的に示す図である。 トーン尤度分布検出部におけるトーン尤度分布検出の処理手順の一例を示すフローチャートである。 トーン成分検出結果の一例を示す図である。 音声のスペクトログラムの一例を示す図である。 特徴量抽出部の構成例を示すブロック図である。 音検出部の構成例を示すブロック図である。 音検出部の各部の動作を説明するための図である。 音検出処理をソフトウェアで行うコンピュータ装置の構成例を示すブロック図である。 CPUによる被検出音の検出処理の手順の一例を示すフローチャートである。 家庭電化製品自体が発した音の録音状態を説明するための図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
[音検出装置]
図1は、実施の形態としての音検出装置100の構成例を示している。この音検出部100は、マイクロフォン101と、音検出部102と、特徴量データベース103と、記録・表示部104を有している。
この音検出装置100は、家電から発せられる動作状況音(操作音、通知音、動作音、警報音など)を検出する音検出プロセスを実行し、検出結果の記録および表示を行う。すなわち、この音検出プロセスでは、マイクロフォン101で集音されて得られる時間信号f(t)から所定時間毎の特徴量が抽出され、特徴量データベースに登録されている所定数の被検出音の特徴量列と比較される。そして、この音検出プロセスでは、所定の被検出音の特徴量列と概ね一致するとの比較結果が得られた場合、その時刻とその所定の被検出音の名が記録および表示される。
マイクロフォン101は、室内の音を集音し、時間信号f(t)を出力する。この室内の音には、家電1〜家電Nから発せられる動作状況音(操作音、通知音、動作音、警報音など)も含まれる。音検出部102は、マイクロフォン101から出力される時間信号f(t)を入力とし、この時間信号から所定時間毎の特徴量を抽出する。この意味で、音検出部102は、特徴量抽出部を構成する。
特徴量保持部を構成する特徴量データベース103には、所定数の被検出音の特徴量列が、被検出音名と対応付けられて登録され保持されている。この実施の形態において、この所定数の被検出音は、例えば、家電1〜家電Nで発生される動作状況音の全部あるいは一部である。音検出部102は、新たな特徴量を抽出する毎に、抽出された特徴量の列を、特徴量データベース103に保持されている所定数の被検出音の特徴量列のそれぞれと比較して、所定数の被検出音の検出結果を得る。この意味で、音検出部102は、比較部を構成している。
記録・表示部104は、音検出部102における被検出音の検出結果を、時刻と共に記録媒体に記録し、また、ディスプレイに表示する。例えば、音検出部102における被検出音の検出結果が家電1の通知音Aが検出されたことを示している場合、記録・表示部104は、そのときの時刻と家電1の通知音Aが鳴った旨を、記録媒体に記録し、また、ディスプレイに表示する。
図1に示す音検出装置100の動作を説明する。マイクロフォン101では、室内の音が集音される。このマイクロフォン101から出力される時間信号は音検出部102に供給される。音検出部102では、この時間信号から所定時間毎の特徴量が抽出される。そして、この音検出部102では、新たな特徴量が抽出される毎に、抽出された特徴量の列が、特徴量データベース103に保持されている所定数の被検出音の特徴量列のそれぞれと比較され、所定数の被検出音の検出結果が得られる。この検出結果は、記録・表示部104に供給される。記録・表示部104では、その検出結果が、時刻と共に記録媒体に記録され、また、ディスプレイに表示される。
[特徴量登録装置]
図2は、特徴量データベース103に、被検出音の特徴量列を登録する特徴量登録装置200の構成例を示している。この特徴量登録装置200は、マイクロフォン201と、音区間検出部202と、特徴量抽出部203と、特徴量登録部204を有している。
この特徴量登録装置200は、音登録プロセス(音区間検出プロセスおよび音特徴抽出プロセス)を実行し、被検出音(家電から発せられる動作状況音)の特徴量列を特徴量データベース103に登録する。通例、マイクロフォン201で録音される登録すべき被検出音の前後にはノイズ区間が存在する。そのため、音区間検出プロセスでは、実際に登録すべき有意な音(被検出音)のある音区間が検出される。図3は、音区間とその前後に存在するノイズ区間の一例を示している。また、音特徴抽出プロセスでは、マイクロフォン201から得られるその音区間の時間信号f(t)から、被検出音の検出に有用な特徴量が抽出され、被検出音名と共に特徴量データベース103に登録される。
マイクロフォン201は、被検出音として登録すべき家電の動作状況音を集音する。音区間検出部202は、マイクロフォン201から出力される時間信号f(t)を入力とし、この時間信号f(t)から音区間、すなわち家電から発せられる動作状況音の区間を検出する。特徴量抽出部203は、マイクロフォン201から出力される時間信号f(t)を入力とし、この時間信号f(t)から所定時間毎の特徴量を抽出する。
特徴量抽出部203は、入力時間信号f(t)を時間フレーム毎に時間周波数変換して時間周波数分布を得、この時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する。この場合、特徴量抽出部203は、音区間検出部202から供給される音区間情報に基づいて音区間の範囲で特徴量を抽出し、家電から発せられる動作状況音の区間に対応した特徴量の列を得る。
特徴量登録部204は、特徴量抽出部203で得られた、被検出音としての家電で発せられる動作状況音に対応した特徴量列を、その被検出音名(動作状況音の情報)に対応付けて、特徴量データベース103に登録する。図示の例では、特徴量データベース103に、I個の被検出音の特徴量列Z1(m),Z2(m),・・・,Zi(m),・・・,ZI(m)が登録されている状態を示している。
「音区間検出部」
図4は、音区間検出部202の構成例を示している。この音区間検出部202の入力は、登録すべき被検出音(家電で発せられる動作状況音)をマイクロフォン201で録音して得られる時間信号f(t)であり、図3示すように、前後にノイズ区間も含まれる。また、この音区間検出部202の出力は、実際に登録すべき有意な音(被検出音)のある音区間を示す音区間情報である。
この音区間検出部202は、時間周波数変換部221と、振幅特徴量計算部222と、トーン強度特徴量計算部223と、スペクトル概形特徴量計算部224と、スコア計算部225と、時間平滑化部226と、閾値判定部227を有している。
時間周波数変換部221は、入力時間信号f(t)を時間周波数変換して、時間周波数信号F(n,k)を得る。ここで、tは離散時間、nは時間フレームの番号、kは離散周波数を表す。時間周波数変換部221は、例えば、以下の数式(1)に示すように、短時間フーリエ変換により、入力時間信号f(t)を時間周波数変換し、時間周波数信号F(n,k)を得る。
ただし、W(t)は窓関数、Mは窓関数のサイズ、Rはフレーム時間間隔(=ホップサイズ)を表す。時間周波数信号F(n,k)は、時間フレームn、周波数kにおける周波数成分の対数振幅値を表すものであり、いわゆるスペクトログラム(時間周波数分布)である。
振幅特徴量計算部222は、時間周波数信号F(n,k)より、振幅特徴量x0(n),x1(n)を計算する。具体的には、振幅特徴量計算部222は、所定の周波数範囲(下限KL 、上限KH)について、以下の数式(2)で表される、対象フレームnの近傍時間区間(前後に長さLとする)の平均振幅Aave(n)を求める。
また、振幅特徴量計算部222は、所定の周波数範囲(下限KL 、上限KH)について、以下の数式(3)で表される、対象フレームnにおける絶対振幅Aabs(n)を求める。
さらに、振幅特徴量計算部222は、所定の周波数範囲(下限KL 、上限KH)について、以下の数式(4)で表される、対象フレームnにおける相対振幅Arel(n)を求める。
そして、振幅特徴量計算部222は、以下の数式(5)に示すように、絶対振幅Aabs(n)を振幅特徴量x0(n)とし、相対振幅Arel(n)を振幅特徴量x1(n)とする。
トーン強度特徴量計算部223は、時間周波数信号F(n,k)より、トーン強度特徴量x2(n)を計算する。トーン強度特徴量計算部223は、まず、時間周波数信号F(n,k)の分布(図5(a)参照)を、トーン性らしさのスコアS(n,k)の分布(図5(b)参照)に変換する。スコアS(n,k)は、F(n,k)の各時間n、各周波数kにて、その時間周波数成分がどの程度「トーン成分らしいか」を0から1の間のスコアで表したものである。具体的には、スコアS(n,k)は、F(n,k)が周波数方向にトーン性のピークを形成する位置では1に近く、それ以外の位置では0に近い値をとるものである。
図6は、トーン強度特徴量計算部223に含まれる、トーン性らしさのスコアS(n,k)の分布を得るためのトーン尤度分布検出部230の構成例を示している。このトーン尤度分布検出部230は、ピーク検出部231と、フィッティング部232と、特徴量抽出部233と、スコア化部234を有している。
ピーク検出部231で、スペクトログラム(時間周波数信号F(n,k)の分布)の各時間フレームにおいて、周波数方向のピークが検出される。すなわち、ピーク検出部231では、このスペクトログラムに対し、全てのフレーム、全ての周波数で、その位置が周波数方向に関してのピーク(極大値)であるか否かが検出される。
F(n,k)がピークであるか否かの検出は、例えば、以下の数式(6)を満足するか否かを確認することで行われる。なお、ピークの検出方法として3点を使った方法を示しているが、5点を使った方法であってもよい。
フィッティング部232では、ピーク検出部231で検出された各ピークに関し、以下のように、そのピークの近傍領域においてトーンモデルがフィッティングされる。まず、フィッティング部232では、対象とするピークを原点とする座標に座標変換することが行われ、以下の数式(7)に示すように、近傍の時間周波数領域が設定される。ここで、ΔNは時間方向の近傍領域(例えば3点)、Δkは周波数方向の近傍領域(例えば2点)を表す。
続いて、フィッティング部232では、近傍領域内の時間周波数信号に対し、例えば、以下の数式(8)に示すような2次多項式関数のトーンモデルがフィッティングされる。この場合、フィッティング部232では、例えば、ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィティングが行われる。
すなわち、フィッティング部232では、時間周波数信号と多項式関数の近傍領域内における、以下の数式(9)に示すような二乗誤差を最小にする係数が、以下の数式(10)に示すように求められることで、フィッティングが行われる。
この2次多項式関数は、トーン性のスペクトルピーク近傍では、よく当てはまる(誤差が小さい)が、ノイズ性のスペクトルピーク近傍ではあまりよく当てはまらない(誤差が大きい)、という性質をもつ。図7(a)、(b)は、その様子を模式的に示している。図7(a)は、上述の数式(1)で得られる、第nフレームのトーン性ピーク付近のスペクトルを模式的に示している。
図7(b)は、図7(a)のスペクトルに対して、以下の数式(11)で示される2次関数f0(k)を当てはめる様子を示している。ただし、aがピーク曲率、k0が真のピークの周波数、g0が真のピーク位置での対数振幅値である。トーン性の成分のスペクトルピークでは2次関数がよく当てはまるが、ノイズ性のピークでは、ずれが大きい傾向がある。
図8(a)は、トーン性ピークの時間方向への変化を模式的に示している。トーン性ピークは、前後の時間フレームで、その概形を保ったまま振幅および周波数が変化をしていく。なお、実際に得られるスペクトルは離散点だが、便宜的に曲線で示している。一点鎖線が前フレーム、実線が現フレーム、点線が次フレームである。
多くの場合、トーン性の成分はある程度の時間の持続性があり、多少の周波数変化や時間変化を伴うものの、ほぼ同じ形の2次関数のシフトで表すことができる。この変化Y(k,n)は、以下の数式(12)で表される。スペクトルを対数振幅で表しているため、振幅の変化はスペクトルの上下への移動になる。振幅変化項f1(n)が加算となるのはそのためである。ただし、βは周波数の変化率、f1(n)はピーク位置における振幅の変化を表す時間関数である。
この変化Y(k,n)は、f1(n)を時間方向の2次関数で近似すると、以下の数式(13)で表される。a、k0、β、d1、e1、g0 は定数なので、適切に変数変換をすることで、この数式(13)は、上述の数式(8)式と等価となる。
図8(b)は、スペクトログラム上の小領域Г内でのフィッティングを模式的に示している。トーン性ピークでは、類似した形状が緩やかに時間変化するため、数式(8)がよく適合する傾向にある。しかし、ノイズ性のピーク近傍に関しては、ピークの形状やピークの周波数がばらつくため、数式(8)はあまりよく適合しない、つまり、最適に当てはめても誤差が大きいものとなる。
なお、上述の数式(10)では、a,b,c,d,e,gの全ての係数に関するフィッティングを行う計算を示した。しかし、いくつかの係数についてはあらかじめ定数に固定した上でのフィッティングを行ってもよい。また、2次以上の多項式関数でフィッティングしてもよい。
図6に戻って、特徴量抽出部233では、フィッティング部232で得られる各ピークにおけるフィッティング結果(上述の数式(10)参照)に基づいて、以下の数式(14)に示すような特徴量(x0,x1,x2,x3,x4,x5)が抽出される。各特徴量は、各ピークにおける周波数成分の性質を表す特徴量であり、それ自体を音声や楽音などの分析に用いることができる。
スコア化部234では、各ピークのトーン成分らしさを定量化するために、ピーク毎に特徴量抽出部233で抽出された特徴量が用いられて、各ピークのトーン成分らしさを示すスコアS(n,k)が得られる。スコア化部234では、特徴量(x0,x1,x2,x3,x4,x5)のうち、一つまたは複数の特徴量が用いられて、以下の数式(15)に示すように、スコアS(n,k)が求められる。この場合、少なくとも、フィッティングの正規化誤差x5、あるいは周波数方向のピークの曲率x0が使用される。
ただし、Sigm(x)はシグモイド関数であり、wiは予め定める荷重係数であり、Hi(xi)は、i番目の特徴量xiに対して施すあらかじめ定める非線形関数である。非線形関数Hi(xi)には、例えば、以下の数式(16)に示すような関数を用いることができる。ただし、ui,viは、あらかじめ定める荷重係数である。wi,ui,viは、なんらかの適切な定数をあらかじめ定めてもよいが、例えば、多数のデータを用いて最急降下学習などを行うことで、自動的に決定することもできる。
スコア化部234では、上述したように、ピーク毎に、数式(15)によって、トーン成分らしさを示すスコアS(n,k)が求められる。なお、スコア化部234では、ピークではない位置(n,k)におけるスコアS(n,k)は0とされる。スコア化部234では、時間周波数信号f(n,k)の各時刻、各周波数において、0から1の間の値を取るトーン成分らしさのスコアS(n,k)が得られる。
図9のフローチャートは、トーン尤度分布検出部230におけるトーン尤度分布検出の処理手順の一例を示している。トーン尤度分布検出部230は、ステップST1において、処理を開始し、その後、ステップST2の処理に移る。このステップST2において、トーン尤度分布検出部230は、フレーム(時間フレーム)の番号nを0に設定する。
次に、トーン尤度分布検出部230は、ステップST3において、n<Nであるか否かを判断する。なお、スペクトログラム(時間周波数分布)のフレームは0からN−1まで存在するものとする。n<Nでないとき、トーン尤度分布検出部230は、全てのフレームの処理が終了したものと判断し、ステップST4において、処理を終了する。
n<Nであるとき、トーン尤度分布検出部230は、ステップST5において、離散周波数kを0に設定する。そして、トーン尤度分布検出部230は、ステップST6において、k<Kであるか否かを判断する。なお、スペクトログラム(時間周波数分布)の離散周波数kは0からK−1まで存在するものとする。k<Kでないとき、トーン尤度分布検出部230は、全ての離散周波数の処理が終了したものと判断し、ステップST7において、nをインクリメントし、その後に、ステップST3に戻り、次のフレームの処理に移る。
ステップST6でk<Kであるとき、トーン尤度分布検出部230は、ステップST8において、F(n,k)がピークであるか否かを判断する。ピークでないとき、トーン尤度分布検出部230は、ステップST9において、スコアS(n,k)を0とし、ステップST10において、kをインクリメントし、その後に、ステップST6に戻り、次の離散周波数の処理に移る。
ステップST8でピークであるとき、トーン尤度分布検出部230は、ステップST11の処理に移る。このステップST11において、トーン尤度分布検出部230は、そのピークの近傍領域においてトーンモデルをフィッティングする。そして、トーン尤度分布検出部230は、ステップST12において、フィッティング結果に基づいて、種々の特徴量(x0,x1,x2,x3,4,x5)を抽出する。
次に、トーン尤度分布検出部230は、ステップST13において、ステップST12で抽出された特徴量を用いて、そのピークのトーン成分らしさを示す、0から1の間の値をとるスコアS(n,k)を求める。トーン尤度分布検出部230は、このステップST14の処理の後、ステップST10において、kをインクリメントし、その後に、ステップST6に戻り、次の離散周波数の処理に移る。
図10は、図11に示すような時間周波数分布(スペクトログラム)F(n,k)から、図6に示すトーン尤度分布検出部230で得られたトーン成分らしさのスコアS(n,k)の分布の一例を示している。スコアS(n,k)の値が大きいほど黒く表示されているが、ノイズ性のピークは概ね検出されていないのに対し、トーン性の成分(図11で黒い太横線を形成している成分)のピークは概ね検出されていることが分かる。
図4に戻って、トーン強度特徴量計算部223は、続いて、スコアS(n,k)が所定の閾値Sthsdより大きい位置(図5(b)参照)について、その近傍周波数位置の成分のみを抽出するトーン成分抽出フィルタH(n,k)(図5(c)参照)を作成する。以下の数式(17)は、このトーン成分抽出フィルタH(n,k)を表している。
ただし、kTはトーン成分が検出された周波数であり、Δkは所定の周波数幅である。ここで、上述したように時間周波数信号F(n,k)を得るための短時間フーリエ変換(数式(1)参照)における窓関数W(t)のサイズがMであるとき、Δkは2/Mとされることが望ましい。
トーン強度特徴量計算部223は、続いて、このトーン成分抽出フィルタH(n,k)を、元の時間周波数信号時間周波数信号F(n,k)に乗算して、図5(d)に示すように、トーン成分のみを残したスペクトル(トーン成分スペクトル)FT(n,k)を得る。以下の数式(18)は、このトーン成分スペクトルFT(n,k)を表している。
トーン強度特徴量計算部223は、最後に、所定の周波数範囲(下限KL 、上限KH)ついて総和をとり、以下の数式(19)で表される、対象フレームnにおけるトーン成分強度Atone(n)を求める。
そして、トーン強度特徴量計算部223は、以下の数式(20)に示すように、トーン成分強度Atone(n)をトーン強度特徴量x2(n)とする。
スペクトル概形特徴量計算部224は、スペクトル概形特徴量x3(n),x4(n),x5(n),x6(n)を、以下の数式(21)に示すように、求める。ただし、Lは、特徴量の次元数であり、ここでは、L=7の場合を示している。
このスペクトル概形特徴量は、対数スペクトルを離散コサイン変換により展開した低次ケプストラムである。ここでは、4次までを示したが、より高次の係数まで使用してもよい。また、いわゆるMFCC(Mel-Frequency Cepstral Coefficients)のように、周波数軸を歪曲させてから離散コサイン変換を施したものを用いてもよい。
上述の振幅特徴量x0(n),x1(n)、トーン強度特徴量x2(n)、スペクトル概形特徴量x3(n),x4(n),x5(n),x6(n)は、フレームnにおけるL次元(ここでは7次元)の特徴量ベクトルx(n)を構成する。因みに、「音の大きさ、音の高さ、音色」を音の三要素と言い、音の性質を表す基本的な属性である。特徴量ベクトルx(n)は、振幅(音の大きさに関係)、トーン成分強度(音の高さに関係)、スペクトル概形(音色の関係)により構成されることで、音の三要素の全てに関する特徴量を構成している。
スコア計算部225は、特徴量ベクトルx(n)の要素を合成し、フレームnが実際に登録すべき有意な音(被検出音)のある音区間であるかどうかを、0から1の間のスコアS(n)で表現する。このは、例えば、以下の数式(22)により求められる。ただし、Sigm()はシグモイド関数であり、ui,vi,wi(i=0,・・・,L−1)はサンプルデータより経験的に決める定数である。
時間平滑化部226は、スコア計算部225で求められたスコアS(n)を時間方向に平滑化する。この平滑化の処理では、単純に移動平均をとってもよいし、例えばメジアンフィルタのように中央値を取るようなフィルタを用いてもよい。以下の数式(23)は、平滑化スコアSa(n)を、平均処理で得る例を示している。ただし、Δnは、フィルタのサイズであり、経験的に決める定数である。
閾値判定部227は、時間平滑化部226で得られた各フレームnの平滑化スコアSa(n)を閾値と比較し、閾値以上となるフレーム区間を音区間と判定し、そのフレーム区間を示す音区間情報を出力する。
図4に示す音区間検出部202の動作を説明する。登録すべき被検出音(家電で発せられる動作状況音)をマイクロフォン201で録音して得られる時間信号f(t)は、時間周波数変換部221に供給される。この時間周波数変換部221では、入力時間信号f(t)が時間周波数変換されて、時間周波数信号F(n,k)が得られる。この時間周波数信号F(n,k)は、振幅特徴量計算部222、トーン強度特徴量計算部223およびスペクトル概形特徴量計算部224に供給される。
振幅特徴量計算部222では、時間周波数信号F(n,k)より、振幅特徴量x0(n),x1(n)が計算される(数式(5)参照)。また、トーン強度特徴量計算部223では、時間周波数信号F(n,k)より、トーン強度特徴量x2(n)が計算される(数式(20)参照)。さらに、スペクトル概形特徴量計算部224では、スペクトル概形特徴量x3(n),x4(n),x5(n),x6(n)が計算される(数式(21)参照)。
振幅特徴量x0(n),x1(n)、トーン強度特徴量x2(n)、スペクトル概形特徴量x3(n),x4(n),x5(n),x6(n)は、フレームnにおけるL次元(ここでは7次元)の特徴量ベクトx(n)として、スコア計算部225に供給される。スコア計算部225では、特徴量ベクトルx(n)の要素が合成されて、フレームnが実際に登録すべき有意な音(被検出音)のある音区間であるかどうかを表現する、0から1の間のスコアS(n)が計算される(数式(22)参照)。このスコアS(n)は、時間平滑化部226に供給される。
時間平滑化部226では、スコアS(n)が時間方向に平滑化され(数式(23)参照)、平滑化スコアSa(n)は閾値判定部227に供給される。閾値判定部227では、各フレームnの平滑化スコアSa(n)が閾値と比較され、閾値以上となるフレーム区間が音区間と判定され、そのフレーム区間を示す音区間情報が出力される。
図4に示す音区間検出部202は、入力時間信号f(t)の時間周波数分布F(n,k)より時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出し、この特徴量から時間フレーム毎の、音区間らしさを示すスコアS(n)を得るものである。そのため、登録すべき検出音がノイズ環境下で録音される場合であっても、この検出音の区間を示す音区間情報を精度よく得ることができる。
「特徴量抽出部」
図12は、特徴量抽出部203の構成例を示している。この特徴量抽出部203の入力は、登録すべき被検出音(家電で発せられる動作状況音)をマイクロフォン201で録音して得られる時間信号f(t)であり、図3示すように、前後にノイズ区間も含まれる。また、この特徴量抽出部203の出力は、登録すべき被検出音の区間で所定時間毎に抽出された特徴量の列である。
この特徴量抽出部203は、時間周波数変換部241と、トーン尤度分布検出部242と、時間周波数平滑化部243と、間引き・量子化部244を有している。時間周波数変換部241は、上述の音区間検出部202の時間周波数変換部221と同様に、入力時間信号f(t)を時間周波数変換して、時間周波数信号F(n,k)を得る。なお、特徴量抽出部203は、音区間検出部202の時間周波数変換部221で得られた時間周波数信号F(n,k)を利用してもよく、その場合には、この時間周波数変換部241を不要とできる。
トーン尤度分布検出部242は、音区間検出部202からの音区間情報に基づいて、音区間のトーン尤度分布を検出する。すなわち、トーン尤度分布検出部242は、まず、上述した音区間検出部202のトーン強度特徴量計算部223におけると同様にして、時間周波数信号F(n,k)の分布(図5(a)参照)を、トーン性らしさのスコアS(n,k)の分布(図5(b)参照)に変換する。
トーン尤度分布検出部242は、続いて、音区間情報を用いて、以下の数式(24)に示すように、登録すべき有意な音(被検出音)のある音区間のトーン尤度分布Y(n,k)を求める。
時間周波数平滑化部243は、トーン尤度分布検出部242で求められた音区間のトーン尤度分布Y(n,k)を、時間方向および周波数方向に平滑化し、以下の数式(25)に示すように、平滑化されたトーン尤度分布Ya(n,k)を得る。
ただし、Δk は平滑化フィルタの周波数方向の片側サイズ、Δn は時間方向の片側サイズ、H(n,k)は平滑化フィルタの2次元インパルス応答である。なお、上述では表記を簡単にするため、周波数方向に歪みのないフィルタを用いて説明した。しかし、例えば、メル周波数のように、周波数軸を歪曲するフィルタを用いて平滑化を行ってもよい。
間引き・量子化部344は、時間周波数平滑化部243で得られた平滑化されたトーン尤度分布Ya(n,k)を間引きし、さらに、量子化して、以下の数式(26)に示すように、登録すべき有意な音(被検出音)の特徴量Z(m,l)を生成する。
ただし、Tは時間方向の離散化ステップ、Kは周波数方向の離散化ステップ、mは間引きされた離散時間、lは間引きされた離散周波数である。また、Mは時間方向のフレーム数(=登録すべき有意な音(被検出音)の時間長に相当する)、Lは周波数方向の次元数、Quant[]は量子化の関数である。
上述の特徴量z(m,l)は、周波数方向にまとめて、以下の数式(27)に示すように、ベクトル表記して、Z(m)で表すことができる。
この場合、上述の特徴量Z(m,l)は、時間方向にT毎に抽出されたM個のベクトルZ(0),・・・,Z(M-1),Z(M)により構成されていることになる。したがって、間引き・量子化部244からは、登録すべき被検出音の区間で所定時間毎に抽出された特徴量(ベクトル)の列Z(m)が得られる。
なお、時間周波数平滑化部243で得られた平滑化されたトーン尤度分布Ya(n,k)をそのまま特徴量抽出部203の出力、つまり特徴量列として用いることも考えられる。しかし、平滑化されているので全ての時間、周波数のデータを持っている必要はない。時間方向および周波数方向に間引きすることで、情報量を減らすことができる。また、量子化により、例えば、8ビットや16ビットのデータを2ビットや3ビットのデータに変換できる。このように間引きおよび量子化が行われることで、特徴量(ベクトル)列Z(m)の情報量を低減でき、後述する音検出装置100におけるマッチング計算の処理負荷を軽減することが可能となる。
図12に示す特徴量抽出部203の動作を説明する。登録すべき被検出音(家電で発せられる動作状況音)をマイクロフォン201で録音して得られる時間信号f(t)は、時間周波数変換部241に供給される。この時間周波数変換部241では、入力時間信号f(t)が時間周波数変換されて、時間周波数信号F(n,k)が得られる。この時間周波数信号F(n,k)は、トーン尤度分布検出部242に供給される。また、このトーン尤度分布検出部242には、音区間検出202で得られた音区間情報も供給される。
このトーン尤度分布検出部242では、時間周波数信号F(n,k)の分布がトーン性らしさのスコアS(n,k)の分布に変換され、さらに、音区間情報が用いられて、登録すべき有意な音(被検出音)のある音区間のトーン尤度分布Y(n,k)が求められる(数式(24)参照)。このトーン尤度分布Y(n,k)は、時間周波数平滑化部243に供給される。
時間周波数平滑化部243では、トーン尤度分布Y(n,k)が時間方向および周波数方向に平滑化され、平滑化されたトーン尤度分布Ya(n,k)が得られる(数式(25)参照)。このトーン尤度分布Ya(n,k)は間引き・量子化部244に供給される。間引き・量子化部244では、トーン尤度分布Ya(n,k)が間引きされ、さらに、量子化されて、登録すべき有意な音(被検出音)の特徴量z(m,l)、従って特徴量列Z(m)が得られる(数式(26)、数式(27)参照)。
図2に戻って、特徴量登録部204は、特徴量登録部204で生成された登録すべき被検出音の特徴量列Z(m)を、被検出音名(動作状況音の情報)と対応付けて、特徴量データベース103に登録する。
図2に示す特徴登録装置200の動作を説明する。マイクロフォン201では、被検出音として登録すべき家電の動作状況音が集音される。このマイクロフォン201から出力される時間信号f(t)は、音区間検出部202および特徴量抽出部203に供給される。音区間検出部202では、入力時間信号f(t)から、音区間、すなわち家電から発せられる動作状況音の区間が検出されて、音区間情報が出力される。この音区間情報は特徴量抽出部203に供給される。
特徴量抽出部203では、入力時間信号f(t)が時間フレーム毎に時間周波数変換されて時間周波数信号F(n,k)の分布が得られ、さらに、この時間周波数分布からトーンらしさの尤度分布、つまりスコアS(n,k)の分布が求められる。そして、特徴量抽出部203では、音区間情報に基づいて、スコアS(n,k)の分布から音区間のトーン尤度分布Y(n,k)が得られ、それが時間方向および周波数方向に平滑化され、さらに、間引き・量子化の処理が施されて、特徴量列Z(m)が生成される。
特徴量抽出部203で生成された、登録すべき被検出音(家電の動作状況音)の特徴量列Z(m)は、特徴量登録部204に供給される。特徴量登録部204では、特徴量列Z(m)を、その被検出音名(動作状況音の情報)に対応付けて、特徴量データベース103に登録することが行われる。以下では、I個の被検出音が登録されたものとし、それらの特徴量列をZ1(m),Z2(m),・・・,Zi(m),・・・,ZI(m)と表記し、また、各特徴量列の時間フレーム数(時間方向に並ぶベクトルの個数)をM1,M2,・・・,Mi,・・・,MIと記述する。
「音検出部」
図13は、音検出部102の構成例を示している。この音検出部102は、信号バッファ部121と、特徴量抽出部122と、特徴量バッファ部123と、比較部124を有している。信号バッファ部121は、マイクロフォン101で集音されて得られる時間信号f(t)の信号サンプルを所定数バッファリングする。所定数とは、特徴量抽出部122が新たに1フレーム分の特徴量列を計算できるだけのサンプル数である。
特徴量抽出部122は、信号バッファ部121にバッファリングされた時間信号f(t)の信号サンプルに基づいて、所定時間毎の特徴量を抽出する。詳細説明は省略するが、この特徴量抽出部203は、上述した特徴登録装置200の特徴量抽出部203(図12参照)と同様に構成される。
ただし、特徴量抽出部122においては、トーン尤度分布検出部242は全区間のトーン尤度分布Y(n,k)を求める。つまり、トーン尤度分布検出部242は、時間周波数信号F(n,k)の分布から得られたスコアS(n,k)の分布をそのまま出力する。そして、間引き・量子化部244は、入力時間信号f(t)の全区間において、T(時間方向の離散化ステップ)毎に、新たに抽出された特徴量(ベクトル)X(n)を出力する。ここで、nは現在抽出された特徴量のフレーム番号(現在の離散時間に相当する)である。
特徴量バッファ部123は、特徴量抽出部122から出力される特徴量(ベクトル)X(n)を、図14に示すように、最新からN個保存する。ここで、Nは、少なくとも、特徴量データベース103に登録(保持)されている特徴量列Z1(m),Z2(m),・・・,Zi(m),・・・,ZI(m)のうち、最も長い特徴量列のフレーム数(時間方向に並ぶベクトルの個数)と同じかそれ以上の数である。
比較部124は、特徴量抽出部122で新たな特徴量X(n)が抽出される毎に、信号バッファ部123に保存されている特徴量の列を、特徴量データベース103に登録されているI個の被検出音の特徴量列と順次比較し、I個の被検出音の検出結果を得る。ここで、iを被検出音の番号とすると、被検出音の長さ(フレーム数Mi)はそれぞれの被検出音で異なる。
比較部124は、図14に示すように、特徴量バッファ部123の最新フレームnに、被検出音の特徴量列の最終フレームZi(Mi−1)を合わせ、特徴量バッファ部123に保存されているN個の特徴量のうち、被検出音の特徴量列の長さ分のフレームを用いて類似度を算出する。この類似度Sim(n,i)は、例えば、以下の数式(28)で示すように、特徴量間の相関演算により計算できる。ただし、Sim(n,i)は、第nフレームにおける第i番目の被検出音の特徴量列との間の類似度を意味する。比較部124は、類似度が所定の閾値より大きい場合には、「時刻nにおいて第i番目の被検出音が鳴っている」と判定し、その判定結果を出力する。
図13に示す音検出部102の動作を説明する。マイクロフォン101で集音されて得られる時間信号f(t)は信号バッファ部121に供給され、その信号サンプルが所定数バッファリングされる。特徴量抽出部122では、信号バッファ部121にバッファリングされた時間信号f(t)の信号サンプルに基づいて、所定時間毎に特徴量が抽出される。そして、この特徴量抽出部122からは、T(時間方向の離散化ステップ)毎に、新たに抽出された特徴量(ベクトル)X(n)が順次出力される。
特徴量バッファ部123には、特徴量抽出部122で抽出された特徴量X(n)が供給され、最新からN個保存される。比較部124では、特徴量抽出部122で新たな特徴量X(n)が抽出される毎に、信号バッファ部123に保存されている特徴量の列が、特徴量データベース103に登録されているI個の被検出音の特徴量列と順次順次比較され、I個の被検出音の検出結果が得られる。
この場合、比較部124では、特徴量バッファ部123の最新フレームnに、被検出音の特徴量列の最終フレームZi(Mi−1)を合わせ、被検出音の特徴量列の長さ分のフレームが用いられて類似度が算出される(図14参照)。そして、比較部124では、類似度が所定の閾値より大きい場合には、「時刻nにおいて第i番目の被検出音が鳴っている」と判定され、その判定結果が出力される。
なお、図1に示す音検出装置100は、ハードウェアで構成できる他、ソフトウェアで構成することもできる。例えば、図15に示すコンピュータ装置300に、図1に示す音検出装置100の一部または全部の機能を持たせ、上述したと同様の被検出音の検出処理を行わせることができる。
コンピュータ装置300は、CPU(Central Processing Unit)301、ROM(Read OnlyMemory)302、RAM(Random Access Memory)303、データ入出力部(データI/O)304およびHDD(Hard Disk Drive)305により構成されている。ROM302には、CPU301の処理プログラムなどが格納されている。RAM303は、CPU301のワークエリアとして機能する。CPU301は、ROM302に格納されている処理プログラムを必要に応じて読み出し、読み出した処理プログラムをRAM303に転送して展開し、当該展開された処理プログラムを読み出して、トーン成分検出処理を実行する。
このコンピュータ装置300においては、入力時間信号f(t)は、データI/O304を介して入力され、HDD305に蓄積される。このようにHDD305に蓄積される入力時間信号f(t)に対して、CPU301により、被検出音の検出処理が行われる。そして、検出結果がデータI/O304を介して外部に出力される。なお、HDD305には、I個の被検出音の特徴量列が予め登録されて保持されている。
図16のフローチャートは、CPU301による被検出音の検出処理の手順の一例を示している。CPU301は、ステップST21において、処理を開始し、その後、ステップST22の処理に移る。このステップST22において、CPU181は、入力時間信号f(t)を、例えばHDD305に構成される信号バッファ部に入力する。そして、CPU301は、ステップST23において、1フレーム分の特徴量列を計算できるだけのサンプル数が溜まったか否かを判断する。
1フレーム分のサンプル数が溜まったとき、CPU301は、ステップST24において、特徴量X(n)を抽出する処理を行う。CPU301は、ステップST25において、抽出された特徴量X(n)を、例えばHDD305に構成される特徴量バッファ部に入力する。そして、CPU301は、ステップST26において、被検出音番号iが0にセットされる。
次に、CPU301は、ステップST27において、i<Iであるか否かを判定する。i<Iであるとき、CPU301は、ステップST28において、信号バッファ部に保存されている特徴量の列とHDD305に登録されているi番目の被検出音の特徴量列Zi(m)との間の類似度を算出する。そして、CPU301は、ステップST29において、類似度>閾値を満足するか否かを判定する。
類似度>閾値を満足するとき、CPU301は、ステップST30において、一致結果を出力する。すなわち、「時刻nにおいて第i番目の被検出音が鳴っている」との判定結果を、検出出力として出力する。その後、CPU301は、ステップST31において、iをインクリメントし、ステップST27の処理に戻る。なお、ステップST29において、類似度>閾値を満足しないとき、CPU301は、直ちに、ステップST31において、iをインクリメントし、ステップST27の処理に戻る。また、ステップST27でi>Iでないとき、現在のフレームの処理を終了したものと判断し、ステップST22の処理に戻り、次のフレームの処理に移る。
次に、CPU181は、ステップST3において、フレーム(時間フレーム)の番号nを0に設定する。そして、CPU181は、ステップST4において、n<Nであるか否かを判断する。なお、スペクトログラム(時間周波数分布)のフレームは0からN−1まで存在するものとする。n<Nでないとき、CPU181は、全てのフレームの処理が終了したものと判断し、ステップST5において、処理を終了する。
n<Nであるとき、CPU181は、ステップST6において、離散周波数kを0に設定する。そして、CPU181は、ステップST7において、k<Kであるか否かを判断する。なお、スペクトログラム(時間周波数分布)の離散周波数kは0からK−1まで存在するものとする。k<Kでないとき、CPU181は、全ての離散周波数の処理が終了したものと判断し、ステップST8において、nをインクリメントし、その後に、ステップST4に戻り、次のフレームの処理に移る。
ステップST7でk<Kであるとき、CPU181は、ステップST9において、F(n,k)がピークであるか否かを判断する。ピークでないとき、CPU181は、ステップST10において、スコアS(n,k)を0とし、ステップST11において、kをインクリメントし、その後に、ステップST7に戻り、次の離散周波数の処理に移る。
ステップST9でピークであるとき、CPU181は、ステップST12の処理に移る。このステップST12において、CPU181は、そのピークの近傍領域においてトーンモデルをフィッティングする。そして、CPU181は、ステップST13において、フィッティング結果に基づいて、種々の特徴量(x0,x1,x2,x3,x4,x5)を抽出する。
次に、CPU181は、ステップST14において、ステップST13で抽出された特徴量を用いて、そのピークのトーン成分らしさを示す、0から1の間の値をとるスコアS(n,k)を求める。CPU181は、このステップST14の処理の後、ステップST11において、kをインクリメントし、その後に、ステップST7に戻り、次の離散周波数の処理に移る。
上述したように、図1に示す音検出装置100においては、マイクロフォン101で集音されて得られる入力時間信号f(t)の時間周波数分布よりトーンらしさの尤度分布を求め、この尤度分布を周波数方向および時間方向に平滑化したものから所定時間毎の特徴量を抽出して用いるものである。従って、被検出音(家庭用電化製品から発せられる動作状況音など)の検出を、マイクロフォン101の設置位置などに依らずに、精度よく行うことができる。
また、図1に示す音検出装置100においては、音検出部102で得られた被検出音の検出結果を、時刻と共に記録媒体に記録し、また、ディスプレイに表示するものである。従って、家庭内における家電等の動作状況を自動的に記録でき、自らの行動履歴(いわゆるライフログ)の取得が可能になる。また、聴覚障害者などに、音による通知を自動的に視覚化することが可能になる。
<2.変形例>
なお、上述実施の形態においては、家庭内において、家電から発せられる動作状況音(操作音、通知音、動作音、警報音など)を検出する例を示した。しかし、本技術は、家庭内の用途に限らず、生産工場などで製造された製品の音機能に関する検査の自動化にも用いることができる。また、動作状況音の検出だけに限られるものではなく、特定の人や動物の音声、さらにはその他の環境音の検出にも、本技術を適用できることは勿論である。
また、上述実施の形態においては、短時間フーリエ変換により時間周波数変換を行うように説明したが、ウェーブレット変換など、その他の変換手法を使用して、入力時間信号を時間周波数変換することも考えられる。また、上述実施の形態においては、検出された各ピーク近傍の時間周波数分布とトーンモデルの二乗誤差最小基準によりフィッティングを行うように説明したが、4乗誤差最小基準やエントロピー最小基準などによりフィッティングを行うことも考えられる。
また、本技術は、以下のような構成を取ることもできる。
(1)入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出部と、
所定数の被検出音の特徴量列を保持する特徴量保持部と、
上記特徴量抽出部で新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、上記保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較部とを備え、
上記特徴量抽出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部とを有し、
上記求められた尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出装置。
(2)上記尤度分布検出部は、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
前記(1)に記載の音検出装置。
(3)上記特徴量抽出部は、
上記平滑化された尤度分布を周波数方向および/または時間方向に間引く間引き部をさらに備える
前記(1)または(2)に記載の音検出装置。
(4)上記特徴量抽出部は、
上記平滑化された尤度分布を量子化する量子化部をさらに備える
前記(1)または(2)に記載の音検出装置。
(5)上記比較部は、
上記所定数の被検出音のそれぞれについて、上記保持されている被検出音の特徴量列と上記特徴量抽出部で抽出された特徴量列との間の対応する特徴量間の相関演算で類似度を求め、該求められた類似度に基づいて上記被検出音の検出結果を得る
前記(1)から(4)のいずれかに記載の音検出装置。
(6)上記所定数の被検出音の検出結果を時刻情報と共に記録媒体に記録する記録制御部をさらに備える
前記(1)から(5)のいずれかに記載の音検出装置。
(7)入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
上記特徴量抽出ステップでは、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出方法。
(8)コンピュータに、
入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
上記特徴量抽出ステップでは、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
音検出方法を実行させるためのプログラム。
(9)入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
上記尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する特徴量抽出部とを備える
音特徴量抽出装置。
(10)上記尤度分布検出部は、
上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
前記(9)に記載の音特徴量抽出装置。
(11)上記平滑化された尤度分布を周波数方向および/または時間方向に間引く間引き部をさらに備える
前記(9)または(10)に記載の音特徴量抽出装置。
(12)上記平滑化された尤度分布を量子化する量子化部をさらに備える
前記(9)または(10)に記載の音特徴量抽出装置。
(13)上記入力時間信号に基づいて音区間を検出する音区間検出部をさらに備え、
上記尤度分布検出部は、
上記検出された音区間の範囲で上記時間周波数分布よりトーンらしさの尤度分布を求める
前記(9)から(12)のいずれかに記載の音特徴量抽出装置。
(14)上記音区間検出部は、
上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部と、
上記得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、
上記平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とを有する
前記(13)に記載の音特徴量抽出装置。
(15)入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出ステップと、
上記尤度分布を周波数方向および時間方向に平滑化する平滑化ステップとを備える
音特徴量抽出方法。
(16)入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出部と、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部とを備える
音区間検出装置。
(17)上記得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、
上記平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とをさらに備える
前記(16)に記載の音区間検出装置。
(18)入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する特徴量抽出ステップと、
上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化ステップとを備える
音区間検出方法。
100・・・音検出装置
101・・・マイクロフォン
102・・・音検出部
103・・・特徴量データベース
104・・・記録・表示部
121・・・信号バッファ部
122・・・特徴量抽出部
123・・・特徴量バッファ部
124・・・比較部
200・・・特徴量登録装置
201・・・マイクロフォン
202・・・音区間検出部
203・・・特徴量抽出部
204・・・特徴量登録部
221・・・時間周波数変換部
222・・・振幅特徴量計算部
223・・・トーン強度特徴量計算部
224・・・スペクトル概形特徴量計算部
225・・・スコア計算部
226・・・時間平滑化部
227・・・閾値判定部
230・・・トーン尤度分布検出部
231・・・ピーク検出部
232・・・フィッティング部
233・・・特徴量抽出部
234・・・スコア化部
241・・・時間周波数変換部
242・・・トーン尤度分布検出部
243・・・時間周波数変換部
244・・・真引き・量子化部

Claims (15)

  1. 入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出部と、
    所定数の被検出音の特徴量列を保持する特徴量保持部と、
    上記特徴量抽出部で新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、上記保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較部とを備え、
    上記特徴量抽出部は、
    上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換部と、
    上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部とを有し、
    上記求められた尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
    音検出装置。
  2. 上記尤度分布検出部は、
    上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
    上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
    上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
    請求項1に記載の音検出装置。
  3. 上記特徴量抽出部は、
    上記平滑化された尤度分布を周波数方向および/または時間方向に間引く間引き部をさらに備える
    請求項1または請求項2に記載の音検出装置。
  4. 上記特徴量抽出部は、
    上記平滑化された尤度分布を量子化する量子化部をさらに備える
    請求項1または請求項2に記載の音検出装置。
  5. 上記比較部は、
    上記所定数の被検出音のそれぞれについて、上記保持されている被検出音の特徴量列と上記特徴量抽出部で抽出された特徴量列との間の対応する特徴量間の相関演算で類似度を求め、該求められた類似度に基づいて上記被検出音の検出結果を得る
    請求項1から請求項4のいずれかに記載の音検出装置。
  6. 上記所定数の被検出音の検出結果を時刻情報と共に記録媒体に記録する記録制御部をさらに備える
    請求項1から請求項5のいずれかに記載の音検出装置。
  7. 入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
    上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
    上記特徴量抽出ステップでは、
    上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
    音検出方法。
  8. コンピュータに、
    入力時間信号から所定時間毎の特徴量を抽出する特徴量抽出ステップと、
    上記特徴量抽出ステップで新たに特徴量が抽出される毎に、該特徴量抽出部で抽出された特徴量の列を、保持されている所定数の被検出音の特徴量列とそれぞれ比較して、上記所定数の被検出音の検出結果を得る比較ステップとを備え、
    上記特徴量抽出ステップでは、
    上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得、該時間周波数分布よりトーンらしさの尤度分布を求め、該尤度分布を周波数方向および時間方向に平滑化して上記所定時間毎の特徴量を抽出する
    音検出方法を実行させるためのプログラム。
  9. 入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る第1の時間周波数変換部と、
    上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出部と、
    上記尤度分布を周波数方向および時間方向に平滑化して所定時間毎の特徴量を抽出する第1の特徴量抽出部とを備える
    音特徴量抽出装置。
  10. 上記尤度分布検出部は、
    上記時間周波数分布の各時間フレームにおいて周波数方向のピークを検出するピーク検出部と、
    上記検出された各ピークにおいてトーンモデルをフィッティングするフィッティング部と、
    上記フィッティング結果に基づき、上記検出された各ピークのトーン成分らしさを示すスコアを得るスコア化部とを備える
    請求項9に記載の音特徴量抽出装置。
  11. 上記平滑化された尤度分布を周波数方向および/または時間方向に間引く間引き部をさらに備える
    請求項9または請求項10に記載の音特徴量抽出装置。
  12. 上記平滑化された尤度分布を量子化する量子化部をさらに備える
    請求項9または請求項10に記載の音特徴量抽出装置。
  13. 上記入力時間信号に基づいて音区間を検出する音区間検出部をさらに備え、
    上記尤度分布検出部は、
    上記検出された音区間の範囲で上記時間周波数分布よりトーンらしさの尤度分布を求める
    請求項9から請求項12のいずれかに記載の音特徴量抽出装置。
  14. 上記音区間検出部は、
    上記入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る第2の時間周波数変換部と、
    上記時間周波数分布に基づいて、時間フレーム毎の、振幅、トーン成分強度およびスペクトル概形の特徴量を抽出する第2の特徴量抽出部と、
    上記抽出された特徴量に基づいて、時間フレーム毎の、音区間らしさを示すスコアを得るスコア化部と、
    上記得られた時間フレーム毎のスコアを時間方向に平滑化する時間平滑化部と、
    上記平滑化された時間フレーム毎のスコアを閾値判定して音区間情報を得る閾値判定部とを有する
    請求項13に記載の音特徴量抽出装置。
  15. 入力時間信号を時間フレーム毎に時間周波数変換して時間周波数分布を得る時間周波数変換ステップと、
    上記時間周波数分布よりトーンらしさの尤度分布を求める尤度分布検出ステップと、
    上記尤度分布を周波数方向および時間方向に平滑化する平滑化ステップとを備える
    音特徴量抽出方法。
JP2012094395A 2012-04-18 2012-04-18 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム Active JP5998603B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012094395A JP5998603B2 (ja) 2012-04-18 2012-04-18 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
IN8472DEN2014 IN2014DN08472A (ja) 2012-04-18 2013-04-16
PCT/JP2013/002581 WO2013157254A1 (en) 2012-04-18 2013-04-16 Sound detecting apparatus, sound detecting method, sound feature value detecting apparatus, sound feature value detecting method, sound section detecting apparatus, sound section detecting method, and program
US14/385,856 US20150043737A1 (en) 2012-04-18 2013-04-16 Sound detecting apparatus, sound detecting method, sound feature value detecting apparatus, sound feature value detecting method, sound section detecting apparatus, sound section detecting method, and program
CN201380019489.0A CN104221018A (zh) 2012-04-18 2013-04-16 声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测装置、声音区间检测方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012094395A JP5998603B2 (ja) 2012-04-18 2012-04-18 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム

Publications (3)

Publication Number Publication Date
JP2013222113A JP2013222113A (ja) 2013-10-28
JP2013222113A5 JP2013222113A5 (ja) 2015-02-26
JP5998603B2 true JP5998603B2 (ja) 2016-09-28

Family

ID=48652284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012094395A Active JP5998603B2 (ja) 2012-04-18 2012-04-18 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム

Country Status (5)

Country Link
US (1) US20150043737A1 (ja)
JP (1) JP5998603B2 (ja)
CN (1) CN104221018A (ja)
IN (1) IN2014DN08472A (ja)
WO (1) WO2013157254A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150179167A1 (en) * 2013-12-19 2015-06-25 Kirill Chekhter Phoneme signature candidates for speech recognition
CN103793190A (zh) * 2014-02-07 2014-05-14 北京京东方视讯科技有限公司 一种信息显示方法、信息显示装置及显示设备
JP6362358B2 (ja) * 2014-03-05 2018-07-25 大阪瓦斯株式会社 作業完了報知装置
CN104217722B (zh) * 2014-08-22 2017-07-11 哈尔滨工程大学 一种海豚哨声信号时频谱轮廓提取方法
CN104810025B (zh) * 2015-03-31 2018-04-20 天翼爱音乐文化科技有限公司 音频相似度检测方法及装置
US10079012B2 (en) 2015-04-21 2018-09-18 Google Llc Customizing speech-recognition dictionaries in a smart-home environment
US10178474B2 (en) * 2015-04-21 2019-01-08 Google Llc Sound signature database for initialization of noise reduction in recordings
JP6524814B2 (ja) * 2015-06-18 2019-06-05 Tdk株式会社 会話検出装置及び会話検出方法
JP6448477B2 (ja) * 2015-06-19 2019-01-09 株式会社東芝 行動判定装置及び行動判定方法
CN105391501B (zh) * 2015-10-13 2017-11-21 哈尔滨工程大学 一种基于时频谱平移的仿海豚哨声水声通信方法
CN108291837B (zh) * 2015-12-09 2020-02-14 三菱电机株式会社 劣化部位估计装置、劣化部位估计方法以及移动体的诊断系统
CN105871475B (zh) * 2016-05-25 2018-05-18 哈尔滨工程大学 一种基于自适应干扰抵消的仿鲸鱼叫声隐蔽水声通信方法
CN106251860B (zh) * 2016-08-09 2020-02-11 张爱英 面向安防领域的无监督的新颖性音频事件检测方法及系统
US9870719B1 (en) * 2017-04-17 2018-01-16 Hz Innovations Inc. Apparatus and method for wireless sound recognition to notify users of detected sounds
JP7017488B2 (ja) * 2018-09-14 2022-02-08 株式会社日立製作所 音点検システムおよび音点検方法
JP7266390B2 (ja) * 2018-11-20 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム
KR102240455B1 (ko) * 2019-06-11 2021-04-14 네이버 주식회사 동적 노트 매칭을 위한 전자 장치 및 그의 동작 방법
JP6759479B1 (ja) * 2020-03-24 2020-09-23 株式会社 日立産業制御ソリューションズ 音響分析支援システム、及び音響分析支援方法
US11410676B2 (en) * 2020-11-18 2022-08-09 Haier Us Appliance Solutions, Inc. Sound monitoring and user assistance methods for a microwave oven
CN112885374A (zh) * 2021-01-27 2021-06-01 吴怡然 一种基于频谱分析的声音音准判断方法及系统
CN113724734B (zh) * 2021-08-31 2023-07-25 上海师范大学 声音事件的检测方法、装置、存储介质及电子装置
CN115931358B (zh) * 2023-02-24 2023-09-12 沈阳工业大学 一种低信噪比的轴承故障声发射信号诊断方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JPH0926354A (ja) * 1995-07-13 1997-01-28 Sharp Corp 音響・映像装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) * 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
EP1979901B1 (de) * 2006-01-31 2015-10-14 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
US20100332222A1 (en) * 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム
US20090198500A1 (en) * 2007-08-24 2009-08-06 Qualcomm Incorporated Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
JP4788810B2 (ja) 2009-08-17 2011-10-05 ソニー株式会社 楽曲同定装置及び方法、楽曲同定配信装置及び方法

Also Published As

Publication number Publication date
CN104221018A (zh) 2014-12-17
WO2013157254A1 (en) 2013-10-24
JP2013222113A (ja) 2013-10-28
IN2014DN08472A (ja) 2015-05-08
US20150043737A1 (en) 2015-02-12

Similar Documents

Publication Publication Date Title
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
US10504539B2 (en) Voice activity detection systems and methods
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
JP5749346B2 (ja) マルチチャネルオーディオ信号を分解するための方法、装置およびコンピュータ可読記憶媒体
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP6454916B2 (ja) 音声処理装置、音声処理方法及びプログラム
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
WO2013022930A1 (en) System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
JP2014512022A (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
JP2011033717A (ja) 雑音抑圧装置
CN108682432B (zh) 语音情感识别装置
CN107533848B (zh) 用于话音恢复的系统和方法
JP4607908B2 (ja) 音声区間検出装置および音声区間検出方法
US8532986B2 (en) Speech signal evaluation apparatus, storage medium storing speech signal evaluation program, and speech signal evaluation method
JP2015069063A (ja) 音声認識システム、音声認識方法、及び音声認識プログラム
JP2021536596A (ja) 正規化を介して音響信号をフィンガープリンティングするための方法及び装置
CN107210029B (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JPH0675562A (ja) 自動採譜装置
CN113593604A (zh) 检测音频质量方法、装置及存储介质
US11004463B2 (en) Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160815

R151 Written notification of patent or utility model registration

Ref document number: 5998603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250