JP2008203121A

JP2008203121A - 検出装置、方法、及びプログラム

Info

Publication number: JP2008203121A
Application number: JP2007040347A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Junichi Shima; 淳一嶋; Tetsuhiko Arimitsu; 哲彦有光; Takuo Ema; 拓郎江間
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-02-21
Filing date: 2007-02-21
Publication date: 2008-09-04
Anticipated expiration: 2027-02-21
Also published as: JP5046000B2

Abstract

【課題】様々な音を精度良く検出する。
【解決手段】検出装置１では、特徴量算出部１５は、入力音の９種類の特徴量を、フレームごとに算出し、特徴量比較部１６は、９種類の特徴量それぞれに対して、特徴量が算出される複数のフレームから、各特徴量を代表するフレームである代表フレームを、特徴量に基づいて選択する。判定部１７は、複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている特徴量の組み合わせを検出し、特徴量の組み合わせに基づいて、入力音に所定の音が含まれるかを判定する。本発明は、例えば、所定の音を検出する検出装置に適用できる。
【選択図】図１

Description

本発明は、検出装置、方法、及びプログラムに関し、特に、例えば、様々な音を精度良く検出することができるようにする検出装置、方法、及びプログラムに関する。

音を検出する様々な方法が提案されている。

例えば、予め設定した周波数帯域のみを通過させる帯域通過フィルタを用いて、騒音に含まれる、気体や液体が洩れる音を検出する方法（例えば、特許文献１参照）、特定の周波数帯域の信号のパワーと、その周波数帯域とは異なる周波数帯域の信号のパワーとを計測し、その２つの周波数帯域の信号のパワーの比を求め、その比が予め設定している値より高くなるかにより、サイレンの音を検出する方法（例えば、特許文献２参照）がある。

また、加振台に載せられた対象物を加振し、加振により発せられた音の、人間の聴覚特性の臨界帯域ごとのラウドネスレベルと、加振周波数とに基づいて、特定の音を検出する方法（例えば、特許文献３参照）、フレームごとにパワーの平均値を算出し、そのパワーの平均値の度数分布を表わす度数分布関数を決定し、度数分布関数のピーク部分に基づいて、音声が存在する音声区間、又は音声が存在しない騒音区間を検出する方法（例えば、特許文献４参照）がある。
特開２００６−１７０６７４号公報特開平０８−８３０９０号公報特開２００４−２８６６３４号公報特許２９０５１１２号公報

従来の音の検出の方法では、例えば、パワーやパワーの比等の特定の１種類の特徴量のみを用いて、音を検出するため、その特徴量による検出に適した特定の音以外の音については、検出が困難であるか、又は検出の精度が悪かった。

本発明は、このような状況に鑑みてなされたものであり、様々な音を精度良く検出することができるようにするものである。

本発明の一側面の検出装置は、入力音に含まれる所定の音を検出する検出装置であり、前記入力音の複数種類の特徴量を、フレームごとに算出する特徴量算出手段と、前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択する選択手段と、前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定する判定手段とを備える。

本発明の一側面の検出装置には、前記入力音に前記所定の音が含まれると判定された場合に、前記入力音を出力する出力手段をさらに設けることができる。

本発明の一側面の検出方法またはプログラムは、入力音に含まれる所定の音を検出する検出方法または検出処理をコンピュータに実行させるプログラムであり、前記入力音の複数種類の特徴量を、フレームごとに算出し、前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択し、前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定するステップを含む。

本発明の一側面においては、入力音の複数種類の特徴量が、フレームごとに算出され、前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームが、前記特徴量に基づいて選択される。そして、前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせが検出され、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかが判定される。

本発明の一側面によれば、様々な音を精度良く検出することができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の検出装置は、
入力音に含まれる所定の音を検出する検出装置（例えば、図１の検出装置１）において、
前記入力音の複数種類の特徴量（例えば、特徴量#１乃至#９）を、フレームごとに算出する特徴量算出手段（例えば、図１の特徴量算出部１５）と、
前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択する選択手段（例えば、図１の特徴量比較部１６）と、
前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定する判定手段（例えば、図１の判定部１７）と
を備える。

本発明の一側面の検出装置には、
前記入力音に前記所定の音が含まれると判定された場合に、前記入力音を出力する出力手段（例えば、図１の出力部１９）をさらに設けることができる。

本発明の一側面の検出方法またはプログラムは、
入力音に含まれる所定の音を検出する検出方法または検出処理をコンピュータに実行させるプログラムであり、
前記入力音の複数種類の特徴量を、フレームごとに算出し（例えば、図１３のステップＳ４）、
前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択し（例えば、図１３のステップＳ９）、
前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定する（例えば、図１３のステップＳ１０及びＳ１１）
ステップを含む。

以下、図面を参照して本発明を適用した実施の形態について説明する。

図１は、本発明を適用した検出装置の一実施の形態の構成例を示すブロック図である。

図１において、検出装置１は、マイクロフォン１１、増幅器１２、A/D（Analog/Digital）変換器１３、フレーム分割部１４、特徴量算出部１５、特徴量比較部１６、判定部１７、フレームメモリ１８、及び出力部１９から構成され、入力音から所定の音を検出する。

検出装置１のマイクロフォン１１は、外部からの入力音を、電気信号である音信号に変換し、増幅器１２に供給する。

ここで、図１の検出装置１は、例えば、マイクロフォン１１が設置されている環境で自然と聞えてくる環境音を入力音として、その環境において、時間軸上での発生の頻度が低い音である異音を検出する場合等に利用することができる。ただし、検出装置１で検出する音は異音に限定されるものではなく、検出装置１は、異音ではない音の検出も行うことができる。

増幅器１２は、マイクロフォン１１から供給される音信号を増幅し、その結果得られる増幅された音信号をA/D変換器１３に供給する。

A/D変換器１３は、増幅器１２から供給される（アナログの）音信号をA/D変換し、その結果得られるディジタル化された音信号を、フレーム分割部１４に供給する。

フレーム分割部１４は、A/D変換器１３から供給される音信号を、例えば、１秒等の所定の時間長のフレームに分割し、その結果得られるフレームごとの音信号を、特徴量算出部１５とフレームメモリ１８に、順次、供給する。

特徴量算出部１５は、複数であるn個の特徴量算出部１５₁乃至１５_nから構成され、フレーム分割部１４からのフレームごとの音信号から、その音信号の複数種類の特徴量であるn種類の特徴量を算出して、特徴量比較部１６に供給する。

すなわち、特徴量算出部１５_i(i＝1, 2, …, n)は、フレーム分割部１４から供給される複数であるＮフレームを、音を検出する検出対象として、その検出対象のＮフレームのそれぞれから、後述する特徴量#iを算出し、特徴量比較部１６に供給する。

特徴量比較部１６は、n個の特徴量比較部１６₁乃至１６_nから構成され、n種類の特徴量それぞれに対して、検出対象のＮフレームから、各特徴量を代表するフレームである代表フレームを、特徴量算出部１５から供給される各特徴量に基づいて選択する。

すなわち、特徴量比較部１６_iには、特徴量算出部１５_iから、検出対象のＮフレームそれぞれの特徴量#iが順次供給される。

特徴量比較部１６_iは、特徴量算出部１５_iから供給されるＮフレームそれぞれの特徴量#iに基づき、検出対象のＮフレームから、例えば、特徴量#iが最大のフレームを、特徴量#iを代表する代表フレームとして選択し、その代表フレーム（となっているフレーム）を特定する選択情報を、判定部１７に供給する。

判定部１７は、特徴量比較部１６₁乃至１６_nから供給される選択情報に基づいて、検出対象のＮフレームのそれぞれに対して、各フレームが代表フレームとなっている特徴量の組み合わせを検出し、その特徴量の組み合わせに基づいて、入力音に所定の音が含まれるかを判定する。そして、判定部１７は、その判定の結果を表す判定情報を、出力部１９に供給する。

フレームメモリ１８は、フレーム分割部１４から供給されるフレームごとの音信号を記憶する。なお、フレームメモリ１８は、少なくとも、検出対象のＮフレーム分の音信号を記憶することができる記憶容量を有する。

出力部１９は、判定部１７から入力音に所定の音が含まれる旨の判定情報が供給されると、検出対象のＮフレームの音信号を、フレームメモリ１８から読み出して、図示せぬスピーカから出力する。

以下においては、特徴量算出部１５は、特徴量算出部１５₁乃至１５₉で構成され、複数種類の特徴量として、９種類の特徴量である特徴量#1乃至#9を算出する（つまり、nが9である）場合について説明する。

次に、図２乃至１０を参照して、特徴量算出部１５₁乃至１５₉がそれぞれ算出する特徴量#1乃至#9について説明する。

まず、図２を参照して、特徴量算出部１５₁が算出する特徴量#1について説明する。

特徴量算出部１５₁は、フレーム内において、局所的に音信号のレベル（値）が最小または最大になっている点、つまり、極小値または極大値となっている極値点を求め、さらに、フレーム内のすべての隣接する２つの極値点について、その隣接する２つの極値点の間の音信号のレベルの差を求める。そして、特徴量算出部１５₁は、その差の最大値を、特徴量#1として求める。

図２は、１フレームの音信号の例を示している。なお、図２において、縦軸は、音信号のレベルを表し、横軸は、時間を表している。

図２では、図中Ａで示す部分が、フレーム内の隣接する２つの極値点の間の音信号のレベルの差の最大値になっており、特徴量算出部１５₁では、この最大値が、特徴量#1として求められる。

例えば、風切り音やロードノイズ等の非定常な音では、隣接する２つの極値点の間の音信号のレベルの差が小となる傾向があるので、特徴量#1は小となる。一方、例えば、人の音声や救急車のサイレンの音等の定常性のある音では、隣接する２つの極値点の間の音信号のレベルの差が大となる傾向があるので、特徴量#1は大となる。

次に、図３を参照して、特徴量算出部１５₂が算出する特徴量#2について説明する。

特徴量算出部１５₂は、フレーム内の半波長の数と、そのうちのレベルが0と交差する（ゼロクロスがある）半波長の数とを求め、ゼロクロスがある半波長の数を、フレーム内の半波長の数で除算することにより、フレーム内のゼロクロスがある半波長の割合を、特徴量#2として求める。

ここで、半波長とは、隣接する２つの極値点の間の音信号（の波形）を意味する。

図３は、１フレームの音信号の例を示している。なお、図３において、縦軸は、音信号のレベルを表し、横軸は、時間を表している。

図３では、フレーム内の半波長（図中の丸印及びバツ印）の数が16であり、その16の半波長のうちのゼロクロスがある半波長（図中の丸印）の数は11になっている。この場合、フレーム内のゼロクロスがある半波長の割合は、0.69（≒11/16）であり、これが特徴量#2として求められる。

例えば、風切り音やロードノイズ等の非定常な音では、ゼロクロスがある半波長の割合が小となる傾向があるので、特徴量#2は小となる。一方、例えば、人の音声等の定常性のある音では、ゼロクロスがある半波長の割合が大となる傾向があるので、特徴量#2は大となる。

次に、図４を参照して、特徴量算出部１５₃が算出する特徴量#3について説明する。

特徴量算出部１５₃は、フレームを、例えば、10ブロック等の複数のブロックに等分し、フレーム内の10個のブロックそれぞれについて、音信号の振幅の振れ幅（音信号のレベルの最大値と最小値との差）であるダイナミックレンジを求める。さらに、特徴量算出部１５₃は、フレーム内でダイナミックレンジが最小のブロックと最大のブロックとについて、ゼロクロスがある半波長の割合を求め、フレーム内でダイナミックレンジが最大のブロックと最小のブロックとの間の、ゼロクロスがある半波長の割合の差を、特徴量#3として求める。

図４は、フレーム内でダイナミックレンジが最小のブロックと最大のブロックの音信号の例を示している。

図４では、１フレームが10個のブロックに等分されている。さらに、図４では、フレームの左から２番目の第２ブロックが、ダイナミックレンジが最小のブロックになっており、左から６番目の第６ブロックが、ダイナミックレンジが最大のブロックになっている。

そして、図４では、フレーム内でダイナミックレンジが最小の第２ブロックにおいて、半波長の数が16に、ゼロクロスがある半波長の数が9に、それぞれなっている。したがって、第２ブロックでは、ゼロクロスがある半波長の割合は、0.60（＝9/15）である。また、図４では、フレーム内でダイナミックレンジが最大の第６ブロックにおいて、半波長の数が14に、ゼロクロスがある半波長の数が10に、それぞれなっている。したがって、第６ブロックでは、ゼロクロスがある半波長の割合は、0.71（≒10/14）である。

以上から、図４では、フレーム内でダイナミックレンジが最小のブロックと最大のブロックの間の、ブロック内でのゼロクロスがある半波長の割合の差は、0.11(＝0.71−0.60)であり、これが特徴量#3として求められる。

例えば、クラクション等の音の、ダイナミックレンジが大きく変化する傾向がある音の立ち上がりまたは立ち下りの部分を含むフレームでは、ダイナミックレンジが大の部分で、ゼロクロスがある半波長の割合が大となる傾向があるので、特徴量#3は大となる。

次に、図５を参照して、特徴量算出部１５₄が算出する特徴量#4について説明する。

特徴量算出部１５₄は、フレームを、例えば、10ブロックに等分し、フレーム内の10個のブロックそれぞれについて、音信号のレベルの絶対値の最大値を求める。さらに、特徴量算出部１５₄は、フレーム内で音信号のレベルの絶対値の最大値が最小のブロックと最大のブロックとの間の、音信号のレベルの絶対値の最大値の差を、特徴量#4として求める。

図５は、フレーム内で音信号のレベルの絶対値の最大値が最小のブロックと最大のブロックの音信号の例を示している。

図５では、１フレームが10個のブロックに等分されている。さらに、図５では、フレームの左から２番目の第２ブロックが、音信号のレベルの絶対値の最大値が最小のブロックになっており、左から６番目の第６ブロックが、音信号のレベルの絶対値の最大値が最大のブロックとなっている。

いま、第２ブロックの音信号のレベルの絶対値の最大値をminと表すとともに、第６ブロックの音信号のレベルの絶対値の最大値をmaxと表すこととすると、フレーム内で、音信号のレベルの絶対値の最大値が最小のブロックと最大のブロックの間の音信号のレベルの絶対値の最大値の差は、max-minと表され、これが特徴量#4として求められる。

例えば、車のドアを閉める音等の、立ち上がり又は立ち下がりが急峻な音の立ち上がりまたは立ち下りの部分を含むフレームでは、音信号のレベルの絶対値が大きく変化する傾向があるので、特徴量#4は大となる。

次に、図６を参照して、特徴量算出部１５₅が算出する特徴量#5について説明する。

特徴量算出部１５₅は、フレームを、例えば、10ブロックに等分し、フレーム内の10個のブロックそれぞれについて、ゼロクロスの数を求める。さらに、特徴量算出部１５₅は、フレーム内でゼロクロスの数が最小のブロックと最大のブロックとの間の、ゼロクロスの数の差を、特徴量#5として求める。

図６は、フレーム内でゼロクロスの数が最小のブロックと最大のブロックの音信号の例を示している。

図６では、１フレームが10個のブロックに等分されている。さらに、図６では、フレームの左から３番目の第３ブロックが、フレーム内でゼロクロスの数が最小のブロックとなっており、左から６番目の第６ブロックが、フレーム内でゼロクロスの数が最大のブロックとなっている。

そして、図６では、第３ブロックのゼロクロスの数が5になっており、第６ブロックのゼロクロスの数が11になっているので、フレーム内でゼロクロスの数が最小のブロックと最大のブロックとの間の、ゼロクロスの数の差は、6(＝11−5)であり、これが特徴量#5として求められる。

例えば、金属同士があたる音等の低域の周波数が大きく変化する音では、ゼロクロスの数が大きく変化する傾向があるので、特徴量#5は大となる。

次に、図７を参照して、特徴量算出部１５₆が算出する特徴量#6について説明する。

特徴量算出部１５₆は、フレームを、例えば、10ブロックに等分し、フレーム内の10個のブロックそれぞれについて、半波長の数を求める。さらに、特徴量算出部１５₆は、フレーム内で半波長の数が最小のブロックと最大のブロックとの間の半波長の数の差を、特徴量#6として算出する。

図７は、フレーム内で半波長の数が最小のブロックと最大のブロックの音信号の例を示している。

図７では、１フレームが10個のブロックに等分されている。さらに、図７では、フレームの左から２番目の第２ブロックが、半波長の数が最大のブロックになっており、フレームの左から７番目の第７ブロックが、半波長の数が最小のブロックになっている。

そして、図７では、第２ブロックの半波長の数が15になっており、第７ブロックの半波長の数が10になっているので、フレーム内で半波長の数が最小のブロックと最大のブロックの間の半波長の数の差は、5(＝15−10)であり、これが特徴量#6として求められる。

例えば、金属同士があたる音等の高域の周波数が大きく変化する音では、半波長の数が大きく変化する傾向があるので、特徴量#6は大となる。

次に、図８を参照して、特徴量算出部１５₇が算出する特徴量#7について説明する。

特徴量算出部１５₇は、フレームを、例えば、10ブロックに分割し、フレーム内の10個のブロックそれぞれについて、音信号のレベルのダイナミックレンジを求める。さらに、特徴量算出部１５₇は、フレーム内でダイナミックレンジが最大のブロックと最小のブロックの間のダイナミックレンジの差を用いて閾値を求める。そして、特徴量算出部１５₇は、フレーム内の10個のブロックのダイナミックレンジそれぞれと閾値とを比較し、閾値以下のダイナミックレンジを有するブロックの割合を、特徴量#7として求める。

図８は、フレーム内でダイナミックレンジが最大のブロックと最小のブロックの音信号の例を示している。

図８では、１フレームが10個のブロックに等分されている。さらに、図８では、フレーム内の左から２番目の第２ブロックにおいて、ブロック内でのダイナミックレンジが最小となっており、フレーム内の左から６番目の第６ブロックにおいて、ブロック内でのダイナミックレンジが最大となっている。

いま、第６ブロックのダイナミックレンジをDR_maxと、第２ブロックのダイナミックレンジをDR_minと、フレーム内でダイナミックレンジが最大のブロックと最小のブロックの間の、ダイナミックレンジの差をBDRと、それぞれ表すこととすると、ダイナミックレンジの差BDRは、式BDR＝DR_max−DR_minで求めることができるが、このダイナミックレンジの差BDRを用いて求められる閾値として、例えば、ダイナミックレンジの差BDRと、0.4等の所定の係数thとの積BDR×thを採用することとすると、特徴量#7としては、閾値BDR×th以下のダイナミックレンジを有するブロックの割合が求められる。

例えば、図８では、第２ブロックと第３ブロックが、ダイナミックレンジが閾値BDR×th以下のブロックとなっており、したがって、10個のブロックのうちの２個のブロックが閾値BDR×th以下のダイナミックレンジを有するブロックであるから、閾値BDR×th以下のダイナミックレンジを有するブロックの割合である特徴量#7としては、0.2(＝2/10)が求められる。

例えば、ドアを閉めるときの音のようなインパルス的な音では、音信号のレベルが瞬間的に小から大になり、ダイナミックレンジが大のブロックよりも、ダイナミックレンジが小のブロックの数が多くなる傾向があるので、特徴量#7は大となる。

次に、図９を参照して、特徴量算出部１５₈が算出する特徴量#8について説明する。

特徴量算出部１５₈は、フレームを、例えば、10ブロックに等分し、フレーム内の10個のブロックそれぞれについて、ゼロクロスがある半波長の割合を求める。さらに、特徴量算出部１５₈は、フレーム内でゼロクロスがある半波長の割合が最小のブロックと最大のブロックの間の、ゼロクロスがある半波長の割合の差を、特徴量#8として求める。

図９は、フレーム内でゼロクロスがある半波長の割合が最小のブロックと最大のブロックの音信号の例を示している。

図９では、１フレームが１０個のブロックに等分されている。さらに、図９では、フレーム内の左から３番目の第３ブロックが、ゼロクロスがある半波長の割合が最小のブロックとなっており、左から６番目の第６ブロックが、ゼロクロスがある半波長の割合が最大のブロックとなっている。

すなわち、図９では、第３ブロックは、ゼロクロスがある半波長の割合が0.33(≒5/15)で、フレーム内でゼロクロスがある半波長の割合が最小のブロックになっている。また、第６ブロックは、ゼロクロスがある半波長の割合が0.78(≒11/14)で、フレーム内でゼロクロスがある半波長の割合が最大のブロックになっている。

以上から、図９では、フレーム内でゼロクロスがある半波長の割合が最小のブロックと最大のブロックの間の、ゼロクロスがある半波長の割合の差は0.45(＝0.78−0.33)であり、これが特徴量#8として求められる。

例えば、救急車のサイレンの音等の定常性がある音の立ち上がりまたは立ち下がり、すなわち、非定常な音から定常性がある音に変化する部分や、その逆の変化がある部分のように、音の性質が変化する部分では、ゼロクロスがある半波長の割合が大きく変化する傾向があるので、特徴量#8は大となる。

次に、図１０を参照して、特徴量算出部１５₉が算出する特徴量#9について説明する。

特徴量算出部１５₉は、図１０に示すように、フレームを、例えば、10ブロックに等分し、フレーム内の10個のブロックそれぞれの音信号に対してFFT（Fast Fourier Transform）変換を施して、各ブロックのスペクトラムを得る。さらに、特徴量算出部１５₉は、フレーム内のすべての隣接する２つのブロックについて、その隣接する２つのブロックのスペクトラムの間の、同一の周波数成分の差の絶対値和を求める。そして、特徴量算出部１５₉は、その絶対値和のうちの最大値を、特徴量#9として求める。

例えば、金属同士があたる音等では、低域から高域にわたる全帯域の周波数成分が大きく変化し、スペクトラムが大きく変化する傾向があるので、特徴量#9は大となる。

次に、図１１を参照して、図１の特徴量比較部１６の処理について説明する。

図１１は、検出対象を10フレームとして、その10フレームそれぞれについて、特徴量算出部１５で算出された特徴量#1乃至#9の例を示している。

ここで、検出対象の10フレームの先頭からf番目のフレームをフレーム#fという。

特徴量比較部１６_iは、検出対象の10フレームから、特徴量#iが最大のフレームを、特徴量#iを代表する代表フレーム#iとして選択し、その選択の結果を表す選択情報を、判定部１７に供給する。

図１１では、特徴量#1乃至#9が最大となるフレーム、つまり、代表フレームに影を付してある。すなわち、図１１では、特徴量#1乃至#4については、フレーム#2が、特徴量#5及び#6については、フレーム#3が、特徴量#7については、フレーム#4が、特徴量#8については、フレーム#2が、特徴量#8については、フレーム#3が、それぞれ代表フレームとして選択される。

次に、図１２を参照して、図１の判定部１７の処理について説明する。

判定部１７は、特徴量比較部１６₁乃至１６₉から供給される選択情報に基づいて、検出対象の複数のフレームのそれぞれに対して、各フレームが代表フレームとなっている特徴量の組み合わせを検出する。

図１２は、図１１に示した検出対象のフレーム#1乃至#10のそれぞれに対して、判定部１７が検出する特徴量の組み合わせを示している。

フレーム#1については、フレーム#1を代表フレームとする特徴量が存在しないので、判定部１７では、フレーム#1を代表フレームとする特徴量の組み合わせは検出されない。

フレーム#2については、フレーム#2を代表フレームとする特徴量が、特徴量#1乃至#4、及び#8となっているので、判定部１７は、フレーム#2を代表する特徴量の組み合わせが、特徴量#1乃至#4、及び#8であることを検出する。

フレーム#3については、フレーム#3を代表フレームとする特徴量が、特徴量#5、#6、及び#9となっているので、判定部１７は、フレーム#3を代表フレームとする特徴量の組み合わせが、特徴量#5、#6、及び#9であることを検出する。

フレーム#4については、フレーム#4を代表フレームとする特徴量が、特徴量#7となっているので、判定部１７は、フレーム#4を代表フレームとする特徴量の組み合わせが、特徴量#7であることを検出する。

フレーム#5については、フレーム#5を代表フレームとする特徴量が存在しないので、判定部１７では、フレーム#5を代表フレームとする特徴量の組み合わせは検出されない。

以下、フレーム#6乃至#10については、そのフレーム#6乃至#10を代表フレームとする特徴量が存在しないので、フレーム#1やフレーム#5と同様に、特徴量の組み合わせは検出されない。

判定部１７は、検出対象の10フレームそれぞれについて、そのフレームが代表フレームとなっている特徴量の組み合わせを検出すると、その特徴量の組み合わせに基づいて、入力音に所定の音が含まれるかを判定し、その判定の結果を表す判定情報を、出力部１９に供給する。

すなわち、判定部１７は、検出対象の10フレームのあるフレームが代表フレームとなっている特徴量の組み合わせ（以下、適宜、代表特徴量セットという）に、あらかじめ決められた２以上の特徴量の組み合わせである標準特徴量セットが含まれている場合に、入力音に（その標準特徴量セットに対応する）所定の音が含まれると判定する。

ここで、標準特徴量セットとしては、例えば、検出しようとする所定の音に対して、代表特徴量セットとして求められるのと同一の特徴量の組み合わせが用いられる。

すなわち、例えば、車のドアを閉める音やブレーキの音等の第１の音については、特徴量#1乃至#9のうちの、特徴量#1，#4、及び#7が大きくなる傾向があり、したがって、車のドアを閉める音やブレーキの音等を検出する場合には、標準特徴量セットとして、特徴量#1，#4、及び#7の組み合わせが用いられる。

また、例えば、カラスの鳴き声や長時間のクラクションの音等の第２の音については、特徴量#1乃至#9のうちの、特徴量#2，#3、及び#5が大きくなる傾向があり、したがって、カラスの鳴き声や長時間のクラクションの音等を検出する場合には、標準特徴量セットとして、特徴量#2，#3、及び#5の組み合わせが用いられる。

さらに、例えば、金属同士があたる音等の第３の音については、特徴量#1乃至#9のうちの、特徴量#5，#6、及び#9が大きくなる傾向があり、したがって、金属同士があたる音等を検出する場合には、標準特徴量セットとして、特徴量#5，#6、及び#9の組み合わせが用いられる。

また、例えば、短いクラクション、救急車のサイレン、ブレーキの音等の第４の音については、特徴量#1乃至#9のうちの、特徴量#1及び#8が大きくなる傾向があり、短いクラクション、救急車のサイレン、ブレーキの音等を検出する場合には、標準特徴量セットとして、特徴量#1及び#8の組み合わせが用いられる。

以上のような４セットの標準特徴量セットがあらかじめ決められて、判定部１７に設定されている場合に、判定部１７において、図１２に示した代表特徴量セットが検出されたときには、フレーム#2について検出された代表特徴量セットとしての特徴量#1，#2，#3，#4、及び#8の組み合わせには、第４の音に対応する標準特徴量セットとしての特徴量#1及び#8の組み合わせが含まれ、また、フレーム#3について検出された代表特徴量セットとしての特徴量#5，#6、及び#9の組み合わせには、第３の音に対応する標準特徴量セットとしての特徴#5，#6、及び#9の組み合わせが含まれるので、判定部１７では、入力音に所定の音が含まれると判定され、すなわち、フレーム#2に第４の音が含まれ、フレーム#3に第３の音が含まれると判定され、その旨の判定情報が、出力部１９に供給される。

次に、図１３のフローチャートを参照して、図１の検出装置１による検出処理について説明する。

マイクロフォン１１は、外部からの入力音を、電気信号としての音信号に変換し、増幅器１２を介して、A/D変換器１３に供給する。A/D変換器１３は、そこに供給される音信号をA/D変換して、フレーム分割部１４に供給する。

フレーム分割部１４は、A/D変換器１３から検出対象の、例えば、10フレーム分の音信号が供給されると、ステップＳ１において、フレーム数をカウントする変数であるフレームカウンタfを初期値である1に初期化する。

さらに、ステップＳ１では、特徴量比較部１６_i(1≦i≦9)が特徴量#iの最大値を記憶する変数である最大特徴量#iを初期値としての0に初期化するとともに、特徴量#iが最大のフレームを表す最大フレーム番号#iを初期値としての0に初期化して、処理は、ステップＳ２に進む。

ステップＳ２において、フレーム分割部１４は、A/D変換器１３から供給される検出対象の音信号を、例えば、10フレーム等のNフレームに分割し、その結果得られるフレームごとの音信号を、特徴量算出部１５とフレームメモリ１８に、順次、供給する。そして、処理は、ステップＳ２からステップＳ３に進む。

ステップＳ３において、フレームメモリ１８は、フレーム分割部１４から供給される検出対象のフレームごとの音信号を記憶し、処理は、ステップＳ４に進む。

ステップＳ４において、特徴量算出部１５の特徴量算出部１５_iは、フレーム分割部１４から供給されるf番目のフレーム#fの音信号の特徴量#iを算出して、特徴量比較部１６_iに供給し、処理は、ステップＳ５に進む。

ステップＳ５において、特徴量比較部１６の特徴量比較部１６_iは、特徴量算出部１５_iから供給されるフレーム#fの特徴量#iと、保持している最大特徴量#iとを比較し、フレーム#fの特徴量#iが最大特徴量#iより大きいかを判定する。ステップＳ５において、フレーム#fの特徴量#iが最大特徴量#iより大きいと判定された場合、処理は、ステップＳ６に進み、特徴量比較部１６_iは、フレーム#fの特徴量#iで最大特徴量#iを更新するとともに、最大フレーム番号#iをフレーム#fのフレームの番号#fで更新し、処理は、ステップＳ７に進む。

一方、ステップＳ５において、フレーム#fの特徴量#iが最大特徴量#i以下であると判定された場合、特徴量比較部１６_iは、最大特徴量#iと最大フレーム番号#iをそのまま保持して、処理は、ステップＳ６をスキップして、ステップＳ７に進む。

ステップＳ７において、フレーム分割部１４は、フレームカウンタfを1だけインクリメントし、処理は、ステップＳ８に進む。

ステップＳ８において、フレーム分割部１４は、フレームカウンタfが検出対象のフレームの数Ｎより大きいかを判定する。ステップＳ８において、フレームカウンタfが検出対象のフレームの数Ｎ以下であると判定された場合、処理は、ステップＳ３に戻り、以下、同様の処理が繰り返される。

一方、ステップＳ８において、フレームカウンタfが検出対象のフレームの数Ｎより大きいと判定された場合、処理は、ステップＳ９に進み、特徴量比較部１６_iは、保持している最大フレーム番号#iに格納されている番号のフレーム、つまり、検出対象のNフレームのうちの特徴量#iが最大のフレームを、代表フレームとして選択し、そのフレームの番号と特徴量#iの番号#iを含む選択情報を、判定部１７に供給する。そして、処理は、ステップＳ９からステップＳ１０に進む。

ステップＳ１０において、判定部１７は、特徴量比較部１６₁乃至１６₉から供給される選択情報に基づいて、検出対象のＮフレームのそれぞれに対して、代表特徴量セット、すなわち、各フレームが代表フレームとなっている特徴量の組み合わせを検出する。そして、処理は、ステップＳ１０からステップＳ１１に進む。

ステップＳ１１において、判定部１７は、ステップＳ１０で検出した代表特徴量セットとしての特徴量の組み合わせに基づいて、入力音に所定の音が含まれるかを判定する。ステップＳ１１において、入力音に所定の音が含まれないと判定された場合、すなわち、代表特徴量セットに、標準特徴量セットが含まれない場合、A/D変換器１３からフレーム分割部１４に対して、新たな検出対象の音信号が供給されるのを待って、ステップＳ１に戻り、以下、同様の処理が繰り返される。

一方、ステップＳ１１において、入力音に所定の音が含まれると判定された場合、すなわち、代表特徴量セットに、標準特徴量セットが含まれる場合、判定部１７は、入力音に所定の音が含まれる旨の判定情報を、出力部１９に供給し、処理は、ステップＳ１２に進む。

ステップＳ１２では、出力部１９は、判定部１７から入力音に所定の音が含まれる旨の判定情報が供給されたのに対応して、検出対象のNフレームを、フレームメモリ１８から読み出して、その検出対象のNフレームの音信号に対応する入力音を外部に出力する。そして、処理は、A/D変換器１３からフレーム分割部１４に対して、新たな検出対象の音信号が供給されるのを待って、ステップＳ１に戻り、以下、同様の処理が繰り返される。

以上のように、検出装置１は、入力音の複数種類の特徴量を、フレームごとに算出し、複数種類の特徴量それぞれに対して、特徴量が算出される複数のフレームから、特徴量を代表するフレームである代表フレームを、特徴量に基づいて選択し、複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている特徴量の組み合わせである代表特徴量セットを検出し、その代表特徴量セットに基づき、例えば、あらかじめ決められた特徴量の組み合わせである標準特徴量セットが、代表特徴量セットに含まれるか否かによって、入力音に所定の音が含まれるかを判定するようにしたので、様々な音を精度よく検出することができる。

また、標準特徴量セットとしての特徴量の組み合わせを変えることだけで、入力音から検出する音を容易に変更することができる。

なお、特徴量比較部１６_iは、特徴量#iが最大となるフレームを代表フレームとして選択するようにしたが、その他、特徴量が２番目に大きいフレームも、代表フレームとして選択するようにしてもよい。その場合、例えば、所定の音が、検出対象のNフレームのうちの連続する２フレームにわたって連続して発生したことや、離れた２つのフレームで、断続的に発生したこと等を検出することが可能となる。

また、出力部１９は、入力音に所定の音が含まれると判定された場合に、検出対象の10フレームの入力音のすべてを出力するようにしたが、その他、検出対象の10フレームのうちの、標準特徴量セットを含む代表特徴量セットが得られたフレーム、つまり、所定の音が含まれるフレームのみの入力音を出力するようにしてもよい。

また、本実施の形態では、検出対象のフレームの数Nを10フレームとしたが、検出対象のフレームの数Nは、10フレームより大又は小であっても良い。

さらに、本実施の形態では、フレームの時間長を１秒としたが、フレームの時間長は、１秒より大又は小であってもよい。

また、本実施の形態では、フレームを等分するブロックの数を10ブロックとしたが、フレームを等分するブロックの数は10ブロックより大又は小であっても良い。

なお、検出対象のフレームの数Nや、フレームの時間長、フレームを等分するブロックの数は、例えば、検出しようとする音や、音を検出する環境等に応じて、調整可能なようにしておくことができる。

さらに、本実施の形態では、検出装置１において、９種類の特徴量#1乃至#9を用いることとしたが、検出装置１で用いる特徴量の種類の数は、９種類に限定されるものではなく、検出装置１で用いる特徴量も、特徴量#1乃至#9に限定されるものではない。

また、本実施の形態では、出力部１９において、入力音から所定の音が検出された場合（入力音に所定の音が含まれると判定された場合）に、フレームメモリ１８に記憶された入力音を出力するようにしたが、出力部１９では、入力音から所定の音が検出された場合に、その旨のメッセージの表示や、警告音の出力等を行うようにすることが可能である。このように、出力部１９において、メッセージの表示や警告音の出力を行う場合には、検出装置１は、例えば、セキュリティシステムに利用することができる。

さらに、例えば、マイクロフォン１１とともに、カメラを設置し、出力部１９では、入力音からの所定の音の検出に応じて、カメラで撮像された画像の表示や録画を開始することが可能である。この場合、検出装置１は、監視カメラシステムに利用することができる。

また、本実施の形態では、検出装置１において、時領域の特徴量としての特徴量#1乃至#8と、周波数領域の特徴量としての特徴量#9との両方を用いることとしたが、検出装置１では、時領域の特徴量、又は周波数領域の特徴量のうちのいずれか一方のみを用いることも可能である。

例えば、検出装置１において、時領域の特徴量のみを用いる場合、すなわち、例えば、時領域の特徴量#1乃至#8のみを、複数種類の特徴量として用いる場合には、判定部１７に、その時領域の特徴量#1乃至#8のうちの２種類以上の特徴量の組み合わせが、標準特徴量セットとして設定され、また、特徴量算出部１５において、検出対象の１０フレームの音信号それぞれから、時領域の特徴量#1乃至#8が算出され、判定部１７において、検出対象の１０フレームそれぞれについて、代表特徴量セットが検出される。

ここで、例えば、金属同士があたる音については、上述したように、特徴量#5，#6、及び#9が大きくなる傾向があるので、時領域の特徴量#1乃至#8と、周波数領域の特徴量#9との両方が用いられる場合には、標準特徴量セットとして、時領域の特徴量#5及び#6と、周波数領域の特徴量#9との組み合わせが、判定部１７に設定されるが、時領域の特徴量#1乃至#8のみが用いられる場合には、金属同士があたる音を検出する標準特徴量セットとして、時領域の特徴量#5及び#6と、周波数領域の特徴量#9との組み合わせのうちの、時領域の特徴量のみの組み合わせである特徴量#5及び#6の組み合わせが、判定部１７に設定される。

また、特徴量算出部１５において、検出対象の１０フレームの音信号それぞれから、例えば、図１１に示した時領域の特徴量#1乃至#8が算出されたとすると、判定部１７では、フレーム#2については、特徴量#1乃至#4及び#8の組み合わせが、フレーム#3については、特徴量#5及び#6の組み合わせが、フレーム#4については、特徴量#4が、それぞれ、代表特徴量セットとして検出される。なお、フレーム#1、及び#5乃至#10については、そのフレームを代表フレームとする特徴量が存在しないので、代表特徴量セットは検出されない。

いま、判定部１７において、上述したように代表特徴量セットが検出され、また、金属同士があたる音を検出する標準特徴量セットとして、時領域の特徴量#5及び#6の組み合わせが設定されている場合には、フレーム#3について検出された代表特徴量セットとしての特徴量#5及び#6の組み合わせに、金属同士があたる音を検出する標準特徴量セットとしての時領域の特徴量#5及び#6の組み合わせが含まれているので、入力音に所定の音（ここでは、金属同士があたる音）が含まれると判定される。

なお、検出装置１では、上述のように、時領域の特徴量のみを用いる他、周波数領域の特徴量のみを用いることも可能である。

ここで、検出装置１において、どのような種類の特徴量を用いるかは、例えば、検出しようとする音（さらには、将来的に検出することが予想される音）の性質を考慮して決めるのが望ましい。

また、上述の場合には、特徴量比較部１６において、検出対象の10フレームのうちの、特徴量#iが最大のフレーム（さらには、２番目に大きいフレーム）を、その特徴量#iの代表フレームとして選択するようにしたが、その他、例えば、特徴量#iの代表フレームは、検出対象の各フレームから算出された特徴量#iと、所定の閾値th2との大小関係に基づいて選択することができる。

特徴量比較部１６において、特徴量#iと、所定の閾値th2との大小関係に基づいて、代表フレームを選択する場合には、特徴量算出部１５から供給される、検出対象の10フレームそれぞれの特徴量#iが、例えば、0.0乃至1.0の範囲の値に正規化される。

すなわち、特徴量比較部１６は、検出対象の10フレームそれぞれの特徴量#iのうちの最大値から最小値を減算した減算値によって、検出対象の10フレームそれぞれの特徴量#iから特徴量#iの最小値を減算した値を除算することにより、検出対象の10フレームそれぞれの特徴量#iを、0.0乃至1.0の範囲の値に正規化する。

そして、特徴量比較部１６は、検出対象の10フレームそれぞれの正規化後の特徴量（以下、正規化特徴量ともいう）#iを、所定の閾値th2と比較し、例えば、その所定の閾値以上の正規化特徴量#iのフレームを、特徴量#iの代表フレームとして選択して、その選択の結果を表す選択情報を、判定部１７に供給する。

ここで、図１４は、検出対象の10フレームそれぞれから算出された図１１の特徴量#1乃至#9を正規化した正規化特徴量を示している。

所定の閾値th2を、例えば、0.7に設定した場合、特徴量#1乃至#9については、図１４において影を付して示す、特徴量（の値）が0.7以上のフレームが代表フレームとして選択される。

すなわち、特徴量#1についてはフレーム#2が、特徴量#2についてはフレーム#1及び#2が、特徴量#3については、フレーム#2が、特徴量#4についてはフレーム#2及び#4が、特徴量#5についてはフレーム#3が、特徴量#6についてはフレーム#2，#3、及び#5が、特徴量#7については、フレーム#2及び#4が、特徴量#8についてはフレーム#2が、特徴量#9についてはフレーム#3が、それぞれ、代表フレームとして選択される。

この場合、判定部１７では、フレーム#1について特徴量#2が、フレーム#2については特徴量#1乃至#4及び#6乃至#8の組み合わせが、フレーム#3については特徴量#5，#6、及び#9の組み合わせが、フレーム#4については特徴量#4及び#7の組み合わせが、フレーム#5については特徴量#6が、それぞれ、代表特徴量セットとして検出される。

なお、フレーム#6乃至#10は、特徴量#1乃至#9のうちのいずれの代表フレームにもなっていないので、フレーム#6乃至#10については、代表特徴量セットは検出されない。

そして、いま、判定部１７において、上述した車のドアを閉める音やブレーキの音等の第１の音に対して大きくなる傾向のある特徴量#1，#4、及び#7の組み合わせ、カラスの鳴き声や長時間のクラクションの音等の第２の音に対して大きくなる傾向にある特徴量#2，#3、及び#5の組み合わせ、金属同士があたる音等の第３の音に対して大きくなる傾向のある特徴量#5，#6、及び#9の組み合わせ、又は短いクラクションの音や、救急車のサイレンの音、ブレーキの音等の第４の音に対して大きくなる傾向のある特徴量#1及び#8の組み合わせのそれぞれが、標準特徴量セットとして設定されているとする。

この場合、判定部１７では、上述したフレーム#1乃至#5について検出された代表特徴量セットに基づき、第１の音を含むフレームとして、フレーム#2が検出され、第２の音を含むフレームはないことが検出される。さらに、判定部１７では、第３の音を含むフレームとして、フレーム#3が検出され、第４の音を含むフレームとして、フレーム#2が検出される。

なお、閾値th2を0.7に限定する必要はなく、0と1の間の任意の値とすることが可能である。また、この閾値th2 の値を小さくすると、所定の音を検出する頻度がより大となる。

さらに、閾値th2は、特徴量#1乃至#9それぞれごとに設けることが可能である。ただし、上述したように、特徴量#1乃至#9のすべてに対して、同一の閾値th2を用いる方が、閾値th2の調整が容易となる。

また、正規化特徴量を用いることで、環境音のレベルが変化しても、適応的に、所定の音を検出することができる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３１，ROM（Read Only Memory）３２，RAM（Random Access Memory）３３は、バス３４により相互に接続されている。

バス３４には、さらに、入出力インタフェース３５が接続されている。入出力インタフェース３５には、キーボード、マウス、マイクロフォンなどよりなる入力部３６、ディスプレイ、スピーカなどよりなる出力部３７、ハードディスクや不揮発性のメモリなどよりなる記憶部３８、ネットワークインタフェースなどよりなる通信部３９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア４１を駆動するドライブ４０が接続されている。

以上のように構成されるコンピュータでは、CPU３１が、例えば、記憶部３８に記憶されているプログラムを、入出力インタフェース３５及びバス３４を介して、RAM３３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD−ROM(Compact Disc−Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア４１に記録して、あるいは、ローカルエリアネットワーク、インターネット、ディジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア４１をドライブ４０に装着することにより、入出力インタフェース３５を介して、記憶部３８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３９で受信し、記憶部３８にインストールすることができる。その他、プログラムは、ROM３２や記憶部３８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用した検出装置の一実施の形態の構成例を示すブロック図である。特徴量#1を説明する図である。特徴量#2を説明する図である。特徴量#3を説明する図である。特徴量#4を説明する図である。特徴量#5を説明する図である。特徴量#6を説明する図である。特徴量#7を説明する図である。特徴量#8を説明する図である。特徴量#9を説明する図である。特徴量#1乃至#9の算出結果を示す図である。判定部１７が検出した特徴量の組み合わせを示す図である。検出装置１による検出処理を説明するフローチャートである。特徴量比較部１６が算出した正規化特徴量#1乃至#9を示す図である。本発明を適用したコンピュータのハードウェアの構成例を示すブロック図である。

符号の説明

１検出装置，１１マイクロフォン，１２増幅器，１３ A/D変換器，１４フレーム分割部，１５，１５₁乃至１５₉ 特徴量算出部，１６，１６₁乃至１６₉ 特徴量比較部，１７判定部，１８フレームメモリ，１９出力部，３１ CPU，３２ ROM，３３ RAM，３４バス，３５入出力インタフェース，３６入力部，３７出力部，３８記憶部，３９通信部，４０ドライブ，４１リムーバブルメディア

Claims

入力音に含まれる所定の音を検出する検出装置において、
前記入力音の複数種類の特徴量を、フレームごとに算出する特徴量算出手段と、
前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択する選択手段と、
前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定する判定手段と
を備える検出装置。
前記選択手段は、前記複数のフレームのうちの、前記特徴量が最大のフレームを、前記代表フレームとして選択する
請求項１に記載の検出装置。
前記選択手段は、前記複数のフレームのうちの、前記特徴量が２番目に大きいフレームも、前記代表フレームとして選択する
請求項２に記載の検出装置。
前記選択手段は、前記特徴量と所定の閾値との大小関係に基づいて、前記複数のフレームから、前記代表フレームを選択する
請求項１に記載の検出装置。
前記入力音に前記所定の音が含まれると判定された場合に、前記入力音を出力する出力手段をさらに備える
請求項１に記載の検出装置。
前記出力手段は、前記複数のフレームの入力音のすべて、又は、前記複数のフレームのうちの、前記所定の音が含まれるフレームの入力音のみを出力する
請求項５に記載の検出装置。
前記特徴量算出手段は、
フレーム内の隣接する２つの極値点の間の前記入力音のレベルの差の最大値、
フレーム内の隣接する２つの極値点の間の前記入力音の波形である半波長のうちのゼロクロスがある半波長の割合、
フレームを等分する複数のブロックのうちの前記入力音のレベルのダイナミックレンジが最大のブロックと最小のブロックとの間の、ゼロクロスがある半波長の割合の差、
フレーム内の複数のブロックのうちの前記入力音のレベルの絶対値の最大値が最小のブロックと最大のブロックとの間の、前記入力音のレベルの絶対値の最大値の差、
フレーム内の複数のブロックのうちのゼロクロスの数が最小のブロックと最大のブロックとの間のゼロクロスの数の差、
フレーム内の複数のブロックのうちの半波長の数が最小のブロックと最大のブロックとの間の半波長の数の差、
フレーム内の複数のブロックのうちの前記入力音のダイナミックレンジが最大のブロックと最小のブロックとのダイナミックレンジの差から求められる閾値以下のダイナミックレンジを有するブロックの割合、
フレーム内の複数のブロックのうちのゼロクロスがある半波長の割合が最小のブロックと最大のブロックとの間のゼロクロスがある半波長の割合の差、
又は、フレーム内の複数のブロックのうちの隣接する２つのブロックのスペクトラムの間の、同一の周波数成分の差の絶対値和の最大値
のうちの２種類以上を、前記複数種類の特徴量として算出する
請求項１に記載の検出装置。
前記判定手段は、前記特徴量の組み合わせに、あらかじめ決められた２種類以上の特徴量が含まれている場合に、前記入力音に前記所定の音が含まれると判定する
請求項１に記載の検出装置。
入力音に含まれる所定の音を検出する検出方法において、
前記入力音の複数種類の特徴量を、フレームごとに算出し、
前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択し、
前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定する
ステップを含む検出方法。
入力音に含まれる所定の音を検出する検出処理をコンピュータに実行させるプログラムにおいて、
前記入力音の複数種類の特徴量を、フレームごとに算出し、
前記複数種類の特徴量それぞれに対して、前記特徴量が算出される複数のフレームから、前記特徴量を代表するフレームである代表フレームを、前記特徴量に基づいて選択し、
前記複数のフレームのそれぞれに対して、そのフレームが代表フレームとなっている前記特徴量の組み合わせを検出し、前記特徴量の組み合わせに基づいて、前記入力音に前記所定の音が含まれるかを判定する
ステップを含む検出処理をコンピュータに実行させるプログラム。