JP2016095434A

JP2016095434A - 報知音感知・識別装置、報知音感知・識別方法、報知音感知・識別プログラム

Info

Publication number: JP2016095434A
Application number: JP2014232317A
Authority: JP
Inventors: 悠馬小泉; Yuma Koizumi; 桂右井本; Keisuke Imoto; 尚植松; Hisashi Uematsu; 仲大室; Hitoshi Omuro
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-17
Filing date: 2014-11-17
Publication date: 2016-05-26
Anticipated expiration: 2034-11-17
Also published as: JP6367691B2

Abstract

【課題】周囲で発生した音が報知音であるかないかをより厳密に判断し、その報知音の種類を識別する装置、方法、プログラムを提供する。
【解決手段】報知音感知・識別装置１００は、報知音感知部、特徴抽出部１３０、記憶部１９０、報知音識別部１４０を備える。報知音感知部は、音響信号のあらかじめ定めた周波数帯の中に、あらかじめ定めた条件を満たすパワーのピークとなる周波数が存在するかを確認する。特徴抽出部１３０は、音響信号のピークとなる周波数の時間パターンに基づいた報知音特徴量を出力する。記憶部１９０は、照合報知音特徴量と報知音ＩＤとを対応付けた組をあらかじめ記録しておく。報知音識別部１４０は、入力報知音特徴量を照合報知音特徴量ごとに対比することで一致率を求める。一致率が高い照合報知音特徴量があるときは、最も一致率の高い照合報知音特徴量に対応付けられた報知音ＩＤを出力する。
【選択図】図７

Description

本発明は、周囲で発生した音声や音響を感知し、識別する技術に関する。より詳しくは、時計や家電のアラーム音、玄関のチャイム、火災警報器の警報音、電話の着信音、自動車のクラクション、注意を喚起する笛の音などが発生したときに、その音の発生を感知し、識別する報知音感知・識別装置、報知音感知・識別方法、報知音感知・識別プログラムに関する。

人は何らかの情報を伝達する際、日常動作に伴う音や自然界に存在する音とは特徴の異なる音を発生させることが多い。例えば目覚まし時計の「ピピピッ」という音、玄関チャイムの「ピンポーン」という音などがある。本明細書では、これらを総称して「報知音」と呼ぶ。

しかし、聴覚障がいのある人にとっては、報知音が発生してもそれを聞くことができず、日常生活に不便を生じるだけでなく、身に危険が生じる可能性もある。この問題に対して、マイクで収音した報知音を振動に変えて呈示する従来技術として、非特許文献１の技術が知られている。例えば、スマートフォンや専用の機器をユーザが身につけ、マイクから取り込んだ音をソフトウェアで常時分析し、高域通過フィルタで帯域制限した信号のパワーが閾値以上の音を検知したときにはバイブレータを起動し、音の情報を振動に変換してユーザに知らせるものである。

織田、古家、片岡「聴覚障害者支援を目的とした振動による報知音の伝達方法とその有効性」, 電子情報通信学会論文誌Ｄ, Vol.J89-D, No.12, pp.2671-2678.

非特許文献１の方法は、環境に遍在する雑音とは異なる報知音が発生したことを振動で伝えることで聴覚障がい者に一定の利便性を提供する一方で、(1)雑音と報知音とを閾値で分離しようとしたときに閾値の調整が困難であり、(2)検出した報知音が何を報知するかの識別は行わない、という問題があった。

図１は類似した異なる２つの報知音の例を表示した図である。図１（Ａ）は時間領域の波形を、横軸を時間、縦軸を振幅として示したもの、図１（Ｂ）は図１（Ａ）と同一時刻における時間周波数領域のデータを、横軸を時間、縦軸を周波数、濃淡を強度で示している。図１において左側の報知ベル１と右側の報知ベル２とはスペクトルの特徴ならびに鳴動パターンは互いに異なっている。しかし非特許文献１の方法ではベルが鳴動している／していないの鳴動パターンを振動として伝えるに留まっていて、それぞれの報知ベルのスペクトル的特徴を利用者に通知することはできない。また鳴動パターンの正確な識別は利用者自身の記憶に依存するものとなる。従って、発生頻度の低い報知音が発生すると、利用者は普段思い出しやすい報知音と混同しやすくなる課題があった。

本発明はこのような状況に鑑み、周囲で発生した音が報知音であるかないかをより厳密に判断し、その報知音の種類を識別することを目的とする。

本発明の報知音感知・識別装置は、報知音感知部、特徴抽出部、記憶部、報知音識別部を備え、入力された音響信号に含まれた報知音を感知・識別する。報知音感知部は、音響信号に、あらかじめ定めた周波数帯の中に、あらかじめ定めた条件を満たすパワーのピークとなる周波数が存在するかを確認し、存在するときは報知音を感知したことを示す感知情報を出力する。特徴抽出部は、報知音感知部が報知音を感知した時刻を含む音響信号のピークとなる周波数の時間パターンに基づいた報知音特徴量を出力する。記憶部は、報知音ＩＤが既知の報知音を含む音響信号の報知音特徴量である照合報知音特徴量と当該報知音ＩＤとを対応付けた組を、あらかじめ１組以上記録しておく。報知音識別部は、感知・識別の対象である音響信号の報知音特徴量である入力報知音特徴量を、前記照合報知音特徴量ごとに対比することで一致率を求める。そして、一致率の中に、一致率が高いことを示す所定範囲の照合報知音特徴量があるときは、最も一致率の高い照合報知音特徴量に対応付けられた報知音ＩＤを出力する。

本発明の報知音感知・識別装置によれば、報知音のスペクトルだけでなく、その時間変化も含めて報知音を感知・識別する。よって、人の日常動作に伴う音や自然界に存在する音がある環境において、報知音が鳴ったことを、正確に感知・識別できる。

類似した異なる２つの報知音の例を表示した図。オフィスで一定時間録音した音の例を示す図。図２の時刻２−Ａ、２−Ｂにおけるパワースペクトルを示す図。図１の時刻１−Ａ、１−Ｂにおけるパワースペクトルを示す図。雑音下で観測される報知音を含んだ音響信号のスペクトルの概念図。観測スペクトルからピークを検出する処理の概要を示す図。報知音感知・識別装置の機能構成例を示す図。判定部の詳細な構成例を示す図。学習時の報知音感知・識別装置の処理フローを示す図。識別時の報知音感知・識別装置の処理フローを示す図。図３に示したスペクトルに対してステップＳ１１１〜Ｓ１１７の処理を行った後の周波数スペクトルを示す図。音響信号のピークとなる周波数の時間パターンＦ（ｋ,τ）の例を示す図。時間パターンＦ（ｋ,τ）に基づいて報知音特徴量Θ（ｋ，ｔ）を求めた例を示す図。照合報知音特徴量Θ’（ｋ，ｔ）と比較報知音特徴量Θ（ｋ，ｔ）の例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜報知音の分析＞
まず、報知音の特徴を分析する。図２は、オフィスで一定時間録音した音の例で、図２（Ａ）は時間領域の波形を、横軸を時間、縦軸を振幅として示した図、図２（Ｂ）は時間周波数領域のデータを、横軸を時間、縦軸を周波数、濃淡を強度として示した図である。時刻２−Ａ付近は、携帯電話の着信音が鳴ったとき波形を示している。音を言葉で表現すると、ピピピッピピピッ、ピピピッピピピッ、ピピピッピピピッ、ピピピッピピピッといった感じである。それ以外の時間は、オフィスにおける通常業務で発生するノイズ（オフィスノイズ）であり、定常的な音もあれば、突発性で音量の大きいノイズ（時刻２−Ｂ付近）も発生している。

図２のような状況においては、報知音感知・識別装置には、携帯電話の着信音が鳴ったときに報知音を感知し、学習時には報知音が鳴った区間のみを登録し、識別時にはそれが登録されたどの報知音なのかを示す識別情報を出力することが求められる。またそれ以外の時間帯では識別情報を出力しないことが求められる。

図３は、図２の時刻２−Ａ、２−Ｂにおけるパワースペクトルを図示したもので、横軸が周波数（ｋＨｚ）、縦軸がパワー（ｄＢ）である。報知音の波形である時刻２−Ａの時刻の波形は、突発性ノイズの波形である時刻２−Ｂの波形に対して顕著な特徴があり、２．８ｋＨｚ付近と５．６ｋＨｚ付近にピークを持つスペクトル構造をしていることが分かる。時刻２−Ｂの波形ではそのような特徴は認められない。

図４は、図１（類似した異なる２つの報知音の例を表示した図）の時刻１−Ａ、１−Ｂにおけるパワースペクトルを図３と同様に図示したものである。図１の時間波形では二種類の報知音に差異はないように見られたが、時刻１−Ａのスペクトルには１．４ｋＨｚ付近にピークが、時刻１−Ｂのスペクトルには１．２ｋＨｚ付近にピークがあることが分かる。さらに、図１（Ｂ）より、それらピークの継続時間や間欠時間も、報知音を識別する手がかりとなることが分かる。

これらの観察結果より、報知音をその他の周囲雑音の中から見つけるためには、１〜数か所の周波数にピークを持つ、すなわちパワーが集中した音であるかどうかを見分ければよい。また、あらかじめ登録した報知音と、検出した報知音が同一のものかを識別するためには、ピークの出現周波数や継続時間、間欠時間を比較すればよい。

＜周波数のピークを安定的に検出するための方法の検討＞
次に、雑音がある状況でも周波数のピークを安定的に検出するための方法について検討する。まず、雑音下での観測されるスペクトルＳ（ｋ）をモデル化する。ここでｋ∈｛１，２,…,Ｋ｝は周波数ビンのインデックスである。概念図を図５に示す。ただし図５中の「＊」は周波数軸上の畳み込み演算を表す。報知音のスペクトルＸ（ｋ）は周波数領域で、報知音に含まれる周波数成分にパワーを持つパルス（図５ではパルススペクトルと記載）に、報知音の音色および強度を表すスペクトル包絡が乗算され、さらに短時間フーリエ変換の際に用いられた切り出し窓の周波数特性が畳み込まれたものと考えられる。すると、環境雑音のスペクトルをＮ（ｋ）とし、環境雑音のスペクトルと報知音のスペクトルとは無相関と仮定すると、環境雑音のスペクトルは報知音のスペクトルに対して加法的に観測されるため、観測スペクトルＳ（ｋ）は、Ｓ（ｋ）＝Ｘ（ｋ）＋Ｎ（ｋ）のようにモデル化できる（図５参照）。

また、図３（Ｂ）の時刻２−Ｂのパワースペクトルから分かるように、環境雑音のスペクトルをＮ（ｋ）は明確なピークを持たないため、Ｓ（ｋ）からＮ（ｋ）のスペクトル包絡およびパワー情報を除去することで、Ｓ（ｋ）への雑音の影響を軽減できる。さらに、報知音を検出するためには、報知音スペクトルのピーク周波数とピーク数、すなわち報知音に含まれる周波数成分にパワーを持つパルスを検出すればよいため、報知音のスペクトル包絡およびスペクトル全体のパワー情報は検出には重要ではない。

以上の検討より、報知音スペクトルのパルスを検出するためには、観測スペクトルＳ（ｋ）から雑音および報知音のスペクトル包絡情報とパワー情報を取り除き、さらにスペクトル上のピークを検出すればよいことがわかる（図６参照）。

＜報知音感知・識別装置＞
図７に報知音感知・識別装置の機能構成例を、図８に判定部の詳細な構成例を示す。また、図９に学習時の報知音感知・識別装置の処理フローを、図１０に識別時の報知音感知・識別装置の処理フローを示す。報知音感知・識別装置１００は、報知音感知部１１０、特徴抽出部１３０、記憶部１９０、報知音識別部１４０を備え、入力された音響信号に含まれた報知音を感知・識別する。

＜報知音感知部＞
報知音感知部１１０は、音響信号に、あらかじめ定めた周波数帯の中に、あらかじめ定めた条件を満たすパワーのピークとなる周波数が存在するかを確認し、存在するときは報知音を感知したことを示す感知情報を出力する（Ｓ１１０）。報知音は一般に、ブーという低い音ではなく、図３の時刻２−Ａの波形に見られるようにピーという比較的高い音が用いられることから、あらかじめ定めた周波数帯は、第一の周波数ω_Ｌ（例えば、１．０ｋＨｚ）から、第二の周波数ω_Ｈ（例えば６．０ｋＨｚ）とすればよい。そしてその周波数帯に１〜Ｎか所程度（Ｎの具体的な値は、使用環境や使用目的などを考慮して実験的に求めるのがよいが、６程度がよいと思われる）の周波数にピークを持つ（パワーが集中した）音であると判断したら、感知情報を出力すればよい。あらかじめ定めた条件についての詳細は後述するが、周波数のピークに関する閾値を定め、閾値以上または閾値を超える周波数のピークが満たす条件を決めればよい。

ここで、報知音感知部１１０について更に詳細に説明する。上述の「周波数のピークを安定的に検出するための方法の検討」に示したように、報知音感知部１１０は、環境中の音響信号を短時間フレーム単位でフーリエ変換を適用して周波数分析し、その短時間スペクトルから報知音の特徴を得る処理を行えばよい。そこで、報知音感知部１１０は、例えば、第一ＦＦＴ部１１１、対数パワースペクトル計算部１１２、逆ＦＦＴ部１１３、窓かけ部１１６、第二ＦＦＴ部１１７、判定部１２０を備えればよい。第一ＦＦＴ部１１１、対数パワースペクトル計算部１１２、逆ＦＦＴ部１１３で、ケプストラム計算部１１５を構成している。ケプストラム計算部１１５は、入力された音響信号に対するケプストラムを求める（Ｓ１１５）。なお、ＦＦＴは、Fast Fourier Transformの略であり、高速フーリエ変換を表す。

入力される音響信号ｓ（ｎ）はＰＣＭなどのディジタル形式であり、フレームと呼ばれる一定の時間毎に区切られている。ここでｎ∈｛１，２,…,Ｎ｝は時間領域での時間インデックスであり、Ｎは最大サンプル数である。サンプリング周波数は任意の値を利用してよいが、１ｋＨｚから６ｋＨｚの周波数特性を分析するには、１６ｋＨｚ以上でサンプリングするのが適当である。以下、サンプリング周波数が１６ｋＨｚであることを前提として説明する。フレーム長も任意の値を利用してよく、例えば、５ｍｓ（１６ｋＨｚサンプリングの場合は、８０サンプル）、１０ｍｓ（同、１６０サンプル）、２０ｍｓ（同、３２０サンプル）、３２ｍｓ（同、５１２サンプル）などが利用できる。

第一ＦＦＴ部１１１は、短時間フーリエ変換の手法を用いて、入力音響信号ｓ（ｎ）を周波数スペクトルＳ（ｋ）に変換する（Ｓ１１１）。このとき、フーリエ変換の窓長はフレーム長以上にする。対数パワースペクトル計算部１１２は、Ｓ（ｋ）を対数尺度のパワースペクトルに変換する（Ｓ１１２）。逆ＦＦＴ部１１３は、それを逆フーリエ変換して時間領域の信号ｃ（ｎ）に戻す（Ｓ１１３）。逆ＦＦＴ部の出力ｃ（ｎ）はＦＦＴケプストラム係数（以下、単に「ケプストラム」）と呼ばれ、第一ＦＦＴ部１１１から逆ＦＦＴ部１１３までがケプストラム計算部１１５である。ケプストラムの計算方法の詳細は、一般に広く知られている方法を用いることができる。ケプストラム分析およびケプストラムに窓かけをする手法については、例えば文献（古井貞熙, “ディジタル音声処理” 東海大学出版会, 2003年, pp.44-47.）に記載されている。

窓かけ部１１６は、ケプストラムに重み付けをし、重み付けケプストラムを求める（Ｓ１１６）。具体的には、あらかじめ決められた窓関数（リフター）を用いて、ケプストラムｃ（ｎ）に重みを掛けた重み付けケプストラムｗ（ｎ）ｃ（ｎ）を出力すればよい。ケプストラムの値ｃ（ｎ）は、ｎが小さい領域はスペクトルの傾きや緩やかな概形（スペクトル包絡）を、ｎが大きくなるにつれてスペクトルの微細構造を表すことが知られている。ｎの値に応じた重み係数を乗算（リフタリング）することによって、スペクトル包絡や微細構造を強調／除去できることが知られている。報知音感知部１１０では、スペクトルのピーク、すなわち微細構造を取得することが目的なので、ｎが小さい領域の重みがそれ以外の領域よりも小さくなるリフターを利用すればよい。例えば、インデックスＮ_ｃ，Ｎ_ｈ（ただし、Ｎ_ｃ＜Ｎ_ｈ）で制御される方形窓

を利用できる。フレーム長を３２ｍｓ（５１２サンプル）、フーリエ変換の窓長を１０２４サンプルの場合、Ｎ_ｃの値を例えば１０、Ｎ_ｈの値を例えば１００〜４００に設定すればよい。方形窓以外にも、例えば、ｎの値によってゆるやかにｗ（ｎ）の値が変化する窓関数（例えば、ハミング窓やハニング窓など）を用いてもよい。

第二ＦＦＴ部１１７は、重み付けケプストラムｗ（ｎ）ｃ（ｎ）を再度周波数領域にフーリエ変換した信号Ｃｗ（ｋ）を出力する（Ｓ１１７）。図１１に、図３に示したスペクトルに対してステップＳ１１１〜Ｓ１１７の処理を行った後のあらかじめ定めた周波数帯ω_Ｌ〜ω_Ｈを含む範囲の周波数スペクトルを示す。図１１（Ａ）は図３（Ａ）に示した時刻２−Ａのスペクトルの場合、図１１（Ｂ）は時刻２−Ｂのスペクトルの場合を示している。図１１（Ａ）より、報知音である時刻２−Ａの音響信号からは、急峻なピークを検出できていることが分かる。また、図１１のＣａは閾値である。

判定部１２０は、ＫＬ≦ｋ≦ＫＨの範囲の各Ｃｗ（ｋ）の値を調べ、あらかじめ決めた閾値Ｃａを超える（以上でもよい。以下同じ）値があるときには、閾値Ｃａを超えるピークがあらかじめ定めた条件を満たすときは感知情報ａ（例えばａ＝１）を出力する。閾値Ｃａを超える値がないときやあらかじめ定めた条件を満たさないときは、感知情報ａ（例えばａ＝０）を出力する（Ｓ１２０）。ただし、ＫＬはω_Ｌ、ＫＨはω_Ｈにそれぞれ対応する周波数ビンのインデックスである。このように、報知音感知部１１０は、重み付けケプストラムｗ（ｎ）ｃ（ｎ）を用いてピークとなる周波数が存在するかを確認する。

＜判定部＞
ここで、判定部１２０および「あらかじめ定めた条件」について詳細に説明する。例えば、判定部１２０は、ピーク検出部１２１、メモリ１２４、総合判定部１２５で構成すればよい（図８参照）。また、ピーク検出部１２１はピーク数検出部１２２とピーク周波数検出部１２３で構成し、総合判定部１２５は連続音判定部１２６と間欠音判定部１２７で構成すればよい。

ピーク数検出部１２２は、ＫＬ≦ｋ≦ＫＨの範囲の各Ｃｗ（ｋ）の値を調べ、あらかじめ決めた閾値Ｃａを超える値がある場合には、ピーク数ａ_ｎを求める。なお、最大のピーク数を６のように決めておいてもよい。ピーク周波数検出部１２３は、最大ａ_ｎ個のピークの中心周波数ビンインデックスａ_ｋ（ν）を求め出力する（Ｓ１２１）。ただしνはν∈｛１，２,…,ａ_ｎ｝となるピークのインデックスである。なお、ピークの数とは、閾値Ｃａを超えたｋの個数ではなく、ｋの小さい（または大きい）ほうから順（または逆順）にＣｗ（ｋ）の値を調べ、閾値Ｃａを超えない状態からＣｗ（ｋ）の値が閾値Ｃａを超えた状態にかわり、次に閾値Ｃａを超えない状態になるまでを１つのピークとして数える。ピークの中心周波数ビンインデックスは、検出された各ピークでＣｗ（ｋ）の値が最大になる周波数インデックスとする。

メモリ１２４は、あらかじめ決められたフレーム数Ｔ（例えば１．５秒分に相当するフレーム数）にわたってピーク数ａ_ｎ，中心周波数ビンインデックスａ_ｋ（ν）の値を蓄積し、総合判定部に送る。以降、説明の簡単のために、メモリ１２４から出力される蓄積されたピーク数と、ピークの中心周波数ビンインデックスに、周波数領域のフレームインデックスτ∈｛１，２,…,Ｔ｝を導入する。すなわち、時刻τ（フレームインデックスτで示される時刻）のピークの数をａ_ｎ（τ）、時刻τのピークの中心周波数ビンインデックスをａ_ｋ（ν_τ，τ）と表記する。ν_τ∈｛１，２,…,ａ_ｎ（τ）｝は時刻τでのピークのインデックスである。

ここで、大きさＫ×Ｔのビット行列

を導入して説明する。ただしｋ∈｛１，２,…,Ｋ｝，τ∈｛１，２,…,Ｔ｝である。このビット行列は、時刻τにおいて、周波数ビンインデックスａ_ｋ（ν_τ，τ）に値１、それ以外のビンで値０を持つ行列であり、音響信号のピークとなる周波数の時間パターンである。言い換えると、Ｆ（ｋ，τ）は、時刻（フレーム）ごとに、ピークではない周波数はピークではないことを示す値である第１の値（Ｆ（ｋ，τ）＝０）で表現し、ピークとなる周波数はピークであることを示す値である第２の値（Ｆ（ｋ，τ）＝１）で表現した時間パターンである。

報知音をより誤りなく感知するため、総合判定部１２５を連続音判定部１２６と間欠音判定部１２７で構成し、連続音と間欠音で異なる規則を決める。連続音としては、ピーという同じ音が一定時間継続する報知音（洗濯機、電子レンジなどの動作終了音など）のほか、ピーンポーンという音程が変わるインターフォンの呼び出し音、ピューピューと音程が連続的に変わる火災警報音、トゥルルルルやチリリリンといった複雑な音質の電話の着信音などが想定される。間欠音としては、ピピッ、ピピッ、という目覚まし時計、キッチンタイマー、携帯電話の着信音などが想定される。図１２に、音響信号のピークとなる周波数の時間パターンＦ（ｋ,τ）の例を示す。図１２（Ａ）は連続音の報知音の例、図１２（Ｂ）は間欠音の報知音の例、図１２（Ｃ）は報知音以外の例を示している。これらの図では、白い部分がＦ（ｋ,τ）＝０、黒い部分がＦ（ｋ,τ）＝１を表している。図１２（Ａ）に示された音は、同じ音が長時間は継続せず、一定間隔で音程が変化するが、特定の周波数にパワーが集中する音が一定間隔は継続することによって、人は報知音であると認識する。図１２（Ｂ）の音は、音の鳴り始めから鳴り終わりまでの時間は一定以上継続しているが、一回一回の音が出ている時間は短時間である。しかし、同じ音が規則正しく間欠的に鳴ることによって、人は報知音であると認識する。

以上の特徴から、報知音を判定するためには、現在のフレームτのピーク数ａ_ｎ（τ），中心周波数ビンインデックスａ_ｋ（ν_τ，τ）の値と、過去のフレームτ’のピーク数ａ_ｎ（τ’），中心周波数ビンインデックスａ_ｋ（ν_τ’，τ’）の値の履歴を利用し、あらかじめ決められた、連続音と間欠音それぞれの規則（「あらかじめ定めた条件」に相当）を参照することにより、報知音が発生したかどうかを判定できる。規則に適合するピーク数ａ_ｎ（τ），中心周波数ビンインデックスａ_ｋ（ν_τ，τ）が得られたときは報知音を感知したことを示す感知情報ａ（例えばａ＝１）と感知された時点までに蓄積されたピーク数ａ_ｎ（τ），中心周波数ビンインデックスａ_ｋ（ν_τ，τ）（ｋ∈｛１，２,…,Ｋ｝，τ∈｛１，２,…,Ｔ｝）を特徴抽出部１３０へ送り、それ以外の場合は、報知音が感知されていないことを示す感知情報ａ（例えばａ＝０）を出力する（Ｓ１２５）。

連続音検出の規則には例えば、「連続でＴ_ｃｏｎｔフレーム以上、ピークの数ａ_ｎ（τ）が１以上のときに報知音が発生したものと判定する。」などが考えられる。例えば、Ｔ_ｃｏｎｔ＝１０でフレーム長が３２ｍｓのときは、３２０ｍｓ以上連続して周波数のピークが検出されると報知音を感知したと判断される。間欠音を検出する規則には例えば、「あらかじめ決められた過去一定時間内に、Ｔ_{ｉｎｔｅｒｍ}フレーム以上ピーク数ａ_ｎ（τ）の値が０でない、中心周波数ビンインデックａ_ｋ（ν_τ，τ）が同一（または差があらかじめ決めた許容差以内。以下総称して同一と呼ぶ）のフレームの組を抽出し、当該フレーム間の時間差（フレーム番号の差）があらかじめ決めた所定の値以下の場合には、当該フレーム間は連続して同一の音が鳴っているとみなしたうえで、前記連続音を検出する規則を適用して報知音の発生を判定する。」などが考えられる。例えば、過去一定時間は過去６秒以内、Ｔ_{ｉｎｔｅｒｍ}は１０のように設定すればよい。

なお、「同一」の判定には、例えば、Ｆ（ｋ,τ）の相関関数などが使用できる。具体的には、Ｔ_{ｉｎｔｅｒｍ}フレーム以上ピーク数ａ_ｎ（τ）の値が０でないフレームのセット（すなわちＴ_{ｉｎｔｅｒｍ}分のＦ（ｋ,τ））を切り出し、それを正の時間方向にシフトしながら相関（正確には行列のため、要素積の和）を取る。すると、切り出したＦ（ｋ,τ）と、Ｆ（ｋ,τ）全体との相関関数を得ることができ、シフト量０の値を１とすれば正規化相関関数を得ることができる。シフト量０以外の最大ピークの値は類似度を表し「同一性」の特徴量となり、シフト量がその時間差を表している。このように、時間パターンＦ（ｋ,τ）を判定部１２０で求めた場合は、報知音感知部１１０からの出力に時間パターンＦ（ｋ,τ）を含めてもよい。

総合判定部１２５を連続音判定部１２６と間欠音判定部１２７で構成することで、食器やテレビ番組の音を報知音と判断する誤検出を減らすことができる。例えば、上述の連続音の規則の例で間欠音を認識しようとすると、Ｔ_ｃｏｎｔを極端に小さな値に設定する必要がある。すると、図１２（Ｃ）のような日常生活音の時間パターンＦ（ｋ,τ）が得られたときでも、報知音と誤って判断し、感知情報を出力してしまうことがある。連続音判定部１２６と間欠音判定部１２７は並列して両方動作させてもよいし、まず連続音判定部１２６を動作させ、報知音が発生したと判定されなかったときに間欠音判定部１２７を動作させてもよい。

＜特徴抽出部＞
特徴抽出部１３０は、報知音感知部１１０が報知音を感知した時刻を含む音響信号のピークとなる周波数の時間パターンに基づいた報知音特徴量を出力する（Ｓ１３０）。なお、ピークとなる周波数の時間パターンの具体例は、上述の時間パターンＦ（ｋ,τ）である。特徴抽出部１３０は、報知音を感知したことを示す感知情報ａ（例えばａ＝１）と感知された時点までに蓄積されたピーク数ａ_ｎ（τ），中心周波数ビンインデックスａ_ｋ（ν_τ，τ）（ｋ∈｛１，２,…,Ｋ｝，τ∈｛１，２,…,Ｔ｝）を判定部１２０から受け取り、パターンＦ（ｋ,τ）を生成する。ただし、判定部１２０の判断で時間パターンＦ（ｋ,τ）を使う場合は、判定部１２０が、蓄積されたピーク数ａ_ｎ（τ），中心周波数ビンインデックスａ_ｋ（ν_τ，τ）の代わりに、時間パターンＦ（ｋ,τ）を特徴抽出部１３０に送信してもよい。つまり、ピーク数ａ_ｎ（τ），中心周波数ビンインデックスａ_ｋ（ν_τ，τ）そのものでなくても、これらの情報が判定部１２０から特徴抽出部１３０に伝えればよい。

報知音識別部１４０では、特徴抽出部１３０が出力する報知音特徴量を用いて、事前に登録された報知音特徴量（照合報知音特徴量）と、感知された報知音特徴量（入力報知音特徴量）の一致率を評価する。また、上述のとおり、報知音には、特定の周波数に強度のピークがあり、その時間変化も考慮することでより正確に感知・識別できる。したがって、報知音特徴量としてはスペクトルピークの数と周波数、またその時間構造を示すものが有効である。例えば、時間パターンＦ（ｋ,τ）のような時間周波数領域でのピークの有無を２値で表現した特徴量（ビット行列）は有効である。したがって、報知音特徴量を、音響信号のピークとなる周波数の時間パターンＦ（ｋ,τ）自体としてもよい。

ただし、スペクトルピークの位置や強度は、ＦＦＴの切り出し位置やリフターの形状、方形窓のパラメータＮ_ｃ，Ｎ_ｈ、また環境ノイズなどに影響を受ける。そのため、単にビット行列の一致率を求めると、ピーク位置の揺らぎなどにより精度が低下する恐れがある。そこでピークの有無および位置の揺らぎを表現するために、時間パターンＦ（ｋ,τ）で表現されるビットを確率的に立ち上がったものと解釈し、Ｆ（ｋ,τ）に対してＢｅｒｕｎｏｕｌｌｉ（Θ（ｋ，ｔ））の生成モデルを仮定する。ここで、Ｂｅｒｕｎｏｕｌｌｉ（α）はパラメータαを持つベルヌーイ分布である。ベルヌーイ分布とは、確率αで１を出力し、確率（１−α）で０を出力する確率分布である。また、ｔは周波数領域の時間フレームインデックスである。

本発明では、報知音の周期パルススペクトルの解析結果である時間パターンＦ（ｋ,τ）と同じ大きさ（Ｋ×Ｔ）を持つパラメータ行列Θ（ｋ，ｔ）を、報知音特徴量として求める。Θ（ｋ，ｔ）は、「時間−周波数インデックス（ｋ，τ）で、Ｆ（ｋ，τ）＝１が解析されたとしても、実際にはそのピークは周辺の時間−周波数インデックスに存在した可能性もある」ことを表現できればよい。よって、Ｆ（ｋ，τ）＝１ならば、時間−周波数インデックス（ｋ，τ）周辺のΘ（ｋ，ｔ）にも０以上の値を与えればよい。これは、Ｆ（ｋ，τ）＝１を時間方向と周波数方向に「滲ませる」ことに相当する。図１３は、時間パターンＦ（ｋ,τ）に基づいて報知音特徴量Θ（ｋ，ｔ）を求めた例を示す図である。また、Ｆ（ｋ，τ）を、時刻（フレーム）ごとに、ピークではない周波数はピークではないことを示す値である第１の値（Ｆ（ｋ，τ）＝０）で表現し、ピークとなる周波数はピークであることを示す値である第２の値（Ｆ（ｋ，τ）＝１）で表現した時間パターンと表現すると、Θ（ｋ，ｔ）は、時間パターンＦ（ｋ，τ）のそれぞれの値を、確率分布に基づいた第１の値から第２の値の範囲の値に変更した時間パターンである。

上記の計算は、Ｆ（ｋ，τ）＝１ならば時間−周波数インデックス（ｋ，τ）を中心に減衰する非負の値を持つ関数で表現できる。それを、すべてのＦ（ｋ，τ）＝１となる時間−周波数インデックス（ｋ，τ）について計算し総和を取ればよい。この性質を満たす関数にはガウス関数などがあり、例えばΘ（ｋ，ｔ）は以下のように計算できる。

ここでσ^２は、「滲み」の大きさを表す非負のパラメータである（例えばσ^２＝３などに設定すればよい）。また、σ^２→０の極限を取ると、Ｆ（ｋ，ｔ）＝Θ（ｋ，ｔ）となり、Θ（ｋ，ｔ）はビット行列となる。すなわち、時間パターンＦ（ｋ，ｔ）自体を報知音特徴量とすることも、上記の変換に含まれる。

なお、ＴやＫが大きな値となると後述する報知音識別部の計算コストが増大するため、Θ（ｋ，ｔ）の情報をなるべく損失させないようサイズを圧縮してもよい。特に、計算の高速化などのためにσ^２＝０としたい場合には、時間パターンＦ（ｋ，ｔ）の隣接する周波数ビンや時間フレーム同士で論理積や論理和を取ることで、サイズ圧縮と、時間周波数方向への平滑化（滲みの作成）を疑似的に行い、報知音特徴量Θ（ｋ’，ｔ’）としてもよい。例えば、隣り合う２つの周波数ビンと２つの時間フレームで作られる２×２のビット行列を、１つのビットで表現するようにビット行列で表現される時間パターンＦ（ｋ，ｔ）を圧縮することを考える。このとき、２×２のビット行列の中のいずれかのビットが“１”であれば“１”、すべてのビットが“０”ならば“０”となるように論理和を取ればよい。このような圧縮を行えば、報知音特徴量Θ（ｋ’，ｔ’）の情報量は時間パターンＦ（ｋ，ｔ）の１／４となる。

＜記憶部＞
記憶部１９０は、報知音ＩＤが既知の報知音を含む音響信号の報知音特徴量を照合報知音特徴量として当該報知音ＩＤと対応付けた組を、あらかじめ１組以上記録しておく。報知音ＩＤとは、報知音の識別子を意味しており、報知音名（例えば、目覚まし時計、玄関チャイム、電話、火災警報など）を示す文字列でもよいし、それらを示す番号やアルファベットなどでもよい。記憶部１９０があらかじめ照合報知音特徴量と報知音ＩＤとを記録しておく学習時と、未知の報知音を識別する識別時があり、学習時と識別時で処理が異なる。

ユーザの指定によって報知音ＩＤと報知音特徴量を学習するときは、記憶部１９０には、学習することを示す命令（入力命令）、登録する報知音ＩＤ、および特徴抽出部で抽出された報知音特徴量として入力される。なお、記憶部１９０にあらかじめ記録される報知音特徴量を、照合報知音特徴量Θ’（ｋ，ｔ）と表現し、識別時に特徴抽出部１３０から出力される報知音特徴量と区別する。記憶部１９０は、例えば入出力制御部１９１と記録媒体１９２を備えればよい（図７参照）。入力命令は、何らかの変数ｉｏを媒介して渡すことができ、例えばｉｏ＝０などでよい。これらは入出力制御部１９１に渡され、報知音ＩＤと報知音特徴量Θ’（ｋ，ｔ）が対応付けられて記録媒体１９２に記録される（Ｓ１９０、図９参照）。記録媒体１９２は、コンピュータで読み取り可能な記録媒体であり、例えば磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどどのようなものでもよい。本発明の報知音感知・識別装置であれば、報知音感知部１１０で報知音を感知したときに報知音特徴量を記録できる。

報知音ＩＤと報知音特徴量を識別に用いるときは、引数に照合報知音特徴量を出力することを示す命令（出力命令）、出力する報知音ＩＤをとる。出力命令も、何らかの変数ｉｏを媒介して渡すことができ、例えばｉｏ＝１などでよい。報知音ＩＤは、学習時に入力した報知音ＩＤである。これらは入出力制御部１９１に渡され、報知音ＩＤに対応した照合報知音特徴量Θ’（ｋ，ｔ）が記録媒体１９２から読みだされ、出力される。なお、この記憶部１９０の処理は、後述するマッチング部１４２での処理（Ｓ１４２、図１０参照）の中で実行される。

＜報知音識別部＞
報知音識別部１４０は、感知・識別の対象である音響信号の報知音特徴量である入力報知音特徴量Θ（ｋ，ｔ）を、照合報知音特徴量Θ’（ｋ，ｔ）ごとに対比することで一致率を求める。そして、一致率の中に、一致率が高いことを示す所定範囲の照合報知音特徴量があるときは、最も一致率の高い照合報知音特徴量に対応付けられた報知音ＩＤを出力する（Ｓ１４０）。入力報知音特徴量Θ（ｋ，ｔ）とは、識別時に特徴抽出部１３０が出力する報知音特徴量であり、照合報知音特徴量Θ’（ｋ，ｔ）と区別するための表現である。

さらに具体的には、報知音識別部１４０は、初期制御部１４１とマッチング部１４２を備えればよい。初期制御部１４１には、判定部１２０の判定結果である感知情報ａと大きさＫ×Ｔ_０の入力報知音特徴量Θ（ｋ，ｔ）が入力される。ここで、Ｋは周波数ビンの数、Ｔ_０は入力信号の周波数領域の時間フレーム数である。報知音を感知していないことを示す感知情報ａ（例えばａ＝０）が入力されると、初期制御部１４１は値を返さないもしくは識別情報として不感知情報を出力し、報知音識別部１４０の処理を終了させる。報知音を感知したことを示す感知情報ａ（例えばａ＝１）が入力されると、初期制御部１４１は入力報知音特徴量Θ（ｋ，ｔ）をマッチング部１４２に送り、識別処理（マッチング）を開始させる（Ｓ１４１）。

マッチング部１４２は、記憶部１９０に記憶されているすべての照合報知音特徴量Θ’（ｋ，ｔ）と入力報知音特徴量Θ（ｋ，ｔ）を比較する。具体的には、まず、所望の報知音の報知音ＩＤを用いて記憶部１９０から大きさＫ×Ｔ_２の照合報知音特徴量Θ’（ｋ，ｔ）を読みだす。Ｔ_２は照合報知音特徴量Θ’（ｋ，ｔ）の周波数領域の時間フレーム数である。そして、Ｔ_１＜Ｔ_２となるように、入力報知音特徴量Θ（ｋ，ｔ）を時間方向に切り出し、大きさをＫ×Ｔ_１にする。切り出しの長さＴ_１は適宜決めればよく、例えばＴ_２が６秒分ならＴ_１を１．５秒分程度にすればよい。切り出し位置も適宜決めればよく、例えば切り出し前の中心時刻を中心時刻として持つように切り出しを行えばよい。ここで、切り出し後の入力報知音特徴量を、区別のために比較報知音特徴量Θ（ｋ，ｔ）と呼ぶことにする。

そして比較報知音特徴量Θ（ｋ，ｔ）と照合報知音特徴量Θ’（ｋ，ｔ）の一致率Ｍを評価する。まず、Θ’（ｋ，ｔ）を時間方向にｔ’シフトさせながら時間方向に長さＴ_１で切り出し、ｔ’ごとに比較報知音特徴量Θ（ｋ，ｔ）との一致率を求め、暫定一致率Ｍ_ｔｍｐとする。そして、すべてのｔ’に対する暫定一致率Ｍ_ｔｍｐで最大の暫定一致率Ｍ_ｔｍｐを、照合報知音特徴量Θ’（ｋ，ｔ）と比較報知音特徴量Θ（ｋ，ｔ）との一致率Ｍとする。ただしｔ’∈｛０，１，…，Ｔ_２−Ｔ_１｝である。この処理を、記憶部１９０に記憶されているすべての照合報知音特徴量Θ’（ｋ，ｔ）に対して実行する。図１４は、照合報知音特徴量Θ’（ｋ，ｔ）と比較報知音特徴量Θ（ｋ，ｔ）の例を示す図である。

報知音識別部１４０は、求めた一致率Ｍの中に、一致率が高いことを示す所定範囲の照合報知音特徴量Θ’（ｋ，ｔ）が存在する場合は、最も一致率の高い照合報知音特徴量Θ’（ｋ，ｔ）に対応付けされた報知音ＩＤと、識別情報として報知音を感知したことを示す感知情報ａ（例えばａ＝１）を出力する。一致率が高いことを示す所定範囲とは、あらかじめ定めた閾値Ｍ_ＴＨより大きい範囲、閾値Ｍ_ＴＨ以上の範囲などを意味している。求めた一致率Ｍの中に、一致率が高いことを示す所定範囲の照合報知音特徴量Θ’（ｋ，ｔ）が存在しない場合、報知音識別部１４０は値を返さない、もしくは識別情報として報知音を感知していないことを示す感知情報ａ（例えばａ＝０）を出力し、報知音識別部の処理を終了させる。

なお、一致率の尺度には様々なものが利用できる。例えばΘ（ｋ，ｔ）を確率行列とみなして一般化ＫＬダイバージェンスを用いて

のように算出できる。またより簡便な計算法として

のように計算してもよい。０＜Θ（ｋ，ｔ）＜１であることから、この尺度は０≦Ｍ≦１を満たすため、閾値Ｍ_ＴＨを容易に設定することができる（例えば０．５などに設定すればよい）。なお、Ｔ_１やＫが大きな値となると計算コストが増大する。計算コストによる問題が生じるときは、特徴抽出部の説明で示した情報量を圧縮した報知音特徴量を用いればよい。

本発明の報知音感知・識別装置によれば、報知音のスペクトルだけでなく、その時間変化も含めて報知音を感知・識別する。よって、人の日常動作に伴う音や自然界に存在する音がある環境において、報知音が鳴ったことを、正確に検知・識別することができる。つまり、聴覚障がい者に音以外の方法によって何の報知音が鳴ったかを正確に通知できる。また、聴覚障がい者向けのサービスに限らず健常者向けにも、報知音の発生源から離れた場所にいるときに、報知音の発生源の近くに本検知装置を置き、検知結果を例えば無線などの手段を用いて離れたユーザに通知できる。

［プログラム、記録媒体］
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００報知音感知・識別装置１１０報知音感知部
１１１第一ＦＦＴ部１１２対数パワースペクトル計算部
１１３逆ＦＦＴ部１１５ケプストラム計算部
１１６窓かけ部１１７第二ＦＦＴ部
１２０判定部１２１ピーク検出部
１２２ピーク数検出部１２３ピーク周波数検出部
１２４メモリ１２５総合判定部
１２６連続音判定部１２７間欠音判定部
１３０特徴抽出部１４０報知音識別部
１４１初期制御部１４２マッチング部
１９０記憶部１９１入出力制御部
１９２記録媒体

Claims

入力された音響信号に含まれた報知音を感知・識別する報知音感知・識別装置であって、
前記音響信号に、あらかじめ定めた周波数帯の中に、あらかじめ定めた条件を満たすパワーのピークとなる周波数が存在するかを確認し、存在するときは報知音を感知したことを示す感知情報を出力する報知音感知部と、
前記報知音感知部が報知音を感知した時刻を含む前記音響信号の前記ピークとなる周波数の時間パターンに基づいた報知音特徴量を出力する特徴抽出部と、
報知音ＩＤが既知の報知音を含む音響信号の報知音特徴量である照合報知音特徴量と当該報知音ＩＤとを対応付けた組を、あらかじめ１組以上記録した記憶部と、
感知・識別の対象である音響信号の報知音特徴量である入力報知音特徴量を、前記照合報知音特徴量ごとに対比することで一致率を求め、前記一致率の中に、一致率が高いことを示す所定範囲の照合報知音特徴量があるときは、最も一致率の高い照合報知音特徴量に対応付けられた報知音ＩＤを出力する報知音識別部と、
を備えた報知音感知・識別装置。
請求項１記載の報知音感知・識別装置であって、
前記時間パターンとは、時刻ごとに、ピークではない周波数はピークではないことを示す値である第１の値で表現し、ピークとなる周波数はピークであることを示す値である第２の値で表現した時間パターンである
ことを特徴とする報知音感知・識別装置。
請求項２記載の報知音感知・識別装置であって、
前記報知音特徴量とは、前記時間パターンのそれぞれの値を、確率分布に基づいた前記第１の値から前記第２の値の範囲の値に変更した確率分布時間パターンである
ことを特徴とする報知音感知・識別装置。
請求項１から３のいずれかに記載の報知音感知・識別装置であって、
前記報知音感知部は、
前記音響信号に対するケプストラムを求めるケプストラム計算部と、
前記ケプストラムに重み付けをし、重み付けケプストラムを求める窓かけ部と、
を備え、前記重み付けケプストラムを用いて前記ピークとなる周波数が存在するかを確認する
ことを特徴とする報知音感知・識別装置。
請求項１から４のいずれかに記載の報知音感知・識別装置であって、
前記報知音識別部は、初期制御部とマッチング部を備え、
前記初期制御部は、報知音を感知したことを示す感知情報を受信すると、前記入力報知音特徴量を前記マッチング部に送り、
前記マッチング部は、
前記入力報知音特徴量から、前記照合報知音特徴量の時間よりも短い時間分の報知音特徴量を切り出し、比較報知音特徴量とし、
照合報知音特徴量ごとに、前記比較報知音特徴量に対して当該照合報知特徴量を時間方向にシフトしながら複数の暫定一致率を求め、前記暫定一致率の中かで最も高い値を当該照合報知特徴量と前記比較報知音特徴量との一致率とする
ことを特徴とする報知音感知・識別装置。
入力された音響信号に含まれた報知音を感知・識別する報知音感知・識別方法であって、
記憶部に、報知音ＩＤが既知の報知音を含む音響信号の報知音特徴量である照合報知音特徴量を当該報知音ＩＤとを対応付けた組を、あらかじめ１組以上記録しておき、
入力された音響信号のあらかじめ定めた周波数帯の中に、あらかじめ定めた条件を満たすパワーのピークとなる周波数が存在するかを確認し、存在するときは報知音を感知したことを示す感知情報を出力する報知音感知ステップと、
前記報知音感知ステップで報知音を感知した時刻を含む前記音響信号の前記ピークとなる周波数の時間パターンに基づいた報知音特徴量を出力する特徴抽出ステップと、
感知・識別の対象である音響信号の報知音特徴量である入力報知音特徴量を、前記照合報知音特徴量ごとに対比することで一致率を求め、前記一致率の中に、一致率が高いことを示す所定範囲の照合報知音特徴量があるときは、最も一致率の高い照合報知音特徴量に対応付けられた報知音ＩＤを出力する報知音識別ステップと、
を実行する報知音感知・識別方法。
請求項１から５のいずれかに記載の報知音感知・識別装置としてコンピュータを機能させるための報知音感知・識別プログラム。