JP5767825B2 - 音処理装置および音処理方法 - Google Patents

音処理装置および音処理方法 Download PDF

Info

Publication number
JP5767825B2
JP5767825B2 JP2011043206A JP2011043206A JP5767825B2 JP 5767825 B2 JP5767825 B2 JP 5767825B2 JP 2011043206 A JP2011043206 A JP 2011043206A JP 2011043206 A JP2011043206 A JP 2011043206A JP 5767825 B2 JP5767825 B2 JP 5767825B2
Authority
JP
Japan
Prior art keywords
sound
gaussian distribution
cluster
abnormal
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011043206A
Other languages
English (en)
Other versions
JP2012181280A (ja
Inventor
康貴 田中
康貴 田中
田中 伸一
伸一 田中
益巳 谷本
益巳 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD. filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2011043206A priority Critical patent/JP5767825B2/ja
Publication of JP2012181280A publication Critical patent/JP2012181280A/ja
Application granted granted Critical
Publication of JP5767825B2 publication Critical patent/JP5767825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、観測音中の目的とする音を認識する際に用いて好適な音処理装置および音処理方法に関する。
従来、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音を識別する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて異常音と呼ぶ。
音響情報を用いた第1の監視方法として、大きな物音を検出するために、音圧レベルが閾値を超えたことを検知するようにした方法が知られている。この場合、周囲の騒音が音圧レベルに対して与える影響により誤検出が発生するおそれがある。また、検出が望まれる異常音は、必ずしも音圧レベルが高いとは限らず、十分な監視が達成されない可能性がある。
一方、第2の方法として、音の周波数に関する特徴を用いて異常音を検出する技術も既に知られている。例えば、予め異常音のサンプルデータから周波数に関する特徴を抽出してモデルを作成し、観測音とモデルとの類似性から異常音であるか否かを判別する。この場合、検出対象の音の種類毎にモデルを用意する必要があり、監視環境で想定される膨大な種類の異常音の全てに対してモデルを用意することが困難である。
上述した第1および第2の方法の問題を解決するために、正常状態の音のみを学習することで、学習された音以外の音を異常であると判定する技術が提案されている(特許文献1参照)。この特許文献1の技術を用いることで、未知の音に対して対応することが可能になる。一方、この特許文献1の方法では、高精度に異常音を識別するためには、適用する環境における日常音を予め十分に学習させる必要があり、運用開始までに時間を要する。
これに対して、運用開始後に採取された音響データを用いて追加学習を行うことで、認識精度を向上させるようにした技術が提案されている。例えば、特許文献2は、日常音ではないと判定された観測音を記録しておき、この記録した観測音を監視員などが聴いて異常音であるか否かを判定する。そして、異常音であると判定された場合に、追加学習として新たに異常音のモデルを構築することで、認識精度を向上させている。
また例えば、特許文献3は、日常音に対して特徴を示す値などが一定以上離れた音が観測された場合、観測された音を未知音として記録し、この記録した未知音を監視員などが聴いて日常音であるか否かを判定する。そして、日常音であると判定されると、この未知音も含めて新たにモデルを構築することで、認識精度を向上させている。
特許第4100413号明細書 特許第4412306号明細書 特許第4417318号明細書
しかしながら、上述の特許文献2および特許文献3の方法は、何れも、追加学習を行うために人の手を介在させる必要があるという問題点があった。また、経年などによる日常音の緩やかな変化への対応が困難であるという問題点があった。例えば、春期や夏期の日常音と、冬期の日常音とは異なると考えられる。特許文献2および特許文献3では、採取された音が日常音か否かの判定に人手が介在するため、このような、長時間掛けて緩慢に変化する音に対応することが困難である。
本発明は、上記を鑑みてなされたものであり、日常音のモデルの自動的な更新を可能とすることを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、日常音を特性に基づき複数のクラスタに分類し、複数のクラスタに基づき異常音の判定を行う音処理装置であって、新たに採取した採取音の特性が、複数のクラスタのうちセントロイドと特性との間のユークリッド距離が最も近いクラスタをガウス分布の表現に変換した第1のガウス分布に含まれる第1の確率が、第1のガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、第1のガウス分布を決定するパラメータ特性を用いて更新する更新手段と、第1の確率が、第1のガウス分布に含まれる、学習閾値よりも低い確率を示す値で表される異常音検出閾値の範囲外にある場合に、採取音を異常音であると判定する判定手段とを有することを特徴とする。
また、本発明は、日常音を特性に基づき複数のクラスタに分類し、複数のクラスタに基づき異常音の判定を行う音処理方法であって、新たに採取した採取音の特性が、複数のクラスタのうちセントロイドと特性との間のユークリッド距離が最も近いクラスタをガウス分布の表現に変換した第1のガウス分布に含まれる第1の確率が、ガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、第1のガウス分布を決定するパラメータ特性を用いて更新する更新ステップと、第1の確率が、第1のガウス分布に含まれる、学習閾値よりも低い確率を示す値で表される異常音検出閾値の範囲外にある場合に、採取音を異常音であると判定する判定ステップとを有することを特徴とする。
本発明によれば、日常音のモデルの自動的な更新が可能となるという効果を奏する。
図1は、本発明の実施形態を概略的に示す略線図である。 図2は、k−means法によるクラスタリングについて説明するための略線図である。 図3は、本発明の実施形態による日常音の初期学習処理を示す一例のフローチャートである。 図4は、クラスタGkの多次元ガウス分布fk(x|μ,Σ)での表現について説明するための略線図である。 図5は、異常音検出閾値qTによる判定をより具体的に説明するための略線図である。 図6は、本発明の実施形態による異常音検出処理および逐次学習処理を示す一例のフローチャートである。 図7は、本発明の実施形態による逐次学習処理および異常検出処理をより具体的な例を用いて示す略線図である。 図8は、本実施形態に適用可能な音処理装置の機能を示す一例の機能ブロック図である。
以下に添付図面を参照して、本発明に係る音処理方法の一実施形態を詳細に説明する。実施形態の説明に先んじて、以下の説明に用いる用語の定義を行う。先ず、「観測音」とは、監視装置によって観測された音であり、例えばマイクロホンを用いて検知エリアから採取された全ての音を指す。「日常音」とは、観測音の中で日常的に採取される音であり、例えば騒音などの環境音や、一般的な行動で発生する物音を指す。また、「異常音」とは、観測音の中で日常的には観測されない異常な音であり、例えばガラスなどを破壊する際に発生する破壊音や打撃音、また、一般的な行動では発生しないと考えられる物音を指す。
図1は、本発明の実施形態を概略的に示す。本実施形態に適用される音処理装置は、図1(a)に示されるように、予め、警備エリアなど音の検知エリアにおける日常音を、マイクロホンなどを用いて採取し、採取した日常音を特性に基づき特性値の分布として分類し、学習する。このとき、分布は、多次元のガウス分布として表現される。運用時には、図1(b)に示されるように、採取した音が学習により得られた分類に属するか否かを判定する。採取した音が分類に属しないと判定した場合には、異常音が検知されたものとして例えば警報通知を行う。一方、採取した音が分類に属すると判定した場合には、その音を用いて特性値の分布を更新し、逐次的に学習を行う。
本実施形態による音処理方法について、より具体的に説明する。日常音は検知エリア毎に異なるため、目的とする検知エリアの日常音の特性(例えば周波数特性)を学習して、異常音の識別を行う必要がある。日常音の学習は、一定期間に限られず、検知システム稼動中も逐次実行することによって、異常音の認識精度を保持できると考えられる。逐次学習の方法としては教師なし学習が適切である一方で、通常の逐次学習では学習データが増大するため、処理に支障を来たすおそれがある。そのため、学習データを増大させることなく学習できる方法が必要となる。
本実施形態では、逐次学習可能な教師なし学習として、一定期間の日常音をk−means法などを用いてクラスタリングし、得られた各クラスタを多次元ガウス分布で表現する。そして、新たに採取された音が日常音であると判定された場合に、その音に基づき、各クラスタの多次元ガウス分布を更新する。このとき、新たに採取された音の特性に対して、多次元ガウス分布により示される確率を閾値として与える。
(k−means法によるクラスタリング)
本実施形態では、音のクラスタリングを、k−means法を用いて行う。このk−means法によるクラスタリングについて、図2を用いて概略的に説明する。先ず、第1の処理として、クラスタリング対象の各データに対して、クラスタ数Kと、各クラスタのセントロイドとを初期値として与える。図2(a)の例では、50個の2次元ランダムデータに対してクラスタ数K=3を与え、各クラスタ10a、10bおよび10cに対して、セントロイド11a、11bおよび11cをそれぞれ与える。
次に、第2の処理として、採取された音の特性を示すデータ(以下、特に記載のない限り、単にデータと記述する)のそれぞれについて、各セントロイド11a、11bおよび11cそれぞれとの距離を求め、各データを、セントロイド11a、11bおよび11cのうち最も距離が近いセントロイドが属するクラスタにそれぞれ割り振る。その次に、第3の処理として、各クラスタにおいて、割り振られたデータに基づきセントロイドを求め、当該クラスタのセントロイドを更新する。
この第2の処理および第3の処理を繰り返し行い、各クラスタに対するデータの割り振りと、各セントロイドとの更新が無くなったら、処理を終了する。図2(b)は、反復演算回数を7回とし、上述した図2(a)の状態から第2および第3の処理を7回繰り返した場合の例を示す。各データが更新されたクラスタ10a’〜10c’にそれぞれ割り振られると共に、各クラスタ10a’〜10c’のセントロイドがそれぞれ更新されたセントロイド11a’〜11c’となる。
(初期設定)
図3は、本実施形態による日常音の初期学習処理を示す一例のフローチャートである。このフローチャートによる処理は、例えば、プログラムに従ったCPU(Central Processing Unit)の動作により実行される。
ステップS100において、検知エリアとして設定された領域で発生する日常音を、マイクロホンなどにより採取する。次のステップS101では、採取した音から、音の特性を表す情報を抽出する。本実施形態では、採取した音に対してスペクトラム分析を施し、音の特性を示す情報として周波数パラメータxm(m=1,2,…,M)を抽出する。以下では、M=16とし、周波数パラメータを16次元の値とする。抽出された周波数パラメータxmは、例えばHDD(Hard Disk Drive)やRAM(Random Access Memory)など所定の記憶媒体に蓄積される。
ステップS100およびステップS101の処理を、予め決められた必要なデータ数が蓄積されるまで繰り返す(ステップS102)。また、ステップS102で必要なデータ数の蓄積が完了したと判定された後に、その他の必要とされる日常音のデータを追加して蓄積してもよい(ステップS103)。例えば、電話やFAXの受信音などのような、予め周波数パラメータxmが分かっている日常音については、音を採取する過程を経ずに、当該周波数パラメータxmを記憶媒体に対して直接的に蓄積させることができる。
次のステップS104で、ステップS103までに蓄積されたデータに対してクラスタ数Kを与える。本実施形態において、クラスタ数Kの設定は、例えば次のようにして行う。検知エリアの日常音の周波数特性を基に、日常音を幾つかのクラスタに分類して学習することを考える。この場合、分類を行うクラスタ数Kは、例えば2〜3日間に検知エリアで発生した日常音を基に、最も分離精度の高い値を選択すればよい。このとき、クラスタGk(k=1,2,…,K)間の平均的な分離精度で判断するため、分離精度と異常音検出精度との関係は、分かり難い。そこで、本実施形態では、クラスタ数Kを、各クラスタに含まれるデータ数のばらつきが小さくなるように決定する。
クラスタ数Kが決定されると、処理はステップS105に移行される。ステップS105では、各クラスタGkにおけるセントロイドCk(k=1,2,…,K)の初期値を与える。セントロイドCkの初期値の選択方法としては、一般的に用いられる、乱数を用いる方法を適用することができる。
ステップS105で各クラスタGkに対応するセントロイドCkの初期値が与えられると、処理はステップS106に移行される。ステップS106では、図2を用いて説明したようにして、k−means法を用いて初期学習データのクラスタリングを行い、セントロイドCkと、クラスタGkとを決定する。k−means法による反復演算回数は、初期学習データ数、クラスタ数K、所要時間などに応じて設定することが考えられる。
次に、ステップS107で、ステップS106で決定した各クラスタGkを、多次元ガウス分布fk(x|μ,Σ)で表現する。本実施形態では、各クラスタGkに属するデータの分布の中心値(平均値)と、分布の分散共分散行列とを用いて、各クラスタGkを多次元ガウス分布fk(x|μ,Σ)に変換する(ステップS106A)。これにより、各クラスタGkを、それぞれ多次元ガウス分布fk(x|μ,Σ)のパラメータで表すことができる。
式(1)〜式(4)を用いて、クラスタGkの多次元ガウス分布fk(x|μ,Σ)への変換処理について説明する。先ず、初期学習データのm次元の周波数パラメータxを、各次元の値を用いて式(1)のように表す。また、クラスタGkの平均ベクトルμすなわちセントロイドCkを、各次元の値を用いて式(2)のように表す。式(3)は、式(1)に示した、クラスタGkに属する初期学習データのm次元のパラメータxmを用いて算出される、分散共分散行列である。
Figure 0005767825
Figure 0005767825
Figure 0005767825
クラスタGkが変換された多次元ガウス分布fk(x|μ,Σ)は、上述した式(1)〜式(3)を用いて、次式(4)のように表される。
Figure 0005767825
多次元ガウス分布fk(x|μ,Σ)は、式(2)および式(3)により分布が定義される。したがって、クラスタGkを多次元ガウス分布fk(x|μ,Σ)に変換することで、クラスタGkに属する全ての初期学習データを保持しなくとも、クラスタGkを特定することが可能である。
図4を用いて、クラスタGkの多次元ガウス分布fk(x|μ,Σ)での表現について説明する。図4(a)は、上述の図2(b)に対応するもので、パラメータを2次元とし、各データに対してクラスタ10a’〜10c’と、これら各クラスタ10a’〜10c’のセントロイド11a’〜11c’が決定された例を示す。
図4(b)は、図4(a)のクラスタ10a’〜10c’を、上述した式(1)〜式(4)に従い多次元ガウス分布fk(x|μ,Σ)で表現したクラスタ20a、20bおよび20cの例を示す。この場合、各クラスタ20a〜20cにおいて、それぞれの平均ベクトルμすなわちセントロイドC1、C2およびC3により中心位置が決まり、分散共分散行列Σにより広がりが決まる。そのため、図4(a)に示される、各初期学習データを保持する必要が無い。
以上のようにして初期学習データを各クラスタGkに分類し、これら各クラスタGkを多次元ガウス分布fk(x|μ,Σ)に変換することで、一連の初期学習処理が終了する。初期学習処理の結果、上述したように、各クラスタGkの平均ベクトルμ(セントロイドCk)と、クラスタGkに属する初期学習データから求めた分散共分散行列Σとが記憶媒体に保持される。各初期学習データ自体は、捨ててよい。
(異常音検出処理)
次に、本実施形態による、異常音検出処理および逐次学習処理について説明する。本実施形態では、異常音検出の運用を開始した後、音が採取されると、採取された音と各セントロイドCkとの間の距離(ユークリッド距離)を求め、採取された音に最も距離が近いクラスタGLを選択する。このクラスタGLは、多次元ガウス分布fk(x|μ,Σ)で表現されている。そのため、採取された音の、選択されたクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)における位置を求めることで、採取された音がクラスタGLに含まれる確率を算出することができる。この確率に対して閾値判定を行い、採取された音が異常音および日常音の何れであるかを判定する。
目的のデータがクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)に含まれる確率は、次のようにして求める。先ず、閾値判定の対象となる、m次元のデータと、このデータにユークリッド距離が最も近い、多次元ガウス分布fk(x|μ,Σ)で表現されるクラスタGLにおけるセントロイドCLとの間のマハラノビス平方距離D2を算出する。この場合のマハラノビス平方距離D2を求めるための式を、次式(5)に示す。
Figure 0005767825
式(5)で算出されたマハラノビス平方距離D2は、自由度mのカイ二乗分布に従うことから、マハラノビス平方距離D2を基準としたカイ二乗分布の上側累積確率を計算することで、目的のデータの多次元ガウス分布fk(x|μ,Σ)での位置が分かる。次式(6)に、自由度mのカイ二乗分布f(m,x)を算出する式を示す。なお、式(6)におけるガンマ関数Γ(m/2)は、式(7)の通りである。
Figure 0005767825
Figure 0005767825
これら式(6)および式(7)で算出された自由度mのカイ二乗分布f(m,x)と、マハラノビス平方距離D2とに基づき、次式(8)に従い、カイ二乗分布の上側累積確率Q(m,D2)を求める。この式(8)で算出される確率Q(m,D2)が、目的のデータがクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)に含まれる確率となる。
Figure 0005767825
図5を用いて、異常音検出閾値qTによる判定について、より具体的に説明する。図5の例では、周波数パラメータymの次元を2として、xy平面上に○(白丸)および●(黒丸)で各データを示している。図中の白丸が2次ランダムデータによる初期学習データを示す。図中に黒丸で示されるデータ#1〜データ#8は、この初期学習データに対して追加された、判別対象の判別データであるものとする。
これらデータ#1〜#8の座標x,y、マハラノビス平方距離D2およびカイ二乗上側累積確率Q(m,D2)を求めた例を下記に記す。なお、データ#8は、初期学習データの中心、すなわち、初期学習データによるクラスタにおけるセントロイドと同位置のデータであり、マハラノビス平方距離D2=0、カイ二乗上側累積確率Q(m,D2)=1.0(100%)となる。
データ#1:座標(50.517,82.363)、D2=13.883、Q(m,D2)=0.00097
データ#2:座標(22.107,17.194)、D2=3.812、Q(m,D2)=0.14867
データ#3:座標(55.030,63.564)、D2=1.768、Q(m,D2)=0.41313
データ#4:座標(53.200,31.968)、D2=4.006、Q(m,D2)=0.13493
データ#5:座標(44.996,67.408)、D2=6.602、Q(m,D2)=0.03685
データ#6:座標(52.393,43.124)、D2=0.519、Q(m,D2)=0.77144
データ#7:座標(15.000,38.000)、D2=7.588、Q(m,D2)=0.02251
データ#8:座標(50.393,48.124)、D2=0.000、Q(m,D2)=1.00000
例えば、異常音検出を行うための閾値を、採取された音(目的データ)がクラスタGLすなわち多次元ガウス分布fk(x|μ,Σ)に含まれる確率=0.0250に設定したものとする。図5における楕円は、この多次元ガウス分布fk(x|μ,Σ)における確率=0.0250の範囲を示す。この場合、データ#1およびデータ#7において、カイ二乗上側累積確率Q(m,D2)の値が当該閾値以下であり、これらデータ#1およびデータ#7の音が異常音であると判定することができる。
(逐次学習処理)
また、本実施形態では、異常音検出の運用を開始した後に採取された日常音を逐次学習する。これにより、異常音の検出精度を向上させることができると共に、日常音の経時的な変化に対しても対応可能となる。
採取された音の実データを逐次学習すると、学習データが増大する。そこで、本実施形態においては、既に採取した音をクラスタリングした各クラスタGkを表現する多次元ガウス分布fk(x|μ,Σ)を、新たに採取した音に基づき更新する。より具体的には、新たに採取した音の周波数パラメータymを用いて、多次元ガウス分布fk(x|μ,Σ)の平均ベクトルμと分散共分散行列Σとを更新する。この場合、更新される多次元ガウス分布fk(x|μ,Σ)の平均ベクトルμおよび分散共分散行列Σが、それぞれ更新されたセントロイドCk’およびクラスタGk’となる。
この操作を逐次的に繰り返すことにより、確率的に、日常音を異常音とする誤報と、異常音を日常音とする失報とが減少するように、多次元ガウス分布fk(x|μ,Σ)が更新される。
なお、逐次学習における多次元ガウス分布fk(x|μ,Σ)の更新は、新たに採取された音がクラスタGLに含まれる確率に対して閾値判定を行い、当該確率が閾値異常であった場合に行うようにする。この逐次学習における閾値(学習更新閾値uTと呼ぶ)は、上述の異常音判定の際の閾値(異常音検出閾値qTと呼ぶ)とは別に設定することができる。この場合、学習更新閾値uTは、異常音検出閾値qTよりも高い確率の値を選択する。これら学習更新閾値uTおよび異常音検出閾値qTは、例えば実験的な手法により予め求め、HDDなどの記憶媒体に記憶しておく。
(異常音検出処理および逐次学習処理の流れ)
図6は、本実施形態による、異常音検出処理および逐次学習処理を示す一例のフローチャートである。なお、このフローチャートの処理に先立って、上述した図2のフローチャートの処理により、初期学習データから求めたクラスタGkを変換した多次元ガウス分布fk(x|μ,Σ)が求められているものとする。
ステップS120で、初期学習データに基づく初期のセントロイドCk(k=1,2,…,K)および初期のクラスタGk(k=1,2,…,K)による多次元ガウス分布fk(x|μ,Σ)が用意される。より具体的には、各クラスタGkそれぞれについて、セントロイドCkと、分散共分散行列Σとが用意される。
次のステップS121で、マイクロホンなどで観測音すなわち検知エリアの音が採取され、ステップS122で、観測音に対してスペクトル分析などが施され、周波数パラメータym(m=1,2,…,M)が抽出される。なお、ここでは、初期学習データの場合と対応し、M=16として、周波数パラメータymが16次元の値であるとする。
次のステップS123で、ステップS122で抽出された周波数パラメータymと、各セントロイドCkとの間のユークリッド距離d(ym,Ck)が算出される。算出された各ユークリッド距離d(ym,Ck)に基づき、ステップS124で、各クラスタGkのうち周波数パラメータymに最も近いクラスタCLが選択される。
次のステップS125で、上述した式(5)に従い、ステップS124で選択されたクラスタCLと、周波数パラメータymとのマハラノビス平方距離DL 2が算出される。次に、ステップS126で、ステップS125で算出したクラスタCLと、周波数パラメータymとのマハラノビス平方距離DL 2に基づき、上述した式(6)に従い、自由度mのカイ二乗分布f(m,x)が算出される。次のステップS127で、ステップS126で算出された自由度mのカイ二乗分布f(m,x)と、ステップS125で算出されたマハラノビス平方距離DL 2とに基づき、上述した式(8)に従い、周波数パラメータymがクラスタGLに含まれる確率Q(m,DL 2)を求める。
次のステップS128およびステップS129において、ステップS127で算出された確率Q(m,DL 2)に対する学習更新閾値uTおよび異常音検出閾値qTによる閾値判定が行われる。先ず、ステップS128では、学習更新閾値uTによる閾値判定が行われる。若し、確率Q(m,DL 2)が学習更新閾値uT以上であると判定された場合、処理がステップS131に移行され、多次元ガウス分布fk(x|μ,Σ)や、クラスタGk、セントロイドCkの更新が行われる。この場合、対象の音が、学習更新閾値uTの範囲内にあるとされる。ステップS131での処理の詳細については、後述する。
一方、ステップS128で、確率Q(m,DL 2)が学習更新閾値uT未満であると判定された場合、処理がステップS129に移行される。ステップS129では、異常音検出閾値qTによる閾値判定が行われる。若し、確率Q(m,DL 2)が異常音検出閾値qT以下であると判定されたら、処理はステップS130に移行され、異常音が検出されたと判定される。すなわち、この場合、対象の音が異常音検出閾値qTの範囲外にあるとされ、対象の音がクラスタに含まれないと見做される。本実施形態による音処理装置が監視システムに適用される場合には、このステップS130で異常音検出の旨を示す通知が出力される。
一方、ステップS129で確率Q(m,DL 2)が異常音検出閾値qTを超えると判定されたら、処理はステップS121に戻され、音の採取などの一連の処理が継続して行われる。
ステップS128で確率Q(m,DL 2)が学習更新閾値uT未満であると判定された場合、処理がステップS131に移行され、各クラスタCkの多次元ガウス分布fk(x|μ,Σ)の更新が行われる。そして、次のステップS132で、更新された多次元ガウス分布fk(x|μ,Σ)に従い、各クラスタGkおよびセントロイドCkが更新される。これらクラスタGkおよびセントロイドCkの更新は、実際には、各クラスタGkの平均ベクトルμおよび分散共分散行列Σのみが更新される。
各クラスタGkおよびセントロイドCkが更新されると、処理がステップS121に戻され、音の採取などの一連の処理が継続して行われる。
逐次学習の方法について、より具体的に説明する。あるクラスタGにおける、i次元目の周波数パラメータyiの平均ベクトルμiは、次式(9)により算出される。なお、以下の各式において、値Nは当該クラスタGに含まれるデータ数を示し、値mは、当該データ(周波数パラメータy)の次元を示す。
Figure 0005767825
また、あるクラスタGにおける、i次元目およびj次元目の分散共分散σi,jは、次式(10)により算出される。
Figure 0005767825
次に、ステップS121で新たに採取された音によるデータ(周波数パラメータym)をデータyiとすると、平均ベクトルμiは、次式(11)に従い更新され、更新された平均ベクトルμi NEWが得られる。
Figure 0005767825
同様に、分散共分散σi,jは、更新された平均ベクトルμi NEWを用いて次式(12)に従い更新され、更新された分散共分散σi,j NEWが得られる。
Figure 0005767825
多次元ガウス分布fk(x|μ,Σ)は、平均ベクトルμおよび分散共分散行列Σにより完全に決定されるので、これら更新された平均ベクトルμi NEWおよび分散共分散σi,j NEWが得られることで、多次元ガウス分布fk(x|μ,Σ)が新たに採取された音により更新され、クラスタGが更新される。
また、上述の式(11)および式(12)から分かるように、m次元の多次元ガウス分布fk(x|μ,Σ)を更新するためには、過去の全データを記憶しておく必要はなく、次式(13)および(14)に示されるように、更新された各クラスタGkの平均ベクトルμと、平均ベクトルμを減じない状態の分散共分散行列vi,jを記憶しておけばよい。
Figure 0005767825
Figure 0005767825
なお、図6のフローチャートの処理は、ステップS131およびステップS132による多次元ガウス分布fk(x|μ,Σ)や、クラスタGk、セントロイドCkの更新処理が予め定められた時間毎に実行されるように制御される。すなわち、ステップS128において確率Q(m,DL 2)が学習更新閾値uT未満であると判定された場合以外において、ステップS131およびステップS132による処理が予め定められた時間間隔で実行されるように、図6のフローチャートの処理が制御される。
図7は、上述した逐次学習処理および異常検出処理をより具体的な例を用いて示す。図7(a)は、初期学習データに基づく学習更新閾値uTおよび異常音検出閾値qTの例を示す。これら学習更新閾値uTおよび異常音検出閾値qTに基づき、新たに採取した音40および41が異常音であるか否かを判定する場合について考える。なお、音40および音41は、それぞれ異常音であるものとする。
音40は、異常音検出閾値qTの範囲外にあり、図5のフローチャートにおけるステップS128およびステップS129により、異常音として判定される。一方、音41は、異常音検出閾値qTの境界付近に位置する音であり、日常音に類似した異常音である。この図7(a)の例では、音41は、異常音検出閾値qTの範囲内にあり、図5のフローチャートにおけるステップS129により異常音ではない、すなわち日常音として判定されてしまっている。
異常音検出の運用中に、図7(b)に示されるように、学習更新閾値uTの範囲内に位置する音42a、42bおよび42cが採取されたものとする。この場合、図5のフローチャートにおけるステップS128の判定により、処理がステップS131およびステップS132に移行され、これら音42a、42bおよび42cを用いて多次元ガウス分布fk(x|μ,Σ)や、クラスタGk、セントロイドCkの更新がなされる。
上述したように、これら学習更新閾値uTおよび異常音検出閾値qTは、初期学習データに基づく多次元ガウス分布fk(x|μ,Σ)における確率により示される。そのため、この多次元ガウス分布fk(x|μ,Σ)の更新に伴い、学習更新閾値uTおよび異常音検出閾値qTも更新され、更新された学習更新閾値uT’および異常音検出閾値qT’となる。その結果、図7(c)に例示されるように、音41が更新された異常音検出閾値qT’の範囲外となり、異常音と判定されるようになる。
(実施形態に適用可能な構成)
図8は、本実施形態に適用可能な音処理装置200の機能を示す一例の機能ブロック図である。音処理装置200は、A/D変換部100および周波数パラメータ算出部101を有すると共に、初期学習部110、記憶部120および異常音検出部130を有する。記憶部120としては、HDDや不揮発性の半導体メモリといった書き換え可能な不揮発性の記憶媒体を適用することができる。
検知エリアの音がマイクロホン50で採取され、アナログ音響信号として音処理装置200に入力され、A/D変換部100に供給される。A/D変換部100は、供給されたアナログ音響信号をディジタルデータに変換し、音響データとして周波数パラメータ算出部101に供給する。周波数パラメータ算出部101は、供給された音響データに対してスペクトラム分析を施し、M次元の値として周波数パラメータxm(m=1,2,…,M)を抽出する。例えば、周波数パラメータ算出部101は、M=16として、16次元の値としての周波数パラメータxmを抽出する。
初期学習部110は、日常音パラメータ蓄積部111、追加音パラメータ蓄積部112およびクラスタリング演算部113を有する。日常音パラメータ蓄積部111および追加音パラメータ蓄積部112は、例えばHDDや不揮発性の半導体メモリといった記憶媒体からなる。初期学習部110は、この音処理装置200におる異常音検出の運用に先立って、図3のフローチャートの処理に従って初期学習データの採取を行い、採取した初期学習データのクラスタリングおよびクラスタの多次元ガウス分布への変換処理を行う。
より具体的には、異常音検出の運用前の所定期間において、周波数パラメータ算出部101が、マイクロホン50で採取された検知エリアの音に基づく音響データから周波数パラメータxmを抽出する。抽出された周波数パラメータxmは、初期学習部110に入力され、日常音による周波数パラメータxmとして、日常音パラメータ蓄積部111に蓄積される。異常音検出の運用前における検知エリアからの日常音の採取および日常音による周波数パラメータxmの日常音パラメータ蓄積部111への蓄積は、予め定められた数の周波数パラメータxmが蓄積されるまで、継続して行われる。
一方、追加音パラメータ蓄積部112は、その他の必要とされる日常音のデータが予め蓄積される。例えば、電話やFAXの受信音などのような、周波数パラメータxmが既知の日常音については、音を採取する過程を経ずに、当該周波数パラメータxmを追加音パラメータ蓄積部112に予め蓄積させておくことができる。
クラスタリング演算部113は、図3のフローチャートにおけるステップS104〜ステップS107に従い、日常音パラメータ蓄積部111および追加音パラメータ蓄積部112に蓄積された周波数パラメータxmに対するクラスタリングを実行する。そして、クラスタリングにより決定された各クラスタCkを多次元ガウス分布fk(x|μ,Σ)による表現に変換する。この多次元ガウス分布fk(x|μ,Σ)の分布データ(平均ベクトルμおよび分散共分散行列Σ)と、クラスタリングにより決定された各セントロイドCkの設定値は、記憶部120に記憶される。
異常音検出部130は、クラスタリング演算部131、異常音判定部132、分布データ更新部133および警報出力部134を有する。異常音検出の運用が開始され、マイクロホン50で採取された検知エリアの音に基づき周波数パラメータ算出部101で抽出した周波数パラメータymが、異常音検出部130に入力される。
クラスタリング演算部131は、記憶部120から各セントロイドCkの設定値と、各クラスタGkの多次元ガウス分布fk(x|μ,Σ)の分布データとを読み出し、図5のフローチャートにおけるステップS123〜ステップS127の処理に従い、採取された音の周波数パラメータymが、当該周波数パラメータymと最もユークリッド距離が近いセントロイドCLが属するクラスタGLに含まれる確率Q(m,DL2)を求める。
異常音判定部132は、クラスタリング演算部131で求められた確率Q(m,DL2)に対して、学習更新閾値uTおよび異常音検出閾値qTによる閾値判定を行う。閾値判定の結果、採取された音が異常音ではなく、且つ、学習更新閾値uTの範囲内であると判定した場合、分布データ更新部133に対して、記憶部120に記憶される各セントロイドCkの設定値と、各クラスタGkの多次元ガウス分布fk(x|μ,Σ)の分布データとを更新するように要求する。
分布データ更新部133は、図5のフローチャートにおけるステップS131およびステップS132の処理に従い、採取された音の周波数パラメータymに基づき、記憶部120に記憶される各セントロイドCkの設定値と、各クラスタGkの多次元ガウス分布fk(x|μ,Σ)の分布データとを更新する。
一方、異常音判定部132は、採取された音が異常音であると判定した場合、その旨示す情報を警報出力部134に対して出力する。警報出力部134は、この情報を受け取ると、検知エリアにおいて異常音の発生が検知された旨を示す情報をネットワーク60に対して配信したり、所定の警報出力70を発することができる。
上述した周波数パラメータ算出部101、クラスタリング演算部113および131、異常音判定部132、分布データ更新部133、ならびに、警報出力部134は、例えば、CPU上で動作するプログラムのモジュールとして構成することができる。これに限らず、これら各部の全部または一部を、専用のハードウェアにより構成してもよい。
なお、上述では、音処理装置200が初期学習部110および異常音検出部130を共に含むように説明したが、これはこの例に限定されない。例えば、音処理装置200において、初期学習を別途行うようにすれば、初期学習部110は、省略可能である。
このように、本実施形態では、日常音を逐次学習することで日常音の特徴を強調することができるため、異常音の検出精度を向上させることができる。そのため、日常音に類似した、すなわち、セントロイドCkとの距離が比較的近い異常音が採取された場合であっても、その音を異常音として判定することが可能となる。
また、日常音を逐次学習することで、日常音の経年などによる緩やかな変化にも対応可能となる。さらに、逐次学習を行うことで、運用前における事前の日常音の学習期間を短縮させることができる。さらにまた、採取された音を逐次学習に用いるか否かを、日常音によるクラスタを変換した多次元ガウス分布に含まれる確率により示される閾値に基づき判定しているため、逐次学習を人手を介することなく自動的に実行できる。
また、本実施形態においては、運用環境すなわち検知エリアにおける日常音から認識モデルを構築している。この日常音には、検知エリアで発生する日常の騒音も含まれているため、騒音軽減処理などを行うこと無しに、検知エリアに適応した異常音検知が可能となる。
101 周波数パラメータ算出部
110 初期学習部
111 日常音パラメータ蓄積部
112 追加音パラメータ蓄積部
113,131 クラスタリング演算部
130 異常音検出部
132 異常音判定部
133 分布データ更新部

Claims (3)

  1. 日常音を特性に基づき複数のクラスタに分類し、該複数のクラスタに基づき異常音の判定を行う音処理装置であって、
    新たに採取した採取音の特性が、前記複数のクラスタのうちセントロイドと該特性との間のユークリッド距離が最も近いクラスタをガウス分布の表現に変換した第1のガウス分布に含まれる第1の確率が、該第1のガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、第1のガウス分布を決定するパラメータを該特性を用いて更新する更新手段と、
    前記第1の確率が、前記第1のガウス分布に含まれる、前記学習閾値よりも低い確率を示す値で表される異常音検出閾値の範囲外にある場合に、前記採取音を異常音であると判定する判定手段と
    を有する
    ことを特徴とする音処理装置。
  2. 前記更新手段は、
    前記パラメータの更新を、予め定められた時間毎に実行する
    ことを特徴とする請求項1に記載の音処理装置。
  3. 日常音を特性に基づき複数のクラスタに分類し、該複数のクラスタに基づき異常音の判定を行う音処理方法であって、
    新たに採取した採取音の特性が、前記複数のクラスタのうちセントロイドと該特性との間のユークリッド距離が最も近いクラスタをガウス分布の表現に変換した第1のガウス分布に含まれる第1の確率が、該第1のガウス分布に含まれる確率を示す値で表される学習閾値の範囲内にある場合に、第1のガウス分布を決定するパラメータを該特性を用いて更新する更新ステップと、
    前記第1の確率が、前記第1のガウス分布に含まれる、前記学習閾値よりも低い確率を示す値で表される異常音検出閾値の範囲外にある場合に、前記採取音を異常音であると判定する判定ステップと
    を有する
    ことを特徴とする音処理方法。
JP2011043206A 2011-02-28 2011-02-28 音処理装置および音処理方法 Active JP5767825B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011043206A JP5767825B2 (ja) 2011-02-28 2011-02-28 音処理装置および音処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011043206A JP5767825B2 (ja) 2011-02-28 2011-02-28 音処理装置および音処理方法

Publications (2)

Publication Number Publication Date
JP2012181280A JP2012181280A (ja) 2012-09-20
JP5767825B2 true JP5767825B2 (ja) 2015-08-19

Family

ID=47012545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011043206A Active JP5767825B2 (ja) 2011-02-28 2011-02-28 音処理装置および音処理方法

Country Status (1)

Country Link
JP (1) JP5767825B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885133B (zh) * 2016-04-01 2021-05-14 日本电信电话株式会社 异常音检测学习装置、其方法以及记录介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240719B (zh) * 2013-06-24 2018-01-12 浙江大华技术股份有限公司 音频的特征提取方法、音频的分类方法和相关装置
US20180188104A1 (en) * 2015-06-26 2018-07-05 Nec Corporation Signal detection device, signal detection method, and recording medium
EP3680639B1 (en) * 2017-09-06 2023-11-15 Nippon Telegraph and Telephone Corporation Abnormality model learning device, method, and program
EP3836142B1 (en) * 2018-08-10 2024-04-03 Nippon Telegraph And Telephone Corporation Abnormality detection device and program
JP7331369B2 (ja) * 2019-01-30 2023-08-23 日本電信電話株式会社 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
WO2020255299A1 (ja) * 2019-06-19 2020-12-24 日本電信電話株式会社 異常度推定装置、異常度推定方法、プログラム
CN110737422B (zh) * 2019-10-11 2023-04-28 北京地平线机器人技术研发有限公司 一种声音信号采集方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2510301B2 (ja) * 1989-11-16 1996-06-26 積水化学工業株式会社 話者認識システム
JP3589044B2 (ja) * 1998-10-20 2004-11-17 三菱電機株式会社 話者適応化装置
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
US8630853B2 (en) * 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885133B (zh) * 2016-04-01 2021-05-14 日本电信电话株式会社 异常音检测学习装置、其方法以及记录介质
US11480497B2 (en) 2016-04-01 2022-10-25 Nippon Telegraph And Telephone Corporation Anomalous sound detection training apparatus, acoustic feature extraction apparatus, anomalous sound sampling apparatus, and methods and programs for the same

Also Published As

Publication number Publication date
JP2012181280A (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
JP5767825B2 (ja) 音処理装置および音処理方法
EP3680639B1 (en) Abnormality model learning device, method, and program
US8938404B2 (en) System and method for detecting abnormal audio events
KR101588995B1 (ko) 대상 검출 장치 및 대상 검출 방법
CN105930663B (zh) 一种基于演化模糊规则的手部震颤信号及音频信号分类方法
CN111436944B (zh) 一种基于智能移动终端的跌倒检测方法
CN111538311B (zh) 一种基于数据挖掘的机械设备柔性多状态自适应预警方法及装置
JP6848546B2 (ja) 変化点検出装置および変化点検出方法
WO2016117358A1 (ja) 検査データ処理装置および検査データ処理方法
CN105675038A (zh) 一种仪表的故障预测装置
CN112699793A (zh) 一种基于随机森林的疲劳驾驶检测优化识别方法
KR102066718B1 (ko) 음향기반 터널 사고 검지 시스템
JP4760614B2 (ja) 信号識別装置の学習データの選択方法
JP4886461B2 (ja) 異常監視装置
KR101906456B1 (ko) 인공지능을 이용하여 이상 상태를 검출하는 장치 및 방법
JP4875433B2 (ja) 信号識別装置の学習方法
Kirschel et al. Using songs to identify individual Mexican antthrush Formicarius moniliger: Comparison of four classification methods
CN115310499A (zh) 一种基于数据融合的工业设备故障诊断系统及方法
CN112668446A (zh) 基于花朵授粉算法优化svm的微铣刀磨损状态监测方法
CN115081514A (zh) 一种数据不平衡情况下的工业设备故障识别方法
KR101976443B1 (ko) 음성 데이터 감시 시스템 및 방법
JP4513796B2 (ja) 異常監視装置
JP7335379B1 (ja) 学習装置、学習方法、およびプログラム
JP7335378B1 (ja) メッセージ分類装置、メッセージ分類方法、およびプログラム
JP7182586B2 (ja) 学習装置、推定装置、シーケンス推定システムおよび方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150622

R150 Certificate of patent or registration of utility model

Ref document number: 5767825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250