JP2008241991A - 監視システム - Google Patents

監視システム Download PDF

Info

Publication number
JP2008241991A
JP2008241991A JP2007081091A JP2007081091A JP2008241991A JP 2008241991 A JP2008241991 A JP 2008241991A JP 2007081091 A JP2007081091 A JP 2007081091A JP 2007081091 A JP2007081091 A JP 2007081091A JP 2008241991 A JP2008241991 A JP 2008241991A
Authority
JP
Japan
Prior art keywords
sound
separation matrix
monitoring system
learning
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007081091A
Other languages
English (en)
Other versions
JP4859130B2 (ja
Inventor
Eiji Baba
栄治 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MegaChips System Solutions Inc
Original Assignee
MegaChips System Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MegaChips System Solutions Inc filed Critical MegaChips System Solutions Inc
Priority to JP2007081091A priority Critical patent/JP4859130B2/ja
Publication of JP2008241991A publication Critical patent/JP2008241991A/ja
Application granted granted Critical
Publication of JP4859130B2 publication Critical patent/JP4859130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】非定常的な雑音の多い環境であっても観測音から目的の環境音を高精度に認識するとともに、監視システムの監視効率を向上させる。
【解決手段】複数のマイク2a,2bによって周囲の音を観測することにより、複数の音源9a,9bから発せられた音が混合された観測音を表現する信号x1(t),x2(t)を取得する。そして、信号処理回路3に、信号x1(t),x2(t)を入力して音源9a,9bごとの分離信号を生成し、雑音除去回路4を経て、音認識回路5によって、音源9a,9bごとの分離信号によって表現される音が目的の環境音であるか否かを判定する。目的の環境音であると認識された場合、機器制御部6は、信号処理回路3から得られる当該音の音源方向に基づいて、カメラ80、マイク81およびスピーカ82を制御する。
【選択図】図1

Description

本発明は、観測音に目的の環境音が含まれるか否かを判定する技術に関する。
例えば、複数の防犯カメラを備え、撮影したデータによって屋外環境を監視する監視システムが知られている。しかし、防犯カメラの多くは撮影したデータを保存し続けるため、取得されるデータが膨大になる。また、蓄積された膨大なデータから目的のデータ(犯罪等が発生した箇所のデータ)を検索するにも多くの時間が必要となる。
このような問題を解決するために、例えば、周囲の音(観測音)から、検証したい事象(犯罪等)が発生したか否かを判定し、このような事象が発生したと判定したときにのみ、画像を記録するようにすることが考えられる。そして、検証したい事象が発生したときに観測される可能性の高い音(目的の環境音、例えば悲鳴等)を検知する技術も提案されている(特許文献1)。
一般に、ある地点で観測される観測音は、様々な音源から発生した音が合成された混合音である。このような観測音に基づいてそのまま音認識しようとすると、必要としている音以外の音は雑音となるため好ましくない。すなわち、特許文献1に記載されている技術では、観測音に悲鳴が含まれているか否かを認識する際に、観測音のパワーや周波数スペクトルの分析による判定方法を用いてるため、特に非定常的な雑音が多い屋外環境では、目的の環境音を認識するのが難しいという問題があった。
そこで、従来より、観測音の認識精度を向上させるために、音源を分離する技術も提案されている(特許文献2)。
特許第3503717号公報 特許第3530035号公報
ところが、特許文献2に記載されている技術では、比較的フィルタリング性能の高い音源分離手法を用いて判別しているものの、マイクの各チャンネル間のレベル及び位相差を用いて音を判別しているため、依然として、非定常的な雑音に対応するのは困難であるという問題があった。すなわち、従来の技術では、認識精度が低いために、誤報や失報が発生し、システムの信頼性が低下するという問題があった。
本発明は、上記課題に鑑みなされたものであり、非定常的な雑音の多い環境であっても観測音から目的の環境音を高精度に認識することを目的とする。さらに、監視システムの監視効率の向上を目的とする。
上記の課題を解決するため、請求項1の発明は、目的の環境音に応じて周囲の環境を監視する監視システムであって、それぞれの配置位置において観測された音を示す観測信号をそれぞれが生成する複数の観測装置と、周波数帯域を複数の分割帯域に分割し、各分割帯域ごとの部分分離行列を求めることによって、前記観測信号に対する分離行列を生成する分離行列演算手段と、前記分離行列演算手段により生成された分離行列によって前記複数の観測信号のうちの少なくとも1つから、少なくとも1の分離信号を生成する信号分離手段と、前記信号分離手段により生成された分離信号によって表現される音が前記目的の環境音であるか否かを認識する認識手段とを備えることを特徴とする。
また、請求項2の発明は、請求項1の発明に係る監視システムであって、前記複数の観測装置の位置情報と前記複数の観測装置の特性情報とに基づいて、前記分離信号によって表現される音の音源方向を特定する方向特定手段と、周囲を環境を撮影により記録する少なくとも1つのカメラとをさらに備え、前記少なくとも1つのカメラは、前記方向特定手段により特定された音源方向に応じて制御されることを特徴とする。
また、請求項3の発明は、請求項1の発明に係る監視システムであって、前記複数の観測装置の位置情報と前記複数の観測装置の特性情報とに基づいて、前記分離信号によって表現される音の音源方向を特定する方向特定手段と、周囲の環境を録音により記録する少なくとも1つの録音装置とをさらに備え、前記少なくとも1つの録音装置は、前記方向特定手段により特定された音源方向に応じて制御されることを特徴とする。
また、請求項4の発明は、請求項2または3の発明に係る監視システムであって、前記特性情報は、前記分離行列演算手段により生成された分離行列であることを特徴とする。
また、請求項5の発明は、請求項2ないし4のいずれかの発明に係る監視システムであって、前記分離行列演算手段は、前記複数の分割帯域をそれぞれ学習帯域群または補間帯域群に分類する帯域分類手段と、前記方向特定手段により特定された音源方向に基づいて、前記補間帯域群における部分分離行列を演算する補間手段と、学習処理により、前記学習帯域群における部分分離行列を演算する学習手段とを有し、前記分離行列演算手段は、前記学習手段により求めた学習帯域群における部分分離行列と、前記補間手段により求めた補間帯域群における部分分離行列とに基づいて、前記分離行列を生成することを特徴とする。
また、請求項6の発明は、請求項1ないし5のいずれかの発明に係る監視システムであって、前記認識手段による認識結果に基づいてオペレータに通報する通報手段をさらに備えることを特徴とする。
また、請求項7の発明は、請求項6の発明に係る監視システムであって、前記通報手段は、前記分離信号よって表現される音を再生することを特徴とする。
請求項1ないし7に記載の発明では、周波数帯域を複数の分割帯域に分割し、分割帯域ごとの部分分離行列を求めることによって観測信号に対する分離行列を生成し、生成した分離行列によって複数の観測信号のうちの少なくとも1つから、少なくとも1の分離信号を生成して、当該分離信号によって表現される音が目的の環境音であるか否かを認識することにより、認識精度が向上する。
請求項2に記載の発明では、カメラが、方向特定手段により特定された音源方向に応じて制御されることにより、効率よく撮影を行うことができる。
請求項3に記載の発明では、録音装置が、方向特定手段により特定された音源方向に応じて制御されることにより、効率よく録音を行うことができる。
請求項4に記載の発明では、分離行列演算手段により生成された分離行列を特性情報とすることにより、学習結果を反映させることができるので、精度が向上する。
請求項5に記載の発明では、学習手段により求めた学習帯域群における部分分離行列と、補間手段により求めた補間帯域群における部分分離行列とに基づいて、分離行列を生成することにより、全帯域について学習処理を行う場合に比べて、演算量が抑制される。
請求項6に記載の発明では、認識手段による認識結果に基づいてオペレータに通報する通報手段をさらに備えることにより、例えば、目的の環境音が観測されたことをオペレータに知らせることができる。
請求項7に記載の発明では、通報手段が分離信号よって表現される音を再生することにより、オペレータは目的の環境音と認識された音を直接確認することができる。
以下、本発明の好適な実施の形態について、添付の図面を参照しつつ、詳細に説明する。
<1. 実施の形態>
図1は、本発明に係る監視システム1を示す図である。
監視システム1は、2つのマイク2a,2b、信号処理回路3、雑音除去回路4、音認識回路5、機器制御部6および記憶装置7を備える。また、監視システム1は、機器制御部6によって制御される装置として、カメラ80、マイク81、スピーカ82および再生装置83を備える。
マイク2a,2bは、一般的なマイクロフォンとしての機能を有しており、それぞれが設置された位置において観測される音(観測音)を電気信号(信号x1(t),x2(t))に変換する。2つのマイク2a,2bは、同時に観測音の観測を行うことが可能である。すなわち、マイク2a,2bは、本発明における複数の観測装置に相当する構成である。
図1に示すように、周囲の環境として、2つの音源9a,9bから、それぞれ音s1(t),s2(t)が発生している状況を例に、マイク2a,2bによって生成される信号x1(t),x2(t)について説明する。
音源9a,9bと、マイク2a,2bとの間の空間に対するインパルス応答のz変換をそれぞれa11(z),a21(z),a12(z),a22(z)と表すと、マイク2aにおいて観測される観測音は、音a11(z)・s1(t)と、音a12(z)・s2(t)との混合音となり、この混合音に基づいて、マイク2aは信号x1(t)を生成する。また、同様に、マイク2bにおいて観測される観測音は、音a21(z)・s1(t)と、音a22(z)・s2(t)との混合音となり、この混合音に基づいて、マイク2bは信号x2(t)を生成する。
すなわち、混合行列をA(z)とおくと、複数の観測装置により取得される観測音の信号X(t)は、式1で表される。
Figure 2008241991
図2は、信号処理回路3の詳細を示す図である。図2に示すように、信号処理回路3は、FFT30、信号分離部31、IFFT32、ICA33および補正部34を備えている。信号処理回路3は、マイク2a,2bから入力される複数の信号(信号x1(t),x2(t))から少なくとも1つの分離信号(信号y1(t),y2(t))を生成して雑音除去回路4に出力するとともに、各音源9a,9bの方向Dp(D1,D2)を特定して、機器制御部6に出力する。
FFT30は入力された信号に対してフーリェ変換を行う回路であり、マイク2a,2bが生成した信号(信号x1(t),x2(t))を入力信号とし、当該入力信号のフーリェ変換後の信号(信号x1(f,t),x2(f,t))を出力信号として、信号分離部31およびICA33に出力する。
信号分離部31はFFT30から入力された信号(信号x1(f,t),x2(f,t))と、ICA33から入力された分離行列W(f)とに基づいて、音源分離処理を行って分離信号(信号y1(f,t),y2(f,t))を生成する機能を有する。このとき、信号分離部31は、式2を演算することにより、分離信号を求める。
Figure 2008241991
なお、分離行列W(f)は、近似的には混合行列A(z)の逆行列である。また、生成された分離信号(信号y1(f,t),y2(f,t))は、信号分離部31の出力信号として、IFFT32およびICA33に出力される。
IFFT32は入力された信号に対して逆フーリェ変換を行う回路であり、信号分離部31からの信号(信号y1(f,t),y2(f,t))を入力信号とし、当該入力信号の逆フーリェ変換後の信号(信号y1(t),y2(t))を出力信号とする。IFFT32からの出力信号は、分離信号として、信号処理回路3からの出力信号となる。
図3は、信号分離部31とICA33の詳細とを示す図である。ただし、図3では、補正部34を省略している。
ICA33は、分離行列演算部35、方向特定部36および補間部37を備え、独立成分分析法(ICA:Independent Component Analysis)を適用することにより、信号分離部31において音源分離処理を行うための分離行列W(f)を求める機能を有する。
分離行列演算部35は、入力される信号x1(f,t),x2(f,t)における周波数帯域fを複数の分割帯域に分割するとともに、分割した複数の分割帯域をそれぞれ学習帯域群fgまたは補間帯域群fhに分類する。なお、分離行列演算部35は、学習を行う際の反復回数を設定するとともに、各回ごとに前述の分類を行うことが可能である。例えば、一回目の学習演算を行うときには全周波数帯域fを学習帯域群fgとし、二回目以降の学習演算では間引いた残りの分割帯域のみを学習帯域群fgとすることも可能である。間引きが行われた場合の間引かれた分割帯域は、分離行列演算部35によって補間帯域群fhに分類される。
また、分離行列演算部35は、学習帯域群fgにおける部分分離行列(学習分離行列WG(fg))を、学習演算により求める。求めた学習分離行列WG(fg)は、方向特定部36に出力する。なお、学習分離行列W(fg)を求める際の学習演算方法は、従来の技術を適用することが可能であるため、ここでは詳細に述べないが、例えば、式3に示す公式から求めることができる。
Figure 2008241991
さらに、分離行列演算部35は、求めた学習分離行列WG(fg)と、補間部37から入力される補間分離行列WH(fh)に基づいて、先述のように、全周波数領域fにおける分離行列W(f)を求める。具体的には、式4を演算することにより、分離行列W(f)を求める。
Figure 2008241991
なお、式4から明らかなように、全ての分割帯域が学習帯域群fgに分類されている場合には、W(f)=WG(fg)が成立する。
図4は、最初の分離行列W1(f)を求める様子を概念的に示す図である。ここで、分離行列W0(f)は初期値として予め与えられているものとする。また、部分分離行列W0(f1),W0(f2),W0(f3),・・・,W0(fn)は、それぞれ分割帯域f1,f2,f3,・・・,fnにおける部分分離行列を示す。すなわち、ここに示す例では、周波数帯域fは、n個に分割されている(nは自然数)。
本実施の形態において、最初の分離行列W1(f)を求める際には、分離行列演算部35は、全ての分割帯域を学習帯域群fgに分類する。したがって、図4に示すように、全ての部分分離行列W0(f1),W0(f2),W0(f3),・・・,W0(fn)が「学習」の対象となり、それぞれについて式3が演算される。
次に、求まった全ての部分分離行列(ここでは求まった全ての部分分離行列が学習分離行列WG(fg)となる)が、式4を演算することにより加算されて、分離行列W1(f)が求まる。
このように、本実施の形態では、最初の分離行列W1(f)を求める際には、実際に得られた信号に基づいて、全ての分割帯域について学習演算を行って分離行列W1(f)を求めるので、非定常的な環境においても、柔軟に対応できる。したがって、後述の処理において、異なる音源において発生した音を精度よく分離することができる。
図5は、i+1回目の分離行列Wi+1(f)を求める様子を概念的に示す図である。図5に示す例では、n=4m−3(mは自然数)を満たす分割帯域fnが学習帯域群fgに分類される。すなわち、全分割帯域fnのうちの4分の1のみ反復学習を行い、他の4分の3については補間処理を行う。
具体的に説明すると、学習帯域群fgに分類された分割帯域f1,f5,・・・・の部分分離行列Wi(f1),Wi(f5),・・・については、学習演算の対象とする。したがって、分離行列演算部35は式3を実行して、学習分離行列WGi+1(f1),WGi+1(f5),・・・を求める。一方、補間帯域群fhに分類された分割帯域f2,f3,f4,・・・の部分分離行列Wi(f2),Wi(f3),Wi(f4),・・・については、学習演算の対象としない。そして、補間帯域群fhにおける部分分離行列は、補間分離行列WHi+1(f2),WHi+1(f3),WHi+1(f4),・・・として、後述する補間部37から分離行列演算部35に入力される。分離行列演算部35は、学習演算により求めた学習分離行列WGi+1(f1),WGi+1(f5),・・・と、補間部37から入力された補間分離行列WHi+1(f2),WHi+1(f3),WHi+1(f4),・・・とに基づいて、式4を演算して、i+1回目の分離行列Wi+1(f)を求める。
このように、本実施の形態では、分離行列演算部35が複数回の反復学習を行って分離行列W(f)を求めるので、さらに精度が向上する。また、学習演算は比較的複雑で、反復することによりさらに演算量が膨大となるが、補間帯域群fhに分類された分割帯域については、後述する補間部37から入力される補間分離行列WH(fh)を用いることにより、分離行列W(f)を求めるための演算量を抑制することができる。
なお、本実施の形態における監視システム1は、まず、全ての分割帯域を学習帯域群fgに分類して、全周波数帯域について2回の反復学習を行う。その後(2<i<R:Rは反復回数の上限値)、上記に説明したように、4分の1の分割帯域のみを学習帯域群fgに分類して当該学習帯域群fgについてのみ反復学習を行う。そして、反復回数iが上限値Rとなると、一旦、反復学習を停止し、何かのトリガ(例えば、新たな異常音の観測による定常状態の変化や、所定の時間経過等)の発生があった場合に、反復回数iを初期化し、再び、全周波数帯域に対する反復学習を開始する。ただし、分離行列演算部35による分割帯域の分類規則はこれに限定されるものではない。例えば、反復学習を行う分割帯域の数を徐々に減らすように規定してもよい。
分離行列演算部35によって求められた分離行列W(f)は、ICA33からの出力として、補正部34に出力される。
方向特定部36は、いわゆるビームフォーミングと呼ばれる演算手法(DOA:Direction of Arraival)を実行する。概略を説明すると、方向特定部36は、到来する音波について、マイク2a,2bの位置によって変わる観測音の遅延時間τと、マイク2a,2bの特性とを利用して、音源方向Dpを特定する。したがって、詳細は図示していないが、方向特定部36は遅延時間τを計測するタイマとしての機能も備えている。また、マイク2a,2bの距離dは予め記憶されている設定データ等から取得されるものとする。なお、式5ないし式8は、方向特定部36が音源方向Dpを求める演算式を示す。
Figure 2008241991
Figure 2008241991
Figure 2008241991
Figure 2008241991
このように、本実施の形態における方向特定部36は、マイク2a,2bの位置情報(距離d)を利用し、マイク2a,2bの特性を示す情報(特性情報)として、分離行列演算部35から伝達される学習分離行列WG(fg)を用いる。
これにより、音源の方向を特定する際に、学習結果を反映させることができるので、予め与えられた特性情報のみに基づいて音源方向Dpを特定する場合に比べて、精度が向上する。また、分離行列演算部35が既に求めた値を用いることにより、特性情報を求めるための新たな演算を行う必要がない。言い換えれば、本実施の形態における方向特定部36は、分離行列演算部35において実行された学習演算の結果を効果的に利用することができる。
なお、本実施の形態における方向特定部36は、反復回数が「2」のときの学習分離行列WG(fg)を特性情報として用いる。先述のように、本実施の形態において、反復回数「2」のときには、全周波数帯域が学習帯域群fgに分類されている。したがって、このときの学習分離行列WG(fg)とは、分離行列W2(f)である。すなわち、特性情報は、部分分離行列(学習分離行列WG(fg))に限定されるものではなく、分離行列演算部35によって演算される分離行列W(f)であってもよい。ただし、特性情報は、位置情報と同様に予め設定データに含まれていてもよい。
方向特定部36により求められた音源方向Dpは、補間部37に向けて出力されるとともに、信号処理回路3の出力として機器制御部6に向けて出力される。
補間部37は、方向特定部36から入力された音源方向Dpに基づいて、補間帯域群fhにおける部分分離行列である補間分離行列WH(fh)を取得する。補間部37が補間分離行列WH(fh)を取得する方法としては、例えば、音源方向Dpの値ごとに適切な補間分離行列WH(fh)を予めテーブル(設定データ)として記憶しておき、方向特定部36から伝達された音源方向Dpの値を検索キーとして、当該テーブルから適切な補間分離行列WH(fh)を検索して取得する。
なお、この場合、テーブルを記憶するために必要とされる記憶容量を抑制するには、例えば、−90°から90°までの方向について、10°刻み程度で記憶しておくことが好ましい。また、補間分離行列WH(fh)を取得する方法としては、予め記憶しておいたテーブルを参照する方法に限定されるものではなく、音源方向Dpに基づいて、演算により求めることもできる。
補間部37により取得された補間分離行列WH(fh)は、分離行列演算部35に向けて出力され、先述のように、分離行列演算部35が式4を演算する際に使用される。
図2に戻って、補正部34は、分離行列演算部35から入力される分離行列W(f)に対して、パミュテーションおよびレベル推定を行う処理部である。一般的に、独立成分分析法では、チャンネルおよびレベルについて任意性を許容している。そのため、分離された信号に異なるチャンネルの成分が含まれている場合や、レベルが異なる場合が発生する。すなわち、補正部34はこのような問題を補正する機能を有する。
図1に戻って、雑音除去回路4は、分離信号に含まれている雑音成分を除去するフィルタリング処理を行う回路である。雑音除去回路4において用いられるフィルタには様々なものが適用可能であるが、本実施の形態では、スペクトルサブトラクション方式を用いる。スペクトルサブトラクション方式を用いることにより、ゼロ位相で周波数特性をコントロールすることが容易となる。雑音除去回路4によって雑音が除去された分離信号は、音認識回路5に向けて出力される。
音認識回路5は、分離信号により表現される音に、目的の環境音が含まれているか否かを判定する機能を有する。なお、目的の環境音とは、監視システム1によって検出しようとする音として予め指定されている音であって、例えば、防犯ブザーの音、悲鳴あるいは警笛音等である。
観測された音を認識し識別するアルゴリズムは様々なものが提案されているが、本実施の形態における監視システム1では、非音声系における特性の優れた「混合ガウスモデル(GMM)」を用いる。ただし、「隠れマルコフモデル(HMM)」等の他の手法が用いられてもよい。
図1では図示を省略しているが、音認識回路5は、記憶装置7に記憶されている目的の環境音に関する情報(以下、「環境音情報」と称する)と、目的の環境音以外の音に関する情報(以下、「非環境音情報」と称する)とを参照することが可能である。
このように、環境音情報と非環境音情報とを記憶装置7に記憶させてデータベースを構築しておくことにより、本実施の形態における監視システム1は、環境音情報と非環境音情報とを任意に書き換えることが可能である。これにより、例えば、監視システム1の目的や設置場所等の状況に応じて、適切に周囲の環境を監視することができる。
例えば、踏切を監視するために監視システム1を設置した場合、当該監視システム1は、特に、遮断機が降りている間の状況を監視(撮影等)する必要がある。このような場合には、当該踏切の遮断機が降りるときの警告音を環境音情報として記憶しておくことが好ましい。一方、たまたま踏切の近くの店舗に監視システム1を設置した場合、遮断機が降りている状況を撮影する必要はなく、逆に、遮断機が降りるたびにカメラ80が撮影を行うことは好ましくない。このような場合には、当該警告音を非環境音情報として記憶しておくことにより、非定常音(常に発生しているわけではない音)を定常音(検出不要な音)として扱うことができる。
音認識回路5は、入力された分離信号から特徴量を抽出して、環境音情報および非環境音情報と比較(尤度判定)し、予め設定されている閾値に応じて、当該入力された分離信号によって表現される音が目的の環境音であるか否かを判定する。音認識回路5は、認識した結果(判定結果)を機器制御部6に伝達する。なお、判定に用いる閾値は、予め設定データとして記憶装置7に記憶されており、適宜、変更可能である。
機器制御部6は、制御信号を生成して伝達することにより、監視システム1が備えるカメラ80、マイク81、スピーカ82および再生装置83を制御する機能を有する。
機器制御部6は、音認識回路5から、目的の環境音が観測されたことを示す判定結果を受けた場合に、カメラ80による撮影の開始、マイク81による録音の開始、およびスピーカ82による警報再生を開始させる。
また、機器制御部6は、信号処理回路3から入力される音源方向Dpに基づいて、カメラ80、マイク81およびスピーカ82のアクチュエータ(図示せず)を制御する。これにより、カメラ80のパン・チルト・ズーム等の動作、マイク81やスピーカ82の向き調整等の動作を適切に行うことができる。
このように音源方向Dpに基づいて各装置を制御することによって、例えば、悲鳴が発生した方向(悲鳴と認識された音を表現した分離信号の音源方向)にカメラ80を向けることができるので、より確実に撮影すべき被写体を撮影することができる。すなわち、より適切な画像を記録することができるため、録画効率が向上する。
また、悲鳴が発生した方向にマイク81を向けることにより、マイク81の指向性を考慮した収音が行われるので、録音効率が向上する。なお、マイク81ではなく、マイク2a,2bを音源方向Dpに向けるように制御してもよい。
さらに、スピーカ82を、悲鳴が発生した方向に向けることにより、単に警告音を再生するだけの場合に比べて、威嚇効果が向上する。なお、威嚇の目的を達成するための装置としては警告音を再生するスピーカ82に限られるものではなく、例えば、光を発するサーチライトや非常灯等の照明装置であってもよい。その場合、被写体が効果的に照明されることになるので、カメラ80と連動させることにより、威嚇効果のみならず、質のよい画像データを記録する効果もある。
なお、信号処理回路3からは、複数の音源に対して、それぞれ音源方向が出力されるが、機器制御部6は、これら複数の音源方向のうち、目的の環境音と認識された音(信号)の音源方向に基づいて、上記制御を行う。
記憶装置7は、一般的なハードディスク装置であり、各種データを記憶する。記憶装置7が記憶する情報としては、パラメータや初期値等を示す設定データや、音認識回路5によって参照される環境音情報および非環境音情報、カメラ80によって撮影された画像データ、マイク81で収音した音データ、スピーカ82が再生する警告音の情報等である。
カメラ80は、図示しない光電変換素子(CCD等)を備えた一般的なデジタルカメラであり、機器制御部6によって制御される。カメラ80によって撮影された画像データは、記憶装置7に転送され記憶される。なお、本実施の形態におけるカメラ80は動画像を撮影する機能を有しているが、もちろん静止画を撮影するものであってもよい。
マイク81は、一般的なマイクロフォンとしての機能を有しており、設置された位置において観測される音(観測音)を電気信号(音データ)に変換して、記憶装置7に転送する。先述のように、マイク81から転送された音データは記憶装置7に記憶される。すなわち、監視システム1では、マイク81および記憶装置7によって録音装置が構成されている。マイク81の指向特性は記憶装置7に予め記憶されており、機器制御部6はこれを参照することによって、マイク81を適切な向きに調整する。
スピーカ82は、記憶装置7に記憶されている警告音の情報を、機器制御部6からの制御信号に応じて、音として再生する装置である。また、スピーカ82の指向特性は記憶装置7に予め記憶されており、機器制御部6はこれを参照することによって、スピーカ82を適切な向きに調整する。
なお、図1では、カメラ80、マイク81およびスピーカ82をいずれも一台のみ図示しているが、カメラ80、マイク81、スピーカ82はいずれも一台に限定されるものではない。
再生装置83は、例えば、各種データを表示するディスプレイやランプ、データを印刷する印刷装置、音を出力するスピーカ等の出力装置が主に該当し、監視システム1の目的や設置状況に応じて、その種類・機能等が選択され設けられる。監視システム1において再生装置83は、オペレータや警備員等に状況を出力する通報装置として機能する。
再生装置83が再生する情報は、主に、記憶装置7に記憶された画像データ(カメラ80によって撮影されたデータ)や、音データ(マイク81から転送されたデータや、警報音の情報等)であるが、例えば、履歴情報等の加工された情報であってもよいし、予め記憶されている所定の情報であってもよい。
さらに、再生装置83は、信号処理回路3によって分離された分離信号よって表現される音を再生する。図1では詳細を省略しているが、記憶装置7は信号処理回路3によって生成された分離信号を音データとして記憶する。そして、再生装置83は、このようにして記憶された音データを再生する。すなわち、監視システム1は、マイク2a,2bを観測装置としてのみならず、録音装置の一部としても兼用する。これにより、目的の環境音であると認識された音を、直接オペレータが聴いて判断することができる。
なお、監視システム1の使用形態によっては、警備員等が監視システム1の監視場所(設置場所)から離れた遠隔地に駐在していることもある。この場合、再生装置83の一部または全部は、ネットワークを介して、当該警備員等が駐在している場所(駐在所)に設置されていてもよい。
以上が、監視システム1の構成および機能の説明である。次に、監視システム1の動作を簡単に説明する。
監視状態における監視システム1は、周囲の環境を示す情報として、継続的に、マイク2a,2bによって観測音を示す信号X(t)を取得する。そして、取得したX(t)を信号処理回路3によって音源ごとに分離して分離信号を生成し、雑音除去回路4を経て、音認識回路5が当該分離信号に対して音認識を行う。
このようにして、監視システム1は、監視状態において、継続的に、音認識回路5による認識を行っており、目的の環境音が含まれていないか否か(周囲の環境においてそのような音が発生しているか否か)を常に監視している。
また、監視システム1は、信号処理回路3において、先述のように、反復学習によって求まる分離行列W(f)を用いて、音の信号を分離する。これにより、監視システム1は非定常的な屋外環境に設置された場合であっても、従来のシステムに比べて高精度に音源ごとの信号を分離することができる。したがって、複数の音源から発生した複数の音が混合した観測音(混合音)から高精度に音を分離抽出することができるので、音認識回路5における認識精度が向上し、システムの信頼性が向上する。
音認識回路5が目的の環境音を検出するまでの間、機器制御部6は、カメラ80、マイク81およびスピーカ82をOFF状態とする。したがって、この間、カメラ80は撮影を行わず、マイク81による録音も行われない。また、スピーカ82による警告音の再生も行われない。これにより、記憶装置7に記録されるデータ(画像データおよび音データ)の量を効果的に抑制することができる。
一方、音認識回路5が分離信号に目的の環境音が含まれていると判定すると、その旨が機器制御部6に伝達される。そして、機器制御部6は、カメラ80、マイク81およびスピーカ82をON状態に制御する。すなわち、カメラ80に撮影を開始させるとともに、マイク81に録音を開始させる。また、スピーカ82に所定の警告音の再生を開始させる。
この処理と並行して、機器制御部6は、信号処理回路3から入力される音源方向Dpに基づいて、カメラ80の撮影調整の制御を行い、カメラ80のパン・チルト・ズーム等の動作が行われる。同様に、機器制御部6は、信号処理回路3から入力される音源方向Dpに基づいて、マイク81およびスピーカ82の指向方向の調整制御とを行う。
さらに、機器制御部6は、再生装置83に対して、所定の通報を行うように制御する。この制御に応じて、再生装置83は、必要な情報を記憶装置7から取得して、取得した情報に基づいて通報を行う。例えば、目的の環境音が検出された旨を示す文字や画像等をディスプレイの画面に表示したり、警告灯を点灯させたり、あるいは所定の警告音を再生したりする。また、カメラ80およびマイク81が記録している内容をリアルタイムに再生する。このように、再生装置83によってリアルタイムの通報を行うことにより、警備員等の迅速な対応が可能となる。
なお、機器制御部6は、一旦検出された目的の環境音が停止した場合には、所定の時間が経過した後に、カメラ80、マイク81およびスピーカ82をOFF状態に戻す。また、再生装置83についても、適宜、OFF状態となるように制御する。
機器制御部6は、目的の環境音が検出されたときだけでなく、オペレータや監視員等から指示があった場合にも当該指示に従って再生装置83を制御する。これにより、例えば、これまでに撮影された画像データや録音された音データの再生、あるいは目的の環境音が検出された履歴情報の出力(プリントアウトや画面表示等)が行われる。すなわち、監視システム1は、リアルタイムの通報に加えて、過去の状況を通報(確認)することも可能である。
以上のように、本実施の形態における監視システム1は、周波数帯域を複数の分割帯域に分割して、各分割帯域ごとの部分分離行列を求めることによって、観測信号に対する分離行列を生成する。そして、生成された分離行列によって観測信号から、少なくとも1の分離信号を生成する。さらに、このようにして生成された分離信号に基づいて、当該分離信号によって表現される音が目的の環境音であるか否かを認識することにより、認識精度が向上する。
また、カメラ80が、方向特定部36により特定された音源方向に応じて、機器制御部6によって制御されることにより、効率よく撮影を行うことができる。
また、マイク81(録音装置)が、方向特定部36により特定された音源方向に応じて、機器制御部6によって制御されることにより、効率よく録音を行うことができる。
また、特性情報として、分離行列演算部35により生成された分離行列W(f)を用いることにより、音源方向を特定する際に、学習結果を反映させることができるので、精度が向上する。
また、分離行列演算部35が求めた学習帯域群における部分分離行列と、補間部37により求めた補間帯域群における部分分離行列とに基づいて、分離行列を生成することにより、方向特定部36の演算結果(音源方向)を有効に活用しつつ、全周波数帯域について反復して学習処理を行う場合に比べて、演算量を抑制できる。
また、再生装置83が、音認識回路5による認識結果に基づいてオペレータや警備員等に通報することにより、例えば、目的の環境音が観測されたことを迅速かつ容易に知らせることができる。
さらに、再生装置83は、信号処理回路3によって分離された分離信号よって表現される音を再生することにより、再生された音によって、目的の環境音であるか否かをオペレータが直接判断することができる。
<2. 変形例>
以上、本発明の実施の形態について説明してきたが、本発明は上記実施の形態に限定されるものではなく様々な変形が可能である。
例えば、上記実施の形態では1回目の反復において、全周波数領域を学習帯域群fhに分類すると説明したが、もちろん1回目の学習のときから間引きを行ってもよい。その場合、分離行列W(f)の初期値W0(f)で補間して、1回目の分離行列W1(f)を求めてもよい。
また、機器制御部6は、音認識回路5によって認識された目的の環境音の種類に応じて、カメラ80、マイク81、スピーカ82および再生装置83の制御を変更してもよい。例えば、認識された目的の環境音の種類に応じて、スピーカ82から再生する音を選択するように構成してもよい。
また、上記実施の形態において、機器制御部6がカメラ80、マイク81、スピーカ82および再生装置83を制御する手法は、あくまでも例示であって、このような制御に限定されるものではない。すなわち、監視システム1の目的、設置状況、構成等によって、適宜変更されてもよい。
また、上記実施の形態における方向特定部36は、反復学習の過程で、補間分離行列WH(fh)を求めるために求めた音源方向Dpに基づいて、機器制御部6がカメラ80等を制御すると説明した。しかし、反復学習を終了した後の分離行列W(f)に基づいて改めて音源方向Dpを求め、このようにして求めた音源方向Dpに基づいて機器制御部6がカメラ80等を制御してもよい。この場合、方向特定部36による演算回数が増加するものの、音源方向Dpの精度は向上する。
本発明に係る監視システムを示す図である。 信号処理回路の詳細を示す図である。 信号分離部とICAの詳細とを示す図である。 最初の分離行列W1(f)を求める様子を概念的に示す図である。 i+1回目の分離行列Wi+1(f)を求める様子を概念的に示す図である。
符号の説明
1 監視システム
2a,2b マイク
3 信号処理回路
30 FFT
31 信号分離部
32 IFFT
33 ICA
34 補正部
35 分離行列演算部
36 方向特定部
37 補間部
4 雑音除去回路
5 音認識回路
6 機器制御部
7 記憶装置
80 カメラ
81 マイク
82 スピーカ
83 再生装置
9a,9b 音源
Dp 音源方向

Claims (7)

  1. 目的の環境音に応じて周囲の環境を監視する監視システムであって、
    それぞれの配置位置において観測された音を示す観測信号をそれぞれが生成する複数の観測装置と、
    周波数帯域を複数の分割帯域に分割し、各分割帯域ごとの部分分離行列を求めることによって、前記観測信号に対する分離行列を生成する分離行列演算手段と、
    前記分離行列演算手段により生成された分離行列によって前記複数の観測信号のうちの少なくとも1つから、少なくとも1の分離信号を生成する信号分離手段と、
    前記信号分離手段により生成された分離信号によって表現される音が前記目的の環境音であるか否かを認識する認識手段と、
    を備えることを特徴とする監視システム。
  2. 請求項1に記載の監視システムであって、
    前記複数の観測装置の位置情報と前記複数の観測装置の特性情報とに基づいて、前記分離信号によって表現される音の音源方向を特定する方向特定手段と、
    周囲の環境を撮影により記録する少なくとも1つのカメラと、
    をさらに備え、
    前記少なくとも1つのカメラは、前記方向特定手段により特定された音源方向に応じて制御されることを特徴とする監視システム。
  3. 請求項1に記載の監視システムであって、
    前記複数の観測装置の位置情報と前記複数の観測装置の特性情報とに基づいて、前記分離信号によって表現される音の音源方向を特定する方向特定手段と、
    周囲の環境を録音により記録する少なくとも1つの録音装置と、
    をさらに備え、
    前記少なくとも1つの録音装置は、前記方向特定手段により特定された音源方向に応じて制御されることを特徴とする監視システム。
  4. 請求項2または3に記載の監視システムであって、
    前記特性情報は、前記分離行列演算手段により生成された分離行列であることを特徴とする監視システム。
  5. 請求項2ないし4のいずれかに記載の監視システムであって、
    前記分離行列演算手段は、
    前記複数の分割帯域をそれぞれ学習帯域群または補間帯域群に分類する帯域分類手段と、
    前記方向特定手段により特定された音源方向に基づいて、前記補間帯域群における部分分離行列を演算する補間手段と、
    学習処理により、前記学習帯域群における部分分離行列を演算する学習手段と、
    を有し、
    前記分離行列演算手段は、
    前記学習手段により求めた学習帯域群における部分分離行列と、前記補間手段により求めた補間帯域群における部分分離行列とに基づいて、前記分離行列を生成することを特徴とする監視システム。
  6. 請求項1ないし5のいずれかに記載の監視システムであって、
    前記認識手段による認識結果に基づいてオペレータに通報する通報手段をさらに備えることを特徴とする監視システム。
  7. 請求項6に記載の監視システムであって、
    前記通報手段は、前記分離信号よって表現される音を再生することを特徴とする監視システム。
JP2007081091A 2007-03-27 2007-03-27 監視システム Expired - Fee Related JP4859130B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007081091A JP4859130B2 (ja) 2007-03-27 2007-03-27 監視システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007081091A JP4859130B2 (ja) 2007-03-27 2007-03-27 監視システム

Publications (2)

Publication Number Publication Date
JP2008241991A true JP2008241991A (ja) 2008-10-09
JP4859130B2 JP4859130B2 (ja) 2012-01-25

Family

ID=39913450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007081091A Expired - Fee Related JP4859130B2 (ja) 2007-03-27 2007-03-27 監視システム

Country Status (1)

Country Link
JP (1) JP4859130B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010148030A (ja) * 2008-12-22 2010-07-01 Sony Corp 音波出力装置、通話装置、音波出力方法、及びプログラム
JP2012065262A (ja) * 2010-09-17 2012-03-29 Olympus Imaging Corp 撮影装置
US9911436B2 (en) 2013-09-02 2018-03-06 Honda Motor Co., Ltd. Sound recognition apparatus, sound recognition method, and sound recognition program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189139A (ja) * 2001-12-20 2003-07-04 Matsushita Electric Ind Co Ltd 音響変動検出によるカメラ制御装置
JP2003319095A (ja) * 2002-04-26 2003-11-07 Matsushita Electric Ind Co Ltd 音声制御装置
JP2005077731A (ja) * 2003-08-29 2005-03-24 Univ Waseda 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP2005252660A (ja) * 2004-03-04 2005-09-15 Matsushita Electric Ind Co Ltd 撮影システム及び撮影制御方法
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008134298A (ja) * 2006-11-27 2008-06-12 Megachips System Solutions Inc 信号処理装置、信号処理方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189139A (ja) * 2001-12-20 2003-07-04 Matsushita Electric Ind Co Ltd 音響変動検出によるカメラ制御装置
JP2003319095A (ja) * 2002-04-26 2003-11-07 Matsushita Electric Ind Co Ltd 音声制御装置
JP2005077731A (ja) * 2003-08-29 2005-03-24 Univ Waseda 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP2005252660A (ja) * 2004-03-04 2005-09-15 Matsushita Electric Ind Co Ltd 撮影システム及び撮影制御方法
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008134298A (ja) * 2006-11-27 2008-06-12 Megachips System Solutions Inc 信号処理装置、信号処理方法およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010148030A (ja) * 2008-12-22 2010-07-01 Sony Corp 音波出力装置、通話装置、音波出力方法、及びプログラム
JP4725643B2 (ja) * 2008-12-22 2011-07-13 ソニー株式会社 音波出力装置、通話装置、音波出力方法、及びプログラム
US8817578B2 (en) 2008-12-22 2014-08-26 Sony Corporation Sonic wave output device, voice communication device, sonic wave output method and program
JP2012065262A (ja) * 2010-09-17 2012-03-29 Olympus Imaging Corp 撮影装置
US9911436B2 (en) 2013-09-02 2018-03-06 Honda Motor Co., Ltd. Sound recognition apparatus, sound recognition method, and sound recognition program

Also Published As

Publication number Publication date
JP4859130B2 (ja) 2012-01-25

Similar Documents

Publication Publication Date Title
US9875410B2 (en) Camera system for transmitting and receiving an audio signal and operating method of the same
JP4729927B2 (ja) 音声検出装置、自動撮像装置、および音声検出方法
JP6344383B2 (ja) 行動解析装置、行動解析方法および行動解析プログラム
US10129658B2 (en) Method and apparatus for recovering audio signals from images
JP5564873B2 (ja) 収音処理装置、収音処理方法、及びプログラム
KR102287373B1 (ko) 경보 발생 장치 및 방법
MX2009001254A (es) Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado.
KR101739942B1 (ko) 오디오 노이즈 제거 방법 및 이를 적용한 영상 촬영 장치
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
JP4859130B2 (ja) 監視システム
Crocco et al. Audio tracking in noisy environments by acoustic map and spectral signature
CN108965789B (zh) 一种无人机监测方法及音视频联动装置
JP6369612B2 (ja) 音処理装置および音処理プログラム
CN105812721A (zh) 一种跟踪监控方法及跟踪监控设备
CN111091073A (zh) 一种将视频和音频联合的异常事件监控设备及方法
CN115206341B (zh) 设备异常声音检测方法、装置和巡检机器人
Colonna et al. A framework for chainsaw detection using one-class kernel and wireless acoustic sensor networks into the amazon rainforest
JP2020012704A (ja) 音処理装置、音処理方法およびプログラム
KR102293450B1 (ko) 금속 이물질 충격 모니터링 장치 및 그 방법
KR101670801B1 (ko) 이상 음원 감지 방법 및 시스템
CN111933174B (zh) 语音处理方法、装置、设备和系统
WO2019097412A1 (en) System and method for multimedia-based performance monitoring of an equipment
JP4175180B2 (ja) 監視通報システム
CN110933254B (zh) 一种基于图像分析的声音过滤系统及其声音过滤方法
JP7000963B2 (ja) ソーナー装置、音響信号判別法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100302

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111028

R150 Certificate of patent or registration of utility model

Ref document number: 4859130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees