JP4046592B2 - Sound source identification device, sudden event detection device, and sudden event automatic recording device - Google Patents

Sound source identification device, sudden event detection device, and sudden event automatic recording device Download PDF

Info

Publication number
JP4046592B2
JP4046592B2 JP2002309074A JP2002309074A JP4046592B2 JP 4046592 B2 JP4046592 B2 JP 4046592B2 JP 2002309074 A JP2002309074 A JP 2002309074A JP 2002309074 A JP2002309074 A JP 2002309074A JP 4046592 B2 JP4046592 B2 JP 4046592B2
Authority
JP
Japan
Prior art keywords
signal
spectrum
extracted
sound source
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002309074A
Other languages
Japanese (ja)
Other versions
JP2003202260A (en
Inventor
達也 堅多
暁晴 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Zosen Corp
Original Assignee
Hitachi Zosen Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Zosen Corp filed Critical Hitachi Zosen Corp
Priority to JP2002309074A priority Critical patent/JP4046592B2/en
Publication of JP2003202260A publication Critical patent/JP2003202260A/en
Application granted granted Critical
Publication of JP4046592B2 publication Critical patent/JP4046592B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、交差点などに設置されて交通事故等の突発事象に起因する音を検出するとともに、この交通事故等を自動的に撮影して記録するための音源識別装置および突発事象検出装置並びに突発事象自動記録装置に関するものである。
【0002】
【従来の技術】
近年、交通事故は増加の一途を辿り、交通事故の発生数を減らすことが急務とされ、このため、交差点などに交通事故自動記録装置を設置し、事故前後の状況を映像にて記録することにより、事故分析が行われている。
【0003】
この種の交通事故自動記録装置は、カメラ装置にて交差点を撮影するとともに、交通事故に基づく衝突音、急ブレーキ音などを検出した際に、その前後における映像を、自動的に保存するものである。
【0004】
ところで、交差点などにおいては、事故以外の音が多数発生しており、交通事故の映像を保存するためには、検出した音が交通事故に起因しているものであるか否かを判断する必要がある。
【0005】
従来、音を分析する場合、音圧解析とスペクトル解析とが併用して行われており、例えば音圧解析については、時系列の音圧分布にて、或るしきい値を超えた場合に、車両の衝突による衝撃音が発生したと判断されていた。すなわち、音響信号のスペクトル分布から、衝撃音と判断されていた(例えば、特開平4−338900号公報参照)。
【0006】
【特許文献1】
特開平4−338900号公報(第3頁の[0022]〜[0023]欄)
【0007】
【発明が解決しようとする課題】
ところで、上述した音源の判断方法によると、大型トラックの荷台の振動音、道路工事の音、カラスの鳴き声などは、事故音と区別するのが難しく、したがって自動的に記録された映像を再生した場合、単に、大型トラックが通過しただけというように、事故とは関係のない映像が多く記録されており、その検出精度が低いという問題があった。
【0008】
そこで、本発明は、音による交通事故等の突発事象の検出精度を向上させ得る音源識別装置および突発事象検出装置並びに突発事象自動記録装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するために、本発明の音源識別装置は、音響検出手段にて検出された音響信号から所定周波数帯域の信号を抽出する信号抽出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定レベル値を超えているか否かを判断するレベル検出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、上記レベル検出手段における積分時間よりも短い所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定ピーク値を超えているか否かを検出するピーク検出手段と、
上記レベル検出手段およびピーク検出手段からの検出信号を入力して、レベル値およびピーク値のいずれかがそれぞれの設定値を超えている場合に、当該抽出音響信号の周波数スペクトルを演算するスペクトル演算手段と、
このスペクトル演算手段にて求められた周波数スペクトルを入力して、ニューラルネットワークにて音源の種類を特定する音源識別手段とを具備し、
さらに上記音源識別手段において、
最大レベルを示す周波数スペクトルの周波数軸上での位置に応じた分割パターンに基づきスペクトルデータ群を複数に分割して分類するとともに、最大レベルを示す周波数スペクトルが位置する分類番号を求め、この求められた分類番号に応じて信号特定用パターンを選択し、この信号特定用パターンをスペクトル演算手段からの周波数スペクトルに適用して新たな周波数スペクトルを抽出した後、当該抽出された周波数スペクトル系列と予め求められたスペクトル系列とのパターンマッチングをニューラルネットワーク手法を用いて行うことにより、音源の種類を特定するようにしたものである。
【0010】
上記音源識別装置の構成によると、音響検出手段にて検出された音響信号について、レベル検出手段およびピーク検出手段にて、少なくともいずれかの検出信号が検出された場合に、当該音響信号の周波数スペクトルを求めるとともに、ニューラルネットワークを用いてその音源の種別を特定するようにしたので、すなわちニューラルネットワークにて音源の種別を特定する際に、予備判断を行うようにしたので、音源を、正確に識別することができる。
【0011】
また、本発明の突発事象検出装置は、音響検出手段にて検出された音響信号から所定周波数帯域の信号を抽出する信号抽出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定レベル値を超えているか否かを判断するレベル検出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、上記レベル検出手段における積分時間よりも短い所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定ピーク値を超えているか否かを判断するピーク検出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定レベル値を超えている場合に、さらに所定時間経過後に、再度、当該所定の設定レベル値を超えているか否かを判断するレベル継続検出手段と、
上記レベル検出手段およびピーク検出手段からの検出信号を入力して、レベル値およびピーク値のいずれかがそれぞれの設定値を超えている場合に、当該抽出音響信号の周波数スペクトルを演算するスペクトル演算手段と、
このスペクトル演算手段にて求められた周波数スペクトルを入力して、ニューラルネットワークにて音源の種類を特定する音源識別手段と、
この音源識別手段にて識別された識別信号を入力するとともに、上記ピーク検出手段およびレベル継続検出手段からの検出信号を入力して、これら各信号に基づき、突発事象であるか否かを判定する突発事象判定手段とを具備し、
さらに上記音源識別手段において、
上記スペクトル演算手段で求められた周波数スペクトルの合計面積に応じた分割パターンに基づきスペクトルデータ群を複数に分割して第一の分類番号を付すとともに、上記スペクトル演算手段で求められた周波数スペクトルのうち最大レベルを示す周波数スペクトルの周波数軸上での位置に応じた分割パターンに基づきスペクトルデータ群を複数に分割して第二の分類番号を付した後、最大レベルを示す周波数スペクトルが位置する両分類番号を求め、
この求められた両分類番号に応じて信号特定用パターンを選択し、この信号特定用パターンをスペクトル演算手段からの周波数スペクトルに適用して新たな周波数スペクトルを抽出した後、当該抽出された周波数スペクトル系列と予め求められたスペクトル系列とのパターンマッチングをニューラルネットワーク手法を用いて行うことにより、音源の種類を特定するようにしたものである。
【0012】
さらに、本発明の突発事象自動記録装置は、上記突発事象検出装置を用いた突発事象自動記録装置であって、突発事象判定手段により突発事象であると判断された場合に、突発事象を撮影している撮影手段からの映像を、映像記録手段にて保存させる映像保存指示手段を具備させたものである。
【0013】
上記突発事象検出装置および当該突発事象検出装置を用いた突発事象自動記録装置の構成によると、上記音源識別装置におけるニューラルネットワークにて特定された音源に対して、さらにレベル継続検出手段により、信号レベルが継続しているか否かの判断が加味されているので、音源が、予め、想定された突発事象に基づくものであるか否かを、正確に検出することができ、したがって自動的に突発事象の映像を記録する場合に、その検出精度を向上させることができる。すなわち、上記事故判定装置を、交通事故自動記録装置に適用した場合には、交通事故を、精度よく、映像にて記録することができる。
【0014】
【発明の実施の形態】
以下、本発明の第1の実施の形態に係る音源識別装置および突発事象検出装置並びに突発事象自動記録装置を、図1〜図8に基づき説明する。
【0015】
なお、本実施の形態においては、突発事象自動記録装置について説明するが、本発明に係る音源識別装置および突発事象検出装置については、当該突発事象自動記録装置にて使用されるものであり、この装置の構成の一部として説明する。
【0016】
また、本実施の形態では、突発事象として交通事故を対象として説明するが、その音源の識別対象としては、衝突音などの他に、交通事故の検出に際し、重要な手掛かりとなるブレーキ、クラクション、サイレン、暴走音などの音源についても対象としており、したがって以下の説明では、これらを含めて事故音と称するとともに、交通事故以外の事象も含むため事故等と称し、さらに突発事象検出装置については事故検出装置と、また突発事象自動記録装置については交通事故自動記録装置として説明する。
【0017】
図1に示すように、この交通事故自動記録装置1には、交通事故を監視する箇所、例えば交通事故が頻繁に発生する交差点Kに設置されるカメラ装置(撮影手段)2と、交差点K付近にて発生する音を検出するためのマイクロフォン(音響検出手段の一例で、以下、マイクという)3と、このマイク3にて検出された音響信号に基づき事故等を特定するための事故検出装置4と、この事故検出装置4にて事故等であると判断された場合に、カメラ装置1にて撮影された映像を記録する映像記録手段(例えば、ビデオ装置、ハードディスク装置などが用いられる)5とから構成されている。
【0018】
上記事故検出装置4は、図2に示すように、上記マイク3にて集音された音響信号を入力して所定周波数帯域の信号を抽出する信号抽出手段11と、この信号抽出手段11にて抽出された抽出音響信号を入力して、所定の第1積分時間にて積分を行い音響エネルギー(積分値である、以下、同じ)を求め、且つ当該音響エネルギーが所定の第1設定レベル値を超えているか否かを判断するとともに、超えている場合には、所定の検出信号を出力するレベル検出手段12と、上記信号抽出手段11にて抽出された抽出音響信号を入力して、上記第1積分時間よりも短い所定の第2積分時間にて積分を行い音響エネルギーを求め、且つ当該音響エネルギーが所定の設定ピーク値を超えているか否かを判断するとともに、超えている場合には、所定の検出信号を出力するピーク検出手段13と、上記信号抽出手段11にて抽出された抽出音響信号を入力して、所定の第3積分時間にて積分を行い音響エネルギーを求め、且つ当該音響エネルギーが所定の設定レベル値を超えている場合に、さらに所定時間経過後に、再度、当該所定の設定レベル値を超えているか否かを判断するとともに、超えている場合には、所定の検出信号を出力するレベル継続検出手段14と、上記レベル検出手段12およびピーク検出手段13からの少なくともいずれかの検出信号を入力した場合に、所定周波数領域を所定個数に分割するとともに、これら各分割周波数領域に係る音響信号の周波数スペクトル(以下、単にスペクトルといい、またスペクトラムともいう)をそれぞれ演算するスペクトル演算手段15と、このスペクトル演算手段15にて求められた各分割周波数領域でのスペクトルを入力して、ニューラルネットワーク(手法)を用いて音源を特定し識別を行う音源識別手段16と、この音源識別手段16にて識別された音源識別信号を入力するとともに、上記ピーク検出手段13およびレベル継続検出手段14からの検出信号をそれぞれ入力して、事故等であるか否かを判定する事故判定手段17とが具備されている。
【0019】
また、この交通事故自動記録装置1には、上記事故判定手段17にて事故等であると判定された場合に、カメラ装置2にて撮影している映像を映像記録手段5に記録させるための保存指示を出力する映像保存指示手段18が設けられている。
【0020】
次に、上記各手段における構成または処理内容について詳しく説明する。
上記信号抽出手段11では、周波数が例えば0〜2.5kHzの信号が取り出された後、0〜500Hzの部分が除去される。これは、交通事故および車両の走行に、すなわち事故等に起因して発生する事故音の範囲を絞るとともに、余分なエンジン音(0〜500Hz)を除去するためである。
【0021】
また、上記レベル検出手段12は、信号抽出手段11からの抽出音響信号を入力して、所定の第1積分時間(例えば、500msec程度)にて積分を行い音響エネルギーを求める第1積分器21と、この第1積分器21にて求められた音響エネルギーと所定の第1設定レベル値とを比較して音響エネルギーが当該第1設定レベル値を超えている場合に、検出信号(トリガー信号である)として、例えば「1」の信号(なお、設定レベル値以下の場合には、「0」が出力されている)を出力する第1比較器22とが具備されている。すなわち、このレベル検出手段12では、音響信号を或る時間間隔で積分することにより、当該音響信号の大きさが、所定のレベルを超えているか否かが判断される。
【0022】
上記ピーク検出手段13は、信号抽出手段11からの抽出音響信号を入力して、上記第1積分時間より短い第2積分時間(例えば、100msec程度)にて積分を行い音響エネルギーを求める第2積分器23と、この第2積分器23にて求められた音響エネルギーと所定の第2設定レベル値とを比較して音響エネルギーのピーク値が当該第2設定レベル値(設定ピーク値でもある)を超えている場合に、検出信号(トリガー信号である)として、例えば「1」の信号(なお、設定レベル値以下の場合には、「0」が出力されている)を出力する第2比較器24とが具備されている。すなわち、このピーク検出手段13では、音響信号を短い時間でもって積分することにより、当該音響信号のピーク値が、所定のレベル(ピーク値)を超えているか否かが判断される。
【0023】
上記レベル継続検出手段14は、信号抽出手段11からの抽出音響信号を入力して、所定の第3積分時間(例えば、レベル検出手段における第1積分時間と同じ時間とされる)にて積分を行い音響エネルギーを求める第3積分器25と、この第3積分器25にて求められた音響エネルギーと所定の第3設定レベル値(例えば、レベル検出手段における設定レベル値が用いられる)とを比較して音響エネルギーが当該第3設定レベル値を超えている場合に、所定時間後(例えば、300msec)に、再度、同じ設定レベル値を超えているか否かを比較して超えている場合には、当該設定レベル値が継続(維持)されていると判断し、検出信号(トリガー信号である)として、例えば「1」の信号(なお、設定レベル値が継続されていない場合には、「0」が出力されている)を出力する第3比較器26とが具備されている。
【0024】
なお、図3に、上記各検出手段12〜14における各比較器22,24,26での入力信号、出力信号および検出信号の波形図を示し、(a)はレベル検出手段12での第1比較器22のものを、(b)はピーク検出手段13での第2比較器24のものを、(c)はレベル継続検出手段14での第3比較器26のものをそれぞれ示し、また(d)は、リセット信号を示す。
【0025】
また、上記スペクトル演算手段15では、レベル検出手段12からの検出信号(「1」)およびピーク検出手段13からの検出信号(「1」)のいずれかが入力されると、まず抽出音響信号がA/D変換器(図示せず)にてデジタル化された後、図4に示すように、所定周波数領域(450〜2500Hz)を所定個数、例えば105個に分割した各分割周波数領域(バンクともいう)に係る音響信号の周波数スペクトル(周波数スペクトラムともいう)が、高速フーリエ変換(FFT)にて求められる。
【0026】
そして、上記音源識別手段16にて、ニューラルネットワークが用いられて音源の種類が特定される。
以下、このニューラルネットワークを用いた処理内容について、詳しく説明する。
【0027】
この音源識別手段16では、周波数スペクトルを4段階にてそれぞれの分類方法(第1分類〜第4分類)に基づき且つニューラルネットワーク(手法)を用いて認識・分類作業が行われ、これらの分類作業にて得られた分類番号が、予め、実験などにより求められた分類表と照合されて、検出された音が、衝突音、タイヤと路面の摩擦音、クラクション、暴走音、サイレンを含めて多数の種類のいずれかに特定される。
【0028】
ここで、上記分類作業の内容について説明する。第1分類(第1段階)では、105個に分割した各分割周波数領域(以下、バンクという)に係る音響信号の各周波数スペクトルを、その最大値でもって正規化を行った後、正規化が行われた105バンクにおける周波数スペクトルが最大ピーク(最大レベルといえる)のものを求める。
【0029】
そして、この105バンクの分割周波数領域(スペクトルデータ群といえる)が、上記最大ピークが存在するバンク数(バンクの位置)に応じた分割パターンに、例えば10個に分けられるとともに#0〜#9の分類番号が付された後、当該抽出音響信号に係るスペクトル系列(図4の棒状グラフにて示す)のうち、最大のレベルを有するスペクトルが、#0〜#9のいずれの部分に属するかが求められる。なお、105バンクの分割の仕方は、最大レベルのバンク位置に応じて予め求められている。具体的には、実際の交通音のサンプルデータ(5000件)に基づき、例えば5000件それぞれの各最大レベルのバンク位置を度数分布化し(横軸がバンク位置で、縦軸が件数となる)、それが等分になるように分割する。すなわち、最大レベルのバンク位置の度数分布が大きい部分は、分割幅が狭くされるとともに、最大レベルのバンク位置の度数分布が小さい部分は、分割幅が広くされる(場合によっては、等分でなくてもよく、また分割個数については、10個でなくてもよい)。そして、例えばバンク番号が小さいものから大きいものへと分類番号が、#0〜#9というように付けられる。したがって、図4においては、88バンク付近が最大のレベルを有しており、この88バンクが属する分類番号が、例えば#8というように割り当てられる。
【0030】
そして、第2分類〜第4分類においては、音響信号の特徴部分をスペクトルに基づき抽出するとともに、この抽出されたスペクトル系列と、音源を特定するために、予め実験により求められたスペクトル系列とのパターンマッチング(パターン認識)を、ニューラルネットワーク(手法)を用いて行い、これら各分類作業にて得られた分類番号に基づき、最終的に、上述したように、実験などにより求められた分類表と照合されて、検出された音が、衝突音、タイヤと路面の摩擦音、クラクション、暴走音、サイレンを含めて多数の種類のいずれかに特定される。なお、これら各分類作業においては、その前段階作業にて得られた分類結果に基づき、データベースに多数用意された信号特定用パターンの中から、所定個数の一群(後述するが、例えば5個づつ)が選択抽出されて、パターン認識に使用される。
【0031】
以下、第2分類作業〜第4分類作業について説明する。
第2分類作業では、まず、上記第1分類で求められた分類番号(例えば、#8である)に基づき、5個のパターンがデータベースから取り出される。
【0032】
そして、当該音響信号における105バンクのスペクトル系列のうち、最大スペクトルの50%未満のデータを零となし(ゼロリセットともいう)、これを正規化したスペクトル系列(図5に示す)に対して、ニューラルネットワークを用いて、上記5個のパターンに、当該5個以外のパターン(用意されたパターン以外のもの)を示すパターンを加えた、計6個のパターンとパターンマッチングを行うことにより、分類番号が割り当てられる。
【0033】
第3分類では、上記第2分類で求められた分類番号に基づき、やはり、5個のパターンがデータベースから取り出されるとともに、当該音響信号における105バンクのスペクトル系列のうち、最大スペクトルおよびその前後2バンクづつの合計5バンクのスペクトル部分をゼロとなし(ゼロリセット)、新たな105バンクのスペクトル系列を作成する。そして、新たに作成された105バンクのスペクトル系列のうち、最大スペクトルが或るしきい値以上のスペクトルに対しては、最大スペクトルの25%未満をゼロとなし、それを正規化したスペクトル系列(図6に示す)に対してニューラルネットワークを用いて、上記5個のパターンに、当該5個以外のパターンを示すパターンおよびしきい値未満のパターン(しきい値未満についても、1個のパターンとみなす)を加えた、計7個のパターンとパターンマッチングを行うことにより、分類番号が割り当てられる。すなわち、この分類作業では、強さが一番大きいスペクトル部分が除去された残りのスペクトル系列に対する分類が行われることになる。
【0034】
さらに、第4分類では、下記の2つの場合について分類が行われる。
勿論、この分類作業においても、第3分類作業にて得られた分類番号に基づき、データベースからパターンマッチングに使用されるパターンが5個取り出される。
【0035】
▲1▼第3分類において、最大スペクトルがしきい値未満である場合。
第3分類にて作成された105バンクのスペクトル系列のうち、最大スペクトルの25%未満のスペクトルをゼロとなし(ゼロリセット)、それを正規化したスペクトル系列に対して、ニューラルネットワークにより、上記5個のパターンに、当該5個以外のパターンを示すパターンを加えた、計6個のパターンとパターンマッチングを行うことにより、分類番号が割り当てられる。
【0036】
▲2▼第3分類において、最大スペクトルが所定のしきい値以上である場合。
第3分類にて作成された105バンクのスペクトル系列に対し、最大スペクトルおよびその前後2バンクの計5バンクのスペクトルをゼロとなし(ゼロリセット)、新たな105バンクのスペクトル系列を作成する。
【0037】
そして、この105バンクのスペクトル系列のうち、最大スペクトルが或るしきい値以上のスペクトルに対しては、最大スペクトルの12.5%未満のスペクトルをゼロとなし、それを正規化したスペクトル系列(図7に示す)に対してニューラルネットワークによるパターン認識を行い、7個のパターン(この場合も、データベースから取り出された5パターンに、当該5個以外のパターンを示すパターンおよびしきい値未満のパターンを加えたもの)とパターンマッチングを行うことにより、分類番号が割り当てられる。この分類作業では、強さが二番目に大きいスペクトル部分が除去されたスペクトル系列に対する分類が行われることになる。なお、上記のニューラルネットワークによる分類作業の概念図を、図8に示す。
【0038】
さらに、上記事故判定手段17では、上記音源識別手段16での分類結果、すなわち識別信号(NTにて表す)および上記レベル継続検出手段14からの検出信号(PDにて表す)並びにピーク検出手段13からの検出信号(PTにて表す)を入力して、{(NTandPD)orPT}の論理演算が行われ、その音源が事故等に起因するもの(事故音)であるか否かが判定される。なお、識別信号(NT)については、事故等に起因して発生する音である場合には「1」とされ、また検出信号(PD)についても、音が継続している場合には「1」に、検出信号(PT)についても、ピーク値が所定の強さ以上である場合には「1」とされる。
【0039】
そして、上記論理演算式における論理積(and)の部分は、音が瞬間的なものでなく、事故等であれば、わずかな時間ではあるが継続する音であると考えられることから、検出信号(PD)との論理積をとるようにしたものであり、一方、事故等に起因する音であれば、そのピーク値がかなりの強さを有すると考えられるため、そのピーク値が設定レベル値(勿論、この値は実験などにより設定されている)より大きいものである場合には、事故等に起因するものと判断し得るように、上記論理積(NTandPD)に対して検出信号(PT)の論理和をとるようにしたものである。
【0040】
したがって、この論理演算式によると、検出した音が、ニューラルネットワークにより、事故等に関係するものであり且つその音が少しの時間であるが継続している場合、または検出した音のピーク値が事故等に起因して発生するような強い(高い)ものである場合には、事故等に起因した音であると判定される。
【0041】
この事故判定手段17で事故等であると判定された場合には、映像保存指示手段18にその旨の指示が出力されて、映像記録手段5にて、当該事故等の発生時の前後における映像が記録されて保存される。
【0042】
そして、この映像保存指示手段18による映像の保存指示時には、映像データのインデックスとして、上記事故判定手段17で事故等であると判断された場合の事故内容(例えば、コード化したもの)が一緒に記録される。このインデックスにより、例えば衝突音、衝突音+タイヤと路面の摩擦音、衝突音+クラクション、タイヤと路面の摩擦音、クラクション、暴走音、サイレン、これら以外の音の識別が行われる。
【0043】
ところで、上記各手段、積分器、比較器などについては、それぞれ電気信号回路により構成されており、特に、ニューラルネットワークにより演算が行われる音源識別手段16には、演算処理部として例えばCPUが具備されており、勿論、ニューラルネットワークには学習機能が具備されている。
【0044】
次に、上記交通事故自動記録装置により、交通事故等を自動的に記録する際の処理手順を簡単に説明する。
例えば、交差点に配置された当該交通事故自動記録装置1のカメラ装置2およびマイク3が作動している状態において、マイク3により検出された音響信号が信号抽出手段11にて所定周波数帯域でもって抽出され、この抽出音響信号が、レベル検出手段12、ピーク検出手段13およびレベル継続検出手段14に入力されて、事故等であるか否かの予備判断が行われる。
【0045】
そして、レベル検出手段12およびピーク検出手段13のうち、少なくもと、いずれかからの検出信号があった場合、抽出音響信号に対してA/D変換が行われた後、スペクトル演算手段15にてスペクトルの演算が行われる。
【0046】
この演算により求められたスペクトル系列が音源識別手段16に入力されて、ここで、上述したニューラルネットワークを用いた分類方法にて、音源が識別されるとともに、この識別された音が事故等に結び付く可能性が高いもの(例えば、衝突音、衝突音+タイヤと路面の摩擦音、衝突音+クラクション、タイヤと路面の摩擦音、クラクション、暴走音、サイレンなどの音)である場合には、事故等を示す検出信号(NT)が出力される。
【0047】
次に、上記事故等の検出信号(NT)、レベル継続検出手段14からの継続を示す検出信号(PD)およびピーク検出手段13からのピークの検出信号(PT)が事故判定手段17に入力されて論理演算が行われ、事故等に起因する音であるか否かが判定される。
【0048】
そして、事故判定手段17にて、事故等であると判断された場合には、映像保存指示手段18にその旨の指示信号が出力されて、その音が発生した前後において撮影された映像が映像記録手段5に記録されて保存される。勿論、この映像データの記録時には、その映像データに対するインデックスとして、音源識別手段16にて特定された音源種別のコードデータが一緒に記録され、後からの映像データの検索の容易化が図られている。
【0049】
なお、音源識別手段16での1回の識別時間は、例えば3秒とされており、各検出手段12〜14において、検出信号(トリガー信号)が得られた場合には、この3秒が経過するまでは検出信号の出力が維持され、3秒経過後にリセット信号が出力される。
【0050】
このように、上記交通事故自動記録装置1の構成、特にその音源識別手段16の構成によると、エンジン音などのように、車両が通常に発している低周波数および人間が聞くことが困難な高い周波数を除去した抽出音響信号について、レベル検出手段12にて音響信号のレベル値が設定レベル値を超えているか否かを検出するとともに、ピーク検出手段13にて音響信号のピーク値が設定ピーク値を超えているか否かを検出し、少なくとも一方がそれぞれの設定値を超えている場合に、当該音響信号の周波数スペクトルを求めるとともに、ニューラルネットワークを用いて、その音源の種別を特定するようにしたので、音源の識別を、より正確に行うことができる。
【0051】
また、この音源識別手段16を用いた事故検出装置4の構成によると、ニューラルネットワークにて特定された音源に対して、さらにレベル継続検出手段14にて音響信号のレベル継続時間が設定継続時間を超えているか否かの判断が加味されているので、事故等であるか否かの判断を、一層、正確に行うことができる。
【0052】
したがって、この事故判定装置4を、交通事故自動記録装置1に適用した場合には、交通事故等を、精度よく、映像にて記録することができる。
交差点に設置して実験を行ったところ、従来の交通事故自動記録装置では、その検出精度が30%程度であったのに対し、本実施の形態に係る交通事故自動記録装置では、その検出精度が80%程度までに向上した。
【0053】
次に、本発明の第2の実施の形態に係る音源識別装置および突発事象検出装置並びに突発事象自動記録装置について説明する。
上記第1の実施の形態においては、最初に、105バンクに分割された分割周波数領域を、最大レベルを有するスペクトルのバンク番号に応じて、予め、定められた分割パターンに応じて10個に分割するようにしたが、本第2の実施の形態では、周波数スペクトルの合計面積に応じた分割パターンに基づき5個に分割し、この5個に分割されたパターンと上記第1の実施の形態と同様の分割の方法にて10個に分割されたパターンとを併用するようにしたものである。
【0054】
以下、本第2の実施の形態について説明するが、基本的な構成については、第1の実施の形態で説明したものと同じであるため、音源識別手段16に着目して説明する。なお、構成については、同一番号を用いて簡単に説明するものとする。
【0055】
音源識別手段16では、周波数スペクトルを4段階にてそれぞれの分類方法(第1分類〜第4分類)に基づき且つニューラルネットワーク(手法)を用いて認識・分類作業が行われ、これらの分類作業にて得られた分類番号が、予め、実験などにより求められた分類表と照合されて、検出された音が、衝突音、タイヤと路面の摩擦音、クラクション、暴走音、サイレンを含めて多数の種類のいずれかに特定される。
【0056】
ここで、上記分類作業の内容について説明する。
本第2の実施の形態では、第1分類において、分類基準が異なる2種類の分割パターンを併用して分類番号を求めるようにしたものである。
【0057】
すなわち、第1分類(第1段階)では、105個に分割した各分割周波数領域(以下、バンクともいう)に係る音響信号の各周波数スペクトルを、その最大値でもって正規化を行った後、正規化が行われた105バンクにおける周波数スペクトルについて、合計面積が求められる。
【0058】
そして、105バンクの分割周波数領域(スペクトルデータ群といえる)が、上記合計面積に応じて予め定められている分割パターンに基づき、例えば5個に分けられて、#0〜#4の分類番号が付される。ここでの分割の仕方は、実際の交通音のサンプルデータ(5000件)に基づき、例えば5000件それぞれの各合計面積値を度数分布化し(横軸がバンク位置で、縦軸が面積値となる)、それが等分になるように分割する。すなわち、合計面積値の度数分布の大きい部分は、分割幅が狭くされるとともに、合計面積値の度数分布が小さい部分は、分割幅が広くされる(場合によっては、等分でなくてもよく、また分割個数については、5個でなくてもよい)。例えば、第1の実施の形態にて説明した図4において、105バンクの周波数スペクトルの合計面積が2410であるとすると、この合計面積2410が属する分類番号(第一の分類番号であり、予め、合計面積値と分類番号とが対応付けられている)が、例えば#3というように割り当てられる。
【0059】
次に、第1の実施の形態と同様の方法(手順)にて、105バンクが例えば10個に分けられて、#0〜#9の分類番号(第二の分類番号)が付される。そして、この第1分類における分類番号は上記2種類の番号が考慮されて決定される。例えば、合計面積値による5個の分割では#3に、最大レベルのバンク位置による10個の分割では#9というように番号が割り当てられると、この第1分類による分類番号は、#39となる。
【0060】
次に、第2分類〜第4分類においては、音響信号の特徴部分をスペクトルに基づき抽出するとともに、この抽出されたスペクトル系列と、音源を特定するために、予め実験により求められたスペクトル系列とのパターンマッチング(パターン認識)を、ニューラルネットワーク(手法)を用いて行い、これら各分類作業にて得られた分類番号に基づき、最終的に、上述したように、実験などにより求められた分類表と照合されて、検出された音が、衝突音、タイヤと路面の摩擦音、クラクション、暴走音、サイレンを含めて多数の種類のいずれかに特定される。なお、これら各分類作業においては、その前段階作業にて得られた分類結果に基づき、データベースに多数用意された信号特定用パターンの中から、所定個数の一群(後述するが、例えば5個づつ)が選択抽出されて、パターン認識に使用される。
【0061】
以下、第2分類作業〜第4分類作業について説明する。
第2分類作業では、まず、上記第1分類で求められた分類番号(例えば、#39である)に基づき、5個のパターンがデータベースから取り出される。
【0062】
そして、当該音響信号における105バンクのスペクトル系列のうち、最大スペクトルの50%未満のデータを零となし(ゼロリセットともいう)、これを正規化したスペクトル系列に対して、ニューラルネットワークを用いて、上記5個のパターンに、当該5個以外のパターン(用意されたパターン以外のもの)を示すパターンを加えた、計6個のパターンとパターンマッチングを行うことにより、分類番号が割り当てられる。
【0063】
第3分類では、上記第2分類で求められた分類番号に基づき、やはり、5個のパターンがデータベースから取り出されるとともに、当該音響信号における105バンクのスペクトル系列のうち、最大スペクトルおよびその前後2バンクづつの合計5バンクのスペクトル部分をゼロとなし(ゼロリセット)、新たな105バンクのスペクトル系列を作成する。そして、新たに作成された105バンクのスペクトル系列のうち、最大スペクトルが或るしきい値以上のスペクトルに対しては、最大スペクトルの25%未満をゼロとなし、それを正規化したスペクトル系列に対してニューラルネットワークを用いて、上記5個のパターンに、当該5個以外のパターンを示すパターンおよびしきい値未満のパターン(しきい値未満についても、1個のパターンとみなす)を加えた、計7個のパターンとパターンマッチングを行うことにより、分類番号が割り当てられる。すなわち、この分類作業では、強さが一番大きいスペクトル部分が除去された残りのスペクトル系列に対する分類が行われることになる。
【0064】
さらに、第4分類では、下記の2つの場合について分類が行われる。
勿論、この分類作業においても、第3分類作業にて得られた分類番号に基づき、データベースからパターンマッチングに使用されるパターンが5個取り出される。
【0065】
▲1▼第3分類において、最大スペクトルがしきい値未満である場合。
第3分類にて作成された105バンクのスペクトル系列のうち、最大スペクトルの25%未満のスペクトルをゼロとなし(ゼロリセット)、それを正規化したスペクトル系列に対して、ニューラルネットワークにより、上記5個のパターンに、当該5個以外のパターンを示すパターンを加えた、計6個のパターンとパターンマッチングを行うことにより、分類番号が割り当てられる。
【0066】
▲2▼第3分類において、最大スペクトルが所定のしきい値以上である場合。
第3分類にて作成された105バンクのスペクトル系列に対し、最大スペクトルおよびその前後2バンクの計5バンクのスペクトルをゼロとなし(ゼロリセット)、新たな105バンクのスペクトル系列を作成する。
【0067】
そして、この105バンクのスペクトル系列のうち、最大スペクトルが或るしきい値以上のスペクトルに対しては、最大スペクトルの12.5%未満のスペクトルをゼロとなし、それを正規化したスペクトル系列に対してニューラルネットワークによるパターン認識を行い、7個のパターン(この場合も、データベースから取り出された5パターンに、当該5個以外のパターンを示すパターンおよびしきい値未満のパターンを加えたもの)とパターンマッチングを行うことにより、分類番号が割り当てられる。この分類作業では、強さが二番目に大きいスペクトル部分が除去されたスペクトル系列に対する分類が行われることになる。
【0068】
なお、この後の作業について説明すると、上述した第1の実施の形態と同様に、上記事故判定手段17では、上記音源識別手段16での分類結果、すなわち識別信号(NTにて表す)および上記レベル継続検出手段14からの検出信号(PDにて表す)並びにピーク検出手段13からの検出信号(PTにて表す)を入力して、{(NTandPD)orPT}の論理演算が行われ、その音源が事故等に起因するもの(事故音)であるか否かが判定される。なお、識別信号(NT)については、事故等に起因して発生する音である場合には「1」とされ、また検出信号(PD)についても、音が継続している場合には「1」に、検出信号(PT)についても、ピーク値が所定の強さ以上である場合には「1」とされる。
【0069】
そして、上記論理演算式における論理積(and)の部分は、音が瞬間的なものでなく、事故等であれば、わずかな時間ではあるが継続する音であると考えられることから、検出信号(PD)との論理積をとるようにしたものであり、一方、事故等に起因する音であれば、そのピーク値がかなりの強さを有すると考えられるため、そのピーク値が設定レベル値(勿論、この値は実験などにより設定されている)より大きいものである場合には、事故等に起因するものと判断し得るように、上記論理積(NTandPD)に対して検出信号(PT)の論理和をとるようにしたものである。
【0070】
したがって、この論理演算式によると、検出した音が、ニューラルネットワークにより、事故等に関係するものであり且つその音が少しの時間であるが継続している場合、または検出した音のピーク値が事故等に起因して発生するような強い(高い)ものである場合には、事故等に起因した音であると判定される。
【0071】
この事故判定手段17で事故等であると判定された場合には、映像保存指示手段18にその旨の指示が出力されて、映像記録手段5にて、当該事故等の発生時の前後における映像が記録されて保存される。
【0072】
そして、この映像保存指示手段18による映像の保存指示時には、映像データのインデックスとして、上記事故判定手段17で事故等であると判断された場合の事故内容(例えば、コード化したもの)が一緒に記録される。このインデックスにより、例えば衝突音、衝突音+タイヤと路面の摩擦音、衝突音+クラクション、タイヤと路面の摩擦音、クラクション、暴走音、サイレン、これら以外の音の識別が行われる。
【0073】
この第2の実施の形態に係る音源識別装置においても、第1の実施の形態と同様に音源の識別をより正確に行うことができるが、第1分類の過程を設けているため、さらなる正確さでもって音源の識別を行うことができる。
【0074】
ところで、上記第2の実施の形態においては、第1分類〜第4分類というように、4段階でもって分類を行うものとして説明したが、例えば第2の実施の形態にて説明した第1分類〜第3分類を用いて、音源の識別を行うようにしてもよい。勿論、この場合も、第1の実施の形態と同様に、音源の識別を正確に行うことができる。
【0075】
【発明の効果】
以上のように本発明の音源識別装置の構成によると、音響検出手段にて検出された音響信号について、レベル検出手段およびピーク検出手段にて、少なくともいずれかの検出信号が検出された場合に、当該音響信号の周波数スペクトルを求めるとともに、ニューラルネットワークを用いてその音源の種別を特定するようにしたので、すなわちニューラルネットワークにて音源の種別を特定する際に、予備判断を行うようにしたので、音源を、より正確に識別することができる。
【0076】
また、本発明の突発事象検出装置および当該突発事象検出装置を用いた突発事象自動記録装置の構成によると、上記音源識別装置におけるニューラルネットワークにて特定された音源に対して、さらにレベル継続検出手段により、信号レベルが継続しているか否かの判断が加味されているので、音源が、予め、想定された突発事象に基づくものであるか否かを、一層、正確に検出することができ、したがって自動的に突発事象の映像を記録する場合に、その検出精度を向上させることができる。例えば、上記事故判定装置を、交通事故自動記録装置に適用した場合には、交通事故を、精度よく、映像にて記録することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における交通事故自動記録装置の概略全体構成を示す図である。
【図2】同交通事故自動記録装置における事故判定装置の概略構成を示すブロック図である。
【図3】同事故判定装置における判断予備信号検出手段での検出信号を示すグラフである。
【図4】同音源識別手段における第1分類作業に係る音響信号のスペクトル演算結果を示すグラフである。
【図5】同音源識別手段における第2分類作業の結果のスペクトル分布を示すグラフである。
【図6】同音源識別手段における第3分類作業の結果のスペクトル分布を示すグラフである。
【図7】同音源識別手段における第4分類作業の結果のスペクトル分布を示すグラフである。
【図8】同事故判定装置の音源識別手段におけるニューラルネットワークによる分類作業の概念図である。
【符号の説明】
1 突発事象自動記録装置
2 カメラ装置
3 マイクロフォン
4 突発事象検出装置
5 映像記録手段
11 信号抽出手段
12 レベル検出手段
13 ピーク検出手段
14 レベル継続検出手段
15 スペクトル演算手段
16 音源識別手段
17 事故判定手段
18 映像保存指令手段
21 第1積分器
22 第1比較器
23 第2積分器
24 第2比較器
25 第3積分器
26 第3比較器
[0001]
BACKGROUND OF THE INVENTION
The present invention provides a sound source identification device, a sudden event detection device, and a sudden accident that are installed at an intersection or the like and detect sounds caused by sudden events such as traffic accidents, and automatically capture and record the traffic accidents and the like. The present invention relates to an event automatic recording apparatus.
[0002]
[Prior art]
In recent years, traffic accidents have continued to increase, and it has become urgent to reduce the number of traffic accidents. For this reason, an automatic traffic accident recording device is installed at intersections, etc., and the situation before and after the accident is recorded as a video. Accident analysis is carried out.
[0003]
This type of automatic traffic accident recording device captures intersections with a camera device, and automatically saves images before and after a collision sound or sudden braking sound based on a traffic accident is detected. is there.
[0004]
By the way, many sounds other than accidents are generated at intersections, etc., and it is necessary to determine whether the detected sound is caused by a traffic accident or not in order to save the video of the traffic accident. There is.
[0005]
Conventionally, when analyzing sound, sound pressure analysis and spectrum analysis are performed in combination. For example, sound pressure analysis is performed when a certain threshold is exceeded in a time-series sound pressure distribution. It was determined that an impact sound was generated due to a vehicle collision. That is, it was determined as an impact sound from the spectrum distribution of the acoustic signal (see, for example, Japanese Patent Laid-Open No. 4-338900).
[0006]
[Patent Document 1]
JP-A-4-338900 (column [0022] to [0023] column on page 3)
[0007]
[Problems to be solved by the invention]
By the way, according to the sound source determination method described above, it is difficult to distinguish the vibration sound of the loading platform of a large truck, the sound of road construction, the crowing sound, etc. from the accident sound, so the automatically recorded video was reproduced. In this case, there is a problem that a large number of videos that are not related to an accident are recorded just like a large truck passes, and the detection accuracy is low.
[0008]
Therefore, an object of the present invention is to provide a sound source identification device, a sudden event detection device, and a sudden event automatic recording device that can improve the detection accuracy of sudden events such as traffic accidents due to sound.
[0009]
[Means for Solving the Problems]
  In order to solve the above-described problem, the sound source identification device of the present invention includes a signal extraction unit that extracts a signal in a predetermined frequency band from an acoustic signal detected by the acoustic detection unit,
  A level at which the extracted acoustic signal extracted by the signal extraction means is input and integration is performed at a predetermined integration time to determine the acoustic energy and whether the acoustic energy exceeds a predetermined set level value Detection means;
  The extracted acoustic signal extracted by the signal extraction means is input, integration is performed at a predetermined integration time shorter than the integration time in the level detection means to obtain acoustic energy, and the acoustic energy is a predetermined set peak value Peak detection means for detecting whether or not exceeds,
  Spectral calculation means for inputting a detection signal from the level detection means and the peak detection means and calculating the frequency spectrum of the extracted acoustic signal when either the level value or the peak value exceeds the set value. When,
  Obtained by this spectrum calculation meansfrequencySound source identification means for inputting a spectrum and identifying the type of sound source by a neural networkAnd
  Furthermore, in the sound source identification means,
  Based on the division pattern according to the position on the frequency axis of the frequency spectrum indicating the maximum level, the spectrum data group is divided into a plurality of categories, and the classification number where the frequency spectrum indicating the maximum level is located is obtained. The signal specifying pattern is selected according to the classification number, and the signal specifying pattern is applied to the frequency spectrum from the spectrum calculation means to extract a new frequency spectrum, and then the extracted frequency spectrum sequence is obtained in advance. The type of sound source was specified by performing pattern matching with the obtained spectrum series using a neural network method.Is.
[0010]
According to the configuration of the sound source identification device, when at least one of the detection signals is detected by the level detection unit and the peak detection unit for the acoustic signal detected by the acoustic detection unit, the frequency spectrum of the acoustic signal is detected. Since the type of the sound source is specified using a neural network, that is, when the type of the sound source is specified by the neural network, a preliminary judgment is made so that the sound source is accurately identified. can do.
[0011]
  The sudden event detection apparatus of the present invention includes a signal extraction unit that extracts a signal in a predetermined frequency band from an acoustic signal detected by the acoustic detection unit,
  A level at which the extracted acoustic signal extracted by the signal extraction means is input and integration is performed at a predetermined integration time to determine the acoustic energy and whether the acoustic energy exceeds a predetermined set level value Detection means;
  The extracted acoustic signal extracted by the signal extraction means is input, integration is performed at a predetermined integration time shorter than the integration time in the level detection means to obtain acoustic energy, and the acoustic energy is a predetermined set peak value Peak detection means for determining whether or not exceeds,
  When the extracted acoustic signal extracted by the signal extracting means is input, integration is performed at a predetermined integration time to obtain acoustic energy, and when the acoustic energy exceeds a predetermined set level value, a further predetermined time Level continuation detecting means for determining again whether or not the predetermined set level value is exceeded after elapse of time;
  Spectral calculation means for inputting a detection signal from the level detection means and the peak detection means and calculating the frequency spectrum of the extracted acoustic signal when either the level value or the peak value exceeds the set value. When,
  Obtained by this spectrum calculation meansfrequencySound source identification means for inputting a spectrum and identifying the type of sound source by a neural network;
  The identification signal identified by the sound source identification means is input, and the detection signals from the peak detection means and the level continuation detection means are input, and based on these signals, it is determined whether or not it is a sudden event. Sudden event determination meansAnd
  Furthermore, in the sound source identification means,
  The spectrum data group is divided into a plurality of divisions based on the division pattern corresponding to the total area of the frequency spectrum obtained by the spectrum calculating means and assigned with a first classification number, and among the frequency spectrum obtained by the spectrum calculating means Both categories in which the frequency spectrum indicating the maximum level is located after dividing the spectrum data group into a plurality of numbers based on the division pattern according to the position on the frequency axis of the frequency spectrum indicating the maximum level and assigning the second classification number Ask for a number
A signal specifying pattern is selected in accordance with both of the obtained classification numbers, and a new frequency spectrum is extracted by applying this signal specifying pattern to the frequency spectrum from the spectrum calculating means, and then the extracted frequency spectrum is extracted. The type of the sound source is specified by performing pattern matching between the sequence and the spectrum sequence obtained in advance using a neural network method.Is.
[0012]
Further, the sudden event automatic recording device of the present invention is a sudden event automatic recording device using the sudden event detection device, and when a sudden event is determined by the sudden event determination means, the sudden event is photographed. The video recording instruction means for storing the video from the photographing means by the video recording means is provided.
[0013]
According to the configuration of the sudden event detection device and the sudden event automatic recording device using the sudden event detection device, the signal level is further detected by the level continuation detection unit for the sound source specified by the neural network in the sound source identification device. Therefore, it is possible to accurately detect whether the sound source is based on an unexpected event that has been assumed in advance. In the case of recording the video, it is possible to improve the detection accuracy. In other words, when the accident determination device is applied to a traffic accident automatic recording device, a traffic accident can be recorded with high accuracy as a video.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a sound source identification device, a sudden event detection device, and a sudden event automatic recording device according to a first embodiment of the present invention will be described with reference to FIGS.
[0015]
In this embodiment, the sudden event automatic recording device will be described. However, the sound source identification device and the sudden event detection device according to the present invention are used in the sudden event automatic recording device. This will be described as a part of the configuration of the apparatus.
[0016]
In this embodiment, a traffic accident is described as an unexpected event, but as a sound source identification target, in addition to a collision sound, a brake, a horn, which are important clues in detecting a traffic accident, It also covers sound sources such as sirens and runaway sounds. Therefore, in the following explanation, these are referred to as accident sounds, and are also referred to as accidents because they include events other than traffic accidents. The detection device and the sudden event automatic recording device will be described as a traffic accident automatic recording device.
[0017]
As shown in FIG. 1, the automatic traffic accident recording apparatus 1 includes a camera device (photographing means) 2 installed at a location where traffic accidents are monitored, for example, an intersection K where traffic accidents frequently occur, and the vicinity of the intersection K. A microphone (an example of acoustic detection means, hereinafter referred to as a microphone) 3 for detecting a sound generated by the microphone 3 and an accident detection device 4 for identifying an accident or the like based on an acoustic signal detected by the microphone 3 And a video recording means (for example, a video device, a hard disk device or the like is used) 5 for recording a video imaged by the camera device 1 when the accident detection device 4 determines an accident or the like. It is composed of
[0018]
As shown in FIG. 2, the accident detection device 4 includes a signal extraction unit 11 that inputs an acoustic signal collected by the microphone 3 and extracts a signal in a predetermined frequency band, and the signal extraction unit 11 The extracted extracted acoustic signal is input, and integration is performed at a predetermined first integration time to obtain acoustic energy (which is an integrated value, hereinafter the same), and the acoustic energy has a predetermined first set level value. It is determined whether or not the level exceeds the level detection unit 12 that outputs a predetermined detection signal, and the extracted acoustic signal extracted by the signal extraction unit 11 is input, and the first Integration is performed at a predetermined second integration time shorter than one integration time to obtain acoustic energy, and it is determined whether or not the acoustic energy exceeds a predetermined set peak value. Predetermined The peak detection means 13 for outputting the detection signal and the extracted acoustic signal extracted by the signal extraction means 11 are input, integration is performed at a predetermined third integration time to obtain acoustic energy, and the acoustic energy is When the predetermined set level value is exceeded, after a predetermined time has passed, it is judged again whether or not the predetermined set level value is exceeded, and if it exceeds, a predetermined detection signal is output. When the level continuation detecting means 14 to be operated and at least one of the detection signals from the level detecting means 12 and the peak detecting means 13 are input, the predetermined frequency region is divided into a predetermined number and the divided frequency regions are related to each other. Spectral calculation means 1 for calculating the frequency spectrum of the acoustic signal (hereinafter simply referred to as spectrum or spectrum). And a sound source identifying means 16 for inputting a spectrum in each divided frequency region obtained by the spectrum calculating means 15 to identify and identify a sound source using a neural network (method), and the sound source identifying means 16 And an accident determination means 17 for inputting a detection signal from the peak detection means 13 and the level continuation detection means 14 and determining whether or not an accident has occurred. It is equipped.
[0019]
Further, the traffic accident automatic recording apparatus 1 allows the video recording means 5 to record a video imaged by the camera device 2 when the accident determination means 17 determines that an accident or the like has occurred. Video storage instruction means 18 for outputting a storage instruction is provided.
[0020]
Next, the configuration or processing contents in each of the above means will be described in detail.
In the signal extraction means 11, after a signal having a frequency of, for example, 0 to 2.5 kHz is extracted, a portion of 0 to 500 Hz is removed. This is to narrow down the range of accident sounds generated due to traffic accidents and vehicle travel, that is, due to accidents, etc., and to remove excess engine sounds (0 to 500 Hz).
[0021]
The level detection unit 12 receives the extracted acoustic signal from the signal extraction unit 11 and integrates it for a predetermined first integration time (for example, about 500 msec) to obtain the acoustic energy and the first integrator 21. When the acoustic energy obtained by the first integrator 21 is compared with a predetermined first set level value and the acoustic energy exceeds the first set level value, a detection signal (trigger signal) ), For example, a first comparator 22 that outputs a signal of “1” (note that “0” is output when it is equal to or lower than the set level value). That is, the level detection means 12 determines whether or not the magnitude of the acoustic signal exceeds a predetermined level by integrating the acoustic signal at a certain time interval.
[0022]
The peak detection means 13 receives the extracted acoustic signal from the signal extraction means 11 and performs integration in a second integration time (for example, about 100 msec) shorter than the first integration time to obtain a second energy for obtaining acoustic energy. The sound energy obtained by the second integrator 23 is compared with a predetermined second set level value, and the peak value of the sound energy is set to the second set level value (which is also the set peak value). A second comparator that outputs, for example, a signal of “1” (when the signal is equal to or lower than a set level value, “0” is output) as a detection signal (trigger signal) when exceeding 24. That is, the peak detection means 13 determines whether or not the peak value of the sound signal exceeds a predetermined level (peak value) by integrating the sound signal in a short time.
[0023]
The level continuation detection means 14 receives the extracted acoustic signal from the signal extraction means 11 and performs integration at a predetermined third integration time (for example, the same time as the first integration time in the level detection means). The third integrator 25 for obtaining the acoustic energy is compared with the acoustic energy obtained by the third integrator 25 and a predetermined third set level value (for example, the set level value in the level detecting means is used). When the acoustic energy exceeds the third set level value, after a predetermined time (for example, 300 msec), if the same set level value is again compared and exceeded, For example, it is determined that the set level value is continued (maintained), and the detection signal (trigger signal) is, for example, a signal of “1” (when the set level value is not continued) Includes a third comparator 26 for outputting it has) it is output "0" is provided.
[0024]
FIG. 3 shows waveform diagrams of input signals, output signals, and detection signals in the comparators 22, 24, and 26 in the detection means 12 to 14, and FIG. (B) shows the thing of the 2nd comparator 24 in the peak detection means 13, (c) shows the thing of the 3rd comparator 26 in the level continuation detection means 14, respectively. d) shows a reset signal.
[0025]
In addition, when either the detection signal (“1”) from the level detection unit 12 or the detection signal (“1”) from the peak detection unit 13 is input to the spectrum calculation unit 15, first, the extracted acoustic signal is generated. After being digitized by an A / D converter (not shown), as shown in FIG. 4, each divided frequency domain (each bank) is obtained by dividing a predetermined frequency domain (450 to 2500 Hz) into a predetermined number, for example, 105. The frequency spectrum (also referred to as a frequency spectrum) of the acoustic signal according to the above is obtained by fast Fourier transform (FFT).
[0026]
The sound source identifying means 16 specifies the type of sound source using a neural network.
Hereinafter, the processing content using this neural network will be described in detail.
[0027]
The sound source identification means 16 performs recognition / classification work on the frequency spectrum in four stages based on the respective classification methods (first classification to fourth classification) and using a neural network (method). The classification numbers obtained in the above are collated in advance with the classification table obtained by experiment etc., and the detected sound is a lot of noise including collision noise, tire and road friction noise, horn, runaway noise, siren. Specific to one of the types.
[0028]
  Here, the contents of the classification work will be described. In the first classification (first stage), normalization is performed after normalizing each frequency spectrum of the acoustic signal related to each divided frequency region (hereinafter referred to as a bank) divided into 105 pieces with the maximum value. The maximum frequency spectrum in 105 banks performed(Can be said to be the maximum level)Ask for things.
[0029]
  And this 105 bank divided frequency region(Speaking of spectral data group)However, after the division pattern according to the number of banks in which the maximum peak exists (bank position) is divided into, for example, 10 and the classification numbers of # 0 to # 9 are attached, the spectrum related to the extracted acoustic signal Of the series (shown by the bar graph in FIG. 4), it is determined which portion of the spectrum having the maximum level belongs to # 0 to # 9. The method of dividing the 105 banks is obtained in advance according to the bank level of the maximum level. Specifically, based on actual traffic sound sample data (5000 cases), for example, each maximum level bank position of 5000 cases is frequency-distributed (the horizontal axis is the bank position and the vertical axis is the number of cases) Divide it into equal parts. That is, the division width is narrowed in the portion where the frequency distribution at the maximum level bank position is large, and the division width is widened in the portion where the frequency distribution at the maximum level bank position is small (in some cases, the division width is equally divided. The number of divisions may not be 10). Then, for example, classification numbers from # 0 to # 9 are assigned from the smallest bank number to the largest bank number. Therefore, in FIG. 4, the vicinity of 88 banks has the maximum level, and the classification number to which the 88 banks belong is assigned, for example, # 8.
[0030]
And in 2nd classification-4th classification, while extracting the feature part of an acoustic signal based on a spectrum, in order to specify a sound source, this extracted spectrum series and the spectrum series beforehand calculated | required by experiment Pattern matching (pattern recognition) is performed using a neural network (method), and based on the classification numbers obtained in each of these classification operations, finally, as described above, The sounds detected by collation are identified as one of a number of types including collision sounds, tire-road friction sounds, horns, runaway sounds, and sirens. It should be noted that in each of these classification operations, a predetermined number of groups (for example, 5 each, which will be described later) are selected from among a large number of signal identification patterns prepared in the database based on the classification results obtained in the previous operation. ) Is selected and used for pattern recognition.
[0031]
Hereinafter, the second classification work to the fourth classification work will be described.
In the second classification operation, first, five patterns are extracted from the database based on the classification number (for example, # 8) obtained in the first classification.
[0032]
And among the 105 bank spectrum series in the acoustic signal, data less than 50% of the maximum spectrum is zero (also referred to as zero reset), and this is normalized spectrum series (shown in FIG. 5). Classification numbers are obtained by performing pattern matching with a total of six patterns obtained by adding a pattern indicating a pattern other than the above five patterns (other than the prepared pattern) to the above five patterns using a neural network. Is assigned.
[0033]
In the third classification, five patterns are extracted from the database based on the classification number obtained in the second classification, and the maximum spectrum and the two banks before and after the maximum number of 105 spectral sequences in the acoustic signal. A total of 5 banks of spectrum parts are set to zero (zero reset), and a new 105 bank spectrum series is created. Among the newly created 105 bank spectrum sequences, for a spectrum whose maximum spectrum is equal to or greater than a certain threshold, less than 25% of the maximum spectrum is regarded as zero and normalized spectrum sequence ( A neural network is used for the above five patterns, and a pattern indicating a pattern other than the five patterns and a pattern less than a threshold value (a pattern less than the threshold value is also represented as one pattern). A classification number is assigned by performing pattern matching with a total of seven patterns including That is, in this classification operation, classification is performed on the remaining spectrum series from which the spectrum portion having the greatest intensity is removed.
[0034]
Furthermore, in the fourth classification, classification is performed for the following two cases.
Of course, also in this classification work, five patterns used for pattern matching are extracted from the database based on the classification number obtained in the third classification work.
[0035]
(1) In the third classification, the maximum spectrum is less than the threshold value.
Of the 105 bank spectrum series created in the third classification, the spectrum less than 25% of the maximum spectrum is set to zero (zero reset), and the normalized spectrum series is subjected to the above 5 by the neural network. A classification number is assigned by performing pattern matching with a total of six patterns obtained by adding patterns indicating patterns other than the five patterns to the individual patterns.
[0036]
(2) In the third classification, when the maximum spectrum is equal to or greater than a predetermined threshold.
With respect to the 105-bank spectrum sequence created in the third classification, a total spectrum of 5 banks including the maximum spectrum and 2 banks before and after that is made zero (zero reset), and a new 105-bank spectrum sequence is created.
[0037]
Of the 105 bank spectrum sequences, for a spectrum whose maximum spectrum is greater than or equal to a certain threshold, a spectrum less than 12.5% of the maximum spectrum is regarded as zero and normalized spectrum sequence ( Pattern recognition by a neural network is performed on the pattern shown in FIG. 7, and seven patterns (in this case as well, five patterns extracted from the database and patterns indicating patterns other than the five and patterns below the threshold value) A classification number is assigned by pattern matching. In this classification operation, classification is performed on the spectrum series from which the spectrum portion having the second highest strength is removed. FIG. 8 shows a conceptual diagram of the classification work by the neural network.
[0038]
Further, in the accident determination means 17, the classification result in the sound source identification means 16, that is, the identification signal (represented by NT), the detection signal from the level continuation detection means 14 (represented by PD), and the peak detection means 13 A detection signal (represented by PT) is input and a logical operation of {(NTandPD) orPT} is performed to determine whether the sound source is caused by an accident or the like (accident sound). . The identification signal (NT) is “1” when the sound is generated due to an accident or the like, and the detection signal (PD) is “1” when the sound continues. In addition, the detection signal (PT) is also set to “1” when the peak value is equal to or greater than a predetermined intensity.
[0039]
The logical product (and) part in the above logical operation expression is not instantaneous, but if it is an accident or the like, it is considered that the sound continues for a short time. On the other hand, if the sound is caused by an accident or the like, the peak value is considered to have a considerable strength, so the peak value is the set level value. If this value is larger (of course, this value is set by experiment etc.), the detection signal (PT) with respect to the logical product (NTandPD) so that it can be determined that it is caused by an accident or the like. The logical sum of these is taken.
[0040]
Therefore, according to this logical operation formula, when the detected sound is related to an accident or the like by the neural network and the sound continues for a short time, or the peak value of the detected sound is If the sound is strong (high) due to an accident or the like, it is determined that the sound is due to the accident or the like.
[0041]
If the accident determination means 17 determines an accident or the like, an instruction to that effect is output to the video storage instruction means 18, and the video recording means 5 provides images before and after the occurrence of the accident or the like. Is recorded and saved.
[0042]
When the video storage instruction means 18 instructs to save the video, the contents of the accident (for example, the coded data) when the accident determination means 17 determines that an accident or the like is included as an index of the video data. To be recorded. With this index, for example, a collision sound, a collision sound + a friction sound between a tire and a road surface, a collision sound + a horn, a friction sound between a tire and a road surface, a horn, a runaway sound, a siren, and other sounds are identified.
[0043]
By the way, each means, integrator, comparator and the like are each constituted by an electric signal circuit, and in particular, the sound source identification means 16 which is operated by a neural network is provided with, for example, a CPU as an operation processing unit. Of course, the neural network has a learning function.
[0044]
Next, a processing procedure for automatically recording a traffic accident or the like by the traffic accident automatic recording apparatus will be briefly described.
For example, in a state where the camera device 2 and the microphone 3 of the traffic accident automatic recording device 1 arranged at the intersection are operating, the acoustic signal detected by the microphone 3 is extracted by the signal extraction means 11 with a predetermined frequency band. Then, this extracted acoustic signal is input to the level detection means 12, the peak detection means 13, and the level continuation detection means 14, and a preliminary determination is made as to whether or not there is an accident.
[0045]
If there is at least a detection signal from any one of the level detection means 12 and the peak detection means 13, A / D conversion is performed on the extracted acoustic signal, and then the spectrum calculation means 15 The spectrum is calculated.
[0046]
The spectrum series obtained by this calculation is input to the sound source identification means 16, where the sound source is identified by the above-described classification method using the neural network, and the identified sound is associated with an accident or the like. If there is a high possibility (for example, collision noise, collision noise + tire and road friction noise, collision noise + horn, tire and road friction noise, horn, runaway noise, siren, etc.) The detection signal (NT) shown is output.
[0047]
Next, the detection signal (NT) such as the accident, the detection signal (PD) indicating the continuation from the level continuation detection means 14, and the peak detection signal (PT) from the peak detection means 13 are input to the accident determination means 17. Then, a logical operation is performed, and it is determined whether the sound is caused by an accident or the like.
[0048]
When the accident determination means 17 determines that an accident or the like is detected, an instruction signal to that effect is output to the video storage instruction means 18 so that the video taken before and after the sound is generated is video. It is recorded and stored in the recording means 5. Of course, when this video data is recorded, the code data of the sound source type specified by the sound source identification means 16 is recorded together as an index for the video data, so that later retrieval of the video data is facilitated. Yes.
[0049]
Note that the identification time for one time in the sound source identification means 16 is, for example, 3 seconds, and when a detection signal (trigger signal) is obtained in each of the detection means 12 to 14, this 3 seconds elapses. Until then, the output of the detection signal is maintained, and a reset signal is output after 3 seconds.
[0050]
Thus, according to the configuration of the automatic traffic accident recording apparatus 1, particularly the configuration of the sound source identification means 16, it is difficult for humans to hear low frequencies that are normally emitted by the vehicle, such as engine sounds. For the extracted acoustic signal from which the frequency has been removed, the level detection means 12 detects whether or not the level value of the acoustic signal exceeds the set level value, and the peak value of the acoustic signal is set to the set peak value by the peak detection means 13. When at least one of them exceeds the set value, the frequency spectrum of the sound signal is obtained and the type of the sound source is specified using a neural network. Therefore, the sound source can be identified more accurately.
[0051]
Further, according to the configuration of the accident detection device 4 using the sound source identification means 16, the level continuation time of the acoustic signal is further set to the set duration by the level continuation detection means 14 for the sound source specified by the neural network. Since the determination of whether or not it is exceeded is taken into account, the determination of whether or not an accident or the like can be made more accurately.
[0052]
Therefore, when this accident determination device 4 is applied to the traffic accident automatic recording device 1, it is possible to record a traffic accident or the like with a video with high accuracy.
When an experiment was conducted by installing at an intersection, the detection accuracy of the conventional traffic accident recording apparatus was about 30%, whereas the detection accuracy of the traffic accident recording apparatus according to the present embodiment was about 30%. Improved to about 80%.
[0053]
Next, a sound source identification device, a sudden event detection device, and a sudden event automatic recording device according to a second embodiment of the present invention will be described.
In the first embodiment, first, the divided frequency region divided into 105 banks is divided into 10 according to a predetermined division pattern according to the bank number of the spectrum having the maximum level. However, in the second embodiment, the pattern is divided into five based on the division pattern corresponding to the total area of the frequency spectrum, and the five divided patterns and the first embodiment described above are divided. A pattern divided into ten pieces by the same division method is used together.
[0054]
Hereinafter, the second embodiment will be described. However, since the basic configuration is the same as that described in the first embodiment, the sound source identification unit 16 will be described. The configuration will be briefly described using the same numbers.
[0055]
The sound source identification means 16 performs recognition / classification work on the frequency spectrum in four stages based on the respective classification methods (first classification to fourth classification) and using a neural network (method). The classification numbers obtained in advance are collated with the classification table obtained by experiments etc., and the detected sounds are many types including collision sounds, tire and road friction sounds, horns, runaway sounds, and sirens. It is specified in either.
[0056]
Here, the contents of the classification work will be described.
In the second embodiment, in the first classification, the classification number is obtained by using together two types of division patterns having different classification criteria.
[0057]
That is, in the first classification (first stage), after normalizing each frequency spectrum of the acoustic signal related to each divided frequency region (hereinafter also referred to as a bank) divided into 105 pieces with the maximum value, The total area is obtained for the frequency spectra in 105 banks that have been normalized.
[0058]
  And 105 bank divided frequency domain(Speaking of spectral data group)However, based on the division pattern predetermined according to the total area, for example, it is divided into five pieces and assigned with classification numbers # 0 to # 4. The division method here is based on actual traffic sound sample data (5000 cases), for example, each total area value of 5000 cases is frequency-distributed (the horizontal axis is the bank position, and the vertical axis is the area value). ) Divide it so that it is equally divided. That is, the division width is narrowed in the portion where the frequency distribution of the total area value is large, and the division width is widened in the portion where the frequency distribution of the total area value is small (in some cases, it may not be equally divided). Also, the number of divisions need not be five). For example, in FIG. 4 described in the first embodiment, if the total area of the frequency spectrum of 105 banks is 2410, the classification number to which the total area 2410 belongs (The first classification number,The total area value and the classification number are associated in advance), for example, as # 3.
[0059]
  Next, with the same method (procedure) as in the first embodiment, the 105 banks are divided into, for example, 10 and the classification numbers # 0 to # 9 are assigned.(Second classification number)Is attached. The classification number in the first classification is determined in consideration of the two types of numbers. For example, if a number is assigned to # 3 in 5 divisions by the total area value and # 9 in 10 divisions by the maximum level bank position, the classification number by this first classification is # 39. .
[0060]
Next, in the second to fourth classifications, the characteristic portion of the acoustic signal is extracted based on the spectrum, and the extracted spectrum series and the spectrum series obtained in advance by experiments to identify the sound source Pattern matching (pattern recognition) is performed using a neural network (method), and finally, based on the classification numbers obtained in each of these classification operations, finally, as described above, a classification table obtained by experiment etc. The detected sound is identified as one of a number of types including a collision sound, a tire-road friction sound, a horn, a runaway sound, and a siren. It should be noted that in each of these classification operations, a predetermined number of groups (for example, 5 each, which will be described later) are selected from among a large number of signal identification patterns prepared in the database based on the classification results obtained in the previous operation. ) Is selected and used for pattern recognition.
[0061]
Hereinafter, the second classification work to the fourth classification work will be described.
In the second classification operation, first, five patterns are extracted from the database based on the classification number (for example, # 39) obtained in the first classification.
[0062]
Then, among the 105 bank spectrum series in the acoustic signal, data less than 50% of the maximum spectrum is set to zero (also referred to as zero reset), and a neural network is used for the normalized spectrum series, A classification number is assigned by performing pattern matching with a total of six patterns obtained by adding a pattern indicating a pattern other than the five patterns (other than the prepared pattern) to the five patterns.
[0063]
In the third classification, five patterns are extracted from the database based on the classification number obtained in the second classification, and the maximum spectrum and the two banks before and after the maximum number of 105 spectral sequences in the acoustic signal. A total of 5 banks of spectrum parts are set to zero (zero reset), and a new 105 bank spectrum series is created. Of the newly created 105 bank spectrum sequences, for a spectrum whose maximum spectrum is greater than a certain threshold, less than 25% of the maximum spectrum is set to zero, and the normalized spectrum sequence is obtained. On the other hand, using a neural network, a pattern indicating a pattern other than the five patterns and a pattern less than a threshold value (a pattern less than the threshold value is also regarded as one pattern) are added to the above five patterns. A classification number is assigned by performing pattern matching with a total of seven patterns. That is, in this classification operation, classification is performed on the remaining spectrum series from which the spectrum portion having the greatest intensity is removed.
[0064]
Furthermore, in the fourth classification, classification is performed for the following two cases.
Of course, also in this classification work, five patterns used for pattern matching are extracted from the database based on the classification number obtained in the third classification work.
[0065]
(1) In the third classification, the maximum spectrum is less than the threshold value.
Of the 105 bank spectrum series created in the third classification, the spectrum less than 25% of the maximum spectrum is set to zero (zero reset), and the normalized spectrum series is subjected to the above 5 by the neural network. A classification number is assigned by performing pattern matching with a total of six patterns obtained by adding patterns indicating patterns other than the five patterns to the individual patterns.
[0066]
(2) In the third classification, when the maximum spectrum is equal to or greater than a predetermined threshold.
With respect to the 105-bank spectrum sequence created in the third classification, a total spectrum of 5 banks including the maximum spectrum and 2 banks before and after that is made zero (zero reset), and a new 105-bank spectrum sequence is created.
[0067]
Of the 105 bank spectrum sequences, for a spectrum whose maximum spectrum is greater than a certain threshold, a spectrum less than 12.5% of the maximum spectrum is set to zero, and the spectrum is normalized. Pattern recognition by a neural network is performed, and seven patterns (in this case, five patterns extracted from the database plus a pattern indicating a pattern other than the five patterns and a pattern less than a threshold value) and A classification number is assigned by performing pattern matching. In this classification operation, classification is performed on the spectrum series from which the spectrum portion having the second highest strength is removed.
[0068]
The following work will be described. As in the first embodiment described above, the accident determination means 17 uses the classification result in the sound source identification means 16, that is, the identification signal (represented by NT) and the above The detection signal (represented by PD) from the level continuation detection unit 14 and the detection signal (represented by PT) from the peak detection unit 13 are input, and a logical operation of {(NTandPD) orPT} is performed, and the sound source Is caused by an accident or the like (accident sound). The identification signal (NT) is “1” when the sound is generated due to an accident or the like, and the detection signal (PD) is “1” when the sound continues. In addition, the detection signal (PT) is also set to “1” when the peak value is equal to or greater than a predetermined intensity.
[0069]
The logical product (and) part in the above logical operation expression is not instantaneous, but if it is an accident or the like, it is considered that the sound continues for a short time. On the other hand, if the sound is caused by an accident or the like, the peak value is considered to have a considerable strength, so the peak value is the set level value. If this value is larger (of course, this value is set by experiment etc.), the detection signal (PT) with respect to the logical product (NTandPD) so that it can be determined that it is caused by an accident or the like. The logical sum of these is taken.
[0070]
Therefore, according to this logical operation formula, when the detected sound is related to an accident or the like by the neural network and the sound continues for a short time, or the peak value of the detected sound is If the sound is strong (high) due to an accident or the like, it is determined that the sound is due to the accident or the like.
[0071]
If the accident determination means 17 determines an accident or the like, an instruction to that effect is output to the video storage instruction means 18, and the video recording means 5 provides images before and after the occurrence of the accident or the like. Is recorded and saved.
[0072]
When the video storage instruction means 18 instructs to save the video, the contents of the accident (for example, the coded data) when the accident determination means 17 determines that an accident or the like is included as an index of the video data. To be recorded. With this index, for example, a collision sound, a collision sound + a friction sound between a tire and a road surface, a collision sound + a horn, a friction sound between a tire and a road surface, a horn, a runaway sound, a siren, and other sounds are identified.
[0073]
In the sound source identification device according to the second embodiment, the sound source can be more accurately identified as in the first embodiment. However, since the first classification process is provided, the sound source identification device is more accurate. In this way, the sound source can be identified.
[0074]
By the way, in the said 2nd Embodiment, although demonstrated as what classify | categorizes in four steps like the 1st classification-the 4th classification, for example, the 1st classification explained in the 2nd embodiment The sound source may be identified using the third classification. Of course, in this case as well, the sound source can be accurately identified as in the first embodiment.
[0075]
【The invention's effect】
As described above, according to the configuration of the sound source identification device of the present invention, when at least one detection signal is detected by the level detection unit and the peak detection unit for the acoustic signal detected by the acoustic detection unit, Since the frequency spectrum of the acoustic signal is obtained and the type of the sound source is specified using a neural network, that is, when the type of the sound source is specified by the neural network, a preliminary determination is performed. The sound source can be identified more accurately.
[0076]
Further, according to the structure of the sudden event detection device of the present invention and the sudden event automatic recording device using the sudden event detection device, level continuation detection means is further provided for the sound source specified by the neural network in the sound source identification device. Therefore, it is possible to more accurately detect whether or not the sound source is based on an unexpected event that has been assumed in advance because the determination of whether or not the signal level is continued is taken into account. Therefore, when automatically recording a video of a sudden event, the detection accuracy can be improved. For example, when the accident determination device is applied to a traffic accident automatic recording device, it is possible to record a traffic accident with a video with high accuracy.
[Brief description of the drawings]
FIG. 1 is a diagram showing a schematic overall configuration of an automatic traffic accident recording apparatus according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a schematic configuration of an accident determination apparatus in the traffic accident automatic recording apparatus.
FIG. 3 is a graph showing a detection signal in a preliminary determination signal detection unit in the accident determination apparatus.
FIG. 4 is a graph showing a spectrum calculation result of an acoustic signal related to a first classification operation in the sound source identification unit.
FIG. 5 is a graph showing a spectrum distribution as a result of the second classification work in the sound source identification means.
FIG. 6 is a graph showing a spectrum distribution as a result of the third classification work in the sound source identifying means.
FIG. 7 is a graph showing a spectrum distribution as a result of the fourth classification work in the sound source identifying means.
FIG. 8 is a conceptual diagram of classification work by a neural network in sound source identification means of the accident determination apparatus.
[Explanation of symbols]
1 Automatic event recording device
2 Camera device
3 Microphone
4. Sudden event detection device
5 Video recording means
11 Signal extraction means
12 level detection means
13 Peak detection means
14 level continuation detection means
15 Spectrum calculation means
16 Sound source identification means
17 Accident judgment means
18 Video save command means
21 First integrator
22 First comparator
23 Second integrator
24 Second comparator
25 Third integrator
26 Third comparator

Claims (3)

音響検出手段にて検出された音響信号から所定周波数帯域の信号を抽出する信号抽出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定レベル値を超えているか否かを判断するレベル検出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、上記レベル検出手段における積分時間よりも短い所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定ピーク値を超えているか否かを検出するピーク検出手段と、
上記レベル検出手段およびピーク検出手段からの検出信号を入力して、レベル値およびピーク値のいずれかがそれぞれの設定値を超えている場合に、当該抽出音響信号の周波数スペクトルを演算するスペクトル演算手段と、
このスペクトル演算手段にて求められた周波数スペクトルを入力して、ニューラルネットワークにて音源の種類を特定する音源識別手段とを具備し、
さらに上記音源識別手段において、
最大レベルを示す周波数スペクトルの周波数軸上での位置に応じた分割パターンに基づきスペクトルデータ群を複数に分割して分類するとともに、最大レベルを示す周波数スペクトルが位置する分類番号を求め、この求められた分類番号に応じて信号特定用パターンを選択し、この信号特定用パターンをスペクトル演算手段からの周波数スペクトルに適用して新たな周波数スペクトルを抽出した後、当該抽出された周波数スペクトル系列と予め求められたスペクトル系列とのパターンマッチングをニューラルネットワーク手法を用いて行うことにより、音源の種類を特定するようにしたことを特徴とする音源識別装置。
Signal extraction means for extracting a signal of a predetermined frequency band from the acoustic signal detected by the acoustic detection means;
A level at which the extracted acoustic signal extracted by the signal extraction means is input and integration is performed at a predetermined integration time to determine the acoustic energy and whether the acoustic energy exceeds a predetermined set level value Detection means;
The extracted acoustic signal extracted by the signal extraction means is input, integration is performed at a predetermined integration time shorter than the integration time in the level detection means to obtain acoustic energy, and the acoustic energy is a predetermined set peak value Peak detection means for detecting whether or not exceeds,
Spectral calculation means for inputting a detection signal from the level detection means and the peak detection means and calculating the frequency spectrum of the extracted acoustic signal when either the level value or the peak value exceeds the set value. When,
A frequency spectrum obtained by the spectrum calculation means is input, and a sound source identification means for specifying the type of sound source by a neural network is provided .
Furthermore, in the sound source identification means,
Based on the division pattern according to the position on the frequency axis of the frequency spectrum indicating the maximum level, the spectrum data group is divided into a plurality of categories, and the classification number where the frequency spectrum indicating the maximum level is located is obtained. The signal specifying pattern is selected according to the classification number, and the signal specifying pattern is applied to the frequency spectrum from the spectrum calculation means to extract a new frequency spectrum, and then the extracted frequency spectrum sequence is obtained in advance. A sound source identification apparatus characterized in that a type of a sound source is specified by performing pattern matching with the obtained spectrum sequence using a neural network technique .
音響検出手段にて検出された音響信号から所定周波数帯域の信号を抽出する信号抽出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定レベル値を超えているか否かを判断するレベル検出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、上記レベル検出手段における積分時間よりも短い所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定ピーク値を超えているか否かを判断するピーク検出手段と、
上記信号抽出手段にて抽出された抽出音響信号を入力して、所定の積分時間にて積分を行い音響エネルギーを求めるとともに当該音響エネルギーが所定の設定レベル値を超えている場合に、さらに所定時間経過後に、再度、当該所定の設定レベル値を超えているか否かを判断するレベル継続検出手段と、
上記レベル検出手段およびピーク検出手段からの検出信号を入力して、レベル値およびピーク値のいずれかがそれぞれの設定値を超えている場合に、当該抽出音響信号の周波数スペクトルを演算するスペクトル演算手段と、
このスペクトル演算手段にて求められた周波数スペクトルを入力して、ニューラルネットワークにて音源の種類を特定する音源識別手段と、
この音源識別手段にて識別された識別信号を入力するとともに、上記ピーク検出手段およびレベル継続検出手段からの検出信号を入力して、これら各信号に基づき、突発事象であるか否かを判定する突発事象判定手段とを具備し、
さらに上記音源識別手段において、
上記スペクトル演算手段で求められた周波数スペクトルの合計面積に応じた分割パターンに基づきスペクトルデータ群を複数に分割して第一の分類番号を付すとともに、上記スペクトル演算手段で求められた周波数スペクトルのうち最大レベルを示す周波数スペクト ルの周波数軸上での位置に応じた分割パターンに基づきスペクトルデータ群を複数に分割して第二の分類番号を付した後、最大レベルを示す周波数スペクトルが位置する両分類番号を求め、
この求められた両分類番号に応じて信号特定用パターンを選択し、この信号特定用パターンをスペクトル演算手段からの周波数スペクトルに適用して新たな周波数スペクトルを抽出した後、当該抽出された周波数スペクトル系列と予め求められたスペクトル系列とのパターンマッチングをニューラルネットワーク手法を用いて行うことにより、音源の種類を特定するようにしたことを特徴とする突発事象検出装置。
Signal extraction means for extracting a signal of a predetermined frequency band from the acoustic signal detected by the acoustic detection means;
A level at which the extracted acoustic signal extracted by the signal extraction means is input and integration is performed at a predetermined integration time to determine the acoustic energy and whether the acoustic energy exceeds a predetermined set level value Detection means;
The extracted acoustic signal extracted by the signal extraction means is input, integration is performed at a predetermined integration time shorter than the integration time in the level detection means to obtain acoustic energy, and the acoustic energy is a predetermined set peak value Peak detection means for determining whether or not exceeds,
When the extracted acoustic signal extracted by the signal extracting means is input, integration is performed at a predetermined integration time to obtain acoustic energy, and when the acoustic energy exceeds a predetermined set level value, a further predetermined time Level continuation detecting means for determining again whether or not the predetermined set level value is exceeded after elapse of time;
Spectral calculation means for inputting a detection signal from the level detection means and the peak detection means and calculating the frequency spectrum of the extracted acoustic signal when either the level value or the peak value exceeds the set value. When,
A sound source identification means for inputting a frequency spectrum obtained by the spectrum calculation means and specifying a type of sound source by a neural network;
The identification signal identified by the sound source identification means is input, and the detection signals from the peak detection means and the level continuation detection means are input, and based on these signals, it is determined whether or not it is a sudden event. A sudden event determination means ,
Furthermore, in the sound source identification means,
The spectrum data group is divided into a plurality of divisions based on the division pattern corresponding to the total area of the frequency spectrum obtained by the spectrum calculating means and assigned with a first classification number, and among the frequency spectrum obtained by the spectrum calculating means after subjecting the second classification number by dividing the spectral data groups based on the division pattern corresponding to the position on the frequency axis of the frequency spectrum showing the maximum level in a plurality, two frequency spectrum showing the maximum level is located Find the classification number
A signal specifying pattern is selected in accordance with both of the obtained classification numbers, and a new frequency spectrum is extracted by applying this signal specifying pattern to the frequency spectrum from the spectrum calculating means, and then the extracted frequency spectrum is extracted. An unexpected event detection apparatus characterized in that a type of a sound source is specified by performing pattern matching between a sequence and a spectrum sequence obtained in advance using a neural network technique .
請求項2記載の突発事象検出装置を用いた突発事象自動記録装置であって、
突発事象判定手段により突発事象であると判断された場合に、突発事象を撮影している撮影手段からの映像を、映像記録手段にて保存させる映像保存指示手段を具備させたことを特徴とする突発事象自動記録装置。
A sudden event automatic recording device using the sudden event detection device according to claim 2,
When the sudden event determination means determines that the event is a sudden event, the video recording means is provided to store the video from the shooting means that is shooting the sudden event in the video recording means. Sudden event automatic recording device.
JP2002309074A 2001-10-25 2002-10-24 Sound source identification device, sudden event detection device, and sudden event automatic recording device Expired - Fee Related JP4046592B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002309074A JP4046592B2 (en) 2001-10-25 2002-10-24 Sound source identification device, sudden event detection device, and sudden event automatic recording device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001327045 2001-10-25
JP2001-327045 2001-10-25
JP2002309074A JP4046592B2 (en) 2001-10-25 2002-10-24 Sound source identification device, sudden event detection device, and sudden event automatic recording device

Publications (2)

Publication Number Publication Date
JP2003202260A JP2003202260A (en) 2003-07-18
JP4046592B2 true JP4046592B2 (en) 2008-02-13

Family

ID=27666468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002309074A Expired - Fee Related JP4046592B2 (en) 2001-10-25 2002-10-24 Sound source identification device, sudden event detection device, and sudden event automatic recording device

Country Status (1)

Country Link
JP (1) JP4046592B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832699B1 (en) 2019-12-05 2020-11-10 Toyota Motor North America, Inc. Impact media sharing
US11107355B2 (en) 2019-12-05 2021-08-31 Toyota Motor North America, Inc. Transport dangerous driving reporting
US11308800B2 (en) 2019-12-05 2022-04-19 Toyota Motor North America, Inc. Transport impact reporting based on sound levels

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005101346A1 (en) * 2004-03-31 2005-10-27 Hitachi Zosen Corporation Recording/analyzing system for accidental event
JP4945222B2 (en) * 2006-11-28 2012-06-06 日立オートモティブシステムズ株式会社 Sudden event elimination judgment system
JP2010287190A (en) * 2009-06-15 2010-12-24 Fujitsu Ten Ltd Driving information recording device and driving information processing program
JP6281273B2 (en) * 2013-12-16 2018-02-21 富士通株式会社 Acoustic device inspection apparatus, acoustic device inspection method, and acoustic device inspection program
JP6577260B2 (en) * 2015-06-23 2019-09-18 株式会社東芝 Information processing apparatus and event detection method
JP2020027569A (en) * 2018-08-17 2020-02-20 国立大学法人滋賀医科大学 Biological sound diagnostic device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832699B1 (en) 2019-12-05 2020-11-10 Toyota Motor North America, Inc. Impact media sharing
US11107355B2 (en) 2019-12-05 2021-08-31 Toyota Motor North America, Inc. Transport dangerous driving reporting
US11308800B2 (en) 2019-12-05 2022-04-19 Toyota Motor North America, Inc. Transport impact reporting based on sound levels
US11328737B2 (en) 2019-12-05 2022-05-10 Toyota Motor North America, Inc. Impact media sharing

Also Published As

Publication number Publication date
JP2003202260A (en) 2003-07-18

Similar Documents

Publication Publication Date Title
JP4242422B2 (en) Sudden event recording and analysis system
JP3069529B2 (en) Accident sound detection circuit
JP4046592B2 (en) Sound source identification device, sudden event detection device, and sudden event automatic recording device
AU2013223662B2 (en) Modified mel filter bank structure using spectral characteristics for sound analysis
KR100733145B1 (en) Fingerprint Producing Method and Audio Fingerprinting System Based on Normalized Spectral Subband Centroids
KR102066718B1 (en) Acoustic Tunnel Accident Detection System
Zinemanas et al. MAVD: a dataset for sound event detection in urban environments
CN108877814B (en) Inspection well cover theft and damage detection method, intelligent terminal and computer readable storage medium
EP2028651A1 (en) Method and apparatus for detection of specific input signal contributions
Bhave et al. Vehicle engine sound analysis applied to traffic congestion estimation
Lee et al. Acoustic hazard detection for pedestrians with obscured hearing
Kandpal et al. Classification of ground vehicles using acoustic signal processing and neural network classifier
KR20120103286A (en) Method and apparatus of detecting event of interest related to vehicles using audio signals
JP3164100B2 (en) Traffic sound source type identification device
CN112529177A (en) Vehicle collision detection method and device
Luitel et al. Sound event detection in urban soundscape using two-level classification
CN111370000A (en) Voiceprint recognition algorithm evaluation method, system, mobile terminal and storage medium
Astapov et al. A hierarchical algorithm for moving vehicle identification based on acoustic noise analysis
Hashimoto et al. Detection of car abnormal vibration using machine learning
KR100262564B1 (en) A voice recognition device for car
Parineh et al. Detecting emergency vehicles With 1D-CNN using fourier processed audio signals
Shariff et al. Wet Road Detection Using CNN with Transfer Learning
CN113593251B (en) Quick screening method and system for street frying vehicle
Anami et al. Comparative performance analysis of three classifiers for acoustic signal-based recognition of motorcycles using time-and frequency-domain features
JPH02162495A (en) Snowslide detector

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040930

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4046592

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees