JP2012127701A - Device and method for sound detection - Google Patents
Device and method for sound detection Download PDFInfo
- Publication number
- JP2012127701A JP2012127701A JP2010277461A JP2010277461A JP2012127701A JP 2012127701 A JP2012127701 A JP 2012127701A JP 2010277461 A JP2010277461 A JP 2010277461A JP 2010277461 A JP2010277461 A JP 2010277461A JP 2012127701 A JP2012127701 A JP 2012127701A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- score
- value
- frame
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 60
- 238000012937 correction Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 description 22
- 230000002159 abnormal effect Effects 0.000 description 21
- 230000000630 rising effect Effects 0.000 description 17
- ODHCTXKNWHHXJC-VKHMYHEASA-N 5-oxo-L-proline Chemical compound OC(=O)[C@@H]1CCC(=O)N1 ODHCTXKNWHHXJC-VKHMYHEASA-N 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000012544 monitoring process Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 230000007613 environmental effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 239000011521 glass Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Burglar Alarm Systems (AREA)
Abstract
Description
本発明は、特定の種類の音を検出する音検出装置および音検出方法に関する。 The present invention relates to a sound detection apparatus and a sound detection method for detecting a specific type of sound.
従来から、警備において、特定の音に注目して異常事態の発生を検出することが行われている。例えば、監視エリア内でガラスの破壊音などの異常音を検知した際には、異常事態が発生したと判断することができる。また、異常音とは断定されないが、不審な物音などを検知した場合には、異常事態の発生か否かを判断する必要がある。このような特定の音を自動的に検知するためには、監視エリア内で観測される全ての観測音から、異常音や不審音そのもの、または、異常音や不審音の発生区間を検出する必要がある。以下では、特に記載のない限り、異常音および不審音を纏めて不審音と呼ぶ。 Conventionally, in security, detection of occurrence of an abnormal situation has been performed by paying attention to a specific sound. For example, when an abnormal sound such as a glass breaking sound is detected in the monitoring area, it can be determined that an abnormal situation has occurred. Moreover, although it is not determined that the sound is abnormal, it is necessary to determine whether or not an abnormal situation has occurred when a suspicious sound is detected. In order to automatically detect such a specific sound, it is necessary to detect the abnormal sound or the suspicious sound itself or the section where the abnormal sound or the suspicious sound is generated from all the observation sounds observed in the monitoring area. There is. In the following, unless otherwise specified, abnormal sounds and suspicious sounds are collectively referred to as suspicious sounds.
環境音などを含む音から特定音を検出する技術は、従来から提案されている。例えば、特許文献1には、音の信号パワーを用いて音声の発生区間を検出する技術が開示されている。特許文献1では、信号パワーに対して適切に閾値を設定することで、所定の音の発生区間を検出している。また例えば、特許文献2には、音信号のゼロクロス数を用いて特定の音の区間を検出する方法が開示されている。
Techniques for detecting specific sounds from sounds including environmental sounds have been proposed. For example,
さらに例えば、特に音声に対して用いられる手法として、音を複数の周波数帯域に分割し、各帯域で求めた信号パワーに閾値を設定することで、所定の音の発生区間を検出する方法が知られている。この方法は、人間の声などの、特徴的な周波数帯域が予め分かっている音を抽出する場合に好適である。 Further, for example, as a technique used particularly for speech, a method for detecting a predetermined sound generation section by dividing a sound into a plurality of frequency bands and setting a threshold value for the signal power obtained in each band is known. It has been. This method is suitable for extracting a sound whose characteristic frequency band is known in advance, such as a human voice.
さらにまた、不審音の検出において、発生区間の検出を行わず、一定時間に採取される全ての音に対して音声認識処理を行う方法も考えられる。この方法では、例えば、採取された音信号に対する音声認識処理の開始および終了点を、ユーザが指定する。処理装置は、転送された音信号の、ユーザが指定した開始および終了点の間に対して音声認識処理を行い、ユーザは、音声認識処理の結果を用いて不審音の検出を行う。 Furthermore, in the detection of suspicious sound, a method of performing speech recognition processing on all sounds collected in a certain time without detecting the occurrence section is also conceivable. In this method, for example, the user designates the start and end points of voice recognition processing for the collected sound signal. The processing device performs voice recognition processing between the start and end points specified by the user of the transferred sound signal, and the user detects suspicious sound using the result of the voice recognition processing.
ところで、上述の特許文献1の技術を不審音の検出に用いた場合、集音された環境騒音および音声の信号に対して雑音(例えば工事の騒音など)が重畳されると、不審音の信号パワーに対して雑音の信号パワーが重畳されることになる。この場合には、不審音の検出漏れを起こしたり、不審音の発生区間を正しく検出できないおそれがあるという問題点があった。また、上述の特許文献2の技術に関しては、ゼロクロス数は雑音に影響され易く、環境音に対して雑音が重畳された場合、不審音の特徴を適切に捉えることが困難になるという問題点があった。
By the way, when the technique of
さらに、音を複数の周波数帯域に分割する方法では、検出対象とする音の信号パワーが特定の周波数帯域に集中していれば、雑音環境下での所定音の発生区間の検出に有効である。しかしながら、不審音は、実質的には物音であって、音の信号パワーが特定の周波数帯域に集中しているとは限らず、不審音の区間の検出には、必ずしも有効ではないという問題点があった。 Furthermore, the method of dividing a sound into a plurality of frequency bands is effective for detecting a predetermined sound generation section in a noise environment if the signal power of the sound to be detected is concentrated in a specific frequency band. . However, the suspicious sound is substantially a real sound, and the signal power of the sound is not necessarily concentrated in a specific frequency band, and is not necessarily effective for detecting the suspicious sound section. was there.
さらにまた、一定時間に採取される全ての音に対して音声認識処理を行う方法では、音声認識処理そのものによって異常音や不審音が検出できる訳ではないという問題点があった。例えば、この方法では、音声認識処理の結果で得られたパラメータの変化などをユーザが観察して、不審音といった特定の物音の検出を行う。 Furthermore, the method of performing voice recognition processing on all sounds collected in a certain time has a problem that abnormal sounds and suspicious sounds cannot be detected by the voice recognition processing itself. For example, in this method, a user observes a change in a parameter obtained as a result of the speech recognition process, and detects a specific sound such as a suspicious sound.
また、この方法を監視装置に適用する場合、例えば8時間〜10時間という長時間に亘り、監視中の全ての観測音に対して音声認識処理を施す必要があり、音声認識処理に対する計算コストの面から考えて、現実的ではないという問題点があった。 In addition, when this method is applied to a monitoring device, it is necessary to perform speech recognition processing on all observation sounds being monitored over a long period of time, for example, 8 hours to 10 hours. From the aspect, there was a problem that was not realistic.
これに対し、複数の監視対象に対して1台の処理装置(サーバ)を設置することにより計算コストを抑えることも考えられる。しかしながら、この場合においても、複数の監視ポイントで採取された観測音のデータそれぞれを、常時、サーバに転送し続ける必要があり、通信コストの面から現実的ではないという問題点があった。 On the other hand, it is also conceivable to reduce the calculation cost by installing one processing device (server) for a plurality of monitoring targets. However, even in this case, there is a problem that it is necessary to always transfer each of the observation sound data collected at a plurality of monitoring points to the server, which is not realistic in terms of communication cost.
本発明は、上記に鑑みてなされたものであって、雑音環境下においても、容易且つ高精度に特定音を検出することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to detect a specific sound easily and with high accuracy even in a noisy environment.
上述した課題を解決し、目的を達成するために、本発明は、音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出手段と、学習データから時系列に沿って予め求めた特徴値の期待値と、特徴値算出手段で算出された、音データの信号パワー時系列の特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出手段と、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出手段とを備えることを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention provides a feature value calculation means for calculating feature values indicating the characteristics of sound data along a time series, and is obtained in advance along the time series from learning data. Score calculating means for calculating a score for evaluating the sound data based on the difference between the expected value of the characteristic value and the characteristic value of the signal power time series of the sound data calculated by the feature value calculating means, and a maximum of the score And detecting means for detecting the position of the value and the position of the minimum value, and detecting a specific sound generation section in the sound data based on the position of the maximum value and the position of the minimum value.
また、本発明は、特徴値算出手段が、音データの特徴を示す特徴値を時系列に沿って算出する特徴値算出ステップと、スコア算出手段が、学習データから時系列に沿って予め求めた特徴値の期待値と、特徴値算出ステップで算出された、音データの信号パワー時系列の特徴値との差分に基づいて音データを評価するスコアを算出するスコア算出ステップと、スコアの極大値の位置と極小値の位置とを検出し、極大値の位置および極小値の位置に基づき音データ中の特定音発生区間を検出する検出ステップとを備えることを特徴とする。 Further, according to the present invention, the feature value calculating means calculates the feature value indicating the feature of the sound data along the time series, and the score calculating means previously obtained from the learning data along the time series. A score calculation step for calculating a score for evaluating sound data based on the difference between the expected value of the feature value and the signal power time series feature value of the sound data calculated in the feature value calculation step, and a maximum value of the score And a detection step of detecting a specific sound generation section in the sound data based on the position of the maximum value and the position of the minimum value.
本発明によれば、雑音環境下においても、容易且つ高精度に特定音を検出することができるという効果を奏する。 According to the present invention, it is possible to easily and accurately detect a specific sound even in a noisy environment.
以下に添付図面を参照して、本発明に係る音検出装置の一実施形態を詳細に説明する。本発明の実施形態では、監視エリア内の音を観測し、観測された観測音の音響信号から不審音や異常音と見做される特定音の発生区間を検出する。そして、観測音の音響信号から、検出された特定音発生区間の音響信号を切り取って出力する。 Hereinafter, an embodiment of a sound detection device according to the present invention will be described in detail with reference to the accompanying drawings. In the embodiment of the present invention, the sound in the monitoring area is observed, and the generation period of the specific sound that is regarded as a suspicious sound or an abnormal sound is detected from the acoustic signal of the observed sound. Then, the detected sound signal of the specific sound generation section is cut out from the sound signal of the observation sound and output.
検出対象となる特定音は、人が発する音声とは異なる所謂物音であり、観測音に含まれる環境音と似ている。そのため、本実施形態では、概略的には、検出対象となる特定音と同種類の音の音響データによる学習データについて、予め特徴値の期待値を求め、求めた期待値と、観測音の時系列上の特徴値との差分を用いて算出したスコアに基づき特定音の発生区間を検出する。 The specific sound to be detected is a so-called sound that is different from the sound emitted by a person, and is similar to the environmental sound included in the observation sound. For this reason, in the present embodiment, generally, the expected value of the characteristic value is obtained in advance for the learning data based on the acoustic data of the same type of sound as the specific sound to be detected, and the obtained expected value and the time of the observation sound are determined. A specific sound generation interval is detected based on a score calculated using a difference from a feature value on the sequence.
ここで、観測音、環境音、不審音および異常音について定義する。観測音とは、監視エリア内で集音される全ての物音をいう。異常音は、侵入行動などが原因で発生した、警報出力すべき物音をいう。異常音の代表的な例としては、ガラスなどが破壊された際に発生する破壊音が挙げられる。不審音は、異常音と断定はされないが、監視エリア内で集音された怪しい物音をいう。不審音の例としては、打撃音などが考えられる。環境音は、観測音に含まれる、不審音および異常音以外の音をいう。環境音の例としては、風など自然現象に起因する音や、自動車、電車の音などが考えられる。 Here, the observation sound, environmental sound, suspicious sound and abnormal sound are defined. Observation sound refers to all sound collected in the surveillance area. An abnormal sound is a sound that should be output as an alarm, caused by intrusion behavior. A typical example of the abnormal sound is a breaking sound generated when glass or the like is broken. Suspicious sound is suspicious sound collected in the surveillance area, although it is not determined as abnormal sound. As an example of a suspicious sound, a striking sound can be considered. Environmental sound refers to sound other than suspicious sound and abnormal sound included in observation sound. Examples of environmental sounds include sounds resulting from natural phenomena such as wind, automobiles and trains.
図1は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示す。図1において、音検出装置100は、A/D変換部11、演算部12および記憶部13を含む。例えば監視エリアにおいてマイクロフォン10で集音された観測音は、A/D変換部11でディジタルデータに変換され、入力音響データ20として演算部12に供給される。
FIG. 1 schematically shows a configuration of an example of a sound detection apparatus applicable to the embodiment of the present invention. In FIG. 1, the
演算部12は、例えばCPU(Central Processing Unit)、マイクロプロセッサ、あるいは、DSP(Digital Signal Processor)などを含む。また、記憶部13は、例えば半導体メモリやHDD(ハードディスクドライブ)などからなり、入力音響データ20が記憶されると共に、学習データに基づき作成された、入力音響データ20を評価するスコアを算出するためのスコアパラメータが予め記憶されている。学習データは、検出したい不審音や異常音と同種類であって、異なる複数の音の音響データを用いる。記憶部13は、また、演算部12の作業領域としても用いることができる。
The
演算部12は、入力音響データ20の特徴値を時系列上で算出し、算出された時系列上での特徴値を、記憶部13に記憶されるスコアパラメータを用いて評価して、検出対象の不審音や異常音の発生区間を検出する。演算部12は、入力音響データ20から検出対象の不審音や異常音の発生区間を検出した場合、検出された不審音や異常音の発生区間を当該入力音響データ20から切り取り、不審音発生区間の出力音響データ21として出力する。出力音響データ21は、例えば通信ネットワークを介して、監視サーバなどに送信される。
The
本実施形態では、音響データの特徴値として、音響データの信号パワーの時系列での傾きを用いる。なお、これはこの例に限定されず、特徴値は、音響データの特徴を示す値であれば、他の値を用いてもよい。例えば、音響データ信号パワーそのものや、所定区間におけるゼロクロス数などを特徴値として用いてもよい。 In the present embodiment, the time-series gradient of the signal power of the acoustic data is used as the characteristic value of the acoustic data. Note that this is not limited to this example, and the feature value may be another value as long as it is a value indicating the feature of the acoustic data. For example, the acoustic data signal power itself or the number of zero crosses in a predetermined section may be used as the feature value.
図2は、音検出装置100の機能をより詳細に説明するための一例の機能ブロック図である。なお、図2において、上述の図1と共通する部分には同一の符号を付して、詳細な説明を省略する。また、本実施形態では、上述した不審音および異常音を共に検出対象としている。そのため、以下では、特に記載の無い限り、不審音と異常音とを纏めて不審音として記述する。
FIG. 2 is a functional block diagram of an example for explaining the functions of the
図2において、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104は、演算部12に含まれる。スコアパラメータ111は、学習データに基づき予め作成されて記憶部13に記憶される。また、記憶部110は、例えば上述の記憶部13内の領域であって、観測音がA/D変換部11でディジタルデータに変換された入力音響データ20が一時的に記憶されると共に、後述するスコアや遅延時間補正量など、不審音発生区間を検出するために用いるデータが記憶される。
In FIG. 2, the signal
信号パワー算出部101は、A/D変換部11から供給された入力音響データ20の信号パワーを、時系列上で算出する。より具体的には、信号パワー算出部101は、入力音響データ20の時系列上で連続する所定数のサンプルを単位として、信号パワーを算出する。ここで、信号パワーを算出する単位をフレームと呼び、フレームに含まれるサンプル数がフレーム幅となる。
The signal
入力音響データ20のi番目のフレームの信号パワーyLP(i)は、フレーム幅をW、フレーム内のn番目の波形データ(サンプル値)を値x(n)として、例えば次式(1)により算出される。
なお、信号パワーyLP(i)を算出するフレームは、直前のフレームと一部のサンプルが重複するように、フレームの先頭を基準とした所定サンプル数のフレーム間隔D毎に、用いるサンプルをずらして設定する。一例として、フレーム幅W=160サンプルであって、m番目のフレームmが第1サンプル〜第160サンプルで構成されるものとして、m+1番目のフレーム(m+1)は、第81サンプル〜第240サンプルで構成され、m+2番目のフレーム(m+2)は、第161サンプル〜第320サンプルで構成される。この場合、フレーム間隔D=80サンプルとなる。なお、この例では、フレームの重複部分の長さをフレーム幅W/2としたが、これはこの例に限定されない。 In the frame for calculating the signal power y LP (i), samples to be used are shifted for every predetermined frame interval D with respect to the head of the frame so that some samples overlap the previous frame. To set. As an example, assuming that the frame width W = 160 samples and the mth frame m is composed of the first sample to the 160th sample, the m + 1st frame (m + 1) is the 81st sample to the 240th sample. The (m + 2) th frame (m + 2) is composed of the 161st to 320th samples. In this case, the frame interval D = 80 samples. In this example, the length of the overlapping portion of the frame is the frame width W / 2, but this is not limited to this example.
傾き検出部102は、信号パワー算出部101で算出されたフレーム毎の信号パワーyLP(i)の、時系列上での傾き(信号パワー時系列の傾きと呼ぶ)yGLP(i)を算出する。フレームiの信号パワー時系列の傾きyGLP(i)は、例えばフレームiと、既に信号パワーを算出済みのフレーム(i−4)、フレーム(i−3)およびフレーム(i−1)の、対象フレームiに対して4フレーム分遡ったフレーム(i−4)のうち、4フレーム分の信号パワーを用いて、次式(2)により算出できる。
なお、式(2)では、対象フレームiに対して4フレーム前から4フレーム分の信号パワーを用いて傾きyGLP(i)を算出しているが、これはこの例に限定されない。すなわち、対象フレームiから何フレーム分遡ったフレームからデータを用いるかは、信号パワー時系列の傾きyGLP(i)を求める式の構成に応じて決められる。また、各定数の値も、この例に用いた値に限定されない。 In Equation (2), the gradient y GLP (i) is calculated using the signal power of four frames from the previous four frames with respect to the target frame i, but this is not limited to this example. In other words, the number of frames going back from the target frame i to use data is determined according to the configuration of the equation for obtaining the slope y GLP (i) of the signal power time series. Also, the value of each constant is not limited to the value used in this example.
スコア算出部103は、傾き算出部102で入力音響データ20について算出された信号パワー時系列の傾きyGLP(i)と、学習データを用いて予め作成され例えば記憶部13に記憶されたスコアパラメータ111とに基づき、入力音響データ20を評価するためのスコアを算出する。スコアパラメータ111は、予め用意された学習データに基づき作成された、検出対象となる不審音に対する期待値を含む。そして、算出されたスコアの時系列的な変化に基づき不審音発生区間の検出を行う。
The
スコアパラメータ111は、下記のようにして作成する。先ず、検出対象となる不審音と種類が同じであって、互いに音が異なる複数の音響データをそれぞれ学習データとして用意する。例えば、検出対象となる不審音がガラスの破壊音である場合、異なるサイズ、厚み、材質など様々な条件でガラスを破壊した際の破壊音を集音した各音響データを、それぞれ学習データとして用いる。
The
この学習データのそれぞれについて、上述したようにして、フレーム毎に信号パワーを求め、求めた信号パワーを用いて信号パワー時系列の傾きを算出する。そして、複数の学習データの、互いに対応するフレームkの信号パワー時系列の傾きの期待値μkおよび分散値σ2 kを算出する。算出された期待値μkおよび分散値σ2 kを、フレームkのスコアパラメータ111として、記憶部13に記憶する。
For each of the learning data, the signal power is obtained for each frame as described above, and the slope of the signal power time series is calculated using the obtained signal power. Then, the expected value μ k and the variance value σ 2 k of the slope of the signal power time series of the corresponding frame k of the plurality of learning data are calculated. The calculated expected value μ k and variance value σ 2 k are stored in the
図3を用いて、スコアパラメータ111の算出方法についてより詳細に説明する。先ず、学習データに対してフレームを設定する。フレーム幅Wおよびフレーム間隔Dは、上述の信号パワー算出部101で入力音響データ20に対して設定したフレームと同一とする。なお、信号パワー時系列の傾きの算出は、上述した式(2)に従い、対象フレームiから4フレーム分遡ったフレームからの信号パワー値を用いて行うものとする。
The calculation method of the
なお、以下では、不審音発生区間の開始位置を含むフレームから、当該フレームの信号パワー時系列の傾きを算出するために必要なフレーム分を遡ったときの先頭のフレームを、1番目のフレーム(フレーム#1)とする。 In the following description, the first frame (the first frame (when the frame necessary for calculating the slope of the signal power time series of the frame is traced from the frame including the start position of the suspicious sound generation section) is referred to as the first frame ( Frame # 1).
学習データの波形の立ち上がり時刻、すなわち不審音発生区間の開始位置に係るフレーム(図3の例ではフレーム#5)を設定する。そして、このフレーム#5から学習データの波形の減衰方向(不審音発生区間の終了位置方向)に向けて、フレーム間隔Dで順次フレームを設定する(フレーム#6〜#8)。また、不審音発生区間の開始位置に係るフレームについて信号パワー時系列の傾きを算出する場合、この例では当該フレームに対して4フレーム分遡った位置からフレームが必要となるので、これらのフレームも設定する。図3の例では、フレーム#5から時系列を遡った方向に、フレーム#4〜#1が設定される。なお、不審音発生区間の開始位置に係るフレーム(フレーム#5)は、フレームの略中央が当該開始位置になるように設定すると好ましい。
A frame (
音が異なる複数の学習データのそれぞれに対して、同様にして、波形の立ち上がり時刻を基準として各フレームが設定される。 Similarly, each frame is set with respect to each of a plurality of learning data having different sounds on the basis of the rise time of the waveform.
なお、この例では、信号パワー時系列の傾きを算出するために用いるフレーム数を4フレームとし、学習データからスコアパラメータ111を算出するために用いる総フレーム数を8フレームとしているが、これはこの例に限定されず、例えばさらに多くのフレームを用いてもよい。また、学習データの波形の立ち上がり時刻に対して中央を揃えるフレームを、5番目のフレームとしているが、これはこの例に限定されず、スコアパラメータ111を算出するために用いる総フレーム数に合わせて別のフレームを用いてもよい。さらに、学習データにおいては、波形の立ち上がり時刻より前のデータが存在しない場合が考えられる。この場合には、値「0」のデータ(無音データ)が存在するものと見做してフレームの設定を行う。
In this example, the number of frames used to calculate the slope of the signal power time series is 4 frames, and the total number of frames used to calculate the
次に、上述のようにして各学習データに対して設定されたフレーム毎に信号パワーを算出し、各学習データについて、信号パワー時系列の傾きを算出する。そして、各学習データの対応するフレームkにおける信号パワー時系列の傾きの期待値μkおよび分散値σ2 kを算出する。 Next, signal power is calculated for each frame set for each learning data as described above, and the slope of the signal power time series is calculated for each learning data. Then, the expected value μ k and variance value σ 2 k of the slope of the signal power time series in the corresponding frame k of each learning data are calculated.
一例として、波形の立ち上がり部分を含むフレーム#5を基点とし、フレーム#5〜フレーム#8のそれぞれについて、各学習データに基づき信号パワー時系列の傾きに関するヒストグラムを作成する。図4は、学習データとしてガラス打撃音の音響データを用いた場合の、フレーム#5〜フレーム#8それぞれに関する、信号パワー時系列の傾きの分布(ヒストグラム)の例を示す。図4(a)はフレーム#5の例、図4(b)はフレーム#6の例、図4(c)はフレーム#7の例、図4(d)はフレーム#8の例である。図4(a)、図4(b)、図4(c)および図4(d)において、横軸が信号パワー時系列の傾きの階級、縦軸が頻度を示す。
As an example, a histogram relating to the slope of the signal power time series is created for each of the
これら図4(a)〜図4(d)のヒストグラムに基づき、フレーム#5〜フレーム#8それぞれについて、期待値μおよび分散値σ2を求めることができる。なお、期待値μkおよび分散値σ2 kの算出は、周知の方法を用いることができるので、ここでの説明を省略する。図5は、図4(a)〜図4(d)のヒストグラムに基づき算出した、フレーム#5〜フレーム#8それぞれの期待値μおよび分散値σ2の例を示す。各フレームkに対して、それぞれ期待値μkおよび分散値σ2 kが算出される。算出されたこれら各フレームkの期待値μkおよび分散値σ2 kは、スコアパラメータ111として記憶部13に記憶される。
Based on these histograms of FIGS. 4A to 4D, the expected value μ and the variance value σ 2 can be obtained for each of the
スコア算出部103は、こうして算出し記憶部13にスコアパラメータ111として記憶された各フレームkの期待値μkおよび分散値σ2 kを用いて、次式(3)に例示される、入力音響データ20のフレームiにおけるスコアS(i)を算出するスコア算出式を得る。このスコア算出式で算出されたスコアS(i)により、入力音響データ20におけるフレームiを評価することができる。
なお、式(3)において、傾きyGLP(i+k−8)に含まれる値「8」および総和の終了を示す値「8」は、学習データからスコアパラメータ111を算出するために用いた総フレーム数である。また、総和の開始を示す値「5」は、不審音発生区間の開始位置を含むフレーム番号の、学習データからスコアパラメータ111を算出するために用いる先頭のフレームから数えたフレーム番号である。これらの値は、信号パワー時系列の傾きyGLP(i)を求める式の構成などに応じて決められる。さらに、式(3)において、スコアの最大値を「0」にするために、右辺の全体に負符号が付されている。
In equation (3), the value “8” included in the gradient y GLP (i + k−8) and the value “8” indicating the end of the sum are the total frames used to calculate the
すなわち、式(3)は、入力音響データ20におけるスコア算出の対象となるフレームiの信号パワー時系列の傾きと期待値との差分の二乗を、学習データにおいて不審音発生区間の開始位置から4フレーム分順次フレームをずらして求めた総和に基づき、フレームiのスコアを算出している。分散値は、分子の値を正規化する。なお、式(3)では、信号パワー時系列の傾きと期待値との差分の二乗を用いているが、これはこの例に限定されず、例えば差分の絶対値を用いてもよい。
That is, the equation (3) is obtained by calculating the square of the difference between the slope of the signal power time series of the frame i to be score-calculated in the input
スコア算出部103は、傾き算出部102で入力音響データ20の各フレームiについて算出された、信号パワー時系列の傾きyGLP(i)を式(3)に順次適用して、各フレームiのスコアS(i)を算出する。
The
発生区間検出部104は、スコア算出部103で算出された入力音響データ20のフレームiのスコアS(i)から、フレームiのスコア時系列の傾きGS(i)を算出する。この例では、スコア時系列の傾きGS(i)は、上述した信号パワー時系列の傾きの算出と同様に、対象となるフレームiに対して4フレーム分遡ったフレーム(i−4)から4個のスコアS(i−4)、スコアS(i−3)、スコアS(i−1)およびスコアS(i)を用いて、例えば次式(4)を用いて算出される。
なお、ここでは、スコア時系列の傾きGS(i)を算出するために、4個のスコアを用いたが、これはこの例に限定されない。また、スコア時系列の傾きは、スコア算出部103で算出してもよい。
Note that, here, four scores are used to calculate the slope GS (i) of the score time series, but this is not limited to this example. In addition, the score time series slope may be calculated by the
発生区間検出部104は、算出されたスコア時系列の傾きGS(i)に基づき、スコアS(i)が極大値または極小値であるか否かを判定する。すなわち、スコア時系列の傾きGS(i)が下記の条件(A)を満たすとき、スコアS(i)は極大値を取る。
GS(i−1)>0 且つ GS(i)≦0 …(A)
The occurrence
GS (i-1)> 0 and GS (i) ≦ 0 (A)
同様に、スコア時系列の傾きGS(i)が下記の条件(B)を満たすとき、スコアS(i)は極小値を取る。
GS(i−1)<0 且つ GS(i)≧0 …(B)
Similarly, when the slope GS (i) of the score time series satisfies the following condition (B), the score S (i) takes a minimum value.
GS (i−1) <0 and GS (i) ≧ 0 (B)
発生区間検出部104は、スコアS(i)が極大値であった場合、当該スコアS(i)が閾値を超えているか否かを判定し、超えていれば、当該スコアS(i)に対応するフレームiが波形の立ち上がり位置を含むものと判定する。閾値は、予め実験的手法などにより求めて、記憶部13に記憶しておく。ここで、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該開始位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち上がり位置とされる。
When the score S (i) is a maximum value, the occurrence
一方、発生区間検出部104は、波形の立ち上がり位置を含むフレームを検出した後に最初に極小値をとったスコアS(i)について、当該スコアS(i)に対応するフレーム(i)が波形の立ち下がり位置を含むものと判定する。この場合も、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該立ち上がり位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち下がり位置とされる。
On the other hand, for the score S (i) that first takes the minimum value after detecting the frame including the rising position of the waveform, the generation
発生区間検出部104は、波形の立ち上がり位置および立ち下がり位置が検出されると、検出された波形の立ち上がり位置を不審音発生区間の開始位置とし、立ち下がり位置を当該不審音発生区間の終了位置とする。これにより、不審音発生区間が検出される。
When the rising position and the falling position of the waveform are detected, the generation
ここで、式(3)に示すスコア算出式の意味について説明する。スコア算出式である式(3)に用いられる信号パワー時系列の傾きyGLP(i)は、上述の式(2)で算出され、式(2)に用いられる信号パワーyLP(i)は、上述の式(1)で算出される。図6は、こうして求めた信号パワーyLP(i)、信号パワー時系列の傾きyGLP(i)およびスコアS(i)を、入力音響データ20の各フレームiについて求めた値の例を示す。
Here, the meaning of the score calculation formula shown in Formula (3) will be described. The slope y GLP (i) of the signal power time series used in the equation (3), which is a score calculation formula, is calculated by the above equation (2), and the signal power y LP (i) used in the equation (2) is , Calculated by the above-described equation (1). FIG. 6 shows an example of values obtained for the frame i of the input
学習データに基づく特徴値の期待値μおよび分散値σ2は、学習データにおける物音(不審音)の波形の立ち上がりを含むフレームおよび当該フレームから所定数のフレーム(上述の例では4フレーム)のそれぞれについて算出された値である。図7は、学習データの各フレームkのそれぞれについて求めた期待値μkおよび分散値σ2 kの例を示す。 The expected value μ and the variance value σ 2 of the feature value based on the learning data are respectively a frame including a rising edge of a sound of a sound (suspicious sound) in the learning data and a predetermined number of frames (four frames in the above example) from the frame. Is a value calculated for. FIG. 7 shows an example of the expected value μ k and the variance value σ 2 k obtained for each frame k of the learning data.
図8は、図6に示す信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフを示す。なお、このグラフは、後述するスコア算出に伴う遅延の補正がなされていない。図8の例では、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。 FIG. 8 shows a graph in which the signal power, the slope of the signal power time series, and the score shown in FIG. 6 are plotted against the frame number. In this graph, the delay associated with score calculation described later is not corrected. In the example of FIG. 8, the score plot is delayed by 3 frames relative to the signal power plot.
学習データにおける物音と、入力音響データ20に含まれる物音との類似性が高い位置、すなわち、物音の立ち上がり位置で、期待値μと入力音響データ20の特徴値との差分に基づくスコアは、最大値を取る(スコアのプロットにおけるフレーム#9の位置)。そこで、式(3)のΣ部分を参照し、所定フレーム数分の総和が最も大きな値を取る点でスコアは極大値を取り、そのフレームを物音の発生区間の開始位置を含むフレームとする。
The score based on the difference between the expected value μ and the characteristic value of the
物音の発生区間の開始位置以降、入力音響データ20の信号パワーは減衰する(信号パワーのプロットにおけるフレーム番号#7〜#10)。それに伴い、入力音響データ20の信号パワー時系列の傾きが負値を取る(信号パワー時系列の傾きのプロットにおけるフレーム#8、#9)。したがって、式(3)における「yGLP(i+k−8)−μk」の二乗の値が大きくなり、この二乗値の4フレーム分の総和に負符号が付されたスコアS(i)は、小さな値となる(スコアのプロットにおけるフレーム#12、#13)。スコアS(i)の値が最も小さくなるとき、スコアS(i)が極小値を取り(スコアのプロットにおけるフレーム#13)、この極小値を取ったフレームを物音の発生区間の終了位置を含むフレームと見做すことができる。
The signal power of the
図9および図10は、上述のようにして検出された不審音発生区間の例を示す。図9は、観測音に雑音(環境音)が少ない場合の例であり、図10は、観測音に雑音が多い場合の例である。図9および図10では、それぞれ同一のスコアパラメータ111と不審音発生区間の検出のための閾値とを用いて、不審音発生区間の検出を行っている。
9 and 10 show examples of the suspicious sound generation interval detected as described above. FIG. 9 shows an example when the observation sound has a little noise (environmental sound), and FIG. 10 shows an example when the observation sound has a lot of noise. In FIG. 9 and FIG. 10, the suspicious sound generation interval is detected using the
図9および図10それぞれにおいて、上側のグラフは入力音響データ20を示し、下側のグラフは入力音響データ20に対するスコアと、スコアに基づき検出された不審音発生区間とを示す。不審音発生区間は、値がHighレベルで不審音発生区間を示す。なお、図9および図10では、スコアのグラフにおいて、後述するスコア算出に係る遅延が補正されている。
9 and 10, the upper graph shows the
図9において、上側の入力音響データ20のグラフに、時刻「3000」付近で不審音が発生し、この不審音が時間「200」程度で急激に減衰している様子が示されている。一方、下側のグラフにおいて、上述した条件(A)に従い、スコアは、時刻「3000」付近で大きな極大値を取り、時刻「5500」付近でやや大きな極大値を取っている。この例では、時刻「3000」付近のスコアの極大値が閾値を超えており、時刻「5500」付近のスコアの極大値は、閾値を超えていないものとする。さらに、スコアは、上述した条件(B)に従い、閾値を超える時刻「3000」付近の極大値の後、時刻「3300」付近で極小値を取っている。したがって、時刻「3000」付近から時刻「3300」付近が不審音発生区間と判断することができる。
In FIG. 9, the graph of the
また、図10の観測音に雑音が多い場合についても、図9の観測音に雑音が少ない場合と同様の結果が得られることが分かる。これにより、本実施形態の音検出装置を用いることで、雑音環境下であっても不審音発生区間を容易に検出可能であることが分かる。 In addition, it can be seen that the same result as in the case where the observation sound in FIG. Thereby, it turns out that a suspicious sound generation area can be easily detected by using the sound detection device of the present embodiment even in a noisy environment.
ところで、既に述べたように、スコア算出の際には、入力音響データ20の対象となるフレームの前後のフレームを用いる。そのため、図11に示されるように、算出されたスコアに基づき求めた入力音響データ20における不審音による波形の立ち上がり位置および立ち下がり位置は、実際の入力音響データ20における波形の立ち上がり位置および立ち下がり位置に対して遅延を有する。そのため、入力音響データ20から不審音発生区間を切り取るためには、この遅延の補正を行う必要がある。
By the way, as already described, when calculating the score, frames before and after the target frame of the input
遅延を補正する遅延補正量は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dに依存する。すなわち、スコア算出にフレーム#1〜フレーム#8の8フレームを用い、学習データにおける波形の立ち上がり位置にフレーム#5を対応させる上述の例では、図12に例示されるように、入力音響データ20について、信号パワーを算出するために1フレーム幅Wの時間を要し、各フレームの信号パワーは、フレーム間隔D毎に算出される。また、信号パワー時系列の傾きの算出には、5フレーム後、すなわち1フレーム幅W+4フレーム間隔Dを要する。さらに、スコアを算出するために、4フレーム分を用いるため、4フレーム間隔Dを要する。したがって、フレームiのスコアを算出するために、1フレーム幅W+7フレーム間隔D=9フレーム間隔Dを要することになる。
The delay correction amount for correcting the delay depends on the sampling frequency, the frame width W, and the frame interval D of the input
より具体的な例として、入力音響データ20のサンプリング周波数が16kHz(キロヘルツ)、1フレーム幅Wのサンプル数が160サンプル、1フレーム間隔Dのサンプル数80サンプルの例では、遅延補正量は、80サンプル×9=720サンプル分となる。この遅延補正量は、時間に換算すると、720サンプル×(1/16000)=0.045sec(45ミリ秒)となる。
As a more specific example, in the example where the sampling frequency of the input
発生区間検出部104は、検出された不審音発生区間の開始位置および終了位置の時刻から、この遅延補正量を差し引いた値を、補正済み不審音発生区間の開始位置および終了位置の時刻とする。そして、記憶部13に記憶された入力音響データ20から、この補正済み不審音発生区間のデータを切り取り、出力音響データ21として出力する。
The generation
図13は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。このフローチャートによる各処理は、例えば演算部12が含む図示されないCPUにより、例えば記憶部13に予め記憶されるプログラムに従って実行される。プログラムは、例えば、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ実現するモジュールを含み、CPUにより実行されると、図示されない主記憶上にこれら各部のモジュールを展開し、実行する。
FIG. 13 is a flowchart of an example showing the detection processing of the suspicious sound generation section according to the present embodiment. Each process according to this flowchart is executed by, for example, a CPU (not shown) included in the
これに限らず、演算部12に含まれる信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ別個のハードウェアによって構成し、各部が協働してフローチャートにおける各処理を実行してもよい。
Not only this but the signal
図13において、ステップS100で、マイクロフォン10から、集音された観測音に従ったアナログ音声信号が出力される。このアナログ音声信号は、A/D変換部11でディジタル音声信号に変換され、入力音響データ20として信号パワー算出部101に供給される。入力音響データ20は、記憶部110にも供給され、記憶される。
In FIG. 13, in step S <b> 100, an analog audio signal according to the collected observation sound is output from the
信号パワー算出部101は、入力された入力音響データ20に対してフレームiを設定し、上述した式(1)に従い、設定されたフレームiの信号パワーyLP(i)を算出する(ステップS101)。算出された信号パワーyLP(i)の値は、例えば記憶部110に一時的に保持される。次のステップS102で、傾き算出部102は、既に算出された所定数の信号パワーの値を記憶部110から取り出し、上述した式(2)に従い信号パワー時系列の傾きyGLP(i)を算出する。算出された信号パワー時系列の傾きyGLP(i)は、記憶部110に保持される。
The signal
次にステップS103で、スコア算出部103は、既に算出された信号パワー時系列の傾きyGLP(i)の値と、学習データに基づき予め算出されたスコアパラメータ111とを、記憶部110から取り出し、上述した式(3)に従いフレームiのスコアS(i)を算出する。算出されたスコアS(i)は、記憶部110に保持される。次のステップS104で、発生区間検出部104は、既に算出されたスコアの値を記憶部110から取り出し、上述した式(4)に従いスコア時系列の傾きGS(i)を算出する。
Next, in step S103, the
次のステップS105で、発生区間検出部104は、上述した条件(A)を参照し、算出されたスコア時系列の傾きGS(i)が極大値であるか否かを判定する。若し、スコアS(i)が極大値であると判定したら、処理をステップS106に移行させ、極大値であるスコアS(i)が予め決められた閾値を超えているか否かを判定する。若し、超えていないと判定したら、処理をステップS100に戻す。
In the next step S105, the occurrence
一方、ステップS106で、スコアS(i)が当該閾値を超えていると判定したら、処理はステップS107に移行され、フレームiの略中央に不審音の波形の立ち上がりが検出されたものとする。そして、処理をステップS100に戻す。 On the other hand, if it is determined in step S106 that the score S (i) exceeds the threshold value, the process proceeds to step S107, and it is assumed that the rising of the waveform of the suspicious sound is detected at the approximate center of the frame i. Then, the process returns to step S100.
上述のステップS105で、スコアS(i)が極大値ではないと判定されたら、処理はステップS108に移行される。ステップS108で、発生区間検出部104は、上述した条件(B)を参照し、当該スコアS(i)が極小値であるか否かを判定する。若し、極小値ではないと判定したら、処理をステップS100に戻す。
If it is determined in step S105 described above that the score S (i) is not the maximum value, the process proceeds to step S108. In step S108, the occurrence
一方、ステップS108で、スコアS(i)が極小値であると判定したら、処理をステップS109に移行させる。ステップS109で、発生区間検出部104は、この極小値が、上述のステップS106で極大値が検出されてから初回に検出された極小値であるか否かを判定する。若し、極大値の検出後の初回に検出された極小値ではないと判定したら、処理をステップS100に戻す。
On the other hand, if it is determined in step S108 that the score S (i) is a minimum value, the process proceeds to step S109. In step S109, the occurrence
ステップS108で、発生区間検出部104は、スコアS(i)がステップS106で極大値が検出されてから初回に検出された極小値であると判定したら、処理をステップS110に移行させ、フレームiの略中央に不審音の波形の立ち下がりが検出されたものと見做す。このステップS110と、上述したステップS107とで不審音の波形の立ち上がりおよび立ち下がりが検出されたことになる。
In step S108, when the generation
次のステップS111で、発生区間検出部104は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dと、学習データについて信号パワー時系列の傾きを算出する際に用いたフレーム数とに基づき算出される遅延補正量を用いて、不審音の波形の立ち上がり位置および立ち下がり位置を補正する。この補正された立ち下がり位置および立ち下がり位置が、不審音発生区間の開始位置および終了位置とされ、不審音発生区間が検出される(ステップS112)。
In the next step S111, the generation
上述したように、本実施形態によれば、集音された観測音に基づく入力音響データから特徴値の時系列データを抽出し、抽出された特徴値と、予め学習データを用いて算出された特徴値の期待値とを比較してスコアを求め、このスコアの時系列上での変化に基づき不審音発生区間を検出している。そのため、雑音環境下においても、容易に不審音発生区間の検出を行うことができる。 As described above, according to the present embodiment, time-series data of feature values is extracted from input acoustic data based on collected observation sounds, and calculated using the extracted feature values and learning data in advance. The score is obtained by comparing the expected value of the feature value, and the suspicious sound generation interval is detected based on the change of the score over time. Therefore, it is possible to easily detect a suspicious sound generation section even in a noisy environment.
本実施形態では、不審音を検出するための閾値を、入力音響データの特徴値から算出したスコアに対して適用している。このスコアは、雑音環境下の観測音においても略一定の値を取る。そのため、監視エリアの環境に応じて閾値を変更する必要が無い。それと共に、本実施形態では、雑音に影響されにくい性質の値であるスコアを不審音の検出に用いているので、雑音に対して頑健な検出が可能で、雑音環境下や、雑音レベルの変化する環境下においても安定的に不審音発生区間の検出を行うことができる。 In the present embodiment, a threshold for detecting suspicious sound is applied to the score calculated from the feature value of the input acoustic data. This score takes a substantially constant value even in the observation sound in a noisy environment. Therefore, there is no need to change the threshold according to the environment of the monitoring area. At the same time, in the present embodiment, the score, which is a value that is not easily affected by noise, is used for detection of suspicious sound, so that robust detection against noise is possible, and the noise level and noise level change are possible. This makes it possible to stably detect the suspicious sound generation section even in an environment where the sound is generated.
ここで、本実施形態による不審音発生区間の検出方法が、雑音環境に対して頑健であることについて説明する。 Here, it will be described that the detection method of the suspicious sound generation section according to the present embodiment is robust against a noise environment.
本実施形態において、式(3)により算出されるスコアは、学習データと、入力音響データ20との類似性が高い場合に大きな値を取る性質がある。一方、雑音(雑音の音響データ)と学習データとでは類似性が低いため、スコアは、略一定の値を取り大きく変化しない。したがって、スコアに対して閾値を設定し、スコアが閾値を超えたか否かを判定することで、従来の、例えば信号パワーに対して閾値を設定する音検出方法と比べて、より確実に物音の発生区間を検出することが可能となる。
In the present embodiment, the score calculated by the equation (3) has a property of taking a large value when the similarity between the learning data and the input
すなわち、不審音による音響データが入力された場合、入力された音響データにおける不審音発生区間の波形は、学習データによる波形に対する類似性が高いため、不審音発生区間の先頭でスコアが大きく変化する。本実施形態では、このスコアと閾値とを比較して、スコアが閾値を超えている場合に、不審音発生区間が検出されたものと判定する。 That is, when acoustic data based on suspicious sound is input, the waveform of the suspicious sound generation interval in the input acoustic data has a high similarity to the waveform based on the learning data, so the score greatly changes at the beginning of the suspicious sound generation interval. . In this embodiment, this score is compared with a threshold value, and when the score exceeds the threshold value, it is determined that a suspicious sound occurrence section has been detected.
一方、雑音による音響データが入力された場合、雑音による波形は、学習データによる波形に対する類似性が小さいため、スコアの変化が極めて小さい。そのため、スコアが閾値を超える可能性が小さく、誤検出の発生が抑制される。 On the other hand, when acoustic data due to noise is input, the waveform due to noise has a small similarity to the waveform due to learning data, so the change in score is extremely small. Therefore, the possibility that the score exceeds the threshold value is small, and the occurrence of erroneous detection is suppressed.
図14は、学習データが物音(検出対象の不審音)を集音した音響データである場合に、略ランダムな音響データ(雑音による音響データ)が入力された際の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示し、図15は、図14に例示した各項目の値をフレーム番号に対してプロットしたグラフを示す。学習データの期待値μkおよび分散値σ2は、上述した図7に示す値と同一とする。 FIG. 14 shows signal power and signal power when substantially random acoustic data (acoustic data due to noise) is input when the learning data is acoustic data obtained by collecting a physical sound (suspicious sound to be detected). FIG. 15 shows a graph in which the values of the items illustrated in FIG. 14 are plotted against the frame numbers. The expected value μ k and the variance value σ 2 of the learning data are the same as the values shown in FIG.
なお、図15に例示されるグラフは、後述するスコア算出に伴う遅延の補正がなされておらず、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。 In the graph illustrated in FIG. 15, delay correction associated with score calculation described later is not performed, and the score plot is delayed by three frames with respect to the signal power plot.
図15に例示されるように、雑音による音響データは、信号パワーが比較的大きく変化する。そのため、従来のように信号パワーに対して閾値200を設定した場合、フレーム番号#3、#16、#18および#19などが誤検出されてしまう。一方、波形が学習データと大きく異なる音響データが入力された場合、スコアは大きく変化しない。そのため、本実施形態によりスコアに対して閾値を設定した場合、スコアが当該閾値を超えてしまう可能性が低く、雑音環境下においても特定の物音の発生区間を正確に検出することができる。
As illustrated in FIG. 15, the signal power of acoustic data due to noise changes relatively large. Therefore, when the
また、本実施形態は、不審音の特徴を抽出することで、不審音発生区間の検出を行っている。そのため、音声のみならず、様々な物音を不審音発生区間の検出対象とすることができる。 In the present embodiment, the suspicious sound generation section is detected by extracting the characteristics of the suspicious sound. For this reason, not only voice but also various kinds of sound can be detected in the suspicious sound generation section.
さらに、本実施形態を適用することで、不審音の発生区間を精度よく検出することができる。これにより、検出された不審音発生区間の音響データに対する音認識処理における精度の向上が期待できる。また、不審音発生区間の検出を音認識処理に対して事前に行うことにより、システムは、検出された不審音発生区間の音響データのみに対して認識処理を行えばよく、音認識システム全体の計算コストや音響データの通信を行うための通信コストを抑えることができる。 Furthermore, by applying the present embodiment, it is possible to accurately detect a suspicious sound generation interval. Thereby, the improvement in the precision in the sound recognition process with respect to the acoustic data of the detected suspicious sound generation area can be expected. In addition, by detecting the suspicious sound generation section in advance for the sound recognition process, the system may perform the recognition process only on the acoustic data of the detected suspicious sound generation section, and the entire sound recognition system It is possible to reduce the calculation cost and the communication cost for performing acoustic data communication.
本実施形態の音検出装置を、監視領域内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音検出装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視領域内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。 The sound detection device according to the present embodiment is provided in a security device that outputs an alarm when a suspicious person is detected in the monitoring area, or the output from the sound detection device according to the present embodiment is input to the security device. can do. Thereby, since the suspicious sound in a monitoring area | region can be detected easily and with high precision, it becomes possible to prevent the false alarm by a security device.
10 マイクロフォン
11 A/D変換部
12 演算部
13 記憶部
20 入力音響データ
21 出力音響データ
100 音検出装置
101 信号パワー算出部
102 傾き算出部
103 スコア算出部
104 発生区間検出部
111 スコアパラメータ
DESCRIPTION OF
Claims (8)
学習データから時系列に沿って予め求めた特徴値の期待値と、前記特徴値算出手段で算出された、前記音データの信号パワー時系列の特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出手段と、
前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出手段と
を備える
ことを特徴とする音検出装置。 A feature value calculating means for calculating a feature value indicating a feature of the sound data along a time series;
The sound data is evaluated based on the difference between the expected value of the characteristic value obtained in advance from the learning data along the time series and the characteristic value of the signal power time series of the sound data calculated by the characteristic value calculating means. Score calculating means for calculating a score to be performed;
And detecting means for detecting a position of a maximum value and a position of a minimum value of the score, and detecting a specific sound generation section in the sound data based on the position of the maximum value and the position of the minimum value. Sound detection device.
前記極大値が閾値を超える場合に該極大値の位置を前記特定音発生区間の開始位置と判定し、
該開始位置の後に最初に現れる前記極小値の位置を該特定音発生区間の終了位置と判定する
ことを特徴とする請求項1に記載の音検出装置。 The detection means includes
When the maximum value exceeds a threshold, the position of the maximum value is determined as the start position of the specific sound generation section,
The sound detection device according to claim 1, wherein the position of the minimum value that first appears after the start position is determined as the end position of the specific sound generation section.
ことを特徴とする請求項1または請求項2に記載の音検出装置。 The sound detection device according to claim 1, wherein the expected value of the feature value is obtained by using a plurality of sound data of the same type and different sounds as the learning data.
前記特徴値算出手段は、
前記音データの、一部が重複しつつ時系列順に並んだ所定範囲に対して前記特徴値を算出し、
前記スコア算出手段は、
前記音データの複数の所定範囲の特徴値と、前記学習データについて求められた複数の所定範囲の前記期待値とのそれぞれの差分の和に基づき前記スコアを算出する
ことを特徴とする請求項1乃至請求項3の何れか1項に記載の音検出装置。 The expected value of the characteristic value of the signal power time series is obtained for each of a plurality of predetermined ranges arranged in a time series order with some overlapping learning data,
The feature value calculating means includes
The feature value is calculated for a predetermined range arranged in chronological order with a part of the sound data overlapping,
The score calculation means includes
The score is calculated based on a sum of differences between feature values of a plurality of predetermined ranges of the sound data and the expected values of the plurality of predetermined ranges obtained for the learning data. The sound detection device according to any one of claims 3 to 4.
学習データからさらに予め求めた信号パワー時系列の特徴値の分散値を用いて前記差分を正規化して、前記スコアを算出する
ことを特徴とする請求項4に記載の音検出装置。 The score calculation means includes
The sound detection apparatus according to claim 4, wherein the score is calculated by normalizing the difference using a variance value of characteristic values of signal power time series obtained in advance from learning data.
ことを特徴とする請求項1乃至請求項5の何れか1項に記載の音検出装置。 The sound detection apparatus according to claim 1, wherein the feature value is a slope of a signal power time series of sound data.
ことを特徴とする請求項1乃至請求項6の何れか1項に記載の音検出装置。 The delay correction means for correcting a delay generated when the score calculation means calculates the score for the specific sound generation section detected by the detection means. Item 7. The sound detection device according to any one of items 6 to 6.
スコア算出手段が、学習データから時系列に沿って予め求めた特徴値の期待値と、前記特徴値算出ステップで算出された、前記音データの信号パワー時系列の特徴値との差分に基づいて前記音データを評価するスコアを算出するスコア算出ステップと、
前記スコアの極大値の位置と極小値の位置とを検出し、該極大値の位置および極小値の位置に基づき前記音データ中の特定音発生区間を検出する検出ステップと
を備える
ことを特徴とする音検出方法。 A feature value calculating means for calculating a feature value indicating the feature of the sound data along a time series;
The score calculation means is based on the difference between the expected value of the feature value obtained in advance along the time series from the learning data and the feature value of the signal power time series of the sound data calculated in the feature value calculating step. A score calculating step for calculating a score for evaluating the sound data;
Detecting a position of a maximum value and a position of a minimum value of the score, and detecting a specific sound generation section in the sound data based on the position of the maximum value and the position of the minimum value, Sound detection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010277461A JP5652945B2 (en) | 2010-12-13 | 2010-12-13 | Sound detection apparatus and sound detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010277461A JP5652945B2 (en) | 2010-12-13 | 2010-12-13 | Sound detection apparatus and sound detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012127701A true JP2012127701A (en) | 2012-07-05 |
JP5652945B2 JP5652945B2 (en) | 2015-01-14 |
Family
ID=46644928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010277461A Active JP5652945B2 (en) | 2010-12-13 | 2010-12-13 | Sound detection apparatus and sound detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5652945B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016203753A1 (en) * | 2015-06-16 | 2016-12-22 | 日本電気株式会社 | Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium |
JP2017020793A (en) * | 2015-07-07 | 2017-01-26 | 株式会社アニモ | Information processing method and device |
KR20210120508A (en) * | 2020-03-27 | 2021-10-07 | 아이브스 주식회사 | Abnormaly sound recognizing method and apparatus based on artificial intelligence and monitoring system using the same |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09297892A (en) * | 1996-03-08 | 1997-11-18 | Denso Corp | Glass cracking detector |
JP2001314534A (en) * | 2000-05-02 | 2001-11-13 | Kagawa Prefecture | Evaluation test method for golf club |
JP2005044180A (en) * | 2003-07-23 | 2005-02-17 | Secom Co Ltd | Glass damage detection device |
JP2008262120A (en) * | 2007-04-13 | 2008-10-30 | Nippon Hoso Kyokai <Nhk> | Utterance evaluation device and program |
-
2010
- 2010-12-13 JP JP2010277461A patent/JP5652945B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09297892A (en) * | 1996-03-08 | 1997-11-18 | Denso Corp | Glass cracking detector |
JP2001314534A (en) * | 2000-05-02 | 2001-11-13 | Kagawa Prefecture | Evaluation test method for golf club |
JP2005044180A (en) * | 2003-07-23 | 2005-02-17 | Secom Co Ltd | Glass damage detection device |
JP2008262120A (en) * | 2007-04-13 | 2008-10-30 | Nippon Hoso Kyokai <Nhk> | Utterance evaluation device and program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016203753A1 (en) * | 2015-06-16 | 2016-12-22 | 日本電気株式会社 | Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium |
JP2017020793A (en) * | 2015-07-07 | 2017-01-26 | 株式会社アニモ | Information processing method and device |
KR20210120508A (en) * | 2020-03-27 | 2021-10-07 | 아이브스 주식회사 | Abnormaly sound recognizing method and apparatus based on artificial intelligence and monitoring system using the same |
KR102374144B1 (en) * | 2020-03-27 | 2022-03-15 | 아이브스 주식회사 | Abnormaly sound recognizing method and apparatus based on artificial intelligence and monitoring system using the same |
Also Published As
Publication number | Publication date |
---|---|
JP5652945B2 (en) | 2015-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536523B2 (en) | Method and system for identification of speech segments | |
JP5494813B2 (en) | Respiration detection device and respiration detection method | |
US20130331723A1 (en) | Respiration monitoring method and system | |
US20160196175A1 (en) | Information processing system, information processing method, and program | |
JP2016071867A5 (en) | ||
JP2009008823A (en) | Sound recognition device, sound recognition method and sound recognition program | |
JP5652945B2 (en) | Sound detection apparatus and sound detection method | |
JP5388447B2 (en) | Sound signal processing apparatus and sound signal processing method for specifying sound generation period | |
JP2013007578A (en) | Signal detection device, signal detection method and signal detection program | |
US20220276400A1 (en) | Seismic observation device, seismic observation method, and recording medium on which seismic observation program is recorded | |
JP6148150B2 (en) | Acoustic analysis frame reliability calculation device, acoustic model adaptation device, speech recognition device, their program, and acoustic analysis frame reliability calculation method | |
Mahmoud et al. | Elimination of rain-induced nuisance alarms in distributed fiber optic perimeter intrusion detection systems | |
JP6056527B2 (en) | Intruder detection device | |
CN106531193B (en) | A kind of abnormal sound detection method that ambient noise is adaptive and system | |
JP5599064B2 (en) | Sound recognition apparatus and sound recognition method | |
JP2012024527A (en) | Device for determining proficiency level of abdominal breathing | |
CN107548007B (en) | Detection method and device of audio signal acquisition equipment | |
CN108347421B (en) | Malicious mail detection method and system based on content | |
US11439320B2 (en) | Biological-sound analysis device, biological-sound analysis method, program, and storage medium | |
JP2021071332A (en) | Method and system for determining arrival of earthquake motion | |
CN105258791A (en) | Smashed detection method and system applied to ATM | |
US10482897B2 (en) | Biological sound analyzing apparatus, biological sound analyzing method, computer program, and recording medium | |
JP6715529B2 (en) | Body sound analysis device, body sound analysis method, computer program, and recording medium | |
Parpoula et al. | A comparative study of change-point analysis techniques for outbreak detection | |
CN106448700A (en) | High-pitched sound detection method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5652945 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |