JP2018072878A - Determination method of sound related to crime prevention and information processing device - Google Patents
Determination method of sound related to crime prevention and information processing device Download PDFInfo
- Publication number
- JP2018072878A JP2018072878A JP2016207756A JP2016207756A JP2018072878A JP 2018072878 A JP2018072878 A JP 2018072878A JP 2016207756 A JP2016207756 A JP 2016207756A JP 2016207756 A JP2016207756 A JP 2016207756A JP 2018072878 A JP2018072878 A JP 2018072878A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- parameter value
- sound data
- degree
- crime prevention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002265 prevention Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000010365 information processing Effects 0.000 title claims description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 40
- 239000011521 glass Substances 0.000 claims description 18
- 238000004880 explosion Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 description 22
- 238000007781 pre-processing Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 206010039740 Screaming Diseases 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Burglar Alarm Systems (AREA)
Abstract
Description
本発明は、防犯に関わる音を検出する技術に関する。 The present invention relates to a technique for detecting sound related to crime prevention.
従来から、悲鳴を検出するような技術は存在している。具体的には、母音の継続期間を測定することで検出する例や、音声のパワー情報と調波情報と基本周波数とに基づき検出処理を行う例や、2つの帯域における音声の音量により検出を行う例などが知られている。また、パターンマッチングにより、言葉以外の音声や破壊音等を検出するような技術もある。 Conventionally, techniques for detecting screams exist. Specifically, examples include detection by measuring the duration of vowels, examples of detection processing based on voice power information, harmonic information, and fundamental frequency, and detection based on voice volume in two bands. Examples of doing this are known. There is also a technique for detecting speech other than words, destructive sounds, and the like by pattern matching.
しかしながら、これらの従来技術では、様々な環境音や会話音声が存在する空間において、悲鳴やその他防犯上識別すべき音の発生を精度良く検出できない。 However, these conventional technologies cannot accurately detect the generation of screams and other sounds that should be identified for crime prevention in a space where various environmental sounds and conversational sounds exist.
従って、本発明の目的は、一側面によれば、精度良く、防犯上識別すべき音の発生を検出するための技術を提供することである。 Therefore, the objective of this invention is providing the technique for detecting generation | occurrence | production of the sound which should be identified on crime prevention accurately according to one side surface.
本発明に係る判定方法は、(A)入力された音データに対して、音データに係る音のスペクトルの変動度合いを表す第1のパラメータ値と、音データに係る音の白色度合いを表す第2のパラメータ値と、音データに係る音における調波構造の度合いを表す第3のパラメータ値とを算出するステップと、(B)第1のパラメータ値と第2のパラメータ値と第3のパラメータ値とに基づき、音データに、防犯上識別すべき所定の音が含まれるか否かを判定するステップとを含む。 In the determination method according to the present invention, (A) a first parameter value representing the degree of variation in the spectrum of the sound related to the sound data, and a whiteness degree of the sound related to the sound data are input to the input sound data. Calculating a second parameter value and a third parameter value representing a degree of the harmonic structure in the sound related to the sound data; (B) a first parameter value, a second parameter value, and a third parameter; Determining whether the sound data includes a predetermined sound to be identified for crime prevention based on the value.
一側面によれば、精度良く、防犯上識別すべき音の発生を検出できるようになる。 According to one aspect, it is possible to accurately detect the generation of a sound to be identified for crime prevention.
本発明の一実施の形態に係るシステム構成例を図1に示す。 A system configuration example according to an embodiment of the present invention is shown in FIG.
実施の形態に係る主要な処理を実行する情報処理装置100には、集音用のマイク1aが接続されている。ここでは、マイク1aから、周辺の音のアナログ信号をディジタル化することで得られた音データが情報処理装置100に入力されるものとする。但し、音のアナログ信号が情報処理装置100に入力されて、情報処理装置100においてディジタル化された音データが生成される場合もある。
A sound collecting microphone 1a is connected to the
また、場合によっては、マイク1bが、IoT(Internet of Things)ゲートウェイのような端末装置300に接続されており、当該端末装置300が、インターネット等のコンピュータネットワーク200を介して情報処理装置100に接続される場合もある。この場合、マイク1b又は端末装置300において、音のアナログ信号をディジタル化することで音データが得られて、当該音データは、コンピュータネットワーク200を介して、情報処理装置100に入力される。
In some cases, the microphone 1b is connected to a
マイク1a又は1bは、警備を行うべきエリアに配置される。情報処理装置100は、警備を行うべきエリアの近隣に設置されることもあれば、遠隔地に設置される場合もある。情報処理装置100は、クラウドなどに設けられる物理的なサーバである場合もあれば、仮想マシンとして実現される場合もある。
The microphone 1a or 1b is arranged in an area to be guarded. The
情報処理装置100は、音データ格納部102と、算出部103と、第2データ格納部104と、判定部105と、出力部106とを有する。
The
音データ格納部102は、マイク1a又は1bからの音データを格納する。算出部103は、本実施の形態において特徴的なパラメータ値を算出する。より具体的には、算出部103は、前処理部1031と、第1データ格納部1032と、第1パラメータ値算出部1033と、第2パラメータ値算出部1034と、第3パラメータ値算出部1035と、第4パラメータ値算出部1036とを有する。
The sound
前処理部1031は、第1乃至第4パラメータ値算出部1033乃至1036共通で用いるデータを生成するための処理を実行し、処理結果を第1データ格納部1032に格納する。なお、第4パラメータ値算出部1036を用いるか否かは任意である。
The
第1パラメータ値算出部1033は、音のスペクトルの変動度合いを表す第1パラメータ値を算出する。第2パラメータ値算出部1034は、音の白色度合いを表す第2パラメータ値を算出する。第3パラメータ値算出部1035は、音における調波構造の度合いを表す第3パラメータ値を算出する。第4パラメータ値算出部1036は、音の主要な周波数を表す第4パラメータ値を算出する。第1乃至第4パラメータ値については後に詳しく述べる。
The first parameter
第2データ格納部104は、算出部103によって算出されたパラメータ値を格納する。判定部105は、第2データ格納部104に格納されているパラメータ値に基づき、防犯上識別すべき所定の音が発生したか否かを判定する。出力部106は、判定部105によって防犯上識別すべき所定の音が発生したと判定された場合に、その旨又は検出した音の種類を表す通知を出力する。例えば、警告音又は警告音声メッセージを出力する。又は、情報処理装置100に接続される端末装置又はコンピュータネットワーク200などを介して接続される端末装置のモニターに、警告メッセージを表示する。このような端末装置から、警告音又は警告音声メッセージを出力するようにしても良い。警告音声メッセージ及び警告メッセージは、検出した音の種類についての情報を含む。
The second
ここで、本実施の形態で用いられる第1乃至第4パラメータ値について説明しておく。第1パラメータ値は、音のスペクトルの変動度合いを表す指標値であり、例えば、スペクトル包絡の変動を表す値、又はスペクトルの変動を表す値である。具体的計算方法については、処理フローの説明において述べる。 Here, the first to fourth parameter values used in the present embodiment will be described. The first parameter value is an index value that represents the degree of fluctuation of the sound spectrum, and is, for example, a value that represents the fluctuation of the spectrum envelope or a value that represents the fluctuation of the spectrum. A specific calculation method will be described in the description of the processing flow.
第2パラメータ値は、音の白色度合いを表す指標値であり、例えば、音データに係る音のスペクトルを確率分布とみなして算出される情報エントロピー(本実施の形態では、スペクトルエントロピーとも呼ぶ)である。具体的計算方法については、処理フローの説明において述べる。 The second parameter value is an index value representing the degree of whiteness of sound, and is, for example, information entropy (also referred to as spectrum entropy in the present embodiment) calculated by regarding the sound spectrum related to sound data as a probability distribution. is there. A specific calculation method will be described in the description of the processing flow.
第3パラメータ値は、音データに係る音における調波構造の度合いを表す指標値であり、例えば、音データに係る音のケプストラムにおける所定範囲内の最大値(本実施の形態では、調波構造強度とも呼ぶ)である。具体的計算方法については、処理フローの説明において述べる。 The third parameter value is an index value representing the degree of the harmonic structure in the sound related to the sound data. For example, the third parameter value is a maximum value within a predetermined range in the sound cepstrum related to the sound data (in this embodiment, the harmonic structure Also called strength). A specific calculation method will be described in the description of the processing flow.
第4パラメータ値は、音データに係る音の主要な周波数であり、例えば、音データに係る音のスペクトルの重心周波数(本実施の形態では、スペクトル重心とも呼ぶ)である。具体的計算方法については、処理フローの説明において述べる。 The fourth parameter value is a main frequency of the sound related to the sound data, and is, for example, a centroid frequency of the spectrum of the sound related to the sound data (also referred to as a spectrum centroid in the present embodiment). A specific calculation method will be described in the description of the processing flow.
一方、本実施の形態において防犯上識別すべき音の種類は、悲鳴、踏みしめると特殊な音が発生する防犯砂利を踏みしめた時の音、ガラス破壊音又は爆発音である。 On the other hand, in the present embodiment, the types of sounds to be identified for crime prevention are screams, sounds when a crime prevention gravel is generated, which produces a special sound when stepped on, glass breaking sounds, or explosion sounds.
これらの音と、第1乃至第3パラメータ値との関係は、図2に示すような関係となるということが、今回分かった。 It has been found this time that the relationship between these sounds and the first to third parameter values is as shown in FIG.
具体的には、悲鳴であれば、第1パラメータ値が「低」、第2パラメータ値が「高」、第3パラメータ値が「高」となる。すなわち、音色の変化が小さく、自然音らしく、調波構造の度合いが高い音の発生を、第1乃至第3パラメータ値で特定できる。 Specifically, if it is a scream, the first parameter value is “low”, the second parameter value is “high”, and the third parameter value is “high”. That is, it is possible to specify the generation of a sound having a small change in timbre, a natural sound, and a high degree of harmonic structure by the first to third parameter values.
防犯砂利を踏みしめた時の音は、第1パラメータ値が「低」、第2パラメータ値が「高」、第3パラメータ値が「低」となる。すなわち、音色の変化が小さく、自然音らしく、調波構造の度合いが低い音の発生を、第1乃至第3パラメータ値で特定できる。 When the crime prevention gravel is stepped on, the first parameter value is “low”, the second parameter value is “high”, and the third parameter value is “low”. That is, it is possible to specify the occurrence of a sound with a small timbre change, a natural sound, and a low degree of harmonic structure by the first to third parameter values.
ガラス破壊音及び爆発音は、第1パラメータ値が「高」、第2パラメータ値が「高」、第3パラメータ値が「低」となる。すなわち、音色の変化が大きく、自然音らしく、調波構造の度合いが低い音の発生を、第1乃至第3パラメータ値で特定できる。 In the glass breaking sound and explosion sound, the first parameter value is “high”, the second parameter value is “high”, and the third parameter value is “low”. That is, the generation of a sound having a large timbre change, a natural sound, and a low degree of harmonic structure can be specified by the first to third parameter values.
このように、悲鳴、防犯砂利を踏みしめた時の音、ガラス破壊音及び爆発音は、一例であり、上記のような性質の音であれば、検出可能となる。 Thus, the scream, the sound when stepping on crime prevention gravel, the glass breaking sound and the explosion sound are examples, and any sound having the above properties can be detected.
なお、ガラス破壊音であれば、音データに係る音の主要な周波数を表す第4パラメータ値が「高」であり、爆発音であれば、第4パラメータ値が「低」である。従って、ガラス破壊音と爆発音とを区別するためには、第4パラメータ値を用いればよい。 If the sound is a glass breaking sound, the fourth parameter value indicating the main frequency of the sound related to the sound data is “high”, and if the sound is explosive, the fourth parameter value is “low”. Therefore, the fourth parameter value may be used to distinguish between the glass breaking sound and the explosion sound.
従って、第1乃至第4パラメータ値の閾値(一般的には範囲を定める値)を、各種音サンプルによる実験などにより定めておけば、判定部105によって、防犯上識別すべき所定の音の発生を検出できるようになる。
Therefore, if the threshold values (generally, the values that determine the range) of the first to fourth parameter values are determined by experiments with various sound samples, the
次に、情報処理装置100において実行される具体的な処理について、図3及び図4を用いて説明する。
Next, specific processing executed in the
前処理部1031は、音データ格納部102に格納されている音データのうち、所定期間分の未処理の音データを読み出す(図3:ステップS1)。そして、前処理部1031は、所定の前処理を実行し、処理結果を第1データ格納部1032に格納する(ステップS2)。
The
ステップS2の前処理は、所定期間分の音データに対する窓処理を含む。この窓処理は、例えば、所定期間を複数のサブ期間に分けて、それぞれに対して窓関数を乗ずる処理である。例えば、窓関数にはハニング窓を用いる。窓処理及び窓関数については、例えば、<http://www.ni.com/white-paper/4844/ja/>を参照のこと。 The preprocessing in step S2 includes window processing for sound data for a predetermined period. This window process is, for example, a process of dividing a predetermined period into a plurality of sub-periods and multiplying each by a window function. For example, a Hanning window is used as the window function. For example, see <http://www.ni.com/white-paper/4844/en/> for window processing and window functions.
さらに、前処理では、サブ期間毎に、窓処理後の音データに対してFFT(Fast Fourier Transform)を実行して、FFT処理結果の複素数の絶対値を算出する。そうすると、各周波数について、値a[i](iは周波数に対応するインデックス値)が得られる。 Further, in the preprocessing, for each sub period, FFT (Fast Fourier Transform) is performed on the sound data after the window processing, and the absolute value of the complex number of the FFT processing result is calculated. Then, a value a [i] (i is an index value corresponding to the frequency) is obtained for each frequency.
そして、第1パラメータ値算出部1033は、第1データ格納部1032に格納されているデータを用いて第1パラメータ値を算出し、第2データ格納部104に格納する(ステップS3)。
Then, the first parameter
第1パラメータ値がスペクトルの変動を表す値であれば、第1パラメータ値算出部1033は、所定期間に含まれる全サブ期間について、i(すなわち周波数)毎にa[i]の分散を算出する。そして、周波数毎に算出された分散を合計することで、スペクトルの変動を表す値が得られる。なお、分散ではなく、標準偏差などのばらつきを表す他の統計量を用いても良い。
If the first parameter value is a value representing the fluctuation of the spectrum, the first parameter
一方、第1パラメータ値がスペクトル包絡の変動を表す値であれば、第1パラメータ値算出部1033は、各サブ期間について、a[i]の二乗の対数(=log(a[i]2))を算出し、算出された値を信号とみなして逆FFT(Inverse FFT)を実行することでケプストラムを算出する。ケプストラムでは、低次にスペクトル包絡が現れることが知られている。なお、ケプストラムにおいて、周波数に相当するものをケフレンシと呼び、jをそのインデックスとすると、ケプストラムはb[j]と表される。そこで、第1パラメータ値算出部1033は、所定期間に含まれる全サブ期間について、低次の部分(例えば、サンプリング周波数16000Hzのとき8次まで(0次を除く)。)におけるj毎にb[j]の分散を算出する。そして、ケフレンシ毎に算出された分散を合計することで、スペクトル包絡の変動を表す値が得られる。なお、分散ではなく、標準偏差などのばらつきを表す他の統計量を用いても良い。
On the other hand, if the first parameter value is a value representing the variation of the spectrum envelope, the first parameter
また、第2パラメータ値算出部1034は、第1データ格納部1032に格納されているデータを用いて第2パラメータ値を算出し、第2データ格納部104に格納する(ステップS5)。
Further, the second parameter
例えば、第2パラメータ値算出部1034は、各サブ期間について、a[i]の総和asum(=a[0]+a[1]+・・・・+a[max])を算出し、a[0]/asum、a[1]/asum、a[2]/asum、...、a[max]/asumをさらに算出する。そして、これらを確率密度とみなした時の情報エントロピーHを算出する。具体的には、以下のように表される。
H=Σmax i=0a[i]/asum*log(a[i]/asum)
For example, the second parameter
H = Σ max i = 0 a [i] / asum * log (a [i] / asum)
このようにすれば、サブ期間ごとのスペクトルエントロピーが得られる。そして、サブ期間のスペクトルエントロピーの平均値を算出することで、所定期間のスペクトルエントロピーを算出する。なお、平均値ではなく、中央値その他の統計量を用いるようにしても良い。 In this way, spectral entropy for each sub-period can be obtained. And the spectrum entropy of a predetermined period is calculated by calculating the average value of the spectrum entropy of a sub period. Note that the median or other statistics may be used instead of the average value.
さらに、第3パラメータ値算出部1035は、第1データ格納部1032に格納されているデータを用いて第3パラメータ値を算出し、第2データ格納部104に格納する(ステップS7)。
Further, the third parameter
例えば、第3パラメータ値算出部1035は、上で述べたように、サブ期間毎にケプストラムを算出する。ケプストラムでは、高次にスペクトル微細構造が現れることが知られている。従って、例えば悲鳴の基本周波数の範囲に対応するケフレンシの範囲におけるケプストラムの最大値を、サブ期間毎に特定する。なお、ケフレンシの範囲は、例えば周波数であれば70−600Hzに相当する次数の範囲であり、サンプリング周波数16000Hzのとき27次から229次である。このケプストラムの最大値が、各サブ期間の調波構造強度である。そして、サブ期間の調波構造強度の平均値を算出することで、所定期間の調波構造強度を算出する。なお、平均値ではなく、中央値その他の統計量を用いるようにしても良い。
For example, the third parameter
また、第4パラメータ値算出部1036は、第1データ格納部1032に格納されているデータを用いて第4パラメータ値を算出し、第2データ格納部104に格納する(ステップS9)。
Further, the fourth parameter
例えば、第4パラメータ値算出部1036は、以下の算式に従って、インデックスcogを算出する。
cog=(a[0]*0 + a[1]*1 + a[2]*2 + a[3]*3 + ・・・・+ a[max]*max)/asum
For example, the fourth parameter
cog = (a [0] * 0 + a [1] * 1 + a [2] * 2 + a [3] * 3 +... + a [max] * max) / asum
このインデックスcogが、サブ期間のスペクトル重心となる。よって、サブ期間のスペクトル重心の平均値を算出することで、所定期間のスペクトル重心を算出する。なお、平均値ではなく、中央値その他の統計量であっても良い。 This index cog is the spectral centroid of the sub-period. Therefore, by calculating the average value of the spectral centroids of the sub-periods, the spectral centroid of the predetermined period is calculated. Note that the median and other statistics may be used instead of the average value.
以上第1乃至第4パラメータ値の算出を説明したが、これらの処理は並列に実行するようにしても良いし、その実行順番は問わない。なお、ケプストラムの計算についても、前処理部1031に実行させるようにしても良い。また、ケプストラムの計算を先に行ったパラメータ算出部が他のパラメータ算出部に処理結果を出力するようにしても良い。
Although the calculation of the first to fourth parameter values has been described above, these processes may be executed in parallel, and the execution order is not limited. The cepstrum calculation may also be executed by the
そうすると、判定部105は、第2データ格納部104に格納されている第1乃至第3パラメータ値について予め定められたいずれかの条件に合致するか否かを判定する(ステップS11)。図2に示すような傾向があるので、第1乃至第3パラメータ値について設定された閾値に基づき、悲鳴、防犯砂利を踏みしめた時の音、爆発音又はガラス破壊音のいずれかの条件に合致するか否かを判定する。処理は端子Aを介して図4に移行する。
Then, the
悲鳴の条件を満たしている場合、すなわち第1パラメータ値が「低」範囲に入り、第2パラメータ値が「高」範囲に入り、第3パラメータ値が「高」範囲に入っていれば(ステップS13:Yesルート)、判定部105は、出力部106に、悲鳴を表す通知を出力させる(ステップS15)。悲鳴を表す通知は、警告音でも音声メッセージでも表示メッセージでも他の装置への命令であってもよい。そして処理はステップS31に移行する。
If the screaming condition is satisfied, that is, if the first parameter value is in the “low” range, the second parameter value is in the “high” range, and the third parameter value is in the “high” range (step S13: Yes route), the
一方、悲鳴の条件を満たしていない場合(ステップS13:Noルート)であって、爆発音又はガラス破壊音の条件を満たしている場合、すなわち、第1パラメータ値が「高」範囲に入り、第2パラメータ値が「高」範囲に入り、第3パラメータ値が「低」範囲に入っていれば(ステップS17:Yesルート)、判定部105は、第2データ格納部104に格納されている第4パラメータ値による判定を実行する(ステップS19)。上でも述べたように、爆発音とガラス破壊音を区別するための閾値(一般的には範囲を表す値)に基づき、いずれであるかを判定する。ガラス破壊音であれば(ステップS21:Yesルート)、判定部105は、出力部106に、ガラス破壊音を表す通知を出力させる(ステップS23)。通知はステップS15と同様な態様で行われる。そして処理はステップS31に移行する。
On the other hand, when the conditions for screaming are not satisfied (step S13: No route) and the conditions for explosion sound or glass breaking sound are satisfied, that is, the first parameter value falls within the “high” range, If the second parameter value falls within the “high” range and the third parameter value falls within the “low” range (step S17: Yes route), the
一方、ガラス破壊音でなければ(ステップS21:Noルート)、判定部105は、出力部106に、爆発音を表す通知を出力させる(ステップS25)。通知はステップS15と同様な態様で行われる。そして処理はステップS31に移行する。
On the other hand, if it is not a glass breaking sound (step S21: No route), the
また、爆発音又はガラス破壊音の条件を満たしていない場合(ステップS17:Noルート)であって、防犯砂利を踏みしめた時の音の条件を満たしている場合、すなわち、第1パラメータ値が「低」範囲に入り、第2パラメータ値が「高」範囲に入り、第3パラメータ値が「低」範囲に入る場合には(ステップS27:Yesルート)、判定部105は、出力部106に、防犯砂利を踏みしめた時の音を表す通知を出力させる(ステップS29)。通知はステップS15と同様な態様で行われる。そして処理はステップS31に移行する。 Further, when the conditions of explosion sound or glass breaking sound are not satisfied (step S17: No route) and the sound conditions when the crime prevention gravel is stepped on, that is, the first parameter value is “ When the second parameter value enters the “high” range and the third parameter value enters the “low” range (step S27: Yes route), the determination unit 105 A notification representing a sound when the crime prevention gravel is stepped on is output (step S29). Notification is performed in the same manner as in step S15. Then, the process proceeds to step S31.
一方、防犯砂利を踏みしめた時の音の条件を満たさない場合には(ステップS27:Noルート)、防犯上識別すべき所定の音が検出されなかったことになるので、処理はステップS31に移行する。 On the other hand, when the sound conditions when the crime prevention gravel is stepped on are not satisfied (step S27: No route), the predetermined sound that should be identified for crime prevention is not detected, so the process proceeds to step S31. To do.
ステップS31では、例えば管理者などによって処理終了を指示されていないと例えば前処理部1031が判断しなければ(ステップS31:Noルート)、処理は端子Bを介してステップS1に戻る。一方、処理終了が指示されたと判断されれば、処理は終了する。
In step S31, for example, if the
以上のように処理を行えば、防犯上識別すべき所定の音の発生を精度良く検出することができる。 By performing the processing as described above, it is possible to accurately detect the occurrence of a predetermined sound to be identified for crime prevention.
なお、図4の処理フローでは、悲鳴、爆発音又はガラス破壊音、防犯砂利を踏みしめた時の音の順番で判定を行ったが、この判定順番でなくても良い。また、これらの音を区別することを求められないのであれば、いずれかの条件を満たした時点で、防犯上識別すべき所定の音の検出を表す通知を出力するようにしても良い。 In the processing flow of FIG. 4, the determination is made in the order of scream, explosion sound or glass breaking sound, and sound when stepping on crime prevention gravel, but this determination order may not be used. If it is not required to distinguish these sounds, a notification indicating detection of a predetermined sound to be identified for crime prevention may be output when any of the conditions is satisfied.
さらに、爆発音とガラス破壊音とを区別することを求められない場合には、第4パラメータ値の算出及びそれに基づく判定を行わなくても良い。 Furthermore, when it is not required to distinguish between explosion sound and glass breaking sound, it is not necessary to calculate the fourth parameter value and make a determination based thereon.
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図1に示した機能ブロック構成は一例であって、プログラムモジュール構成とは一致しない場合もある。さらに、図3及び図4の処理フローも一例であり、処理結果が変わらない限り処理順番を入れ替えたり、並列実行するようにしてもよい。 Although the embodiment of the present invention has been described above, the present invention is not limited to this. For example, the functional block configuration shown in FIG. 1 is an example, and may not match the program module configuration. Furthermore, the processing flows in FIGS. 3 and 4 are also examples, and the processing order may be changed or may be executed in parallel as long as the processing result does not change.
また、各パラメータ値について閾値を決定する例を示したが、防犯上識別すべき音の種類毎に値域が決定される場合もある。但し、図2に示すような傾向は保持される。 Moreover, although the example which determines a threshold value about each parameter value was shown, the value range may be determined for every kind of sound which should be identified for crime prevention. However, the tendency as shown in FIG. 2 is maintained.
また、上では閾値等を実験などにより定めて判定部105で判定することを述べたが、例えば、音の種類と上記の3種類又は4種類のパラメータ値との組み合わせを機械学習その他の手法によって学習させて判定部105を構成するようにしても良い。
Further, in the above description, the threshold value and the like are determined by experiments and the
なお、上で述べた情報処理装置100は、コンピュータ装置であって、メモリとCPU(Central Processing Unit)とハードディスク・ドライブ(HDD:Hard Disk Drive)と表示装置に接続される表示制御部とリムーバブル・ディスク用のドライブ装置と入力装置とネットワークに接続するための通信制御部とがバスで接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDDに格納されており、CPUにより実行される際にはHDDからメモリに読み出される。CPUは、アプリケーション・プログラムの処理内容に応じて表示制御部、通信制御部、ドライブ装置を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリに格納されるが、HDDに格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ドライブ装置からHDDにインストールされる。インターネットなどのネットワーク及び通信制御部を経由して、HDDにインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU、メモリなどのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The
以上述べた本実施の形態をまとめると以下のようになる。 The above-described embodiment can be summarized as follows.
本実施の形態に係る判定方法は、(A)入力された音データに対して、音データに係る音のスペクトルの変動度合いを表す第1のパラメータ値と、音データに係る音の白色度合いを表す第2のパラメータ値と、音データに係る音における調波構造の度合いを表す第3のパラメータ値とを算出する算出ステップと、(B)第1のパラメータ値と第2のパラメータ値と第3のパラメータ値とに基づき、音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定ステップとを含む。 In the determination method according to the present embodiment, (A) the first parameter value representing the degree of fluctuation of the spectrum of the sound related to the sound data and the whiteness level of the sound related to the sound data are input to the input sound data. A calculation step of calculating a second parameter value to be expressed and a third parameter value representing a degree of the harmonic structure in the sound related to the sound data; (B) the first parameter value, the second parameter value, and the second parameter value; And a determination step of determining whether or not the sound data includes a predetermined sound to be identified for crime prevention based on the parameter value of 3.
このような3種類のパラメータ値を判定指標として用いることによって、防犯上識別すべき所定の音の検出精度が高くなる。 By using these three types of parameter values as the determination index, the detection accuracy of a predetermined sound to be identified for crime prevention is increased.
なお、上で述べた判定ステップにおいて、第1のパラメータ値と第2のパラメータ値と第3のパラメータ値とに基づき、上記音データが、少なくとも悲鳴、防犯砂利を踏みしめた時の音、及びガラスの破壊又は爆発音のいずれを含むか判定するようにしても良い。防犯上識別すべき音の種類を特定しても良いし、種類を特定しないようにしても良い。 In the determination step described above, based on the first parameter value, the second parameter value, and the third parameter value, the sound data includes at least a scream, a sound when stepping on crime prevention gravel, and glass It may be determined whether to include destruction or explosion sound. The type of sound that should be identified for crime prevention may be specified, or the type may not be specified.
また、上で述べた算出ステップが、音データに係る音の主要な周波数を表す第4のパラメータ値を算出するステップを含むようにしても良い。この場合、上で述べた判定ステップが、第4のパラメータ値に基づき、ガラスの破壊音と爆発音とのいずれであるかを判定するステップをさらに含むようにしても良い。 Further, the calculation step described above may include a step of calculating a fourth parameter value representing a main frequency of the sound related to the sound data. In this case, the determination step described above may further include a step of determining whether the sound is a glass breaking sound or an explosion sound based on the fourth parameter value.
なお、上で述べた第1のパラメータ値が、例えば、音データに係る音のスペクトル包絡の変動を表す値と、音データに係る音のスペクトルの変動を表す値とのいずれかである場合もある。 Note that the first parameter value described above may be, for example, one of a value representing the fluctuation of the sound spectrum envelope related to the sound data and a value representing the fluctuation of the sound spectrum related to the sound data. is there.
さらに、上で述べた第2のパラメータ値が、例えば、音データに係る音のスペクトルを確率分布とみなして算出される情報エントロピーである場合もある。これは、スペクトルエントロピーとも呼ばれる。 Furthermore, the second parameter value described above may be, for example, information entropy calculated by regarding a sound spectrum related to sound data as a probability distribution. This is also called spectral entropy.
さらに、上で述べた第3のパラメータ値が、例えば、音データに係る音のケプストラムにおける所定範囲内の最大値である場合もある。これは、調波構造強度とも呼ばれる。 Furthermore, the third parameter value described above may be, for example, a maximum value within a predetermined range in a sound cepstrum related to sound data. This is also called harmonic structure strength.
さらに、上で述べた第4のパラメータ値が、例えば、音データに係る音のスペクトルの重心周波数である場合もある。これは、スペクトル重心とも呼ばれる。 Further, the fourth parameter value described above may be, for example, the barycentric frequency of the sound spectrum related to the sound data. This is also called the spectral centroid.
なお、上記処理を実行するためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、光ディスク(CD−ROM、DVD−ROMなど)、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。 A program for executing the above processing can be created, and the program can be read by a computer such as a flexible disk, optical disk (CD-ROM, DVD-ROM, etc.), magneto-optical disk, semiconductor memory, hard disk, etc. Stored in a storage medium or storage device. The intermediate processing result is temporarily stored in a storage device such as a main memory.
100 情報処理装置
102 音データ格納部
103 算出部
104 第2データ格納部
105 判定部
106 出力部
1031 前処理部
1032 第1データ格納部
1033 第1パラメータ値算出部
1034 第2パラメータ値算出部
1035 第3パラメータ値算出部
1036 第4パラメータ値算出部
100
Claims (9)
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定ステップと、
を、コンピュータに実行させるためのプログラム。 For the input sound data, a first parameter value representing a degree of fluctuation of a sound spectrum related to the sound data, a second parameter value representing a sound whiteness degree related to the sound data, and the sound data A calculation step of calculating a third parameter value representing a degree of the harmonic structure in the sound according to
A determination step of determining whether or not the sound data includes a predetermined sound to be identified for crime prevention based on the first parameter value, the second parameter value, and the third parameter value;
A program that causes a computer to execute.
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データが、少なくとも悲鳴、防犯砂利を踏みしめた時の音、及びガラスの破壊又は爆発音のいずれを含むか判定する
請求項1記載のプログラム。 In the determination step,
Based on the first parameter value, the second parameter value, and the third parameter value, the sound data includes at least a scream, a sound when the crime prevention gravel is stepped, and a glass breakage or explosion sound The program according to claim 1, wherein it is determined whether or not it is included.
前記音データに係る音の主要な周波数を表す第4のパラメータ値を算出するステップ
を含み、
前記判定ステップが、
前記第4のパラメータ値に基づき、前記ガラスの破壊音と前記爆発音とのいずれであるかを判定するステップ
をさらに含む請求項2記載のプログラム。 The calculating step comprises:
Calculating a fourth parameter value representing a main frequency of the sound related to the sound data,
The determination step includes
The program according to claim 2, further comprising: determining whether the glass breaking sound or the explosion sound is generated based on the fourth parameter value.
請求項1乃至3のいずれか1つ記載のプログラム。 The first parameter value is any one of a value representing a variation in a sound spectrum envelope associated with the sound data and a value representing a variation in a sound spectrum associated with the sound data. A program according to any one of the above.
請求項1乃至4のいずれか1つ記載のプログラム。 The program according to any one of claims 1 to 4, wherein the second parameter value is information entropy calculated by regarding a sound spectrum related to the sound data as a probability distribution.
請求項1乃至5のいずれか1つ記載のプログラム。 The program according to any one of claims 1 to 5, wherein the third parameter value is a maximum value within a predetermined range in a sound cepstrum related to the sound data.
請求項3記載のプログラム。 The program according to claim 3, wherein the fourth parameter value is a centroid frequency of a spectrum of a sound related to the sound data.
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定ステップと、
を含み、コンピュータが実行する判定方法。 For the input sound data, a first parameter value representing a degree of fluctuation of a sound spectrum related to the sound data, a second parameter value representing a sound whiteness degree related to the sound data, and the sound data A calculation step of calculating a third parameter value representing a degree of the harmonic structure in the sound according to
A determination step of determining whether or not the sound data includes a predetermined sound to be identified for crime prevention based on the first parameter value, the second parameter value, and the third parameter value;
And a determination method executed by a computer.
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定部と、
を有する情報処理装置。 For the input sound data, a first parameter value representing a degree of fluctuation of a sound spectrum related to the sound data, a second parameter value representing a sound whiteness degree related to the sound data, and the sound data A calculation unit for calculating a third parameter value representing a degree of the harmonic structure in the sound according to
A determination unit for determining whether or not the sound data includes a predetermined sound to be identified for crime prevention based on the first parameter value, the second parameter value, and the third parameter value;
An information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207756A JP6726082B2 (en) | 2016-10-24 | 2016-10-24 | Sound determination method and information processing apparatus for crime prevention |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207756A JP6726082B2 (en) | 2016-10-24 | 2016-10-24 | Sound determination method and information processing apparatus for crime prevention |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072878A true JP2018072878A (en) | 2018-05-10 |
JP6726082B2 JP6726082B2 (en) | 2020-07-22 |
Family
ID=62115434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016207756A Active JP6726082B2 (en) | 2016-10-24 | 2016-10-24 | Sound determination method and information processing apparatus for crime prevention |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6726082B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020091441A3 (en) * | 2018-10-31 | 2020-06-25 | 엘지전자 주식회사 | Home appliance |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123878A (en) * | 2000-10-16 | 2002-04-26 | Matsushita Electric Ind Co Ltd | Monitoring camera device with sound sensor and monitoring method using it |
JP2011044042A (en) * | 2009-08-21 | 2011-03-03 | Sony Corp | Alarm device, alarm method and alarm program |
JP2011053557A (en) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | Scream detector and scream detecting method |
JP2013242463A (en) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic feature quantity calculation device and method, specific situation model database preparation device, specific element sound model database preparation device, situation estimation device, call propriety notification device and program |
WO2013190973A1 (en) * | 2012-06-20 | 2013-12-27 | 日本電気株式会社 | State determination device for structure and state determination method for structure |
US20160005305A1 (en) * | 2006-12-28 | 2016-01-07 | International Business Machines Corporation | Audio detection using distributed mobile computing |
JP2016118987A (en) * | 2014-12-22 | 2016-06-30 | パナソニックIpマネジメント株式会社 | Abnormality sound detection system |
KR20160120018A (en) * | 2015-04-07 | 2016-10-17 | 주식회사 에스원 | Abnormal voice detecting method and system |
-
2016
- 2016-10-24 JP JP2016207756A patent/JP6726082B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123878A (en) * | 2000-10-16 | 2002-04-26 | Matsushita Electric Ind Co Ltd | Monitoring camera device with sound sensor and monitoring method using it |
US20160005305A1 (en) * | 2006-12-28 | 2016-01-07 | International Business Machines Corporation | Audio detection using distributed mobile computing |
JP2011044042A (en) * | 2009-08-21 | 2011-03-03 | Sony Corp | Alarm device, alarm method and alarm program |
JP2011053557A (en) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | Scream detector and scream detecting method |
JP2013242463A (en) * | 2012-05-22 | 2013-12-05 | Nippon Telegr & Teleph Corp <Ntt> | Acoustic feature quantity calculation device and method, specific situation model database preparation device, specific element sound model database preparation device, situation estimation device, call propriety notification device and program |
WO2013190973A1 (en) * | 2012-06-20 | 2013-12-27 | 日本電気株式会社 | State determination device for structure and state determination method for structure |
JP2016118987A (en) * | 2014-12-22 | 2016-06-30 | パナソニックIpマネジメント株式会社 | Abnormality sound detection system |
KR20160120018A (en) * | 2015-04-07 | 2016-10-17 | 주식회사 에스원 | Abnormal voice detecting method and system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020091441A3 (en) * | 2018-10-31 | 2020-06-25 | 엘지전자 주식회사 | Home appliance |
Also Published As
Publication number | Publication date |
---|---|
JP6726082B2 (en) | 2020-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087670B (en) | Emotion analysis method, system, server and storage medium | |
CN109801646B (en) | Voice endpoint detection method and device based on fusion features | |
JP6306528B2 (en) | Acoustic model learning support device and acoustic model learning support method | |
Kwon et al. | Acoustic-decoy: Detection of adversarial examples through audio modification on speech recognition system | |
CN109346109B (en) | Fundamental frequency extraction method and device | |
US10586519B2 (en) | Chord estimation method and chord estimation apparatus | |
CN113707173B (en) | Voice separation method, device, equipment and storage medium based on audio segmentation | |
JP2021179590A (en) | Accent detection method, device and non-temporary storage medium | |
US11301355B2 (en) | Method, electronic device, and computer program product for analyzing log file | |
US20180341852A1 (en) | Balancing memory consumption of multiple graphics processing units in deep learning | |
KR20220116395A (en) | Method and apparatus for determining pre-training model, electronic device and storage medium | |
CN111554324A (en) | Intelligent language fluency identification method and device, electronic equipment and storage medium | |
JP6726082B2 (en) | Sound determination method and information processing apparatus for crime prevention | |
US10650803B2 (en) | Mapping between speech signal and transcript | |
JPWO2019043798A1 (en) | Music analysis device and music analysis program | |
US20230206943A1 (en) | Audio recognizing method, apparatus, device, medium and product | |
JP2018169960A (en) | Creation system, creation method, and creation program of linear polynomial model in multilayer neural network (deep learning) | |
KR102241436B1 (en) | Learning method and testing method for figuring out and classifying musical instrument used in certain audio, and learning device and testing device using the same | |
CN112445785A (en) | Account blasting detection method and related device | |
JP2015200685A (en) | Attack position detection program and attack position detection device | |
CN114611504A (en) | User speech and risk user identification method and related device | |
US10810986B2 (en) | Audio analysis method and audio analysis device | |
WO2020007375A1 (en) | Continuous monitoring-based method and device for identifying 1p signal of wind turbine, terminal, and computer readable storage medium | |
CN114205164B (en) | Traffic classification method and device, training method and device, equipment and medium | |
CN117975994B (en) | Quality classification method and device for voice data and computer equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6726082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |