JP6726082B2 - Sound determination method and information processing apparatus for crime prevention - Google Patents
Sound determination method and information processing apparatus for crime prevention Download PDFInfo
- Publication number
- JP6726082B2 JP6726082B2 JP2016207756A JP2016207756A JP6726082B2 JP 6726082 B2 JP6726082 B2 JP 6726082B2 JP 2016207756 A JP2016207756 A JP 2016207756A JP 2016207756 A JP2016207756 A JP 2016207756A JP 6726082 B2 JP6726082 B2 JP 6726082B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- parameter value
- sound data
- degree
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000002265 prevention Effects 0.000 title claims description 21
- 230000010365 information processing Effects 0.000 title claims description 15
- 238000004364 calculation method Methods 0.000 claims description 44
- 238000001228 spectrum Methods 0.000 claims description 26
- 239000011521 glass Substances 0.000 claims description 18
- 238000004880 explosion Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 description 30
- 238000013500 data storage Methods 0.000 description 23
- 238000007781 pre-processing Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 206010039740 Screaming Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Burglar Alarm Systems (AREA)
Description
本発明は、防犯に関わる音を検出する技術に関する。 The present invention relates to a technique for detecting a sound related to crime prevention.
従来から、悲鳴を検出するような技術は存在している。具体的には、母音の継続期間を測定することで検出する例や、音声のパワー情報と調波情報と基本周波数とに基づき検出処理を行う例や、2つの帯域における音声の音量により検出を行う例などが知られている。また、パターンマッチングにより、言葉以外の音声や破壊音等を検出するような技術もある。 Conventionally, there is a technique for detecting a scream. Specifically, an example of detection by measuring the duration of a vowel, an example of detection processing based on voice power information, harmonic information, and fundamental frequency, and detection by the volume of voice in two bands are used. Examples of doing it are known. There is also a technique for detecting voices other than words, destructive sounds, and the like by pattern matching.
しかしながら、これらの従来技術では、様々な環境音や会話音声が存在する空間において、悲鳴やその他防犯上識別すべき音の発生を精度良く検出できない。 However, these conventional techniques cannot accurately detect the occurrence of screams and other sounds that should be identified for crime prevention in a space where various environmental sounds and conversational sounds exist.
従って、本発明の目的は、一側面によれば、精度良く、防犯上識別すべき音の発生を検出するための技術を提供することである。 Therefore, an object of the present invention is, according to one aspect, to provide a technique for accurately detecting the occurrence of a sound to be identified for crime prevention.
本発明に係る判定方法は、(A)入力された音データに対して、音データに係る音のスペクトルの変動度合いを表す第1のパラメータ値と、音データに係る音の白色度合いを表す第2のパラメータ値と、音データに係る音における調波構造の度合いを表す第3のパラメータ値とを算出するステップと、(B)第1のパラメータ値と第2のパラメータ値と第3のパラメータ値とに基づき、音データに、防犯上識別すべき所定の音が含まれるか否かを判定するステップとを含む。 The determination method according to the present invention includes: (A) a first parameter value indicating the degree of variation in the spectrum of the sound related to the sound data and the first degree of whiteness of the sound related to the sound data with respect to the input sound data. A step of calculating a second parameter value and a third parameter value indicating a degree of a harmonic structure in the sound related to the sound data; (B) a first parameter value, a second parameter value and a third parameter Determining whether or not the sound data includes a predetermined sound to be identified for crime prevention based on the value.
一側面によれば、精度良く、防犯上識別すべき音の発生を検出できるようになる。 According to one aspect, it is possible to accurately detect the occurrence of a sound that should be identified for crime prevention.
本発明の一実施の形態に係るシステム構成例を図1に示す。 FIG. 1 shows a system configuration example according to an embodiment of the present invention.
実施の形態に係る主要な処理を実行する情報処理装置100には、集音用のマイク1aが接続されている。ここでは、マイク1aから、周辺の音のアナログ信号をディジタル化することで得られた音データが情報処理装置100に入力されるものとする。但し、音のアナログ信号が情報処理装置100に入力されて、情報処理装置100においてディジタル化された音データが生成される場合もある。
A
また、場合によっては、マイク1bが、IoT(Internet of Things)ゲートウェイのような端末装置300に接続されており、当該端末装置300が、インターネット等のコンピュータネットワーク200を介して情報処理装置100に接続される場合もある。この場合、マイク1b又は端末装置300において、音のアナログ信号をディジタル化することで音データが得られて、当該音データは、コンピュータネットワーク200を介して、情報処理装置100に入力される。
In some cases, the
マイク1a又は1bは、警備を行うべきエリアに配置される。情報処理装置100は、警備を行うべきエリアの近隣に設置されることもあれば、遠隔地に設置される場合もある。情報処理装置100は、クラウドなどに設けられる物理的なサーバである場合もあれば、仮想マシンとして実現される場合もある。
The
情報処理装置100は、音データ格納部102と、算出部103と、第2データ格納部104と、判定部105と、出力部106とを有する。
The
音データ格納部102は、マイク1a又は1bからの音データを格納する。算出部103は、本実施の形態において特徴的なパラメータ値を算出する。より具体的には、算出部103は、前処理部1031と、第1データ格納部1032と、第1パラメータ値算出部1033と、第2パラメータ値算出部1034と、第3パラメータ値算出部1035と、第4パラメータ値算出部1036とを有する。
The sound
前処理部1031は、第1乃至第4パラメータ値算出部1033乃至1036共通で用いるデータを生成するための処理を実行し、処理結果を第1データ格納部1032に格納する。なお、第4パラメータ値算出部1036を用いるか否かは任意である。
The preprocessing
第1パラメータ値算出部1033は、音のスペクトルの変動度合いを表す第1パラメータ値を算出する。第2パラメータ値算出部1034は、音の白色度合いを表す第2パラメータ値を算出する。第3パラメータ値算出部1035は、音における調波構造の度合いを表す第3パラメータ値を算出する。第4パラメータ値算出部1036は、音の主要な周波数を表す第4パラメータ値を算出する。第1乃至第4パラメータ値については後に詳しく述べる。
The first parameter
第2データ格納部104は、算出部103によって算出されたパラメータ値を格納する。判定部105は、第2データ格納部104に格納されているパラメータ値に基づき、防犯上識別すべき所定の音が発生したか否かを判定する。出力部106は、判定部105によって防犯上識別すべき所定の音が発生したと判定された場合に、その旨又は検出した音の種類を表す通知を出力する。例えば、警告音又は警告音声メッセージを出力する。又は、情報処理装置100に接続される端末装置又はコンピュータネットワーク200などを介して接続される端末装置のモニターに、警告メッセージを表示する。このような端末装置から、警告音又は警告音声メッセージを出力するようにしても良い。警告音声メッセージ及び警告メッセージは、検出した音の種類についての情報を含む。
The second data storage unit 104 stores the parameter value calculated by the
ここで、本実施の形態で用いられる第1乃至第4パラメータ値について説明しておく。第1パラメータ値は、音のスペクトルの変動度合いを表す指標値であり、例えば、スペクトル包絡の変動を表す値、又はスペクトルの変動を表す値である。具体的計算方法については、処理フローの説明において述べる。 Here, the first to fourth parameter values used in this embodiment will be described. The first parameter value is an index value that represents the degree of variation of the sound spectrum, and is, for example, a value that represents the variation of the spectrum envelope or a value that represents the variation of the spectrum. The specific calculation method will be described in the description of the processing flow.
第2パラメータ値は、音の白色度合いを表す指標値であり、例えば、音データに係る音のスペクトルを確率分布とみなして算出される情報エントロピー(本実施の形態では、スペクトルエントロピーとも呼ぶ)である。具体的計算方法については、処理フローの説明において述べる。 The second parameter value is an index value that represents the degree of whiteness of sound, and is, for example, information entropy (also referred to as spectrum entropy in the present embodiment) calculated by regarding the spectrum of sound related to sound data as a probability distribution. is there. A specific calculation method will be described in the description of the processing flow.
第3パラメータ値は、音データに係る音における調波構造の度合いを表す指標値であり、例えば、音データに係る音のケプストラムにおける所定範囲内の最大値(本実施の形態では、調波構造強度とも呼ぶ)である。具体的計算方法については、処理フローの説明において述べる。 The third parameter value is an index value indicating the degree of the harmonic structure in the sound related to the sound data, and is, for example, the maximum value within a predetermined range in the cepstrum of the sound related to the sound data (in the present embodiment, the harmonic structure. It is also called strength). The specific calculation method will be described in the description of the processing flow.
第4パラメータ値は、音データに係る音の主要な周波数であり、例えば、音データに係る音のスペクトルの重心周波数(本実施の形態では、スペクトル重心とも呼ぶ)である。具体的計算方法については、処理フローの説明において述べる。 The fourth parameter value is the main frequency of the sound related to the sound data, and is, for example, the center-of-gravity frequency of the spectrum of the sound related to the sound data (also referred to as the spectrum center-of-gravity in the present embodiment). The specific calculation method will be described in the description of the processing flow.
一方、本実施の形態において防犯上識別すべき音の種類は、悲鳴、踏みしめると特殊な音が発生する防犯砂利を踏みしめた時の音、ガラス破壊音又は爆発音である。 On the other hand, in the present embodiment, the types of sounds to be identified for crime prevention are screams, sounds when the security gravel is stomped, which produces a special sound when stepped on, glass breaking sound, or explosion sound.
これらの音と、第1乃至第3パラメータ値との関係は、図2に示すような関係となるということが、今回分かった。 It has now been found that the relationship between these sounds and the first to third parameter values is as shown in FIG.
具体的には、悲鳴であれば、第1パラメータ値が「低」、第2パラメータ値が「高」、第3パラメータ値が「高」となる。すなわち、音色の変化が小さく、自然音らしく、調波構造の度合いが高い音の発生を、第1乃至第3パラメータ値で特定できる。 Specifically, if it is a scream, the first parameter value is “low”, the second parameter value is “high”, and the third parameter value is “high”. That is, it is possible to specify the occurrence of a sound having a small change in timbre, a natural sound, and a high degree of harmonic structure by the first to third parameter values.
防犯砂利を踏みしめた時の音は、第1パラメータ値が「低」、第2パラメータ値が「高」、第3パラメータ値が「低」となる。すなわち、音色の変化が小さく、自然音らしく、調波構造の度合いが低い音の発生を、第1乃至第3パラメータ値で特定できる。 With respect to the sound when the security gravel is stepped on, the first parameter value is “low”, the second parameter value is “high”, and the third parameter value is “low”. That is, it is possible to specify the occurrence of a sound with a small change in timbre, a natural sound, and a low degree of harmonic structure by the first to third parameter values.
ガラス破壊音及び爆発音は、第1パラメータ値が「高」、第2パラメータ値が「高」、第3パラメータ値が「低」となる。すなわち、音色の変化が大きく、自然音らしく、調波構造の度合いが低い音の発生を、第1乃至第3パラメータ値で特定できる。 Regarding the glass breaking sound and the explosion sound, the first parameter value is “high”, the second parameter value is “high”, and the third parameter value is “low”. That is, it is possible to specify the occurrence of a sound with a large change in timbre, a natural sound, and a low degree of harmonic structure by the first to third parameter values.
このように、悲鳴、防犯砂利を踏みしめた時の音、ガラス破壊音及び爆発音は、一例であり、上記のような性質の音であれば、検出可能となる。 As described above, the scream, the sound when the security gravel is stepped on, the glass breaking sound, and the explosion sound are examples, and the sounds having the above-described properties can be detected.
なお、ガラス破壊音であれば、音データに係る音の主要な周波数を表す第4パラメータ値が「高」であり、爆発音であれば、第4パラメータ値が「低」である。従って、ガラス破壊音と爆発音とを区別するためには、第4パラメータ値を用いればよい。 In the case of glass breaking sound, the fourth parameter value representing the main frequency of the sound related to the sound data is “high”, and in the case of explosive sound, the fourth parameter value is “low”. Therefore, in order to distinguish the glass breaking sound and the explosion sound, the fourth parameter value may be used.
従って、第1乃至第4パラメータ値の閾値(一般的には範囲を定める値)を、各種音サンプルによる実験などにより定めておけば、判定部105によって、防犯上識別すべき所定の音の発生を検出できるようになる。
Therefore, if the thresholds of the first to fourth parameter values (generally, the values that define the range) are determined by experiments using various sound samples, the
次に、情報処理装置100において実行される具体的な処理について、図3及び図4を用いて説明する。
Next, a specific process executed by the
前処理部1031は、音データ格納部102に格納されている音データのうち、所定期間分の未処理の音データを読み出す(図3:ステップS1)。そして、前処理部1031は、所定の前処理を実行し、処理結果を第1データ格納部1032に格納する(ステップS2)。
The
ステップS2の前処理は、所定期間分の音データに対する窓処理を含む。この窓処理は、例えば、所定期間を複数のサブ期間に分けて、それぞれに対して窓関数を乗ずる処理である。例えば、窓関数にはハニング窓を用いる。窓処理及び窓関数については、例えば、<http://www.ni.com/white-paper/4844/ja/>を参照のこと。 The pre-processing of step S2 includes window processing for sound data for a predetermined period. The window process is, for example, a process of dividing a predetermined period into a plurality of sub periods and multiplying each by a window function. For example, a Hanning window is used for the window function. For window processing and window functions, see <http://www.ni.com/white-paper/4844/ja/>, for example.
さらに、前処理では、サブ期間毎に、窓処理後の音データに対してFFT(Fast Fourier Transform)を実行して、FFT処理結果の複素数の絶対値を算出する。そうすると、各周波数について、値a[i](iは周波数に対応するインデックス値)が得られる。 Further, in the pre-processing, FFT (Fast Fourier Transform) is performed on the sound data after the window processing for each sub period, and the absolute value of the complex number of the FFT processing result is calculated. Then, for each frequency, the value a[i] (i is the index value corresponding to the frequency) is obtained.
そして、第1パラメータ値算出部1033は、第1データ格納部1032に格納されているデータを用いて第1パラメータ値を算出し、第2データ格納部104に格納する(ステップS3)。
Then, the first parameter
第1パラメータ値がスペクトルの変動を表す値であれば、第1パラメータ値算出部1033は、所定期間に含まれる全サブ期間について、i(すなわち周波数)毎にa[i]の分散を算出する。そして、周波数毎に算出された分散を合計することで、スペクトルの変動を表す値が得られる。なお、分散ではなく、標準偏差などのばらつきを表す他の統計量を用いても良い。
If the first parameter value is a value indicating the fluctuation of the spectrum, the first parameter
一方、第1パラメータ値がスペクトル包絡の変動を表す値であれば、第1パラメータ値算出部1033は、各サブ期間について、a[i]の二乗の対数(=log(a[i]2))を算出し、算出された値を信号とみなして逆FFT(Inverse FFT)を実行することでケプストラムを算出する。ケプストラムでは、低次にスペクトル包絡が現れることが知られている。なお、ケプストラムにおいて、周波数に相当するものをケフレンシと呼び、jをそのインデックスとすると、ケプストラムはb[j]と表される。そこで、第1パラメータ値算出部1033は、所定期間に含まれる全サブ期間について、低次の部分(例えば、サンプリング周波数16000Hzのとき8次まで(0次を除く)。)におけるj毎にb[j]の分散を算出する。そして、ケフレンシ毎に算出された分散を合計することで、スペクトル包絡の変動を表す値が得られる。なお、分散ではなく、標準偏差などのばらつきを表す他の統計量を用いても良い。
On the other hand, if the first parameter value is a value representing the variation of the spectral envelope, the first parameter
また、第2パラメータ値算出部1034は、第1データ格納部1032に格納されているデータを用いて第2パラメータ値を算出し、第2データ格納部104に格納する(ステップS5)。
Further, the second parameter
例えば、第2パラメータ値算出部1034は、各サブ期間について、a[i]の総和asum(=a[0]+a[1]+・・・・+a[max])を算出し、a[0]/asum、a[1]/asum、a[2]/asum、...、a[max]/asumをさらに算出する。そして、これらを確率密度とみなした時の情報エントロピーHを算出する。具体的には、以下のように表される。
H=Σmax i=0a[i]/asum*log(a[i]/asum)
For example, the second parameter
H=Σ max i=0 a[i]/asum*log(a[i]/asum)
このようにすれば、サブ期間ごとのスペクトルエントロピーが得られる。そして、サブ期間のスペクトルエントロピーの平均値を算出することで、所定期間のスペクトルエントロピーを算出する。なお、平均値ではなく、中央値その他の統計量を用いるようにしても良い。 In this way, the spectral entropy for each sub period can be obtained. Then, by calculating the average value of the spectral entropy of the sub period, the spectral entropy of the predetermined period is calculated. Note that instead of the average value, a median value or other statistical amount may be used.
さらに、第3パラメータ値算出部1035は、第1データ格納部1032に格納されているデータを用いて第3パラメータ値を算出し、第2データ格納部104に格納する(ステップS7)。
Further, the third parameter
例えば、第3パラメータ値算出部1035は、上で述べたように、サブ期間毎にケプストラムを算出する。ケプストラムでは、高次にスペクトル微細構造が現れることが知られている。従って、例えば悲鳴の基本周波数の範囲に対応するケフレンシの範囲におけるケプストラムの最大値を、サブ期間毎に特定する。なお、ケフレンシの範囲は、例えば周波数であれば70−600Hzに相当する次数の範囲であり、サンプリング周波数16000Hzのとき27次から229次である。このケプストラムの最大値が、各サブ期間の調波構造強度である。そして、サブ期間の調波構造強度の平均値を算出することで、所定期間の調波構造強度を算出する。なお、平均値ではなく、中央値その他の統計量を用いるようにしても良い。
For example, the third parameter
また、第4パラメータ値算出部1036は、第1データ格納部1032に格納されているデータを用いて第4パラメータ値を算出し、第2データ格納部104に格納する(ステップS9)。
Further, the fourth parameter
例えば、第4パラメータ値算出部1036は、以下の算式に従って、インデックスcogを算出する。
cog=(a[0]*0 + a[1]*1 + a[2]*2 + a[3]*3 + ・・・・+ a[max]*max)/asum
For example, the fourth parameter
cog=(a[0]*0 + a[1]*1 + a[2]*2 + a[3]*3 + ・・・・+ a[max]*max)/asum
このインデックスcogが、サブ期間のスペクトル重心となる。よって、サブ期間のスペクトル重心の平均値を算出することで、所定期間のスペクトル重心を算出する。なお、平均値ではなく、中央値その他の統計量であっても良い。 This index cog becomes the spectrum centroid of the sub-period. Therefore, the spectrum centroid of the predetermined period is calculated by calculating the average value of the spectrum centroid of the sub period. It should be noted that instead of the average value, the median value or other statistics may be used.
以上第1乃至第4パラメータ値の算出を説明したが、これらの処理は並列に実行するようにしても良いし、その実行順番は問わない。なお、ケプストラムの計算についても、前処理部1031に実行させるようにしても良い。また、ケプストラムの計算を先に行ったパラメータ算出部が他のパラメータ算出部に処理結果を出力するようにしても良い。
Although the calculation of the first to fourth parameter values has been described above, these processes may be executed in parallel, and the order of execution thereof does not matter. The calculation of the cepstrum may be executed by the
そうすると、判定部105は、第2データ格納部104に格納されている第1乃至第3パラメータ値について予め定められたいずれかの条件に合致するか否かを判定する(ステップS11)。図2に示すような傾向があるので、第1乃至第3パラメータ値について設定された閾値に基づき、悲鳴、防犯砂利を踏みしめた時の音、爆発音又はガラス破壊音のいずれかの条件に合致するか否かを判定する。処理は端子Aを介して図4に移行する。
Then, the
悲鳴の条件を満たしている場合、すなわち第1パラメータ値が「低」範囲に入り、第2パラメータ値が「高」範囲に入り、第3パラメータ値が「高」範囲に入っていれば(ステップS13:Yesルート)、判定部105は、出力部106に、悲鳴を表す通知を出力させる(ステップS15)。悲鳴を表す通知は、警告音でも音声メッセージでも表示メッセージでも他の装置への命令であってもよい。そして処理はステップS31に移行する。
If the scream condition is satisfied, that is, if the first parameter value is in the “low” range, the second parameter value is in the “high” range, and the third parameter value is in the “high” range (step (S13: Yes route), the
一方、悲鳴の条件を満たしていない場合(ステップS13:Noルート)であって、爆発音又はガラス破壊音の条件を満たしている場合、すなわち、第1パラメータ値が「高」範囲に入り、第2パラメータ値が「高」範囲に入り、第3パラメータ値が「低」範囲に入っていれば(ステップS17:Yesルート)、判定部105は、第2データ格納部104に格納されている第4パラメータ値による判定を実行する(ステップS19)。上でも述べたように、爆発音とガラス破壊音を区別するための閾値(一般的には範囲を表す値)に基づき、いずれであるかを判定する。ガラス破壊音であれば(ステップS21:Yesルート)、判定部105は、出力部106に、ガラス破壊音を表す通知を出力させる(ステップS23)。通知はステップS15と同様な態様で行われる。そして処理はステップS31に移行する。
On the other hand, when the condition for screaming is not satisfied (step S13: No route) and the condition for explosive sound or glass breaking sound is satisfied, that is, the first parameter value falls within the “high” range, If the second parameter value is in the “high” range and the third parameter value is in the “low” range (step S17: Yes route), the
一方、ガラス破壊音でなければ(ステップS21:Noルート)、判定部105は、出力部106に、爆発音を表す通知を出力させる(ステップS25)。通知はステップS15と同様な態様で行われる。そして処理はステップS31に移行する。
On the other hand, if it is not the glass breaking sound (step S21: No route), the
また、爆発音又はガラス破壊音の条件を満たしていない場合(ステップS17:Noルート)であって、防犯砂利を踏みしめた時の音の条件を満たしている場合、すなわち、第1パラメータ値が「低」範囲に入り、第2パラメータ値が「高」範囲に入り、第3パラメータ値が「低」範囲に入る場合には(ステップS27:Yesルート)、判定部105は、出力部106に、防犯砂利を踏みしめた時の音を表す通知を出力させる(ステップS29)。通知はステップS15と同様な態様で行われる。そして処理はステップS31に移行する。
Moreover, when the conditions of the explosion sound or the glass breaking sound are not satisfied (step S17: No route), and the conditions of the sound when the security gravel is stepped on are satisfied, that is, the first parameter value is " If the second parameter value falls within the “high” range and the third parameter value falls within the “low” range (step S27: Yes route), the
一方、防犯砂利を踏みしめた時の音の条件を満たさない場合には(ステップS27:Noルート)、防犯上識別すべき所定の音が検出されなかったことになるので、処理はステップS31に移行する。 On the other hand, when the condition of the sound when the security gravel is stepped on is not satisfied (step S27: No route), it means that the predetermined sound to be identified for crime prevention has not been detected, so the process proceeds to step S31. To do.
ステップS31では、例えば管理者などによって処理終了を指示されていないと例えば前処理部1031が判断しなければ(ステップS31:Noルート)、処理は端子Bを介してステップS1に戻る。一方、処理終了が指示されたと判断されれば、処理は終了する。
In step S31, for example, if the
以上のように処理を行えば、防犯上識別すべき所定の音の発生を精度良く検出することができる。 By performing the processing as described above, it is possible to accurately detect the occurrence of a predetermined sound to be identified for crime prevention.
なお、図4の処理フローでは、悲鳴、爆発音又はガラス破壊音、防犯砂利を踏みしめた時の音の順番で判定を行ったが、この判定順番でなくても良い。また、これらの音を区別することを求められないのであれば、いずれかの条件を満たした時点で、防犯上識別すべき所定の音の検出を表す通知を出力するようにしても良い。 In the processing flow of FIG. 4, the judgment is made in the order of the scream, the explosion sound or the glass breaking sound, and the sound when the security gravel is stepped on, but the judgment order is not necessary. Further, if it is not required to distinguish these sounds, a notification indicating detection of a predetermined sound to be identified for crime prevention may be output when any of the conditions is satisfied.
さらに、爆発音とガラス破壊音とを区別することを求められない場合には、第4パラメータ値の算出及びそれに基づく判定を行わなくても良い。 Further, when it is not required to distinguish between the explosion sound and the glass breaking sound, the calculation of the fourth parameter value and the determination based on the fourth parameter value need not be performed.
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図1に示した機能ブロック構成は一例であって、プログラムモジュール構成とは一致しない場合もある。さらに、図3及び図4の処理フローも一例であり、処理結果が変わらない限り処理順番を入れ替えたり、並列実行するようにしてもよい。 Although the embodiment of the present invention has been described above, the present invention is not limited to this. For example, the functional block configuration shown in FIG. 1 is an example and may not match the program module configuration. Furthermore, the processing flows of FIGS. 3 and 4 are also examples, and the processing order may be exchanged or the processes may be executed in parallel as long as the processing result does not change.
また、各パラメータ値について閾値を決定する例を示したが、防犯上識別すべき音の種類毎に値域が決定される場合もある。但し、図2に示すような傾向は保持される。 Further, although an example in which the threshold value is determined for each parameter value has been shown, the range may be determined for each type of sound to be identified for crime prevention. However, the tendency as shown in FIG. 2 is retained.
また、上では閾値等を実験などにより定めて判定部105で判定することを述べたが、例えば、音の種類と上記の3種類又は4種類のパラメータ値との組み合わせを機械学習その他の手法によって学習させて判定部105を構成するようにしても良い。
Further, although it has been described above that thresholds and the like are determined by experiments and the determination is performed by the
なお、上で述べた情報処理装置100は、コンピュータ装置であって、メモリとCPU(Central Processing Unit)とハードディスク・ドライブ(HDD:Hard Disk Drive)と表示装置に接続される表示制御部とリムーバブル・ディスク用のドライブ装置と入力装置とネットワークに接続するための通信制御部とがバスで接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDDに格納されており、CPUにより実行される際にはHDDからメモリに読み出される。CPUは、アプリケーション・プログラムの処理内容に応じて表示制御部、通信制御部、ドライブ装置を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリに格納されるが、HDDに格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスクに格納されて頒布され、ドライブ装置からHDDにインストールされる。インターネットなどのネットワーク及び通信制御部を経由して、HDDにインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU、メモリなどのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The
以上述べた本実施の形態をまとめると以下のようになる。 The present embodiment described above can be summarized as follows.
本実施の形態に係る判定方法は、(A)入力された音データに対して、音データに係る音のスペクトルの変動度合いを表す第1のパラメータ値と、音データに係る音の白色度合いを表す第2のパラメータ値と、音データに係る音における調波構造の度合いを表す第3のパラメータ値とを算出する算出ステップと、(B)第1のパラメータ値と第2のパラメータ値と第3のパラメータ値とに基づき、音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定ステップとを含む。 The determination method according to the present embodiment includes (A) a first parameter value indicating the degree of variation of the spectrum of the sound related to the sound data and the whiteness degree of the sound related to the sound data, with respect to the input sound data. A calculation step of calculating a second parameter value indicating the third parameter value indicating the degree of the harmonic structure in the sound related to the sound data; (B) a first parameter value, a second parameter value, and The determination step of determining whether or not the sound data includes a predetermined sound to be identified for crime prevention based on the parameter value of 3.
このような3種類のパラメータ値を判定指標として用いることによって、防犯上識別すべき所定の音の検出精度が高くなる。 By using such three kinds of parameter values as the determination index, the detection accuracy of the predetermined sound to be identified for crime prevention becomes high.
なお、上で述べた判定ステップにおいて、第1のパラメータ値と第2のパラメータ値と第3のパラメータ値とに基づき、上記音データが、少なくとも悲鳴、防犯砂利を踏みしめた時の音、及びガラスの破壊又は爆発音のいずれを含むか判定するようにしても良い。防犯上識別すべき音の種類を特定しても良いし、種類を特定しないようにしても良い。 In the determination step described above, based on the first parameter value, the second parameter value, and the third parameter value, the sound data is at least a scream, a sound when the security gravel is stepped on, and a glass. It is also possible to determine which of the destruction and the explosion sound is included. The type of sound to be identified for crime prevention may be specified, or the type may not be specified.
また、上で述べた算出ステップが、音データに係る音の主要な周波数を表す第4のパラメータ値を算出するステップを含むようにしても良い。この場合、上で述べた判定ステップが、第4のパラメータ値に基づき、ガラスの破壊音と爆発音とのいずれであるかを判定するステップをさらに含むようにしても良い。 Further, the above-described calculation step may include a step of calculating the fourth parameter value representing the main frequency of the sound related to the sound data. In this case, the determination step described above may further include a step of determining whether the sound is a glass breaking sound or an explosion sound based on the fourth parameter value.
なお、上で述べた第1のパラメータ値が、例えば、音データに係る音のスペクトル包絡の変動を表す値と、音データに係る音のスペクトルの変動を表す値とのいずれかである場合もある。 In the case where the above-mentioned first parameter value is, for example, either a value representing a variation in the spectrum envelope of the sound related to the sound data or a value representing a variation in the spectrum of the sound related to the sound data. is there.
さらに、上で述べた第2のパラメータ値が、例えば、音データに係る音のスペクトルを確率分布とみなして算出される情報エントロピーである場合もある。これは、スペクトルエントロピーとも呼ばれる。 Further, the above-mentioned second parameter value may be the information entropy calculated, for example, by regarding the spectrum of the sound related to the sound data as the probability distribution. This is also called spectral entropy.
さらに、上で述べた第3のパラメータ値が、例えば、音データに係る音のケプストラムにおける所定範囲内の最大値である場合もある。これは、調波構造強度とも呼ばれる。 Further, the third parameter value described above may be the maximum value within a predetermined range in the cepstrum of the sound related to the sound data, for example. This is also called harmonic structure strength.
さらに、上で述べた第4のパラメータ値が、例えば、音データに係る音のスペクトルの重心周波数である場合もある。これは、スペクトル重心とも呼ばれる。 Furthermore, the fourth parameter value described above may be, for example, the centroid frequency of the spectrum of the sound related to the sound data. This is also called the spectral centroid.
なお、上記処理を実行するためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、光ディスク(CD−ROM、DVD−ROMなど)、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。 A program for executing the above processing can be created, and the program can be read by a computer such as a flexible disk, an optical disk (CD-ROM, DVD-ROM, etc.), a magneto-optical disk, a semiconductor memory, a hard disk, etc. Stored in another storage medium or storage device. The intermediate processing result is temporarily stored in a storage device such as a main memory.
100 情報処理装置
102 音データ格納部
103 算出部
104 第2データ格納部
105 判定部
106 出力部
1031 前処理部
1032 第1データ格納部
1033 第1パラメータ値算出部
1034 第2パラメータ値算出部
1035 第3パラメータ値算出部
1036 第4パラメータ値算出部
100
Claims (9)
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定ステップと、
を、コンピュータに実行させるためのプログラム。 With respect to the input sound data, a first parameter value indicating the degree of variation of the sound spectrum related to the sound data, a second parameter value indicating the whiteness degree of the sound related to the sound data, and the sound data. A calculation step of calculating a third parameter value representing the degree of the harmonic structure in the sound according to
A determination step of determining whether or not the sound data includes a predetermined sound to be identified for crime prevention, based on the first parameter value, the second parameter value, and the third parameter value;
A program for causing a computer to execute.
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データが、少なくとも悲鳴、防犯砂利を踏みしめた時の音、及びガラスの破壊又は爆発音のいずれを含むか判定する
請求項1記載のプログラム。 In the determination step,
Based on the first parameter value, the second parameter value, and the third parameter value, the sound data is at least a scream, a sound when the security gravel is stepped on, and a glass break or explosion sound. The program according to claim 1, wherein it is determined whether or not to include.
前記音データに係る音の主要な周波数を表す第4のパラメータ値を算出するステップ
を含み、
前記判定ステップが、
前記第4のパラメータ値に基づき、前記ガラスの破壊音と前記爆発音とのいずれであるかを判定するステップ
をさらに含む請求項2記載のプログラム。 The calculation step is
Calculating a fourth parameter value representing a main frequency of a sound related to the sound data,
The determination step,
The program according to claim 2, further comprising a step of determining whether the sound is the glass breaking sound or the explosion sound based on the fourth parameter value.
請求項1乃至3のいずれか1つ記載のプログラム。 The first parameter value is one of a value representing a variation in a spectrum envelope of a sound related to the sound data and a value representing a variation in a spectrum of a sound related to the sound data. Program described in one.
請求項1乃至4のいずれか1つ記載のプログラム。 The program according to any one of claims 1 to 4, wherein the second parameter value is information entropy calculated by regarding a sound spectrum of the sound data as a probability distribution.
請求項1乃至5のいずれか1つ記載のプログラム。 The program according to claim 1, wherein the third parameter value is a maximum value within a predetermined range in a cepstrum of the sound related to the sound data.
請求項3記載のプログラム。 The program according to claim 3, wherein the fourth parameter value is a centroid frequency of a spectrum of a sound related to the sound data.
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定ステップと、
を含み、コンピュータが実行する判定方法。 With respect to the input sound data, a first parameter value indicating the degree of variation of the sound spectrum related to the sound data, a second parameter value indicating the whiteness degree of the sound related to the sound data, and the sound data. A calculation step of calculating a third parameter value representing the degree of the harmonic structure in the sound according to
A determination step of determining whether or not the sound data includes a predetermined sound to be identified for crime prevention, based on the first parameter value, the second parameter value, and the third parameter value;
And a computer-implemented determination method.
前記第1のパラメータ値と前記第2のパラメータ値と前記第3のパラメータ値とに基づき、前記音データに、防犯上識別すべき所定の音が含まれるか否かを判定する判定部と、
を有する情報処理装置。 With respect to the input sound data, a first parameter value indicating a degree of variation of a sound spectrum related to the sound data, a second parameter value indicating a whiteness degree of the sound related to the sound data, and the sound data. A third parameter value representing the degree of the harmonic structure in the sound according to
A determination unit that determines whether or not the sound data includes a predetermined sound to be identified for crime prevention, based on the first parameter value, the second parameter value, and the third parameter value;
Information processing device having a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207756A JP6726082B2 (en) | 2016-10-24 | 2016-10-24 | Sound determination method and information processing apparatus for crime prevention |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207756A JP6726082B2 (en) | 2016-10-24 | 2016-10-24 | Sound determination method and information processing apparatus for crime prevention |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072878A JP2018072878A (en) | 2018-05-10 |
JP6726082B2 true JP6726082B2 (en) | 2020-07-22 |
Family
ID=62115434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016207756A Active JP6726082B2 (en) | 2016-10-24 | 2016-10-24 | Sound determination method and information processing apparatus for crime prevention |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6726082B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200049189A (en) * | 2018-10-31 | 2020-05-08 | 엘지전자 주식회사 | Home device |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123878A (en) * | 2000-10-16 | 2002-04-26 | Matsushita Electric Ind Co Ltd | Monitoring camera device with sound sensor and monitoring method using it |
US9135797B2 (en) * | 2006-12-28 | 2015-09-15 | International Business Machines Corporation | Audio detection using distributed mobile computing |
JP2011044042A (en) * | 2009-08-21 | 2011-03-03 | Sony Corp | Alarm device, alarm method and alarm program |
JP5377167B2 (en) * | 2009-09-03 | 2013-12-25 | 株式会社レイトロン | Scream detection device and scream detection method |
JP5777568B2 (en) * | 2012-05-22 | 2015-09-09 | 日本電信電話株式会社 | Acoustic feature quantity calculation device and method, specific situation model database creation device, specific element sound model database creation device, situation estimation device, calling suitability notification device, and program |
JPWO2013190973A1 (en) * | 2012-06-20 | 2016-05-26 | 日本電気株式会社 | Structure state determination apparatus and structure state determination method |
JP6425019B2 (en) * | 2014-12-22 | 2018-11-21 | パナソニックIpマネジメント株式会社 | Abnormal sound detection system and abnormal sound detection method |
KR101670801B1 (en) * | 2015-04-07 | 2016-10-31 | 주식회사 에스원 | Abnormal voice detecting method and system |
-
2016
- 2016-10-24 JP JP2016207756A patent/JP6726082B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018072878A (en) | 2018-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kwon et al. | Acoustic-decoy: Detection of adversarial examples through audio modification on speech recognition system | |
US10228994B2 (en) | Information processing system, information processing method, and program | |
JP6306528B2 (en) | Acoustic model learning support device and acoustic model learning support method | |
CN109801646B (en) | Voice endpoint detection method and device based on fusion features | |
CN109346109B (en) | Fundamental frequency extraction method and device | |
CN113707173B (en) | Voice separation method, device, equipment and storage medium based on audio segmentation | |
CN112489682A (en) | Audio processing method and device, electronic equipment and storage medium | |
CN108804498A (en) | A kind of webpage tamper monitoring method and system based on webpage comparison | |
US20180341856A1 (en) | Balancing memory consumption of multiple graphics processing units in deep learning | |
CN114338195A (en) | Web traffic anomaly detection method and device based on improved isolated forest algorithm | |
US10540594B2 (en) | Identifying abnormal pumpjack conditions | |
CN107210029B (en) | Method and apparatus for processing a series of signals for polyphonic note recognition | |
JP6726082B2 (en) | Sound determination method and information processing apparatus for crime prevention | |
CN105336344A (en) | Noise detection method and apparatus thereof | |
JP2019095315A (en) | Noise evaluation device, noise evaluation method, and noise evaluation program | |
JP5282523B2 (en) | Basic frequency extraction method, basic frequency extraction device, and program | |
CN113921017A (en) | Voice identity detection method and device, electronic equipment and storage medium | |
US20200075042A1 (en) | Detection of music segment in audio signal | |
CN116112230B (en) | Method, device, equipment and storage medium for determining ip white list | |
CN112445785B (en) | Account blasting detection method and related device | |
CN111696529A (en) | Audio processing method, audio processing device and readable storage medium | |
CN116741200A (en) | Locomotive fan fault detection method and device | |
US20230206943A1 (en) | Audio recognizing method, apparatus, device, medium and product | |
KR102241436B1 (en) | Learning method and testing method for figuring out and classifying musical instrument used in certain audio, and learning device and testing device using the same | |
CN114184270A (en) | Equipment vibration data processing method, device, equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6726082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |