JP2010283676A - Sound detection apparatus, sound detection method and imaging system - Google Patents
Sound detection apparatus, sound detection method and imaging system Download PDFInfo
- Publication number
- JP2010283676A JP2010283676A JP2009136442A JP2009136442A JP2010283676A JP 2010283676 A JP2010283676 A JP 2010283676A JP 2009136442 A JP2009136442 A JP 2009136442A JP 2009136442 A JP2009136442 A JP 2009136442A JP 2010283676 A JP2010283676 A JP 2010283676A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- directionality
- microphone
- voice
- incident angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Alarm Systems (AREA)
- Studio Devices (AREA)
Abstract
Description
本発明は、音声検出装置、音声検出方法及び撮像システムに関する。 The present invention relates to a voice detection device, a voice detection method, and an imaging system.
近時では、セキュリティー用途などの監視装置において、監視カメラの画像を用いた動体検知や、マイクロフォンなどからの音声を用いた異音検知などにより、不審者や侵入者の検出を行うことが想定されている。 Recently, in surveillance devices for security applications, it is assumed that suspicious persons and intruders will be detected by detecting moving objects using images from surveillance cameras and detecting abnormal sounds using sound from microphones. ing.
セキュリティー用途などの監視装置において、音声を用いて不審者等を検知する手法には、収音した音声の音圧等のみを使用した音圧検出や、音声の特徴量を使用した音声検知などがある。これらの手法では、マイクロフォンなどを用いて収音した音声を使用するが、室内の音に基づいて不審者等を検出したい場合に、室外の音がともに検出されてしまい、誤検出が行われる可能性がある。このため、アレイマイクなどにより指向性を持たせて室外の音を減衰させる手法や、定常騒音を除去する手法、室外からの音声の特徴量を学習し除外する手法などが考えられている。 In surveillance devices such as security applications, methods for detecting suspicious individuals, etc. using sound include sound pressure detection using only the sound pressure of the collected sound, and sound detection using sound features. is there. In these methods, sound collected using a microphone or the like is used. However, when it is desired to detect a suspicious person or the like based on indoor sound, both outdoor sounds are detected and erroneous detection can be performed. There is sex. For this reason, a method of attenuating outdoor sound by providing directivity with an array microphone or the like, a method of removing stationary noise, a method of learning and removing a feature amount of sound from outside the room, and the like are considered.
しかしながら、これらの手法は、いずれも室外の音声情報が事前に判っている場合にはある程度有効であるが、室外からの非定常な音声や未知な音声などには全く効果が得られず、本来検出するべきではない室外の騒音を誤検出する可能性が高い。 However, these methods are effective to some extent when outdoor sound information is known in advance, but they are not effective at all for non-stationary or unknown sound from outside. There is a high possibility of false detection of outdoor noise that should not be detected.
例えば、上述したアレイマイクなどで指向性を持たせて室外の音声を減衰させる手法は、検出を目的とする室内の音声の方向に指向性を持たせることで、それ以外の方向からの音声を抑圧するものである。しかしながら、室外からの騒音は指向を向けた方向からも収音される可能性が高く、この手法では誤検出の可能性が高くなる。 For example, the above-described method of attenuating outdoor sound by providing directivity with an array microphone or the like provides directivity in the direction of indoor sound intended for detection, so that sound from other directions can be obtained. It is to suppress. However, there is a high possibility that noise from outside the room is picked up from the direction of directivity, and this method increases the possibility of erroneous detection.
また、定常騒音を除去する手法は、スペクトラルサブトラクションなど定常的な騒音レベルを学習し除去するものであるが、非定常な騒音にはほとんど効果が得られない。 Further, the method for removing stationary noise is to learn and remove stationary noise levels such as spectral subtraction, but it is hardly effective for non-stationary noise.
更に、室外からの音声の特徴量を学習して除外する手法は、室外からの音声の特徴量を予め学習し、収音した音声と特徴量が一致していた場合に室外からの音声とみなすものであるが、予め学習が必要な為、未学習の音声を除去することはできない。このため、室外の音声の特徴量が室内の音声の特徴量と類似している場合、室外の音声を除去することができない問題がある。 Furthermore, the method of learning and excluding the feature amount of the sound from the outside is learned in advance, and the feature amount of the sound from the outside is learned in advance, and if the collected sound matches the feature amount, it is regarded as the sound from the outside. However, since learning is required in advance, unlearned speech cannot be removed. For this reason, when the feature amount of the outdoor sound is similar to the feature amount of the indoor sound, there is a problem that the outdoor sound cannot be removed.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、複数の音源からの音声のうち、必要な音声のみを検出することが可能な、新規かつ改良された音声検出装置、音声検出方法及び撮像システムを提供することにある。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is a novel and improved technique capable of detecting only necessary sound from sounds from a plurality of sound sources. An object of the present invention is to provide a voice detection device, a voice detection method, and an imaging system.
上記課題を解決するために、本発明のある観点によれば、互いに離間して配置された複数のマイクロフォンと、前記マイクロフォンで収音された音声情報の位相差に基づいて、前記マイクロフォンへの音声の入射角を算出する音方向情報算出部と、前記入射角に基づいて、音源から発せられた音声の方向性を判別する音方向性判別部と、前記マイクロフォンで収音された音声情報から、前記方向性が確定していると判断される音声情報のみを検出する音声検出部と、を備える音声検出装置が提供される。 In order to solve the above-described problem, according to an aspect of the present invention, a plurality of microphones that are spaced apart from each other, and a voice to the microphone based on a phase difference between voice information collected by the microphone From the sound direction information calculating unit for calculating the incident angle of the sound, the sound directionality determining unit for determining the directionality of the sound emitted from the sound source based on the incident angle, and the sound information collected by the microphone, There is provided a voice detection device including a voice detection unit that detects only voice information for which it is determined that the directionality is fixed.
また、前記複数のマイクロフォンのそれぞれで収音された音声情報をフーリエ変換などの時間周波数変換するフーリエ変換部を備え、前記音方向情報算出部は、前記フーリエ変換で得られた各周波数の位相差に基づいて各周波数毎に前記入射角を算出し、音方向性判別部は、前記各周波数毎に前記方向性を判別し、前記音声検出部は、前記マイクロフォンで収音された音声情報について、方向性が確定していると判断される周波数の音声情報のみを検出するものであってもよい。 The sound information collected by each of the plurality of microphones includes a Fourier transform unit that performs time-frequency transform such as Fourier transform, and the sound direction information calculation unit includes a phase difference of each frequency obtained by the Fourier transform. The incident angle is calculated for each frequency based on the sound direction, the sound direction determination unit determines the directionality for each frequency, the sound detection unit for the sound information collected by the microphone, Only the audio information of the frequency for which it is determined that the directionality is fixed may be detected.
また、前記音方向性判別部は、特定の周波数の音声について、前記入射角の時間的な変化に基づいて、前記方向性が確定しているか否かを判別するものであってもよい。 The sound directionality determination unit may determine whether or not the directionality is determined based on a temporal change in the incident angle for a sound having a specific frequency.
また、前記音方向性判別部は、複数の周波数の音声について、入射角の一致度に基づいて前記方向性が確定しているか否かを判別するものであってもよい。 The sound directionality determination unit may determine whether or not the directionality is determined based on the degree of coincidence of incident angles for a plurality of frequencies of sound.
また、上記課題を解決するために、本発明の別の観点によれば、互いに離間して配置された複数のマイクロフォンで収音された音声情報の位相差に基づいて、前記マイクロフォンへの音声の入射角を算出する音方向情報算出ステップと、前記入射角に基づいて、音源から発せられた音声の方向性を判別する音方向性判別ステップと、前記マイクロフォンで収音された音声情報から、前記方向性が確定していると判断される音声情報のみを検出する音声検出ステップと、を備える音声検出方法が提供される。 In order to solve the above-described problem, according to another aspect of the present invention, based on the phase difference of audio information collected by a plurality of microphones arranged apart from each other, the audio to the microphone is From the sound direction information calculating step for calculating the incident angle, the sound direction determining step for determining the directionality of the sound emitted from the sound source based on the incident angle, and the sound information collected by the microphone, There is provided a voice detection method including a voice detection step of detecting only voice information for which directionality is determined to be determined.
また、前記複数のマイクロフォンのそれぞれで収音された音声情報をフーリエ変換するステップを備え、前記音方向情報算出ステップにおいて、前記フーリエ変換で得られた各周波数の位相差に基づいて各周波数毎に前記入射角を算出し、音方向性判別ステップにおいて、前記各周波数毎に前記方向性を判別し、前記音声検出ステップにおいて、前記マイクロフォンで収音された音声情報について、方向性が確定していると判断される周波数の音声情報のみを検出するものであってもよい。 The sound information collected by each of the plurality of microphones includes a step of Fourier transform, and in the sound direction information calculation step, for each frequency based on a phase difference of each frequency obtained by the Fourier transform The incident angle is calculated, the directionality is determined for each frequency in the sound direction determination step, and the directionality is determined for the sound information collected by the microphone in the sound detection step. Only audio information having a frequency determined to be detected may be detected.
また、前記音方向性判別ステップにおいて、特定の周波数の音声について、前記入射角の時間的な変化に基づいて、前記方向性が確定しているか否かを判別するものであってもよい。 In the sound direction determination step, it may be determined whether or not the directionality is determined based on a temporal change in the incident angle for a sound having a specific frequency.
また、前記音方向性判別ステップにおいて、複数の周波数の音声について、入射角の一致度に基づいて前記方向性が確定しているか否かを判別するものであってもよい。 Further, in the sound directionality determining step, it may be determined whether or not the directionality is determined based on the degree of coincidence of incident angles for a plurality of frequencies of sound.
また、上記課題を解決するために、本発明の別の観点によれば、互いに離間して配置された複数のマイクロフォンと、前記マイクロフォンで収音された音声情報の位相差に基づいて、前記マイクロフォンへの音声の入射角を算出する音方向情報算出部と、前記入射角に基づいて、音源から発せられた音声の方向性を判別する音方向性判別部と、前記マイクロフォンで収音された音声情報から、前記方向性が確定していると判断される音声情報のみを検出する音声検出部と、前記音声検出部による検出結果に基づいて、撮影方向を変更するトラッキングカメラと、を備える撮像システムが提供される。 In order to solve the above-described problem, according to another aspect of the present invention, a plurality of microphones arranged apart from each other and a microphone based on a phase difference between sound information collected by the microphone. A sound direction information calculating unit for calculating the incident angle of the sound to the sound, a sound direction determining unit for determining the direction of the sound emitted from the sound source based on the incident angle, and the sound collected by the microphone An imaging system comprising: a voice detection unit that detects only voice information for which the directionality is determined from information; and a tracking camera that changes a shooting direction based on a detection result by the voice detection unit. Is provided.
本発明によれば、複数の音源からの音声のうち、必要な音声のみを検出することが可能な、音声検出装置、音声検出方法及び撮像システムを提供することが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to provide the audio | voice detection apparatus, the audio | voice detection method, and imaging system which can detect only the required audio | voice among the audio | voices from a several sound source.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。なお、説明は以下の順序で行うものとする。
1.第1の実施の形態
(1)音声監視装置の構成例
(2)音声監視装置で行われる処理
2.第2の実施の形態
(1)撮像システムの構成例
Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol. The description will be made in the following order.
1. 1. First Embodiment (1) Configuration Example of Voice Monitoring Device (2) Processing Performed by Voice Monitoring Device Second Embodiment (1) Configuration Example of Imaging System
<1.第1の実施形態>
(1)音声監視装置の構成例
まず、図1を参照して、本発明の第1の実施形態に係る音声監視装置100の概略構成について説明する。図1に示すように、本実施形態に係る音声監視装置100は、マイクモジュール110、音声検出器120、音方向性判別器130、を備える。
<1. First Embodiment>
(1) Configuration Example of Voice Monitoring Device First, a schematic configuration of the
図1に示すように、音声監視装置100は室内に配置されている。また、図1に示すように、室内には室内音源があり、室内に対して壁で隔てられた室外には室外音源がある。ここで、室内音源とは、例えば室内に侵入した不審者による音源である。また、室外音源とは、例えば、室内に対して壁、天井、床面などによって隔てられた室外を通行する人、車両、機器等を発生源とする音源である。マイクモジュール110は、複数のマイクロフォンを備えており、室内音源と室外音源の双方の音声を収音することができる。
As shown in FIG. 1, the
室内音源で発生した音声と室外音源で発生した音声の相違点の1つとして、直接音の有無が挙げられる。音声監視装置100が配置された室内の音源で発生した音声は、直接音であり、収音用のマイクモジュール110にほぼ直接入ることが多い。一方、室外の音源からの音声は、必ず壁、天井、床などを通過するため、間接音がほとんどであり、マイクモジュール110に直接入る成分は無い。このため、通常使用する無指向性マイクや、アレイマイクを含む指向性マイクで収音したモノラルの音声のみでは、音源の方向情報を得ることができない。このため、室外からの音を判別するのは非常に困難になっている。
One of the differences between the sound generated by the indoor sound source and the sound generated by the outdoor sound source is the presence or absence of direct sound. The sound generated by the sound source in the room where the
また、室内音源、室外音源からは、異なる複数の周波数の音声が発生するが、各周波数ごとの音声がマイクモジュール110に入射する際の入射角は、室外からの音声か室内からの音声かによって、以下のように特徴に相違点がある。第1の相違点は、1つの周波数に着目した場合の時間経過による入射角の変化であり、室内音源では一定の角度に安定するが、室外音源では角度が安定しない。第2の相違点は、周波数毎に入射角を比較した場合、室内音源では入射角が各周波数で一致する可能性が高いが、室外音源では入射角が周波数毎にバラバラになり易い。
In addition, sound from a plurality of different frequencies is generated from the indoor sound source and the outdoor sound source, but the incident angle when sound for each frequency is incident on the
図1の例では、室内音源からの音声は音源からマイクモジュール110へ一方向に直接的に伝達される。一方、室外音源からの音声は、先ず壁に伝わり、壁に沿って伝わるため、壁の広い範囲からマイクモジュール110に伝わる。従って、室外音源からの音声は方向性が失われており、多方向から間接的にマイクモジュール102へ伝わる。
In the example of FIG. 1, the sound from the indoor sound source is directly transmitted from the sound source to the
本実施形態では、以上のような室内音源と室外音源の音声の相違に基づいて、第1及び第2の相違点による特徴に基づいて、収音された音声の方向性を求め、室外からの音声であるか室内からの音声であるかを判別することとしている。図2は、音源の方向を検知する手法を示す模式図である。マイクモジュールは、図2に示すように、マイクロフォン(マイク)A、マイクロフォン(マイク)Bを備えている。空間上にマイクA、マイクB、及び音源が配置されており、マイクAとマイクBを結ぶ直線に対し、マイクAおよびマイクBに入ってくる音源からの音の入射角をθとする。 In this embodiment, based on the difference between the sound of the indoor sound source and the outdoor sound source as described above, the directionality of the collected sound is obtained based on the characteristics of the first and second differences, It is determined whether the sound is from the room or from the room. FIG. 2 is a schematic diagram showing a method for detecting the direction of the sound source. As shown in FIG. 2, the microphone module includes a microphone (microphone) A and a microphone (microphone) B. The microphone A, the microphone B, and the sound source are arranged in the space, and the incident angle of the sound from the sound source entering the microphone A and the microphone B with respect to the straight line connecting the microphone A and the microphone B is θ.
マイクAとマイクBとの間隔をDとすると、2つのマイクA,B間の音の到達距離差dは、以下の(1)式から求めることができる。
d=Dcosθ ・・・(1)
また、各周波数ごとの位相差φ(f)は、音速をSとすると、以下の(2)式で表すことができる。
φ(f)=2πfd/S ・・・(2)
従って、マイクAとマイクBで取得された各周波数fの音声について、各周波数fの位相差から、各周波数f毎に入射角θを求めることが可能である。
If the distance between the microphones A and B is D, the sound arrival distance difference d between the two microphones A and B can be obtained from the following equation (1).
d = D cos θ (1)
The phase difference φ (f) for each frequency can be expressed by the following equation (2), where S is the sound speed.
φ (f) = 2πfd / S (2)
Accordingly, for the sound of each frequency f acquired by the microphone A and the microphone B, the incident angle θ can be obtained for each frequency f from the phase difference of each frequency f.
入射角θの算出は、音源から発生した各周波数の音声情報に対して行う。音声監視装置100では、マイクモジュール110において、マイクA,Bで収音した音声情報をFFTでフーリエ変換し、周波数毎に音圧(パワー)と位相を検出する。そして、音方向性判別器130は、各周波数毎に、マイクAの音声の位相とマイクBの音声の位相との間の位相差φ(f)を算出し、(1)式、(2)式から入射角θを求める。
Calculation of the incident angle θ is performed on audio information of each frequency generated from the sound source. In the
音方向性判別器130は、求めた各周波数毎の入射角θから、音源の方向性を判別する。具体的には、音方向性判別器130は、収音した音声が室内音源からのものであるか、室外音源からのものであるかを判別し、その結果情報(尤度)を音声検出器120に出力する。
The
音声検出器120には、マイクモジュール110から、収音した音声情報をフーリエ変換した結果の音声情報が送られる。音声検出器120は、音方向性判別器130から送られた音方向性判別結果情報に基づいて、音源が室内であると判断された周波数の音声を検出結果として出力し、音源が室外であると判断された周波数の音声を削除する。
The
次に、図3に基づいて、音声監視装置100で行われる処理についてより詳細に説明する。図3は、図2の音声監視装置100の構成をより詳細に示した模式図である。図3に示すように、マイクモジュール110は、マイク(A)112A、マイク(B)112B、フーリエ変換器(FFT)114A、フーリエ変換器(FFT)114B、音圧・位相情報分離部116を備える。マイク(A)112A、マイク(B)112Bは、室内音源、室外音源からの音声を収音する。
Next, the process performed by the
マイク(A)112Aの出力はフーリエ変換器(FFT)114Aへ送られる。フーリエ変換器(FFT)114Aは、入力された音声情報を周波数軸にフーリエ変換し、各周波数fについて出力XA(f)を出力する。また、マイク(B)112Bの出力はフーリエ変換器(FFT)114Bへ送られる。フーリエ変換器(FFT)114Bは、入力された音声情報を周波数軸にフーリエ変換し、各周波数fについて出力XB(f)を出力する。ここで、フーリエ変換によって算出されたXA(f),XB(f)は、XA(f)=PA(f)+φA(f)・i、XB(f)=PB(f)+φB(f)・iとして表される(iは複素数)。PA(f),PB(f)は音圧(パワー)、φA(f),φB(f)は位相である。 The output of the microphone (A) 112A is sent to a Fourier transformer (FFT) 114A. The Fourier transformer (FFT) 114A Fourier-transforms the input audio information on the frequency axis, and outputs an output X A (f) for each frequency f. The output of the microphone (B) 112B is sent to the Fourier transformer (FFT) 114B. Fourier transformer (FFT) 114B is Fourier transformed into a frequency axis audio information, and outputs the output X B (f) for each frequency f. Here, X A (f) and X B (f) calculated by Fourier transform are X A (f) = P A (f) + φ A (f) · i, X B (f) = P B ( f) + φ B (f) · expressed as i (i is a complex number). P A (f) and P B (f) are sound pressures (power), and φ A (f) and φ B (f) are phases.
フーリエ変換器114A,114Bの出力は、音圧・位相情報分離部116へ入力され、音圧と位相が分離される。音圧PA(f),PB(f)は音声検出器120へ出力され、位相φA(f),φB(f)は音方向性判別器134へ入力される。
The outputs of the
音方向性判別器134は、音方向情報算出部132と音方向性算出部134とから構成される。音方向情報算出部132は、各周波数についてφ(f)=φA(f)−φB(f)の演算を行い、マイク(A)112Aとマイク(B)112Bで収音された音声の位相差φ(f)を算出する。そして、音方向情報算出部132は、(1)式、(2)式から、周波数毎に入射角θ(f)を算出する。
The
周波数毎の入射角θ(f)の情報は、音方向性判別部134へ入力される。音方向性判別部134では、周波数毎の入射角θ(f)に基づいて、音源から発生した音声の方向性を判別し、各周波数の音声が室内音源を発生源とするものであるか否かを判別する。
Information on the incident angle θ (f) for each frequency is input to the sound
具体的には、音方向性判別部134は、個々の周波数の入射角θ(f)についてある一定期間Tの間の変動を求め、変動が大きい場合、その周波数の音声は室外音源を発生源とするものであると判別する。一方、音方向性判別部134は、入射角θ(f)の変動が小さい場合、その周波数の音声は室内音源を発生源とするものであると判別する。
More specifically, the sound
また、音方向性判別部134は、各周波数の入射角θ(f)が一致しているか否かを求め、入射角θ(f)が一致しているか、または所定範囲内である周波数の音声については、室内音源を発生源とするものであると判別する。一方、各周波数の入射角θ(f)が一致していない場合、または各周波数の入射角θ(f)が所定範囲内ではない場合、それらの周波数の音声については、室外音源を発生源とするものであると判別する。例えば、検出された複数の周波数f1,f2,f3,f4,f5の音声のうち、f1,f2,f3については入射角が30°で一致しており、f4の入射角が40°であり、f5の入射角が50°であったとする。この場合、周波数f1,f2,f3の音声については、室内音源を発生源とするものと判別し、周波数f4,f4の音声については、室外音源を発生源とするものと判別する。また、複数の周波数f1〜f8のうち、f1,f2,f3については入射角が30°で一致しており、f4の入射角が40°であり、f5の入射角が50°であり、f6,f7,f8については入射角が60°で一致していたものとする。この場合、周波数f1,f2,f3を室内音源と判別するとともに、周波数f6,f7,f8も室内音源と判別し、周波数f4,f4については室外音源と判別する。この場合、室内には、入射角30°の音源と、入射角60°の音源の2つがあるものと判別する。
In addition, the sound
このように、音方向性判別部134では、1つの周波数に着目した場合の時間経過による入射角θの変化、または周波数毎に入射角を比較した場合の入射角θの変化、のいずれかが基準値よりも大きい場合は、音源が室外であると判定する。
As described above, the sound
音方向性判別器130による判別結果は、音方向性情報として音声検出器120へ出力される。音方向性情報は、各周波数の音声について、室内音源を発生源とすることの確からしさ(尤度0〜1)として表される。ある周波数について尤度が1に近いほど、その周波数の音声が室内音源を発生源とする確からしさが高くなる。上述の例において、5つの周波数f1,f2,f3,f4,f5の音声のうち、f1,f2,f3については入射角が30°で一致しており、f4の入射角が40°であり、f5の入射角が50°であった場合、f1,f2,f3の音声は尤度が1に近くなる。一方、周波数f4,f5の音声については、尤度が0に近くなる。
The discrimination result by the
音声検出器120は、マイクモジュール110から入力された音圧情報について、音方向性判別器130から入力された尤度に基づいて、音声の検出を行う。この際、尤度の高い周波数については、音方向性判別器130から入力された音圧PA(f),PB(f)をそのまま出力し、尤度の低い周波数については、尤度に応じて音圧PA(f),PB(f)を減少させるか、または除外する。これにより、音声検出器120からは、室内音源を発生源とする音声のみが出力される。音声検出器120から出力する検出結果には、音方向性判別器130から送られた音方向情報(入射角θ)、音方向性判別結果が含まれていても良い。
The
(2)音声監視装置で行われる処理
次に、図4のフローチャートに基づいて、本実施形態の音声監視装置100で行われる処理手順について説明する。先ず、ステップS10では、マイクモジュール110によって、室外および室内の音声の収音を行う。次のステップS12では、ステップS10で収音した音声から各周波数毎の音方向情報(入射角θ)を抽出し、音方向性判別部134に音方向情報を出力する。
(2) Processing Performed by Voice Monitoring Device Next, processing procedures performed by the
次のステップS14では、ステップS10で収音した音声から音声情報(音圧)を抽出し、音声検出器120にこの音声情報を出力する。次のステップS16では、音方向性判別部134によってステップS12で求めた音方向情報(入射角θ)から音方向性(尤度)を決定し、音声検出器120に音方向性の情報を出力する。
In the next step S14, voice information (sound pressure) is extracted from the voice collected in step S10, and this voice information is output to the
次のステップS18では、音声検出器120によってステップS14とステップS16で求めた音声情報及び音方向性情報を用いて音声検出を行う。ここでは、音方向性情報に基づいて、室外音源と判断された音声情報が除外され、室内音源の音声のみが検出される。ステップS20では、音声検出器120の検出結果を出力する。
In the next step S18, voice detection is performed by the
上述したように、音方向情報の抽出は、マイクモジュール110が備える複数のマイクA,Bで収音した音声について、各周波数毎に音源からの音声の入射角θを求めることにより行う。音方向性判別は、音方向情報を元に、各周波数毎の入射角θの安定性や、複数周波数の入射角θの一致性などを総合的に判断して決定する。
As described above, the sound direction information is extracted by obtaining the incident angle θ of the sound from the sound source for each frequency for the sound collected by the plurality of microphones A and B included in the
以上説明したように第1の実施形態によれば、各周波数毎に入射角θを求め、入射角θの一致性に基づいて音声が室内を発生源とするものであるか否かを判別することが可能となる。従って、室外からの音が比較的大きい場合や、室外の音声と室内の音声の特徴量が似ている場合などにおいても、室外からの音と室内の音の区別を容易且つ確実に行うことが可能となり、室外からの音の誤検出を確実に抑止することができる。従って、室内音のみに基づいて、例えば室内への不審者等の侵入を確実に検出することが可能となる。 As described above, according to the first embodiment, the incident angle θ is obtained for each frequency, and it is determined whether the sound is generated from the room based on the coincidence of the incident angles θ. It becomes possible. Therefore, even when the outdoor sound is relatively loud, or when the outdoor sound and the indoor sound feature amount are similar, it is possible to easily and reliably distinguish the outdoor sound from the indoor sound. It becomes possible, and the erroneous detection of the sound from the outside can be surely suppressed. Therefore, for example, it is possible to reliably detect intrusion of a suspicious person or the like into the room based only on the room sound.
<2.第2の実施形態>
(1)撮像システムの構成例
次に、本発明の第2の実施形態について説明する。図5は、第2の実施形態に係る撮像システム200を示す模式図である。撮像システム200は、音声検出結果に基づいて撮影方向を換えるトラッキングカメラ210を備えている。また、撮像システム200は、第1の実施形態の音声監視装置100と同様に、音声検出器120、音方向性判別器130を備えている。
<2. Second Embodiment>
(1) Configuration Example of Imaging System Next, a second embodiment of the present invention will be described. FIG. 5 is a schematic diagram illustrating an
トラッキングカメラ210は、撮影光学系、撮影光学系で結像された被写体像を光電変換する撮像素子、及び撮像光学系の光軸の向きを変更して撮影方向を変更する駆動部を備えている。また、トラッキングカメラ210は、第1の実施形態のマイクモジュール110と同様に複数のマイクを備えている。複数のマイクで収音された音声情報は、第1の実施形態と同様に、音圧情報と位相情報に分離されて、音声検出器120と音方向性判別器130へ入力される。そして、第1の実施形態と同様の手法により音声検出器120から検出結果が出力される。
The tracking
第2の実施形態では、音声検出器120の検出結果はトラッキングカメラ210に入力される。ここで、音声検出器120から出力された検出結果には、音方向性判別器130から送られた音方向情報(入射角θ)、音方向性判別結果が含まれている。トラッキングカメラ210は、検出結果の入力に基づいて駆動部を駆動し、室内で音声を発信している話者に向けて撮影レンズを向けて話者を撮影する。
In the second embodiment, the detection result of the
第2の実施形態においても、室外の人の音声は、音声検出器120によって除外される。トラッキングカメラ210は、室内を音源とする音声情報(音圧)、室内音源の音方向情報(入射角θ)、及び音方向性に基づいて、撮影方向を決定する。従って、トラッキングカメラ210の撮影方向が室外音源に向いてしまうことが抑止され、トラッキングカメラ210の撮影方向を室内の話者のみに向けることが可能となる。
Also in the second embodiment, the voice of the outdoor person is excluded by the
従って、例えばテレビ会議を行う場合などにおいて、会議室の外に音源がある場合であっても、トラッキングカメラ210の撮影方向を室内の音源(話者)のみに向けることができる。
Therefore, for example, in the case of a video conference, even when the sound source is outside the conference room, the shooting direction of the tracking
以上説明したように第2の実施形態によれば、トラッキングカメラ210を備えた撮像システム200において、室内音源のみに基づいてトラッキングカメラ210の撮影方向を決定することが可能となる。従って、テレビ会議を行う場合などにおいて、トラッキングカメラ210の撮影方向が室外の音源に向いてしまうことを確実に抑止することが可能となる。
As described above, according to the second embodiment, in the
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。例えば、上述した各実施形態では、室外音源と室内音源の判別に本発明を適用したが、本発明は音源の方向性を判別して必要な音声のみを抽出する場合等に広く適用できる。 The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention. For example, in each of the above-described embodiments, the present invention is applied to the discrimination between the outdoor sound source and the indoor sound source. However, the present invention can be widely applied to the case where only the necessary sound is extracted by determining the direction of the sound source.
100 音声監視装置
110 マイクモジュール
112A,112B マイクロフォン
120 音声検出器
132 音方向情報算出部
134 音方向性判別部
114A,114B フーリエ変換器(FFT)
200 撮像システム
210 トラッキングカメラ
DESCRIPTION OF
200
Claims (9)
前記マイクロフォンで収音された音声情報の位相差に基づいて、前記マイクロフォンへの音声の入射角を算出する音方向情報算出部と、
前記入射角に基づいて、音源から発せられた音声の方向性を判別する音方向性判別部と、
前記マイクロフォンで収音された音声情報から、前記方向性が確定していると判断される音声情報のみを検出する音声検出部と、
を備える音声検出装置。 A plurality of microphones spaced apart from each other;
A sound direction information calculation unit that calculates an incident angle of sound to the microphone based on a phase difference of sound information collected by the microphone;
A sound directionality determining unit that determines the directionality of the sound emitted from the sound source based on the incident angle;
A voice detection unit that detects only voice information in which the directionality is determined from voice information collected by the microphone;
A voice detection device comprising:
前記音方向情報算出部は、前記フーリエ変換で得られた各周波数の位相差に基づいて各周波数毎に前記入射角を算出し、
音方向性判別部は、前記各周波数毎に前記方向性を判別し、
前記音声検出部は、前記マイクロフォンで収音された音声情報について、方向性が確定していると判断される周波数の音声情報のみを検出する、請求項1に記載の音声検出装置。 A Fourier transform unit for Fourier transforming the sound information collected by each of the plurality of microphones;
The sound direction information calculation unit calculates the incident angle for each frequency based on the phase difference of each frequency obtained by the Fourier transform,
The sound direction determining unit determines the direction for each frequency,
The voice detection device according to claim 1, wherein the voice detection unit detects only voice information of a frequency for which it is determined that directionality is determined for voice information collected by the microphone.
前記入射角に基づいて、音源から発せられた音声の方向性を判別する音方向性判別ステップと、
前記マイクロフォンで収音された音声情報から、前記方向性が確定していると判断される音声情報のみを検出する音声検出ステップと、
を備える音声検出方法。 Sound direction information calculation step for calculating the incident angle of the sound to the microphone based on the phase difference of the sound information collected by a plurality of microphones arranged apart from each other;
A sound directionality determining step for determining the directionality of the sound emitted from the sound source based on the incident angle;
A voice detection step for detecting only voice information for which the directionality is determined from voice information collected by the microphone;
A voice detection method comprising:
前記音方向情報算出ステップにおいて、前記フーリエ変換で得られた各周波数の位相差に基づいて各周波数毎に前記入射角を算出し、
音方向性判別ステップにおいて、前記各周波数毎に前記方向性を判別し、
前記音声検出ステップにおいて、前記マイクロフォンで収音された音声情報について、方向性が確定していると判断される周波数の音声情報のみを検出する、請求項5に記載の音声検出方法。 A step of Fourier transforming sound information collected by each of the plurality of microphones;
In the sound direction information calculation step, the incident angle is calculated for each frequency based on the phase difference of each frequency obtained by the Fourier transform,
In the sound directionality determination step, the directionality is determined for each frequency,
The voice detection method according to claim 5, wherein, in the voice detection step, only voice information having a frequency at which it is determined that directionality is determined is detected from voice information collected by the microphone.
前記マイクロフォンで収音された音声情報の位相差に基づいて、前記マイクロフォンへの音声の入射角を算出する音方向情報算出部と、
前記入射角に基づいて、音源から発せられた音声の方向性を判別する音方向性判別部と、
前記マイクロフォンで収音された音声情報から、前記方向性が確定していると判断される音声情報のみを検出する音声検出部と、
前記音声検出部による検出結果に基づいて、撮影方向を変更するトラッキングカメラと、
を備える撮像システム。 A plurality of microphones spaced apart from each other;
A sound direction information calculation unit that calculates an incident angle of sound to the microphone based on a phase difference of sound information collected by the microphone;
A sound directionality determining unit that determines the directionality of the sound emitted from the sound source based on the incident angle;
A voice detection unit that detects only voice information in which the directionality is determined from voice information collected by the microphone;
Based on the detection result by the voice detection unit, a tracking camera that changes the shooting direction;
An imaging system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009136442A JP2010283676A (en) | 2009-06-05 | 2009-06-05 | Sound detection apparatus, sound detection method and imaging system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009136442A JP2010283676A (en) | 2009-06-05 | 2009-06-05 | Sound detection apparatus, sound detection method and imaging system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010283676A true JP2010283676A (en) | 2010-12-16 |
Family
ID=43540017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009136442A Withdrawn JP2010283676A (en) | 2009-06-05 | 2009-06-05 | Sound detection apparatus, sound detection method and imaging system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010283676A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014066579A (en) * | 2012-09-25 | 2014-04-17 | Fuji Xerox Co Ltd | Voice analysis device, voice analysis system, and program |
WO2023056905A1 (en) * | 2021-10-09 | 2023-04-13 | 阿里巴巴达摩院(杭州)科技有限公司 | Sound source localization method and apparatus, and device |
-
2009
- 2009-06-05 JP JP2009136442A patent/JP2010283676A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014066579A (en) * | 2012-09-25 | 2014-04-17 | Fuji Xerox Co Ltd | Voice analysis device, voice analysis system, and program |
US9368118B2 (en) | 2012-09-25 | 2016-06-14 | Fuji Xerox Co., Ltd. | Voice analyzer, voice analysis system, and non-transitory computer readable medium storing program |
WO2023056905A1 (en) * | 2021-10-09 | 2023-04-13 | 阿里巴巴达摩院(杭州)科技有限公司 | Sound source localization method and apparatus, and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9875410B2 (en) | Camera system for transmitting and receiving an audio signal and operating method of the same | |
Huang et al. | Scream detection for home applications | |
US11330367B2 (en) | Sound pickup device, sound pickup method, and program | |
US10014003B2 (en) | Sound detection method for recognizing hazard situation | |
US9693017B2 (en) | Automatic switching between different cameras at a video conference endpoint based on audio | |
US11568731B2 (en) | Systems and methods for identifying an acoustic source based on observed sound | |
US8065115B2 (en) | Method and system for identifying audible noise as wind noise in a hearing aid apparatus | |
JP4729927B2 (en) | Voice detection device, automatic imaging device, and voice detection method | |
US8711219B2 (en) | Signal processor and signal processing method | |
US9159320B2 (en) | Endpoint detection apparatus for sound source and method thereof | |
US20160078883A1 (en) | Action analysis device, action analysis method, and action analysis program | |
JP2009086055A (en) | Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera | |
US20170162195A1 (en) | Information processing apparatus, information processing method, and recording medium | |
Schroeder et al. | Detection and classification of acoustic events for in-home care | |
KR101508092B1 (en) | Method and system for supporting video conference | |
KR101384781B1 (en) | Apparatus and method for detecting unusual sound | |
KR101321447B1 (en) | Site monitoring method in network, and managing server used therein | |
WO2018210192A1 (en) | Unmanned aerial vehicle monitoring method and audio/video linkage apparatus | |
JP2010154260A (en) | Voice recognition device | |
JP2010283676A (en) | Sound detection apparatus, sound detection method and imaging system | |
JPH06351015A (en) | Image pickup system for video conference system | |
KR101681188B1 (en) | Device and method for tracking sound source location by removing wind noise | |
Park et al. | Sound learning–based event detection for acoustic surveillance sensors | |
KR101424911B1 (en) | Real-time automatic video monitoring system including audio sensor array | |
KR20160097999A (en) | Sound Detection Method Recognizing Hazard Situation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120807 |