JP5063489B2 - Judgment device, electronic apparatus including the same, and judgment method - Google Patents

Judgment device, electronic apparatus including the same, and judgment method Download PDF

Info

Publication number
JP5063489B2
JP5063489B2 JP2008146840A JP2008146840A JP5063489B2 JP 5063489 B2 JP5063489 B2 JP 5063489B2 JP 2008146840 A JP2008146840 A JP 2008146840A JP 2008146840 A JP2008146840 A JP 2008146840A JP 5063489 B2 JP5063489 B2 JP 5063489B2
Authority
JP
Japan
Prior art keywords
frequency
microphone
unit
determination
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008146840A
Other languages
Japanese (ja)
Other versions
JP2009296219A (en
Inventor
昌弘 吉田
誠 山中
智岐 奥
一眞 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2008146840A priority Critical patent/JP5063489B2/en
Publication of JP2009296219A publication Critical patent/JP2009296219A/en
Application granted granted Critical
Publication of JP5063489B2 publication Critical patent/JP5063489B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic Arrangements (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a determination device capable of accurately carrying out direction determination for a broadband sound signal, even if intervals between a plurality of microphones are small. <P>SOLUTION: This determination device includes: an FFT part 23 for subjecting an output signal of a first microphone to time-frequency conversion; an FFT part 24 for subjecting an output signal of a second microphone having a directional characteristic different from that of the first microphone to time-frequency conversion; and a power comparison spectrum determination part 25 having a power comparison part for comparing power of a signal S1[F], in a frequency region output from the FFT part 23, with power of a signal S2[F] in a frequency region output from the FFT part 24, on frequency basis in a predetermined frequency band, and a determination part for determining a sound or sound source direction from a specific direction by using the comparison result in the power comparison part. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、特定方向からの音又は音源方向を判定する判定装置及びそれを備えた電子機器並びに特定方向からの音又は音源方向を判定する判定方法に関する。   The present invention relates to a determination device that determines a sound or sound source direction from a specific direction, an electronic apparatus including the determination device, and a determination method that determines a sound or sound source direction from a specific direction.

従来の特定音源強調手法として、例えば特許文献1に開示されているものがある。特許文献1に開示されている従来の特定音源強調手法を実現するための音声処理部は、図14に示すような構成である。図14に示す音声処理部では、FFT(Fast Fourier Transform)部101が第1のマイクロホンの出力信号をデジタル信号に変換した後、更に周波数領域の信号に変換し、FFT部102が第2のマイクロホンの出力信号をデジタル信号に変換した後、更に周波数領域の信号に変換し、スペクトラム判定部103がFFT部101から出力される周波数領域の信号とFFT部102から出力される周波数領域の信号から算出した相対パラメータをもとに必要なスペクトラムを判定し、その判定結果に基づいて不要スペクトラム部104及び105を制御し、不要スペクトラム部104がFFT部101から出力される周波数領域の信号の不要スペクトラムを減衰させ、不要スペクトラム部105がFFT部102から出力される周波数領域の信号の不要スペクトラムを減衰させ、不要スペクトラム部104から出力される周波数領域の信号がIFFT(Inverse Fast Fourier Transform)部106によって時系列データに変換され、不要スペクトラム部105から出力される周波数領域の信号がIFFT部107によって時系列データに変換される。   As a conventional specific sound source enhancement technique, there is one disclosed in Patent Document 1, for example. The speech processing unit for realizing the conventional specific sound source enhancement method disclosed in Patent Document 1 has a configuration as shown in FIG. In the audio processing unit shown in FIG. 14, an FFT (Fast Fourier Transform) unit 101 converts the output signal of the first microphone into a digital signal, and then converts it into a frequency domain signal, and the FFT unit 102 uses the second microphone. Is converted to a digital signal and then further converted to a frequency domain signal, and the spectrum determination unit 103 calculates from the frequency domain signal output from the FFT unit 101 and the frequency domain signal output from the FFT unit 102. The required spectrum is determined based on the relative parameters, and the unnecessary spectrum units 104 and 105 are controlled based on the determination result. The unnecessary spectrum unit 104 determines the unnecessary spectrum of the frequency domain signal output from the FFT unit 101. Attenuate the unnecessary spectrum portion 105 of the frequency domain signal output from the FFT portion 102. The unwanted spectrum is attenuated, the frequency domain signal output from the unwanted spectrum section 104 is converted into time-series data by an IFFT (Inverse Fast Fourier Transform) section 106, and the frequency domain signal output from the unwanted spectrum section 105 is converted to IFFT. The unit 107 converts the data into time series data.

特許第3435357号公報Japanese Patent No. 3435357

相対パラメータとして位相情報を用いる場合、第1のマイクロホンと第2のマイクロホンとの間隔に応じて制御可能な上限周波数が決定する。第1のマイクロホンと第2のマイクロホンとを近接させるほど制御可能な上限周波数が高くなるが、一般的なマイクロホンのサイズなどを考えると、第1のマイクロホンと第2のマイクロホンとの中心間隔は2cm程度が限界であり、上限周波数は8kHz前後となる。   When phase information is used as a relative parameter, the controllable upper limit frequency is determined according to the interval between the first microphone and the second microphone. The upper limit frequency that can be controlled becomes higher as the first microphone and the second microphone are brought closer to each other. However, considering the size of a general microphone, the center distance between the first microphone and the second microphone is 2 cm. The upper limit frequency is around 8 kHz.

一方、相対パラメータとしてパワー情報を用いる場合、下限・上限周波数に制約はないが、図15に示すように第1のマイクロホン108、第2のマイクロホン109に対して特定の方向から音が到来した場合、第1のマイクロホン108と第2のマイクロホン109との間隔が短いと、音源から第1のマイクロホン108までの行路と音源から第2のマイクロホン109までの行路との差dが微小になり、この行路差d分の音の減衰が微小になるため、相対パラメータを識別することが困難である。   On the other hand, when power information is used as a relative parameter, there is no restriction on the lower limit / upper limit frequency, but when sound comes from a specific direction with respect to the first microphone 108 and the second microphone 109 as shown in FIG. When the distance between the first microphone 108 and the second microphone 109 is short, the difference d between the path from the sound source to the first microphone 108 and the path from the sound source to the second microphone 109 becomes small. Since the attenuation of the sound corresponding to the path difference d becomes minute, it is difficult to identify the relative parameter.

従って、特許文献1に開示されている従来の特定音源強調手法は、第1のマイクロホンと第2のマイクロホンとの間隔が短い場合、広帯域の音声信号に対する方向判定を精度良く行うことができなかった。   Therefore, the conventional specific sound source enhancement method disclosed in Patent Document 1 cannot accurately determine the direction of a wideband audio signal when the distance between the first microphone and the second microphone is short. .

本発明は、上記の状況に鑑み、複数のマイクロホンの間隔が短くても広帯域の音声信号に対する方向判定を精度良く行うことができる判定装置及びそれを備えた電子機器並びに判定方法を提供することを目的とする。   In view of the above situation, the present invention provides a determination device capable of accurately performing direction determination on a wideband audio signal even when the interval between a plurality of microphones is short, an electronic device including the determination device, and a determination method. Objective.

上記目的を達成するために本発明に係る判定装置は、第1のマイクロホンの出力信号を時間周波数変換する第1の時間周波数変換部と、前記第1のマイクロホンとは指向特性が異なる第2のマイクロホンの出力信号を時間周波数変換する第2の時間周波数変換部と、前記第1の時間周波数変換部から出力される周波数領域の信号のパワーと前記第2の時間周波数変換部から出力される周波数領域の信号のパワーとを、所定の周波数帯域において周波数毎に比較するパワー比較部と、前記パワー比較部での比較結果を用いて特定方向からの音又は音源方向を判定する判定部とを備える構成とする。なお、周波数領域の信号の或る周波数におけるパワーは、例えば、周波数領域の信号の或る周波数における振幅の二乗の平方根で表すことができる。   In order to achieve the above object, a determination apparatus according to the present invention includes a first time-frequency conversion unit that performs time-frequency conversion on an output signal of a first microphone, and a second directional characteristic different from that of the first microphone. A second time-frequency converter that converts the output signal of the microphone to time-frequency, a power of a frequency-domain signal output from the first time-frequency converter, and a frequency output from the second time-frequency converter. A power comparison unit that compares the signal power of the region for each frequency in a predetermined frequency band; and a determination unit that determines a sound or sound source direction from a specific direction using a comparison result in the power comparison unit. The configuration. The power at a certain frequency of the frequency domain signal can be expressed by, for example, the square root of the square of the amplitude at the certain frequency of the frequency domain signal.

このような構成によると、前記第1の時間周波数変換部から出力される周波数領域の信号のパワーと前記第2の時間周波数変換部から出力される周波数領域の信号のパワーとの比較結果である相対パワーパラメータを用いて方向判定を行っているので、下限・上限周波数に制約はなく、広帯域の音声信号に対する方向判定を精度良く行うことができる。また、前記第1のマイクロホンと前記第2のマイクロホンの指向特性が互いに異なるので、音源方向の相違による相対パワーパラメータの変化を大きくすることができる。したがって、前記第1のマイクロホンと前記第2のマイクロホンの間隔が短くても音声信号に対する方向判定を精度良く行うことができる。   According to such a configuration, it is a comparison result between the power of the frequency domain signal output from the first time frequency converter and the power of the frequency domain signal output from the second time frequency converter. Since the direction determination is performed using the relative power parameter, there is no restriction on the lower limit and the upper limit frequency, and the direction determination for the wideband audio signal can be performed with high accuracy. Further, since the directivity characteristics of the first microphone and the second microphone are different from each other, the change in the relative power parameter due to the difference in the sound source direction can be increased. Therefore, even when the interval between the first microphone and the second microphone is short, the direction determination for the audio signal can be performed with high accuracy.

また、前記第1のマイクロホンと前記第2のマイクロホンとの指向特性の相違量に基づく判定条件を格納する記憶部を備え、前記判定部が、前記パワー比較部での比較結果と前記記憶部に格納されている判定条件とから特定方向からの音を判定するようにしてもよい。   A storage unit that stores a determination condition based on a difference in directivity between the first microphone and the second microphone; and the determination unit stores the comparison result in the power comparison unit and the storage unit. You may make it determine the sound from a specific direction from the stored determination conditions.

また、前記所定の周波数帯域が第1の周波数帯域であって、前記第2のマイクロホンと指向特性が同一である第3のマイクロホンの出力信号を時間周波数変換する第3の時間周波数変換部と、前記第2の時間周波数変換部から出力される周波数領域の信号の位相と前記第3の時間周波数変換部から出力される周波数領域の信号の位相とを、前記第1の周波数帯域より低い帯域である第2の周波数帯域において周波数毎に比較する位相比較部と、前記第1のマイクロホンと前記第2のマイクロホンとの指向特性の相違量に基づく第1の判定条件を格納する第1の記憶部と、前記第2のマイクロホンと前記第3のマイクロホンとの位置関係に基づく第2の判定条件を格納する第2の記憶部とを備え、前記判定部が、前記パワー比較部での比較結果と前記第1の記憶部に格納されている第1の判定条件とから前記第1の周波数帯域の特定方向からの音を判定し、前記位相比較部での比較結果と前記第2の記憶部に格納されている第2の判定条件とから前記第2の周波数帯域の特定方向からの音を判定するようにしてもよい。   A third time-frequency conversion unit that performs time-frequency conversion on an output signal of a third microphone that has the same frequency direction as the second microphone, and the predetermined frequency band is a first frequency band; The phase of the frequency domain signal output from the second time frequency converter and the phase of the frequency domain signal output from the third time frequency converter in a band lower than the first frequency band. A phase comparison unit for comparing each frequency in a certain second frequency band, and a first storage unit for storing a first determination condition based on the amount of difference in directivity between the first microphone and the second microphone And a second storage unit that stores a second determination condition based on a positional relationship between the second microphone and the third microphone, wherein the determination unit is a comparison result of the power comparison unit The sound from the specific direction of the first frequency band is determined based on the first determination condition stored in the first storage unit, and the comparison result in the phase comparison unit and the second storage unit You may make it determine the sound from the specific direction of the said 2nd frequency band from the stored 2nd determination conditions.

また、2方向の音を判定することができるように、前記第1の時間周波数変換部から出力される周波数領域の信号の位相と前記第2の時間周波数変換部から出力される周波数領域の信号の位相とを、前記所定の周波数帯域において周波数毎に比較する位相比較部と、前記第1のマイクロホンと前記第2のマイクロホンとの指向特性の相違量に基づく第1の判定条件を格納する第1の記憶部と、前記第1のマイクロホンと前記第2のマイクロホンとの位置関係に基づく第2の判定条件を格納する第2の記憶部とを備え、前記判定部が、前記パワー比較部での比較結果と前記第1の記憶部に格納されている第1の判定条件とから第1の方向からの音、第2の方向からの音のいずれかであるか否かを判定する一次判定部と、前記一次判定部によって、前記第1の方向からの音、前記第2の方向からの音のいずれかであると判定された場合、前記位相比較部での比較結果と前記第2の記憶部に格納されている第2の判定条件とから、前記第1の方向からの音であるか否かを判定する二次判定部とを有するようにしてもよい。   Further, the phase of the frequency domain signal output from the first time-frequency converter and the frequency domain signal output from the second time-frequency converter so that sound in two directions can be determined. And a first comparison condition that stores a first determination condition based on a difference in directivity characteristics between the first microphone and the second microphone. 1 storage unit, and a second storage unit that stores a second determination condition based on the positional relationship between the first microphone and the second microphone, and the determination unit is the power comparison unit Primary determination to determine whether the sound is from the first direction or the sound from the second direction from the comparison result of the first and the first determination condition stored in the first storage unit And the primary determination unit When it is determined that the sound is from the first direction or the sound from the second direction, the comparison result in the phase comparison unit and the second stored in the second storage unit And a secondary determination unit that determines whether or not the sound is from the first direction.

また、前記第1のマイクロホンの指向性パターンと前記第2のマイクロホンの指向特性パターンとが左右対称であって、前記パワー比較部によって、前記第1の時間周波数変換部から出力される周波数領域の信号のパワーと前記第2の時間周波数変換部から出力される周波数領域の信号のパワーとが等しいとの比較結果が得られたときに、前記判定部が、正面方向からの音であると判定するようにしてもよい。   Further, the directivity pattern of the first microphone and the directivity pattern of the second microphone are symmetric, and the power comparison unit outputs a frequency domain output from the first time frequency conversion unit. When a comparison result is obtained that the power of the signal is equal to the power of the signal in the frequency domain output from the second time-frequency conversion unit, the determination unit determines that the sound is from the front direction. You may make it do.

上記目的を達成するために本発明に係る電子機器は、上記構成の判定装置を少なくとも一つ備え、前記判定装置の判定結果に基づき、集音した音声信号に対して音声処理を施す構成とする。   In order to achieve the above object, an electronic apparatus according to the present invention includes at least one determination device having the above-described configuration, and performs sound processing on the collected sound signal based on the determination result of the determination device. .

また、上記構成の電子機器において、集音した音声信号の記録・再生機能を有し、集音した音声信号を記録する際、又は、記録した音声信号を再生する際のいずれかにおいて前記判定装置が判定処理を行うようにしてもよい。   Further, the electronic device having the above-described configuration has a recording / playback function of the collected audio signal, and the determination device is used either when recording the collected audio signal or reproducing the recorded audio signal May perform the determination process.

また、上記各構成の電子機器の一例としては、映像を撮影するカメラを備える撮像装置が挙げられる。   Moreover, as an example of the electronic device having each configuration described above, an imaging apparatus including a camera that captures an image can be given.

上記目的を達成するために本発明に係る判定方法は、第1のマイクロホンの出力信号を時間周波数変換する第1の時間周波数変換ステップと、前記第1のマイクロホンとは指向特性が異なる第2のマイクロホンの出力信号を時間周波数変換する第2の時間周波数変換ステップと、前記第1の時間周波数変換ステップによって得られる周波数領域の信号のパワーと前記第2の時間周波数変換ステップによって得られる周波数領域の信号のパワーとを、所定の周波数帯域において周波数毎に比較するパワー比較ステップと、前記パワー比較ステップによって得られる比較結果を用いて特定方向からの音又は音源方向を判定する判定ステップとを有する。   In order to achieve the above object, a determination method according to the present invention includes a first time-frequency conversion step of converting the output signal of the first microphone to time-frequency, and a second directional characteristic different from that of the first microphone. A second time-frequency conversion step for time-frequency conversion of the output signal of the microphone; a power of the signal in the frequency domain obtained by the first time-frequency conversion step; and a frequency domain obtained by the second time-frequency conversion step. A power comparison step of comparing the power of the signal for each frequency in a predetermined frequency band; and a determination step of determining a sound or sound source direction from a specific direction using a comparison result obtained by the power comparison step.

本発明によると、相対パワーパラメータを用いて方向判定を行っているので、下限・上限周波数に制約はなく、広帯域の音声信号に対する方向判定を精度良く行うことができる。また、互いに異なる複数のマイクロホンの出力信号を利用しているので、音源方向の相違による相対パワーパラメータの変化を大きくすることができる。したがって、複数のマイクロホンの間隔が短くても音声信号に対する方向判定を精度良く行うことができる。   According to the present invention, since the direction determination is performed using the relative power parameter, there is no restriction on the lower limit and the upper limit frequency, and the direction determination with respect to the wideband audio signal can be performed with high accuracy. In addition, since the output signals of a plurality of different microphones are used, the change in relative power parameter due to the difference in sound source direction can be increased. Therefore, even when the interval between the plurality of microphones is short, the direction determination for the audio signal can be performed with high accuracy.

本発明の実施形態について図面を参照して以下に説明する。   Embodiments of the present invention will be described below with reference to the drawings.

本発明に係る判定方法は、集音した音声信号を利用して判定を行うので、集音した音声信号を記録する際だけでなく、すでに集音・記録された音声信号を再生する際にも適用できる。   Since the determination method according to the present invention makes a determination using the collected audio signal, not only when the collected audio signal is recorded, but also when the already collected / recorded audio signal is reproduced. Applicable.

以下では、本発明に係る判定方法を集音した音声信号を記録する際に適用した判定装置を搭載した撮像装置(例えば、ビデオカメラ、デジタルカメラなど)を例に挙げて説明する。   Hereinafter, an image pickup apparatus (for example, a video camera, a digital camera, etc.) equipped with a determination apparatus applied when recording an audio signal collected by the determination method according to the present invention will be described as an example.

図1は、本発明に係る判定装置を搭載した撮像装置の一内部構成例を示すブロック図である。   FIG. 1 is a block diagram showing an example of an internal configuration of an imaging apparatus equipped with a determination apparatus according to the present invention.

図1に示す撮像装置は、入射される光を電気信号に変換するCCD(Charge Coupled Device)またはCMOS(Complimentary Metal Oxide Semiconductor)センサなどの固体撮像素子(イメージセンサ)1と、被写体の光学像をイメージセンサ1に結像させるズームレンズとズームレンズの焦点距離すなわち光学ズーム倍率を変化させるモータとズームレンズの焦点を被写体に合わせるためのモータとを有するレンズ部2と、イメージセンサ1から出力されるアナログ信号である画像信号をデジタル信号に変換するAFE(Analog Front End)3と、指向特性の異なる複数のマイクロホンを有するマイク部4と、AFE3からのデジタル信号となる画像信号に対して、階調補正等の各種画像処理を施す画像処理部5と、マイク部4からのアナログ信号である音声信号に対してデジタル信号に変換するとともに音声補正処理を施す音声処理部6と、画像処理部5からの画像信号及び音声処理部6からの音声信号それぞれに対してMPEG(Moving Picture Experts Group)圧縮方式などの圧縮符号化処理を施す圧縮処理部7と、圧縮処理部7で圧縮符号化された圧縮符号化信号をSDカードなどの外部メモリ22に記録するドライバ部8と、ドライバ部8で外部メモリ22から読み出した圧縮符号化信号を伸長して復号する伸長処理部9と、伸長処理部9で復号されて得られた画像信号をアナログ信号に変換するビデオ出力回路部10と、ビデオ出力回路部10で変換された信号を出力するビデオ出力端子11と、ビデオ出力回路部10からの信号に基づく画像の表示を行うLCD等を有するディスプレイ部12と、伸長処理部9からの音声信号をアナログ信号に変換する音声出力回路部13と、音声出力回路部13で変換された信号を出力する音声出力端子14と、音声出力回路部13からの音声信号に基づいて音声を再生出力するスピーカ部15と、各ブロックの動作タイミングを一致させるためのタイミング制御信号を出力するタイミングジェネレータ(TG)16と、撮像装置内全体の駆動動作を制御するCPU(Central Processing Unit)17と、各動作のための各プログラムを記憶するとともにプログラム実行時のデータの一時保管を行うメモリ18と、ユーザからの指示が入力される操作部19と、CPU17と各ブロックとの間でデータのやりとりを行うためのバス回線20と、メモリ18と各ブロックとの間でデータのやりとりを行うためのバス回線21と、を備える。なお、CPU17は、画像処理部5で検出した画像信号に応じて、レンズ部2内の各モータを駆動して焦点、絞りの制御を行う。   The image pickup apparatus shown in FIG. 1 has a solid-state image pickup device (image sensor) 1 such as a CCD (Charge Coupled Device) or CMOS (Complimentary Metal Oxide Semiconductor) sensor that converts incident light into an electric signal, and an optical image of a subject. The image sensor 1 outputs a zoom lens that forms an image on the image sensor 1, a motor that changes the focal length of the zoom lens, that is, a motor that changes the optical zoom magnification, and a motor that focuses the zoom lens on the subject. An AFE (Analog Front End) 3 that converts an image signal that is an analog signal into a digital signal, a microphone unit 4 that has a plurality of microphones having different directivity characteristics, and an image signal that is a digital signal from the AFE 3 An image processing unit 5 that performs various image processing such as correction, and an audio signal that is an analog signal from the microphone unit 4 On the other hand, the audio processing unit 6 that converts the digital signal and performs audio correction processing, and the MPEG (Moving Picture Experts Group) compression method for the image signal from the image processing unit 5 and the audio signal from the audio processing unit 6, etc. A compression processing unit 7 that performs the compression encoding process, a driver unit 8 that records the compression-encoded signal compression-encoded by the compression processing unit 7 in an external memory 22 such as an SD card, and the driver unit 8 an external memory 22 A decompression processing unit 9 that decompresses and decodes the compression-coded signal read from the video signal, a video output circuit unit 10 that converts an image signal obtained by decoding by the decompression processing unit 9 into an analog signal, and a video output circuit unit 10 A video output terminal 11 for outputting the signal converted in step S4, a display unit 12 having an LCD or the like for displaying an image based on the signal from the video output circuit unit 10, and decompression. Based on the audio output circuit unit 13 that converts the audio signal from the processing unit 9 into an analog signal, the audio output terminal 14 that outputs the signal converted by the audio output circuit unit 13, and the audio signal from the audio output circuit unit 13 A speaker unit 15 that reproduces and outputs sound, a timing generator (TG) 16 that outputs a timing control signal for matching the operation timing of each block, and a CPU (Central Processing Unit) that controls the overall driving operation in the imaging apparatus. ) 17, a memory 18 for storing each program for each operation and temporarily storing data when the program is executed, an operation unit 19 to which an instruction from the user is input, and between the CPU 17 and each block A bus line 20 for exchanging data and a bus circuit for exchanging data between the memory 18 and each block. It includes a 21, a. The CPU 17 controls the focus and the diaphragm by driving each motor in the lens unit 2 in accordance with the image signal detected by the image processing unit 5.

音声処理部6は、本発明に係る判定装置を備え、本発明に係る判定装置の判定結果に応じた音声処理を行っている。小型化及び低コスト化の観点から、音声処理部6単独または音声処理部6に圧縮処理部7内の音声圧縮符号化器を含めたものは、1パッケージ化されたLSIパッケージになっていることが望ましい。   The audio processing unit 6 includes the determination device according to the present invention, and performs audio processing according to the determination result of the determination device according to the present invention. From the viewpoint of downsizing and cost reduction, the audio processing unit 6 alone or the audio processing unit 6 including the audio compression encoder in the compression processing unit 7 is an LSI package that is made into one package. Is desirable.

次に、図1に示す撮像装置の動画撮影時の基本動作について図2のフローチャートを用いて説明する。まず、ユーザが操作部19を操作して撮像装置を動画撮影用に設定して電源をONにすると(STEP1)、撮像装置の駆動モードつまりイメージセンサ1の駆動モードがプレビューモードに設定される(STEP2)。続いて撮影モードの入力待ち状態となる。撮影モードが入力されない場合は通常撮影用のモードが選択されたものとする(STEP3)。プレビューモードでは、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3においてデジタル信号に変換されて、画像処理部5で画像処理が施され、圧縮処理部7で圧縮された現時点の画像に対する画像信号が外部メモリ22に一時的に記録される。この圧縮信号は、ドライバ部8を経て、伸長処理部9で伸長され、現時点で設定されているレンズ部2のズーム倍率での画角の画像がディスプレイ部12に表示される。   Next, the basic operation of the image pickup apparatus shown in FIG. 1 during moving image shooting will be described with reference to the flowchart of FIG. First, when the user operates the operation unit 19 to set the imaging device for moving image shooting and turn on the power (STEP 1), the driving mode of the imaging device, that is, the driving mode of the image sensor 1 is set to the preview mode ( (Step 2). Subsequently, the camera enters a shooting mode input waiting state. When the shooting mode is not input, it is assumed that the normal shooting mode is selected (STEP 3). In the preview mode, an image signal that is an analog signal obtained by the photoelectric conversion operation of the image sensor 1 is converted into a digital signal by the AFE 3, subjected to image processing by the image processing unit 5, and compressed by the compression processing unit 7. An image signal for the current image is temporarily recorded in the external memory 22. The compressed signal is expanded by the expansion processing unit 9 via the driver unit 8, and an image with an angle of view at the zoom magnification of the lens unit 2 set at the present time is displayed on the display unit 12.

続いてユーザが、撮影の対象とする被写体に対して所望の画角となるように、操作部19を操作すると、その操作に応じた光学ズームでのズーム倍率が設定される(STEP4)。その際、画像処理部5に入力された画像信号を基にCPU17によってレンズ部2を制御して、最適な露光制御(Automatic Exposure;AE)・焦点合わせ制御(オートフォーカス、Auto Focus;AF)が行われる(STEP5)。   Subsequently, when the user operates the operation unit 19 so as to obtain a desired angle of view with respect to the subject to be photographed, the zoom magnification with the optical zoom corresponding to the operation is set (STEP 4). At this time, the lens unit 2 is controlled by the CPU 17 based on the image signal input to the image processing unit 5, and optimum exposure control (Automatic Exposure; AE) / focusing control (Auto Focus; AF) is performed. It is performed (STEP 5).

その後、操作部19の録画開始ボタン(静止画撮影用のシャッターボタンと兼用でも構わない)が全押しされ、録画動作の開始が指示されると(STEP6のY)、録画動作が開始され、イメージセンサ1の光電変換動作によって得られたアナログ信号である画像信号がAFE3に出力される。このとき、イメージセンサ1では、TG16からのタイミング制御信号が与えられることによって、水平走査及び垂直走査が行われて、画素毎のデータとなる画像信号が出力される。そして、AFE3において、アナログ信号である画像信号(生データ)がデジタル信号に変換されて、画像処理部5内のフレームメモリに書き込まれる(STEP7)。   Thereafter, when the recording start button of the operation unit 19 (which may also be used as a shutter button for taking a still image) is fully pressed and the start of the recording operation is instructed (Y in STEP 6), the recording operation is started and the image is displayed. An image signal that is an analog signal obtained by the photoelectric conversion operation of the sensor 1 is output to the AFE 3. At this time, the image sensor 1 receives the timing control signal from the TG 16 to perform horizontal scanning and vertical scanning, and output an image signal as data for each pixel. Then, in the AFE 3, the image signal (raw data) that is an analog signal is converted into a digital signal and written into the frame memory in the image processing unit 5 (STEP 7).

画像処理部5では輝度信号及び色差信号の生成を行う信号変換処理などの各種画像処理が施され、その画像処理が施された画像信号が圧縮処理部7に与えられる。一方、音声処理部6では、マイク部4に音声入力されることで得られたアナログ信号である音声信号に対してA/D変換処理が施されるとともに、本発明に係る判定装置の判定結果に応じた音声処理が施され、その音声処理が施された音声信号が圧縮処理部7に与えられる(STEP8)。この音声処理については後述する。   The image processing unit 5 performs various image processing such as signal conversion processing for generating a luminance signal and a color difference signal, and the image signal subjected to the image processing is given to the compression processing unit 7. On the other hand, the audio processing unit 6 performs A / D conversion processing on an audio signal that is an analog signal obtained by inputting the sound into the microphone unit 4, and the determination result of the determination device according to the present invention. The audio signal is subjected to the audio processing and the audio signal subjected to the audio processing is supplied to the compression processing unit 7 (STEP 8). This voice processing will be described later.

圧縮処理部7では、デジタル信号である画像信号及び音声信号に対して、MPEG圧縮符号方式に基づいて、圧縮符号化し(STEP9)、ドライバ部8に与えて、外部メモリ22に記録させる(STEP10)。また、このとき、外部メモリ22に記録された圧縮データがドライバ部8によって読み出されて伸長処理部9に与えられて、伸長処理が施されて画像信号が得られる。この画像信号がディスプレイ部12に与えられて、現在、イメージセンサ1を通じて撮影されている被写体画像が表示される。その後、再び操作部19の録画開始ボタンが全押しされ、録画動作の終了が指示されると(STEP11のY)プレビューモードに戻る(STEP2)。   The compression processing unit 7 compresses and encodes the image signal and the audio signal, which are digital signals, based on the MPEG compression coding method (STEP 9), gives them to the driver unit 8, and records them in the external memory 22 (STEP 10). . At this time, the compressed data recorded in the external memory 22 is read out by the driver unit 8 and given to the expansion processing unit 9, and is subjected to expansion processing to obtain an image signal. This image signal is given to the display unit 12 to display a subject image currently photographed through the image sensor 1. After that, when the recording start button of the operation unit 19 is fully pressed again and the end of the recording operation is instructed (Y in STEP 11), the process returns to the preview mode (STEP 2).

このような撮像動作を行うとき、TG16によって、AFE3、画像処理部5、音声処理部6、圧縮処理部7、及び伸長処理部9に対してタイミング制御信号が与えられ、イメージセンサ1による1フレームごとの撮像動作に同期した動作が行われる。   When performing such an imaging operation, a timing control signal is given by the TG 16 to the AFE 3, the image processing unit 5, the audio processing unit 6, the compression processing unit 7, and the decompression processing unit 9, and one frame by the image sensor 1. An operation synchronized with each imaging operation is performed.

また、外部メモリ22に記録された圧縮動画データを再生することが、操作部19を通じて指示されると、外部メモリ22に記録された圧縮動画データは、ドライバ部8によって読み出されて伸長処理部9に与えられる。そして、伸長処理部9において、MPEG圧縮符号方式に基づいて、伸長復号されて、画像信号及び音声信号が取得される。そして、画像信号がディスプレイ部12に与えられて画像が再生されるとともに、音声信号が音声出力回路部13を介してスピーカ部15に与えられて音声が再生される。これにより、外部メモリ22に記録された圧縮動画データに基づく画像が音声とともに再生される。   In addition, when it is instructed through the operation unit 19 to reproduce the compressed moving image data recorded in the external memory 22, the compressed moving image data recorded in the external memory 22 is read by the driver unit 8 and decompressed. 9 is given. Then, the decompression processing unit 9 decompresses and decodes the image signal and the audio signal based on the MPEG compression encoding method. Then, the image signal is given to the display unit 12 to reproduce the image, and the audio signal is given to the speaker unit 15 via the audio output circuit unit 13 to reproduce the audio. Thereby, an image based on the compressed moving image data recorded in the external memory 22 is reproduced together with the sound.

次に、音声処理部6の具体例として4つの実施形態(第1実施形態〜第4実施形態)を示し、各実施形態の音声処理部6が図2のSTEP8において実施する音声処理について説明する。   Next, four embodiments (first to fourth embodiments) are shown as specific examples of the audio processing unit 6, and the audio processing performed by the audio processing unit 6 of each embodiment in STEP 8 of FIG. 2 will be described. .

<第1実施形態>
第1実施形態の音声処理部6を用いる場合、マイク部4は、図3に示すように互いに近接して配置される指向性マイク4A及び無指向性マイク4Bから成る構成とする。例えば、指向性マイク4Aと無指向性マイク4Bの中心間隔を2cmとする。さらに、指向性マイク4Aが図4に示す単一指向性パターンP1を有し、無指向性マイク4Bが図4に示す無指向性パターンP2を有するように指向性マイク4A及び無指向性マイク4Bを配置する。なお、図4に示す指向特性(単一指向性パターンP1、無指向性パターンP2、音声処理により得られる新たな指向性パターンP3)は、音到来方向別のマイク感度を表しており、パターンを形成する或る点が中心Oから離れているほど、その或る点から中心Oに向かう方向からの音に対するマイク感度が高いことを表している。
<First Embodiment>
When the audio processing unit 6 of the first embodiment is used, the microphone unit 4 includes a directional microphone 4A and an omnidirectional microphone 4B that are arranged close to each other as shown in FIG. For example, the center distance between the directional microphone 4A and the omnidirectional microphone 4B is 2 cm. Furthermore, the directional microphone 4A and the omnidirectional microphone 4B are arranged so that the directional microphone 4A has the unidirectional pattern P1 shown in FIG. 4 and the omnidirectional microphone 4B has the omnidirectional pattern P2 shown in FIG. Place. Note that the directional characteristics shown in FIG. 4 (unidirectional pattern P1, omnidirectional pattern P2, and new directional pattern P3 obtained by voice processing) represent microphone sensitivities by sound arrival direction. The farther a certain point to be formed is from the center O, the higher the microphone sensitivity with respect to the sound from the direction from the certain point toward the center O is.

第1実施形態の音声処理部6は、図5に示すように、FFT部23及び24と、パワー比較スペクトラム判定部25と、メモリ部26と、不要スペクトラム除去部27と、IFFT部28とを備える。   As shown in FIG. 5, the audio processing unit 6 of the first embodiment includes FFT units 23 and 24, a power comparison spectrum determination unit 25, a memory unit 26, an unnecessary spectrum removal unit 27, and an IFFT unit 28. Prepare.

FFT部23は、指向性マイク4Aの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S1[F]に変換し、その周波数領域の信号S1[F]をパワー比較スペクトラム判定部25及び不要スペクトラム除去部27に出力する。また、FFT部24は、無指向性マイク4Bの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S2[F]に変換し、その周波数領域の信号S2[F]をパワー比較スペクトラム判定部25に出力する。   The FFT unit 23 samples the output signal of the directional microphone 4A at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S1 [F] by FFT processing every 2048 samples. S 1 [F] is output to the power comparison spectrum determination unit 25 and the unnecessary spectrum removal unit 27. Further, the FFT unit 24 samples the output signal of the omnidirectional microphone 4B at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S2 [F] by FFT processing every 2048 samples. The region signal S 2 [F] is output to the power comparison spectrum determination unit 25.

パワー比較スペクトラム判定部25は、周波数領域の信号S1[F]のパワーと周波数領域の信号S2[F]のパワーそれぞれを所定の周波数帯域(例えば、FFT部23及び24でのFFT処理対象の周波数領域)において周波数毎に計算し、周波数領域の信号S1[F]のパワーと周波数領域の信号S2[F]のパワーとを比較して、相対パワーパラメータ(ここでは、周波数領域の信号S1[F]のパワーから周波数領域の信号S2[F]のパワーを差し引いた値とする)を周波数毎に求める。メモリ部26は、図4に示す単一指向性パターンP1と無指向性パターンP2から決定される値であって図4に示すベクトルv1に対応する値である閾値THを予め記憶している。パワー比較スペクトラム判定部25は、相対パワーパラメータが閾値THより大きいか否かを周波数毎に判定し、相対パワーパラメータが閾値THより大きい場合に正面方向からの音成分であると判定する。   The power comparison spectrum determination unit 25 uses the power of the frequency domain signal S1 [F] and the power of the frequency domain signal S2 [F] in a predetermined frequency band (for example, the frequency of the FFT processing target in the FFT units 23 and 24). Area), the power of the frequency domain signal S1 [F] is compared with the power of the frequency domain signal S2 [F], and the relative power parameter (here, the frequency domain signal S1 [F] is compared). ] Is obtained for each frequency by subtracting the power of the signal S2 [F] in the frequency domain from the power of The memory unit 26 stores in advance a threshold value TH that is a value determined from the unidirectional pattern P1 and the omnidirectional pattern P2 shown in FIG. 4 and corresponding to the vector v1 shown in FIG. The power comparison spectrum determination unit 25 determines whether or not the relative power parameter is greater than the threshold value TH for each frequency, and determines that the sound component is from the front direction when the relative power parameter is greater than the threshold value TH.

不要スペクトラム除去部27は、パワー比較スペクトラム判定部25の判定結果に基づいて、周波数領域の信号S1[F]から正面方向からの音成分でない不要な成分を周波数領域上で除去し、その不要な成分が除去された周波数領域の信号をIFFT部28に出力する。IFFT部28は、不要スペクトラム除去部27の出力信号をIFFT処理にて時間領域の信号に変換し、第1実施形態の音声処理部6の出力信号として圧縮処理部7(図1参照)に出力する。   Based on the determination result of the power comparison spectrum determination unit 25, the unnecessary spectrum removal unit 27 removes unnecessary components that are not sound components from the front direction on the frequency domain from the signal S1 [F] in the frequency domain. The frequency domain signal from which the component has been removed is output to the IFFT unit 28. The IFFT unit 28 converts the output signal of the unnecessary spectrum removing unit 27 into a signal in the time domain by IFFT processing, and outputs it to the compression processing unit 7 (see FIG. 1) as the output signal of the audio processing unit 6 of the first embodiment. To do.

上記のような音声処理によって新たな指向性パターンP3を得ることができる。第1実施形態の音声処理部6では、相対パワーパラメータを用いて方向判定を行っているので、下限・上限周波数に制約はなく、広帯域の音声信号に対する方向判定を精度良く行うことができる。また、例えば図4に示すような指向特性のマイク部4を用いることにより、音源方向の相違による相対パワーパラメータの変化を大きくすることができるので、複数のマイクロホンの間隔が短くても音声信号に対する方向判定を精度良く行うことができる。   A new directivity pattern P3 can be obtained by the sound processing as described above. In the voice processing unit 6 of the first embodiment, since the direction determination is performed using the relative power parameter, there is no restriction on the lower limit / upper limit frequency, and the direction determination for the wideband voice signal can be performed with high accuracy. Further, for example, by using the microphone unit 4 having directivity characteristics as shown in FIG. 4, the change in the relative power parameter due to the difference in the sound source direction can be increased. Direction determination can be performed with high accuracy.

なお、撮像装置では撮影状況により主要音源とマイク部との位置関係が変化することが想定されるが、主要音源とマイク部との位置関係がどのように変化したとしても、上述した通り、例えば図4に示すような指向特性にすることにより、音源方向の相違による相対パワーパラメータの変化を大きくすることができるので、何ら問題は生じない。また、本実施形態では、正面方向からの音を判定対象としているが、メモリ部26に予め記憶させる閾値THの値を変えることにより、他の特定方向からの音を判定対象とすることも可能である。さらに、閾値THの値を複数用意し、その中から判定に用いる値を選択することにより、特定方向の切り替えが可能となる。   Note that in the imaging device, it is assumed that the positional relationship between the main sound source and the microphone unit changes depending on the shooting situation, but no matter how the positional relationship between the main sound source and the microphone unit changes, as described above, for example, By using the directivity characteristics as shown in FIG. 4, the change in relative power parameter due to the difference in sound source direction can be increased, so no problem occurs. In the present embodiment, sound from the front direction is targeted for determination, but by changing the threshold value TH stored in the memory unit 26 in advance, it is also possible to determine sound from other specific directions. It is. Furthermore, a specific direction can be switched by preparing a plurality of threshold TH values and selecting a value to be used for determination from among them.

<第2実施形態>
第2実施形態の音声処理部6を用いる場合、マイク部4は、図6に示すようにそれぞれ近接して配置される指向性マイク4A並びに無指向性マイク4B及び4Cから成る構成とする。例えば、指向性マイク4Aと無指向性マイク4Bの中心間隔、無指向性マイク4Bと無指向性マイク4Cの中心間隔をそれぞれ2cmとする。さらに、指向性マイク4Aが図4に示す単一指向性パターンP1を有し、無指向性マイク4B及び4Cがそれぞれ図4に示す無指向性パターンP2を有するように指向性マイク4A並びに無指向性マイク4B及び4Cを配置する。
Second Embodiment
When the audio processing unit 6 of the second embodiment is used, the microphone unit 4 includes a directional microphone 4A and omnidirectional microphones 4B and 4C that are arranged close to each other as shown in FIG. For example, the center interval between the directional microphone 4A and the omnidirectional microphone 4B and the center interval between the omnidirectional microphone 4B and the omnidirectional microphone 4C are each 2 cm. Furthermore, the directional microphone 4A and the omnidirectional are set such that the directional microphone 4A has the unidirectional pattern P1 shown in FIG. 4 and the omnidirectional microphones 4B and 4C have the omnidirectional pattern P2 shown in FIG. The sex microphones 4B and 4C are arranged.

第1実施形態の音声処理部6は、図7に示すように、FFT部29及び31と、HPF(High Pass Filter)32及び33と、LPF(Low Pass Filter)34及び35と、パワー比較スペクトラム判定部36と、位相比較スペクトラム判定部37と、メモリ部38と、不要スペクトラム除去部39と、IFFT部40とを備える。HPF32及び33のカットオフ周波数、LPF34及び35のカットオフ周波数はともに8kHzとしている。   As shown in FIG. 7, the sound processing unit 6 of the first embodiment includes FFT units 29 and 31, HPFs (High Pass Filters) 32 and 33, LPFs (Low Pass Filters) 34 and 35, and a power comparison spectrum. A determination unit 36, a phase comparison spectrum determination unit 37, a memory unit 38, an unnecessary spectrum removal unit 39, and an IFFT unit 40 are provided. The cutoff frequencies of the HPFs 32 and 33 and the cutoff frequencies of the LPFs 34 and 35 are both 8 kHz.

FFT部29は、指向性マイク4Aの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S1[F]に変換し、その周波数領域の信号S1[F]を、不要スペクトラム除去部39と、HPF32を介してパワー比較スペクトラム判定部36とに出力する。また、FFT部30は、無指向性マイク4Bの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S2[F]に変換し、その周波数領域の信号S2[F]を、HPF33を介してパワー比較スペクトラム判定部36と、LPF34を介して位相比較スペクトラム判定部37とに出力する。また、FFT部31は、無指向性マイク4Cの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S3[F]に変換し、その周波数領域の信号S3[F]を、LPF35を介して位相比較スペクトラム判定部37に出力する。   The FFT unit 29 samples the output signal of the directional microphone 4A at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S1 [F] by FFT processing every 2048 samples. S1 [F] is output to the unnecessary spectrum removal unit 39 and the power comparison spectrum determination unit 36 via the HPF 32. Further, the FFT unit 30 samples the output signal of the omnidirectional microphone 4B at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S2 [F] by FFT processing every 2048 samples. The region signal S2 [F] is output to the power comparison spectrum determination unit 36 via the HPF 33 and to the phase comparison spectrum determination unit 37 via the LPF 34. Further, the FFT unit 31 samples the output signal of the omnidirectional microphone 4C at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S3 [F] by FFT processing every 2048 samples. The region signal S3 [F] is output to the phase comparison spectrum determination unit 37 via the LPF 35.

パワー比較スペクトラム判定部36は、周波数領域の信号S1[F]における8kHz以上の周波数成分のパワーと周波数領域の信号S2[F]における8kHz以上の周波数成分のパワーそれぞれを周波数毎に計算し、周波数領域の信号S1[F]における8kHz以上の周波数成分のパワーと周波数領域の信号S2[F]における8kHz以上の周波数成分のパワーとを比較して、相対パワーパラメータ(ここでは、周波数領域の信号S1[F]における8kHz以上の周波数成分のパワーから周波数領域の信号S2[F]における8kHz以上の周波数成分のパワーを差し引いた値とする)を周波数毎に求める。   The power comparison spectrum determination unit 36 calculates, for each frequency, the power of the frequency component of 8 kHz or higher in the frequency domain signal S1 [F] and the power of the frequency component of 8 kHz or higher in the frequency domain signal S2 [F]. The power of the frequency component of 8 kHz or more in the signal S1 [F] in the region is compared with the power of the frequency component of 8 kHz or more in the signal S2 [F] in the frequency region, and the relative power parameter (here, the signal S1 in the frequency region is compared). The frequency component power of 8 kHz or more in [F] is subtracted from the power of the frequency component of 8 kHz or more in the signal S2 [F] in the frequency domain) for each frequency.

位相比較スペクトラム判定部37は、周波数領域の信号S2[F]における8kHz以下の周波数成分の位相と周波数領域の信号S3[F]における8kHz以下の周波数成分の位相それぞれを周波数毎に計算し、周波数領域の信号S2[F]における8kHz以下の周波数成分の位相と周波数領域の信号S3[F]における8kHz以下の周波数成分の位相とを比較して、相対位相パラメータ(ここでは、周波数領域の信号S2[F]における8kHz以下の周波数成分の位相から周波数領域の信号S3[F]における8kHz以下の周波数成分の位相を差し引いた値とする)を周波数毎に求める。   The phase comparison spectrum determination unit 37 calculates, for each frequency, the phase of the frequency component of 8 kHz or less in the frequency domain signal S2 [F] and the phase of the frequency component of 8 kHz or less in the frequency domain signal S3 [F] for each frequency. The phase of the frequency component of 8 kHz or less in the domain signal S2 [F] is compared with the phase of the frequency component of 8 kHz or less in the frequency domain signal S3 [F], and the relative phase parameter (here, the signal S2 in the frequency domain) is compared. A value obtained by subtracting the phase of the frequency component of 8 kHz or less in the frequency domain signal S3 [F] from the phase of the frequency component of 8 kHz or less in [F] is obtained for each frequency.

メモリ部26は、図4に示す単一指向性パターンP1と無指向性パターンP2から決定される値であって図4に示すベクトルv1に対応する値である閾値THと、図4に示す角度α°に対応する値である閾値θとを予め記憶している。なお、閾値θは以下の式で表される。ただし、Fは周波数、Vは音速を表している。
θ=2.0π×F×0.02cos(90−α)°/V
The memory unit 26 has a threshold TH that is a value determined from the unidirectional pattern P1 and the omnidirectional pattern P2 shown in FIG. 4 and that corresponds to the vector v1 shown in FIG. 4, and an angle shown in FIG. A threshold value θ that is a value corresponding to α ° is stored in advance. The threshold θ is expressed by the following formula. Here, F represents frequency and V represents sound velocity.
θ = 2.0π × F × 0.02 cos (90−α) ° / V

パワー比較スペクトラム判定部36は、8kHz以上の周波数成分に対して、相対パワーパラメータが閾値THより大きいか否かを周波数毎に判定し、相対パワーパラメータが閾値THより大きい場合に正面方向からの音成分であると判定する。また、位相比較スペクトラム判定部37は、8kHz以下の周波数成分に対して、相対位相パラメータの絶対値が閾値θより小さいか否かを周波数毎に判定し、相対位相パラメータの絶対値が閾値θより小さい場合に正面方向からの音成分であると判定する。   The power comparison spectrum determination unit 36 determines for each frequency whether or not the relative power parameter is larger than the threshold value TH for a frequency component of 8 kHz or more. If the relative power parameter is larger than the threshold value TH, the sound from the front direction is determined. Determined to be a component. Further, the phase comparison spectrum determination unit 37 determines, for each frequency, whether or not the absolute value of the relative phase parameter is smaller than the threshold value θ for a frequency component of 8 kHz or less, and the absolute value of the relative phase parameter is smaller than the threshold value θ. When it is small, it is determined that the sound component is from the front direction.

不要スペクトラム除去部39は、パワー比較スペクトラム判定部36の判定結果及び位相比較スペクトラム判定部37の判定結果に基づいて、周波数領域の信号S1[F]から正面方向からの音成分でない不要な成分を周波数領域上で除去し、その不要な成分が除去された周波数領域の信号をIFFT部40に出力する。IFFT部30は、不要スペクトラム除去部39の出力信号をIFFT処理にて時間領域の信号に変換し、第2実施形態の音声処理部6の出力信号として圧縮処理部7(図1参照)に出力する。   Based on the determination result of the power comparison spectrum determination unit 36 and the determination result of the phase comparison spectrum determination unit 37, the unnecessary spectrum removal unit 39 removes an unnecessary component that is not a sound component from the front direction from the signal S1 [F] in the frequency domain. A signal in the frequency domain that has been removed on the frequency domain and from which unnecessary components have been removed is output to IFFT section 40. The IFFT unit 30 converts the output signal of the unnecessary spectrum removing unit 39 into a signal in the time domain by IFFT processing, and outputs the signal to the compression processing unit 7 (see FIG. 1) as the output signal of the audio processing unit 6 of the second embodiment. To do.

第2実施形態の音声処理部6は、相対位相パラメータを用いて方向判定を精度良く行うことができる低周波数帯域では、相対位相パラメータを用いて方向判定を行っているが、相対位相パラメータを用いて方向判定を精度良く行うことができない高周波数帯域では、第1実施形態の音声処理部6と同様の音声処理を行っているので、第1実施形態の音声処理部6と同様の効果を奏する。   The audio processing unit 6 according to the second embodiment performs direction determination using the relative phase parameter in the low frequency band where the direction determination can be performed accurately using the relative phase parameter. In the high frequency band where the direction determination cannot be performed with high accuracy, the same audio processing as that of the audio processing unit 6 of the first embodiment is performed, and thus the same effect as that of the audio processing unit 6 of the first embodiment is obtained. .

<第3実施形態>
第1実施形態及び第2実施形態の音声処理部6では正面方向の音を判定したが、第3実施形態の音声処理部6では2方向(Lch、Rch)の音を判定する。第3実施形態の音声処理部6を用いる場合、マイク部4の構成及び各マイクの配置を第3実施形態の音声処理部6を用いる場合と同一にする(図3及び図4参照)。
<Third Embodiment>
The sound processing unit 6 of the first embodiment and the second embodiment determines a sound in the front direction, but the sound processing unit 6 of the third embodiment determines a sound in two directions (Lch, Rch). When using the audio processing unit 6 of the third embodiment, the configuration of the microphone unit 4 and the arrangement of each microphone are the same as when using the audio processing unit 6 of the third embodiment (see FIGS. 3 and 4).

第3実施形態の音声処理部6は、図8に示すように、FFT部41及び42と、パワー比較スペクトラム判定部43と、位相比較スペクトラム判定部44と、メモリ部45と、不要スペクトラム除去部46及び47と、IFFT部48及び49とを備える。   As shown in FIG. 8, the sound processing unit 6 of the third embodiment includes FFT units 41 and 42, a power comparison spectrum determination unit 43, a phase comparison spectrum determination unit 44, a memory unit 45, and an unnecessary spectrum removal unit. 46 and 47, and IFFT units 48 and 49.

続いて、第3実施形態の音声処理部6の動作について図9に示すフローチャートを参照して説明する。   Next, the operation of the voice processing unit 6 of the third embodiment will be described with reference to the flowchart shown in FIG.

ステップ#101では、FFT部41が、指向性マイク4Aの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S1[F]に変換し、その周波数領域の信号S1[F]をパワー比較スペクトラム判定部43及び位相比較スペクトラム判定部44に出力する。また、ステップ#10では、FFT部42が、無指向性マイク4Bの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S2[F]に変換し、その周波数領域の信号S2[F]をパワー比較スペクトラム判定部43及び位相比較スペクトラム判定部44並びに不要スペクトラム除去部46及び47に出力する。   In step # 101, the FFT unit 41 samples the output signal of the directional microphone 4A at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S1 [F] by FFT processing every 2048 samples. The frequency domain signal S 1 [F] is output to the power comparison spectrum determination unit 43 and the phase comparison spectrum determination unit 44. In step # 10, the FFT unit 42 samples the output signal of the omnidirectional microphone 4B at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S2 [F] by FFT processing every 2048 samples. Then, the signal S2 [F] in the frequency domain is output to the power comparison spectrum determination unit 43, the phase comparison spectrum determination unit 44, and the unnecessary spectrum removal units 46 and 47.

続くステップ#102では、パワー比較スペクトラム判定部43及び位相比較スペクトラム判定部44が、処理対象周波数fを最小値にセットする。   In subsequent step # 102, the power comparison spectrum determination unit 43 and the phase comparison spectrum determination unit 44 set the processing target frequency f to the minimum value.

続くステップ#103では、パワー比較スペクトラム判定部43が、周波数領域の信号S1[F]の処理対象周波数f成分でのパワーPW1[f]と、周波数領域の信号S2[F]の処理対象周波数f成分でのパワーPW2[f]とを算出する。また、ステップ#30では、位相比較スペクトラム判定部44が、周波数領域の信号S1[F]の処理対象周波数f成分での位相PH1[f]と、周波数領域の信号S2[F]の処理対象周波数f成分での位相PH2[f]とを算出する。   In subsequent step # 103, the power comparison spectrum determination unit 43 determines the power PW1 [f] at the processing target frequency f component of the frequency domain signal S1 [F] and the processing target frequency f of the frequency domain signal S2 [F]. The power PW2 [f] at the component is calculated. Also, in step # 30, the phase comparison spectrum determination unit 44 performs processing on the phase PH1 [f] at the processing target frequency f component of the frequency domain signal S1 [F] and the processing target frequency of the frequency domain signal S2 [F]. The phase PH2 [f] at the f component is calculated.

続くステップ#104では、パワー比較スペクトラム判定部43が、パワーPW1[f]とパワーPW2[f]とを比較して、相対パワーパラメータ(PW1[f]−PW2[f])を求め、その相対パワーパラメータが、メモリ部26に予め記憶されている閾値THL,R(図4に示すベクトルvL、vRに対応する値)の±0.5dBの範囲内であるか否かを判定する。 In subsequent step # 104, the power comparison spectrum determination unit 43 compares the power PW1 [f] with the power PW2 [f] to obtain a relative power parameter (PW1 [f] −PW2 [f]), and the relative It is determined whether or not the power parameter is within a range of ± 0.5 dB of threshold values TH L, R (values corresponding to the vectors v L and v R shown in FIG. 4) stored in the memory unit 26 in advance. .

相対パワーパラメータ(PW1[f]−PW2[f])が(閾値THL,R−0.5dB)以上(閾値THL,R+0.5dB)以下であれば(ステップ#104のYES)、L方向からの音成分、R方向からの音成分のいずれかであると判定し(ステップ#105)、ステップ#107に移行する。一方、相対パワーパラメータ(PW1[f]−PW2[f])が(閾値THL,R−0.5dB)以上(閾値THL,R+0.5dB)以下でなければ(ステップ#104のNO)、L方向からの音成分、R方向からの音成分のいずれでもなく不要音であると判定し(ステップ#106)、ステップ#112に移行する。 Relative power parameter (PW1 [f] -PW2 [f ]) is (threshold TH L, R -0.5dB) or more (threshold TH L, R + 0.5dB) not more than (YES in Step # 104), L The sound component from the direction and the sound component from the R direction are determined (step # 105), and the process proceeds to step # 107. On the other hand, the relative power parameter (PW1 [f] −PW2 [f]) is not (threshold TH L, R −0.5 dB) or more (threshold TH L, R +0.5 dB) or less (NO in step # 104). The sound component from the L direction and the sound component from the R direction are determined to be unnecessary sounds (step # 106), and the process proceeds to step # 112.

ステップ#107では、位相比較スペクトラム判定部44が、位相PH1[f]と位相PH2[f]とを比較して、相対位相パラメータ(PH1[f]−PH2[f])を求め、その相対位相パラメータとメモリ部26に予め記憶されている閾値θL(図4に示す角度βL°に対応する値)との差の絶対値と、その相対位相パラメータとメモリ部26に予め記憶されている閾値θR(図4に示す角度βR°に対応する値)との差の絶対値との大小関係を判定する。なお、閾値θL、θRはそれぞれ以下の式で表される。ただし、Fは周波数、Vは音速を表している。
θL=2.0π×F×0.02cos(90−βL)°/V
θR=2.0π×F×0.02cos(90+βR)°/V
In step # 107, the phase comparison spectrum determination unit 44 compares the phase PH1 [f] with the phase PH2 [f] to obtain a relative phase parameter (PH1 [f] −PH2 [f]), and calculates the relative phase. The absolute value of the difference between the parameter and the threshold value θ L (a value corresponding to the angle β L ° shown in FIG. 4) stored in advance in the memory unit 26, its relative phase parameter, and the memory unit 26 are stored in advance. The magnitude relation with the absolute value of the difference from the threshold value θ R (value corresponding to the angle β R ° shown in FIG. 4) is determined. The threshold values θ L and θ R are each expressed by the following equations. Here, F represents frequency and V represents sound velocity.
θ L = 2.0π × F × 0.02 cos (90−β L ) ° / V
θ R = 2.0π × F × 0.02 cos (90 + β R ) ° / V

相対位相パラメータと閾値θLとの差の絶対値が相対位相パラメータと閾値θRとの差の絶対値以下であれば(ステップ#107のYES)、L方向からの音成分であると判定し(ステップ#108)、ステップ#110に移行する。一方、相対位相パラメータと閾値θLとの差の絶対値が相対位相パラメータと閾値θRとの差の絶対値より大きければ(ステップ#107のNO)、R方向からの音成分であると判定し(ステップ#109)、ステップ#111に移行する。 If the absolute value of the difference between the relative phase parameter and the threshold value θ L is equal to or smaller than the absolute value of the difference between the relative phase parameter and the threshold value θ R (YES in step # 107), it is determined that the sound component is from the L direction. (Step # 108), the process proceeds to Step # 110. On the other hand, if the absolute value of the difference between the relative phase parameter and the threshold value θ L is larger than the absolute value of the difference between the relative phase parameter and the threshold value θ R (NO in step # 107), it is determined that the sound component is from the R direction. (Step # 109), the process proceeds to Step # 111.

ステップ#110では、不要スペクトラム除去部46がSL[f]=S2[f]とし、不要スペクトラム除去部47がSR[f]=0とし、ステップ#113に移行する。   In Step # 110, the unnecessary spectrum removing unit 46 sets SL [f] = S2 [f], and the unnecessary spectrum removing unit 47 sets SR [f] = 0, and the process proceeds to Step # 113.

ステップ#111では、不要スペクトラム除去部46がSL[f]=0とし、不要スペクトラム除去部47がSR[f]=S2[f]とし、ステップ#113に移行する。   In Step # 111, the unnecessary spectrum removing unit 46 sets SL [f] = 0, and the unnecessary spectrum removing unit 47 sets SR [f] = S2 [f], and the process proceeds to Step # 113.

ステップ#112では、不要スペクトラム除去部46がSL[f]=0とし、不要スペクトラム除去部47がSR[f]=0とし、ステップ#113に移行する。   In Step # 112, the unnecessary spectrum removing unit 46 sets SL [f] = 0, and the unnecessary spectrum removing unit 47 sets SR [f] = 0, and the process proceeds to Step # 113.

ステップ#113では、パワー比較スペクトラム判定部43及び位相比較スペクトラム判定部44によって、処理対象周波数fが最大値(例えば24kHz)にセットされているかを判定する。処理対象周波数fが最大値(例えば24kHz)にセットされていなければ(ステップ#113のNO)、処理対象周波数fを更新して一段階大きい値にセットし(ステップ#114)、ステップ#103に戻る。一方、処理対象周波数fが最大値(例えば24kHz)にセットされていれば(ステップ#113のYES)、各処理対象周波数のSL[f]の集合体であるSL[F]がIFFT部48によってIFFT処理されて時間領域の信号に変換され、第3実施形態の音声処理部6のLch出力信号として圧縮処理部7(図1参照)に出力され、各処理対象周波数のSR[f]の集合体であるSR[F]がIFFT部49によってIFFT処理されて時間領域の信号に変換され、第3実施形態の音声処理部6のRch出力信号として圧縮処理部7(図1参照)に出力される(ステップ#115)。   In step # 113, the power comparison spectrum determination unit 43 and the phase comparison spectrum determination unit 44 determine whether the processing target frequency f is set to the maximum value (for example, 24 kHz). If the processing target frequency f is not set to the maximum value (for example, 24 kHz) (NO in step # 113), the processing target frequency f is updated and set to a value larger by one step (step # 114). Return. On the other hand, if the processing target frequency f is set to the maximum value (for example, 24 kHz) (YES in step # 113), SL [F] that is an aggregate of SL [f] of each processing target frequency is generated by the IFFT unit 48. The IFFT process is performed to convert the signal into a time domain signal, which is output to the compression processing unit 7 (see FIG. 1) as an Lch output signal of the audio processing unit 6 of the third embodiment, and a set of SR [f] of each processing target frequency SR [F], which is a body, is IFFT processed by the IFFT unit 49 and converted into a signal in the time domain, and is output to the compression processing unit 7 (see FIG. 1) as an Rch output signal of the audio processing unit 6 of the third embodiment. (Step # 115).

第3実施形態の音声処理部6は、第1実施形態の音声処理部6と同様の効果を奏することに加えて、2方向の音の判定が可能であるという特徴も有している。また、メモリ部45に予め記憶させる相対パワーパラメータに関する閾値及び相対位相パラメータに関する閾値の数を本実施形態よりも増やすことによって3方向以上の音の判定が可能となる。   The sound processing unit 6 of the third embodiment has the feature that it can determine sound in two directions in addition to the same effects as the sound processing unit 6 of the first embodiment. Further, by increasing the number of thresholds related to the relative power parameter and relative phase parameter stored in advance in the memory unit 45 as compared with the present embodiment, it is possible to determine sounds in three or more directions.

<第4実施形態>
第4実施形態の音声処理部6を用いる場合、マイク部4は、図10に示すように互いに近接して配置される指向性マイク4D及び指向性マイク4Eから成る構成とする。例えば、指向性マイク4Dと指向性マイク4Eの中心間隔を2cmとする。さらに、指向性マイク4Dと指向性マイク4Eが互いに異なる指向特性を有するように、より具体的には、指向性マイク4Dが図11に示す単一指向性パターンP4を有し、指向性マイク4Eが図11に示す単一指向性パターンP5を有するように指向性マイク4D及び無指向性マイク4Eを配置する。なお、図11に示す指向特性(単一指向性パターンP4及びP5)は、音到来方向別のマイク感度を表しており、パターンを形成する或る点が中心Oから離れているほど、その或る点から中心Oに向かう方向からの音に対するマイク感度が高いことを表している。
<Fourth embodiment>
When the audio processing unit 6 according to the fourth embodiment is used, the microphone unit 4 includes a directional microphone 4D and a directional microphone 4E that are arranged close to each other as shown in FIG. For example, the center distance between the directional microphone 4D and the directional microphone 4E is 2 cm. Furthermore, more specifically, the directional microphone 4D has the unidirectional pattern P4 shown in FIG. 11 so that the directional microphone 4D and the directional microphone 4E have different directivity characteristics, and the directional microphone 4E. The directional microphone 4D and the omnidirectional microphone 4E are arranged so as to have the unidirectional pattern P5 shown in FIG. Note that the directivity characteristics (unidirectional patterns P4 and P5) shown in FIG. 11 represent the microphone sensitivity according to the sound arrival direction, and the more a certain point forming the pattern is from the center O, the more This shows that the microphone sensitivity with respect to the sound from the direction from the point toward the center O is high.

第4実施形態の音声処理部6は、図12に示すように、FFT部50及び51と、パワー比較スペクトラム判定部52と、不要スペクトラム除去部53と、IFFT部54と、利得がαである利得調整器55と、利得が(1−α)である利得調整器56及び57と、加算器58及び59とを備える。   As shown in FIG. 12, the audio processing unit 6 according to the fourth embodiment includes FFT units 50 and 51, a power comparison spectrum determination unit 52, an unnecessary spectrum removal unit 53, an IFFT unit 54, and a gain α. A gain adjuster 55, gain adjusters 56 and 57 having a gain of (1-α), and adders 58 and 59 are provided.

FFT部50は、指向性マイク4Dの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S1[F]に変換し、その周波数領域の信号S1[F]をパワー比較スペクトラム判定部52に出力する。また、FFT部51は、指向性マイク4Eの出力信号を48kHzでサンプリングしてデジタル信号に変換した後、2048サンプル毎にFFT処理にて周波数領域の信号S2[F]に変換し、その周波数領域の信号S2[F]をパワー比較スペクトラム判定部52及び不要スペクトラム除去部53に出力する。   The FFT unit 50 samples the output signal of the directional microphone 4D at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S1 [F] by FFT processing every 2048 samples. S 1 [F] is output to the power comparison spectrum determination unit 52. Further, the FFT unit 51 samples the output signal of the directional microphone 4E at 48 kHz and converts it into a digital signal, and then converts it into a frequency domain signal S2 [F] by FFT processing every 2048 samples. The signal S2 [F] is output to the power comparison spectrum determination unit 52 and the unnecessary spectrum removal unit 53.

パワー比較スペクトラム判定部52は、周波数領域の信号S1[F]のパワーと周波数領域の信号S2[F]のパワーそれぞれを周波数毎に計算し、周波数領域の信号S1[F]のパワーと周波数領域の信号S2[F]のパワーとが一致しているか否かを周波数毎に判定し、一致している場合に正面方向からの音成分であると判定する。   The power comparison spectrum determination unit 52 calculates the power of the frequency domain signal S1 [F] and the power of the frequency domain signal S2 [F] for each frequency, and the power of the frequency domain signal S1 [F] and the frequency domain. It is determined for each frequency whether or not the power of the signal S2 [F] matches, and if it matches, the sound component from the front direction is determined.

不要スペクトラム除去部53は、パワー比較スペクトラム判定部52の判定結果に基づいて、周波数領域の信号S2[F]から正面方向からの音成分でない不要な成分を周波数領域上で除去し、その不要な成分が除去された周波数領域の信号をIFFT部54に出力する。IFFT部54は、不要スペクトラム除去部53の出力信号をIFFT処理にて時間領域の信号に変換する。   Based on the determination result of the power comparison spectrum determination unit 52, the unnecessary spectrum removal unit 53 removes an unnecessary component that is not a sound component from the front direction on the frequency domain from the signal S2 [F] in the frequency domain. The frequency domain signal from which the component is removed is output to IFFT section 54. The IFFT unit 54 converts the output signal of the unnecessary spectrum removal unit 53 into a signal in the time domain by IFFT processing.

IFFT部54の出力信号は利得調整器55によって利得調整され、利得調整器56によって利得調整された指向性マイク4Dの出力信号と加算器58においてミキシングされたのち、第4実施形態の音声処理部6のLch出力信号として圧縮処理部7(図1参照)に出力される。   The output signal of the IFFT unit 54 is gain-adjusted by the gain adjuster 55, mixed with the output signal of the directional microphone 4D gain-adjusted by the gain adjuster 56 in the adder 58, and then the sound processing unit of the fourth embodiment. 6 Lch output signals are output to the compression processing unit 7 (see FIG. 1).

また、IFFT部54の出力信号は利得調整器55によって利得調整され、利得調整器57によって利得調整された指向性マイク4Eの出力信号と加算器59においてミキシングされたのち、第4実施形態の音声処理部6のRch出力信号として圧縮処理部7(図1参照)に出力される。   The output signal of the IFFT unit 54 is gain-adjusted by the gain adjuster 55, mixed with the output signal of the directional microphone 4E gain-adjusted by the gain adjuster 57 by the adder 59, and then the sound of the fourth embodiment. The Rch output signal of the processing unit 6 is output to the compression processing unit 7 (see FIG. 1).

利得調整器55〜57は、例えば、CPU17(図1参照)から出力されるカメラのズーム情報に連動してαの値を変更し、最大ズーム時にはαを1.0、ズームをしない場合にはαを0.0とする。   For example, the gain adjusters 55 to 57 change the value of α in conjunction with the camera zoom information output from the CPU 17 (see FIG. 1). α is set to 0.0.

第4実施形態の音声処理部6は、第1実施形態の音声処理部6と同様の効果を奏することに加えて、正面方向の音の強調を変更することができるという特徴も有している。   The voice processing unit 6 of the fourth embodiment has the feature that the sound enhancement in the front direction can be changed in addition to the same effects as the voice processing unit 6 of the first embodiment. .

上述した図1に示す撮像装置は、本発明に係る判定方法を集音した音声信号を記録する際に適用した集音環境判定装置を搭載した撮像装置であるが、しかし、本発明に係る判定方法は、集音した音声信号を利用して音声信号に対する方向判定を行うため、必ずしも集音した音声信号を記録する際に判定を行う必要は無く、集音した音声信号を利用して再生する際に音声信号に対する方向判定を行うこと、すなわち、集音した音声信号を記録・再生し、その再生した音声信号を利用して判定を行うことも可能である。つまり本発明では、音声信号に対する方向判定が行われる時期が集音した音声信号を記録する際に限定されず、音声信号を再生する際であっても良い。上記の通り、本発明に係る判定方法では、音声信号に対する方向判定が行われる時期が集音した音声信号を記録する際に限定されないため、映像及び音声情報を利用して行う他の処理に応じて、集音した音声信号を記録する際又は記録した音声信号を再生する際のいずれかにおいて音声信号に対する方向判定を行うことが可能となる。   The above-described imaging apparatus shown in FIG. 1 is an imaging apparatus equipped with a sound collection environment determination apparatus applied when recording a sound signal collected by the determination method according to the present invention. However, the determination according to the present invention is performed. Since the method uses the collected audio signal to determine the direction of the audio signal, there is no need to make a determination when recording the collected audio signal, and playback is performed using the collected audio signal. It is also possible to determine the direction with respect to the audio signal, that is, to record / reproduce the collected audio signal and to make the determination using the reproduced audio signal. In other words, in the present invention, the timing for determining the direction of the audio signal is not limited to recording the collected audio signal, but may be when reproducing the audio signal. As described above, in the determination method according to the present invention, the timing for performing the direction determination on the audio signal is not limited to recording the collected audio signal, so that it depends on other processing performed using video and audio information. Thus, it is possible to determine the direction of the audio signal when recording the collected audio signal or when reproducing the recorded audio signal.

以下では本発明に係る判定方法を再生時に適用した判定装置を搭載した撮像装置について説明する。   Hereinafter, an imaging apparatus equipped with a determination apparatus to which the determination method according to the present invention is applied during reproduction will be described.

図13は、本発明に係る判定装置を搭載した撮像装置の他の内部構成例を示すブロック図である。なお、図13において図1と実質上同一の部分には同一の符号を付している。   FIG. 13 is a block diagram showing another example of the internal configuration of an imaging apparatus equipped with the determination apparatus according to the present invention. In FIG. 13, parts that are substantially the same as those in FIG.

図13に示す撮像装置が図1に示す撮像装置と異なる点は、音声処理部6の代わりに音声処理部6aを設け、さらに、伸長処理部9と音声出力回路部13との間に音声処理部6bを設けている点である。   The imaging apparatus shown in FIG. 13 is different from the imaging apparatus shown in FIG. 1 in that an audio processing unit 6a is provided instead of the audio processing unit 6, and audio processing is performed between the expansion processing unit 9 and the audio output circuit unit 13. The point is that a portion 6b is provided.

音声処理部6aは、音声処理部6と異なり、マイク部4からのアナログ信号である音声信号に対してA/D変換は行うが、本発明に係る判定方法と、その判定結果に応じた音声処理を行わないものである。   Unlike the audio processing unit 6, the audio processing unit 6a performs A / D conversion on an audio signal that is an analog signal from the microphone unit 4, but the determination method according to the present invention and the audio corresponding to the determination result No processing is performed.

音声処理部6bは、FFT部がA/D変換を行わない点を除き、音声処理部6と同様の構成である。音声処理部6bにおいて行われる音声処理は、基本的に音声処理部6において行われる音声処理と同様であるので、ここでは説明を省略する。   The audio processing unit 6b has the same configuration as the audio processing unit 6 except that the FFT unit does not perform A / D conversion. Since the audio processing performed in the audio processing unit 6b is basically the same as the audio processing performed in the audio processing unit 6, the description thereof is omitted here.

また、本発明は、音声信号に対する方向判定に関するものであるので、映像に関連するブロックは必須のものでない。したがって、本発明は、撮像装置以外の電子機器、例えば、音声記録装置、音声再生装置、音声記録再生装置(例えばICレコーダ)等にも適用することができる。   In addition, since the present invention relates to direction determination for an audio signal, a block related to a video is not essential. Therefore, the present invention can also be applied to electronic devices other than the imaging device, for example, an audio recording device, an audio reproducing device, an audio recording / reproducing device (for example, an IC recorder), and the like.

また、上述した第1〜第4実施形態では、閾値を音声処理部6内のメモリ部に記憶させたが、メモリ18に記憶させ音声処理部6内のメモリ部を廃止するようにしてもよい。   In the first to fourth embodiments described above, the threshold value is stored in the memory unit in the voice processing unit 6. However, the threshold value may be stored in the memory 18 and the memory unit in the voice processing unit 6 may be abolished. .

また、上述した第1〜第4実施形態は適宜組み合わせて実施することが可能である。例えば、第1実施形態の判定手法と第3実施形態の判定手法を組み合わせ、第1実施形態の判定手法により得られた正面方向の音を利得αで利得調整したものと、第3実施形態の判定手法により得られたL方向の音を利得(1−α)で利得調整したものとをミキシングしてLch出力信号を生成し、第1実施形態の判定手法により得られた正面方向の音を利得αで利得調整したものと、第3実施形態の判定手法により得られたR方向の音を利得(1−α)で利得調整したものとをミキシングしてRch出力信号を生成することが可能である。   The first to fourth embodiments described above can be implemented in appropriate combination. For example, the determination method of the first embodiment and the determination method of the third embodiment are combined, and the sound in the front direction obtained by the determination method of the first embodiment is adjusted with the gain α, and the third embodiment The L direction sound obtained by the determination method is mixed with the gain adjusted by the gain (1-α) to generate an Lch output signal, and the front direction sound obtained by the determination method of the first embodiment is generated. It is possible to generate an Rch output signal by mixing the gain adjusted with the gain α and the R direction sound obtained by the determination method of the third embodiment and adjusting the gain with the gain (1-α). It is.

また、上述した第1〜第4実施形態では、音声信号に対する方向判定として、特定方向からの音成分を判定したが、本発明はこれに限定されることはなく、周波数毎に求めた相対パワーパラメータに基づいて音源方向を判定するようにしてもよい。音源方向の判定結果の利用方法としては、例えばテレビ会議システムにおいて利用し、音源方向(発言者の方向)にカメラが向くように、音源方向の判定結果に応じてカメラを制御する等の利用方法が考えられる。   In the first to fourth embodiments described above, the sound component from the specific direction is determined as the direction determination for the audio signal. However, the present invention is not limited to this, and the relative power obtained for each frequency is determined. The sound source direction may be determined based on the parameter. As a method of using the determination result of the sound source direction, for example, a method of using in a video conference system and controlling the camera according to the determination result of the sound source direction so that the camera faces the sound source direction (speaker direction). Can be considered.

本発明は、音声信号を記憶及び/又は再生する電子機器(例えば、撮像装置やICレコーダ、それらの機能を搭載した携帯機器、或いは、音声信号を記憶及び/又は再生する手段としてコンピュータを機能させるためのソフトウェアにより動作するコンピュータ)等に適用可能である。   The present invention makes an electronic device that stores and / or reproduces an audio signal (for example, an imaging apparatus, an IC recorder, a portable device equipped with those functions, or a computer function as a means for storing and / or reproducing an audio signal) For example, a computer that is operated by software).

は、本発明に係る集音環境判定装置を搭載した撮像装置の一内部構成例を示すブロック図である。These are block diagrams which show the example of 1 internal structure of the imaging device carrying the sound collection environment determination apparatus which concerns on this invention. は、図1に示す撮像装置の動画撮影時の基本動作を説明するためのフローチャートである。These are the flowcharts for demonstrating the basic operation | movement at the time of video recording of the imaging device shown in FIG. は、第1実施形態におけるマイク部の指向特性を示す図である。These are figures which show the directivity characteristic of the microphone part in 1st Embodiment. は、第1実施形態におけるマイク部の各マイクの配置を示す図である。These are figures which show arrangement | positioning of each microphone of the microphone part in 1st Embodiment. は、第1実施形態の音声処理部の構成を示すブロック図である。These are block diagrams which show the structure of the audio | voice processing part of 1st Embodiment. は、第2実施形態におけるマイク部の各マイクの配置を示す図である。These are figures which show arrangement | positioning of each microphone of the microphone part in 2nd Embodiment. は、第2実施形態の音声処理部の構成を示すブロック図である。These are block diagrams which show the structure of the audio | voice processing part of 2nd Embodiment. は、第3実施形態の音声処理部の構成を示すブロック図である。These are block diagrams which show the structure of the audio | voice processing part of 3rd Embodiment. は、第3実施形態の音声処理部の動作フローチャートである。These are the operation | movement flowcharts of the audio | voice processing part of 3rd Embodiment. は、第4実施形態におけるマイク部の指向特性を示す図である。These are figures which show the directivity characteristic of the microphone part in 4th Embodiment. は、第4実施形態におけるマイク部の各マイクの配置を示す図である。These are figures which show arrangement | positioning of each microphone of the microphone part in 4th Embodiment. は、第4実施形態の音声処理部の構成を示すブロック図である。These are block diagrams which show the structure of the audio | voice processing part of 4th Embodiment. は、本発明に係る判定装置を搭載した撮像装置の他の内部構成例を示すブロック図である。These are block diagrams which show the other internal structural example of the imaging device carrying the determination apparatus which concerns on this invention. は、従来の特定音源強調手法を実現するための音声処理部の構成を示すブロック図である。These are block diagrams which show the structure of the audio | voice processing part for implement | achieving the conventional specific sound source emphasis method. は、マイクロホンと音源との位置関係を示す図である。These are figures which show the positional relationship of a microphone and a sound source.

符号の説明Explanation of symbols

1 固体撮像素子(イメージセンサ)
2 レンズ部
3 AFE
4 マイク部
4A 指向性マイク
4B 無指向性マイク
5 画像処理部
6、6a、6b 音声処理部
7 圧縮処理部
8 ドライバ部
9 伸長処理部
10 ビデオ出力回路部
11 ビデオ出力端子
12 ディスプレイ部
13 音声出力回路部
14 音声出力端子
15 スピーカ部
16 タイミングジェネレータ(TG)
17 CPU
18 メモリ
19 操作部
20、21 バス回線
22 外部メモリ
23、24、29〜31、41、42、50、51 FFT部
25、36、43、52 パワー比較スペクトラム判定部
26、38、45 メモリ部
27、39、46、47、53 不要スペクトラム除去部
28、40、48、49、54 IFFT部
32、33 HPF
34、35 LPF
37、44 位相比較スペクトラム判定部
55〜57 利得調整器
58、59 加算器
P1、P4、P5 単一指向性パターン
P2 無指向性パターン
P3 音声処理により得られる新たな指向性パターン
1 Solid-state image sensor (image sensor)
2 Lens part 3 AFE
DESCRIPTION OF SYMBOLS 4 Microphone part 4A Directional microphone 4B Omnidirectional microphone 5 Image processing part 6, 6a, 6b Audio processing part 7 Compression processing part 8 Driver part 9 Decompression processing part 10 Video output circuit part 11 Video output terminal 12 Display part 13 Audio output Circuit unit 14 Audio output terminal 15 Speaker unit 16 Timing generator (TG)
17 CPU
18 Memory 19 Operation unit 20, 21 Bus line 22 External memory 23, 24, 29-31, 41, 42, 50, 51 FFT unit 25, 36, 43, 52 Power comparison spectrum determination unit 26, 38, 45 Memory unit 27 , 39, 46, 47, 53 Unnecessary spectrum removing unit 28, 40, 48, 49, 54 IFFT unit 32, 33 HPF
34, 35 LPF
37, 44 Phase comparison spectrum determination unit 55-57 Gain adjuster 58, 59 Adder P1, P4, P5 Unidirectional pattern P2 Non-directional pattern P3 New directivity pattern obtained by voice processing

Claims (9)

第1のマイクロホンの出力信号を時間周波数変換する第1の時間周波数変換部と、
前記第1のマイクロホンとは指向特性が異なる第2のマイクロホンの出力信号を時間周波数変換する第2の時間周波数変換部と、
前記第1の時間周波数変換部から出力される周波数領域の信号のパワーと前記第2の時間周波数変換部から出力される周波数領域の信号のパワーとを、所定の周波数帯域において周波数毎に比較するパワー比較部と、
前記パワー比較部での比較結果を用いて特定方向からの音又は音源方向を判定する判定部とを備えることを特徴とする判定装置。
A first time-frequency converter that converts the output signal of the first microphone to time-frequency;
A second time-frequency conversion unit that performs time-frequency conversion of an output signal of a second microphone having a directivity characteristic different from that of the first microphone;
The power of the frequency domain signal output from the first time frequency converter is compared with the power of the frequency domain signal output from the second time frequency converter for each frequency in a predetermined frequency band. A power comparator,
And a determination unit that determines a sound or a sound source direction from a specific direction using a comparison result in the power comparison unit.
前記第1のマイクロホンと前記第2のマイクロホンとの指向特性の相違量に基づく判定条件を格納する記憶部を備え、
前記判定部が、前記パワー比較部での比較結果と前記記憶部に格納されている判定条件とから特定方向からの音を判定することを特徴とする請求項1に記載の判定装置。
A storage unit for storing a determination condition based on a difference in directivity between the first microphone and the second microphone;
The determination device according to claim 1, wherein the determination unit determines a sound from a specific direction based on a comparison result in the power comparison unit and a determination condition stored in the storage unit.
前記所定の周波数帯域が第1の周波数帯域であって、
前記第2のマイクロホンと指向特性が同一である第3のマイクロホンの出力信号を時間周波数変換する第3の時間周波数変換部と、
前記第2の時間周波数変換部から出力される周波数領域の信号の位相と前記第3の時間周波数変換部から出力される周波数領域の信号の位相とを、前記第1の周波数帯域より低い帯域である第2の周波数帯域において周波数毎に比較する位相比較部と、
前記第1のマイクロホンと前記第2のマイクロホンとの指向特性の相違量に基づく第1の判定条件を格納する第1の記憶部と、
前記第2のマイクロホンと前記第3のマイクロホンとの位置関係に基づく第2の判定条件を格納する第2の記憶部とを備え、
前記判定部が、前記パワー比較部での比較結果と前記第1の記憶部に格納されている第1の判定条件とから前記第1の周波数帯域の特定方向からの音を判定し、前記位相比較部での比較結果と前記第2の記憶部に格納されている第2の判定条件とから前記第2の周波数帯域の特定方向からの音を判定することを特徴とする請求項1に記載の判定装置。
The predetermined frequency band is a first frequency band;
A third time-frequency conversion unit for time-frequency converting the output signal of the third microphone having the same directivity characteristics as the second microphone;
The phase of the frequency domain signal output from the second time frequency converter and the phase of the frequency domain signal output from the third time frequency converter in a band lower than the first frequency band. A phase comparator for comparing each frequency in a certain second frequency band;
A first storage unit that stores a first determination condition based on a difference in directivity between the first microphone and the second microphone;
A second storage unit that stores a second determination condition based on a positional relationship between the second microphone and the third microphone;
The determination unit determines sound from a specific direction of the first frequency band from a comparison result in the power comparison unit and a first determination condition stored in the first storage unit, and the phase The sound from a specific direction of the second frequency band is determined from a comparison result in the comparison unit and a second determination condition stored in the second storage unit. Judgment device.
前記第1の時間周波数変換部から出力される周波数領域の信号の位相と前記第2の時間周波数変換部から出力される周波数領域の信号の位相とを、前記所定の周波数帯域において周波数毎に比較する位相比較部と、
前記第1のマイクロホンと前記第2のマイクロホンとの指向特性の相違量に基づく第1の判定条件を格納する第1の記憶部と、
前記第1のマイクロホンと前記第2のマイクロホンとの位置関係に基づく第2の判定条件を格納する第2の記憶部とを備え、
前記判定部が、前記パワー比較部での比較結果と前記第1の記憶部に格納されている第1の判定条件とから第1の方向からの音、第2の方向からの音のいずれかであるか否かを判定する一次判定部と、前記一次判定部によって、前記第1の方向からの音、前記第2の方向からの音のいずれかであると判定された場合、前記位相比較部での比較結果と前記第2の記憶部に格納されている第2の判定条件とから、前記第1の方向からの音であるか否かを判定する二次判定部とを有することを特徴とする請求項1に記載の判定装置。
The phase of the frequency domain signal output from the first time frequency converter is compared with the phase of the frequency domain signal output from the second time frequency converter for each frequency in the predetermined frequency band. A phase comparator to
A first storage unit that stores a first determination condition based on a difference in directivity between the first microphone and the second microphone;
A second storage unit that stores a second determination condition based on a positional relationship between the first microphone and the second microphone;
The determination unit is either a sound from the first direction or a sound from the second direction based on the comparison result in the power comparison unit and the first determination condition stored in the first storage unit. If the primary determination unit that determines whether the sound is a sound from the first direction or the sound from the second direction is determined by the primary determination unit and the primary determination unit, the phase comparison A secondary determination unit that determines whether the sound is from the first direction based on the comparison result in the unit and the second determination condition stored in the second storage unit. The determination apparatus according to claim 1, characterized in that:
前記第1のマイクロホンの指向性パターンと前記第2のマイクロホンの指向特性パターンとが左右対称であって、
前記パワー比較部によって、前記第1の時間周波数変換部から出力される周波数領域の信号のパワーと前記第2の時間周波数変換部から出力される周波数領域の信号のパワーとが等しいとの比較結果が得られたときに、前記判定部が、正面方向からの音であると判定することを特徴とする請求項1に記載の判定装置。
The directivity pattern of the first microphone and the directivity pattern of the second microphone are symmetrical,
Comparison result that the power of the frequency domain signal output from the first time frequency converter is equal to the power of the frequency domain signal output from the second time frequency converter by the power comparator. The determination device according to claim 1, wherein the determination unit determines that the sound is from the front direction when the sound is obtained.
請求項1〜5に記載の判定装置を少なくとも一つ備え、
前記判定装置の判定結果に基づき、集音した音声信号に対して音声処理を施すことを特徴とする電子機器。
Comprising at least one determination device according to claim 1,
An electronic apparatus that performs sound processing on a collected sound signal based on a determination result of the determination device.
集音した音声信号の記録・再生機能を有し、
集音した音声信号を記録する際、又は、記録した音声信号を再生する際のいずれかにおいて前記判定装置が判定処理を行う請求項6に記載の電子機器。
It has a recording / playback function for collected audio signals,
The electronic device according to claim 6, wherein the determination device performs determination processing either when recording the collected audio signal or when reproducing the recorded audio signal.
映像を撮影するカメラを備える撮像装置である請求項6又は請求項7に記載の電子機器。   The electronic apparatus according to claim 6, wherein the electronic apparatus is an imaging apparatus including a camera that captures an image. 第1のマイクロホンの出力信号を時間周波数変換する第1の時間周波数変換ステップと、
前記第1のマイクロホンとは指向特性が異なる第2のマイクロホンの出力信号を時間周波数変換する第2の時間周波数変換ステップと、
前記第1の時間周波数変換ステップによって得られる周波数領域の信号のパワーと前記第2の時間周波数変換ステップによって得られる周波数領域の信号のパワーとを、所定の周波数帯域において周波数毎に比較するパワー比較ステップと、
前記パワー比較ステップによって得られる比較結果を用いて特定方向からの音又は音源方向を判定する判定ステップとを有することを特徴とする判定方法。
A first time-frequency conversion step of time-frequency converting the output signal of the first microphone;
A second time-frequency conversion step for time-frequency converting an output signal of a second microphone having a directivity characteristic different from that of the first microphone;
Power comparison for comparing the frequency domain signal power obtained by the first time frequency conversion step and the frequency domain signal power obtained by the second time frequency conversion step for each frequency in a predetermined frequency band. Steps,
And a determination step of determining a sound or sound source direction from a specific direction using a comparison result obtained by the power comparison step.
JP2008146840A 2008-06-04 2008-06-04 Judgment device, electronic apparatus including the same, and judgment method Expired - Fee Related JP5063489B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008146840A JP5063489B2 (en) 2008-06-04 2008-06-04 Judgment device, electronic apparatus including the same, and judgment method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008146840A JP5063489B2 (en) 2008-06-04 2008-06-04 Judgment device, electronic apparatus including the same, and judgment method

Publications (2)

Publication Number Publication Date
JP2009296219A JP2009296219A (en) 2009-12-17
JP5063489B2 true JP5063489B2 (en) 2012-10-31

Family

ID=41544009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008146840A Expired - Fee Related JP5063489B2 (en) 2008-06-04 2008-06-04 Judgment device, electronic apparatus including the same, and judgment method

Country Status (1)

Country Link
JP (1) JP5063489B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106125048B (en) 2016-07-11 2019-05-24 浙江大华技术股份有限公司 A kind of sound localization method and device
JP5514698B2 (en) * 2010-11-04 2014-06-04 パナソニック株式会社 hearing aid
EP2641346B2 (en) * 2010-11-18 2023-12-06 Noopl, Inc. Systems and methods for reducing unwanted sounds in signals received from an arrangement of microphones
JP6931296B2 (en) * 2017-06-05 2021-09-01 キヤノン株式会社 Speech processing device and its control method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3355598B2 (en) * 1996-09-18 2002-12-09 日本電信電話株式会社 Sound source separation method, apparatus and recording medium
JP3435357B2 (en) * 1998-09-07 2003-08-11 日本電信電話株式会社 Sound collection method, device thereof, and program recording medium

Also Published As

Publication number Publication date
JP2009296219A (en) 2009-12-17

Similar Documents

Publication Publication Date Title
US8401364B2 (en) Imaging device and playback device
JP5801026B2 (en) Image sound processing apparatus and imaging apparatus
JP5263767B2 (en) Imaging device and mode suitability determination method
JP2009156888A (en) Speech corrector and imaging apparatus equipped with the same, and sound correcting method
KR101739942B1 (en) Method for removing audio noise and Image photographing apparatus thereof
JP2008263498A (en) Wind noise reducing device, sound signal recorder and imaging apparatus
JP2009065587A (en) Voice-recording device and voice-reproducing device
JP2011193424A (en) Imaging apparatus and method, and program
KR101760345B1 (en) Moving image photographing method and moving image photographing apparatus
JP5063489B2 (en) Judgment device, electronic apparatus including the same, and judgment method
JP6369612B2 (en) Sound processing apparatus and sound processing program
JP2009130767A (en) Signal processing apparatus
JP2009005133A (en) Wind noise reducing apparatus and electronic device with the wind noise reducing apparatus
JP2010166516A (en) Acoustic processing device, electronic apparatus with the same and acoustic processing method
JP2011205527A (en) Imaging apparatus, method and program
JP2011120165A (en) Imaging apparatus
JP5018860B2 (en) Signal processing apparatus and imaging apparatus
WO2013146893A1 (en) Digital camera
JP5171369B2 (en) Sound collection environment determination device, electronic apparatus including the same, and sound collection environment determination method
JP2001326990A (en) Acoustic signal processor and its processing method
US11729548B2 (en) Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones
US20220383891A1 (en) Sound processing apparatus and control method
JP2010134260A (en) Electronic apparatus and voice processing method
JP2011155580A (en) Imaging apparatus
JP5072714B2 (en) Audio recording apparatus and audio reproduction apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120807

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees